ОБ АВТОРЕ

Окончил факультет журналистики БГУ.

Работал в специализированных изданиях «Отдых и путешествия» и «Мобила», был штатным корреспондентом портала Open.by.

Внештатно сотрудничает с интернет-порталами TUT.by и CityDog.by, газетой «Аргументы и факты» и журналом «OnAir».

Автор и соавтор нескольких энциклопедий и путеводителей.

Активный блогер и краевед. 

Вы здесь

Лечим головную боль журналистов: как снять текст с диктофона

Головная боль журналистов: как снять диктофонную запись и при этом не затратить много времени? Тестируем некоторые программы и веб-сервисы, которые помогут преобразовать речь в текст.

Для тестирования мы надиктовали вот такой текст из «Справочника журналиста» (Н.Богданов, Б.Вяземский) 1971 года издания:

«В связи с грандиозными успехами советской науки в завоевании космоса американская пресса подняла истошный крик о том, что, мол, у русских имеются не только удачи, но и много поражений и жертв. Американские газеты наперебой стали смаковать лживое сообщение о том, что еще до того как Юрий Гагарин проложил дорогу в космос, погибло много советских космонавтов».

Теперь будем «скармливать» этот текст различным программам и сервисам.

 

«Голосовой блокнот»

Веб-сервис работает только в браузере Google Chrome (и его форках). Запись можно не только надиктовывать, но и загружать из интернета – при этом они должны быть в формате html5. Это значит, что можно, например, указать ролик на YouTube, но свою диктофонную запись загрузить не выйдет, поэтому мы используем «костыль»: располагаем диктофон напротив микрофона, подключенного к компьютеру, нажимаем в браузере кнопку «включить запись» и одновременно включаем воспроизведение на самом диктофоне. Сервис довольно уверенно начал распознавать наш текст, но под конец все чаще стал «спотыкаться». В результате получилось следующее:

«В связи с грандиозными успехами советской науки в завоевание космоса американская пресса подняла истошный крик что вместо русских имеются не только удачи моему предложению Американские газеты наперебой стали 40 0 сообщениях  как Юрий Гагарин в советских космонавтов».

 

«Войсноут»

Этот сервис работает на том же Web Speech API – а значит, можно ожидать такого же уровня распознавания, как в «Голосовом блокноте». Как и предыдущий сервис, «Войсноут» позволяет менять регистр букв и расставлять знаки препинания. Что ж, выполним контрольную проверку. Вот что получилось:

«Грандиозными средствами советы наутилус выживание в космосе американская пресса подняла истошный крик что вместо русских певиц не только удачи и много приложений американские газеты наперебой стали создавать живые сообщение что еще до того как юрий гагарин в космос советских космонавтов».

Почему-то сейчас качество распознавания оказалось ощутимо хуже – из всего массива несвязного текста понятно лишь, что американская пресса подняла истошный крик о чем-то, что случилось до Юрия Гагарина.

На том же движке работают сервисы Online Dictation и Talk Typer - они также требуют для работы браузер Google Chrome.

 

RealSpeaker

Разработка компании «РеалСпикер Лаб» из Казани - довольно свежий продукт: в описании на сайте сказано: «Мы работаем почти 3 года и в разработку технологии вкладывается труд более 5 специалистов. Наша компания запустила бета версию продукта для ОС Windows, которую на данный момент использует более 3 тыс. платных пользователей (по состоянию на ноябрь 2014 года)». Это самостоятельная программа для установки на компьютер – как утверждает производитель, поддерживаются платформы Windows 7, 8 и даже 10. Инсталлятор «весит» почти 41 Мб, для установки требуется 387 Мб свободного места. Программа работает очень нестабильно, несколько раз она «вылетает», не дав нам дочитать текст. Справка с «мануалом» не запускается вовсе. Текст распознается очень долго: ты уже продиктовал предложение и сидишь, ждешь, пока на экране появится нужный текст. А он может и вовсе не появиться – как будто ты ничего и не надиктовывал. Отдельные участки диктофонной записи пришлось включать по два-три раза, чтобы программа вывела на экран хоть какой-нибудь текст. В итоге получилось вот так:

«грандиозными успехами советской науки в завоевание космоса американская пресса подняла истошный крик американские газеты наперебой стали смотреть живая сообщение что еще до того как юрий гагарин проложил дорогу погибло советских космонавтов».

Во второй раз мы зачитали это же сообщение вживую. Читать приходится медленно и очень четко, и все равно программа неоднократно ошибается:

«связи с грандиозными успехами советской науки в завоевание космоса американская пресса подняла истошный крик о том думал о русских имеются не только удачи много поражений ежа американские газеты наперебой стали смысл жизни сообщение о том что еще до того как юрий гагарин проложил дорогу в космос погибло много советских космонавтов».

В целом можно признать, что качество распознавания текста еще хуже, чем через веб-сервисы, рассмотренные выше. Зато программа умеет зачем-то определять ваше лицо в веб-камере и заодно ваш рот на лице. Возможно, угадывание текста ведется не только по звуку, но и с помощью артикуляции говорящего. По крайней мере, при таком объеме установленной программы этого можно было ожидать, но на выходе результат все равно плачевный. Стоимость программы в зависимости от версии – от 427 российских рублей (6,2$, действительна в течение месяца) до 2.025 рублей (29,37$, неограниченная по времени).

Когда-то давно была популярна программа распознавания речи «Горыныч» от российской компании VoiceLock, но она была не очень проста в установке, для начала работы требовалось пройти обучение, а пользователи отмечали общую «глючность» программы и низкое качество распознавания. Кроме того, вот уже несколько лет как разработка заброшена.

Перспективной выглядит программа DWS Speak Writer – последняя версия 3.5 вышла осенью 2014 года. Правда, программа платная, и протестировать нам ее не удалось. Вряд ли и простому журналисту захочется купить ее, потому что по поводу стоимости разработчик сообщает следующее:

«Полное развёртывание со всеми модулями и матрицами обучения, на один сервер: ~ $1.750.000 (необходимо 4 специалиста для внедрения). Развёртывание базовых модулей (без web, online, poster и пр.) и базовые матрицы обучения, на один сервер: ~ $1.190.000 (необходимо 2 специалиста для внедрения). Развёртывание базовых модулей (без web, online, poster и пр.) без матриц обучения, на один сервер: ~ $899.000 (необходим 1 специалист для внедрения). Полное развёртывание получить, практически, не реально. Собрать 4 спеца для работы в одно время в одном месте - очень сложно. Нужен очень сильный, эмоциональный проект, чтобы он нашёл отклик у четверых наших друзей, готовых помочь вашей компании».

Похоже, разработка предназначена для, скажем, полной записи всех диалогов «на лету» какого-нибудь фильма. Обычному пользователю это вряд ли нужно.

Словом, для журналистов все же нашлось несколько решений по преобразованию диктофонной записи в текст, но они далеки от идеала. Запись должна быть четкой и без шумов, а ваш собеседник – хотя бы Юрием Левитаном. Но и это не застрахует вас от ошибок распознавания.

Оценить материал:
5
Средняя: 5 (1 оценка)
распечатать Обсудить в: