ОБ АВТОРЕ

Окончил факультет журналистики БГУ.

Работал в специализированных изданиях «Отдых и путешествия» и «Мобила», был штатным корреспондентом портала Open.by.

Внештатно сотрудничает с интернет-порталами TUT.by и CityDog.by, газетой «Аргументы и факты» и журналом «OnAir».

Автор и соавтор нескольких энциклопедий и путеводителей.

Активный блогер и краевед. 

Вы здесь

Распознайка

Вот понадобилось нам срочно распознать текст на отсканированном документе. Делать это приходится нечасто, поэтому OCR-программы (Optical Character Recognition – оптическое распознавание символов) на компьютере не установлены. Самое время протестировать онлайн-сервисы по распознаванию текста. Mediakritika.by опробовала четыре из них.

Когда-то такие программы были платными и стоили дорого, вследствие чего пользователи распространяли взломанные версии ABBYY FineReader. Потом появились бесплатные и свободные продукты вроде Cognitive CuneiForm. Но мы пользуемся распознаванием так редко, что даже инсталляторов этих программ не храним у себя. И вместо того, чтобы искать, устанавливать и настраивать программы, попробуем обойтись веб-сервисами, которые избавляют нас от необходимости долго изучать инструкцию.

Для проверки сервисов мы на лету сфотографировали программу мероприятия из первого подвернувшегося пресс-релиза.

Чтобы распознавание прошло успешно, иногда советуют преобразовать фотографию из цветного в серое или даже черно-белое, - тогда на снимке не будет артефактов, паразитной засветки и т.п. Но мы все оставим как есть.

 

Free Online OCR

В бесплатной версии позволяет распознавать до 15 изображений (максимум 5 Мб) в час на 46 языках (включая белорусский). После регистрации можно загонять на распознавание архивы и многостраничные документы с указанием отдельных страниц (объемом до 100 Мб), преобразовывать готовые файлы в разные форматы, хранить файлы на сервере и использовать их повторно и менять другие настройки.

Загружаем файл и вводим простую цифровую «капчу». Распознавание прошло очень быстро – буквально за пару секунд (быстрее, чем сам файл загружался на сервер). На выходе сервис показывает нам текстовую версию распознанного документа и предлагает скачать «вордовский» файл.

Сравниваем текст с исходным файлом. Сервис сохранил разбивку на абзацы, а вот шрифт предложил свой, и выделение отдельных строк жирным начертанием проигнорировал. Теперь ищем ошибки. Название гостиницы Hyangsan Hotel сервис воспринял как «Нуапап Ноне1». Зарегистрированные пользователи, как утверждается, могут распознавать документы сразу на нескольких языках, а пока что сервис наделал и других ошибок в названиях на латинице: название монастыря Pohyon Buddhist Temple воспринял как «Роьуоп Buddhist Тетр1е», а название корабля Pueblo – как «РиеЫо». Также вместо «СПА-процедуры» написал «СНА-процедуры», вместо «буддистский» - «буддистекий», вместо «День 6» - «День б». В целом мы насчитали 6 ошибок на страницу текста, что «лечится» двухминутным редактированием. Скорость и качество работы признаем хорошими.

 

NewOCR

Этот сервис хвастается, что распознает 106 языков (белорусский в том числе) и шрифтов, не требует регистрации, поддерживает множество форматов (в том числе архивы) и не имеет ограничений по загрузке файлов. Сервис позволяет не только загрузить документ с компьютера, но и указать ссылку на файл в интернете.

Загружаем файл, жмем кнопку Preview. Сервис сам определил зону размещения текста на странице и указал, что документ содержит текст на двух языках: русском и английском. После распознавания предлагается перевести текст через системы Google или Bing либо отредактировать в GoogleDocs. Форматов сохранения – три: .TXT, .DOC, .PDF.

Замечания по тексту: опять свой шрифт и отсутствие выделения жирным, лишние строки между абзацами и многократная замена строчной буквы «в» прописной. С чем это связано – непонятно. В остальном ошибок нет, иностранные названия распознаны точно, и в целом текст нуждается в минимальной редактуре.

 

FreeOCR

Этот швейцарский сервис умеет распознавать 29 языков (белорусского нет) и ограничивает пользователя 6 мегабайтами на каждый графический файл (можно как загружать с компьютера, так и указывать URL-адрес); все загруженные файлы автоматически удаляются через полчаса. Пользователь может сам поставить галочки напротив требуемых языков.

Сервис честно предупреждает, что на картинку с большим числом текста может уйти вплоть до трех минут, но с нашим файлом справился быстрее. Вот только качество распознавания оказалось никаким: на выходе мы получили непонятный набор цифр и редких букв.

Попытка указать один лишь русский язык привела к такому результату (цитата):

«Маша и. фазан—г не ЕЁ но;

Пооыо цитаты—З юшщо чего: штаты ш ЁЁыЁЁЁоЁЁЗ тощи топот? 25 2958

мат—поет ещыщдообдо ВЁЕЁ 2.955 пшик» тогда? ш 2:98 поЁЗошшЁ„ ириса

погашает понопЁоояоо ыщшдощцо шкоде вБпоыФЁо точа: ЕЕ по шпионы. Ода—нач!

тотошотош итак: высоты—Ё он повышено ЁЁы о пшенице: в щшочоЁног

погщщщнштыёшшщшож мощи. ОЁЕЁЕЁ оочтшошиы || 7369,» „АЗЕ? ы повозок гейше

убывает ЁЕЁР сохпыщщшёщоощ по шпагат шаек: пощечину ш цвета поочшшпёоё

„8:50 заботам нём—3:5 Истые.»

Вывод: пользоваться этим нельзя.

 

ABBYY FineReader Online

У компании ABBYY, разработчика известной программы для распознавания текста - FineReader - есть и онлайн-версия. Для работы потребуется простая регистрация с подтверждением по e-mail. После этого пользователь в течение 15 дней может распознать бесплатно 10 страниц текста. Сервис поддерживает 42 языка, а текст можно не только сохранять в один из множества форматов (текст, таблицы, презентации, PDF, электронные книги FB2 и Epub), но и выгружать в облачные хранилища Dropbox, Google Drive и Microsoft OneDrive, а заодно и автоматически переводить. Все сгенерированные файлы хранятся на сервере в течение двух недель.

Сервис угадал шрифт, но ошибся с его размером, жирные слова тоже не выделил. Зато в остальном – вообще ни единой ошибки. Все иноязычные слова распознаны верно, лишних строк между абзацами нет. Вывод – рекомендуем к использованию, если вас не смущает необходимость регистрации.

Оценить материал:
5
Средняя: 5 (1 оценка)
распечатать Обсудить в: