Rambler's Top100
 
 
  18 марта 2010 года Компьютерра
Компьюлента
CIO
Бизнес-журнал
Инфобизнес
Mobilis | Платформа | Периферия | Мультимедиа | Софтерра | Вещь дня

Мгновенное извлечение текста из изображений

Автор: Андрей Крупин
Опубликовано 02 июля 2009 года

Работая с размещенными в Сети материалами, иногда возникает необходимость на скорую руку выдернуть из найденной картинки или отсканированной страницы бумажного издания текст для дальнейшего редактирования в Microsoft Office или OpenOffice, либо для отправки по электронной почте или публикации в Интернете. Нижеследующие практические приёмы помогут справиться с данной задачей за считанные минуты.

Способ первый - использование систем распознавания текста (OCR). Раньше они были жутко дорогими, а сейчас их стоимость снизилась до приемлемого уровня, и многие из OCR-систем переехали в онлайн, освободив тем самым пользователя от необходимости устанавливать дополнительное программное обеспечение на компьютер. Ярким примером мигрировавшего в Сеть продукта является сервис ABBYY FineReader Online, позволяющий быстро и легко конвертировать отсканированные документы и цифровые фотографии в редактируемые форматы. Система умеет распознавать документы размером не более 10 Мб любого из форматов BMP, PCX, DCX, JPEG/JPEG 2000, PNG, TIFF/TIF, GIF, DjVu на русском, английском, немецком и французском языках. При этом результат распознавания может быть сохранен в виде DOC, XLS, RTF, TXT или PDF-файла. В настоящий момент FineReader Online работает в тестовом режиме и после регистрации позволяет пользователю бесплатно распознавать до 50 страниц в день. О стоимости услуг пока нет никакой информации.

Вместо FineReader Online можно воспользоваться другим коммерческим сервисом Online OCR. Его особенностями являются возможность выбора из 28-ми языков распознавания и функция извлечения текста с определенных листов многостраничного документа. Системе можно скармливать файлы форматов TIFF, JPEG/JPG, BMP, PCX, PNG, GIF и PDF размером не более 7 Мб. Для получения качественного результата распознавания разрешение картинок должно быть не меньше 200 dpi. Выходные форматы файлов - DOC, XLS, RTF, TXT, PDF и HTML. Услуги Online OCR платные, и стоимость их варьируется от 80 копеек до 2,5 рублей за страницу распознанного текста. Для проверки настроек и качества распознавания в системе предусмотрен демонстрационный режим, функционирующий бесплатно и сканирующий только часть страниц.

На крайний случай можно воспользоваться ещё одной онлайновой службой img2txt.ru. Судя по представленным на сайте сведениям, она тоже позволяет распознать многоязыковой текст из сканированного документа или фотографии и преобразовать результат в редактируемый формат. К сожалению, в нашем случае сервис почему-то толком не работал: он загружал файлы на сервер и после этого впадал в спячку. Остается надеяться, что это временное явление.

При наличии на компьютере офисного пакета Microsoft Office для извлечения текста из картинок можно прибегнуть к использованию инструмента Microsoft Office Document Imaging. При работе с ним потребуется предварительно преобразовать изображение в формат TIFF средствами любого имеющегося под рукой графического редактора, после чего останется только открыть файл в программе, щёлкнуть по расположенной на панели инструментов клавише "Распознать текст" и дождаться завершения процесса конвертации изображений символов и букв в доступный для копирования текст. Вместо Microsoft Office Document Imaging можно воспользоваться приложением OneNote для создания быстрых заметок и организации личной информации. Оно входит в состав некоторых редакций Microsoft Office и позволяет выдергивать текстовые данные из любых помещённых в окно программы изображений простым выбором в контекстном меню пункта "Копировать текст из рисунка".

Наконец, ещё один метод мгновенного извлечения текста из изображений - использование сервиса scanR, о котором мы подробно рассказывали на страницах нашего издания. Реализованная в scanR система оптического распознавания текста поддерживает 17 языков, включая русский, и позволяет сохранять результаты работы в PDF или обычный текстовый файл. Бесплатно средствами онлайновой службы можно обработать только один документ. Стоимость ежемесячной подписки на услуги scanR составляет 5 долларов США, а годовой - 30 американских президентов. Вполне демократично, учитывая тот факт, что работать с системой распознавания можно не только через браузер, но и посредством электронной почты, а также и мобильных устройств, оснащённых как минимум мегапиксельной камерой (чем больше разрешение, тем лучше) и подключенных к Интернету.

Программное обеспечение, упомянутое в этом материале, протестировано на мобильном компьютере Packard Bell EasyNote TN65.

Новости партнеров
Загружается, подождите...
Результаты опросов

О проекте | Распространение | Реклама на сайте | Рассылки сайта | КПК–версия | RSS-трансляция

© ООО «Компьютерра–Онлайн», 1997 — 2008.
При цитировании и использовании любых материалов ссылка на портал «Компьютерра–Онлайн» обязательна (для Интернет–изданий — www.computerra.ru)
Редакция сайта: site@computerra.ru
Техподдержка сайта: websupport@computerra.ru
Редакция журнала: inform@computerra.ru
Отдел рекламы: reklama@computerra.ru
Телефон: (495) 232–22–61, (495) 232–22–63
Работает на «Битрикс: Управление сайтом»
Почта защищена сервером «СПАМОРЕЗ»

Сайт работает на сервере DEPO Computers
Rambler's Top100