Оптическое распознавание символов сканированного текста
Оптическое распознавание символов (OCR) сканированного текста
Когда страница текста отсканирована в ПК, она представлена в виде растрового изображения, состоящего из пикселей. Такой формат не воспринимается компьютером как текст, а как изображение текста, и текстовые редакторы не способны к обработке подобных изображений. Чтобы превратить изображение в доступные для редактирования символы и слова, оно должно пройти сложный процесс, известный как оптическое распознавание символов (optical character recognition - OCR).
1. Основные методы оптического распознания
1) Сравнение с образцом. Один из самых ранних методов оптического распознания символов базировался на сопоставлении матриц или сравнений с образцом букв. Большинство шрифтов имеют формат Times, Courier или Helvetica и размер от 10 до 14 пунктов (точек). Программы оптического распознания символов, которые используют метод сопоставления с образцом, имеют точечные рисунки для каждого символа каждого размера и шрифта. Сравнивая базу данных точечных рисунков с рисунками отсканированных символов, программа пытается их распознать. Эта ранняя система успешно работала только с непропорциональными шрифтами (подобно Courier), где символы в тексте хорошо отделены друг от друга. Сложные документы с различными шрифтами оказываются уже вне возможностей таких программ.
2) Выделение признаков было следующим шагом в развитии оптического распознания символов. При этом распознание символов основывается на идентификации их универсальных особенностей, чтобы сделать распознавание символов независимым от шрифтов. Если бы все символы могли быть идентифицированы, используя правила, по которым элементы букв (например, окружности и линии) присоединяются друг к другу, то индивидуальные символы могли быть описаны независимо от их шрифта. Например: символ «а» может быть представлен как состоящий из окружности в центре снизу, прямой линии справа и дуги окружности сверху в центре. Если отсканированный символ имеет эти особенности, он может быть правильно идентифицирован как символ «а» программой оптического распознавания.
Практические результаты оказались весьма чувствительными к качеству печати. Дополнительные пометки на странице или пятна на бумаге существенно снижали точность обработки. Устранение такого «шума» само по себе стало целой областью исследований, пытающейся определить, какие биты печати не являются частью индивидуальных символов. Если шум идентифицирован. Достоверные символьные фрагменты могут тогда быть объединены в наиболее вероятные формы символа.
3) POWR. Современные технологии оптического распознавания намного совершеннее, чем более ранние методы. Вместо того чтобы только идентифицировать индивидуальные символы, современные методы способны идентифицировать целые слова. Эту технологию, предложенную Caere, называют прогнозирующим оптическим распознаванием слов (Predictive Optical Word Recognition – POWR), используя более высокие уровни контекстного анализа, метод POWR способен устранить проблемы, вызванные шумом.
Система POWR способна идентифицировать слова способом, которые близко напоминает человеческое визуальное распознавание. Практически, методика значительно улучшает точность распознания слов во всех типах документа.
4) Технология Finereader. Современное программное обеспечение распознавания символов очень удобно в использовании, обладает высокой точностью и находится на пути к распространению на все виды рабочих сред в массовом масштабе. Типичным представлением семейства программ оптического распознавания символов является ABBYY FineReader, технологический процесс которого включает следующие шаги:
сканирование исходного документа (страницы);
разметку областей (ручную или автоматическую), требующих различные виды обработки (страницы разворота книги, таблицы, рисунки, колонки текста и пр.);
создание и вывод на экран текстового файла 9с вставленными рисунками и таблицами, если это необходимо);
контроль правильности (ручной, автоматический, полуавтоматический);
вывод информации в выходной файл в заданном формате(.DOC или .RTF для Word, .XSL для Excell и пр.)
Данные, полученные на каждом этапе (изображение, текстовый файл), сохраняются под «общей вывеской» пакета (страницы с номером), это позволяет в любой момент вернуться и повторить разметку, распознавание и пр.
FineReader – омнифонтовая система оптического распознавания текстов. Это означает, что она позволяет распознавать тексты, набранные практически любыми шрифтами. Особенностью программ FineReader является высокая точность распознания и малая чувствительность к дефектам печати, что достигается благодаря применению технологии «целостного целенаправленного адаптивного распознавания».
Программа позволяет распознавать с высокой точностью тексты более чем на 175 языках, выводить не печать исходное изображение в различных форматах, настраивать панель инструментов программ, а также отвечает требованиям совместимости с операционными системами Microsoft.
2. Организация работы в FINEREADER
Основой работы FineReader является так называемый пакет, содержащий всю информацию о распознаваемом документе. Пакет представляет собой набор страниц документа и может содержать около тысячи страниц. В один пакет для удобства работы рекомендуется объединять связанные между собой изображения, например страницы одной книги.
Пользователь импортирует в пакет изображение страниц со сканера или непосредственно из файлов графических форматов.
В окне Пакет виден список страниц, входящих в открытый пакет. Для просмотра страницы нужно щелкнуть мышью по ее изображению или номеру, при этом откроются файлы, которыми данная страница представлена в пакете. Страницы в окне Пакет могут быть представлены уменьшенным изображением страницы.
Импортированные изображения подвергаются графической обработке. Если исходное изображение представляет собой негатив, оно может быть инвертировано, далее производится очистка от «мусора» - мелких дефектов изображения. Если не нужна цветность, то цветные изображения сводятся к черно-белым, что экономит место на диске и ускоряет процесс распознавания.
Следующий шаг – анализ макета страниц пакета, т.е. выделение областей, подлежащих распознаванию. На этом этапе FineReader анализирует ориентацию страницы и переворачивает изображение, если это необходимо, а также выделяет блоки – области, которые при дальнейшем анализе будут интерпретироваться как текст, таблицы или рисунки.
После анализа макета страниц, входящих в пакет, проводится собственно распознавание текста и таблиц. Именно технология распознавания является «сердцем» FineReader и обеспечивает ее уникальность, однако этот процесс совершенно незаметен пользователю – он видит только бегущее по тексту выделение и типовую строку состояния, указывающую, сколько информации обработано, а сколько осталось.
Далее производится проверка правописания, после чего «на суд» пользователя выносятся слова, которых нет в словаре системы, а также символы, в точности распознавания которых программа не уверена, при этом такие слова и буквы выделяются цветом.
Завершающий этап работы программы – сохранение и экспорт результатов распознавания. На самом деле, в сохранении результатов нет нужды, поскольку вся информация, включая распознанный текст и его форматирование, автоматически сохраняются в пакете вместе с исходным изображением и сведениями о макете страниц. Пользователь может просто закрыть FineReader, не опасаясь потери данных, однако отдельно сохраненный текст можно импортировать в различные форматы для дальнейшей работы с ним в других программах.
15