Распознование символов

Автор: Пользователь скрыл имя, 02 Апреля 2012 в 15:27, задача

Краткое описание

Конечно, лучше всего алгоритмы распознавания будут работать с образами, состоящими только из чёрных и белых точек, — тогда можно сосредоточиться исключительно на процессе распознавания. Однако жизнь вносит свои коррективы: документы могут отличаться один от другого по качеству, как небо и земля, могут быть разноцветными. Желаемая контрастность и равномерность по всему полю документа иногда так и остаются мечтой.

Файлы: 1 файл

10. 4 работа.docx

— 80.74 Кб (Скачать)

Конечно, лучше всего  алгоритмы распознавания будут  работать с образами, состоящими только из чёрных и белых точек, — тогда  можно сосредоточиться исключительно  на процессе распознавания. Однако жизнь  вносит свои коррективы: документы  могут отличаться один от другого  по качеству, как небо и земля, могут  быть разноцветными. Желаемая контрастность  и равномерность по всему полю документа иногда так и остаются мечтой.

Если текст отпечатан  на устройстве с красящей лентой, например на матричном принтере, то трудно ожидать  высокого качества полученного электронного образа, если лента старая или сильно выбита. Но это ещё ничего по сравнению  с печатью на обычной, неэлектрической  пишущей машинке, когда контрастность  меняется от символа к символу  в зависимости от силы удара разными  пальцами.

Не добавляет  качества и непрофессиональная печать, когда по клавишам не бьют, а нажимают на них (это называется “давить клопов”). Буквы на документе получаются смазанные, и OCR трудно их распознавать. Криво напаянный  шрифт даёт неравномерность в  пределах символа. Но самый плохой вариант  — документ, напечатанный через  копирку, особенно бледного цвета.

 

Ещё встречаются, особенно на периферии, документы, напечатанные на древних огромных АЦПУ — алфавитно-цифровых печатающих устройствах при ЕС ЭВМ  с их прыгающими в строке буквами и прыгающим вместе с буквами качеством.

Однако эти документы, созданные при помощи старых технологий, постепенно уходят в историю, хотя матричные  принтеры несколько задерживаются  там, где за один проход надо напечатать сразу несколько копий.

 

Но даже при современных  технологиях программы распознавания  не всегда работают без затруднений.

Сразу надо сказать  о плохих ксерокопиях, когда слабый текст лежит на фоне произвольно  рассыпанных по листу мелких точек  и полос.

Не лучше и  текст, специально напечатанный на фоне линий или точек для исключения подделок (рис. 7, вверху, внизу —  результат распознавания).

Если читатель видел  послания, вышедшие из факс-аппарата, то он сразу оценит трудности распознавания  из-за искажений от неравномерности  протяжки ленты. И поймёт преимущества электронной почты, не использующей никакой механики, да и работающей значительно быстрее.

Небезразличен вид  шрифта, которым выполнен документ. Шрифт с декоративными элементами, с засечками (серифами) выглядит красивее, но ухудшает распознавание, потому что  буквы трудно отделить друг от друга (рис. 8). Есть шрифты, созданные специально для электронной обработки, но их эстетический аспект оставляет желать лучшего (рис. 9, две верхние строки). Поэтому при создании документов, которые будут сканироваться, лучше  выбирать шрифт с одинаковой толщиной всех элементов, например Arial (рис. 9, две нижние строки). Кстати, этот шрифт был специально создан для документов, передаваемых по факсу, так как тонкие элементы букв у других шрифтов исчезали после передачи, что ухудшало разборчивость (рис. 10, вверху “красивый” шрифт до и после передачи по факсу, внизу — Arial).

Значительные трудности  возникают при оцифровке документов, созданных с использованием сразу  нескольких способов нанесения надписей. Например, это может быть накладная, бланк которой сделан в типографии, графы заполнены на матричном  принтере и есть ещё надписи простым  карандашом. И в довершение что-то выделено цветным маркером. Такую  смесь с трудом “переварит” любая OCR-программа.

 

Надписи, сделанные  на цветном фоне с плавно изменяющимися  цветами и интенсивностью, предохраняют документ от подделки. Человек легко  читает такие надписи, он как бы не видит фона. Точно так же мы можем сосредоточиться на голосе собеседника и не слышать других разговоров в комнате. Но сканер видит всё и оцифровывает всё, магнитофон слышит всё и записывает всё. Вот если бы все наши приборы могли так же, как человек, воспринимать только нужное... Увы, пока программам распознавания трудно работать с документами, защищёнными от подделок таким образом. Ещё труднее, если на бумаге есть элементы или текст, светящийся в невидимых лучах, а лампа сканера вместе с обычным светом, может оказаться, как раз их и излучает. В этом случае трудно сказать, понравится нам выходной файл или нет.

 

Не всё так  плохо

Надо сказать, что  разработчики программ распознавания  не сидят сложа руки. Мало того, ими достигнуты впечатляющие успехи, значительно расширен круг успешно обрабатываемых типов документов.

Для улучшения условий  распознавания выполняется предварительная  обработка отсканированного образа.

Обычно для распознавания  используется только чёрно-белое изображение, поэтому предварительное преобразование серого или цветного изображения  исходного документа в чёрно-белое  контрастное является необходимым  этапом процесса обработки. На этом этапе для повышения качества распознавания подбор контрастности производится не на всём листе сразу, а последовательно, по участкам, с учётом особенностей каждого элементарного участка. Общее изображение при этом значительно выигрывает из-за того, что его не “стригут под одну гребёнку”. Применение при этом технологии удаления фоновой текстуры существенно повышает качество распознавания.

Если назвать  основные виды предварительной обработки, используемые в OCR-программах, то получится  такой список:

  • Устранение перекосов. Применяется для изображений, полученных со сканера. Для обработки не требуется наличие границ или других линий.
  • Разделение двойных страниц. Применяется при распознавании отсканированных книг: изображение книжного разворота разделяется на два изображения, каждое из которых соответствует одной странице. Затем каждая страница распознается и анализируется, при этом также может быть устранен перекос изображения.
  • Удаление «мусора» (очистка изображения). При сканировании с низким или средним качеством на изображении может появиться большое количество лишних точек, расположенных вблизи границ символов, что приводит к ухудшению качества распознавания. 
  • Фильтрация текстуры и адаптивная бинаризация. Технология фильтрации текстуры позволяет удалять с изображения фоновую текстуру и цветной фон. С помощью передовой технологии адаптивной бинаризации удается безошибочно распознавать тексты, расположенные на фоне изображений с переменной контрастностью. При распознавании подобных оригиналов параметры бинаризации подбираются индивидуально для каждого фрагмента изображения. Таким образом удается повысить точность распознавания трудночитаемых документов, таких как газеты, цветные документы, факсы и ксерокопии.
  • Масштабирование изображения. Если документ был отсканирован с низким разрешением (менее 120 dpi) и в нем есть мелкий текст (менее 10 pt), для повышения качества распознавания можно выполнить цифровое увеличение изображения.
  • Автоматическое определение угла поворота страницы (90, 180, 270 градусов). При сканировании возможно различное расположение страниц пакета на планшете сканера. Соответственно, их изображения могут быть повернуты под различным углом.
  • Адаптивная обработка изображений документов, снятых цифровым фотоаппаратом. Эта новая технология позволяет отличать отсканированные изображения документов от изображений, полученных при помощи цифрового фотоаппарата, и устранять искажения, типичные для цифровой фотосъемки.
  • Очистка изображения в пределах текстового блока. При очистке предусмотрена возможность указывать размер черных и белых фракций «мусора».
  • Изменение цветов текста и фона в прямоугольных областях. Эта функция будет особенно полезна разработчикам систем управления данными. Типовой сценарий ее применения в электронном архиве выглядит следующим образом: распознанный документ сохранен в виде изображения и в виде текста, притом в архивном индексе хранятся геометрические координаты каждого символа на изображении страницы. Используя функцию изменения цветов, можно реализовать подсветку ключевых слов в результатах поиска по архиву. При этом пользователь будет видеть фрагмент изображения, на котором искомые слова выделены цветом.

Обработка изображений OCR-программами на компьютере называется программной, так как здесь основную работу выполняет программа.

В промышленных сканерах высокого класса производится так называемая аппаратная обработка с корректировкой изображения “на лету”, в процессе сканирования. Чтобы обрабатывать изображение  аппаратно, в сканер встраиваются специальные  электронные платы, значительно  ускоряющие его работу. При этом основную работу выполняют электронные  компоненты — транзисторы, микросхемы, иногда процессоры. Аппаратная обработка  обычно быстрее программной. Качество обработки остаётся высоким, так как эти платы обычно производятся теми же фирмами, которые выпускают программы распознавания и программы улучшения изображения.

Следует заметить, что с развитием техники довольно быстро идёт процесс стирания грани  между аппаратной и программной  обработкой: иногда бывает трудно отделить их друг от друга.


Информация о работе Распознование символов