Автор: Пользователь скрыл имя, 02 Апреля 2012 в 15:27, задача
Конечно, лучше всего алгоритмы распознавания будут работать с образами, состоящими только из чёрных и белых точек, — тогда можно сосредоточиться исключительно на процессе распознавания. Однако жизнь вносит свои коррективы: документы могут отличаться один от другого по качеству, как небо и земля, могут быть разноцветными. Желаемая контрастность и равномерность по всему полю документа иногда так и остаются мечтой.
Конечно, лучше всего
алгоритмы распознавания будут
работать с образами, состоящими только
из чёрных и белых точек, — тогда
можно сосредоточиться
Если текст отпечатан на устройстве с красящей лентой, например на матричном принтере, то трудно ожидать высокого качества полученного электронного образа, если лента старая или сильно выбита. Но это ещё ничего по сравнению с печатью на обычной, неэлектрической пишущей машинке, когда контрастность меняется от символа к символу в зависимости от силы удара разными пальцами.
Не добавляет качества и непрофессиональная печать, когда по клавишам не бьют, а нажимают на них (это называется “давить клопов”). Буквы на документе получаются смазанные, и OCR трудно их распознавать. Криво напаянный шрифт даёт неравномерность в пределах символа. Но самый плохой вариант — документ, напечатанный через копирку, особенно бледного цвета.
Ещё встречаются, особенно на периферии, документы, напечатанные на древних огромных АЦПУ — алфавитно-цифровых печатающих устройствах при ЕС ЭВМ с их прыгающими в строке буквами и прыгающим вместе с буквами качеством.
Однако эти документы, созданные при помощи старых технологий, постепенно уходят в историю, хотя матричные принтеры несколько задерживаются там, где за один проход надо напечатать сразу несколько копий.
Но даже при современных
технологиях программы
Сразу надо сказать о плохих ксерокопиях, когда слабый текст лежит на фоне произвольно рассыпанных по листу мелких точек и полос.
Не лучше и текст, специально напечатанный на фоне линий или точек для исключения подделок (рис. 7, вверху, внизу — результат распознавания).
Если читатель видел послания, вышедшие из факс-аппарата, то он сразу оценит трудности распознавания из-за искажений от неравномерности протяжки ленты. И поймёт преимущества электронной почты, не использующей никакой механики, да и работающей значительно быстрее.
Небезразличен вид
шрифта, которым выполнен документ.
Шрифт с декоративными
Значительные трудности
возникают при оцифровке
Надписи, сделанные на цветном фоне с плавно изменяющимися цветами и интенсивностью, предохраняют документ от подделки. Человек легко читает такие надписи, он как бы не видит фона. Точно так же мы можем сосредоточиться на голосе собеседника и не слышать других разговоров в комнате. Но сканер видит всё и оцифровывает всё, магнитофон слышит всё и записывает всё. Вот если бы все наши приборы могли так же, как человек, воспринимать только нужное... Увы, пока программам распознавания трудно работать с документами, защищёнными от подделок таким образом. Ещё труднее, если на бумаге есть элементы или текст, светящийся в невидимых лучах, а лампа сканера вместе с обычным светом, может оказаться, как раз их и излучает. В этом случае трудно сказать, понравится нам выходной файл или нет.
Не всё так плохо
Надо сказать, что разработчики программ распознавания не сидят сложа руки. Мало того, ими достигнуты впечатляющие успехи, значительно расширен круг успешно обрабатываемых типов документов.
Для улучшения условий
распознавания выполняется
Обычно для распознавания
используется только чёрно-белое изображение,
поэтому предварительное
Если назвать основные виды предварительной обработки, используемые в OCR-программах, то получится такой список:
Обработка изображений OCR-программами на компьютере называется программной, так как здесь основную работу выполняет программа.
В промышленных сканерах высокого класса производится так называемая аппаратная обработка с корректировкой изображения “на лету”, в процессе сканирования. Чтобы обрабатывать изображение аппаратно, в сканер встраиваются специальные электронные платы, значительно ускоряющие его работу. При этом основную работу выполняют электронные компоненты — транзисторы, микросхемы, иногда процессоры. Аппаратная обработка обычно быстрее программной. Качество обработки остаётся высоким, так как эти платы обычно производятся теми же фирмами, которые выпускают программы распознавания и программы улучшения изображения.
Следует заметить,
что с развитием техники