Автоматизация обработки документов

Автор: Пользователь скрыл имя, 21 Февраля 2013 в 20:11, доклад

Краткое описание

В данной работе рассматривается технология автоматического распознавания образов, описываются характеристики систем распознавания образов

Файлы: 1 файл

информатика.doc

— 51.00 Кб (Скачать)

Автоматизация обработки документов

Для работы с документами, представленными  в электронной форме, необходимо иметь компьютерную систему и  аппаратно-программные  средства преобразования бумажных документов в электронную форму. Можно выделить следующие основные  этапы такого преобразования:

- сканирование с помощью устройств  оцифровки изображения, в процессе  которого производится создание  электронного образа документа;

- процесс распознания, позволяющий  преобразовать электронное изображение  в текстовые данные ( с сохранением элементов форматирования оригинала);

  - применение дополнительных средств автоматизированного перевода на другой язык для документов, исполненных на иностранном языке;

   - создание рефератов и аннотаций для научно-исследовательской работы по направлению научной деятельности.

Сканеры формируют электронное  изображение бумажного документа  стандартного формата заданного  качества изображения, которое гарантировало бы его надежное распознавание.

Этап распознавания документа  состоит в преобразовании электронного изображения в текстовый документ, при котором происходит «сравнение»  элемента изображения с эталонными вариантами начертания символов, после чего выбирается наиболее подходящий символ. В ходе распознавания в изображении сначала выделяются крупные элементы текста: колонки, абзацы, отдельные текстовые блоки, ячейки таблиц – этот этап называется сегментацией, он может выполнять автоматические или вручную. Затем выполняется автоматический этап распознавания: блоки разбираются на строки, строки – на отдельные символы, каждый из которых распознается независимо и помещается в  итоговый документ.

К средствам автоматизации перевода можно отнести два вида программ: электронные словари и программы  перевода. Электронные словари представляют собой средства для перевода слов, отображаемых на экране или имеющихся в документе. Удобство их использования состоит в возможности немедленно получить перевод неизвестного слова без поиска его в отдельном большом словаре. Программы перевода получают на входе  текст, выполненный на одном языке, и выдают текст на другом языке, т.е. автоматизируют процесс перевода.

 

 

Технология  автоматического распознавания  образов

Методы автоматического распознавания  образов и их реализация в системах оптического распознавания текстов ( Optical Character Recognition – OCR-системы) – одна из самых прогрессивных технологий искусственного интеллекта. В развитии этой технологии российские ученые занимают ведущие позиции в мире.

OCR-системы понимается как система автоматического распознавания образов с помощью специальных программ изображений символов печатного или рукописного текста ( например, введенного в компьютер посредством сканера) и преобразование его в формат, пригодный для обработки текстовыми процессорами, редакторами  текстов и т.д.

Аббревиатура OCR иногда расшифровывается как Optical Character Reader – устройство оптического распознавания символов или автоматического чтения текста. В настоящее время такие устройства в промышленном использовании обрабатывают до 100 тыс. документов в сутки.

Промышленное использование предполагает ввод документов хорошего и среднего качества – это обработка бланков  переписки населения, налоговых  деклараций и.т.д 

Перечислим особенности предметной области, существенные с точки зрения OCR-системы:

    • шрифтовое и размерное разнообразие символов;
    • искажение в изображениях символов ( разрывы образов символов);
    • перекосы при сканировании;
    • посторонние включение в изображениях;
    • сочетание фрагментов текста на разных языках;
    • большое разнообразие классов символов, которые могут быть распознаны только при наличии дополнительной контекстной информации.

Автоматическое чтение печатных и  рукописных текстов является частным  случаем автоматического визуального  восприятия сложных изображений. Многочисленные исследования показали, что для полного решения этой задачи необходимо интеллектуальное распознавание, т.е «распознавание с пониманием».

Выделяются три принципа, на которых  основаны все OCR-системы.

  1. Принцип целостности образа. В исследуемом объекте всегда есть значимые части, между которыми существуют отношения. Результаты локальных операций с частями образа  интерпретируются только совместно в процессе интерпретации целостных фрагментов и всего образа в целом.
  2. Принцип целенаправленности. Распознавание является целенаправленным процессом выдвижения и проверки гипотез ( поиска того, что ожидается от объекта).
  3. Принцип адаптивности. Распознающая система должна быть способна к самообучению.

Ведущие российские OCR-системы: FineReader; FineReader Рукопись; FormReader; CunieForm?Cognitive Forms.

Система FineReader выпускается компанией ABBYY, которая была основана в 1989г.Разработки компании ABBYY ведутся в двух направлениях: машинное зрение и прикладная лингвистика. Стратегическим направлением научных исследований и разработок является естественно-языковой аспект технологий в области машинного зрения, искусственного интеллекта и прикладной лингвистики.

CunieForm GOLD for Windows является первой в мире самообучаемой интеллектуальной OCR-системой, использующей новейшую технологию адаптивного  распознавания текстов, поддерживает много языков. Для каждого языка поставляется словарь контекстной проверки и повышения качества результатов распознования. Распознает любые полиграфические, машинописные гарнитуры и шрифты, получаемые с принтеров, за исключением декоративных и рукописных, а также очень низкокачественных текстов.

Характеристики  систем распознавания образов.

Среди OCR-технологий большое значение имеют специальные технологии решения отдельных классов задач автоматического распознавания образов:

  • Поиск людей по фотографиям;
  • Поиск месторождения полезных ископаемых и прогнозирование погоды по данным; аэрофотосъемки и снимкам со спутников в различных диапазонах светового излучения
  • Составление географических карт по исходной информации, используемой в предыдущей задаче;
  • Анализ отпечатков пальцев и рисунков радужной оболочки  глаза в криминалистике, охранных и медицинских системах;

На стадии подготовки и обработки  информации, особенно при компьютеризации  предприятия, автоматизация бухгалтерского учета,  возникает задача ввода большого объема текстовой и графической информации в ПК. Основными устройствами для ввода графической информации являются: сканер, факс-модем и реже – цифровая фотокамера. Кроме того, используя программы оптического распознавания текстов, можно вводить в компьютер (оцифровывать) также и текстовую информацию. Современные программно-аппаратные системы позволяют автоматизировать ввод больших объемов информации в компьютер, применяя, например, сетевой сканер и параллельное распознавание текстов на нескольких компьютерах одновременно.

Большинство программ оптического  распознавания текста работают с  растровым изображением, которое получено через факс-модем, сканер, цифровую фотокамеру или другое устройство. На первом этапе OCR-система должна разбить страницу на блоки текста, основываясь на особенностях правого и левого выравнивания и наличие нескольких колонок. Затем распознанный блок разбивается на строки. Несмотря на кажущуюся  простоту, это не такая очевидная задача, так как на практике неизбежен перекос изображения страницы или ее фрагментов при сгибах. Даже небольшой наклон приводит к тому, что левый край одной строки становится ниже правого края следующей, особенно при маленьком межстрочном интервале. В результате возникает  проблема определения строки, к которой относятся тот или иной фрагмент изображения. Например, для букв «j», «Й», «ё» при небольшом наклоне уже сложно определить, к какой строке относится верхняя(отдельная) часть символа( в некоторых случаях ее можно принять за запятую или точку).

Потом строки разбиваются на непрерывные  области изображения, которые соответствуют  отдельным буквам; алгоритм распознавания выдвигает  предположения относительно соответствия этих областей символам, а затем осуществляется выбор каждого символа, в результате чего страница восстанавливается в символах текста, причем, как правило, в заданном формате. OCR-системы могут достигать наилучшей точности распознавания – свыше 99,9% для чистых изображений, составленных из обычных шрифтов. На первый взгляд такая точность распознавания кажется идеальной, но уровень ошибок все же удручает, потому что, если имеется приблизительно 1500 символов на странице, то даже при коэффициенте успешного распознавания 99,9% получается одна  или две ошибки на странице. В таких случаях следует воспользоваться методом проверки по словарю, т.е если какого-то слова нет в словаре системы, то она по специальным правилам попытается найти похожее. Но это все равно не позволяет исправлять 100% ошибок и требует контроля результатов человеком.

Встречающиеся в реальной жизни  тексты обычно далеки от совершенства, и процент ошибок распознавания  для «нечистых» текстов часто недопустимо велик. Грязные изображения – это наиболее очевидная проблема, потому что даже небольшие пятна могут затенять определяющие части символа или преобразовать один в другой. Проблемой является и неаккуратное сканирование, связанное с «человеческим фактором», так как оператор, сидящий за сканером, просто не в состоянии разглаживать каждую сканируемую страницу и точно выравнивать ее по краям сканера. Если документ был  ксерокопирован, нередко возникают разрывы и слияние символов. Любой из этих эффектов может заставлять систему ошибаться, потому что некоторые из  OCR-систем  предполагают, что непрерывная область изображения должна быть одиночным символом. Страница, расположенная с нарушением границ или перекосов, создает немного искаженные символьные изображения, которые могут быть перепутаны OCR-системой.

 

Программное обеспечение OCR-системы обычно работает с большим растровым изображением страницы, полученной из сканера. Изображение со стандартной степенью  разрешения достигаются сканированием с точностью 9600 п/д. Изображение формата А4 при этом разрешение занимает около 1Мб памяти.

Основное назначение OCR- систем  состоит в анализе растровой информации и присвоение фрагменту изображения соответствующего символа. После завершения процесса распознания OCR-системы должны уметь сохранять формирование исходных документов, присваивать в нужном месте атрибут абзаца, сохранять таблицы, графику и т.д. Современные программы распознавания поддерживают все известные текстовые и графические форматы и форматы электронных таблиц, а также форматы HTML и PDF.

Работа с OCR-системами как правило, не должна вызывать особых затруднений. Большинство таких систем имеют простейший автоматический режим «сканируй и распознавай», а также они поддерживают и режим распознавания изображений из файлов. Однако для того чтобы достигнуть лучших из возможных для данной системы результатов, желательно предварительно вручную настроить ее на конкретный вид текста, макет бланка и качества бумаги. Страница, расположенная с нарушением границ или перекосом, создает немного искаженные символьные изображения, которые могут быть перепутаны OCR- системой.

Очень важно при работе с OCR- системой является выбор языка распознавания и типа распознавания материала ( пишущая машинка, факс, матричный принтер, газета и т.д.), а также интуитивная понятность пользовательского интерфейса. При распознавании текстов, в которых использовано несколько языковых, эффективность распознавания зависит от умения OCR- системы формировать группы языков. В тоже время в некоторых системах уже имеются комбинации для наиболее часто применяемых языков.

На данный момент существует огромное кол-во программ, поддерживающих распознавания  текста как одну из возможностей. Лидером  в этой области являются система  FineReader. Последняя версия программы (6.0) теперь имеет средства для разработки новых систем на базе технологии FineReader 6.0. Система FineReader 6.0, кроме того, что знает огромное кол-во форматов для сохранения, включает PDF, имеет возможность прямого распознавания из PDF-файлов. Новая технология Intelligent Background Filtering (интеллектуальная фильтрация фона) позволяет отсеять информацию о текстуре документа и фоновом шуме изображения. Программа Finereader умеет определять зоны, содержащие подобный текст, отделяя текст от фона документа, находя точки, размер которых меньше определенной величины, и удаляя их. При этом контуры букв сохраняются, так что точки фона, близко расположенные к данным контурам, не вносят помех, способных ухудшить качество распознавания текста.

Система Readiris Pro 7 – профессиональная программа распознавания текста. По словам производителей, данная OCR-система отличается от аналогов высочайшей точностью преобразования обычных печатных документов, таких как письма, факсы, журнальные статьи и т.д. Основными достоинствами программы являются: возможность более или менее точного распознавания картинок, сжатых «по максимуму» (с максимальной потерей качества) методом формата JPEG, поддержка цифровых камер и автоопределения ориентации страницы, поддержка до 92 языков.

Система OmniPage 11 – продукт компании ScanSoft. Ограниченная версия этой программы обычно поставляется в комплекте с новыми сканерами. Разработчики утверждают, что их программа практически со 100%-ной точностью распознает печатные документы, восстанавливая их форматирование, включая столбцы, таблицы, переносы, заголовки, подписи, графики и картинки.

Информация о работе Автоматизация обработки документов