Фотошоп

Що таке OCR-системи. Побудова системи оптичного розпізнавання структурної інформації з прикладу Imago OCR

Уявіть, вам треба оцифрувати журнальну статтю чи роздрукований договір. Звичайно, ви можете провести кілька годин, передруковуючи документ та виправляючи друкарські помилки. Або ви можете перевести всі необхідні матеріали в формат, що редагується, за кілька хвилин, використовуючи сканер (або цифрову камеру) і програму для оптичного розпізнавання символів (OCR).

Що мають на увазі під технологією оптичного розпізнавання символів

Оптичне розпізнавання символів (Optical Character Recognition – OCR) – це технологія, яка дозволяє перетворювати різні типидокументів, таких як відскановані документи, PDF-файли або фото з цифрової камери, в формати, що редагуються, з можливістю пошуку.

Припустимо, у вас є паперовий документ, наприклад, стаття в журналі, брошура або договір у форматі PDF, надісланий вам партнером по електронній пошті. Очевидно, щоб отримати можливість редагувати документ, його недостатньо просто відсканувати. Єдине, що може зробити сканер, - це створити зображення документа, що представляє собою лише сукупність чорно-білих або кольорових точок, тобто растрове зображення.

Щоб копіювати, вилучати та редагувати дані, вам знадобиться програма для розпізнавання символів, яка зможе виділити у зображенні літери, скласти їх у слова, а потім об'єднати слова в речення, що надалі дозволить працювати з вмістом вихідного документа.

Які принципи лежать у основі технології FineReader OCR?

Найбільш досконалі системи розпізнавання символів, такі як ABBYY FineReader OCR, наголошують на використанні механізмів, створених природою. В основі цих механізмів лежать три фундаментальні принципи: цілісність, цілеспрямованість та адаптивність (принципи IPA).

Зображення, згідно з принципом цілісності, буде інтерпретовано як певний об'єкт, тільки якщо на ньому присутні всі структурні частини цього об'єкта, і ці частини знаходяться у відповідних відносинах. Інакше висловлюючись, ABBYY FineReader не намагається приймати рішення, перебираючи тисячі зразків у пошуках найбільш відповідного. Натомість висувається ряд гіпотез щодо того, на що схоже виявлене зображення. Потім кожну гіпотезу цілеспрямовано перевіряють. І, припускаючи, що знайдений об'єкт може бути літерою А, FineReader шукатиме саме ті особливості, які повинні мати зображення цієї літери. Як і слід чинити, виходячи з принципу цілеспрямованості. Принцип адаптивності означає, що програма має бути здатна до самонавчання, тому перевіряти, чи вірна висунута гіпотеза, система буде, спираючись на накопичені раніше відомості про можливі зображення символу в даному конкретному документі.

Яка технологія є основою OCR?

Компанія ABBYY, спираючись на результати багаторічних досліджень, реалізувала принципи IPA в комп'ютерної програми. Система оптичного розпізнавання символів ABBYY FineReader – єдина у світі система OCR, що діє відповідно до вищеописаних принципів на всіх етапах обробки документа. Ці принципи роблять програму максимально гнучкою та інтелектуальною, гранично наближаючи її до того, як розпізнає символи людина. У першому етапі розпізнавання система постранично аналізує зображення, у тому числі складається документ, визначає структуру сторінок, виділяє текстові блоки, таблиці. Крім того, сучасні документи часто містять різноманітні елементи дизайну: ілюстрації, колонтитули, кольорове тло або фонові зображення. Тому недостатньо просто знайти і розпізнати виявлений текст, важливо з самого початку визначити, як влаштований документ, що розглядається: чи є в ньому розділи та підрозділи, посилання та виноски, таблиці та графіки, зміст, чи проставлені номери сторінок і т. д. Потім у текстових Блоки виділяють рядки, окремі рядки поділяються на слова, слова на символи.

Важливо, що виділення символів та його розпізнавання також реалізовано як складових частинєдиної процедури. Це дозволяє повністю використовувати переваги принципів IPA. Виділені зображення символів надходять розгляд механізмів розпізнавання букв, званих класифікаторами.

У системі ABBYY FineReader застосовуються класифікатори наступних типів: растровий, ознаковий, контурний, структурний, визнано диференціальний і структурно диференціальний. Растровий і ознаковий класифікатори аналізують зображення і висувають кілька гіпотез у тому, який символ у ньому представлений. У ході аналізу кожній гіпотезі надається певна оцінка (так звана вага). За підсумками перевірки ми отримуємо список гіпотез, проранжований за вагою (тобто за ступенем впевненості, що маємо саме такий символ). Можна сказати, що в Наразісистема вже «здогадується», на що схожий символ.

Після цього відповідно до принципів IPA ABBYY FineReader проводить перевірку висунутих гіпотез. Це робиться за допомогою диференціального ознакового класифікатора.

Крім того, слід зазначити, що ABBYY FineReader підтримує 192 мови розпізнавання. Інтеграція системи розпізнавання зі словниками допомагає програмі під час аналізу документів: розпізнавання відбувається точніше і спрощує подальшу перевірку результату з урахуванням даних про основну мову документа та словникової перевірки окремих припущень. Після докладної обробки величезної кількості гіпотез програма приймає рішення та надає користувачеві розпізнаний текст.

Розпізнавання цифрових фотографій

Зображення, отримані за допомогою цифрової камери, відрізняються від відсканованих документів або PDF, що є зображенням.

У них найчастіше можуть бути певні дефекти, наприклад, спотворення перспективи, засвітки від фотоспалаху, вигини рядків. Працюючи з більшістю додатків такі дефекти можуть значно ускладнити процес розпізнавання. У зв'язку з цим останні версії ABBYY FineReader містять технології попередньої обробки зображення, які успішно виконують завдання щодо підготовки зображень до розпізнавання.

Як користуватись OCR-програмами

Технологія ABBYY FineReader OCR проста у використанні – процес розпізнавання загалом складається з трьох етапів: відкриття (або сканування) документа, розпізнавання та збереження у найбільш відповідному форматі (DOC, RTF, XLS, PDF, HTML, TXT і т. д.) або перенесення даних безпосередньо в офісні програми, такі як Microsoft® Word®, Excel® або програми для перегляду PDF.

Крім того, остання версія ABBYY FineReader дозволяє автоматизувати завдання розпізнавання та конвертації документів за допомогою програми ABBYY Hot Folder. За допомогою нього можна налаштовувати однотипні або повторювані завдання обробки документів і збільшити продуктивність роботи.

Які переваги ви отримуєте від роботи з OCR-програмами

Висока якість технологій розпізнавання тексту ABBYY OCR забезпечує точну конвертацію паперових документів (сканів, фотографій) та PDF-документів будь-якого типу в формати, що редагуються. Застосування сучасних OCR-технологій дозволяє заощадити багато сил і часу під час роботи з будь-якими документами. З ABBYY FineReader OCR ви можете сканувати паперові документи та редагувати їх. Ви можете отримувати цитати з книг та журналів та використовувати їх без передруку. За допомогою цифрової фотокамери та ABBYY FineReader OCR ви можете миттєво зробити знімок побаченого постера, банера, а також документа або книги, коли під рукою немає сканера, та розпізнати отримане зображення. Крім того, ABBYY FineReader OCR можна використовувати для створення архіву PDF-документів із можливістю пошуку.

Весь процес перетворення з паперового документа, знімка або PDF займає менше хвилини, а сам розпізнаний документ виглядає точно як оригінал!

Системи оптичного розпізнавання символів (OCR - Optical character recognition) стали невід'ємною частиною інтегрованих пакетів, що підтримують введення в комп'ютер, зберігання та обробку паперових та електронних документів. Система включає у свій склад сканер для введення інформації.

Якщо створене сканером зображення містить текст та малюнки, то за допомогою спеціальної програмиоптичного розпізнавання тексту (OCR) можна:

- Відокремити текст від малюнків;
- Записати текст у форматі файлу текстового процесора.

Програмне забезпечення у сучасних системах OCR виконує аналіз форм літер та створення текстового файлу, в який текст, що розпізнається, записується посимвольно з послідовним формуванням слів і речень.

Існує два типи пакетів OCR: навчальні та інтелектуальні. Перші пакети оптичного розпізнавання символів мали чіткий поділ на кшталт. Останнім часом спостерігається тенденція до об'єднання цих двох типів в одному пакеті, що перегукується зі спробами розробити нові алгоритми розпізнавання.

Пакети програм OCR, що навчаються, становили більшість перших розробок. Такі пакети теоретично здатні навчатися розпізнаванню будь-яких символів будь-яких гарнітур. Для навчання програми конкретній гарнітурі потрібно відсканувати еталонне зображення з наступним навчанням кожному конкретному символу. Це досить тривала процедура, проте, якщо ця гарнітура буде регулярно використовуватися, варто витратити пару годин на навчання. Програми такого типу порівнюють кожен окремий символ сторінки із символами у довідкових таблицях, створених у процесі навчання, становлячи у своїй текстовий файл.

Інтелектуальні пакети OCR не потребують навчання і можуть інтерпретувати форми символів незалежно від гарнітури. p align="justify"> Робота цих програм справляє велике враження: документ пропускається через сканер, результат обробляється інтелектуальною програмою OCR з видачею текстового файлу. Для сторінки формату А4 вся процедура займає трохи більше однієї хвилини. При високій точності це значно швидше за ручне введення.

FineReader - це система оптичного розпізнавання текстів (OCR), яка перетворює отримане за допомогою сканера графічне зображення (картинку) на текст (тобто коди букв, «зрозумілі» системі).

Процес введення текстів у комп'ютер здійснюється за кілька етапів: сканування; виділення блоків на зображенні; розпізнавання; перевірка помилок; збереження результату розпізнавання (передача його в інший додаток, буфер і т. п.)

Рисунок 2. Інтерфейс програми FineReader 11

Інтелектуальна система оптичного розпізнавання символів (Optical Character Recognition, OCR) Cuneiform функціонує серед Microsoft Windows 3.1 або пізнішої версії. Система має наступні технологічні можливості: підтримує широкий спектр настільних сканерів; розпізнає відскановану сторінку (включаючи багатоколонний текст і текст зі складним оформленням); дозволяє сканувати та записувати зображення як TIFF, а розпізнавання запускати потім (при цьому зручно сканувати пачку документів); може читати зображення, відскановані іншими програмами, і факси в режимах Fine і Normal; може зберігати початкові форматування та табуляцію та регулювати відступи та вирівнювання; не розпізнає рукописного тексту.

Екран Суneiform містить чотири основні частини, зазначені на малюнку.

Рисунок 3. Інтерфейс програми Сuneiform

Нова версія системи розпізнавання Intuitia 2.0 for Windows використовує Омніфонт-технологію (розпізнає різні шрифти без будь-якого навчання). Вона забезпечує розпізнавання зображень текстових матеріалів із файлів у форматах TIFF, PCX, BMP, а також зі всіх Сканерів, які підтримують протокол TWAIN, а також зі сканерів сімейства HP ScanJet (безпосередньо).

Система введення та розпізнавання рукописних текстів PenO"Man for Windows - засіб рукописного введення, розпізнавання та редагування текстів за допомогою пера: є можливість введення та редагування як англійського, так і російського разом написаного тексту у всіх додатках Windows; процес введення аналогічний звичайному використанню ручки при листі ліворуч, бажано акуратним почерком і з класичним лівим нахилом; редагування вже введеного тексту можливе внаслідок використання стандартних функцій(Вставлення, видалення, перенесення, активізації фрагментів тексту і т. д.), а також простих розчерків пера.

OCR&ICR Technology White Paper

Вступ.

1.1 OCR та ICR-системи. Критерії оцінки систем розпізнавання.

Сучасні системи оптичного розпізнавання символів (OCR) можуть бути умовно розділені на дві категорії. Власне OCR-системи вирішують класичне завдання розпізнавання друкованихсимволів, нанесених на папір за допомогою принтера, плотера або друкарської машинки (при цьому мається на увазі, що будь-яка система розпізнавання працює з електронним зображенням документа, який зазвичай отримується за допомогою сканера). Крім того, виділяють клас ICR-систем (intelligent character recognition), до завдань яких входить обробка документів, заповнених друкованими літерами та цифрами від руки, або, інакше кажучи, розпізнавання рукодрукованихсимволів.

В обох випадках якість функціонування системи розпізнавання може бути оцінена за низкою параметрів. Однак найбільше важливим параметромсистеми будь-якого типу є точність розпізнавання, що зазвичай виражається відсотковим співвідношенням

A REC = 100% * N OK / N 0; (1.1)

де N OK та N 0 є кількість вірно розпізнаних символів та загальна кількість символів документа відповідно. Цілком природно, що виробники OCR\ICR-систем в першу чергу фокусують увагу на оптимізації алгоритмів, що використовуються з точки зору точності розпізнавання.

1.2 Технології ABBYY.

Протягом останніх шести років на світовому ринку присутні OCR ICR-системи, побудовані на базі технологій компанії ABBYY. На сьогоднішній день вони добре відомі та мають стабільний попит. Зокрема, програмне ядро (engine) OCR-системи ABBYY FineReader ліцензовано та успішно експлуатується такими відомими компаніями, як Cardiff Software, Inc. Inc., ReadSoft AB, Saperion AG, SER Systems AG, Siemens Nixdorf, Toshiba Corporations.

У рамках цього документабудуть описані базові принципи технологій ABBYY, та, крім того, будуть детально розглянуті процедури розпізнавання друкованих (OCR) та рукодрукних (ICR) символів, реалізовані у продуктах ABBYY .

Базові засади технологій розпізнавання тексту ABBYY.
2.1 Принципи IPA.

Перетворення документа в електронний вигляд виконується OCR-системами поетапно: сканування та попередня обробка зображення, аналіз структури документа, розпізнавання, перевірка результатів, потім проводиться реконструкція (відтворення вихідного вигляду) документа та експорт. Методи, які застосовуються при розпізнаванні, дуже різноманітні.

Але, як відомо, найкращі у світі системи оптичного розпізнавання конструює природа. Влаштування ділянок нервової системи, що доставляють і обробляють сигнали органів зору, настільки складно, що завдання моделювання живих «розпізнавачів» загальному виглядідосі не вирішена наукою. Однак базові принципи їх функціонування добре вивчені і можуть бути використані на практиці. Їх налічують три:
Технології розпізнавання розроблені компанією ABBYY, побудовані саме на цих принципах. Замість повних назв принципів часто вживають абревіатуру IPA, Складену з перших літер відповідних англійських слів. Очевидно, що система розпізнавання, що працює відповідно до принципів IPA, функціонуватиме максимально гнучко і точно, на межі осмисленої дії.

Компанія ABBYY, спираючись на результати багаторічних досліджень, реалізувала принципи IPAу межах своїх технологій оптичного розпізнавання символів. ABBYY FineReader – єдина у світі OCR-система, яка діє відповідно до вищеописаних принципів на всіх етапах обробки документа.

Зокрема, на етапі розпізнавання фрагмент зображення, згідно принципом цілісності, буде інтерпретований як певний об'єкт (символ), тільки якщо на ньому присутні всі структурні частини цього об'єкта, і ці частини знаходяться у відповідних відносинах. Тому ABBYY FineReader не намагається ухвалювати рішення, перебираючи тисячі еталонів у пошуках найбільш відповідного. Натомість висувається ряд гіпотез щодо того, на що схоже виявлене зображення, потім кожна гіпотеза цілеспрямованоперевіряється. До того ж перевіряти, чи вірна висунута гіпотеза, система буде, використовуючи принцип адаптивності, спираючись на накопичені раніше відомості про можливі зображення символу в розпізнаваному документі.

2.2 Багаторівневий аналіз документа. MDA.

На етапі аналізу та попередньої обробки зображення перед будь-якою OCR-системою стоять два основних завдання: по-перше, підготувати зображення до процедур розпізнавання, по-друге, виявити структуру документа – з тим, щоб надалі мати можливість відтворити її в електронному вигляді. Процедури попередньої обробки будуть розглянуті в наступному розділі, зараз звернемося до завдання аналізу структури.

Найбільшого поширення набули звані методи аналізу ієрархічної структури документа. При аналізі структури у цих методів зазвичай виділяють кілька ієрархічно організованих логічних рівнів. Об'єкт найвищого рівня лише один - власне сторінка, на наступному ступені ієрархії розташовуються таблиця, текстовий блок і картинка, і так далі (рис.1). Зрозуміло, будь-який об'єкт може бути представлений як набір об'єктів нижчого рівня.

Рис.1. Ієрархічна структурадокумента
Більшість сучасних OCR-систем веде аналіз документа відповідно до одного з наступних принципів: top - down (зверху вниз) або bottom - up (знизу вгору). Аналіз документа за принципом top - down, як випливає з назви, ведеться у напрямку зверху донизу. Система ділить сторінку на об'єкти, їх, своєю чергою – на об'єкти нижчих рівнів, тощо, до символів. Системи, в основу яких покладено другий принцип, навпаки, починають аналіз пошуку одиночних знаків. Потім формується уявлення у тому, як знайдені символи було складено слова, тощо, до формування повного електронного аналога сторінки.

Для ухвалення рішень щодо того чи іншого об'єкта нерідко використовується механізм так званого «голосування», voting. Суть даного методу полягає у паралельному виробленні кількох гіпотез щодо об'єкта та передачі їх «експерту», логічному блоку, що вибирає одну з них.

Такий метод широко практикувався протягом останнього десятиліття; зокрема, існують OCR-системи, що буквально складені з двох або більше незалежних механізмів розпізнавання із загальним «експертом» на виході. Втім, як показала практика, така побудова добре саме в тих випадках, коли OCR-програма використовує «чужі» ліцензовані механізми розпізнавання. У ситуації, коли інформація про всі тонкощі роботи кожного розпізнавача недоступна виробнику програми, таке рішення виявляється найзручнішим. Якщо ж виробник розробляє розпізнавачі своїми силами, то якість розпізнавання можна покращити. ефективними способами. Саме про них і йтиметься у цьому документі.

Розробники компанії ABBYY створили унікальний алгоритм багаторівневого аналізу документа – його називають MDA(multilevel document analysis) – що дозволяє об'єднати переваги обох вищеописаних принципів. У рамках MDAструктура сторінки розглядається подібно до того, як це робиться за методом top-down, а відтворення документа в електронному вигляді після закінчення розпізнавання ведеться «знизу вгору», аналогічно методу bottom-up. При цьому алгоритм додано механізм зворотнього зв'язку, що охоплює всі рівні аналізу, що дозволило різко знизити ймовірність грубих помилок, пов'язаних із неправильним розпізнаванням об'єктів високих рівнів.

Можливості нового алгоритму виявилися значно ширшими, ніж у прототипів. Зауважимо, що об'єкти будь-якого рівня OCR-системи ABBYY розпізнають у повній відповідності до принципів IPA: насамперед висуваються гіпотези щодо типів виявлених об'єктів, потім вони цілеспрямовано перевіряються. При цьому враховуються знайдені раніше особливості цього документа, а також зберігається вся інформація, що знову надходить.

Розглянемо особливості алгоритму MDAна прикладі. Допустимо, на сторінці виділено ряд об'єктів, один з яких ідентифікований як текстовий блок. Однак у процесі вивчення структури блоку виявляється специфічне вирівнювання, аналіз інтервалів, що розділяють слова, показує, що блок не містить зв'язного тексту, навіть якщо припустити, що він набраний з розрядкою. З накопиченої інформації приймається рішення переглянути результати попереднього рівня аналізу: це текстовий блок, а таблиця без розділових ліній. Після чого розпізнавання блоку продовжується у звичайному порядку, але тепер воно буде проведено практично без помилок, і в підсумковому документі таблицю буде відтворено саме як таблицю.

Одним словом, за рахунок того, що результати аналізу на одному з нижніх рівнів можуть вплинути на дії з об'єктами вищих рівнів, досягається багаторазове збільшення точності розпізнавання в порівнянні з типовими алгоритмами.

Ми коротко розглянули основні засади технологій оптичного розпізнавання символів ABBYY. Як згадувалося, розпізнавання будь-якого документа проводиться поетапно за допомогою вдосконаленої процедури. багаторівневого аналізу документа (MDA). Поділ сторінки на об'єкти нижчих рівнів, аж до окремих символів, розпізнавання символів та «складання» електронного документа ABBYY FineReader проводить, спираючись на принципи цілісності, цілеспрямованостіі адаптивності (IPA).

Вищенаведений опис вельми і дуже загальний. Ми розглянули базові принципи, не висвітливши власне процес розпізнавання. У рамках наступного розділу будуть детально описані всі етапи роботи з об'єктами різних рівнів документа до окремих символів.

Опис процедури OCR.

3.1 Попередня обробка зображення.

Обробка документа починається з отримання графічного зображення (зображення) сторінки. Сучасні OCR-системи підтримують обидва основні способи отримання зображень з файлу і від сканера. Взаємодія зі сканером зазвичай здійснюється засобами універсального протоколу TWAIN. Так чи інакше, вхідними даними для OCR-програми є кольорове (глибина кольору 24 біт) або напівтонове (глибина кольору 8 біт) зображення документа.

3.2 Розпізнавання об'єктів найвищих рівнів. Бінаризація.

Перш, ніж приступити до структурування сторінки, виділення та ідентифікації блоків, OCR-система виробляє бінаризацію, тобто перетворення кольорового або напівтонового образу монохромний (глибина кольору 1 біт). Однак, сучасні документи часто містять такі елементи дизайну, як фонові текстури або зображення. Після типової процедури бінаризації будь-яка текстура залишить велика кількість"зайвих" точок, розташованих навколо символів і різко знижують якість розпізнавання. Бінарізація фонових зображеньпризводить до аналогічних наслідків. Тому здатність системи правильно відокремлювати текст від «підкладених» текстур та картинок дуже важлива.

Рис.2. Обробка процедури IBF документа з фоновою текстурою.

Ілюстрацією останньої тези може бути приклад, показаний на рис.2. Як показують численні експерименти, OCR-система, що починає обробку цієї або схожої сторінки з типової процедури бінаризації, показує вкрай низький результат. У середньому точність на сторінках подібного виду становить для різних системвід 31,1% до 62,7%, що фактично рівнозначне відмові від розпізнавання.

Однак ABBYY FineReader цілком коректно опрацьовує подібні документи; як показують експерименти, середня точність розпізнавання сторінок такого виду дорівнює 98,7% . Успішно вирішити цю проблему дозволяє процедура інтелектуальноїфільтрації фонових текстур,(Intelligent background filtering, IBF). Ця процедура, що запускається при необхідності, залежно від результатів попереднього аналізу сторінки, дозволяє впевнено відокремлювати текст від скільки завгодно складного фону. Понад те, і виділення об'єктів найвищих рівнів – текстових блоків, таблиць, тощо. – на сторінках складної структури після обробки процедурою IBFвиконується значно точніше.

Проте наявність фонових зображень чи текстур – далеко ще не єдина особливість документа, здатна знизити якість розпізнавання. Наприклад, сторінка, показана на рис.3, не містить явно виражених фонових елементів. Однак спроба обробки її засобами більшості OCR-систем призведе до неприпустимо низьких результатів. Причиною цього є невисока контрастність оригіналу, а також помітна зміна яскравості фону, що спостерігається протягом більшості рядків. Звичайна OCR-система, підібравши параметри бінаризації для однієї ділянки документа, не зможе впевнено виділити об'єкти на сусідніх ділянках - вони виявляться або "засвіченими", або "зачорненими".

Рис.3. Без обробки процедурою адаптивної бінаризації цей документ розпізнається погано.

Технології, розроблені фахівцями ABBYY, дозволяють вирішити цю проблему. Процедура адаптивної бінаризації(adaptive binarization, AB) здатна гнучко вибирати оптимальні для даної ділянки (фрагмента рядка або навіть слова) параметри бінаризації. Вдавшись до адаптивної бінаризації, ABBYY FineReader досліджує яскравість фону та насиченість чорного кольору протягом усього рядка та підбере оптимальні параметри перетворення для кожного фрагмента окремо. В результаті, як рядки, так і окремі словабудуть виділені правильно, що підвищить загальну точність розпізнавання A REC .

Дуже показовими є результати порівняльного дослідження, проведеного на базі зображень, подібних до показаного на рис.3. Методика тестування докладно описана в , результати представлені в наведеній нижче таблиці.

Таблиця 1.
Підвищення якості розпізнавання
рахунок застосування адаптивної бінаризації.

Як видно з таблиці, застосування адаптивної бінаризації дозволяє суттєво підвищити точність розпізнавання. З погляду технічного виконання, ідея AB, що є частиною вдосконаленого алгоритму MDA, полягає у використанні зворотного зв'язку для оцінки якості перетворення тієї чи іншої ділянки. Узагальнену блок-схему алгоритму процедури адаптивної бінаризації наведено на рис. 4.

Рис.4. Узагальнена блок-схема алгоритму процедури адаптивної бінаризації.

3.3 Розпізнавання символів. Класифікатори.

Розподіл рядка на слова та слів на літери у програмному ядрі ABBYY FineReader виконується так званою процедурою лінійного поділу. Процедура завершується після досягнення кінця рядка і передає для подальшої обробки список гіпотез, висунутих щодо можливих варіантівподілу. При цьому кожній гіпотезі приписується певна вага; за змістом ця величина відповідає чисельному виразу впевненості. Набір графічних об'єктів рівня «символ» надходить на вхід механізму розпізнавання символів. Останній є комбінацією ряду елементарних розпізнавачів, званих класифікаторами.

Рис.5. Спрощена схема роботи класифікатора.

Загалом роботу класифікатора ілюструє схема рис.5. Як показано, після закінчення обробки класифікатор породжує список гіпотез щодо належності чергового зображення до того чи іншого класу, або – у тому випадку, коли вхідні дані вже є список – відповідним чином змінює ваги наявних гіпотез, підтверджує або спростовує їх. Вихідний список завжди ранжований за вагою (впевненість).

Однією з найважливіших показників класифікатора є середнє положення правильної гіпотези. Це зумовлено особливостями процедур контекстної та словникової перевірки, які зазвичай задіяні на етапах подальшої обробки списків гіпотез. Згадані процедури суттєво збільшують загальну точність розпізнавання, проте лише в тому випадку, якщо правильний варіант у списку не дуже глибоко. Для оцінки середнього положення правильного варіанту можуть бути використані різні критерії, наприклад, точність за першими трьома варіантами розпізнавання, тобто. відсоток символів, котрим правильна гіпотеза виявилася нижче третього місця у вихідному списку.

Крім того, серед важливих характеристиккласифікатора називають точність за першим варіантом розпізнавання, швидкодію, простоту реалізації, і навіть стійкість до різних спотворень, які у реальних документах (розірвані, залиті, сильно змінили форму символи).

У системах розпізнавання, побудованих на технологіях ABBYY, застосовуються такі типи класифікаторів: растровий, ознаковий, ознаковий диференціальний, контурний, структурний та структурний диференціальний. Розглянемо властивості та особливості кожного з них.

Растровий класифікатор.
Принцип дії ґрунтується на прямому порівнянні зображення символу з еталоном. Ступінь відмінності при цьому обчислюється як кількість пікселів, що не збігаються. Для забезпечення прийнятної точності растрового класифікатора потрібна попередня обробка зображення: нормалізація розміру, нахилу та товщини штриха. Еталон для кожного класу зазвичай отримують, середня зображення символів навчальної вибірки.

Цей класифікатор простий у реалізації, працює швидко, стійкий до випадкових дефектів зображення, проте має відносно невисоку точність. Широко використовується у сучасних системах розпізнавання символів. У системі ABBYY FineReader на початковому етапірозпізнавання для швидкого породження попереднього списку гіпотез задіяно один з різновидів растрового класифікатора. Точність цього розпізнавача, оцінена за першими трьома позиціями списку, становить 99,29% 97,57% .

Ознаковий класифікатор.
Принцип дії: зображенню ставиться у відповідність N-вимірний вектор ознак. Власне, класифікація полягає в порівнянні його з набором еталонних векторів тієї ж розмірності. Тип і кількість ознак значною мірою визначають якість розпізнавання. Формування вектора (обчислення його координат у N-мірному просторі) проводиться під час аналізу попередньо підготовленого зображення. Цей процесназивають вилученням ознак. Еталон для кожного класу отримують шляхом аналогічної обробки символів навчальної вибірки.

Рис.6. Блок-схема роботи ознакового класифікатора.

Порівняння кожної пари векторів полягає у обчисленні оцінки, що характеризує відстань між точками N-мірному просторі (точка – геометричне уявлення такого вектора). Приклад, що ілюструє даний метод, Наведений на рис.7; для наочності у цьому прикладі ми вважаємо N=2, тобто вектора перебувають у звичайному двовимірному просторі. Координати X0, Y0 вектора-еталона обчислені заздалегідь, при навчанні класифікатора, тоді як X1, Y1 отримані на етапі отримання ознак. Зрозуміло, що менше виявляється значення оціночної величини |L|, тим точніше аналізоване зображення відповідає даному еталону, отже, тим паче висока вага буде присвоєно класифікатором цієї гіпотезі. У загальному вигляді залежність, якою визначається |L|, записується в такий спосіб:

Основні переваги ознакового класифікатора - простота реалізації, хороша узагальнююча здатність, хороша стійкість до змін форми символів, низька кількість відмов від розпізнавання, висока швидкодія. Найсерйозніший його недолік - нестійкість до різних дефектів зображення. Крім того, ознакові класифікатори мають інший серйозний недолік - на етапі отримання ознак відбувається незворотна втрата частини інформації про символ. Вилучення ознак ведеться незалежно, тому інформація про взаємне розташування елементів символу втрачається.

Точність роботи ознакового класифікатора залежить від якості обраних ознак. Під якістю у разі розуміється їх здатність максимально точно, але з надмірно, охарактеризувати зображення символу. Чітких правил відбору ознак немає, тому класифікатори від різних розробників оперують різними наборамиознак.

Цей тип класифікаторів дуже популярний у розробників OCR-систем. У системі ABBYY FineReader використовується ознаковий класифікатор із числом ознак N=224. Його призначення – те саме, що з растрового класифікатора – швидке породження списку попередніх гіпотез. Точність різновиду, що використовується, за першими трьома варіантами списку гіпотез становить 99,81% , точність за першим варіантом 99,13% .

Контурний класифікатор.
Відокремлений різновид ознакового класифікатора. Відрізняється від останнього тим, що для отримання ознак використовує контури, попередньо виділені на зображенні символу. Принципи функціонування, основні переваги та недоліки збігаються з названими вище.

Цей класифікатор призначений для розпізнавання тексту, набраного декоративними шрифтами (наприклад, стилізованого під готичний, староросійський стиль тощо). Працює дещо повільніше за звичайний ознаковий класифікатор. Точність контурного класифікатора за першими трьома варіантами 99,30% , точність за першим варіантом 95,10% .

Ознаковий диференціальний класифікатор.
Призначений для розрізнення схожих один на одного об'єктів, таких, наприклад, як літера "m" та поєднання "rn". Аналізує лише ті області зображення, де може бути інформація, що дозволяє віддати перевагу одному з варіантів. Так, у випадку з m і rn ключем до відповіді служить наявність і ширина розриву в місці торкання передбачуваних літер.

Ознаковий диференціальний класифікатор (ГДК) є набором ознакових класифікаторів. Ці останні оперують стандартами, отриманими кожної пари подібних знаків. Для всіх пар використовується той самий набір ознак, аналогічний наявному у відповідного ознакового класифікатора. ГДК відрізняється гарною швидкодією. Використовується у різних системах розпізнавання символів.

У процесі навчання цього класифікатора проводиться аналіз зображень із навчальної бази. Значення ознак, що обчислюються при цьому, інтерпретуються як координати точки в N-мірному просторі. Відповідно, для двох різних символів виходить дві "хмари" точок, розташовані на деякому віддаленні один від одного. Коли накопичена інформація про достатню кількість точок, виконується обчислення координат гіперплощини. Вона повинна розділити простір таким чином, щоб «хмари» опинилися по різні боки та приблизно на одній відстані від гіперплощини.

Рис.8. Спрощена геометрична модель навчання
диференційного класифікатора.

Набір величин, що відповідає координатам гіперплощини, використовується при розпізнаванні як зразок для цієї пари символів. Для отриманих під час аналізу зображення значень обчислюється оцінка, геометричний зміст якої – місцезнаходження точки щодо гіперплощини. Слід зазначити, що з кожної пари символів необхідно ретельно вибрати область, де обчислюватися ознаки (іноді цих цілей беруться схожі звичайні ознаки з ознакового і контурного класифікаторів). Через це побудова стандартів для ГДК дуже трудомістка, і загальна їх кількість дуже обмежена.

Вхідними даними ГДК служить як зображення, а й список гіпотез, сформований на ранній стадії розпізнавання. Від того, в якому напівпросторі та на якій відстані від гіперплощини виявиться точка, залежить, вага якої гіпотези буде збільшено класифікатором. Сам ГДК не висуває нових гіпотез, але змінює ваги вже наявних у списку, у разі, якщо серед представлених у списку є пари гіпотез, котрим існують зразки. При цьому використовується алгоритм так званого бульбашкового сортування. Гіпотези перебираються з кінця списку і послідовно "спливають" після порівняння з менш ймовірними, при цьому проводиться коригування ваги. Такий алгоритм гарантує, що правильна гіпотеза виявиться першому місці тоді й лише тоді, коли диференціальне порівняння з усіма вищестоящими гіпотезами дає позитивний результат.

Точність ГДК може бути обчислена методом, застосовуваним для вищеописаних видів, проте може бути оцінена побічно. На рис.9 представлена схема розпізнавателя, що використовується в системах ABBYY. Растровий (РК) та ознаковий (ПК) класифікатори використовуються для швидкого породження попереднього списку гіпотез. У тому випадку, якщо впевненість гіпотези з найбільшою вагою P 1 не перевищує заданого порогового значення P поріг, класифікатор контурний (КК) висуває ряд додаткових гіпотез. Список надходить на вхід ГДК, який провадить сортування. Настільки складна схемазапуску класифікаторів дозволяє оптимізувати співвідношення якості та швидкості розпізнавання. Точність цього розпізнавача за першими трьома варіантами становить 99,87% , точність за першим варіантом 99,26% .

Рис.9. Узагальнена блок-схема алгоритму розпізнавання (перший рівень).

Структурно диференціальний класифікатор.
Був розроблений та спочатку застосовувався для обробки рукописних текстів. Як і ознаково-диференціальний, цей класифікатор вирішує завдання розрізнення схожих об'єктів. Вхідними даними для структурно-диференціального класифікатора (СДК) є ранжований список гіпотез і зображення символу.

Для кожної пари гіпотез ЦДК обчислює значення ознак, аналізуючи відповідні фрагменти зображення. Ознаки, заздалегідь визначені розробниками, дозволяють розрізняти кожну конкретну пару символів, спираючись на відомості накопичені під час навчання класифікатора. У цьому точність розпізнавання істотно зростає, коли кожної пари символів обрані індивідуальні ознаки.

Наприклад, для розрізнення Cі Gкласифікатор аналізує область зображення, що відповідає нижньому правому кутку символу. Одним з індивідуальних для цієї пари ознак буде наявність (або відсутність) двох горизонтальних відрізків, що розходяться від кінця зверненої донизу дуги. Сама ця дуга, як неважко бачити, є в обох знаках.

Структурно-диференціальний класифікатор працює повільніше, ніж всі вищезгадані, а процес його навчання ще більш трудомісткий, ніж для ГДК. Тому СДК використовується в основному для обробки пар символів, які не вдалося добре розрізнити ознаковим диференціальним класифікатором. Важливою перевагою ЦДК є його дуже висока точність. Аналогічно ГДК, цей класифікатор використовує алгоритм бульбашкового сортування списку. Стійкий майже до всіх випадкових спотворень форми символу, крім запечатування.

Застосовується лише в системах розпізнавання компанії ABBYY. Точність розпізнавача (рис.9) при додаванні на виході структурно-диференціального класифікатора збільшується до 99,88% за першими трьома варіантами і до 99,69% за першим варіантом.

Структурний класифікатор.
Одна із революційних розробок компанії ABBYY. Спочатку був створений і використовувався для розпізнавання рукодруку (ICR), потім був успішно застосований і для обробки.

Системи оптичного розпізнавання символів (Optical Character Recognition – OCR) призначені для автоматичного введення друкованих документів у комп'ютер.

FineReader – омніфонтова система оптичного розпізнавання текстів. Це означає, що дозволяє розпізнавати тексти, набрані практично будь-якими шрифтами, без попереднього навчання. Особливістю програми FineReader є висока точність розпізнавання та мала чутливість до дефектів друку, що досягається завдяки застосуванню технології цілісного цілеспрямованого адаптивного розпізнавання.

Процес введення документа в комп'ютер можна поділити на два етапи:

1. Сканування.На першому етапі сканер грає роль "очі" Вашого комп'ютера: "переглядає" зображення та передає його комп'ютеру. При цьому отримане зображення є нічим іншим, як набором чорних, білих або кольорових точок, картинкою, яку неможливо відредагувати в жодному текстовому редакторі.

2. Розпізнавання.Обробка зображення OCR-системою.

Зупинимося на другому кроці докладніше.

Обробка зображення системою FineReader включає аналіз графічного зображення, переданого сканером, і розпізнавання кожного символу. Процеси аналізу макета сторінки (визначення областей розпізнавання, таблиць, картинок, виділення у тексті рядків та окремих символів) та розпізнавання зображення тісно пов'язані між собою: алгоритм пошуку блоків використовує інформацію про розпізнаному тексті більш точного аналізу сторінки.

Як згадувалося, розпізнавання зображення складає основі технології " цілісного цілеспрямованого адаптивного розпізнавання " .

Цілісність- об'єкт описується як ціле за допомогою значних елементів та відносин між ними.

Цілеспрямованість- розпізнавання будується як процес висування та цілеспрямованої перевірки гіпотез.

Адаптивність- Здатність OCR-системи до самонавчання.

Відповідно до цих трьох принципів система спочатку висуває гіпотезу про об'єкт розпізнавання (символі, частини символу або кількох склеєних символів), а потім підтверджує або спростовує її, намагаючись послідовно виявити всі структурні елементи та зв'язуючі їх відносини. У кожному структурному елементі виділяються частини, значимі людського сприйняття: відрізки, дуги, кільця і точки.

Наслідуючи принцип адаптивності, програма самостійно "налаштовується", використовуючи позитивний досвід, отриманий на перших впевнено розпізнаних символах. Цілеспрямований пошук та облік контексту дозволяють розпізнавати розірвані та спотворені зображення, роблячи систему стійкою до можливих дефектів письма.

В результаті роботи у вікні FineReader з'явиться розпізнаний текст, який Ви можете відредагувати та зберегти у найбільш зручному для Вас форматі.

Нові можливості abbyy FineReader 7.0

Точність розпізнавання

Точність розпізнавання покращена на 25%. Найкраще аналізуються та розпізнаються документи складної верстки, зокрема, що містять ділянки тексту на кольоровому фоні або тлі, що складається з дрібних крапок, документи зі складними таблицями, у тому числі таблицями з білими роздільниками, таблицями з кольоровими осередками

У нову версіюдодано спеціалізовані словники для англійської та німецької мови, що включають юридичні та медичні терміни, що найчастіше використовуються. Це дозволяє досягти якісно нового рівня при розпізнаванні документів юридичної та медичної тематики.

Підтримка форматуXMLта інтеграція зMicrosoftOffice

У FineReader з'явився новий формат збереження – Microsoft Word XML. Тепер користувачі нової версії Microsoft Office 2003 зможуть працювати з документами, розпізнаними FineReader, використовуючи всі переваги формату XML!

Інтеграція FineReader із Microsoft Word 2003 дозволяє об'єднати потужні можливості цих двох програм для обробки розпізнаного тексту. Ви зможете перевіряти та редагувати результати розпізнавання за допомогою звичних інструментів Word, одночасно звіряючи переданий у Word текст із оригінальним зображенням – вікно Zoom FineReader відкривається прямо у вікні Word.

Нові можливості зроблять Вашу роботу зручнішою. При створенні документа Word можна викликати FineReader, розпізнати текст і вставити його в місце документа, де знаходиться курсор, тобто Ви зможете легко зібрати в одному документі інформацію з різних паперових джерел або PDF-файлів. Результати розпізнавання тепер можна надіслати електронною поштою як вкладення в будь-якому з підтримуваних форматів збереження.

Поліпшено роботуFineReaderзPDFдокументами

Якість розпізнавання PDF-файлів значно покращилась. Більшість документів, окрім сторінки, містять текст. FineReader 7.0 вміє отримувати цей текст і використовувати його для перевірки результатів та покращення якості розпізнавання.

Тепер Ви можете редагувати розпізнані PDF-документи у вікні редактора FineReader: внесені зміни будуть збережені в будь-якому з режимів збереження PDF-файлів, що підтримуються в програмі.

Формат PDF-файлів, створюваних програмою FineReader, оптимізований для їх публікації в Інтернеті - користувач зможе переглядати зміст перших сторінок, поки завантажується решта документа.

Нові можливості збереження

Новий формат збереження результатів розпізнавання - MicrosoftPowerPoint- дозволяє швидко створювати нові презентації або редагувати існуючі.

При збереженні в MicrosoftWordзменшився розмір одержуваного файлу, покращилося збереження форматування документів з різними роздільниками, з'явилися нові опції збереження картинок.

Покращено відображення складних елементів верстки під час збереження

в HTML, наприклад, обтікання непрямокутних картинок текстом. Крім того, зменшився розмір HTML-файлу, що дуже важливо для публікації документів в Інтернеті.

Зручність використання

Оновлений інтуїтивно-зрозумілий інтерфейс користувача.Стало зручніше працювати з професійними налаштуваннями. Панелі інструментів редагування перенесені у вікно, де відображаються результати розпізнавання. З'явилися зручні інструменти керування вікнами FineReader: наприклад, можна поставити зручну ступінь збільшення кожного вікна.

Оновлене практичний посібникпо поліпшенню якості розпізнавання допоможе початківцю швидко почати роботу, а досвідченішому - найкращим чином налаштувати програму для отримання відмінного результату при роботі з будь-якими типами документів.

Професійні можливості

Тепер у версії FineReaderProfessionalEditionстали доступні ті можливості, які раніше були доступні лише користувачам версії CorporateEdition:

Поліпшено розпізнавання штрих-кодів,підтримується розпізнавання двовимірного штрих-коду PDF-417.

Інструмент для розбиття зображення.За допомогою нього Ви зможете розділити зображення на області та зберегти кожну область як окрему сторінку пакета. Таким чином, зручно розпізнавати кілька візитних карток, відсканованих разом, книги, або роздруківки слайдів презентацій PowerPoint.

Морфологічний пошук.Будь-який пакет, створений у програмі FineReader, можна використовувати як невелику базу даних

із можливістю повнотекстового морфологічного пошуку. Серед усіх розпізнаних сторінок пакета можна знайти ті сторінки, які містять задані слова у всіх граматичних формах (для 34 мов зі словниковою підтримкою).

Підтримка процесорівIntel, що використовують технологіюHyper- Threading. Використання цієї технології дозволяє помітно збільшити продуктивність, що особливо важливо, якщо постає завдання розпізнавання великої кількості документів.

У версії FineReader 7.0 також з'явилися інші професійні можливості:

Двостороннє сканування.Скануючи документ із надрукованим

з двох сторін текстом за допомогою сканера, що підтримує цю опцію, Ви отримаєте зображення вмісту кожної сторони у вигляді двох окремих сторінок пакета. Якщо потрібно відсканувати лише одну сторону документа, цю опцію можна вимкнути.

Підтримано відкриття графічних файлів формату JPEG 2000 та збереження у цей формат.

МережевіможливостіверсіїFineReader Corporate Edition

Докладно всі особливості встановлення та використання FineReader Corporate Edition в корпоративної мережіописано в Посібнику системного адміністратора, який Ви можете знайти в підпапці Administrator" sGuideпапки сервера, куди було встановлено FineReader.

Основні покращення порівняно з попередньою версією:

Підтримує основні способи автоматичної установки з сервера на робочі станції. FineReader Corporate Edition підтримує всі основні способи автоматичного встановлення в локальній мережі: за допомогою Active Directory, Microsoft Systems Management Server або за допомогою командного рядка.

Робота з багатофункціональними пристроями, зокрема мережевими.Багатофункціональні пристрої, що поєднують функції сканера, принтера, копіра і факсу, стають все більш популярними. Тепер необов'язково ставити кожному співробітнику свій сканер – достатньо одного потужного пристрою, з яким працюють усі користувачі організації. FineReader вміє працювати з такими пристроями як підключеними до робочої станції, так і мережевими. Спеціальні налаштування програми дозволяють користувачеві автоматично відкривати та відскановані зображення з будь-якого місця в локальній мережі або з ftp сервера та розпізнавати їх

Різні моделі корпоративного ліцензування.Крім ліцензування за кількістю одночасного працюючих користувачів стали доступні також інші способи ліцензування. Ви зможете вибрати той варіант, який більшою мірою відповідає Вашим потребам.

ЛіцензіяManager- Засіб управління ліцензіями в мережі. У FineReaderCorporateEditionз'явилася зручна утиліта керування ліцензіями (Менеджер ліцензій). За допомогою неї здійснюється відстеження використання FineReader на робочих станціях, резервування ліцензій за робочими станціями, додавання нових ліцензій.

Матеріал з Технічний зір

Завдання розпізнавання текстової інформації при перекладі друкованого та рукописного тексту в електронну форму є однією з найважливіших складових будь-якого проекту, який має на меті автоматизацію документообігу або впровадження безпаперових технологій. Разом про те це завдання одна із найскладніших і наукомістких завдань повністю автоматичного аналізу зображень. Навіть людина, яка читає рукописний текст, у відриві від контексту робить у середньому близько $4$(\%) помилок. Тим часом, у найбільш відповідальних програмах OCR необхідно забезпечувати більш високу надійність розпізнавання (понад 99(\%)) навіть за поганої якості друку та оцифрування вихідного тексту.

В останні десятиліття, завдяки використанню сучасних досягнень комп'ютерних технологій, були розвинені нові методи обробки зображень та розпізнавання образів, завдяки чому стало можливим створення таких промислових систем розпізнавання друкованого тексту, наприклад FineReader, які задовольняють основним вимогам систем автоматизації документообігу. Тим не менш, створення кожного нового додатку в цій галузі, як і раніше, залишається творчим завданням і вимагає додаткових досліджень у зв'язку з специфічними вимогамиз дозволу, швидкодії, надійності розпізнавання та обсягу пам'яті, якими характеризується кожна конкретна задача.

Типові проблеми, пов'язані із розпізнаванням символів.

Є ряд істотних проблем, пов'язаних із розпізнаванням рукописних та друкованих символів. Найважливіші з них такі:

різноманітність форм зображення символів;
спотворення зображень символів;
варіації розмірів та масштабу символів.

Кожен окремий символ може бути написаний різними стандартними шрифтами, наприклад (Times, Gothic, Elite, Courier, Orator), а також безліччю нестандартних шрифтів, що використовуються в різних предметних областях. При цьому різні символи можуть мати подібні обриси. Наприклад, "U" та "V", "S" і "5", "Z" і "2", "G" і "6".

Спотворення цифрових зображень текстових символів можуть бути викликані:

шумами друку, зокрема, непропечаткою (розривами злитих рис символів), "злипанням" сусідніх символів, плямами та хибними точками на тлі поблизу символів тощо;
усуненням символів або частин символів щодо їх очікуваного положення у рядку;
зміною нахилу символів;
спотворенням форми символу за рахунок оцифрування зображення з "грубим" дискретом;
ефектами освітлення (тіні, відблиски тощо) під час зйомки відеокамерою.

Істотним є вплив вихідного масштабу друку. У прийнятій термінології масштаб $10$, $12$ або $17$ означає, що в дюймі рядки розміщуються $10$, $12$ або $17$ символів. При цьому, наприклад, символи масштабу $10$ зазвичай більші і ширші за символ масштабу $12$.

Система оптичного розпізнавання тексту (OCR) повинна виділяти на цифровому зображенні текстові області, виділяти в них окремі рядки, потім окремі символи, розпізнавати ці символи і при цьому бути нечутливою (стійкою) по відношенню до способу верстки, відстані між рядками та іншим параметрам. друку.

Структура систем оптичного розпізнавання текстів.

Системи OCR складаються з таких основних блоків, що передбачають апаратну або програмну реалізацію:

блок сегментації (локалізації та виділення) елементів тексту;
блок попередньої обробки зображення;
блок виділення ознак;
блок розпізнавання символів;
блок постобробки результатів розпізнавання.

Ці алгоритмічні блоки відповідають послідовним крокам обробки та аналізу зображень, що виконуються послідовно.

Спочатку здійснюється виділення $\textit(текстових областей, рядків)$ та розбиття зв'язкових текстових рядків на окремі $\textit(знайома)$, кожне з яких відповідає одному текстовому символу.

Після розбиття (а іноді до або в процесі розбиття) символи, представлені у вигляді двовимірних матриць пікселів, піддаються згладжуванню, фільтрації з метою усунення шумів, нормалізації розміру, а також іншим перетворенням з метою виділення елементів або чисельних ознак, що згодом використовуються для їх розпізнавання. .

Розпізнавання символів відбувається у процесі порівняння виділених характерних ознакз еталонними наборами та структурами ознак, що формуються та запам'ятовуються в процесі навчання системи на еталонних та/або реальних прикладах текстових символів.

На завершальному етапі смислова чи контекстна інформація може бути використана як для розв'язання невизначеностей, що виникають при розпізнаванні окремих символів, що мають ідентичні розміри, так і для коригування помилково лічених слів і навіть фраз загалом.

Методи попередньої обробки та сегментації зображень текстових символів.

Передобробка є важливим етапом у процесі розпізнавання символів і дозволяє проводити згладжування, нормалізацію, сегментацію та апроксимацію відрізків ліній.

Під $\textit(згладжуванням)$ в даному випадку розуміється велика група процедур обробки зображень, багато з яких були розглянуті в розділі $3$ цієї книги. Зокрема, широко використовуються морфологічні оператори $textit(заповнення)$ і $textit(потоншення)$. $\textit(Заповнення)$ усуває невеликі розриви та прогалини. $\textit(Витончення)$є процес зменшення товщини лінії, в якій на кожному кроці області розміром в кілька пікселів ставиться у відповідність тільки один піксел "витонченої лінії". Морфологічний спосіб реалізації подібних операцій на базі операторів розширення та стиснення Серра був описаний у розділі $3.2$.

Там же описаний і спеціальний алгоритм бінарної фільтрації зображень текстових символів, що отримав назву $\textit(стирання бахроми)$. Під "бахромою" тут розуміються нерівності меж символу, які заважають, по-перше, правильно визначити його розміри, а по-друге, спотворюють образ символу та заважають його подальшому розпізнаванню за контурною ознакою.

$\textit(Геометрична нормалізація)$ зображень документів передбачає використання алгоритмів, що усувають нахили і перекоси окремих символів, слів або рядків, а також включає процедури, що здійснюють нормалізацію символів за висотою і шириною після їх обробки.

Процедури $\textit(сегментації)$ здійснюють розбиття зображення документа на окремі області. Як правило, насамперед необхідно відокремити друкований текст від графіки та рукописних позначок. Більшість алгоритмів оптичного розпізнавання розділяють текст на символи і розпізнають їх окремо. Це просте рішення справді найефективніше, якщо символи тексту не перекривають одне одного. Злиття символів може бути викликано типом шрифту, яким був набраний текст, поганою роздільною здатністю друкуючого пристрою або високим рівнемяскравості, вибраним для відновлення розірваних символів.

Додаткове розбиття текстових областей і рядків на $\textit(слова)$ доцільно, якщо слово є заможним об'єктом, відповідно до якого виконується розпізнавання тексту. Подібний підхід, при якому одиницею розпізнавання є не окремий символ, а ціле слово, складно реалізовувати через велику кількість елементів, що підлягають запам'ятовуванню та розпізнаванню, але він може бути корисним і дуже ефективним у конкретних окремих випадках, коли набір слів у кодовому словнику істотно обмежений за умовою завдання.

Під $textit(апроксимацією відрізків ліній)$ розуміють складання графа опису символу у вигляді набору вершин і прямих ребер, які безпосередньо апроксимують ланцюжки пікселів вихідного зображення. Ця апроксимація здійснюється для зменшення обсягу даних і може використовуватися при розпізнаванні, заснованому на виділенні ознак, що описують геометрію та топологію зображення.

Ознаки символів, які використовуються для автоматичного розпізнавання тексту.

Вважається, що виділення ознак є одним із найважчих і важливих завдань у розпізнаванні образів. Для розпізнавання символів можна використовувати велику кількість різних систем ознак. Проблема полягає в тому, щоб виділити саме ті ознаки, які дозволять ефективно відрізняти один клас символів від решти в даній конкретній задачі.

Нижче описано ряд основних методів розпізнавання символів та відповідних їм типів ознак, що обчислюються на основі цифрового зображення.

Зіставлення зображень та шаблонів.

Ця група методів ґрунтується на безпосередньому порівнянні зображень тестового та еталонного символів. У цьому обчислюється $\textit(ступінь подібності)$ між чином і з еталонів. Класифікація тестованого зображення символу відбувається методом найближчого сусіда. Раніше ми вже розглядали методи порівняння зображень у розділі 4.2, а саме – методи кореляції та узгодженої фільтрації зображень.

З практичної точки зору ці методи легко реалізувати, і багато комерційних систем OCR використовують саме їх. Однак при "лобовій" реалізації кореляційних методів навіть невелика темна цятка, що потрапила на зовнішній контур символу, може суттєво вплинути на результат розпізнавання. Тому для досягнення хорошої якостірозпізнавання в системах, що використовують зіставлення шаблонів, застосовуються інші спеціальні способи порівняння зображень.

Одна з основних модифікацій алгоритму порівняння шаблонів використовує представлення шаблонів як набору логічних правил. Наприклад, символ

0000000000

000aabb000

00aeeffb00

0ae0000fb0

0ae0ii0fb0

0ae0000fb0

0cg0000hd0

0cg0jj0hd0

0cg0000hd0

00cgghhd00

000ccdd000

0000000000

може бути розпізнаний як "нуль", якщо: (не менше $5$ символів "a" є "1" або не менше $4$ символів $\text("e") = \text("1")$) І (не менше $5$ символів "b" є "1" або не менше $4$ символів $\text("f") = \text("1")$) І (не менше $5$ символів "c" є "1" або не менше $4$ символів $\text("g") = \text("1")$) І (не менше $5$ символів "d" є "1" або не менше $4$ символів $\text("h") ) = \text("1")$) І (принаймні $3$ символу "i" є "0") І (принаймні $3$ символу "j" є "0").

Статистичні показники.

У цій групі методів виділення ознак складає основі аналізу різних за статистичних розподілів точок. Найбільш відомі методики цієї групи використовують $textit(обчислення моментів)$$textit(і підрахунок перетинів)$.

$\textit(Моменти різних порядків)$ з успіхом використовуються в різних галузях машинного зору як дескриптори форми виділених областей і об'єктів (див. розділ 4.1). У разі розпізнавання текстових символів як набор ознак застосовують значення моментів сукупності "чорних" точок щодо деякого вибраного центру. Найбільш загальновживаними у додатках такого роду є рядкові, центральні та нормовані моменти.

Для цифрового зображення, що зберігається у двовимірному масиві, $\textit(рядкові моменти)$ є функціями координат кожної точки зображення наступного виду: $$ m_(pq) =\sum\limits_(x=0)^(M-1) (\ sum\limits_(y=0)^(N-1) (x^py^qf(x,y)) ) , $$ де $p,q \in $0,1,\ldots ,\infty $ $; $M$ і $N$ є розмірами зображення по горизонталі та вертикалі і $f(x,y)$ є яскравістю пікселя у точці $\langle x,y\rangle$ на зображенні.

$\textit(Центральні моменти)$ є функцією відстані точки від центру ваги символу: $$ m_(pq) =\sum\limits_(x=0)^(M-1) (\sum\limits_(y=0)^ (N-1) ((x-\mathop x\limits^\_)^p(y-\mathop y\limits^\_)^qf(x,y)) ) , $$ де $x$ і $ y$ "з межею" - координати центру тяжіння.

$\textit(Нормовані центральні моменти)$ виходять у результаті поділу центральних моментів на моменти нульового порядку.

Слід зазначити, що рядкові моменти зазвичай забезпечують нижчий рівень розпізнавання. Центральні та нормовані моменти більш переважні внаслідок їх більшої інваріантності до перетворення зображень.

У $\textit(методі перетинів)$ ознаки формуються шляхом підрахунку того, скільки разів і яким чином відбулося перетин зображення символу з обраними прямими, що проводяться під певними кутами. Цей метод часто використовується в комерційних системах завдяки тому, що він інваріантний до дисторсії і невеликим стилістичним варіаціям написання символів, а також має досить високу швидкість і не вимагає високих обчислювальних витрат. На рис. 1 показано еталонне зображення символу $R$, система прямих, що сікають, а також вектор відстаней до еталонних векторів. На рис. 2 наведено приклад реального зображення

Приклад формування набору перетинів для зображення еталонного символу $R$

Приклад формування набору перетинів для реального зображення символу $R$

Приклад формування зонного опису еталонного зображення символу $R$

Приклад формування зонного опису реального зображення символу $R$; $K = 0(,)387$

символ $R$. Кольором (див. кольорове вклеювання) також позначений рядок, що відповідає найближчому сусідові.

$\textit(Метод зон)$ передбачає поділ площі рамки, що охоплює символ, на області та подальше використання щільностей точок у різних областях як набору характерних ознак. На рис. 3 показано еталонне зображення символу $ R $, але в рис. 4 – реальне зображення символу $R$, отримане шляхом сканування зображення документа. На обох зображеннях наводяться розбиття на зони, ваги піксельні кожної зони, а також вектор відстаней до еталонних векторів еталонних символів. Кольором позначений рядок, що відповідає знайденому найближчому сусідові.

У методі $\textit(матриць суміжності)$ як ознаки розглядаються частоти спільної зустрічальності "чорних" і "білих" елементів у різних геометричних комбінаціях. Метод $\textit(характеристичних місць)$ (characteristic-loci) використовує як ознаку число разів, яке вертикальний та горизонтальний вектори перетинають відрізки ліній для кожної світлої точки в області символу фону.

Існує також безліч інших методів цієї групи.

Інтегральні перетворення.

Серед сучасних технологій розпізнавання, що ґрунтуються на перетвореннях, виділяються методи, що використовують Фур'є-дескриптори символів, а також частотні дескриптори кордонів.

Переваги методів, що використовують перетворення Фур'є - Мелліна, пов'язані з тим, що вони мають інваріантність до масштабування, обертання та зсуву символу. Основний недолік цих методів полягає в нечутливості до різких стрибків яскравості на кордонах, наприклад, за спектром просторових частот складно відрізнити символ "O" від символу "Q" і т.п. У той же час, при фільтрації шуму на межах символу властивість може бути корисним.

Аналіз структурних складових.

Структурні ознаки зазвичай використовуються виділення загальної структуриобразу. Вони описують геометричні та топологічні властивості символу. Найпростіше уявити ідею структурного розпізнавання символу тексту стосовно завдання автоматичного зчитування поштових індексів. У таких "трафаретних" шрифтах положення кожного можливого відрізка-штриха наперед відомо, і один символ відрізняється від іншого не менш ніж наявністю або відсутністю цілого штриха. Аналогічне завдання виникає і у разі контролю простих рідкокристалічних індикаторів. У таких системах виділення структурних складових зводиться до аналізу елементів попередньо відомого трафарету (набору відрізків, що підлягають виявленню).

У системах структурного розпізнавання більш складних шрифтів часто використовуються ознаками також є штрихи, що застосовуються для визначення наступних характерних особливостей зображення: $\textit(кінцевих точок)$, $\textit(точок перетину відрізків)$, $\textit(замкнутих циклів)$, а також їх положення щодо рамки, що охоплює символ. Розглянемо, наприклад, наступний спосіб структурного опису символу. Нехай матриця, що містить витончений символ, розділена на дев'ять прямокутних областей (у вигляді сітки $33$), кожній з яких надано літерний код від "A" до "I". Символ розглядається як набір штрихів. При цьому штрих, що з'єднує деякі дві точки у накресленні символу, може бути лінією (L) або кривою (C). Штрих вважається $\textit(відрізком (дугою))$ $\textit(кривий)$, якщо його точки задовольняють наступному виразу $$ \left| \frac (1)(n) \sum\limits_(i=1)^n \frac (ax_i +by_i +c)(\sqrt(a^2+b^2)) \right| >0(,)69, $$ інакшевважається, що це $\textit(прямолінійний відрізок)$. У цій формулі $\langle x_(i),y_(i)\rangle$ є точкою, що належить штриху; $ax+by+c=0$ - рівняння прямої, що проходить через кінці штриха, коефіцієнт $0(,)69$ отриманий дослідним шляхом. Далі символ може бути описаний набором відрізків і дуг. Наприклад, запис $"ALC", "ACD"$ означає наявність прямої, що проходить з області "A" в область "C", і кривої, що проходить з області "A" в область "D" відповідно.

Основна перевага структурних методів розпізнавання визначаться їх стійкістю до зсуву, масштабування та повороту символу на невеликий кут, а також - до можливих дисторсій та різних стильових варіацій та невеликих спотворень шрифтів.

Класифікація символів.

У існуючих системах OCR використовують різноманітні алгоритми $\textit(класифікації)$, тобто віднесення ознак до різних класів. Вони значно різняться залежно від прийнятих наборів ознак і застосовуваної стосовно них стратегії класифікації.

Для ознакової класифікації символів необхідно, у першу чергу, сформувати набір еталонних векторів ознак по кожному з символів, що розпізнаються. Для цього на стадії $\textit(навчання)$ оператор або розробник вводить в систему OCR велику кількість зразків зображення символів, що супроводжуються вказівкою значення символу. Для кожного зразка система виділяє ознаки та зберігає їх у вигляді відповідного $textit(вектора ознак)$. Набір векторів ознак, що описують символ, називається $textit(класом)$, або $textit(кластером)$.

У процесі експлуатації системи OCR може виникнути потреба розширити сформовану раніше базу знань. У зв'язку з цим деякі системи мають можливість $\textit(донавчання)$ в реальному режимічасу.

Завданням власне $\textit(процедури класифікації)$ або $\textit(розпізнавання)$, що виконується в момент пред'явлення системі тестового зображення символу, є визначення того, до якого раніше сформованих класів належить вектор ознак, отриманий для даного символу. Алгоритми класифікації засновані на визначенні ступеня близькості набору ознак символу, що розглядається, до кожного з класів. Правдоподібність одержуваного результату залежить від обраної метрики простору ознак. Найбільш відомою метрикою ознакового простору є традиційна відстань Евклідова

$$ D_j^E = \sqrt(\sum\limits_(i=1)^N ((F_(ji)^L -F_i^l)^2)), $$ де $F_(ji)^L$ - $i$-а ознака з $j$-го еталонного вектора; $F_i^l $ - $i$-а ознака тестованого зображення символу.

При класифікації за методом $\textit(найближчого сусіда) символ буде віднесений до класу, вектор ознак якого найбільш близький до вектора ознак символу, що тестується. Слід враховувати, що витрати на обчислення в таких системах зростають зі збільшенням кількості ознак і класів, що використовуються.

Одна з методик, що дозволяють покращити метрику подібності, ґрунтується на статистичному аналізі еталонного набору ознак. При цьому в процесі класифікації більш надійним ознакам віддається більший пріоритет: $$ D_j^E = sqrt(sum\limits_(i=1)^N (w_i (F_(ji)^L -F_i^l)^2)) , $$

Де $w_(i)$ - вага $i$-ї ознаки.

Інша методика класифікації, що вимагає знання апріорної інформації про імовірнісну модель тексту, заснована на використанні формули Байєса. З правила Байєса випливає, що аналізований ознак належить класу "$j$", якщо відношення правдоподібності $\lambda $ більше, ніж відношення апріорної ймовірностікласу $j$ до апріорної ймовірності класу $i$.

Постобробка результатів розпізнавання.

У відповідальних системах OCR якість розпізнавання, що отримується при розпізнаванні окремих символів, не вважається достатньою. У таких системах необхідно також використовувати контекстну інформацію. Використання контекстної інформації дозволяє не лише знаходити помилки, а й виправляти їх.

Існує безліч додатків OCR, що використовують глобальні та локальні позиційні діаграми, триграми, $n$-грами, словники та різні поєднання всіх цих методів. Розглянемо два підходи до розв'язання цього завдання: $textit(словник)$ і $textit(набір бінарних матриць)$, що апроксимують структуру словника.

Доведено, що словникові методи є одними з найефективніших при визначенні та виправленні помилок класифікації окремих символів. При цьому після розпізнавання всіх символів деякого слова словник проглядається у пошуках цього слова, з огляду на те, що воно, можливо, містить помилку. Якщо слово знайдено у словнику, це свідчить про відсутність помилок. Помилка може перетворити одне слово, що знаходиться в словнику, в інше, що також входить до словника. Така помилка не може бути виявлена без використання змістової контекстної інформації: лише вона може підтвердити правильність написання. Якщо слово у словнику відсутнє, вважається, що у слові припущено помилку розпізнавання. Для виправлення помилки вдаються до заміни такого слова на схоже слово зі словника. Виправлення не провадиться, якщо в словнику знайдено кілька відповідних кандидатур для заміни. У цьому випадку інтерфейс деяких систем дозволяє показати слово користувачеві та запропонувати різні варіантирішення, наприклад, виправити помилку, ігнорувати її та продовжувати роботу або внести це слово у словник. Головний недолік у використанні словника полягає в тому, що операції пошуку та порівняння, що застосовуються для виправлення помилок, вимагають значних обчислювальних витрат, що зростають зі збільшенням обсягу словника.

Деякі розробники з метою подолання труднощів, пов'язаних із використанням словника, намагаються виділяти інформацію про структуру слова із самого слова. Така інформація говорить про рівень правдоподібності $\textit(n-грам)$ (символьних послідовностей, наприклад, пар або трійок букв) у тексті, які також можуть бути глобально позиціонованими, локально позиціонованими або взагалі непозиціонованими. Наприклад, ступінь достовірності непозиціонованої пари букв може бути представлена у вигляді бінарної матриці, елемент якої дорівнює 1 тоді і тільки тоді, коли відповідна пара букв є в деякому слові, що входить до словника. Позиційна бінарна діаграма $D_(ij)$ є бінарною матрицею, визначальною, яка з пар літер має ненульову ймовірність виникнення позиції $\langle i,j\rangle$. Набір всіх позиційних діаграм включає бінарні матриці кожної пари положень.