Photoshopa

Czym są systemy OCR? Budowa systemu optycznego rozpoznawania informacji strukturalnych na przykładzie Imago OCR

Wyobraź sobie, że musisz zdigitalizować artykuł w czasopiśmie lub wydrukowaną umowę. Oczywiście możesz spędzić kilka godzin na ponownym pisaniu dokumentu i poprawianiu literówek. Możesz też w ciągu kilku minut przekonwertować wszystkie wymagane materiały do formatu edytowalnego, korzystając ze skanera (lub aparatu cyfrowego) i oprogramowania do optycznego rozpoznawania znaków (OCR).

Co oznacza technologia optycznego rozpoznawania znaków?

Optyczne rozpoznawanie znaków (OCR) to technologia umożliwiająca konwersję Różne rodzaje dokumenty, takie jak zeskanowane dokumenty, pliki PDF lub zdjęcia z aparatu cyfrowego, na edytowalne formaty z możliwością wyszukiwania.

Załóżmy, że masz dokument papierowy, na przykład artykuł w czasopiśmie, broszurę lub umowę formacie PDF, wysłane do Ciebie przez partnera e-mail. Oczywiście, aby móc edytować dokument, nie wystarczy go po prostu zeskanować. Jedyne, co może zrobić skaner, to stworzyć obraz dokumentu, który jest po prostu zbiorem czarno-białych lub kolorowych kropek, czyli obrazem rastrowym.

Aby kopiować, wyodrębniać i edytować dane, potrzebujesz oprogramowania do rozpoznawania znaków, które potrafi zidentyfikować litery na obrazie, ułożyć je w słowa, a następnie połączyć słowa w zdania, co umożliwi Ci pracę z treścią oryginału dokument.

Jakie zasady leżą u podstaw technologii OCR programu FineReader?

Najbardziej zaawansowane systemy rozpoznawania znaków, takie jak ABBYY FineReader OCR, kładą nacisk na wykorzystanie mechanizmów stworzonych przez naturę. Mechanizmy te opierają się na trzech podstawowych zasadach: integralności, celowości i zdolności adaptacyjnej (zasady IPA).

Obraz, zgodnie z zasadą integralności, będzie interpretowany jako pewien przedmiot tylko wtedy, gdy znajdą się na nim wszystkie części konstrukcyjne tego przedmiotu i części te pozostaną we właściwych relacjach. Innymi słowy, program ABBYY FineReader nie próbuje podejmować decyzji, przeglądając tysiące standardów w poszukiwaniu najodpowiedniejszego. Zamiast tego stawia się szereg hipotez na temat wyglądu wykrytego obrazu. Każda hipoteza jest następnie celowo testowana. I zakładając, że znalezionym obiektem może być litera A, FineReader będzie szukać dokładnie tych cech, jakie powinien posiadać obraz tej litery. Tak jak należy to zrobić, kierując się zasadą celowości. Zasada adaptowalności oznacza, że program musi posiadać zdolność samouczenia się, dlatego system sprawdzi, czy postawiona hipoteza jest słuszna, opierając się na wcześniej zgromadzonych informacjach o możliwych zarysach postaci w danym konkretnym dokumencie.

Jaka technologia stoi za OCR?

Firma ABBYY, bazując na wynikach wieloletnich badań, wdrożyła zasady IPA w program komputerowy. System optycznego rozpoznawania znaków ABBYY FineReader to jedyny na świecie system OCR działający zgodnie z opisanymi powyżej zasadami na wszystkich etapach przetwarzania dokumentu. Zasady te sprawiają, że program jest tak elastyczny i inteligentny, jak to tylko możliwe, a jego działanie jest niezwykle zbliżone do sposobu, w jaki człowiek rozpoznaje symbole. Na pierwszym etapie rozpoznawania system analizuje obrazy tworzące dokument strona po stronie, określa strukturę stron oraz selekcjonuje bloki tekstu i tabele. Ponadto współczesne dokumenty często zawierają różnego rodzaju elementy projektu: ilustracje, nagłówki, stopki, kolorowe tła lub obrazy tła. Dlatego nie wystarczy po prostu znaleźć i rozpoznać wykryty tekst, ważne jest, aby od samego początku ustalić, jaką strukturę ma dany dokument: czy zawiera sekcje i podrozdziały, linki i przypisy, tabele i wykresy, tabelę treść, czy wpisane są numery stron itp. Następnie w tekście wiersze są podświetlane blokami, poszczególne wiersze dzielone są na słowa, słowa na znaki.

Należy zauważyć, że w formularzu zaimplementowano także wyodrębnianie i rozpoznawanie znaków składniki pojedynczą procedurę. Pozwala to w pełni wykorzystać zasady IPA. Wybrane obrazy postaci są przesyłane do mechanizmów rozpoznawania liter zwanych klasyfikatorami.

System ABBYY FineReader wykorzystuje następujące typy klasyfikatorów: rastrowy, cechowy, konturowy, strukturalny, różnicujący cechy i różnicujący strukturalnie. Klasyfikatory rastrów i cech analizują obraz i stawiają kilka hipotez na temat tego, jaki znak jest na nim reprezentowany. W trakcie analizy każdej hipotezie przypisuje się określoną punktację (tzw. wagę). Na podstawie wyników testu otrzymujemy listę hipotez uszeregowanych wagowo (czyli według stopnia pewności, że to właśnie jest ten symbol przed nami). Można powiedzieć, że w ten moment system już „odgaduje”, jak wygląda dany symbol.

Następnie, zgodnie z zasadami IPA, program ABBYY FineReader testuje zaproponowane hipotezy. Odbywa się to za pomocą klasyfikatora cech różniczkowych.

Ponadto należy zauważyć, że program ABBYY FineReader obsługuje 192 języki rozpoznawania. Integracja systemu rozpoznawania ze słownikami ułatwia programowi analizę dokumentów: rozpoznawanie jest dokładniejsze i ułatwia dalszą weryfikację wyniku z uwzględnieniem danych o głównym języku dokumentu oraz słownikowe sprawdzenie poszczególnych założeń. Po szczegółowym przetworzeniu ogromnej liczby hipotez program podejmuje decyzję i udostępnia użytkownikowi rozpoznany tekst.

Cyfrowe rozpoznawanie zdjęć

Obrazy zarejestrowane aparatem cyfrowym różnią się od zeskanowanych dokumentów lub plików PDF, które są obrazami.

Często mogą mieć pewne wady, takie jak zniekształcenia perspektywy, odblaski błyskowe lub wygięte linie. Podczas pracy z większością aplikacji takie defekty mogą znacznie skomplikować proces rozpoznawania. Pod tym względem najnowsze wersje programu ABBYY FineReader zawierają technologie wstępnego przetwarzania obrazu, które z powodzeniem wykonują zadania przygotowania obrazów do rozpoznawania.

Jak korzystać z programów OCR

Technologia OCR ABBYY FineReader jest łatwa w użyciu – proces rozpoznawania składa się zazwyczaj z trzech etapów: otwarcia (lub skanowania) dokumentu, rozpoznania i zapisania w najbardziej odpowiednim formacie (DOC, RTF, XLS, PDF, HTML, TXT itp.) lub prześlij dane bezpośrednio do programy biurowe takie jak Microsoft® Word®, Excel® lub aplikacje do przeglądania plików PDF.

Oprócz, Ostatnia wersja Program ABBYY FineReader umożliwia automatyzację zadań rozpoznawania i konwersji dokumentów za pomocą aplikacji ABBYY Hot Folder. Za jego pomocą możesz skonfigurować podobne lub powtarzalne zadania przetwarzania dokumentów i zwiększyć produktywność.

Jakie korzyści czerpiesz ze współpracy z programami OCR?

Wysoka jakość technologii rozpoznawania tekstu ABBYY OCR zapewnia dokładną konwersję dokumentów papierowych (skany, zdjęcia) i dokumentów PDF dowolnego typu do formatów edytowalnych. Zastosowanie nowoczesnych technologii OCR pozwala zaoszczędzić wiele wysiłku i czasu podczas pracy z dowolnymi dokumentami. Dzięki ABBYY FineReader OCR możesz skanować dokumenty papierowe i je edytować. Możesz wyodrębniać cytaty z książek i czasopism i używać ich bez ponownego wpisywania. Korzystając z aparatu cyfrowego i programu ABBYY FineReader OCR, możesz błyskawicznie zrobić zdjęcie plakatu, banera, dokumentu lub książki, które widzisz, gdy nie masz pod ręką skanera, i rozpoznać powstały obraz. Ponadto programu ABBYY FineReader OCR można używać do tworzenia przeszukiwalnego archiwum dokumentów PDF.

Cały proces konwersji z dokumentu papierowego, zdjęcia lub pliku PDF zajmuje mniej niż minutę, a sam rozpoznany dokument wygląda dokładnie tak, jak oryginał!

Systemy optycznego rozpoznawania znaków (OCR) stały się integralną częścią zintegrowanych pakietów wspomagających komputerowe wprowadzanie, przechowywanie i przetwarzanie dokumentów papierowych i elektronicznych. W systemie znajduje się skaner służący do wprowadzania informacji.

Jeśli obraz utworzony przez skaner zawiera tekst i obrazy, użyj specjalny program Optyczne rozpoznawanie tekstu (OCR) może:

- oddziel tekst od obrazków;
- napisz ten tekst w formacie pliku edytora tekstu.

Oprogramowanie w nowoczesne systemy OCR analizuje kształty liter i tworzy je plik tekstowy, w którym rozpoznany tekst jest zapisywany znak po znaku z sekwencyjnym tworzeniem słów i zdań.

Istnieją dwa rodzaje pakietów OCR: uczące się i inteligentne. Pierwsze pakiety do optycznego rozpoznawania znaków miały wyraźny podział ze względu na rodzaj. Ostatnio pojawiła się tendencja do łączenia tych dwóch typów w jednym pakiecie, co nawiązuje do prób opracowania zasadniczo nowych algorytmów rozpoznawania.

Większość wczesnych rozwiązań stanowiły pakiety oprogramowania OCR, których można było się uczyć. Takie pakiety teoretycznie są w stanie nauczyć się rozpoznawać dowolne znaki z dowolnego kroju pisma. Aby wytrenować program pod kątem określonego kroju pisma, należy zeskanować obraz referencyjny, a następnie nauczyć każdego konkretnego znaku. Jest to dość długa procedura, jeśli jednak ten zestaw słuchawkowy będzie potem regularnie używany, warto poświęcić kilka godzin na naukę. Tego typu programy porównują każdy pojedynczy znak na stronie ze znakami w tabelach przeglądowych utworzonych podczas uczenia, tworząc plik tekstowy.

Inteligentne pakiety OCR nie wymagają szkolenia i potrafią interpretować kształty znaków niezależnie od użytego kroju pisma. Praca tych programów jest imponująca: dokument przechodzi przez skaner, wynik jest przetwarzany przez inteligentny program OCR i wysyłany jest plik tekstowy. W przypadku strony A4 cała procedura trwa nieco ponad minutę. Dzięki dużej dokładności jest znacznie szybszy niż wprowadzanie ręczne.

FineReader to system optycznego rozpoznawania tekstu (OCR), który konwertuje obraz graficzny (obraz) uzyskany za pomocą skanera na tekst (tj. na kody literowe zrozumiałe dla systemu).

Proces wprowadzania tekstów do komputera odbywa się w kilku etapach: skanowanie; wybieranie bloków na obrazku; uznanie; sprawdzanie błędów; zapisanie wyniku rozpoznania (przeniesienie go do innej aplikacji, do bufora itp.)

Rysunek 2. Interfejs programy FineReader 11

Inteligentny system optycznego rozpoznawania znaków (OCR) Cuneiform działa w środowisku Microsoft Windows 3.1 lub nowszy. System posiada następujące możliwości technologiczne: obsługuje szeroką gamę skanerów stacjonarnych, rozpoznaje zeskanowaną stronę (w tym tekst wielokolumnowy i tekst o złożonej konstrukcji); umożliwia zeskanowanie i nagranie obrazu w formacie TIFF oraz późniejsze rozpoznanie (dzięki temu wygodnie jest skanować stos dokumentów); potrafi czytać obrazy skanowane innymi programami i faksy w trybach Fine i Normal, rozpoznaje litery alfabetu rosyjskiego i angielskiego, z wyjątkiem czcionek stylizowanych, takich jak litery gotyckie; potrafi zachować oryginalne formatowanie i tabulatory oraz dostosować wcięcia i wyrównanie; nie rozpoznaje tekstu pisanego odręcznie.

Ekran Suneiform składa się z czterech głównych części, zaznaczonych na rysunku.

Rysunek 3. Interfejs programu Сuneiform

Nowa wersja systemu rozpoznawania Intuitia 2.0 dla Windows wykorzystuje technologię Omnifont (rozpoznaje różne czcionki bez żadnego szkolenia). Zapewnia rozpoznawanie obrazu materiałów tekstowych z plików w formacie formatach TIFF, PCX, BMP, a także ze wszystkich skanerów obsługujących protokół TWAIN, a także ze skanerów z rodziny HP ScanJet (bezpośrednio).

PenO"Man dla systemu Windows do wprowadzania danych i rozpoznawania pisma ręcznego - narzędzie wprowadzanie pisma ręcznego, rozpoznawanie i edycja tekstów za pomocą pióra: możliwe jest jednoczesne wprowadzanie i edycja tekstu pisanego w języku angielskim i rosyjskim we wszystkich Aplikacje Windowsowe; proces wprowadzania danych jest podobny do zwykłego użycia pióra podczas pisania od lewej do prawej, najlepiej schludnym pismem odręcznym i klasycznym lewym skosem; edycja już wprowadzonego tekstu możliwa jest w wyniku użycia standardowe funkcje(wstawianie, usuwanie, przenoszenie, aktywacja fragmentów tekstu itp.), a także proste pociągnięcia piórem.

Biała księga dotycząca technologii OCR i ICR

Wstęp.

1.1 Systemy OCR i ICR. Kryteria oceny systemów uznawania.

Nowoczesne systemy optycznego rozpoznawania znaków (OCR) można podzielić na dwie kategorie. Właściwie systemy OCR rozwiązują klasyczny problem rozpoznawania wydrukowane znaków drukowanych na papierze za pomocą drukarki, plotera lub maszyny do pisania (oznacza to, że każdy system rozpoznawania współpracuje z elektronicznym obrazem dokumentu, uzyskiwanym zwykle za pomocą skanera). Ponadto istnieje klasa systemów ICR (inteligentne rozpoznawanie znaków), których zadaniem jest ręczne przetwarzanie dokumentów wypełnionych drukowanymi literami i cyframi, czyli inaczej mówiąc rozpoznawanie ręcznie drukowane postacie.

W obu przypadkach jakość systemu uznawania można ocenić za pomocą szeregu parametrów. Jednak większość ważny parametr dowolnego typu systemu jest dokładność rozpoznawania, zwykle wyrażana w procentach

A REC = 100% * N OK / N 0 ; (1.1)

gdzie N OK i N 0 to odpowiednio liczba poprawnie rozpoznanych znaków i całkowita liczba znaków dokumentu. Jest rzeczą całkiem naturalną, że producenci systemów OCR\ICR skupiają się przede wszystkim na optymalizacji stosowanych algorytmów pod kątem dokładności rozpoznawania.

1.2 Technologie firmy ABBYY.

W ciągu ostatnich sześciu lat na rynku światowym dostępne były systemy OCR\ICR oparte na technologiach firmy ABBYY. Dziś są dobrze znane i cieszą się stałym popytem. W szczególności rdzeń oprogramowania (silnik) systemu ABBYY FineReader OCR jest licencjonowany i z powodzeniem obsługiwany przez tak znane firmy jak Cardiff Software, Inc., Cobra Technologies, Kofax Image Products, Kurzweil Educational Systems, Inc., Legato Systems, Inc., Notable Solutions Inc., ReadSoft AB, Saperion AG, SER Systems AG, Siemens Nixdorf, Toshiba Corporations.

W tego dokumentu Opisane zostaną podstawowe zasady działania technologii firmy ABBYY, a ponadto szczegółowo omówione zostaną procedury rozpoznawania znaków drukowanych (OCR) i znaków drukowanych ręcznie (ICR) zaimplementowanych w produktach firmy ABBYY.

Podstawowe zasady technologii rozpoznawania tekstu firmy ABBYY.
2.1 Zasady IPA.

Konwersja dokumentu do postaci elektronicznej odbywa się za pomocą systemów OCR etapami: skanowanie i wstępna obróbka obrazu, analiza struktury dokumentu, rozpoznanie, weryfikacja wyników, następnie rekonstrukcja (odtworzenie pierwotnego wyglądu) dokumentu. dokumentu i eksportu. Metody stosowane w rozpoznawaniu są bardzo różnorodne.

Ale jak wiadomo, najlepsze na świecie systemy rozpoznawania optycznego zostały zaprojektowane przez naturę. Struktura części układu nerwowego dostarczających i przetwarzających sygnały z narządów wzroku jest tak złożona, że zadanie modelowania żywych „rozpoznawaczy” w ogólna perspektywa nie został jeszcze rozwiązany przez naukę. Jednak podstawowe zasady ich funkcjonowania zostały dobrze poznane i można je zastosować w praktyce. Są trzy z nich:
Technologie rozpoznawania opracowane przez firmę ABBYY opierają się właśnie na tych zasadach. Zamiast pełnych nazw zasad często używa się skrótu IPA, składający się z pierwszych liter odpowiednich angielskich słów. Oczywiste jest, że system uznawania działa zgodnie z zasadami IPA, będzie działać tak elastycznie i dokładnie, jak to możliwe, na granicy znaczących działań.

Firma ABBYY w oparciu o wyniki wieloletnich badań wdrożyła te zasady IPA jako część technologii optycznego rozpoznawania znaków. ABBYY FineReader to jedyny na świecie system OCR, który działa zgodnie z opisanymi powyżej zasadami na wszystkich etapach przetwarzania dokumentu.

W szczególności na etapie rozpoznawania fragment obrazu wg zasada integralności, będzie interpretowany jako określony przedmiot (symbol) tylko wtedy, gdy znajdują się na nim wszystkie części konstrukcyjne tego obiektu i części te pozostają w odpowiednich relacjach. Dlatego program ABBYY FineReader nie próbuje podejmować decyzji, przeglądając tysiące standardów w poszukiwaniu najodpowiedniejszego. Zamiast tego stawia się serię hipotez na temat wyglądu wykrytego obrazu, a następnie każdą hipotezę celowo jest sprawdzane. Ponadto system sprawdzi, czy postawiona hipoteza jest słuszna, wykorzystując ją zasada adaptacji, opierając się na wcześniej zgromadzonych informacjach o możliwych zarysach znaku w rozpoznanym dokumencie.

2.2 Wielopoziomowa analiza dokumentów. MDA

Na etapie analizy i wstępnego przetwarzania obrazu każdy system OCR staje przed dwoma głównymi zadaniami: po pierwsze, przygotować obraz do procedur rozpoznawania, a po drugie, rozpoznać strukturę dokumentu – aby później móc go odtworzyć w w formacie elektronicznym. Procedury wstępnego przetwarzania zostaną omówione w następnym rozdziale, ale teraz przechodzimy do zadania analizy konstrukcji.

Najczęściej stosowane są tzw. metody analizy hierarchicznej struktury dokumentu. Analizując strukturę w ramach tych metod, zwykle identyfikuje się kilka hierarchicznie zorganizowanych poziomów logicznych. Jest tylko jeden obiekt najwyższego poziomu – sama strona, na kolejnym poziomie hierarchii znajduje się tabela, blok tekstowy i obraz itd. (rys. 1). Oczywiste jest, że dowolny obiekt można przedstawić jako zbiór obiektów niższego poziomu.

Ryc.1. Struktura hierarchiczna dokument
Większość nowoczesnych systemów OCR analizuje dokument według jednej z zasad: góra – dół lub dół – góra. Analiza dokumentów metodą top-down, jak sama nazwa wskazuje, odbywa się w kierunku top-down. System dzieli stronę na obiekty, które z kolei są dzielone na obiekty niższych poziomów i tak dalej, aż do znaków. Natomiast systemy oparte na drugiej zasadzie rozpoczynają analizę od poszukiwania pojedynczych znaków. Następnie powstaje pomysł, w jaki sposób znalezione znaki zostały połączone w słowa i tak dalej, aż do powstania kompletnego elektronicznego odpowiednika strony.

Do podejmowania decyzji dotyczących konkretnego obiektu często wykorzystuje się tzw. mechanizm „głosowania”. Istotą tej metody jest równoległe rozwinięcie kilku hipotez dotyczących obiektu i przekazanie ich „ekspertowi”, blokowi logicznemu, który wybiera jedną z nich.

Metoda ta była szeroko stosowana w ciągu ostatniej dekady; w szczególności istnieją systemy OCR, które dosłownie składają się z dwóch lub więcej niezależnych silników rozpoznających o wspólnym „eksperckim” wyjściu. Jednak, jak pokazała praktyka, taka konstrukcja sprawdza się właśnie w tych przypadkach, gdy w programie OCR wykorzystywane są „obce”, licencjonowane mechanizmy rozpoznawania. W sytuacji, gdy producent programu nie ma dostępu do informacji o wszystkich zawiłościach działania każdego rozpoznawacza, to rozwiązanie okazuje się najwygodniejsze. Jeśli producent samodzielnie opracuje moduły rozpoznawania, jakość rozpoznawania można jeszcze bardziej poprawić w skuteczny sposób. To właśnie one zostaną omówione w tym dokumencie.

Programiści ABBYY stworzyli unikalny algorytm do wielopoziomowej analizy dokumentów – nazywa się to MDA(wielopoziomowa analiza dokumentów) – pozwalająca połączyć zalety obu powyższych zasad. W MDA strukturę strony rozpatruje się w ten sam sposób, jak przy metodzie top-down, a rekonstrukcja dokumentu w formie elektronicznej po zakończeniu rozpoznania następuje „od dołu do góry”, podobnie jak w metodzie oddolnej. Jednocześnie do algorytmu dodano mechanizm informacja zwrotna, obejmujący wszystkie poziomy analizy, co pozwoliło znacznie zmniejszyć prawdopodobieństwo wystąpienia rażących błędów związanych z nieprawidłowym rozpoznawaniem obiektów na wysokich poziomach.

Możliwości nowego algorytmu okazały się znacznie szersze niż prototypów. Należy pamiętać, że obiekty dowolnego poziomu są rozpoznawane przez system ABBYY OCR w pełnej zgodności z zasadami IPA: w pierwszej kolejności stawiane są hipotezy dotyczące typów wykrywanych obiektów, następnie są one celowo testowane. W takim przypadku brane są pod uwagę wcześniej znalezione cechy tego dokumentu, a wszystkie nowo otrzymane informacje są również zachowywane.

Przyjrzyjmy się cechom algorytmu MDA korzystając z poniższego przykładu. Załóżmy, że na stronie zostało wybranych wiele obiektów, a jeden z nich został zidentyfikowany jako blok tekstu. Jednak w trakcie badania struktury bloku odkrywa się specyficzne wyrównanie, a analiza odstępów oddzielających słowa pokazuje, że blok nie zawiera spójnego tekstu, nawet jeśli założymy, że był wpisany ze spacją. Na podstawie zgromadzonych informacji podejmowana jest decyzja o rewizji wyników poprzedniego poziomu analizy: nie jest to blok tekstowy, ale tabela bez linii podziału. Następnie rozpoznawanie bloków będzie kontynuowane jak zwykle, ale teraz zostanie przeprowadzone praktycznie bez błędów, a w dokumencie końcowym tabela zostanie odtworzona dokładnie tak, jak tabela.

Jednym słowem, dzięki temu, że wyniki analizy na jednym z niższych poziomów zawsze mogą mieć wpływ na działania z obiektami na wyższych poziomach, osiąga się wielokrotny wzrost dokładności rozpoznawania w porównaniu do algorytmów standardowych.

Pokrótce omówiliśmy podstawowe zasady technologii optycznego rozpoznawania znaków firmy ABBYY. Jak wspomniano, rozpoznawanie dowolnego dokumentu odbywa się etapami, przy zastosowaniu ulepszonej procedury wielopoziomowa analiza dokumentów (MDA). Podział strony na obiekty niższego poziomu, aż do poszczególnych znaków, rozpoznawanie znaków i „montaż” dokument elektroniczny Program ABBYY FineReader opiera się na zasadach uczciwość, centrum I zdolność adaptacji (IPA).

Powyższy opis jest bardzo, bardzo ogólny. Przeanalizowaliśmy podstawowe zasady, nie omawiając samego procesu uznawania. W kolejnym rozdziale zostaną szczegółowo opisane wszystkie etapy pracy z obiektami na różnych poziomach dokumentu, aż do poszczególnych symboli.

Opis procedury OCR.

3.1 Wstępne przetwarzanie obrazu.

Przetwarzanie dokumentu rozpoczyna się od uzyskania obrazu graficznego (obrazu) strony. Nowoczesne systemy OCR obsługują zarówno główne metody pozyskiwania obrazów, z pliku, jak i ze skanera. Interakcja ze skanerem odbywa się najczęściej za pomocą uniwersalnego protokołu TWAIN. Tak czy inaczej, danymi wejściowymi dla programu OCR jest kolorowy (24-bitowa głębia kolorów) lub obraz dokumentu w skali szarości (8-bitowa głębia kolorów).

3.2 Rozpoznawanie obiektów wyższych poziomów. Binaryzacja.

Przed przystąpieniem do strukturyzacji strony, wyróżniania i identyfikowania bloków, system OCR generuje binaryzacja, czyli konwersja obrazu kolorowego lub w skali szarości na obraz monochromatyczny (1-bitowa głębia kolorów). Jednak współczesne dokumenty często zawierają elementy projektu, takie jak tekstury tła lub obrazy. Po standardowej procedurze binaryzacji dowolna tekstura zostanie usunięta duża liczba„dodatkowe” kropki rozmieszczone wokół znaków i znacznie obniżające jakość rozpoznawania. Binaryzacja obrazy tła prowadzi do podobnych konsekwencji. Dlatego bardzo ważna jest zdolność systemu do prawidłowego oddzielenia tekstu od „podkreślonych” tekstur i obrazów.

Ryc.2. Przetwarzanie IBF dokumentu z teksturą tła.

Ostatni punkt można zilustrować przykładem pokazanym na rys. 2. Jak pokazują liczne eksperymenty, system OCR, który rozpoczyna przetwarzanie tej lub podobnej strony za pomocą standardowej procedury binaryzacji, daje wyjątkowo słabe wyniki. Średnio dokładność na stronach tego typu wynosi różne systemy z 31,1% do 62,7%, co jest w zasadzie równoznaczne z odmową uznania.

Jednak program ABBYY FineReader przetwarza takie dokumenty całkiem poprawnie; Jak pokazują eksperymenty, średnia dokładność rozpoznawania stron tego typu jest równa 98,7% . Procedurę opisaną powyżej można pomyślnie rozwiązać intelektualnyfiltrowanie tekstur tła,(inteligentne filtrowanie tła, IBF). Uruchamiana w razie potrzeby, w zależności od wyników wstępnej analizy strony, procedura ta pozwala na pewne oddzielenie tekstu od dowolnego złożonego tła. Ponadto selekcja obiektów wyższych poziomów - bloków tekstowych, tabel itp. – na stronach o złożonej strukturze po przetworzeniu procedurą IBF wykonał znacznie dokładniej.

Jednak obecność obrazów tła lub tekstur nie jest jedyną cechą dokumentu, która może obniżyć jakość rozpoznawania. Na przykład strona pokazana na rysunku 3 nie zawiera żadnych wyraźnych elementów tła. Jednak próba przetworzenia go przy użyciu większości systemów OCR doprowadzi do niedopuszczalnie słabych wyników. Powodem tego jest niski kontrast oryginału, a także zauważalna zmiana jasności tła obserwowana na większości linii. Konwencjonalny system OCR, mając wybrane parametry binaryzacji dla jednej sekcji dokumentu, nie będzie w stanie wiarygodnie zidentyfikować obiektów w sąsiednich sekcjach - zostaną one albo „odsłonięte”, albo „zaciemnione”.

Ryc.3. Bez przetwarzania za pomocą procedury adaptacyjnej binaryzacji dokument ten jest słabo rozpoznawany.

Technologie opracowane przez specjalistów firmy ABBYY pozwalają nam rozwiązać ten problem. Procedura adaptacyjna binaryzacja(binaryzacja adaptacyjna, AB) potrafi elastycznie dobierać optymalne parametry binaryzacji dla danego odcinka (fragmentu linii lub nawet słowa). Korzystając z binaryzacji adaptacyjnej, program ABBYY FineReader sprawdza jasność tła i nasycenie koloru czarnego w całej linii i wybiera optymalne parametry konwersji dla każdego fragmentu z osobna. W rezultacie zarówno linie, jak i poszczególne słowa zostaną poprawnie podświetlone, co zwiększy ogólną dokładność rozpoznawania A REC.

Wyniki badania porównawczego przeprowadzonego na podstawie obrazów podobnych do pokazanych na ryc. 3 są bardzo orientacyjne. Metodologię badań opisano szczegółowo w, wyniki przedstawiono w poniższej tabeli.

Tabela 1.
Poprawa jakości rozpoznawania
poprzez zastosowanie binaryzacji adaptacyjnej.

Jak widać z tabeli, zastosowanie binaryzacji adaptacyjnej może znacznie poprawić dokładność rozpoznawania. Z technicznego punktu widzenia wykonania pomysł AB, który jest częścią ulepszonego algorytmu MDA, polega na wykorzystaniu informacji zwrotnej do oceny jakości transformacji danego odcinka. Uogólniony schemat blokowy algorytmu procedury adaptacyjnej binaryzacji pokazano na rys. 4.

Ryc.4. Uogólniony schemat blokowy algorytmu procedury adaptacyjnej binaryzacji.

3.3 Rozpoznawanie znaków. Klasyfikatory.

Dzielenie ciągu na słowa i słów na litery w rdzeniu oprogramowania ABBYY FineReader odbywa się za pomocą tzw. procedury dzielenia liniowego. Procedura kończy się w momencie osiągnięcia końca linii i przekazuje do dalszego przetwarzania listę postawionych hipotez dotyczących możliwe opcje dział. W tym przypadku każdej hipotezie przypisuje się określoną wagę; w znaczeniu wartość ta odpowiada liczbowemu wyrażeniu pewności. Zbiór obiektów graficznych poziomu „symbolu” odpowiadających każdej z hipotez jest wprowadzany do mechanizmu rozpoznawania znaków. Ten ostatni jest kombinacją szeregu elementarnych rozpoznawaczy tzw klasyfikatory.

Ryc.5. Uproszczony schemat działania klasyfikatora.

Generalnie pracę klasyfikatora ilustruje schemat na rys. 5. Jak pokazano, klasyfikator na koniec przetwarzania generuje listę hipotez dotyczących przynależności kolejnego obrazu do danej klasy lub – w przypadku, gdy dane wejściowe są już listą – odpowiednio zmienia wagi istniejących hipotez , potwierdzając je lub obalając. Lista wyników jest zawsze uszeregowana według wagi (ufności).

Jedną z najważniejszych cech klasyfikatora jest średnia pozycja prawidłowej hipotezy. Wynika to ze specyfiki procedur sprawdzania kontekstowego i słownikowego, stosowanych zwykle na etapach dalszego przetwarzania list hipotez. Wspomniane procedury znacznie zwiększają ogólną dokładność rozpoznawania, ale tylko wtedy, gdy właściwa opcja na liście nie jest zbyt głęboka. Do oceny średniej pozycji właściwej opcji można zastosować różne kryteria, np.: dokładność dla pierwszych trzech opcji rozpoznawania, tj. procent znaków, dla których prawidłowa hipoteza znalazła się co najmniej na trzeciej pozycji na liście wyjściowej.

Ponadto wśród ważne cechy Klasyfikator nazywa się dokładnością według pierwszego wariantu rozpoznawania, szybkością, łatwością wykonania, a także odpornością na różne zniekształcenia spotykane w prawdziwych dokumentach (podarte, wypełnione, znaki, które znacznie zmieniły swój kształt).

Systemy rozpoznawania zbudowane w oparciu o technologie firmy ABBYY wykorzystują następujące typy klasyfikatorów: raster, cecha, różnica cech, kontur, strukturalna i strukturalna różnica. Rozważmy właściwości i cechy każdego z nich.

Klasyfikator rastrowy.
Zasada działania opiera się na bezpośrednim porównaniu obrazu symbolu ze standardem. Stopień odmienności jest obliczany jako liczba niedopasowanych pikseli. Aby zapewnić akceptowalną dokładność klasyfikatora rastrowego, wymagane jest wstępne przetwarzanie obrazu: normalizacja wielkości, nachylenia i grubości obrysu. Odniesienie dla każdej klasy zwykle uzyskuje się poprzez uśrednienie obrazów znaków ze zbioru uczącego.

Klasyfikator ten jest łatwy w implementacji, działa szybko, jest odporny na przypadkowe defekty obrazu, ale ma stosunkowo niską dokładność. Szeroko stosowany w nowoczesnych systemach rozpoznawania znaków. W systemie ABBYY FineReader wł etap początkowy rozpoznawania, jeden z typów klasyfikatorów rastrowych służy do szybkiego generowania wstępnej listy hipotez. Dokładność tego rozpoznawania, szacowana na podstawie trzech pierwszych pozycji na liście, wynosi 99,29% 97,57% .

Klasyfikator cech.
Zasada działania: obrazowi przypisany jest N-wymiarowy wektor cech. Właściwa klasyfikacja polega na porównaniu go ze zbiorem wektorów odniesienia o tym samym wymiarze. Rodzaj i liczba cech w dużej mierze decydują o jakości rozpoznania. Tworzenie wektora (obliczenie jego współrzędnych w przestrzeni N-wymiarowej) następuje podczas analizy wcześniej przygotowanego obrazu. Ten proces zwane ekstrakcją cech. Standard dla każdej klasy uzyskuje się poprzez podobne przetwarzanie symboli zbioru uczącego.

Ryc.6. Schemat blokowy działania klasyfikatora cech.

Porównanie każdej pary wektorów polega na obliczeniu oszacowania charakteryzującego odległość między punktami w przestrzeni N-wymiarowej (punkt jest reprezentacją geometryczną takiego wektora). Przykład ilustrujący Ta metoda, pokazany na ryc. 7; dla jasności w tym przykładzie zakładamy N=2, czyli wektory znajdują się w zwykłej przestrzeni dwuwymiarowej. Współrzędne X0, Y0 wektora odniesienia obliczane są z wyprzedzeniem podczas uczenia klasyfikatora, natomiast X1, Y1 uzyskiwane są na etapie ekstrakcji cech. Wiadomo, że im mniejsza jest wartość oszacowanej wartości |L|, tym dokładniej analizowany obraz odpowiada temu standardowi, a zatem tym większą wagę klasyfikator przypisze tej hipotezie. Ogólnie zależność, według której wyznacza się |L|, zapisuje się następująco:

Główne zalety klasyfikatora cech to łatwość implementacji, dobra zdolność generalizacji, dobra odporność na zmiany kształtu znaków, mała liczba błędów rozpoznawania i wysoka wydajność. Jego najpoważniejszą wadą jest niestabilność na różne defekty obrazu. Ponadto klasyfikatory cech mają jeszcze jedną poważną wadę – na etapie ekstrakcji cech następuje nieodwracalna utrata części informacji o symbolu. Ekstrakcja cech odbywa się niezależnie, więc informacja o względnym położeniu elementów symbolu zostaje utracona.

Dokładność klasyfikatora cech w dużym stopniu zależy od jakości wybranych cech. Jakość oznacza w tym przypadku zdolność do scharakteryzowania zarysu symbolu w miarę dokładnie, ale nie przesadnie. Nie ma jasnych zasad wyboru cech, dlatego działają klasyfikatory różnych programistów różne zestawy oznaki.

Ten typ klasyfikatora jest bardzo popularny wśród twórców systemów OCR. System ABBYY FineReader wykorzystuje klasyfikator cech o liczbie cech N=224. Jego cel jest taki sam jak klasyfikatora rastrowego – szybkie generowanie listy wstępnych hipotez. Dokładność odmiany zastosowanej dla pierwszych trzech opcji listy hipotez wynosi 99,81% , dokładność zgodnie z pierwszą opcją 99,13% .

Klasyfikator konturowy.
Oddzielny typ klasyfikatora cech. Różni się od tego ostatniego tym, że wykorzystuje kontury wybrane wcześniej w obrazie postaci w celu wyodrębnienia cech. Zasada działania, główne zalety i wady pokrywają się z wymienionymi powyżej.

Klasyfikator ten przeznaczony jest do rozpoznawania tekstu napisanego czcionką dekoracyjną (na przykład stylizowaną na styl gotycki, staroruski itp.). Działa nieco wolniej niż zwykły klasyfikator cech. Dokładność klasyfikatora konturu dla trzech pierwszych opcji 99,30% , dokładność zgodnie z pierwszą opcją 95,10% .

Klasyfikator różnicowy oparty na cechach.
Przeznaczony do rozróżniania obiektów podobnych do siebie, np. litery „m” i kombinacji „rn”. Analizuje tylko te obszary obrazu, w których mogą znajdować się informacje umożliwiające preferowanie jednej z opcji. Zatem w przypadku „m” i „rn” kluczem do odpowiedzi jest obecność i szerokość szczeliny w miejscu styku rzekomych liter.

Klasyfikator różnicowy cech (PDC) to zbiór klasyfikatorów cech. Te ostatnie działają według standardów uzyskanych dla każdej pary podobnych symboli. Dla wszystkich par używany jest ten sam zestaw cech, podobny do odpowiedniego klasyfikatora cech. PDK ma dobrą wydajność. Używany w różnych systemach rozpoznawania znaków.

W procesie uczenia tego klasyfikatora analizowane są obrazy z bazy szkoleniowej. Obliczone w tym przypadku wartości cech interpretuje się jako współrzędne punktu w przestrzeni N-wymiarowej. Odpowiednio dla dwóch różnych symboli uzyskuje się dwie „chmury” punktów, położone w pewnej odległości od siebie. Po zgromadzeniu informacji o wystarczającej liczbie punktów obliczane są współrzędne hiperpłaszczyzny. Musi tak podzielić przestrzeń, aby „chmury” znajdowały się po przeciwnych stronach i w przybliżeniu w tej samej odległości od hiperpłaszczyzny.

Ryc.8. Uproszczony geometryczny model uczenia się
klasyfikator różnicowy.

Zbiór wartości odpowiadający współrzędnym hiperpłaszczyzny służy do rozpoznania jako standard dla danej pary znaków. Dla wartości uzyskanych podczas analizy obrazu obliczana jest ocena, której geometrycznym znaczeniem jest położenie punktu względem hiperpłaszczyzny. Należy zaznaczyć, że dla każdej pary znaków należy dokładnie wybrać obszar, w którym będą obliczane cechy (czasami w tym celu pobierane są cechy podobne do zwykłych z klasyfikatorów cech i konturów). Z tego powodu konstrukcja wzorców najwyższych dopuszczalnych stężeń jest niezwykle pracochłonna, a ich łączna liczba jest bardzo ograniczona.

Danymi wejściowymi do MDC jest nie tylko obraz, ale także lista hipotez wygenerowanych na wczesnym etapie rozpoznania. Waga jakiej hipotezy zostanie podniesiony przez klasyfikator zależy od tego, w której półprzestrzeni i w jakiej odległości od hiperpłaszczyzny pojawi się punkt. Sama RPP nie stawia nowych hipotez, lecz zmienia wagi tych już znajdujących się na liście, jeśli wśród przedstawionych na liście znajdą się pary hipotez, dla których istnieją standardy. W tym przypadku stosowany jest tzw. algorytm sortowania bąbelkowego. Hipotezy są przenoszone z końca listy i sekwencyjnie „wyskakują” po porównaniu z mniej prawdopodobnymi, a waga jest korygowana. Algorytm taki gwarantuje, że na pierwszym miejscu pojawi się prawidłowa hipoteza wtedy i tylko wtedy, gdy porównanie różnicowe ze wszystkimi hipotezami nadrzędnymi da wynik pozytywny.

Dokładności MAC nie można obliczyć metodą zastosowaną dla gatunków opisanych powyżej, ale można ją oszacować pośrednio. Rysunek 9 przedstawia schemat modułu rozpoznawania stosowanego w systemach ABBYY. Klasyfikatory rastrowe (RK) i cechowe (FC) służą do szybkiego generowania wstępnej listy hipotez. Jeżeli pewność hipotezy o najwyższej wadze P 1 nie przekracza określonej wartości progowej progu P, klasyfikator konturowy (CC) stawia szereg dodatkowych hipotez. Lista trafia na wejście MDC, który dokonuje sortowania. Więc złożony obwód uruchomienie klasyfikatorów pozwala zoptymalizować stosunek jakości do szybkości rozpoznawania. Dokładność tego modułu rozpoznawania dla pierwszych trzech opcji wynosi 99,87% , dokładność zgodnie z pierwszą opcją 99,26% .

Ryc.9. Uogólniony schemat blokowy algorytmu rozpoznawania (poziom pierwszy).

Klasyfikator strukturalno-różnicowy.
Został opracowany i początkowo używany do przetwarzania tekstów pisanych odręcznie. Podobnie jak klasyfikator różniczkowo-znakowy, klasyfikator ten rozwiązuje problem rozróżniania obiektów podobnych. Dane wejściowe dla strukturalnego klasyfikatora różnicowego (SDC) to także rankingowa lista hipotez i obraz symbolu.

Dla każdej pary hipotez SDK oblicza wartości cech, analizując odpowiednie fragmenty obrazu. Predefiniowane przez twórców funkcje umożliwiają rozróżnienie poszczególnych par znaków na podstawie informacji zgromadzonych podczas uczenia klasyfikatora. Jednocześnie dokładność rozpoznawania znacznie wzrasta, gdy dla każdej pary znaków zostaną wybrane indywidualne cechy.

Na przykład rozróżnić C I G Klasyfikator analizuje obszar obrazu odpowiadający prawemu dolnemu rogowi znaku. Jedną z indywidualnych cech danej pary będzie obecność (lub brak) dwóch poziomych odcinków odbiegających od końca łuku skierowanego w dół. Sam ten łuk, jak łatwo zauważyć, występuje w obu symbolach.

Klasyfikator strukturalno-różnicowy działa wolniej niż wszystkie powyższe, a proces jego uczenia jest jeszcze bardziej pracochłonny niż w przypadku MPC. Dlatego SDK jest używany głównie do przetwarzania tych par znaków, których nie można dobrze rozróżnić za pomocą klasyfikatora różnicowego opartego na cechach. Ważną zaletą SDK jest jego bardzo wysoka celność. Podobnie jak MPC, ten klasyfikator wykorzystuje algorytm sortowania bąbelkowego dla listy. Odporny na niemal wszystkie przypadkowe zniekształcenia kształtu symbolu, z wyjątkiem zapieczętowania.

Używany wyłącznie w systemach rozpoznawania firmy ABBYY. Dokładność rozpoznawania (ryc. 9) po dodaniu klasyfikatora strukturalno-różnicowego na wyjściu wzrasta do 99,88% dla pierwszych trzech opcji i do 99,69% zgodnie z pierwszą opcją.

Klasyfikator strukturalny.
Jedno z rewolucyjnych rozwiązań firmy ABBYY. Pierwotnie został stworzony i służył do rozpoznawania tekstu odręcznego (ICR), następnie z powodzeniem został wykorzystany do przetwarzania.

Systemy optycznego rozpoznawania znaków (OCR) służą do automatycznego wprowadzania wydrukowanych dokumentów do komputera.

FineReader to system optycznego rozpoznawania tekstu oparty na omnifoncie. Oznacza to, że pozwala rozpoznać teksty pisane niemal dowolną czcionką bez wcześniejszego przeszkolenia. Cechą szczególną programu FineReader jest wysoka dokładność rozpoznawania i niska wrażliwość na wady druku, co osiąga się dzięki zastosowaniu technologii „holistycznego ukierunkowanego rozpoznawania adaptacyjnego”.

Proces wprowadzania dokumentu do komputera można podzielić na dwa etapy:

1. Łów. W pierwszym etapie skaner pełni rolę „oka” Twojego komputera: „ogląda” obraz i przesyła go do komputera. W tym przypadku powstały obraz to nic innego jak zbiór czarnych, białych lub kolorowych kropek, czyli obraz, którego nie można edytować w żadnym edytorze tekstu.

2. Uznanie. Przetwarzanie obrazu w systemie OCR.

Przyjrzyjmy się drugiemu etapowi bardziej szczegółowo.

Obróbka obrazu przez system FineReader obejmuje analizę obrazu graficznego przesyłanego przez skaner i rozpoznanie każdego znaku. Procesy analizy układu strony (wyznaczanie obszarów rozpoznawania, tabel, obrazków, linii podkreśleń i poszczególnych znaków w tekście) oraz rozpoznawania obrazu są ze sobą ściśle powiązane: algorytm wyszukiwania blokowego wykorzystuje informacje o rozpoznanym tekście w celu dokładniejszej analizy strony .

Jak już wspomniano, rozpoznawanie obrazu odbywa się w oparciu o technologię „holistycznego ukierunkowanego rozpoznawania adaptacyjnego”.

Uczciwość- obiekt opisuje się jako całość, wykorzystując istotne elementy i relacje między nimi.

Centrum- uznanie budowane jest jako proces stawiania i celowego testowania hipotez.

Zdolność adaptacji- zdolność systemu OCR do samouczenia się.

Zgodnie z tymi trzema zasadami system najpierw stawia hipotezę dotyczącą rozpoznawanego obiektu (symbolu, części symbolu lub kilku sklejonych symboli), a następnie ją potwierdza lub obala, starając się sekwencyjnie wykryć wszystkie elementy konstrukcyjne i zależności łącząc je. Każdy element konstrukcyjny zawiera części istotne dla ludzkiej percepcji: segmenty, łuki, pierścienie i punkty.

Kierując się zasadą adaptacji, program „dostosowuje się” sam, korzystając z pozytywnych doświadczeń zdobytych z pierwszych pewnie rozpoznanych symboli. Ukierunkowane wyszukiwanie i uwzględnienie kontekstu pozwala rozpoznać podarte i zniekształcone obrazy, dzięki czemu system jest odporny na ewentualne wady pisarskie.

W wyniku Twojej pracy rozpoznany tekst pojawi się w oknie programu FineReader, który możesz edytować i zapisać w najwygodniejszym dla siebie formacie.

Nowe funkcje programu abbyy FineReader 7.0

Dokładność rozpoznawania

Dokładność rozpoznawania została poprawiona o 25%. Lepiej analizowane i rozpoznawane są dokumenty o skomplikowanym układzie, zwłaszcza zawierające fragmenty tekstu na kolorowym tle lub tle składającym się z małych kropek, dokumenty ze złożonymi tabelami, w tym tabelami z białymi separatorami, tabelami z kolorowymi komórkami

W Nowa wersja Dodano słowniki specjalistyczne dla języka angielskiego i niemieckiego, zawierające najczęściej używane terminy prawnicze i medyczne. Pozwala to na osiągnięcie jakościowo nowego poziomu w rozpoznawaniu dokumentów prawnych i medycznych.

Obsługa formatuXML-ai integracja zMicrosoftuBiuro

FineReader ma nowy format zapisywania - Microsoft Word XML. Teraz użytkownicy nowej wersji pakietu Microsoft Office 2003 będą mogli pracować z dokumentami rozpoznawanymi przez FineReader, korzystając ze wszystkich zalet formatu XML!

Integracja programu FineReader z Microsoft Word 2003 umożliwia połączenie potężnych możliwości tych dwóch aplikacji w zakresie przetwarzania rozpoznanego tekstu. Możesz sprawdzać i edytować wyniki rozpoznawania za pomocą znanych narzędzi Worda, jednocześnie sprawdzając tekst przesłany do Worda z oryginalnym obrazem - okno Zoom FineReader otwiera się bezpośrednio w oknie Worda.

Nowe funkcje sprawią, że Twoja praca będzie wygodniejsza. Tworząc dokument Word, możesz wywołać program FineReader, rozpoznać tekst i wstawić go w miejsce dokumentu, w którym znajduje się kursor, czyli w łatwy sposób możesz zebrać w jednym dokumencie informacje z różnych źródeł papierowych lub plików PDF. Wyniki rozpoznawania można teraz wysyłać e-mailem jako załącznik w dowolnym obsługiwanym formacie zapisu.

Poprawiona wydajnośćFineReaderZPDFdokumenty

Jakość rozpoznawania plików PDF znacznie się poprawiła. Większość dokumentów oprócz obrazu strony zawiera tekst. FineReader 7.0 może wyodrębnić ten tekst i wykorzystać go do sprawdzenia wyników i poprawy jakości rozpoznawania.

Teraz możesz edytować rozpoznane dokumenty PDF w oknie edytora FineReader: wprowadzone zmiany zostaną zapisane w dowolnym z trybów zapisywania plików PDF obsługiwanych w programie.

Format plików PDF tworzonych przez FineReader jest zoptymalizowany pod kątem publikowania ich w Internecie - użytkownik będzie mógł przeglądać zawartość pierwszych stron, podczas gdy reszta dokumentu będzie pobierana.

Nowe opcje oszczędzania

Nowy format zapisywania wyników rozpoznawania - MicrosoftuPowerPoint- pozwala szybko tworzyć nowe prezentacje lub edytować istniejące.

Podczas zapisywania w MicrosoftuSłowo Zmniejszono rozmiar pliku wynikowego, poprawiono zachowanie formatowania dokumentu z różnymi ogranicznikami i pojawiły się nowe opcje zapisywania zdjęć.

Poprawione wyświetlanie złożonych elementów układu podczas zapisywania

V HTML, na przykład zawijanie tekstu wokół obrazów innych niż prostokątne. Dodatkowo zmniejszono rozmiar pliku HTML, co jest bardzo istotne przy publikowaniu dokumentów w Internecie.

Łatwość użycia

Zaktualizowano intuicyjny interfejs użytkownika. Praca z ustawieniami profesjonalnymi stała się wygodniejsza. Paski narzędzi edycyjnych zostały przeniesione do okna, w którym wyświetlane są wyniki rozpoznawania. Pojawiły się wygodne narzędzia do zarządzania oknami programu FineReader: na przykład możesz ustawić dogodny poziom powiększenia w każdym oknie.

Zaktualizowano praktyczny przewodnik poprawa jakości rozpoznawania pomoże początkującemu użytkownikowi szybko rozpocząć pracę, a bardziej doświadczony użytkownik będzie w stanie najlepiej skonfigurować program, aby uzyskać doskonałe wyniki podczas pracy z dowolnym rodzajem dokumentów.

Możliwości zawodowe

Teraz w wersji FineReaderProfesjonalnyWydanie te funkcje, które wcześniej były dostępne tylko dla użytkowników wersji, stały się dostępne ZbiorowyWydanie:

Lepsze rozpoznawanie kody kreskowe, Obsługiwane jest dwuwymiarowe rozpoznawanie kodów kreskowych PDF-417.

Narzędzie do dzielenia obrazu. Dzięki niemu możesz podzielić obrazy na obszary i zapisać każdy obszar jako osobną stronę pakietu. Ułatwia to rozpoznawanie wielu zeskanowanych razem wizytówek, książek lub wydruków slajdów prezentacji PowerPoint.

Poszukiwania morfologiczne. Dowolny pakiet utworzony w programie FineReader może służyć jako mała baza danych

z możliwością pełnotekstowego wyszukiwania morfologicznego. Wśród wszystkich rozpoznanych stron pakietu można znaleźć te strony, które zawierają określone słowa we wszystkich ich formach gramatycznych (dla 34 języków z obsługą słownika).

Wsparcie procesoraIntelza pomocą technologiiHiper- Gwintowanie. Zastosowanie tej technologii może znacznie zwiększyć produktywność, co jest szczególnie ważne, jeśli zadaniem jest rozpoznanie dużej liczby dokumentów.

FineReader 7.0 wprowadza także inne profesjonalne funkcje:

Skanowanie dwustronne. Skanowanie dokumentu z wydrukiem

z tekstem po obu stronach korzystając ze skanera obsługującego tę opcję, otrzymasz obrazy zawartości każdej strony w postaci dwóch odrębnych stron opakowania. Jeśli chcesz zeskanować tylko jedną stronę dokumentu, możesz wyłączyć tę opcję.

Obsługiwane jest otwieranie plików graficznych w formacie JPG 2000 i zapisanie w tym formacie.

SiećmożliwościwersjeWersja korporacyjna programu FineReader

Szczegóły wszystkich funkcji instalowania i używania programu FineReader Corporate Edition w sieć korporacyjna są opisane w Podręczniku administratora systemu, który można znaleźć w podfolderze Administrator" SPrzewodnik foldery na serwerze, na których zainstalowano program FineReader.

Główne ulepszenia w porównaniu do poprzedniej wersji:

Obsługa podstawowych metod automatycznej instalacji z serwera na stacje robocze. FineReader Corporate Edition obsługuje wszystkie główne metody automatycznej instalacji w sieci lokalnej: przy użyciu Active Directory, Microsoft Systems Management Server lub przy użyciu wiersza poleceń.

Praca z urządzeniami wielofunkcyjnymi, w tym sieciowymi. Coraz większą popularnością cieszą się urządzenia wielofunkcyjne, które łączą w sobie funkcje skanera, drukarki, kopiarki i faksu. Teraz nie ma konieczności instalowania każdego pracownika we własnym skanerze – wystarczy jeden potężne urządzenie, z którym pracują wszyscy użytkownicy organizacji. FineReader może współpracować z takimi urządzeniami, zarówno podłączonymi do stacji roboczej, jak i podłączonymi do sieci. Specjalne ustawienia programu pozwalają użytkownikowi na automatyczne otwieranie zeskanowanych obrazów z dowolnego miejsca w sieci lokalnej lub z serwera FTP i ich rozpoznawanie

Różne modele licencjonowania zbiorowego. Oprócz licencjonowania opartego na liczbie jednoczesnych użytkowników, dostępne są także inne metody licencjonowania. Możesz wybrać opcję, która najlepiej odpowiada Twoim potrzebom.

LicencjaMenedżer- narzędzie do zarządzania licencjami w sieci. W FineReaderZbiorowyWydanie pojawiło się wygodne narzędzie do zarządzania licencjami (License Manager). Pomaga śledzić wykorzystanie programu FineReader na stacjach roboczych, rezerwować licencje dla stacji roboczych i dodawać nowe licencje.

Materiał z wizji technicznej

Zadanie rozpoznawania informacji tekstowych podczas tłumaczenia tekstu drukowanego i pisanego odręcznie na formę elektroniczną jest jednym z najważniejszych elementów każdego projektu mającego na celu automatyzację obiegu dokumentów lub wprowadzenie technologii bezpapierowych. Jednocześnie zadanie to jest jednym z najbardziej złożonych i wymagających dużej wiedzy zadań w pełni automatycznej analizy obrazu. Nawet osoba czytająca odręczny tekst wyrwany z kontekstu popełnia średnio około 4 $(\%) błędów. Tymczasem w najbardziej krytycznych zastosowaniach OCR konieczne jest zapewnienie wyższej wiarygodności rozpoznawania (ponad 99(\%)) nawet przy złej jakości druku i digitalizacji tekstu źródłowego.

W ostatnich dziesięcioleciach, dzięki zastosowaniu nowoczesnych osiągnięć techniki komputerowej, opracowano nowe metody przetwarzania obrazu i rozpoznawania wzorców, dzięki którym możliwe jest tworzenie przemysłowych systemów rozpoznawania tekstu takich jak FineReader, które spełniają podstawowe wymagania systemów automatyzacji dokumentów. Jednak stworzenie każdej nowej aplikacji w tym obszarze jest w dalszym ciągu zadaniem twórczym i wymaga dodatkowych badań ze względu na specyficzne wymagania pod względem rozdzielczości, szybkości, niezawodności rozpoznawania i pojemności pamięci, które charakteryzują każde konkretne zadanie.

Typowe problemy związane z rozpoznawaniem znaków.

Istnieje szereg istotnych problemów związanych z rozpoznawaniem znaków pisanych odręcznie i drukowanych. Najważniejsze z nich to:

różnorodność form literowych;
zniekształcenie obrazów symboli;
różnice w wielkości i skali symboli.

Każdy indywidualny znak można zapisać różnymi standardowymi czcionkami, np. (Times, Gothic, Elite, Courier, Orator), a także wieloma niestandardowymi czcionkami stosowanymi w różnych obszary podlegające. W takim przypadku różne symbole mogą mieć podobne kontury. Na przykład „U” i „V”, „S” i „5”, „Z” i „2”, „G” i „6”.

Zniekształcenia cyfrowych obrazów znaków tekstowych mogą być spowodowane:

szumy drukarskie, w szczególności niedrukowanie (przerwy w ciągach znaków), „sklejanie się” znaków sąsiednich, plamy i fałszywe kropki na tle w pobliżu znaków itp.;
przemieszczenie znaków lub części znaków względem ich oczekiwanej pozycji w wierszu;
zmiana nachylenia symboli;
zniekształcenie kształtu symbolu na skutek digitalizacji obrazu za pomocą „szorstkiej” dyskretnej;
efekty świetlne (cienie, światła itp.) podczas nagrywania kamerą wideo.

Nie bez znaczenia jest również wpływ początkowej skali druku. Zgodnie z przyjętą terminologią skala 10 $, 12 $ lub 17 $ oznacza, że na cal linii mieszczą się znaki o wartości 10 $, 12 $ lub 17 $. Jednak na przykład symbole skali 10 USD są zwykle większe i szersze niż symbole skali 12 USD.

System optycznego rozpoznawania tekstu (OCR) musi wyróżniać obszary tekstowe na obrazie cyfrowym, zaznaczać w nich poszczególne linie, a następnie poszczególne znaki, rozpoznawać te znaki, a jednocześnie być niewrażliwym (opornym) na sposób układu, odległość między liniami i wydruk pozostałych parametrów.

Struktura optycznych systemów rozpoznawania tekstu.

Systemy OCR składają się z następujących głównych bloków, które wymagają implementacji sprzętowej lub programowej:

blok do segmentacji (lokalizacji i selekcji) elementów tekstowych;
jednostka wstępnego przetwarzania obrazu;
blok ekstrakcji funkcji;
blok rozpoznawania znaków;
blok post-processingu dla wyników rozpoznawania.

Te bloki algorytmiczne odpowiadają sekwencyjnym etapom przetwarzania i analizy obrazu wykonywanym sekwencyjnie.

Najpierw wybierane są $\textit(obszary tekstowe, linie)$, a połączone linie tekstu są dzielone na osobne $\textit(charakterystyki)$, z których każdy odpowiada jednemu znakowi tekstu.

Po podziale (a czasami przed lub w trakcie podziału) znaki, reprezentowane jako dwuwymiarowe macierze pikseli, poddawane są wygładzaniu, filtrowaniu w celu wyeliminowania szumu, normalizacji rozmiaru i innym przekształceniom w celu uwypuklenia elementów składowych lub cech numerycznych używanych później do ich uznanie.

Rozpoznawanie znaków następuje w procesie porównywania wybranych charakterystyczne cechy ze zbiorami referencyjnymi i strukturami cech tworzonymi i zapamiętywanymi w procesie uczenia systemu z wykorzystaniem referencyjnych i/lub rzeczywistych przykładów znaków tekstowych.

Na ostatnim etapie informacje semantyczne lub kontekstowe można wykorzystać zarówno do rozwiązania niepewności powstających podczas rozpoznawania poszczególnych znaków o identycznych rozmiarach, jak i do skorygowania błędnie odczytanych słów, a nawet fraz jako całości.

Metody wstępnego przetwarzania i segmentacji obrazów znaków tekstowych.

Przetwarzanie wstępne jest ważnym krokiem w procesie rozpoznawania znaków i pozwala na wygładzenie, normalizację, segmentację i aproksymację odcinków linii.

$\textit(smoothing)$ w tym przypadku odnosi się do dużej grupy procedur przetwarzania obrazu, z których wiele omówiono w rozdziale $3$ tej książki. W szczególności szeroko stosowane są operatory morfologiczne $\textit(wypełnienie)$ i $\textit(przerzedzenie)$. $\textit(Padding)$ eliminuje małe przerwy i spacje. $\textit(Thinning)$to proces zmniejszania grubości linii, w którym na każdym kroku obszaru o wielkości kilku pikseli przypisywany jest tylko jeden piksel „cienkiej linii”. Morfologiczny sposób realizacji takich operacji w oparciu o operatory rozszerzania i kurczenia Serre'a został opisany w rozdziale $3.2$.

Opisany jest tam także specjalny algorytm binarnego filtrowania obrazów znaków tekstowych, zwany $\textit(fringe Erase)$. Przez „frędzle” rozumiemy tu nierówne granice symbolu, które po pierwsze utrudniają prawidłowe określenie jego wielkości, a po drugie zniekształcają obraz symbolu i utrudniają jego dalsze rozpoznanie na podstawie cechy konturu.

$\textit(Normalizacja geometryczna)$ obrazów dokumentów polega na zastosowaniu algorytmów eliminujących przechylenie i przechylenie poszczególnych znaków, słów czy linii, a także obejmuje procedury normalizujące znaki według wysokości i szerokości po odpowiednim przetworzeniu.

Procedury $\textit(segmentation)$ dzielą obraz dokumentu na osobne obszary. Zazwyczaj pierwszym krokiem jest oddzielenie drukowanego tekstu od grafiki i odręcznych notatek. Następnie większość algorytmów rozpoznawania optycznego dzieli tekst na znaki i rozpoznaje je indywidualnie. To proste rozwiązanie jest rzeczywiście najskuteczniejsze, pod warunkiem, że znaki tekstowe nie nakładają się na siebie. Łączenie znaków może być spowodowane rodzajem czcionki użytej do wpisania tekstu, słabą rozdzielczością urządzenia drukującego lub wysoki poziom jasność wybrana w celu przywrócenia uszkodzonych znaków.

Dodatkowy podział obszarów i linii tekstowych na $\textit(words)$ jest wskazany w przypadku, gdy słowo jest spójnym obiektem, według którego dokonywane jest rozpoznawanie tekstu. Takie podejście, w którym jednostką rozpoznawania nie jest pojedynczy znak, ale całe słowo, jest trudne do wdrożenia ze względu na dużą liczbę elementów do zapamiętania i rozpoznania, ale może być przydatne i bardzo skuteczne w specyficznych, szczególnych przypadkach, gdy zestaw słów w słowniku kodowym jest znacznie ograniczony warunkami problemu.

Przez $\textit(aproksymacja segmentu linii)$ rozumiemy kompilację wykresu opisu znaku w postaci zestawu wierzchołków i prostych krawędzi, które bezpośrednio przybliżają łańcuchy pikseli w oryginalnym obrazie. Przybliżenie to przeprowadza się w celu zmniejszenia ilości danych i można je zastosować w rozpoznawaniu na podstawie wyboru cech opisujących geometrię i topologię obrazu.

Atrybuty znaków używane do automatycznego rozpoznawania tekstu.

Uważa się, że ekstrakcja cech jest jednym z najtrudniejszych i najważniejszych zadań w rozpoznawaniu wzorców. Do rozpoznawania znaków można zastosować wiele różnych systemów cech. Problem polega na tym, aby dokładnie wskazać te cechy, które w konkretnym zadaniu będą skutecznie odróżniać jedną klasę symboli od wszystkich innych.

Poniżej opisujemy kilka podstawowych metod rozpoznawania znaków i odpowiadające im rodzaje cech obliczanych na podstawie obrazu cyfrowego.

Pasujące obrazy i wzory.

Ta grupa metod opiera się na bezpośrednim porównaniu obrazów symboli testowych i referencyjnych. W tym przypadku $\textit(stopień podobieństwa)$ jest obliczany pomiędzy obrazem a każdym ze standardów. Klasyfikacja badanego obrazu symbolu odbywa się metodą najbliższego sąsiada. Metody porównywania obrazów omawialiśmy wcześniej w podrozdziale 4.2, a mianowicie metody korelacji i filtrowania dopasowanych obrazów.

Z praktycznego punktu widzenia metody te są łatwe do wdrożenia i wykorzystuje je wiele komercyjnych systemów OCR. Jednak przy „frontalnym” zastosowaniu metod korelacyjnych nawet niewielka ciemna plamka padająca na zewnętrzny kontur znaku może znacząco wpłynąć na wynik rozpoznawania. Dlatego do osiągnięcia dobra jakość systemy rozpoznawania korzystające z dopasowywania szablonów korzystają z innych, specjalnych metod porównywania obrazów.

Jedna z głównych modyfikacji algorytmu porównywania wzorców wykorzystuje reprezentację wzorców jako zbiór reguł logicznych. Na przykład symbol

0000000000

000aabb000

00aeeffb00

0ae0000fb0

0ae0ii0fb0

0ae0000fb0

0cg0000hd0

0cg0jj0hd0

0cg0000hd0

00cgghhd00

000ccdd000

0000000000

można rozpoznać jako „null”, jeśli: (co najmniej 5 $ znaków „a” to „1” lub co najmniej 4 $ znaków $\text(”e”) = \text(„1”)$) ORAZ (nie mniej niż 5$ znaków „b” to „1” lub co najmniej 4$ znaków $\text(”f”) = \text(„1”)$) ORAZ (co najmniej 5$ znaków „c” to „1” lub co najmniej 4$ znaków $\text("g") = \text("1")$) ORAZ (co najmniej 5$ znaków "d" to "1" lub co najmniej 4$ znaków $\text("h " ) = \text("1")$) AND (co najmniej 3$ znaków „i” to „0”) ORAZ (co najmniej 3$ znaków „j” to „0”).

Charakterystyka statystyczna.

W tej grupie metod ekstrakcja cech odbywa się w oparciu o analizę różnych rozkładów statystycznych punktów. Najbardziej znane techniki w tej grupie wykorzystują $\textit(obliczanie momentu)$ $\textit(i liczenie przecięć)$.

$\textit(Momenty różnych rzędów)$ są z powodzeniem stosowane w różnych dziedzinach widzenia komputerowego jako deskryptory kształtu wybranych obszarów i obiektów (patrz rozdział 4.1). W przypadku rozpoznawania znaków tekstowych jako zbiór cech wykorzystywane są wartości momentów zbioru „czarnych” punktów względem jakiegoś wybranego środka. Najczęściej stosowane w tego typu zastosowaniach są momenty liniowe, centralne i znormalizowane.

W przypadku obrazu cyfrowego zapisanego w tablicy dwuwymiarowej $\textit(momenty liniowe)$ są funkcjami współrzędnych każdego punktu obrazu w postaci: $$ m_(pq) =\sum\limits_(x= 0)^(M-1) (\ suma\limity_(y=0)^(N-1) (x^py^qf(x,y)) , $$ gdzie $p,q \in $0, 1,\ldots,\infty $ $; $M$ i $N$ to wymiary poziome i pionowe obrazu, a $f(x,y)$ to jasność piksela w punkcie $\langle x,y\rangle$ obrazu.

$\textit(Momenty centralne)$ są funkcją odległości punktu od środka ciężkości symbolu: $$ m_(pq) =\sum\limits_(x=0)^(M-1) (\sum\limits_( y=0)^ (N-1) ((x-\mathop x\limits^\_)^p(y-\mathop y\limits^\_)^qf(x,y)) ), $$ gdzie $x$ i $ y$ „z linią” - współrzędne środka ciężkości.

$\textit(Znormalizowane momenty centralne)$ otrzymuje się dzieląc momenty centralne przez momenty zerowego rzędu.

Należy zauważyć, że momenty strunowe zwykle zapewniają niższy współczynnik rozpoznawania. Preferowane są momenty centralne i znormalizowane ze względu na ich większą niezmienność w stosunku do przekształceń obrazu.

W metodzie $\textit(intersection)$ elementy są tworzone poprzez zliczenie, ile razy i w jaki sposób obraz symbolu przecina się z wybranymi liniami prostymi narysowanymi pod określonymi kątami. Metoda ta jest często stosowana w systemach komercyjnych ze względu na to, że jest odporna na zniekształcenia i niewielkie różnice stylistyczne w pisaniu znaków, a także charakteryzuje się dość dużą szybkością i nie wymaga dużych kosztów obliczeniowych. Na ryc. Rysunek 1 przedstawia obraz referencyjny symbolu $R$, układ siecznych oraz wektor odległości do wektorów odniesienia. Na ryc. 2 pokazuje przykład obrazu rzeczywistego

Przykład generowania zbioru przecięć dla obrazu referencyjnego symbolu $R$

Przykład generowania zbioru przecięć dla rzeczywistego obrazu symbolu $R$

Przykład tworzenia opisu strefy dla obrazu referencyjnego symbolu $R$

Przykład utworzenia opisu strefowego dla rzeczywistego obrazu symbolu $R$; $K = 0(,)387$

symbol $R$. Linia odpowiadająca najbliższemu sąsiadowi jest również oznaczona kolorem (patrz wkładka z kolorem).

$\textit(Metoda strefowa)$ polega na podzieleniu obszaru ramki zawierającej symbol na obszary, a następnie wykorzystaniu gęstości punktów w różnych obszarach jako zestawu cech charakterystycznych. Na ryc. 3 przedstawia obraz referencyjny symbolu $R$, a rys. 4 - rzeczywisty obraz symbolu $R$, uzyskany poprzez zeskanowanie obrazu dokumentu. Obydwa obrazy przedstawiają podział na strefy, wagę pikseli każdej strefy, a także wektor odległości do wektorów odniesienia znaków odniesienia. Linia odpowiadająca znalezionemu najbliższemu sąsiadowi jest zaznaczona kolorem.

W metodzie $\textit(macierze przylegania)$ za cechy uważa się częstości wspólnego występowania elementów „czarnych” i „białych” w różnych kombinacjach geometrycznych. Metoda $\textit(characteristic-loci) wykorzystuje jako funkcję liczbę przecięć wektorów pionowych i poziomych z segmentami linii dla każdego punktu świetlnego w obszarze tła znaku.

W tej grupie istnieje również wiele innych metod.

Transformacje integralne.

Wśród nowoczesnych technologii rozpoznawania opartych na transformacjach wyróżniają się metody wykorzystujące deskryptory Fouriera znaków, a także częstościowe deskryptory granic.

Zalety metod wykorzystujących transformaty Fouriera-Mellina wynikają z faktu, że są one niezmiennicze w przypadku skalowania, rotacji i przesunięcia symbolu. Główną wadą tych metod jest ich niewrażliwość na gwałtowne skoki jasności na granicach, np. trudno jest odróżnić symbol „O” od symbolu „Q” itp. w widmie częstotliwości przestrzennych. Jednocześnie przy filtrowaniu szumu na granicach symbolu właściwość ta może być przydatna.

Analiza elementów konstrukcyjnych.

Do rozróżnienia zwykle stosuje się cechy strukturalne struktura ogólna obraz. Opisują właściwości geometryczne i topologiczne symbolu. Pomysł rozpoznawania znaków strukturalnych tekstu najłatwiej wyobrazić sobie w odniesieniu do zadania automatycznego odczytu kodów pocztowych. W takich czcionkach „szablonowych” położenie każdego możliwego segmentu obrysu jest z góry znane, a jeden znak różni się od drugiego nie mniej niż obecność lub brak całej kreski. Podobny problem pojawia się w przypadku monitorowania prostych wskaźników ciekłokrystalicznych. W takich systemach identyfikacja elementów konstrukcyjnych sprowadza się do analizy elementów znanego wcześniej szablonu (zestawu segmentów do wykrycia).

W systemach rozpoznawania strukturalnego bardziej złożonych czcionek często używa się także kresek służących do określenia następujących charakterystycznych cech obrazu: $\textit(end points)$, $\textit(punkty przecięcia segmentów)$, $\textit (zamknięte pętle)$, a także ich położenie względem ramki otaczającej symbol. Rozważmy na przykład następującą metodę opisu strukturalnego symbolu. Niech macierz zawierającą subtelny symbol zostanie podzielona na dziewięć prostokątnych obszarów (w postaci siatki 33 $), z których każdy ma przypisany kod literowy od „A” do „I”. Symbol jest uważany za zbiór kresek. W tym przypadku linia łącząca dwa punkty na obrysie symbolu może być linią (L) lub krzywą (C). Za obrys uważa się $\textit(segment (łuk))$ $\textit(curve)$ jeśli jego punkty spełniają następujące wyrażenie $$ \left| \frac (1)(n) \sum\limits_(i=1)^n \frac (ax_i +by_i +c)(\sqrt(a^2+b^2)) \right| >0(,)69, $$ in W przeciwnym razie uważa się, że jest to $\textit(odcinek linii prostej)$. W tym wzorze $\langle x_(i),y_(i)\rangle$ jest punktem należącym do obrysu; $ax+by+c=0$ to równanie prostej przechodzącej przez końce skoku, współczynnik $0(,)69$ uzyskano doświadczalnie. Co więcej, symbol można opisać za pomocą zestawu jego segmentów i łuków. Na przykład zapis $"ALC", "ACD"$ oznacza odpowiednio obecność linii przechodzącej z obszaru "A" do obszaru "C" i krzywej przechodzącej z obszaru "A" do obszaru "D". .

Główną zaletą metod rozpoznawania strukturalnego jest ich odporność na przesunięcia, skalowanie i obrót znaku o mały kąt, a także na możliwe zniekształcenia i różne zmiany stylistyczne oraz niewielkie zniekształcenia czcionek.

Klasyfikacja symboli.

W istniejących systemów OCR wykorzystuje różnorodne algorytmy $\textit(classification)$, czyli przypisując cechy do różnych klas. Różnią się one znacznie w zależności od przyjętych zbiorów cech i zastosowanej do nich strategii klasyfikacji.

Aby dokonać klasyfikacji znaków na podstawie cech, konieczne jest przede wszystkim wygenerowanie zbioru wektorów cech odniesienia dla każdego z rozpoznanych znaków. W tym celu na etapie $\textit(training)$ operator lub programista wprowadza do systemu OCR dużą liczbę próbek stylów znaków wraz ze wskazaniem znaczenia symbolu. Dla każdej próbki system wyodrębnia cechy i zapisuje je w postaci odpowiedniego $\textit(wektor cech)$. Zbiór wektorów cech opisujących znak nazywa się $\textit(class)$ lub $\textit(cluster)$.

W trakcie eksploatacji systemu OCR może zaistnieć konieczność rozbudowy utworzonej wcześniej bazy wiedzy. W związku z tym niektóre systemy mają możliwość $\textit(dodatkowego szkolenia)$ tryb prawdziwy czas.

Zadaniem właściwej $\textit(procedury klasyfikacji)$ lub $\textit(rozpoznania)$, wykonywanej w momencie zaprezentowania systemowi obrazu testowego symbolu, jest określenie, która z wcześniej utworzonych klas jest wektorem cech uzyskany dla tego symbolu należy do. Algorytmy klasyfikacji opierają się na określeniu stopnia zbliżenia zbioru cech badanej postaci do każdej z klas. Wiarygodność uzyskanego wyniku zależy od wybranej metryki przestrzeni cech. Najbardziej znaną metryką przestrzeni cech jest tradycyjna odległość euklidesowa

$$ D_j^E = \sqrt(\sum\limits_(i=1)^N ((F_(ji)^L -F_i^l)^2)), $$ gdzie $F_(ji)^L$ - $i$-ta cecha z $j$-tego wektora odniesienia; $F_i^l $ - $i$-ty atrybut badanego obrazu symbolu.

Przy klasyfikacji metodą $\textit(najbliższy sąsiad)$ symbol zostanie przypisany do klasy, której wektor cech jest najbliższy wektorowi cech badanego symbolu. Należy wziąć pod uwagę, że koszty obliczeniowe w takich systemach rosną wraz z liczbą zastosowanych cech i klas.

Jedna z technik poprawy metryki podobieństwa opiera się na analizie statystycznej zbioru referencyjnego cech. Jednocześnie w procesie klasyfikacji wyższy priorytet otrzymują cechy bardziej niezawodne: $$ D_j^E =\sqrt(\sum\limits_(i=1)^N (w_i (F_(ji)^L -F_i^ l)^2)), $$

Gdzie $w_(i)$ jest wagą $i$-tej cechy.

Inna technika klasyfikacji wymagająca znajomości informacji apriorycznych o probabilistycznym modelu tekstu polega na wykorzystaniu wzoru Bayesa. Z reguły Bayesa wynika, że rozpatrywany wektor cech należy do klasy „$j$”, jeżeli iloraz wiarygodności $\lambda $ jest większy od stosunku prawdopodobieństwo wcześniejsze klasy $j$ do prawdopodobieństwa apriorycznego klasy $i$.

Postprocessing wyników rozpoznania.

W wymagających systemach OCR jakość rozpoznawania uzyskana w wyniku rozpoznawania poszczególnych znaków nie jest uważana za wystarczającą. Takie systemy muszą również wykorzystywać informacje kontekstowe. Korzystanie z informacji kontekstowych pozwala nie tylko znaleźć błędy, ale także je poprawić.

Istnieje wiele aplikacji OCR wykorzystujących globalne i lokalne diagramy pozycji, trygramy, $n$-gramy, słowniki i różne kombinacje wszystkich tych metod. Rozważmy dwa podejścia do rozwiązania tego problemu: $\textit(słownik)$ i $\textit(zbiór macierzy binarnych)$, które przybliżają strukturę słownika.

Udowodniono, że metody słownikowe należą do najskuteczniejszych w identyfikowaniu i korygowaniu błędów klasyfikacji poszczególnych znaków. W takim przypadku po rozpoznaniu wszystkich znaków danego wyrazu następuje przeszukanie słownika w poszukiwaniu tego słowa, biorąc pod uwagę fakt, że może ono zawierać błąd. Jeśli w słowniku znajdzie się jakieś słowo, nie oznacza to, że nie ma w nim błędów. Błąd może zamienić jedno słowo znajdujące się w słowniku w inne, które również znajduje się w słowniku. Takiego błędu nie można wykryć bez użycia semantycznej informacji kontekstowej: tylko to może potwierdzić poprawną pisownię. Jeśli danego słowa nie ma w słowniku, uważa się, że w słowie wystąpił błąd rozpoznawania. Aby poprawić błąd, uciekają się do zastąpienia takiego słowa najbardziej podobnym słowem ze słownika. Korekta nie jest dokonywana, jeżeli w słowniku znajdzie się kilku odpowiednich kandydatów do zastąpienia. W tym przypadku interfejs niektórych systemów pozwala pokazać użytkownikowi słowo i zasugerować różne opcje decyzji, takich jak poprawienie błędu, zignorowanie go i kontynuowanie pracy lub dodanie słowa do słownika. Główną wadą korzystania ze słownika jest to, że operacje wyszukiwania i porównywania stosowane w celu skorygowania błędów wymagają znacznych kosztów obliczeniowych, które rosną wraz z rozmiarem słownika.

Niektórzy programiści, aby przezwyciężyć trudności związane z korzystaniem ze słownika, próbują wydobyć informacje o strukturze słowa z samego słowa. Taka informacja wskazuje stopień prawdopodobieństwa $\textit(n-gram)$ (sekwencji znaków, takich jak pary lub trójki liter) w tekście, który może być również umieszczony globalnie, lokalnie lub wcale. Na przykład poziom ufności niepozycjonowanej pary liter można przedstawić w postaci macierzy binarnej, której element jest równy 1 wtedy i tylko wtedy, gdy odpowiednia para liter występuje w jakimś słowie zawartym w słowniku. Binarny diagram pozycyjny $D_(ij)$ jest macierzą binarną określającą, która para liter ma niezerowe prawdopodobieństwo wystąpienia w pozycji $\langle i,j\rangle$. Zbiór wszystkich diagramów pozycji zawiera macierze binarne dla każdej pary pozycji.