Аппараттық және бағдарламалық қамтамасыз етуді орнату

ocr жүйелері дегеніміз не. Imago OCR мысалында құрылымдық ақпаратты оптикалық тану жүйесін құру

Сізге журнал мақаласын немесе басып шығарылған келісімшартты цифрландыру қажет деп елестетіп көріңіз. Әрине, құжатты қайта теруге және қателерді түзетуге бірнеше сағат жұмсауға болады. Немесе сканер (немесе сандық камера) және оптикалық таңбаларды тану (OCR) бағдарламалық құралы арқылы бірнеше минут ішінде барлық қажетті материалдарды өңделетін пішімге түрлендіруге болады.

Таңбаларды оптикалық тану технологиясы дегеніміз не

Таңбаларды оптикалық тану (OCR) - түрлендіруге мүмкіндік беретін технология әртүрлі түрлерісканерленген құжаттар, PDF файлдары немесе сандық камерадағы фотосуреттер сияқты құжаттарды өңделетін, іздеуге болатын пішімдерге ауыстырыңыз.

Сізде журнал мақаласы, брошюра немесе келісім-шарт сияқты қағаз құжатыңыз бар делік PDF пішіміСізге серіктесіңіз жіберген электрондық пошта. Құжатты өңдеу мүмкіндігі болу үшін оны сканерлеу жеткіліксіз екені анық. Сканер жасай алатын жалғыз нәрсе - бұл қара-ақ немесе түрлі-түсті нүктелердің жиынтығы, яғни нүктелік кескін болып табылатын құжаттың кескінін жасау.

Деректерді көшіру, шығарып алу және өңдеу үшін сізге суреттегі әріптерді шығарып, оларды сөзге құрайтын, содан кейін сөздерді сөйлемдерге біріктіретін таңбаларды тану бағдарламасы қажет, ол кейінірек мазмұнмен жұмыс істеуге мүмкіндік береді. құжаттың түпнұсқасы.

FineReader OCR технологиясының принциптері қандай?

ABBYY FineReader OCR сияқты ең жетілдірілген таңбаларды тану жүйелері табиғат жасаған механизмдерді пайдалануды ерекше атап өтеді. Бұл механизмдер үш іргелі қағидатқа негізделген: тұтастық, мақсаттылық және бейімделушілік (IPA принциптері).

Бейне, тұтастық принципі бойынша, егер осы объектінің барлық құрылымдық бөліктері онда болса және бұл бөліктер сәйкес қатынаста болса ғана объект ретінде түсіндіріледі. Басқаша айтқанда, ABBYY FineReader ең қолайлысын іздеу үшін мыңдаған стандарттарды сұрыптау арқылы шешім қабылдауға тырыспайды. Оның орнына анықталған кескіннің қандай болатыны туралы бірқатар гипотезалар алға қойылған. Содан кейін әрбір гипотеза мақсатты түрде тексеріледі. Табылған нысан А әрпі болуы мүмкін деп есептесек, FineReader осы әріптің кескінінде болуы керек мүмкіндіктерді дәл іздейді. Мақсаттылық принципіне сүйене отырып, солай істеу керек. Бейімделу принципі бағдарламаның өздігінен оқуға қабілетті болуы керек дегенді білдіреді, сондықтан жүйе осы нақты құжаттағы ықтимал кейіпкер стильдері туралы бұрын жинақталған ақпарат негізінде ұсынылған гипотезаның дұрыстығын тексереді.

OCR негізінде қандай технология жатыр?

ABBYY көп жылдық зерттеулердің нәтижелеріне сүйене отырып, IPA қағидаттарын жылы енгізді компьютерлік бағдарлама. ABBYY FineReader оптикалық таңбаларды тану жүйесі құжатты өңдеудің барлық кезеңдерінде жоғарыда сипатталған принциптерге сәйкес жұмыс істейтін әлемдегі жалғыз OCR жүйесі болып табылады. Бұл принциптер бағдарламаны мүмкіндігінше икемді және интеллектуалды етеді, оның жұмысын адамның символдарды қалай танитынына барынша жақындатады. Таныудың бірінші кезеңінде жүйе құжатты бет бойынша құрайтын кескіндерді талдайды, бет құрылымын анықтайды, мәтін блоктарын, кестелерді ерекшелейді. Сонымен қатар, заманауи құжаттар жиі дизайн элементтерінің барлық түрлерін қамтиды: иллюстрациялар, үстіңгі және төменгі колонтитулдар, түрлі-түсті фон немесе фондық суреттер. Сондықтан анықталған мәтінді табу және тану жеткіліксіз, қаралып отырған құжаттың қалай орналасатынын басынан бастап анықтау маңызды: бөлімдер мен бөлімшелер, сілтемелер мен ескертулер, кестелер мен графиктер, мазмұндар бар ма? , бет нөмірлері қойылады және т.б. Содан кейін мәтін блоктарында жолдар бөлінеді, жеке жолдар сөздерге, сөздер таңбаларға бөлінеді.

Кейіпкерлерді таңдау және оларды тану формада да жүзеге асырылатынын атап өткен жөн құрамдас бөліктержалғыз процедура. Бұл ПЗА принциптерін толық пайдалануға мүмкіндік береді. Таңдалған кейіпкерлердің суреттері классификаторлар деп аталатын әріптерді тану механизмдерінің қарауына беріледі.

ABBYY FineReader классификаторлардың келесі түрлерін пайдаланады: растрлық, функциялық, контурлық, құрылымдық, мүмкіндік-дифференциалдық және құрылым-дифференциалдық. Растрлық және функциялық классификаторлар кескінді талдайды және онда қандай символ бейнеленгені туралы бірнеше гипотезаларды алға тартады. Талдау кезінде әрбір гипотезаға белгілі бір балл (салмақ деп аталатын) беріледі. Тексеру нәтижесінде біз салмақ бойынша (яғни бізде дәл осындай таңба бар деген сенімділік дәрежесі бойынша) реттелген гипотезалардың тізімін аламыз. Қазіргі уақытта жүйе қарастырылып отырған таңбаның қалай көрінетінін «болжайды» деп айта аламыз.

Осыдан кейін IPA қағидаттарына сәйкес ABBYY FineReader ұсынылған гипотезаларды тексереді. Бұл дифференциалдық мүмкіндік классификаторы арқылы орындалады.

Сонымен қатар, ABBYY FineReader 192 тану тілін қолдайтынын атап өткен жөн. Тану жүйесін сөздіктермен біріктіру бағдарламаға құжаттарды талдауда көмектеседі: тану дәлірек болады және құжаттың негізгі тілі туралы деректерді ескере отырып, нәтижені одан әрі тексеруді және жеке болжамдарды сөздікпен тексеруді жеңілдетеді. Көптеген гипотезаларды егжей-тегжейлі өңдеуден кейін бағдарлама шешім қабылдайды және пайдаланушыға танылған мәтінді береді.

Сандық фотосуреттерді тану

Сандық камерамен түсірілген кескіндер сканерленген құжаттардан немесе суреттер болып табылатын PDF файлдарынан ерекшеленеді.

Оларда жиі перспективаның бұрмалануы, жарқылдың экспозициясы, сызықтың иілісі сияқты белгілі бір ақаулар болуы мүмкін. Көптеген қолданбалармен жұмыс істегенде, мұндай ақаулар тану процесін айтарлықтай қиындатады. Осыған байланысты, ABBYY FineReader бағдарламасының соңғы нұсқаларында кескіндерді тану үшін дайындау тапсырмаларын сәтті орындайтын кескінді алдын ала өңдеу технологиялары бар.

OCR бағдарламаларын пайдалану жолы

ABBYY FineReader OCR технологиясын пайдалану оңай – тану процесі әдетте үш кезеңнен тұрады: құжатты ашу (немесе сканерлеу), ең қолайлы форматта (DOC, RTF, XLS, PDF, HTML, TXT, т.б.) тану және сақтау. немесе деректерді тікелей жіберу кеңсе бағдарламалары, мысалы, Microsoft® Word®, Excel® немесе PDF қарау қолданбалары.

Оның үстіне, соңғы нұсқасы ABBYY FineReader ABBYY Hot Folder қолданбасы арқылы құжаттарды тану және түрлендіру тапсырмаларын автоматтандыруға мүмкіндік береді. Оның көмегімен бірдей немесе қайталанатын құжаттарды өңдеу тапсырмаларын орнатуға және жұмыс өнімділігін арттыруға болады.

OCR бағдарламаларымен жұмыс істеудің қандай пайдасы бар?

ABBYY OCR мәтінді тану технологияларының жоғары сапасы қағаз құжаттарын (сканерлер, фотосуреттер) және кез келген түрдегі PDF құжаттарын өңделетін пішімдерге дәл түрлендіруді қамтамасыз етеді. Заманауи OCR технологияларын пайдалану кез келген құжаттармен жұмыс істеу кезінде көп күш пен уақытты үнемдеуге мүмкіндік береді. ABBYY FineReader OCR көмегімен қағаз құжаттарды сканерлеуге және оларды өңдеуге болады. Сіз кітаптар мен журналдардан дәйексөздер алып, оларды қайта термей-ақ пайдалана аласыз. Сандық фотокамера және ABBYY FineReader OCR көмегімен қолыңызда сканер жоқ кезде көрген постердің, баннердің, құжаттың немесе кітаптың суретін лезде түсіріп, алынған кескінді тануға болады. Сонымен қатар, ABBYY FineReader OCR іздеуге болатын PDF құжаттарының мұрағаттарын жасау үшін пайдаланылуы мүмкін.

Қағаз құжатынан, суреттен немесе PDF файлынан түрлендірудің бүкіл процесі бір минуттан аз уақытты алады және танылған құжаттың өзі түпнұсқаға ұқсайды!

Оптикалық таңбаларды тану (OCR) жүйелері компьютерге енгізуді, қағазды және электрондық құжаттарды сақтауды және өңдеуді қолдайтын біріктірілген пакеттердің ажырамас бөлігіне айналды. Жүйе ақпаратты енгізуге арналған сканерді қамтиды.

Сканер жасаған кескінде мәтін мен графика болса, пайдалану арнайы бағдарламаТаңбаларды оптикалық тану (OCR) мүмкін:

  • - суреттерден мәтінді ажырату;
  • - Бұл мәтінді мәтіндік процессордың файл пішімінде жазыңыз.

Бағдарламалық жасақтама заманауи жүйелер OCR әріптердің пішіндерін талдайды және мәтіндік файлды жасайды, онда танылған мәтін сөздер мен сөйлемдердің ретті құрылуымен таңбалар бойынша жазылады.

OCR пакеттерінің екі түрі бар: үйренуге болатын және интеллектуалды. Таңбаларды тану үшін алғашқы оптикалық пакеттер түрі бойынша нақты бөлініске ие болды. Жақында осы екі түрді бір пакетте біріктіру үрдісі байқалды, бұл принципті түрде жаңа тану алгоритмдерін әзірлеу әрекеттерін қайталайды.

Үйренуге болатын OCR бағдарламалық жасақтама пакеттері алғашқы әзірлемелердің көпшілігін құрады. Мұндай пакеттер теориялық тұрғыдан кез келген әріптердің кез келген таңбаларын тануды үйренуге қабілетті. Бағдарламаны белгілі бір шрифтке үйрету үшін анықтамалық кескінді сканерлеу керек, содан кейін әрбір нақты таңба үшін жаттығу керек. Бұл өте ұзақ процедура, дегенмен, егер бұл гарнитура үнемі пайдаланылса, онда бірнеше сағат оқуға жұмсаған жөн. Бұл типтегі бағдарламалар беттегі әрбір жеке таңбаны оқу барысында жасалған іздеу кестелеріндегі таңбалармен салыстырады, процесте мәтіндік файл жасайды.

Smart OCR бумалары оқытуды қажет етпейді және пайдаланылатын қаріп түріне қарамастан таңба пішіндерін түсіндіре алады. Бұл бағдарламалардың жұмысы әсерлі: құжат сканер арқылы өтеді, нәтиже мәтіндік файлды беру арқылы интеллектуалды OCR бағдарламасымен өңделеді. A4 беті үшін бүкіл процедура бір минуттан астам уақытты алады. Жоғары дәлдікпен бұл қолмен енгізуге қарағанда әлдеқайда жылдам.

FineReader – сканер арқылы алынған графикалық кескінді (суретті) мәтінге (яғни жүйе «түсінетін» әріп кодтарына) түрлендіретін мәтінді оптикалық тану (OCR) жүйесі.

Мәтіндерді компьютерге енгізу процесі бірнеше кезеңде жүзеге асырылады: сканерлеу; суреттегі блоктарды таңдау; тану; қателерді тексеру; тану нәтижесін сақтау (оны басқа қолданбаға, алмасу буферіне және т.б. тасымалдау)

2-сурет Интерфейс FineReader бағдарламалық құралы 11

Сына жазуының оптикалық таңбасын тану (OCR) интеллектуалды жүйесі қоршаған ортада жұмыс істейді. Microsoft Windows 3.1 немесе одан кейінгі. Жүйенің келесі технологиялық мүмкіндіктері бар: жұмыс үстелі сканерлерінің кең ауқымын қолдайды, сканерленген бетті таниды (оның ішінде көп бағанды ​​мәтінді және күрделі дизайны бар мәтінді); кескінді TIFF ретінде сканерлеуге және жазуға және тануды кейінірек бастауға мүмкіндік береді (құжаттардың бір топтамасын сканерлеу ыңғайлы); басқа бағдарламалармен сканерленген кескіндерді және факстарды «Жақсы» және «Қалыпты» режимдерінде оқи алады; готикалық әріптер сияқты стильдендірілген қаріптерді қоспағанда, орыс және ағылшын алфавиттерінің әріптерін таниды; бастапқы пішімдеу мен кестені сақтай алады және шегініс пен туралауды реттей алады; қолжазбаны танымайды.

Suneiform экраны суретте белгіленген төрт негізгі бөліктен тұрады.


Сурет 3. Біркелкі программа интерфейсі

Windows жүйесіне арналған Intuitia 2.0 тану жүйесінің жаңа нұсқасы Omnifont технологиясын пайдаланады (әртүрлі қаріптерді ешқандай дайындықсыз таниды). Ол файлдардағы мәтіндік материалдарды кескінді тануды қамтамасыз етеді TIFF пішімдері, PCX, BMP, сондай-ақ TWAIN протоколын қолдайтын барлық сканерлерден, сондай-ақ HP ScanJet отбасы сканерлерінен (тікелей).

PenO «Man for Windows енгізу және қолжазбаны тану жүйесі – құрал қолжазба, мәтіндерді қаламмен тану және өңдеу: ағылшын және орыс тілдеріндегі үздіксіз мәтінді барлығында енгізуге және өңдеуге болады. Windows қолданбалары; енгізу процесі солдан оңға қарай, жақсырақ ұқыпты қолжазбамен және классикалық солға еңіспен жазғанда әдеттегі қаламды қолдануға ұқсас; пайдалану нәтижесінде енгізілген мәтінді өңдеуге болады стандартты мүмкіндіктер(мәтін фрагменттерін енгізу, жою, жылжыту, белсендіру және т.б.), сонымен қатар қаламның қарапайым штрихтары.

OCR&ICR технологиясының ақ қағазы

  1. Кіріспе.
    1.1 OCR және ICR жүйелері. Тану жүйелерін бағалау критерийлері.

    Оптикалық таңбаларды танудың заманауи жүйелерін (оптикалық таңбаларды тану, OCR) шамамен екі санатқа бөлуге болады. Іс жүзінде OCR-жүйелер классикалық болып қалған тану мәселесін шешеді басылғанпринтерді, плоттерді немесе жазу машинкасын пайдаланып қағазға басып шығарылған таңбалар (кез келген тану жүйесі құжаттың электронды кескінімен жұмыс істейді, әдетте сканер арқылы алынады). Бұдан басқа, ICR-жүйелерінің класы бар (сипаттарды интеллектуалды тану), оның міндеттеріне бас әріптермен және сандармен толтырылған құжаттарды қолмен өңдеу немесе, басқаша айтқанда, тану кіреді. қолмен басылғанкейіпкерлер.

    Екі жағдайда да тану жүйесінің жұмыс істеу сапасын бірқатар параметрлер бойынша бағалауға болады. Дегенмен, ең маңызды параметрКез келген түрдегі жүйе тану дәлдігі болып табылады, әдетте пайызбен көрсетіледі

    A REC = 100% * N OK / N 0 ; (1.1)

    мұндағы N OK және N 0 сәйкесінше дұрыс танылған таңбалар саны және құжаттағы таңбалардың жалпы саны. OCR\ICR жүйелерін өндірушілер ең алдымен тану дәлдігі тұрғысынан қолданылатын алгоритмдерді оңтайландыруға назар аударатыны табиғи нәрсе.

    1.2 ABBYY технологиялары.

    Соңғы алты жылда ABBYY технологиялары негізінде құрастырылған OCR\ICR жүйелері әлемдік нарықта пайда болды. Бүгінде олар белгілі және тұрақты сұранысқа ие. Атап айтқанда, ABBYY FineReader OCR жүйесінің бағдарламалық құралын (қозғалтқышын) Cardiff Software, Inc., Cobra Technologies, Kofax Image Products, Kurzweil Educational Systems, Inc., Legato Systems, сияқты белгілі компаниялар лицензиялап, сәтті басқарады. Inc., Notable Solutions Inc., ReadSoft AB, Saperion AG, SER Systems AG, Siemens Nixdorf, Toshiba Corporations.

    бөлігі ретінде бұл құжат ABBYY технологияларының негізгі қағидалары сипатталады, сонымен қатар, ABBYY өнімдерінде жүзеге асырылатын басып шығарылған (OCR) және қолмен басып шығарылған (ICR) таңбаларды тану процедуралары егжей-тегжейлі қарастырылады.

  2. ABBYY мәтінді тану технологияларының негізгі принциптері.
    2.1 ПЗА қағидалары.

    Құжатты электрондық нысанға түрлендіруді OCR жүйелері кезең-кезеңмен жүзеге асырады: кескінді сканерлеу және алдын ала өңдеу, құжат құрылымын талдау, тану, нәтижелерді тексеру, содан кейін құжатты қайта құру (түпнұсқа көрінісін қайта құру). құжат және экспорт. Тану үшін қолданылатын әдістер өте алуан түрлі.

    Бірақ, өзіңіз білетіндей, әлемдегі ең жақсы оптикалық тану жүйелері табиғатпен жасалған. Көру мүшелерінің сигналдарын жеткізетін және өңдейтін жүйке жүйесінің бөліктерінің құрылымының күрделілігі соншалық, тірі «таныушыларды» жалпы түрде модельдеу мәселесі әлі ғылыммен шешілген жоқ. Дегенмен, олардың жұмыс істеуінің негізгі принциптері жақсы зерттелген және оларды тәжірибеде қолдануға болады. Олардың үшеуі бар:

      Тұтастық принципі, оған сәйкес объект байланысқан бөліктерден тұратын біртұтас ретінде қарастырылады. Бөлшектердің байланысы олардың арасындағы кеңістіктік қатынастарда көрінеді, ал бөліктердің өзі болжамды бүтіннің бір бөлігі ретінде, яғни объект туралы гипотеза шеңберінде ғана түсіндіріледі. Жоғарыда аталған ережелерді ұстанатын жүйенің артықшылығы, ең болмағанда принцип ережелерінің біреуіне қайшы келетін көптеген гипотезаларды бірден қараудан алып тастап, танылған объектіні дәлірек жіктеу мүмкіндігінде көрінеді.

      Мақсаттылық принципі(мақсаттылық): деректердің кез келген интерпретациясы белгілі бір мақсатқа ие. Сондықтан тану тұтас объект туралы гипотезаларды алға тарту және оларды мақсатты түрде тексеру процесі болуы керек. Мақсаттылық принципіне сәйкес жұмыс істейтін жүйе есептеу қуатын үнемді жұмсап қана қоймай, қателерді әлдеқайда аз жіберетіні анық.

      Бейімделу принципіжүйенің өздігінен білім алу мүмкіндігін білдіреді. Тану кезінде алынған ақпарат реттелген, сақталады және кейіннен ұқсас мәселелерді шешуде қолданылады. Өзін-өзі оқыту жүйелерінің артықшылығы бұрын жинақталған білімдер негізінде логикалық пайымдау жолын «түзету» мүмкіндігінде.

    ABBYY әзірлеген тану технологиялары осы принциптерге негізделген. Принциптердің толық атауларының орнына аббревиатура жиі қолданылады IPA, сәйкес ағылшын сөздерінің бірінші әріптерінен құралған. Принциптерге сәйкес жұмыс істейтін тану жүйесі екені анық IPA, мүмкіндігінше икемді және дәл жұмыс істейді, мағыналы әрекеттің алдында.

    ABBYY көп жылдық зерттеулердің нәтижелеріне сүйене отырып, принциптерді жүзеге асырды IPAоптикалық таңбаларды тану технологияларының бөлігі ретінде. ABBYY FineReader құжатты өңдеудің барлық кезеңдерінде жоғарыда сипатталған принциптерге сәйкес жұмыс істейтін әлемдегі жалғыз OCR жүйесі болып табылады.

    Атап айтқанда, тану кезеңінде, сәйкес кескін фрагменті тұтастық принципі, онда осы объектінің барлық құрылымдық бөліктері болса және бұл бөліктер тиісті қатынаста болса ғана белгілі бір объект (таңба) ретінде түсіндіріледі. Сондықтан, ABBYY FineReader ең қолайлысын іздеу үшін мыңдаған сілтемелерді аралап, шешім қабылдауға тырыспайды. Оның орнына анықталған кескіннің қандай болатыны туралы бірқатар гипотеза, содан кейін әрбір гипотеза ұсынылады. мақсатты түрдетексерілді. Сонымен қатар, ұсынылған гипотезаның дұрыстығын тексеру үшін жүйе пайдаланады бейімділік принципі, танылған құжаттағы ықтимал таңба мәнерлері туралы бұрын жинақталған ақпаратқа негізделген.

    2.2 Көп деңгейлі құжаттарды талдау. MDA.

    Кескінді талдау және алдын ала өңдеу сатысында кез келген OCR жүйесінің алдында екі негізгі міндет тұр: біріншіден, суретті тану процедураларына дайындау, екіншіден, оны электронды түрде қайта жасау мүмкіндігі үшін құжаттың құрылымын анықтау. болашақта. Алдын ала өңдеу процедуралары келесі тарауда талқыланады, бірақ енді құрылымды талдау мәселесіне көшейік.

    Құжаттың иерархиялық құрылымын талдау әдістері деп аталатын әдістер кеңінен қолданылады. Осы әдістер шеңберінде құрылымды талдау кезінде әдетте бірнеше иерархиялық ұйымдастырылған логикалық деңгейлер бөлінеді. Ең жоғары деңгейдегі бір ғана объект бар – парақтың өзі, иерархияның келесі деңгейінде кесте, мәтіндік блок және сурет және т.б. (1-сурет). Кез келген нысанды төменгі деңгейдегі объектілердің жиынтығы ретінде көрсетуге болатыны анық.

    1-сурет. Иерархиялық құрылымқұжат

    Қазіргі заманғы OCR жүйелерінің көпшілігі құжатты келесі принциптердің біріне сәйкес талдайды: жоғарыдан төменге («жоғарыдан төменге») немесе төменнен жоғарыға («төменнен жоғарыға»). Құжатты жоғарыдан төмен талдау, аты айтып тұрғандай, жоғарыдан төменге қарай. Жүйе бетті объектілерге бөледі, олар өз кезегінде төменгі деңгейдегі объектілерге және т.б. символдарға дейін. Екінші принципке негізделген жүйелер, керісінше, өз талдауын жалғыз белгілерді іздеуден бастайды. Одан кейін табылған таңбалардың сөзге қалай түскені туралы түсінік қалыптасады және т.б. беттің толық электронды аналогы қалыптасқанға дейін.

    Белгілі бір объектіге қатысты шешім қабылдау үшін «дауыс беру», дауыс беру деп аталатын механизм жиі қолданылады. Бұл әдістің мәні объектіге қатысты бірнеше гипотезаларды қатар дамытуда және олардың біреуін таңдайтын логикалық блокты «сарапшыға» беруде жатыр.

    Бұл әдіс соңғы онжылдықта кеңінен қолданылды; атап айтқанда, жалпы «сарапшылық» шығуы бар екі немесе одан да көп тәуелсіз тану қозғалтқыштарынан тұратын OCR жүйелері бар. Дегенмен, тәжірибе көрсеткендей, мұндай құрылыс дәл OCR бағдарламасы «шетелдік», лицензияланған тану механизмдерін пайдаланатын жағдайларда жақсы. Әрбір танушы жұмысының барлық қыр-сырлары туралы ақпарат бағдарлама өндірушісіне қол жетімді болмаған жағдайда, бұл шешім ең қолайлы болып табылады. Егер өндіруші тану құралдарын өз бетімен жасаса, тану сапасын көбірек жақсартуға болады тиімді жолдары. Бұл құжатта олар туралы талқыланатын болады.

    ABBYY әзірлеушілері көп деңгейлі құжаттарды талдаудың бірегей алгоритмін жасады - бұл деп аталады MDA(көпдеңгейлі құжатты талдау) – жоғарыда аталған екі қағиданың да артықшылықтарын біріктіруге мүмкіндік береді. бөлігі ретінде MDAпарақ құрылымы жоғарыдан төменге әдісімен жасалатындай қарастырылады және тану аяқталғаннан кейін құжатты электронды түрде қайта құру «төменнен жоғары» әдісіне ұқсас «төменнен жоғарыға» жүзеге асырылады. . Бұл ретте алгоритмге механизм қосылды кері байланыс, талдаудың барлық деңгейлерін қамтитын, бұл жоғары деңгейдегі объектілерді дұрыс танумен байланысты өрескел қателер ықтималдығын күрт төмендетуге мүмкіндік берді.

    Жаңа алгоритмнің мүмкіндіктері прототиптерге қарағанда айтарлықтай кеңірек болып шықты. ABBYY OCR жүйесінің кез келген деңгейдегі объектілері қағидаттарға толығымен сәйкес танылатынын ескеріңіз IPA: ең алдымен анықталған объектілердің түрлеріне қатысты гипотезалар алға қойылады, содан кейін олар мақсатты түрде тексеріледі. Бұл осы құжаттың бұрын табылған мүмкіндіктерін ескереді, сонымен қатар барлық жаңадан түскен ақпаратты сақтайды.

    Алгоритмнің ерекшеліктерін қарастырыңыз MDAкелесі мысалда. Парақта бірнеше нысандар таңдалды делік, олардың біреуі мәтіндік блок ретінде анықталған. Дегенмен, блоктың құрылымын зерттеу барысында белгілі бір туралау ашылады, сөздерді ажырататын интервалдарды талдау, егер біз оны интервалмен терілген деп есептесек те, блокта когерентті мәтін жоқ екенін көрсетеді. Жинақталған ақпарат негізінде талдаудың алдыңғы деңгейінің нәтижелерін қайта қарау туралы шешім қабылданады: бұл мәтіндік блок емес, жолдарды бөлмейтін кесте. Осыдан кейін блокты тану әдеттегі тәртіпте жалғасады, бірақ енді ол іс жүзінде қатесіз орындалады, ал қорытынды құжатта кесте кесте ретінде дәл шығарылады.

    Бір сөзбен айтқанда, төменгі деңгейлердің біріндегі талдау нәтижелері әрқашан жоғары деңгейдегі объектілермен әрекеттерге әсер етуі мүмкін болғандықтан, стандартты алгоритмдермен салыстырғанда тану дәлдігінің бірнеше есе жоғарылауына қол жеткізіледі.

    Біз ABBYY OCR технологияларының негізгі принциптеріне қысқаша шолу жасадық. Жоғарыда айтылғандай, кез келген құжатты тану жетілдірілген процедураны қолдану арқылы кезең-кезеңімен жүзеге асырылады көп деңгейлі құжаттарды талдау (MDA). Бетті төменгі деңгейлі нысандарға, жеке таңбаларға дейін бөлу, таңбаларды тану және «құрастыру» электрондық құжат ABBYY FineReader принциптерге сүйенеді тұтастық, мақсаттылықжәне бейімділік (IPA).


    Жоғарыдағы сипаттама өте жалпы. Біз тану процесінің өзін қамтымай, негізгі принциптерді қарастырдық. Келесі тарауда құжаттың әртүрлі деңгейдегі объектілерімен жеке таңбаларға дейін жұмыс істеудің барлық кезеңдері егжей-тегжейлі сипатталады.
  3. OCR процедурасының сипаттамасы.
    3.1 Кескінді алдын ала өңдеу.

    Құжаттарды өңдеу беттің графикалық кескінін (бейнесін) алудан басталады. Қазіргі заманғы OCR жүйелері файлдардан және сканерден кескіндерді алудың негізгі әдістерін де қолдайды. Сканермен өзара әрекеттесу әдетте әмбебап TWAIN протоколы арқылы жүзеге асырылады. Қалай болғанда да, OCR бағдарламасының кіріс деректері құжаттың түсті (24 биттік түс тереңдігі) немесе сұр шкала (8 биттік түс тереңдігі) кескіні болып табылады.

    3.2 Жоғары деңгейдегі объектілерді тану. Бинаризация.

    Бетті құрылымдауға, блоктарды бөлектеуге және анықтауға кіріспес бұрын, OCR жүйесі шығарады бинаризация, яғни түсті немесе сұр түсті кескінді монохромға түрлендіру (түс тереңдігі 1 бит). Дегенмен, заманауи құжаттарда көбінесе өңдік текстуралар немесе кескіндер сияқты дизайн элементтері болады. Әдеттегі бинаризация процедурасынан кейін кез келген құрылым кетеді көп саныКейіпкерлердің айналасында орналасқан және тану сапасын күрт төмендететін «қосымша» нүктелер. Бинаризация фондық суреттерұқсас салдарға әкеледі. Сондықтан жүйенің мәтінді «енгізілген» текстуралар мен кескіндерден дұрыс бөлу мүмкіндігі өте маңызды.


    2-сурет. Фондық текстурасы бар құжатты IBF процедурасы бойынша өңдеу.

    Соңғы тезисті 2-суретте көрсетілген мысалмен көрсетуге болады. Көптеген эксперименттер көрсеткендей, осы немесе ұқсас бетті әдеттегі бинаризация процедурасынан өңдеуді бастайтын OCR жүйесі өте төмен нәтиже көрсетеді. Орташа алғанда, осы түрдегі беттердегі дәлдік әртүрлі жүйелер үшін 31,1%-дан 62,7%-ға дейін ауытқиды, бұл іс жүзінде танудан бас тартуға тең.

    Дегенмен, ABBYY FineReader мұндай құжаттарды өте дұрыс өңдейді; эксперименттер көрсеткендей, осы түрдегі беттерді танудың орташа дәлдігі тең 98,7% . Жоғарыда аталған мәселені сәтті шешу үшін процедура мүмкіндік береді интеллектуалдыфондық текстураны сүзу,(ақылды фондық сүзгілеу, IBF). Қажет кезде іске қосылады, бетті алдын ала талдау нәтижелеріне байланысты, бұл процедура мәтінді ерікті түрде күрделі фоннан сенімді түрде бөлуге мүмкіндік береді. Сонымен қатар, жоғары деңгейдегі объектілерді таңдау - мәтіндік блоктар, кестелер және т.б. – процедура бойынша өңдеуден кейін күрделі құрылым беттерінде IBFәлдеқайда дәлірек орындады.

    Дегенмен, фондық кескіндердің немесе текстуралардың болуы тану сапасын төмендететін құжаттың жалғыз ерекшелігі емес. Мысалы, 3-суретте көрсетілген бетте анық фон элементтері жоқ. Дегенмен, көптеген OCR жүйелерін пайдаланып оны өңдеу әрекеті жол берілмейтін төмен нәтижелерге әкеледі. Мұның себебі - түпнұсқаның төмен контрасты, сондай-ақ көптеген жолдарда байқалатын фон жарықтығының айтарлықтай өзгеруі. Құжаттың бір бөлімі үшін бинаризация параметрлерін таңдаған кәдімгі OCR жүйесі көрші бөлімдердегі нысандарды сенімді түрде таңдай алмайды - олар «ерекшеленген» немесе «қараланған» болып шығады.


    3-сурет. Бейімделетін бинаризация процедурасы арқылы өңдеусіз бұл құжат нашар танылады.

    ABBYY мамандары әзірлеген технологиялар бұл мәселені де шешуге мүмкіндік береді. Процедура адаптивті бинаризация(бейімделетін бинаризация, AB) берілген бөлім үшін оңтайлы бинаризация параметрлерін икемді таңдай алады (жолдың фрагменті немесе тіпті сөз). Бейімделетін бинаризацияны пайдалана отырып, ABBYY FineReader бүкіл жол бойындағы өң жарықтығын және қара қанықтылығын тексереді және әрбір фрагмент үшін оңтайлы түрлендіру параметрлерін бөлек таңдайды. Нәтижесінде жолдар да, жеке сөздер де дұрыс бөлектеледі, бұл A REC жалпы тану дәлдігін арттырады.

    3-суретте көрсетілгенге ұқсас суреттер негізінде жүргізілген салыстырмалы зерттеудің нәтижелері өте индикативті. Тестілеу әдістемесі бөлімінде егжей-тегжейлі сипатталған, нәтижелер төмендегі кестеде берілген.

    1-кесте.
    Тану сапасын арттыру
    адаптивті бинаризацияны қолдану арқылы.

    Кестеден көрініп тұрғандай, адаптивті бинаризацияны қолдану тану дәлдігін айтарлықтай жақсарта алады. Техникалық тұрғыдан алғанда, идея AB, ол жетілдірілген алгоритмнің бөлігі болып табылады MDA, белгілі бір бөлімнің түрлендіру сапасын бағалау үшін кері байланысты пайдалану болып табылады. Адаптивті бинаризация процедурасының алгоритмінің жалпыланған құрылымдық схемасы күріште көрсетілген. 4.


    4-сурет. Адаптивті бинаризация процедурасы алгоритмінің жалпыланған блок-схемасы.

    3.3 Кейіпкерлерді тану. Жіктеуіштер.

    ABBYY FineReader бағдарламасының өзегінде жолды сөздерге және сөздерді әріптерге бөлу сызықтық бөлу деп аталатын процедура арқылы орындалады. Процедура жолдың соңына жеткенде аяқталады және ықтимал бөлу нұсқаларына қатысты ұсынылған гипотезалардың тізімін одан әрі өңдеуге өтеді. Бұл жағдайда әрбір гипотезаға белгілі бір салмақ беріледі; мағынасы бойынша бұл мән сенімділіктің сандық көрінісіне сәйкес келеді. Гипотезалардың әрқайсысына сәйкес келетін «символ» деңгейінің графикалық объектілерінің жиынтығы кейіпкерді тану механизмінің кірісіне беріледі. Соңғысы деп аталатын бірнеше элементар танушылардың тіркесімі классификаторлар.


    5-сурет. Жіктеуіштің жеңілдетілген сұлбасы.

    Жалпы алғанда, классификатордың жұмысы 5-суреттегі диаграммада көрсетілген. Көрсетілгендей, өңдеудің соңында классификатор келесі кескіннің белгілі бір сыныпқа жататындығына қатысты гипотезалардың тізімін жасайды немесе кіріс деректер қазірдің өзінде тізім болған жағдайда, ол бар гипотезалардың салмақтарын сәйкесінше өзгертеді. , оларды растайды немесе жоққа шығарады. Шығару тізімі әрқашан салмақ бойынша (сенімділік) реттелген.

    Жіктеуіштің маңызды сипаттамаларының бірі дұрыс гипотезаның орташа орны болып табылады. Бұл әдетте гипотеза тізімдерін одан әрі өңдеу кезеңдерінде қолданылатын контекстік және сөздік тексеру процедураларының ерекшеліктеріне байланысты. Аталған процедуралар танудың жалпы дәлдігін айтарлықтай арттырады, бірақ тізімдегі дұрыс нұсқа тым терең болмаса ғана. Дұрыс нұсқаның орташа орнын бағалау үшін әртүрлі критерийлерді қолдануға болады, мысалы, алғашқы үш тану опциясының дәлдігі, яғни. шығу тізімінде дұрыс гипотеза кемінде үшінші орынға ие болған таңбалардың пайызы.

    Сонымен қатар, арасында маңызды сипаттамаларКлассфикатор бірінші тану опциясына сәйкес дәлдік деп аталады, жылдамдық, орындаудың қарапайымдылығы, сондай-ақ нақты құжаттарда кездесетін әртүрлі бұрмалануларға төзімділік (жыртылған, су басқан, пішінін қатты өзгерткен таңбалар).

    ABBYY технологияларына негізделген тану жүйелері классификаторлардың келесі түрлерін пайдаланады: растрлық, ерекшелік, ерекшелік дифференциалы, контурлық, құрылымдық және құрылымдық дифференциал. Олардың әрқайсысының қасиеттері мен ерекшеліктерін қарастырыңыз.

      Растрлық классификатор.
      Жұмыс принципі символдық кескінді стандартпен тікелей салыстыруға негізделген. Ұқсассыздық дәрежесі сәйкес келмейтін пикселдер саны ретінде есептеледі. Растрлық классификатордың қолайлы дәлдігін қамтамасыз ету үшін кескінді алдын ала өңдеу қажет: өлшемді, көлбеуді және штрих қалыңдығын қалыпқа келтіру. Әрбір сыныпқа арналған анықтама әдетте оқу үлгісінің символдық кескіндерін орташалау арқылы алынады.

      Бұл классификаторды енгізу оңай, жылдам жұмыс істейді, кездейсоқ кескін ақауларына төзімді, бірақ салыстырмалы түрде төмен дәлдікке ие. Қазіргі кейіпкерлерді тану жүйелерінде кеңінен қолданылады. ABBYY FineReader жүйесінде танудың бастапқы кезеңінде гипотезалардың алдын ала тізімін жылдам құру үшін растрлық классификатордың бір түрі қолданылады. Тізімдегі алғашқы үш позициядан есептелген бұл танушының дәлдігі 99,29% 97,57% .

      Атрибут классификаторы.
      Жұмыс принципі: кескінге N-өлшемді мүмкіндік векторы тағайындалады. Нақты классификация оны бірдей өлшемдегі анықтамалық векторлар жиынымен салыстырудан тұрады. Ерекшеліктердің түрі мен саны тану сапасын айтарлықтай дәрежеде анықтайды. Вектордың қалыптасуы (N өлшемді кеңістікте оның координаталарын есептеу) бұрын дайындалған кескінді талдау кезінде орындалады. Бұл процесс функцияларды шығару деп аталады. Әрбір сыныпқа арналған стандарт оқу үлгісінің символдарын ұқсас өңдеу арқылы алынады.


      6-сурет. Ерекшелік классификаторының блок-схемасы.

      Әрбір векторлар жұбын салыстыру N-өлшемді кеңістіктегі нүктелер арасындағы қашықтықты сипаттайтын бағалауды есептеуден тұрады (нүкте - мұндай вектордың геометриялық көрінісі). Көрсететін мысал бұл әдіс, 7-суретте көрсетілген; бұл мысалда түсінікті болу үшін N=2 деп есептейміз, яғни векторлар әдеттегі екі өлшемді кеңістікте. Анықтамалық вектордың X0, Y0 координаталары классификаторды оқыту кезінде алдын ала есептелсе, X1, Y1 белгілерді шығару сатысында алынған. |L| бағаланған мәнінің мәні неғұрлым аз болса, талданатын кескін осы стандартқа дәлірек сәйкес келетіні анық, сондықтан классификатор осы гипотезаға соғұрлым жоғары салмақты тағайындайды. Жалпы алғанда, |L| анықталатын тәуелділік былай жазылады:

      Ерекшеліктер классификаторының негізгі артықшылығы – іске асырудың қарапайымдылығы, жақсы жалпылау қабілеті, таңбалар пішінінің өзгеруіне жақсы қарсылық, тану сәтсіздіктерінің аз саны және жоғары өнімділік. Оның ең маңызды кемшілігі - әртүрлі кескін ақауларына тұрақсыздығы. Сонымен қатар, мүмкіндіктер классификаторларының тағы бір елеулі кемшілігі бар - ерекшеліктерді шығару сатысында символ туралы кейбір ақпарат қайтымсыз жоғалады. Функцияны шығару дербес жүзеге асырылады, сондықтан таңба элементтерінің салыстырмалы орны туралы ақпарат жоғалады.

      Мүмкіндік классификаторының дәлдігі таңдалған мүмкіндіктердің сапасына қатты байланысты. Бұл жағдайда сапа деп олардың кейіпкер стилін мүмкіндігінше дәл, бірақ шектен тыс сипаттай алуы түсініледі. Мүмкіндіктерді таңдаудың нақты ережелері жоқ, сондықтан әртүрлі әзірлеушілердің классификаторлары әртүрлі мүмкіндіктер жиынтығымен жұмыс істейді.

      Бұл классификатор түрі OCR жүйелерін жасаушылар арасында өте танымал. ABBYY FineReader жүйесі N=224 мүмкіндігі бар мүмкіндіктер классификаторын пайдаланады. Оның мақсаты растрлық классификатормен бірдей – алдын ала болжамдар тізімін жылдам құру. Гипотезалар тізімінің алғашқы үш нұсқасы үшін қолданылатын сорттың дәлдігі болып табылады 99,81% , бірінші нұсқаға сәйкес дәлдік 99,13% .

      контур классификаторы.
      Ерекшелік классификаторының жеке түрі. Оның соңғысынан ерекшелігі, мүмкіндіктерді шығару үшін символдық кескінде бұрын таңдалған контурларды қолдануымен ерекшеленеді. Жұмыс істеу принциптері, негізгі артықшылықтары мен кемшіліктері жоғарыда айтылғандармен бірдей.

      Бұл классификатор сәндік шрифтермен терілген мәтінді тануға арналған (мысалы, готика, ескі орыс және т.б. стильдендірілген). Ол әдеттегі мүмкіндік классификаторына қарағанда біршама баяу жұмыс істейді. Алғашқы үш нұсқа үшін контур классификаторының дәлдігі 99,30% , бірінші нұсқаға сәйкес дәлдік 95,10% .

      Функцияның дифференциалды классификаторы.
      «m» әрпі және «rn» комбинациясы сияқты бір-біріне ұқсас объектілерді ажыратуға арналған. Опциялардың біріне артықшылық беруге мүмкіндік беретін ақпарат болуы мүмкін кескіннің аймақтарын ғана талдайды. Сонымен, «m» және «rn» жағдайында жауаптың кілті болжамды әріптер жанасатын жердегі саңылаулардың болуы мен ені болып табылады.

      Индикативті дифференциалдық жіктеуіш (MPC) – индикативті жіктеуіштер жиынтығы. Бұл соңғылары ұқсас белгілердің әрбір жұбы үшін алынған стандарттармен жұмыс істейді. Барлық жұптар үшін сәйкес мүмкіндіктер жіктеуішіне ұқсас мүмкіндіктердің бірдей жинағы пайдаланылады. MPC жақсы өнімділігімен ерекшеленеді. Әртүрлі таңбаларды тану жүйелерінде қолданылады.

      Бұл классификаторды оқыту процесінде оқу деректер базасынан алынған суреттер талданады. Бұл жағдайда есептелген белгілердің мәндері N-өлшемді кеңістіктегі нүктенің координаталары ретінде түсіндіріледі. Тиісінше, екі түрлі таңба үшін бір-бірінен біршама қашықтықта орналасқан нүктелердің екі «бұлты» алынады. Нүктелердің жеткілікті саны туралы ақпарат жинақталғанда, гипержазықтық координаталары есептеледі. Ол кеңістікті «бұлттар» қарама-қарсы жағында және гипержазықтықтан шамамен бірдей қашықтықта болатындай етіп бөлуі керек.


      8-сурет. Жеңілдетілген геометриялық оқыту моделі
      дифференциалды классификатор.

      Гипержазықтықтың координаталарына сәйкес мәндер жиыны берілген таңбалар жұбына сілтеме ретінде тану үшін пайдаланылады. Кескінді талдау кезінде алынған мәндер үшін баға есептеледі, оның геометриялық мағынасы гипержазықтыққа қатысты нүктенің орналасуы болып табылады. Әрбір таңба жұбы үшін ерекшеліктер есептелетін аумақты мұқият таңдау қажет екенін ескеру қажет (кейде осы мақсаттар үшін әдеттегі белгілерге ұқсас белгілер мен контур классификаторларынан алынады). Осыған байланысты MPC стандарттарын құру өте көп уақытты қажет етеді және олардың жалпы саны өте шектеулі.

      MPC үшін кіріс деректері тек сурет емес, сонымен бірге танудың ерте сатысында қалыптасқан гипотезалардың тізімі болып табылады. Жіктеуіш қандай гипотезаның салмағын арттыратыны нүктенің қай жарты кеңістікте және гипержазықтықтан қандай қашықтықта болатынына байланысты. MPC өзі жаңа гипотезаларды ұсынбайды, бірақ тізімде ұсынылғандардың арасында стандарттары бар гипотеза жұптары болса, тізімдегілердің салмағын өзгертеді. Бұл жағдайда көпіршікті сұрыптау алгоритмі қолданылады. Гипотезалар тізімнің соңынан сұрыпталады және ықтималдығы азырақтармен салыстырылғаннан кейін дәйекті түрде «қалқымалы» болады, бұл ретте салмақты реттеу жүргізіледі. Мұндай алгоритм барлық жоғары гипотезалармен дифференциалды салыстыру оң нәтиже берген жағдайда ғана дұрыс гипотеза бірінші орында болатынына кепілдік береді.

      MPC дәлдігін жоғарыда сипатталған түрлер үшін қолданылатын әдіспен есептеу мүмкін емес, бірақ жанама түрде бағалануы мүмкін. 9-суретте ABBYY жүйелерінде қолданылатын танғыштың диаграммасы көрсетілген. Гипотезалардың алдын ала тізімін жылдам құру үшін растрлық (RC) және функциялық (PC) классификаторлары қолданылады. Ең жоғары салмағы Р 1 гипотезаның сенімділігі белгіленген шекті мән P шекті мәнінен аспаған жағдайда контур классификаторы (CC) бірқатар қосымша гипотезаларды алға тартады. Тізім сұрыптауды орындайтын MPC кірісіне беріледі. Сонымен күрделі схемажұмыс істейтін классификаторлар тану сапасы мен жылдамдығының арақатынасын оңтайландыруға мүмкіндік береді. Алғашқы үш опция үшін бұл танушының дәлдігі 99,87% , бірінші нұсқаға сәйкес дәлдік 99,26% .


      9-сурет. Тану алгоритмінің жалпыланған блок-схемасы (бірінші деңгей).

      Құрылымдық-дифференциалдық классификатор.
      Ол әзірленген және бастапқыда қолжазба мәтіндерді өңдеу үшін пайдаланылған. Белгі-дифференциалдық классификатор сияқты бұл жіктеуіш ұқсас объектілерді ажырату мәселесін шешеді. Құрылымдық дифференциалдық жіктеуіш (SDC) үшін кіріс деректері де гипотезалардың реттелген тізімі және символдық кескін болып табылады.

      Гипотезалардың әрбір жұбы үшін SDK сәйкес кескін фрагменттерін талдау арқылы мүмкіндік мәндерін есептейді. Әзірлеушілер алдын ала анықтаған мүмкіндіктер классификаторды оқыту кезінде жинақталған ақпарат негізінде таңбалардың әрбір нақты жұбын ажыратуға мүмкіндік береді. Бұл ретте әрбір таңба жұбына жеке мүмкіндіктер таңдалғанда тану дәлдігі айтарлықтай артады.

      Мысалы, ажырату үшін Cжәне Гклассификатор таңбаның төменгі оң жақ бұрышына сәйкес сурет аймағын талдайды. Бұл жұптың жеке белгілерінің бірі төмен бағытталған доғаның соңынан алшақтайтын екі көлденең сегменттің болуы (немесе болмауы) болады. Бұл доғаның өзі, оны көруге оңай, екі таңбада да бар.

      Құрылымдық-дифференциалды классификатор жоғарыда айтылғандардың барлығына қарағанда баяу жұмыс істейді, ал оны оқыту процесі MPC-ге қарағанда әлдеқайда көп уақытты қажет етеді. Сондықтан CDC негізінен ерекшелік дифференциалдық жіктеуішімен жақсы ажырата алмайтын таңбалар жұптарын өңдеу үшін қолданылады. KFOR маңызды артықшылығы оның өте маңызды жоғары дәлдік. MPC сияқты, бұл жіктеуіш тізім көпіршігі сұрыптау алгоритмін пайдаланады. Тығыздауды қоспағанда, символ пішінінің барлық дерлік кездейсоқ бұрмалануына төзімді.

      Ол тек ABBYY тану жүйелерінде қолданылады. Шығуға құрылымдық-дифференциалды классификаторды қосқанда танушының дәлдігі (9-сурет) дейін артады. 99,88% алғашқы үш опция үшін және дейін 99,69% бірінші нұсқаға сәйкес.

      Құрылымдық классификатор.
      ABBYY революциялық жаңалықтарының бірі. Ол бастапқыда қолмен жазылған мәтінді тану (ICR) үшін жасалған және пайдаланылған, содан кейін ол өңдеуге сәтті қолданылды.

Таңбаларды оптикалық тану (OCR) жүйелері басып шығарылған құжаттарды компьютерге автоматты түрде енгізуге арналған.

FineReader – көп қаріпті OCR жүйесі. Бұл кез келген қаріптегі мәтіндерді алдын ала дайындықсыз тануға мүмкіндік беретінін білдіреді. FineReader бағдарламасының ерекшелігі танудың жоғары дәлдігі және басып шығару ақауларына сезімталдықтың төмендігі болып табылады, оған «біртұтас мақсатты бейімделген тану» технологиясын қолдану арқылы қол жеткізіледі.

Құжатты компьютерге енгізу процесін екі кезеңге бөлуге болады:

1. Сканерлеу.Бірінші кезеңде сканер сіздің компьютеріңіздің «көзінің» рөлін атқарады: ол кескінді «қарайды» және оны компьютерге жібереді. Бұл жағдайда алынған сурет қара, ақ немесе түрлі-түсті нүктелер жиынтығынан басқа ештеңе емес, кез келген мәтіндік редакторда өңдеуге болмайтын сурет.

2. Тану. OCR жүйесі арқылы кескінді өңдеу.

Екінші қадамға толығырақ тоқталайық.

FineReader жүйесі арқылы кескінді өңдеу сканер арқылы жіберілген графикалық кескінді талдауды және әрбір таңбаны тануды қамтиды. Бет макетін талдау (тану аймақтарын, кестелерді, суреттерді анықтау, мәтіндегі жолдарды және жеке символдарды таңдау) және кескінді тану процестері бір-бірімен тығыз байланысты: блокты іздеу алгоритмі бетті дәлірек талдау үшін танылған мәтін туралы ақпаратты пайдаланады.

Жоғарыда айтылғандай, кескінді тану «тұтас мақсатты бейімделу тану» технологиясына негізделген.

Тұтастық- объект маңызды элементтердің және олардың арасындағы қатынастардың көмегімен тұтастай сипатталады.

Мақсаттылық- тану гипотезаларды алға қою және мақсатты түрде тексеру процесі ретінде құрылады.

бейімделушілік- OCR жүйесінің өздігінен білім алу мүмкіндігі.

Осы үш қағидаға сәйкес жүйе алдымен тану объектісі туралы гипотезаны (таңба, таңбаның бір бөлігі немесе бірнеше желімделген белгілер) алға тартады, содан кейін оны растайды немесе жоққа шығарады, барлық құрылымдық элементтерді дәйекті түрде анықтауға тырысады және олардың қарым-қатынастары. Әрбір құрылымдық элементте адамның қабылдауы үшін маңызды бөліктер бөлінеді: сегменттер, доғалар, сақиналар және нүктелер.

Бейімделу принципіне сүйене отырып, бағдарлама алғашқы сенімді түрде танылған кейіпкерлерде жинақталған оң тәжірибені пайдалана отырып, өзін «баптайды». Мақсатты іздеу және контекстік тану жыртылған және бұрмаланған кескіндерді тануға мүмкіндік беріп, жүйені жазу ақауларына төзімді етеді.

Жұмыстың нәтижесінде танылған мәтін FineReader терезесінде пайда болады, оны өңдеуге және өзіңізге ыңғайлы форматта сақтауға болады.

abbyy FineReader 7.0 жаңа мүмкіндіктер

Тану дәлдігі

Тану дәлдігі 25%-ға жақсарды. Күрделі макеттің құжаттары жақсырақ талданады және танылады, атап айтқанда, түсті фонда мәтін бөлімдері немесе шағын нүктелерден тұратын фон, күрделі кестелері бар құжаттар, оның ішінде ақ бөлгіштері бар кестелер, түсті ұяшықтары бар кестелер.

В жаңа нұсқасыағылшын және неміс тілдеріне арналған арнайы сөздіктер, соның ішінде ең жиі қолданылатын заң және медициналық терминдер қосылды. Бұл заңды және медициналық құжаттарды тануда сапалы жаңа деңгейге шығуға мүмкіндік береді.

Пішімді қолдауXMLжәне интеграцияMicrosoftкеңсе

FineReader-де жаңа сақтау пішімі бар - Microsoft Word XML. Енді Microsoft Office 2003 жаңа нұсқасын пайдаланушылар XML пішімінің барлық артықшылықтарын пайдалана отырып, FineReader таныған құжаттармен жұмыс істей алады!

Microsoft Word 2003 бағдарламасымен FineReader интеграциясы OCR өңдеуге арналған осы екі қолданбаның қуатты мүмкіндіктерін біріктіруге мүмкіндік береді. Түпнұсқа кескінмен Word бағдарламасына тасымалданған мәтінді тексеру кезінде тану нәтижелерін кәдімгі Word құралдары арқылы тексеріп, өңдей аласыз - Zoom FineReader терезесі тікелей Word терезесінде ашылады.

Жаңа мүмкіндіктер жұмысыңызды ыңғайлы етеді. Word құжатын жасау кезінде FineReader бағдарламасына қоңырау шалып, мәтінді тануға және оны құжаттың курсор орналасқан жеріне енгізуге болады, яғни бір құжатта әртүрлі қағаз көздерінен немесе PDF файлдарынан ақпаратты оңай жинауға болады. Тану нәтижелерін енді электрондық пошта арқылы қолдау көрсетілетін сақтау пішімдерінің кез келгенінде тіркеме ретінде жіберуге болады.

Жақсартылған жұмысFineReaderбіргеPDFқұжаттар

PDF файлын тану сапасы айтарлықтай жақсарды. Көптеген құжаттарда бет кескінінен басқа мәтін бар. FineReader 7.0 бұл мәтінді шығарып, оны нәтижелерді тексеру және тану сапасын жақсарту үшін пайдалана алады.

Енді FineReader өңдегішінің терезесінде танылған PDF құжаттарын өңдеуге болады: енгізілген өзгертулер бағдарлама қолдайтын кез келген PDF файлын сақтау режимдерінде сақталады.

FineReader PDF файлдары веб-жариялау үшін оңтайландырылған - пайдаланушы құжаттың қалған бөлігі жүктелген кезде бірінші беттердің мазмұнын көре алады.

Жаңа сақтау опциялары

Тану нәтижелерін сақтауға арналған жаңа пішім - MicrosoftPower Point- жаңа презентацияларды жылдам жасауға немесе барларын өңдеуге мүмкіндік береді.

Сақтау кезінде MicrosoftСөзалынған файлдың өлшемі кішірейді, әртүрлі бөлгіштермен құжат пішімдеуінің сақталуы жақсарды, кескіндерді сақтаудың жаңа опциялары пайда болды.

Сақтау кезінде күрделі орналасу элементтерін көрсету жақсартылған

v HTML, мысалы, төртбұрышты емес суреттерді мәтінмен орау. Сонымен қатар, HTML файлының өлшемі кішірейтілді, бұл Интернетте құжаттарды жариялау үшін өте маңызды.

Қолдану ыңғайлылығы

Жаңартылған интуитивті пайдаланушы интерфейсі.Кәсіби параметрлермен жұмыс істеу ыңғайлы болды. Өңдеу құралдар тақталары тану нәтижелерін көрсететін терезеге жылжытылды. FineReader терезелерін басқарудың ыңғайлы құралдары пайда болды: мысалы, терезелердің әрқайсысында ыңғайлы үлкейту дәрежесін орнатуға болады.

Жаңартылған практикалық нұсқаулықтану сапасын жақсарту жаңадан бастаған пайдаланушыға тез жұмыс істеуге көмектеседі, ал тәжірибелі пайдаланушыға - құжаттың кез келген түрімен жұмыс істеу кезінде тамаша нәтижелерге қол жеткізу үшін бағдарламаны конфигурациялаудың ең жақсы жолы.

Кәсіби мүмкіндіктер

Қазір нұсқада FineReaderкәсібиШығарылымбұрын нұсқаның пайдаланушыларына ғана қолжетімді болған мүмкіндіктер қолжетімді болды КорпоративтікШығарылым:

Жақсартылған тану штрих-кодтар, PDF-417 екі өлшемді штрих-кодты тануға қолдау көрсетіледі.

Кескінді бөлу құралы.Оның көмегімен кескіндерді аймақтарға бөліп, әр аймақты буманың жеке беті ретінде сақтауға болады. Бұл бірге сканерленген бірнеше визиткаларды, кітаптарды немесе PowerPoint презентация слайдтарының басып шығаруларын тануды ыңғайлы етеді.

Морфологиялық іздеу. FineReader бағдарламасында жасалған кез келген бума шағын дерекқор ретінде пайдаланылуы мүмкін

толық мәтінді морфологиялық іздеу мүмкіндігімен. Пакеттің барлық танылған беттерінің ішінде берілген сөздерді олардың барлық грамматикалық формаларында (сөздік қолдауы бар 34 тіл үшін) қамтитын беттерді таба аласыз.

Процессорды қолдауIntelтехнологиясын қолдануГипер- жіп тігу. Бұл технологияны пайдалану өнімділікті айтарлықтай арттыруға мүмкіндік береді, бұл тапсырма көптеген құжаттарды тану болса, әсіресе маңызды.

FineReader 7.0 басқа кәсіби мүмкіндіктерді де ұсынады:

Дуплексті сканерлеу.Басып шығарылған құжатты сканерлеу кезінде

осы опцияны қолдайтын сканерді пайдаланып екі жағындағы мәтінді орналастырсаңыз, сіз әр жақтың мазмұнының кескіндерін буманың екі бөлек беті ретінде аласыз. Құжаттың тек бір жағын сканерлеу керек болса, бұл опцияны өшіруге болады.

Пішімдегі графикалық файлдарды ашуға қолдау көрсетіледі JPEG 2000 және осы пішімге сақтау.

ЖелімүмкіндіктернұсқаларыFineReader корпоративтік басылымы

FineReader Corporate Edition бағдарламасын орнату және пайдаланудың барлық мүмкіндіктері туралы мәліметтер корпоративтік желіішкі қалтада табуға болатын Жүйелік әкімші нұсқаулығында сипатталған Әкімші" снұсқаулық FineReader орнатылған сервер қалтасы.

Алдыңғы нұсқамен салыстырғанда негізгі жақсартулар:

Серверден жұмыс станцияларына автоматты орнатудың негізгі әдістерін қолдау. FineReader Corporate Edition жергілікті желіде автоматты орнатудың барлық негізгі әдістерін қолдайды: Active Directory, Microsoft Systems Management Server немесе пәрмен жолын пайдалану арқылы.

Көп функциялы құрылғылармен, соның ішінде желілік құрылғылармен жұмыс істеу.Сканер, принтер, көшіру және факс функцияларын біріктіретін көп функциялы құрылғылар барған сайын танымал бола бастады. Енді әрбір қызметкерге сканер орнатудың қажеті жоқ - ұйымның барлық пайдаланушылары жұмыс істейтін бір қуатты құрылғы жеткілікті. FineReader жұмыс станциясына қосылған және желіге қосылған сияқты құрылғылармен жұмыс істей алады. Арнайы бағдарлама параметрлері пайдаланушыға жергілікті желідегі кез келген жерден немесе ftp серверінен суреттерді автоматты түрде ашуға және сканерлеуге және оларды тануға мүмкіндік береді.

Көлемді лицензиялаудың әртүрлі үлгілері.Бір мезгілде пайдаланушы лицензиялаудан басқа, басқа лицензиялау опциялары да қолжетімді болды. Сіз өзіңіздің қажеттіліктеріңізге сәйкес келетін опцияны таңдай аласыз.

Лицензияменеджер- онлайн лицензияны басқару құралы. В FineReaderКорпоративтікШығарылымлицензияны басқарудың ыңғайлы утилитасы (Лицензия менеджері) пайда болды. Ол жұмыс станцияларында FineReader пайдалануды бақылайды, жұмыс станциялары үшін лицензияларды сақтайды және жаңа лицензияларды қосады.

Technical Vision материалы

Баспа және қолжазба мәтінді электронды түрге аудару кезінде мәтіндік ақпаратты тану міндеті жұмыс процесін автоматтандыруға немесе қағазсыз технологияларды енгізуге бағытталған кез келген жобаның маңызды құрамдас бөліктерінің бірі болып табылады. Сонымен қатар, бұл тапсырма кескінді толығымен автоматты түрде талдаудың ең күрделі және ғылымды қажет ететін тапсырмаларының бірі болып табылады. Тіпті қолжазба мәтінді контекстен тыс оқитын адам да орташа есеппен $4$(\%) қате жібереді. Сонымен қатар, ең маңызды OCR қолданбаларында басып шығару сапасы нашар және бастапқы мәтінді цифрландыру кезінде де жоғарырақ тану сенімділігін (99 (\%) жоғары) қамтамасыз ету қажет.

Соңғы онжылдықтарда компьютерлік технологияның заманауи жетістіктерін пайдаланудың арқасында кескіндерді өңдеу мен үлгіні танудың жаңа әдістері әзірленді, соның арқасында FineReader сияқты негізгі талаптарды қанағаттандыратын өнеркәсіптік мәтінді тану жүйелерін құру мүмкін болды. жұмыс процесін автоматтандыру жүйелері. Дегенмен, осы саладағы әрбір жаңа қосымшаны жасау әлі де шығармашылық міндет болып табылады және байланысты қосымша зерттеулерді талап етеді нақты талаптарәрбір нақты тапсырманы сипаттайтын рұқсат, жылдамдық, тану сенімділігі және жады сыйымдылығы бойынша.

Кейіпкерді танумен байланысты типтік мәселелер.

Қолжазба және басып шығарылған таңбаларды танумен байланысты бірқатар маңызды мәселелер бар. Олардың ең маңыздылары мыналар:

  1. кейіпкерлерді жазудың әртүрлі формалары;
  2. кейіпкер бейнелерінің бұрмалануы;
  3. таңбаның өлшемі мен масштабының өзгеруі.

Әрбір жеке таңба әртүрлі стандартты қаріптермен жазылуы мүмкін, мысалы (Times, Gothic, Elite, Courier, Orator), сондай-ақ әртүрлі тілдерде қолданылатын көптеген стандартты емес қаріптермен. пәндік аймақтар. Бұл жағдайда әртүрлі белгілердің ұқсас контурлары болуы мүмкін. Мысалы, «U» және «V», «S» және «5», «Z» және «2», «G» және «6».

Мәтін таңбаларының цифрлық кескіндеріндегі бұрмаланулар келесі себептерден туындауы мүмкін:

  1. басып шығару шуы, атап айтқанда, басып шығармау (үздіксіз таңбалар жолындағы үзілістер), іргелес таңбалардың «бір-біріне жабысуы», таңбалардың жанындағы фондық дақтар мен жалған нүктелер және т.б.;
  2. символдардың немесе олардың бөліктерінің жолдағы күтілетін орнына қатысты орын ауыстыруы;
  3. таңбалардың көлбеуін өзгерту;
  4. кескінді «дөрекі» дискретпен цифрландыруға байланысты таңба пішінінің бұрмалануы;
  5. бейнекамерамен түсіру кезінде жарық әсерлері (көлеңкелер, жарықтандырулар және т.б.).

Бастапқы басып шығару масштабының әсері де маңызды. Кәдімгі терминологияда $10$, $12$ немесе $17$ масштабы $10$, $12$ немесе $17$ таңбаларының жолдың дюйміне сәйкес келетінін білдіреді. Сонымен қатар, мысалы, $10$ масштабының таңбалары әдетте $12$ масштабының белгісінен үлкенірек және кеңірек болады.

Оптикалық мәтінді тану (OCR) жүйесі сандық кескіндегі мәтін аймақтарын бөлектеп, олардағы жеке жолдарды, содан кейін жеке таңбаларды таңдап, осы таңбаларды тануы және сонымен бірге орналасу әдісіне, олардың арасындағы қашықтыққа қатысты сезімтал емес (тұрақты) болуы керек. сызықтар мен басқа параметрлерді басып шығару.

Мәтінді тану оптикалық жүйелерінің құрылымы.

OCR жүйелері аппараттық немесе бағдарламалық қамтамасыз етуді жүзеге асыруды қамтитын келесі негізгі блоктардан тұрады:

  1. мәтін элементтерін сегменттеу блогы (локализация және таңдау);
  2. кескінді алдын ала өңдеу блогы;
  3. ерекшеліктерді шығару бірлігі;
  4. кейіпкерлерді тану бірлігі;
  5. тану нәтижелерін кейінгі өңдеу блогы.

Бұл алгоритмдік блоктар дәйекті түрде орындалатын кескінді өңдеу және талдау қадамдарына сәйкес келеді.

Алдымен $\textit(мәтін аймақтары, жолдар)$ таңдалады және қосылған мәтін жолдары әрқайсысы бір мәтіндік таңбаға сәйкес келетін бөлек $\textit(таңбалық бос орындар)$-ға бөлінеді.

Бөлінгеннен кейін (кейде бөлуге дейін немесе бөлу кезінде) пикселдердің екі өлшемді матрицалары ретінде ұсынылған белгілер тегістеуге, шуды жою үшін сүзуге, өлшемді қалыпқа келтіруге және кейіннен пайдаланылатын генерациялаушы элементтерді немесе сандық мүмкіндіктерді бөлектеу үшін басқа түрлендірулерге ұшырайды. оларды тану..

Таңбаларды тану таңдалған сипаттамалық белгілерді анықтамалық және/немесе мәтін кейіпкерлерінің нақты мысалдары бойынша жүйені оқыту процесінде қалыптасатын және есте сақталатын белгілердің анықтамалық жиынтықтарымен және құрылымдарымен салыстыру процесінде орын алады.

Соңғы кезеңде семантикалық немесе контекстік ақпаратты өлшемдері бірдей жеке таңбаларды тану кезінде туындайтын түсініксіздіктерді шешу үшін де, қате оқылған сөздерді және тіпті сөз тіркестерін тұтастай түзету үшін де пайдалануға болады.

Мәтіндік белгілердің кескіндерін алдын ала өңдеу және сегменттеу әдістері.

Алдын ала өңдеу таңбаларды тану процесіндегі маңызды қадам болып табылады және сызық сегменттерін тегістеуге, қалыпқа келтіруге, сегменттеуге және жақындатуға мүмкіндік береді.

$\textit(тегістеу)$ бұл жағдайда кескінді өңдеу процедураларының үлкен тобына жатады, олардың көпшілігі осы кітаптың $3$ тарауында талқыланды. Атап айтқанда, $\textit(filling)$ және $\textit(thinning)$ морфологиялық операторлары кеңінен қолданылады. $\textit(Filling)$ кішігірім үзілістер мен бос орындарды жояды. $\textit(thinning)$ - көп пикселді аймақтың әрбір қадамында "жұқа сызықтың" тек бір пикселі салыстырылатын сызықты жұқарту процесі. Serra кеңейту және қысқарту операторларына негізделген мұндай операцияларды жүзеге асырудың морфологиялық жолы $3.2$ тарауында сипатталған.

Мұнда $\textit(fringe erasing)$ деп аталатын мәтін таңбаларының кескіндерін екілік сүзгілеудің арнайы алгоритмі де сипатталған. Бұл жерде «жақ» деп, біріншіден, оның өлшемін дұрыс анықтауға кедергі келтіретін, екіншіден, таңбаның кескінін бұрмалап, контурлық белгі арқылы одан әрі тануға кедергі болатын таңбаның шекараларының бұрмалануын айтамыз.

Құжат кескіндерінің $\textit(Геометриялық нормалау)$ жеке таңбалардың, сөздердің немесе сызықтардың қисаюын және қисаюын жоятын алгоритмдерді пайдалануды білдіреді, сонымен қатар таңбаларды сәйкесінше өңдегеннен кейін биіктігі мен енін қалыпқа келтіретін процедураларды қамтиды.

$\textit(segmentation)$ процедуралары құжат кескінін бөлек аймақтарға бөледі. Әдетте, бірінші қадам терілген мәтінді графикалық және қолмен жазылған жазбалардан бөлу болып табылады. Одан әрі оптикалық тану алгоритмдерінің көпшілігі мәтінді таңбаларға бөледі және оларды бөлек таниды. Бұл қарапайым шешім мәтіндегі таңбалар бір-біріне сәйкес келмесе, ең тиімді болып табылады. Таңбаларды біріктіру мәтін терілген қаріп түріне, принтердің нашар ажыратымдылығына немесе бұзылған таңбаларды жөндеу үшін таңдалған жоғары жарықтық деңгейіне байланысты болуы мүмкін.

Мәтін аймақтары мен жолдарын $\textit(words)$-ға қосымша бөлу, егер сөз мәтінді тану орындалатын бай нысан болса, пайдалы. Тану бірлігі бір таңба емес, тұтас сөз болатын мұндай тәсіл есте сақтауға және тануға жататын элементтердің көптігіне байланысты жүзеге асыру қиын, бірақ ол белгілі бір ерекше жағдайларда пайдалы және өте тиімді болуы мүмкін. кодтық сөздіктегі сөздердің жиынтығы мәнді.мәселенің шартымен шектелген.

$\textit(сызық сегменттерінің жуықтауы)$ астында біз бастапқы кескіннің пиксель тізбегіне тікелей жуықталатын шыңдар мен түзу жиектер жиыны түріндегі таңбаларды сипаттау графигін құрастыруды түсінеміз. Бұл жуықтау деректер көлемін азайту үшін жүзеге асырылады және кескіннің геометриясы мен топологиясын сипаттайтын белгілерді таңдау негізінде тану кезінде қолданылуы мүмкін.

Мәтінді автоматты түрде тану үшін пайдаланылатын таңба мүмкіндіктері.

Ерекшеліктерді шығару үлгіні танудағы ең қиын және маңызды тапсырмалардың бірі болып табылады деп саналады. Таңбаларды тану үшін әртүрлі мүмкіндіктер жүйелерінің үлкен саны пайдаланылуы мүмкін. Мәселе осы нақты тапсырмада таңбалардың бір класын барлық басқаларынан тиімді ажырататын мүмкіндіктерді таңдау болып табылады.

Төменде сандық кескіннен есептелген таңбаларды танудың бірнеше негізгі әдістері және олардың сәйкес мүмкіндіктер түрлері сипатталған.

Суреттер мен үлгілерді сәйкестендіру.

Бұл әдістер тобы сынақ және анықтамалық белгілердің кескіндерін тікелей салыстыруға негізделген. Бұл жағдайда сурет пен стандарттардың әрқайсысы арасындағы $\textit(ұқсастық дәрежесі)$ есептеледі. Сыналған символдық кескінді классификациялау жақын көрші әдісі бойынша жүргізіледі. Бұған дейін біз 4.2 бөлімінде кескінді салыстыру әдістерін, атап айтқанда корреляция және сәйкес кескінді сүзу әдістерін қарастырдық.

Практикалық тұрғыдан алғанда, бұл әдістерді енгізу оңай және көптеген коммерциялық OCR жүйелері оларды пайдаланады. Дегенмен, корреляциялық әдістерді «фронтальды» жүзеге асыру кезінде таңбаның сыртқы контурына түскен кішкентай қара нүктенің өзі тану нәтижесіне айтарлықтай әсер етуі мүмкін. Сондықтан, қол жеткізу үшін жақсы сапаүлгіні сәйкестендіруді пайдаланатын жүйелерде тану, суреттерді салыстырудың басқа, арнайы әдістері қолданылады.

Үлгіні сәйкестендіру алгоритмінің негізгі модификацияларының бірі логикалық ережелер жиынтығы ретінде үлгілерді көрсетуді пайдаланады. Мысалы, символ

0000000000
000aabb000
00aeeffb00
0ae0000fb0
0ae0ii0fb0
0ae0ii0fb0
0ae0000fb0
0cg0000hd0
0cg0jj0hd0
0cg0jj0hd0
0cg0000hd0
00cgghhd00
000ccdd000
0000000000

"нөл" деп танылуы мүмкін, егер: (кемінде $5$ "a" таңбалары "1" немесе кемінде $4$ таңбалары $\text("e") = \text("1")$) ЖӘНЕ (кем емес $5$ артық "b" таңбалары "1" немесе кемінде $4$ таңбалары $\text("f") = \text("1")$) ЖӘНЕ (кемінде $5$ "c" таңбалары "1" немесе кемінде $4$ таңба $\text("g") = \text("1")$) ЖӘНЕ (кемінде $5$ "d" таңбалары "1" немесе кемінде $4$ таңба $\text("h" ) = \text("1")$) ЖӘНЕ (кем дегенде $3$ «i» таңбалары «0») ЖӘНЕ («j» таңбаларының кемінде $3$ — «0»).

Статистикалық сипаттамалар.

Әдістердің бұл тобында нүктелердің әртүрлі статистикалық үлестірімдерін талдау негізінде белгілерді шығару жүзеге асырылады. Бұл топтың ең танымал әдістері $\textit(момент есептеу)$ $\textit(және қиылысулар саны)$ пайдаланады.

$\textit(Әртүрлі реттегі сәттер)$ таңдалған аумақтар мен нысандар үшін пішін дескрипторлары ретінде машиналық көрудің әртүрлі салаларында сәтті қолданылады (4.1-бөлімді қараңыз). Мәтін таңбаларын тану жағдайында кейбір таңдалған орталыққа қатысты «қара» нүктелер жиынының сәттерінің мәндері мүмкіндіктер жиынтығы ретінде пайдаланылады. Бұл түрдегі қолданбаларда ең жиі қолданылатындар сызық бойынша, орталық және нормаланған сәттер болып табылады.

Екі өлшемді массивте сақталған цифрлық кескін үшін $\textit(linear moments)$ келесі пішіндегі әрбір кескін нүктесінің координаттарының функциялары болып табылады: $$ m_(pq) =\sum\limits_(x=0) ^(M-1) (\ sum\limits_(y=0)^(N-1) (x^py^qf(x,y)) ) ) , $$ мұндағы $p,q \in \(0,1) ,\ldots ,\infty \) $; $M$ және $N$ кескіннің көлденең және тік өлшемдері, ал $f(x,y)$ кескіндегі $\langle x,y\rangle$ нүктесіндегі пикселдің жарықтылығы.

$\textit(Central Moments)$ — нүктенің таңбаның ауырлық центрінен қашықтығының функциясы: $$ m_(pq) =\sum\limits_(x=0)^(M-1) (\sum\ шектеулер_(y=0)^ (N-1) ((x-\mathop x\limits^\_)^p(y-\mathop y\limits^\_)^qf(x,y)) ) , $ $ мұндағы $x$ және $ y$ «сызықпен» - ауырлық центрінің координаттары.

$\textit(Нормаланған орталық моменттер)$ орталық моменттерді нөлдік ретті моменттерге бөлу арқылы алынады.

Жолдық моменттердің танудың төменгі деңгейін қамтамасыз ететінін атап өткен жөн. Орталық және нормаланған сәттер кескін түрлендірулеріне үлкен өзгермейтіндіктен қолайлырақ.

$\textit(қиылысу әдісі)$ мүмкіндіктерінде символ кескіні белгілі бір бұрыштармен сызылған таңдалған сызықтармен қанша рет және қалай қиылысатынын санау арқылы қалыптасады. Бұл әдіс таңбаларды жазудағы бұрмалануларға және шағын стилистикалық вариацияларға инвариантты болуына байланысты коммерциялық жүйелерде жиі қолданылады, сонымен қатар айтарлықтай жоғары жылдамдыққа ие және жоғары есептеу шығындарын қажет етпейді. Суретте. 1 $R$ символының эталондық кескінін, секанттық сызықтар жүйесін, сонымен қатар анықтамалық векторларға дейінгі қашықтықтардың векторын көрсетеді. Суретте. 2 нақты бейненің мысалын көрсетеді

$R$ символының анықтамалық кескіні үшін қиылысулар жиынын қалыптастыру мысалы

$R$ символының нақты бейнесі үшін қиылысулар жиынын қалыптастыру мысалы

$R$ символының анықтамалық кескіні үшін аймақ сипаттамасын қалыптастыру мысалы

$R$ символының нақты бейнесі үшін аймақ сипаттамасын қалыптастыру мысалы; $K = 0(,)387$

$R$ таңбасы. Түс (түс кірістірісін қараңыз) сонымен қатар жақын көршіге сәйкес жолды белгілейді.

$\textit(Аймақ әдісі)$ кадрдың ауданын бөлуді, таңбаны қоршауды, содан кейін әртүрлі аймақтардағы нүктелердің тығыздығын сипаттамалық белгілердің жиынтығы ретінде пайдалануды қамтиды. Суретте. 3 $R$ символының анықтамалық кескінін көрсетеді және күріш. 4 - құжаттың суретін сканерлеу арқылы алынған $R$ символының нақты бейнесі. Екі суретте аймақтарға бөлу, әрбір аймақтың пиксельдік салмағы, сондай-ақ анықтамалық белгілердің анықтамалық векторларына дейінгі қашықтықтардың векторы көрсетілген. Табылған ең жақын көршіге сәйкес сызық түспен белгіленген.

$\textit(adjacency matrices)$ әдісінде әртүрлі геометриялық комбинациялардағы «қара» және «ақ» элементтердің бірігіп пайда болу жиіліктері ерекшеліктер ретінде қарастырылады. $\textit(characteristic-loci)$ (характеристика-loci) әдісі мүмкіндік ретінде таңба фон аймағындағы әрбір жарық нүктесі үшін тік және көлденең векторлардың сызық сегменттерін қиылысатын уақыт санын пайдаланады.

Бұл топтың басқа да көптеген әдістері бар.

Интегралдық түрлендірулер.

Түрлендіруге негізделген заманауи тану технологияларының ішінде белгілердің Фурье дескрипторларын, сондай-ақ шекаралардың жиілік дескрипторларын қолданатын әдістер ерекшеленеді.

Фурье-Меллин түрлендірулерін қолданатын әдістердің артықшылығы олардың масштабтауға, айналдыруға және таңбаны ауыстыруға инвариантты болуымен байланысты. Бұл әдістердің негізгі кемшілігі шекаралардағы жарықтылықтың күрт секірулеріне сезімтал еместігі болып табылады, мысалы, кеңістіктік жиіліктер спектрі бойынша «O» таңбасын «Q» таңбасынан ажырату қиын және т.б. , таңба шекараларында шуды сүзу кезінде бұл сипат пайдалы болуы мүмкін.

Құрылымдық компоненттерді талдау.

Құрылымдық ерекшеліктер әдетте бөлектеу үшін пайдаланылады жалпы құрылымсурет. Олар таңбаның геометриялық және топологиялық қасиеттерін сипаттайды. Пошталық индекстерді автоматты түрде оқу мәселесіне қатысты мәтіндік таңбаны құрылымдық тану идеясын елестету оңай. Мұндай «трафарет» қаріптерде әрбір мүмкін сегмент-штрихтың орны алдын ала белгілі және бір таңба басқасынан тұтас штрихтың болуы немесе болмауынан кем емес ерекшеленеді. Ұқсас мәселе қарапайым сұйық кристалды көрсеткіштерді бақылау жағдайында туындайды. Мұндай жүйелерде құрылымдық компоненттерді таңдау бұрын белгілі трафарет элементтерін талдауға дейін қысқарады (анықталатын сегменттер жиынтығы).

Неғұрлым күрделі қаріптердің құрылымдық тану жүйелерінде штрихтар кескіннің келесі сипаттамалық белгілерін анықтау үшін де жиі қолданылады: $\textit(соңғы нүктелер)$, $\textit(қиылысу нүктелері)$, $\textit(жабық циклдар)$, сондай-ақ олардың таңбаны қамтитын кадрға қатысты орны. Мысалы, символды құрылымдық сипаттаудың келесі әдісін қарастырайық. Нақтыланған символы бар матрица тоғыз тікбұрышты аймаққа бөлінсін ($33$ торы түрінде), олардың әрқайсысына «А»-дан «I»-ге дейінгі әріптік код тағайындалады. Кейіпкер штрихтар жиынтығы ретінде қарастырылады. Бұл жағдайда таңбаның контурындағы екі нүктені байланыстыратын штрих сызық (L) немесе қисық (C) болуы мүмкін. Инсульт $\textit(сегмент (доға))$ $\textit(қисық)$ болып саналады, егер оның нүктелері келесі өрнекті қанағаттандырса $$ \left| \frac (1)(n) \sum\limits_(i=1)^n \frac (ax_i +by_i +c)(\sqrt(a^2+b^2)) \right| >0(,)69, $$ дюйм әйтпесеол $\textit(түзу сызық сегменті)$ болып саналады. Бұл формулада $\langle x_(i),y_(i)\rangle$ штрихқа жататын нүкте; $ax+by+c=0$ – штрих ұштары арқылы өтетін түзудің теңдеуі, $0(,)69$ коэффициенті эмпирикалық жолмен алынды. Одан әрі символды оның сегменттері мен доғаларының жиыны арқылы сипаттауға болады. Мысалы, \("ALC", "ACD"\) жазбасы "А" аймағынан "С" аймағына өтетін түзу, ал "А" аймағынан "D" аймағына өтетін қисық, тиісінше.

Құрылымдық тану әдістерінің басты артықшылығы олардың кейіпкердің шағын бұрышпен жылжуына, масштабталуына және айналуына, сондай-ақ ықтимал бұрмалануларға және әртүрлі стильдік вариацияларға және қаріптің шамалы бұрмалануына төзімділігімен анықталады.

Кейіпкерлердің классификациясы.

В қолданыстағы жүйелер OCR әр түрлі $\textit(classification)$ алгоритмдерін пайдаланады, яғни әртүрлі сыныптарға мүмкіндіктерді тағайындайды. Олар қабылданған мүмкіндіктер жиынына және оларға қолданылатын жіктеу стратегиясына байланысты айтарлықтай ерекшеленеді.

Таңбалардың ерекшелік классификациясы үшін, ең алдымен, танылған таңбалардың әрқайсысы үшін анықтамалық белгілер векторларының жиынын қалыптастыру қажет. Ол үшін $\textit(training)$ кезеңінде оператор немесе әзірлеуші ​​таңба мәнінің индикаторымен сүйемелдеуімен OCR жүйесіне таңбалар контурының үлгілерінің үлкен санын енгізеді. Әрбір үлгі үшін жүйе мүмкіндіктерді шығарып, оларды сәйкес $\textit(мүмкіндік векторы)$ ретінде сақтайды. Таңбаны сипаттайтын мүмкіндік векторларының жиыны $\textit(class)$ немесе $\textit(cluster)$ деп аталады.

OCR жүйесінің жұмыс істеуі кезінде бұрын қалыптасқан білім қорын кеңейту қажет болуы мүмкін. Осыған байланысты кейбір жүйелерде $\textit(қосымша оқыту)$ мүмкіндігі бар нақты режимуақыт.

Сынақ символының кескінін жүйеге ұсыну сәтінде орындалатын $\textit(classification procedure)$ немесе $\textit(recognition)$ тапсырмасы бұрын қалыптасқан класстардың қайсысы үшін мүмкіндік векторы алынғанын анықтау болып табылады. берілген таңба тиесілі. Классификация алгоритмдері қарастырылатын таңба белгілерінің жиынының класстардың әрқайсысына жақындық дәрежесін анықтауға негізделген. Алынған нәтиженің ықтималдығы таңдалған мүмкіндік кеңістігінің метрикасына байланысты. Ең танымал кеңістік метрикасы дәстүрлі евклидтік қашықтық болып табылады

$$ D_j^E = \sqrt(\sum\limits_(i=1)^N ((F_(ji)^L -F_i^l)^2)), $$ мұнда $F_(ji)^L$ - $j$-th анықтамалық векторынан $i$-th ерекшелігі; $F_i^l $ - сыналатын таңба кескінінің $i$-th атрибуты.

$\textit(nearest next)$ әдісі бойынша жіктеу кезінде мүмкіндік векторы тексерілген таңбаның мүмкіндік векторына ең жақын сыныпқа таңба тағайындалады. Қолданылатын мүмкіндіктер мен сыныптар санының ұлғаюымен мұндай жүйелердегі есептеулердің құны өсетінін ескеру қажет.

Ұқсастық метрикасын жақсарту әдістерінің бірі мүмкіндіктердің анықтамалық жиынын статистикалық талдауға негізделген. Бұл ретте классификация процесінде неғұрлым сенімді мүмкіндіктерге жоғары басымдық беріледі: $$ D_j^E =\sqrt(\sum\limits_(i=1)^N (w_i (F_(ji)^L -F_i^l) )^2)), $$

Мұндағы $w_(i)$ - $i$-шы мүмкіндіктің салмағы.

Ықтималдық мәтіндік модель туралы априорлық ақпаратты білуді талап ететін тағы бір жіктеу әдісі Бейес формуласын қолдануға негізделген. Байес ережесінен $\lambda $ ықтималдық қатынасы қатынастан үлкен болса, қарастырылатын мүмкіндік векторы "$j$" класына жататыны шығады. алдын ала ықтималдық$j$ класының $i$ класының априорлық ықтималдығына.

Тану нәтижелерін кейінгі өңдеу.

Критикалық OCR жүйелерінде жеке таңбаларды тану арқылы алынған тану сапасы жеткілікті деп саналмайды. Мұндай жүйелерде контекстік ақпаратты пайдалану да қажет. Контекстік ақпаратты пайдалану қателерді табуға ғана емес, оларды түзетуге де мүмкіндік береді.

Ғаламдық және жергілікті позициялық диаграммаларды, триграммаларды, $n$-граммаларды, сөздіктерді және осы әдістердің әртүрлі комбинацияларын қолданатын көптеген OCR қолданбалары бар. Осы мәселені шешудің екі тәсілін қарастырайық: $\textit(dictionary)$ және $\textit(екілік матрицалар жиынтығы)$, сөздік құрылымын жуықтап.

Сөздік әдістері жеке кейіпкерлерді жіктеудегі қателерді анықтау және түзетуде ең тиімді әдістердің бірі екендігі дәлелденді. Бұл жағдайда белгілі бір сөздің барлық таңбаларын танығаннан кейін сөздікте қате болуы мүмкін екенін ескере отырып, осы сөзді іздеуде іздестіріледі. Егер сөз сөздікте табылса, бұл қателер жоқ дегенді білдірмейді. Қате сөздіктегі бір сөзді сөздіктегі басқа сөзге айналдыруы мүмкін. Мұндай қатені семантикалық контекстік ақпаратты қолданбай анықтау мүмкін емес: тек ол емленің дұрыстығын растай алады. Егер сөз сөздікте жоқ болса, онда сөзді тану қатесі бар деп есептеледі. Қатені түзету үшін олар мұндай сөзді сөздіктегі ең ұқсас сөзбен ауыстыруға жүгінеді. Сөздікте бірнеше лайықты ауыстыру үміткерлері табылса, түзету орындалмайды. Бұл жағдайда кейбір жүйелердің интерфейсі сөзді пайдаланушыға көрсетуге және ұсынуға мүмкіндік береді әртүрлі опцияларқатені түзету, оны елемеу және жалғастыру немесе сөзді сөздікке қосу сияқты шешімдер. Сөздікті пайдаланудың негізгі кемшілігі қателерді түзету үшін қолданылатын іздеу және салыстыру операциялары сөздік көлемінің ұлғаюына байланысты үлкен есептеу шығындарын талап етеді.

Кейбір әзірлеушілер сөздікті пайдаланумен байланысты қиындықтарды жеңу үшін сөздің өзінен сөздің құрылымы туралы ақпаратты алуға тырысады. Мұндай ақпарат мәтіндегі $\textit(n-grams)$ (таңбалар тізбегі, мысалы, әріптердің жұптары немесе үштіктері) ықтималдығының дәрежесі туралы айтады, олар да ғаламдық түрде орналасуы, жергілікті түрде орналасуы немесе мүлде орналаспауы мүмкін. . Мысалы, позициясы жоқ әріптер жұбының сенімділік деңгейін элементі 1-ге тең екілік матрица ретінде көрсетуге болады, егер сәйкес әріптер жұбы сөздікте қандай да бір сөзде болған жағдайда ғана. $D_(ij)$ позициялық екілік диаграммасы екілік матрица болып табылады, ол әріптер жұбының қайсысының $\langle i,j\rangle$ орнында орын алудың нөлдік емес ықтималдығы бар екенін анықтайды. Барлық позициялық диаграммалар жиыны позициялардың әрбір жұбы үшін екілік матрицаларды қамтиды.

Мақала ұнады ма? Достарыңызбен бөлісіңіз!
Бұл мақала пайдалы болды ма?
Иә
Жоқ
Пікіріңізге рахмет!
Бірдеңе дұрыс болмады және сіздің дауысыңыз есептелмеді.
Рақмет сізге. Сіздің хабарламаңыз жіберілді
Мәтіннен қате таптыңыз ба?
Оны таңдаңыз, басыңыз Ctrl+Enterжәне біз оны түзетеміз!