Ca în orice domeniu de activitate umană, în lumea de produse software de multe ori a constatat că, după un debut strălucitor mor treptat. Cititorul în sine este ușor de a găsi exemple în cazul în care noi Equip

Asa ca am motivat cu privire la un deceniu: oportunități de FineReader a trebuit să studieze în detaliu la începutul două miime, despre versiunea sa a șaptea. Apoi a fost necesar pentru a digitaliza o carte întreagă, am cumpărat chiar și o copie a oficiale Pro-program și a fost dezamăgit: acest proces a cerut o cantitate de muncă manuală, care, de fapt, viteza și calitatea recunoașterii aproape nu a jucat nici un rol.
Un cuplu de ani în urmă a trebuit să se acomodeze cu recunoașterea din nou, am făcut cunoștință cu cele mai recente versiuni și admirat cu adevărat activitatea desfășurată în activitatea ABBYY. Nu numai ca este programul pe zbor „mâncat» PDF și DjVu, în cazul în care acestea sunt digitizor leneș plasat un strat al imaginii - este acum învățat să recunoască tabel, marchează numerele de pagină ca anteturile și subsolurile fără a le deranja cu textul de bază, și chiar (nu-l cred! ) recunosc note de subsol, și anume ca note de subsol. Ca rezultat, pregătirea noii versiuni electronică a aceleiași cărți de 350 de pagini, cu aducerea până la o posibilă ideală, a luat doar patru zile (în loc de aproape trei săptămâni în urmă cu un deceniu!). Acum am fi putut face chiar mai repede - o mulțime de timp a fost petrecut pe învățarea unor noi modalități de lucru cu textul recunoscut.
Nu cere imposibilul programului, cu toate acestea, observăm, de asemenea, neajunsurile și omisiunile în discutabile speranța că dezvoltatorii vor plăti pentru această publicație atenția - momentul scrierii acestui articol, am raportat cu privire la deficiențele identificate în cadrul companiei, și am fost promis că „totul se va lua în considerare.“
Programul ABBYY FineReader oferă o mulțime de oportunități pentru rezultate de digitalizare în diverse formate și pentru diferite scopuri. Colaționează toate acestea bine, noi nici măcar nu va încerca - nu, nu este suficient pentru o întreagă carte, cea a unui articol de revistă. Deoarece se concentreze pe una, dar este foarte popular chiar acum sarcina: pregătirea versiunilor electronice ale cărților de hârtie și broșuri. Această sarcină acoperă destul de o mulțime de funcții ale programului să o întâlnească în detaliu.
În primul rând, că vrem să obținem un rezultat. În ciuda proliferării mobile „e-cititori“ (recent, din păcate, se pierde rapid cota de piață în favoarea plăcilor universale) ale căror producători au inventat o mulțime de formate de e-book, formatul de bază pentru ei este bun PDF vechi. Acesta vă permite să obțineți o copie a autenichnuyu carte de hârtie, adăugând la ea tradiționale facilități „electronice“, cum ar fi căutare full-text sau hyperlink-uri (inclusiv un tabel interactiv cuprins). Concurența PDF poate crea un Djvu format mai compact, dar este mai puțin frecvente și tradiționale de e-cărți în acest format conțin doar un strat de imagine. Programul FineReader, așa cum am spus, poate percepe DjVu ca sursă pentru recunoașterea ulterioară (ocupa locul de imagini).
Dar, din moment ce „camera reală lectură» format PDF percep rău (pagini în acest format este aproape imposibil de a corecta la scară pentru diferite dimensiuni de font și ecran), interesul este posibilitatea de a salva, de asemenea documente recunoscute în formate populare de cititoare electronice: în FineReader sunt reprezentate EPUB și FB2. Consistently ia în considerare ceea ce ar trebui să fie luate măsuri și ce capcane pot fi întâlnite de-a lungul drum.
În principiu, FineReader permite originale să susțină din nou aparatul de fotografiat, dar eu nu recomanda această metodă pentru documente mari: lucru manual privind designul final, care este suficient deja, este obligat să fie chiar mai mare decât în cazul unui scanner normal. Originalele pot fi color sau alb-negru, nu contează - FineReader 12 convertește implicit toate imaginile în tonuri de gri. Dacă doriți să reproducă ilustrații color, ar trebui să verificați în prealabil dacă modul de culoare este activat, în caz contrar informațiile de culoare se pierde atunci când se scanează de însăși FineReader. Versiunea 12 a butonului de pe modul de culoare este setat direct pe bara de instrumente.
Nu este interzis să facă o pre-set de pagini de scanare sub formă de fișiere imagine numerotate secvențial, în orice format comun. Diferența este că, atunci când scanați din programul FineReader se va stabili modul optim și când scanați dintr-un alt program va trebui să aibă grijă de tine. În principiu, doar o singură condiție: pentru pagini de carte obișnuite ar trebui să fie stabilite la cel de scanare rezoluție de 300 dpi (rezoluție mai mare decât această valoare, de asemenea, nu este necesar - numai fișierele vor fi foarte grele în mărime). Cu toate acestea, există cazuri în care o prelucrare manuală preliminară scanează, mai degrabă decât scanarea efectivă a programului. De exemplu, ia în considerare o situație în care doriți să digitiza un document în original, care este a cincea-a șasea dactilografiat copie pe hârtie îngălbenită.
fragment EXEMPLU unui astfel de text este prezentat în Fig. 1, în partea stângă. Timp de mulți ani, această bucată de hârtie este un test pentru software-ul meu de recunoaștere. Dacă te uiți la un cuvânt „secret“ mai mare în partea de jos, devine clar de ce FineReader tot ce a ratat: Calitatea imprimării este de așa natură încât, de fapt, înainte de a ne versiune de test CAPTCHA, nu este disponibil pentru recunoaștere. Trebuie să spun că de la venirea peste OCR-doar programe am FineReader prezentat cel puțin unele rezultat pentru acest text, și este doar în versiunile recente - Zece ani în urmă, el, de asemenea, a dat un set solid de accidente vasculare cerebrale nerecunoscute și curbate.
Fig. 1. Imaginea de șase exemplare ale copiei dactilografiată textul de mai jos - rezultatele recunoașterii sale în versiunea 12 a FineReader. Stânga - originalul neprocesat, dreapta - el a trecut prin îmbunătățirea filtrului de ascuțire Unsharp Mask, de reducere a zgomotului și a contrastului. În partea de jos sunt prezentate pentru claritate, fragmente mărite de probleme cuvinte, în ambele cazuri.
A șasea copie dactilografiată, desigur, un caz extrem - Sper că nu trebuie să se încurce cu viață. O pagină normală carte FineReader să recunoască versiunile moderne fara probleme - trebuie doar să se joace cu erorile de scriere din cauza defectelor originale, și, cel mai important, cu formatare.

Fig. 2. Limbile de recunoaștere a panoului de selecție
Dacă documentul recunoscut are o structură complexă, Ajutorul este recomandat înainte de scanarea de recunoaștere automată dezactivare (Tools> Options .... Cotorul Scan / Deschideți debifează elementul este adăugat în mod automat să se ocupe de pagina). Apoi, puteți specifica manual locația, tipul și scopul zonelor pentru fiecare pagină în mod individual. Pentru sarcina noastră - recunoașterea întregii cărți - această tehnică este practic imposibil de utilizat: ușor după faptul de a edita pagini individuale recunoscute în mod incorect. Pentru monitorizarea rezultatelor de recunoaștere pentru a vedea textul, mai mult sau mai puțin apropiat de atunci ce va fi în fișierul de ieșire, selectați opțiunea dorită din lista verticală hârtiile (în cazul nostru va fi o copie exactă).
La un nivel minim, va trebui să editați manual toate paginile cu ilustrații, în special în cazul în care acestea sunt diagrame sau desene cu inscripții. FineReader va încerca în mod inevitabil, pentru a le sparge în jos, în domeniul diferitelor tipuri, și aici, fără modificările manuale nu pot face. Astfel de fragmente de text, ca o formulă matematică, este mai ușor să aloce separat și să declare imagini (în special scrise de mână inserturi formule aspect tipic pentru perioada de pre-calculator a originalelor). Uneori este recomandabil să suprapunem zone de text pe imagine - acestea vor fi recunoscute, dar cu o alegere corespunzătoare a rezultatului final (a se vedea mai jos) Se va arata ca originalul.. Uneori, în acest caz ar trebui să selectați imaginea din regiune, cum ar fi imaginea de fundal. și asigurați-vă că textul a fost recunoscut în mod corect.
Cărțile sunt pagini destul de comune cu ilustrații mari, desfășurate pe toate paginile rămase ale cărții. Pentru toate sale „» intelectual, FineReader singur nu este capabil să recunoască textul, în cazul în care este implementat așa cum este prezentat în Fig. 3. Pentru a recunoașterii a fost corectă, evidențiați textul și partea de jos a panoului Proprietăți, selectați din lista derulantă poziția de orientare dorită (fig. 3, acesta indică indicatorul).

Fig. 3. O pagină cu o ilustrație și semnătura desfășurată în raport cu celelalte pagini ale cărții
Rețineți că FineReader are mai multe opțiuni pentru documente speciale complexe cazuri de editare, dar pentru a le opri avem nu există nici un fel. Se concentreze doar pe un singur punct esențial este în cazul cărților de scanare neplăcute dacă numerele de pagină din PDF-fișier, și în carte nu va mai fi la fel. Dacă nu există nici o modalitate de a le aduce în linie renumerotarea (a se vedea. Renumeroteaza fereastra pagina meniu contextual pagini), puteți face numerele de pagină originale nu afișează fișierul rezultat. Pentru a face acest lucru, verificați dacă toate numerele paginilor recunoscute ca antete și note de subsol (și, dacă este necesar, pentru a le aloca într-o zonă de text separat, care în proprietățile panoului pentru a da numire subsol - nu uitați să înceapă recunoașterea paginii sau zonele relevante din nou), și apoi din meniul Instrumente> Opțiuni> Salvare> un PDF Păstrare debifează subsolurile.
Despre ce să facă, dacă doriți, în fișierul rezultat pentru a crea un tabel corectă a conținutului, a se vedea bara laterală.
Conținutul în e-book
În mod implicit, pagina de proprietăți (Instrumente> Opțiuni> Salvare> un PDF) este verificat în etapa Creați un cuprins (vezi. Fig. 5 în text). Aici sunt doar fără acțiuni suplimentare pentru a crea în mod corect eșua: FineReader învățat atât de multe lucruri, dar recunosc nivelurile corecte de direcție dincolo de el. Și nu numai niveluri: uneori este nevoie în spatele textului titlurile doar dedicat sau mare. Ca urmare, în modul de recunoaștere automată, în loc de un tabel de cuprins va primi în mod inevitabil, terci de ovăz perfectă. Trebuie să fie eliminați marca și de a face fără un tabel de cuprins, sau pentru a aduce fișierul rezultat în programe externe, precum și de a găsi un instrument convenabil și ieftin pentru editare PDF - problema nu este una dintre cele care sunt rezolvate cu polpinka. Trebuie remarcat faptul că problema pentru alte formate de e-book (aka FB2 și EPUB), chiar mai acută, pentru că există întotdeauna un tabel de cuprins este generat fără instrucțiuni suplimentare, și apoi trebuie să-l aducă oricum. Deși este mai ușor decât în cazul PDF - FB2 aranjate nu mai complicată decât HTML, și pot fi editate cu ușurință manual.
Problema este complicată de faptul că a evidenția doar textul și să-l declare stilul pentru titlul nivelul dorit nu funcționează - stilul este stabilit, dar fișierul rezultat este în continuare totul va fi ca înainte. După unele discuții cu reprezentanții ABBYY, care au recunoscut sincer că această caracteristică nu este încă adus în minte a fost stabilit algoritmul de lucru al acțiunilor, care include următoarele etape:
- pe zonele corecte pagina Reformata Highlight textului, astfel încât titlu apărut într-o zonă de text separat (a se vedea fereastra de imagine în Figura 4 din stânga ..);
- să recunoască din nou primul câmp de text, în ultimă instanță, separat - bara de titlu (prin meniul contextual al zonei selectate, faceți clic pe Recunoaștere și nu prin recunoașterea întregii pagini.!);
- pune cursorul în text antet (fără a selecta textul!) Și setați nivelul de poziție stilul dorit printr-unul din partea de sus dropdowns stil sau partea de jos a ferestrei cu textul (a se vedea figura 4 ..). Dacă este necesar, dimpotrivă, pentru a elimina antetul în plus, trebuie să vă mutați doar cursorul în această zonă (repet: nu subliniind textul) și stabilit pentru el unul dintre stilurile de text de bază.

Fig. 4. Setați stilul pentru titlul o anumită zonă de text
Prin urmare, ar trebui să treacă prin întregul text al cărții: nu se poate concentra doar asupra unor puncte importante, deoarece în caz contrar indicele rezultat va fi o mulțime de gunoi.
Înainte de a salva rezultatele în format PDF, aveți nevoie de aceleași meniul Instrumente> Opțiuni> Salvare> un PDF stabilit rezultatul final dorit. Pentru opțiuni fit autenichnoy copie de hârtie text original peste imaginea paginii sau un text sub imaginea paginii (fig. 4). În cazul în care originalul este foarte rău, și de a face copie autenichnuyu nu are nici un sens, atunci puteți selecta textul și doar imagini. Că, în acest din urmă caz să aducă o copie a originalului (în modul de reproducere), este important să se stabilească dimensiunea hârtiei. Pentru cărțile pot fi uneori limitată la formatul standard A5, iar pentru ajustarea mai precisă este necesară din cauza listei drop-down, alege fie să utilizați dimensiunea originală. sau prin cel mai de jos punct al Custom Paper Size ... pentru a stabili exact dimensiunile în milimetri.

Fig. 5. Stabilirea rezultatului recunoașterii finale în proprietățile unui fișier PDF-