Digitizarea textelor tipărite

Digitizarea documentelor de hârtie - o traducere a imaginii obținute este, de obicei, printr-un scaner sau aparat de fotografiat, în orice format electronic.

Acest ghid va evidenția orice metode practice pentru a capta la dispoziție o gamă largă de utilizatori de PC-uri.

„E-cărți“ - este stocată într-un text de calculator, eliberat în forma specifică cărțile tipărite. De exemplu, cărți electronice sunt de obicei împărțite conținutul text în paginile numerotate equidimensional; tipografie lor corespunde cu presa scrisă. Este important să facem distincția imediat scanate și eBooks vorstannye.

Producția de carte electronică vector de cărți de hârtie, prin recunoașterea de calculator (OCR) se datorează enorm forței de muncă intensivă, în special în cazul în care cartea conține multe ilustrații, grafice, diagrame, tabele sau formule, deoarece starea actuală a software-ului de detectare a senzorului face formatarea toate acestea de mână, și de multe ori - corect erori OCR. Prin urmare, pentru aceste cărți este mult mai ușor de a face exact raster, vector și nu versiunea electronică. Chiar și într-un pur cărți de text - fără ilustrații, tabele sau formule - recunoaștere automată oferă uneori erori trudnovyyavimye. Gatiti mult mai rapid de carte electronică de baleiaj, cu atât mai mult că tehnologia modernă de compresie a imaginii permite fișierelor dimensiune perfect acceptabil. De exemplu, dimensiunea medie a cărților bitmap, inclusiv textul recunoscut - 13 KB pagina. Acest lucru înseamnă că scanarea unei cărți cu 400 de pagini, în medie, durează aproximativ 5 MB (cifrele sunt pentru formatul DjVu). Pe un suport DVD standard (4.3 GB) poate stoca aproximativ 900 de astfel de cărți.

Unele programe vă permit să facă un fișier PDF în care toate materialele de rău recunoscut este conținut sub formă de imagini scanate, și text este un vector. Aceste fișiere PDF, dar pierde mult din cărți pur bitmap și aspectul (font vector de discrepanță și fragmente ale imaginii paginii), și dimensiunea fișierului.

Aspecte juridice ale dreptului

Va invitam sa cunoasteti si respecte legile țării în care locuiți, și digitiza materiale de imprimare care nu sunt obiecte ale drepturilor de proprietate. Această digitizarea manuală a cărților este de natură pur tehnică și nu poate fi considerată ca o declarație cu privire la încălcarea legii. Link-uri către sursele online sunt disponibile numai pentru a familiariza cu tehnica de prelevare a probelor.

DjVu și PDF Editare

1. Pentru a determina rezoluția raster, situată în interiorul PDF finit, puteți utiliza funcționalitatea Adobe Acrobat (descrie versiunea 5.0). Extrage imagini din fișier pdf: File -> Export -> Extrasul Imagini As -> TIFF Fișiere. În secțiunea Setări selectați colorspace: determina în mod automat și Rezoluție: determina în mod automat.

Imaginile salvate deschide în Irfan View și faceți clic pe «Informații Image». Acesta funcționează pentru majoritatea fișiere PDF. Cu câteva excepții. Uneori, într-adevăr, veni peste fișiere care nu se pretează la un astfel de tratament (Acrobat returnează o eroare, cum ar fi: XObject nu poate fi extras).

2. Pentru a seta rezoluția de raster care va fi obținut în format pdf imprima imaginea de pe imprimantă virtuală Distiller (descris la 5.0), selectați presetarea din proprietățile imprimantei «Screen» (Printer -> Properties -> General - Preferințe imprimare -> Adobe PDF - Setări de conversie: ecran). Puțin mai târziu, în același dialog, faceți clic pe Editare setări de conversie, fila de compresie, debifa toate Sub-eșantionare medie. Apoi, rezoluția imaginii nu se va schimba. (Sau, pentru a pune în 600 dpi. Apoi, numai imaginile cu rezoluție mai mare va fi redusă la 600 dpi.) Presetarea este salvată sub un nume nou, de exemplu, Screen-fullresolution.

Noi ilustrează raportul dintre dimensiunea fișierelor PDF și DjVu. Traduceri în DjVu format tipic de publicare articol scanat al revistei Physical Review (au de înaltă rezoluție și scanare de bună calitate) reduce dimensiunea de editare fișiere PDF de 10 ori. În multe cazuri, traducerea vectorului PDF la DjVu, chiar și cu o calitate a imaginii de înaltă și păstrarea textului și navigarea, încă mai dă dimensiunea fișierului Djvu mai mică decât PDF-ul original. De multe ori se referă la fișiere create de programe cum ar fi Quark Express, Acrobat Distiller (dar nu la fișierele create folosind Latex / Ghostscript). Uneori, fișiere vectoriale PDF conțin mai multe formule sub formă de raster plug-in; aceste fișiere sunt reduse de 3-4 ori în traducerea în DjVu.

Că format tehnic de merit Djvu și capacitatea de a automatiza fișiere DjVu de prelucrare a condus la utilizarea pe scară largă a format DjVu în rândul pasionaților de a crea e-carti raster, cea mai mare parte științifice și tehnice.

Dispozitive de scanare Editare

Pentru a obține o imagine a documentului poate fi un scaner sau aparat de fotografiat. diferențele calitative dintre ele, dar, de asemenea, scanere și aparate foto au avantajele și dezavantajele lor.

articole similare