Cum de a crea un dicționar al limbii române cu un calculator și fără

Cum de a crea un dicționar al limbii române cu un calculator și fără

Alexander Kostinsky. Tehnologia digitală a schimbat drastic in mai multe sectoare ale activității umane. Unele dintre ele sunt vizibile, iar schimbările sunt evidente, iar unele nu. Astăzi ne vom concentra pe crearea unui dicționar de hârtie convențională, exemplul dicționare în limba română. Aici, într-o regiune cu o tradiție de mii de ani, au loc transformări prea dramatic. În mii de ori extins baza dicționar este redusă cu ordinea pregătirii dicționarului și prețul său redus drastic.

Primul Dmitry Dmitriev va vorbi despre tehnologia tradițională de dicționare.

Dmitry Dmitriev. Eu lucrez la Institutul de Studii lingvistice, Academia Rusă de Științe din Sankt Petersburg, cunoscut anterior sub numele de Institutul de Lingvistică. Este aici că este cel mai mare dosar al limbii române moderne, care a început să apară în secolul al 19-lea și continuă să crească în ziua de azi. Avem mai multe etaje pline cu dulapuri mari, care sunt introduse în cutii.

Alexander Kostinsky. Word pe fiecare card?

Dmitry Dmitriev. Word pe fiecare carte și o citare. Multe generații de oameni citind o carte, a scris piesele lor preferate.

Alexander Kostinsky. Oamenii din instituția dumneavoastră?

Dmitry Dmitriev. Nu numai. Munca și o mulțime de voluntari. Un om citind o carte, a scris ceva și a subliniat cuvinte care, în opinia sa, ar trebui să fie inclus în dicționar. Astfel, format depozit național. O astfel de depozit, desigur, există în Anglia, Germania și alte țări.

Alexander Kostinsky. Și cât de multe dintre aceste carduri au acumulat?

Dmitry Dmitriev. Ele sunt acum aproximativ șase milioane de euro. Astăzi, sarcina de a le transpune în format digital - Retroconversion, dar face foarte dificilă, deoarece cărțile scrise de mână.

Alexander Kostinsky. Există o recunoaștere a problemei?

Dmitry Dmitriev. Da, texte yatyami, erami. Uneori, citind o carte foarte dificilă.

Alexander Kostinsky. Și cum să construiască dicționare ale acestor carduri?

Alexander Kostinsky. Și de ce este atât de mare, 17 de volume?

Alexander Kostinsky. Dicționare sunt făcute pentru o lungă perioadă de timp?

Dmitry Dmitriev. , Mult timp lung. De altfel, a doua ediție a acestui dicționar - dvadtsatitomny dicționar -Our mândria națională, este încă încă să fie eliberat.

Alexander Kostinsky. Și ce sa întâmplat volume?

Dmitry Dmitriev. Sa întâmplat aproximativ șase volume și în acest caz, pentru că a stagnat recuperează restructurarea și începutul anilor '90, când au existat un deficit de finanțare și așa mai departe. Din păcate, am blocat datorită faptului că procesul de lucru cu cardul este foarte consumatoare de timp.

Alexander Kostinsky. El este, de asemenea, scump.

Dmitry Dmitriev. Desigur, foarte scump. Iar dicționarul este schimbat din volum în volum. Dacă deschideți primele trei volume ale dicționarului Bolshoi Academic, veți vedea că acestea sunt construite principiu ușor diferit decât în ​​volume ulterioare.

Alexander Kostinsky. Schimbarea idee despre cum să facă dicționare. Timpul caracteristic al publicării dicționarului mai mult decât un timp de schimbare de creare a teoriei dicționare.

Dmitry Dmitriev. Da, probabil. Sau chiar un episod curios: cei care fac orice expresie, cum ar fi „câine mânca“, a lăsat unul din cuvintele de mai târziu, oferind link-ul, se spune că se va face în volumul următor. Și în volumul următor, o persoană care face aceste lucruri, uita să se întoarcă și să vedem ce au fost referirile la piesa lui a alfabetului (toate înmânat o bucată din alfabet). Deci, există link-uri care duc spre nicăieri. Aceasta este, de asemenea, o problemă pe care nici un calculator este foarte dificil de rezolvat.

Alexander Kostinsky. Dacă te uiți la perioada de după război, și după revoluție, viața se schimbă atât de repede, există atât de multe cuvinte noi, care în dicționarul real, într-o perioadă de timp, a trebuit să descrie o bază de cuvânt, iar altă dată cealaltă. De fapt, ea a fost limba de fotografie format din piese din diferite perioade.

Alexander Kostinsky. Nu mai este ordinea alfabetică?

Alexander Kostinsky. articole structural au fost puse deja în cărțile potrivite?

Alexander Kostinsky. Și dacă aceste permutări de cinci până la zece?

Dmitry Dmitriev. De aceea dicționare merg atât de mult timp de 30-40 de ani, și până în prezent nu vedem pe rafturile magazinelor noastre publicații academice. Aceeași mare Collegiate Dictionary, care vorbesc astăzi - o raritate.

Alexander Kostinsky. Cine, când au venit la tehnologia digitală, există o anumită schimbare sau să rămână carduri împrăștiate, renumerotat?

Dmitry Dmitriev. Putem spune că astăzi aceste două tradiții coexistă în instituțiile academice. Nu încurajăm toate făcut strict pe computer, dar colegii mei și cu mine în tehnologia de informare de laborator au dezvoltat un set de tehnologii software deschise pentru crearea de dicționare, și oferă-l să utilizeze. Mai mult decât atât, aceste tehnologii, noi suntem făcuți o serie de dictionar explicativ al limbii române (și nu doar inteligent), care este realizat în întregime în format electronic. Suntem de la început până la sfârșit nu a utilizat nici o tehnologie de hârtie.

Alexander Kostinsky. Aceasta este o schimbare dramatică - patru-patruzeci mie - o diferență de două ordine de mărime.

Dmitry Dmitriev. Da, dar nu vreau să spun că lexicograful citește literal fiecare dintre aceste referințe bibliografice. Desigur, acest lucru este imposibil, dar, cel puțin, aceste citate sunt mereu acolo, în fața lui, el se uită prin ele, alege ceva care atrage atenția, el poate restricționa într-un fel de compatibilitate. Dar baza, fundamentul alegerii el are este enorm. Dacă el se îndoiește brusc, în unii termeni, cum ar fi dacă cuvântul „imediat“ să fie format de gradul comparativ „instantaneu“. Bunul simț spune că este imposibil, dar căutarea bazei de date arată că pot exista și un astfel de lucru este destul de folosit pentru a textelor literare.

Alexander Kostinsky. Primul lucru pe care l-am identificat - a schimbat radical baza de dicționar. Ce altceva sa schimbat?

Alexander Kostinsky. Textele și minunate pe care le necesită foarte puține resurse informatice.

Dmitry Dmitriev. Acest lucru se întâmplă în cazul în care lucrați cu open source de text tehnologii de marcare atunci când utilizați codurile pentru a marca toate zonele - interpretarea zonei, ilustrațiile din zona, zona de gramatica.

Alexander Kostinsky. Un pic mai mult despre modul în care aceasta se produce, ceea ce face o lexicograf modernă?

Dmitry Dmitriev. Vă puteți imagina o intrare de dicționar modern, ca un sul lung, sau în cazul în care elevii sunt, acesta este un fișier în cazul în care fiecare linie conține unele unități de informații, de exemplu, a pus un marker [op] în paranteze unghiulare, ceea ce înseamnă că începe citat, apoi imprimați-te citări text și un marker final. Mulți studenți sunt, probabil, familiarizat cu HTML limbaj de marcare, care este utilizat pentru marcare hypertext pe Internet. Noi de fapt, una dintre variantele de astfel de marcare.

Alexander Kostinsky. Inițial, o persoană trebuie să intre în textul în format electronic, este etapa inițială a unui card de hârtie.

Dmitry Dmitriev. Dacă vorbim despre tehnologie în seria „Academia de dicționar română,“ atunci totul nu este așa. Am plecat de la baza de date quotational ecran, iar pe partea dreapta a ecranului de intrare pe care le scrie. Aceasta este, practic, nici hârtia nu este utilizată tehnologia.

Alexander Kostinsky. Dar, la început ați fost toate pe carduri.

Alexander Kostinsky. Un marcaj în textele originale ale articolelor duce la faptul că puteți apoi în mod automat din text pentru a pune articole în baza de date.

Dmitry Dmitriev. Desigur, faptul că acest aspect dă libertatea de a crea text. Sunteți liberi să vină cu markeri pe care doriți să le, ​​nu este dat de greu structura - dacă aveți nevoie de un nou tip de informații, spun unele surse au indicat sau anul de apariție a cuvântului sau a citat, informații etimologic, vii pur și simplu cu un nou marker, începe să utilizați-l și doar informează administratorul care a început un nou câmp. Oleg Gardens Cel mai important lucru pe care le puteți face cu baze de date lingvistice, este anumite secțiuni de informații din volumul total. Într-adevăr, poate exista un dicționar complet, în cazul în care toate formele de cuvinte, și poate fi dicționare scurte, în cazul în care mai multe din același lucru este dat într-o formă prescurtată.

Alexander Kostinsky. Ea devine un dicționar de fabrică.

Dmitry Dmitriev. Casa noastră de publicare a fost dispus să coopereze cu noi pentru că ei văd cât de ușor este de a obtine dicționare de diferite formate. Dacă vii la magazin și vă oferă să cumpere un dicționar este doar un an și jumătate de mii de ruble, și nu, atunci este greșit, iar dacă puteți alege dicționarul dorit în dimensiune, de cost, pe concretizând afară, atunci aveți o anumită cantitate de libertate alegere. Am încercat să-l facă, astfel încât aceste vocabulare mici, mijlocii și mari nu au scris persoane diferite, ci o singură echipă.

Alexander Kostinsky. Se pare că există o bază de date generală, din care este posibil să se dea locuri de muncă pentru a obține diferite dicționare de aspect. Oleg Gardens diferite dicționare în diferite formate pentru diferite tipuri de media pentru diferite forme de reprezentare.

Alexander Kostinsky. Poate că acest lucru este adevărat.

Dmitry Dmitriev. Probabil că da. cel mai puțin, atunci când am primit aceste rezultate și, desigur, la, la fiecare cuvânt am pus-o pictogramă specială, care arată cât de des le folosim într-un discurs, unii oameni întrebat.

Alexander Kostinsky. Totul este pregătit în format electronic, și dacă există versiuni electronice ale acestor dicționare?

Dmitry Dmitriev. Inițial, textele există sub formă de documente electronice, de la care pot primi și de imprimare, cum ar fi dicționare de hârtie au apărut ca urmare a unor automate aspect. Nimeni în mod specific nu a stat, nu a creat o pagină cu mouse-ul.

Alexander Kostinsky. Se pare că aveți un dicționar automat aspect.

Alexander Kostinsky. Utilizați soluții care au fost găsite într-un mediu academic în străinătate?

Dmitry Dmitriev. Desigur, cu toate că nu putem spune că trebuie să reinventeze roata. Dimpotrivă, am urmărit toate tehnologiile standard care sunt deja dezvoltate pentru mai mulți ani în Europa.

Alexander Kostinsky. Nu numai în România este de a face dicționare?

Dmitry Dmitriev. Nu numai. Am fost foarte surprins atunci când, în timpul cooperării noastre, ne confruntăm cu lexicografi în engleză. Am încercat să pornească un proiect comun cu ei. Cred că ne vom întoarce la un dicționar bilingv. Ei ne-au trimis materialele, și am fost surprinși că folosește aceeași tehnologie și dicționarul Oxford, care deține o poziție de lider.

Alexander Kostinsky. Aparent, însăși logica de a construi dicționarului conduce la soluții similare.

Dmitry Dmitriev. Și apoi, este foarte economic, modelul de sunet. Oleg Gardens Din nou, este extrem de important de tehnologii open-source, standarde deschise. Când oamenii sunt angajate în munca de creație, de obicei, ei au soluții ceva gata făcut, care pot merge la magazin si cumpara nu se potrivesc - un instrument ce trebuie să faci pentru ei înșiși.

Alexander Kostinsky. Putem spune că nu numai tehnicienii, nu numai pe cei care nu au fost inițial frică de calculatoare, dar, de asemenea, în umaniste, în cazul în care pregătirea umanitară de dicționare românești sau rusă-engleză, acești oameni vor fi, de asemenea, posibilitatea de a extrage un beneficiu foarte important pentru utilizarea tehnologiilor digitale.

Dmitry Dmitriev. Da, nu numai că poate, dar de fapt, o fac. Echipa noastra de aproximativ 12 lexicografi, aproape nimeni nu este un expert tehnic în acest domeniu. Datorită faptului că am ales această tehnologie, care lucrează pentru noi. Noi nu am avut programatori de personal a făcut totul singuri.

Alexander Kostinsky. Și cât de mult este pregătirea unei anumite unități de vocabular.

Dmitry Dmitriev. Eu doar vă pot spune pe scurt despre bugetul nostru și bugetele din care sunt la Academia de Științe. Intelegi cum totul se întâmplă în cadrul Academiei: oamenii vin să lucreze, ei sunt aparent salarii foarte mici - o oră și jumătate sau două mii de ruble, dar, în principiu, nimeni nu cu ei și nu are nevoie de nimic. Știm cât de mulți ani, există instituții care problema pe munte nu sunt prea multe produse. Prin urmare, dacă luați producția curată și împărțiți-l în aceste salarii modeste, se dovedește o sumă impresionantă. Am petrecut de numărare sa dovedit că acele dicționare, care sunt realizate prin tehnici convenționale, deja în timpul românesc prin obținerea de granturi, etc. Acesta costă aproximativ 750 $ pentru cele 20 de pagini dactilografiate. Avem un plafon buget de aproximativ 100-120 de dolari pentru 20 de pagini. De fapt, se pare de șapte ori mai ieftin decât tehnologia.

Alexander Kostinsky. Și cum ai reușit să publicați dicționare în serie dumneavoastră?

Dmitry Dmitriev. Planificate total 25 de nume, dar acum de imprimare cinci. Ceilalți vor fi disponibile în scurt timp. Din punct de vedere al versiunii electronice, acestea sunt gata. Problemele sunt pe scena de imprimare. Oleg Gardens Din nou, utilizarea tehnologiilor moderne, în general, oferă o rezervă specială pentru viitor, pentru că, în viitor, folosind o astfel de bază de date, va fi posibil să se facă și secțiuni de vocabular temporare.

Alexander Kostinsky. Alte tehnologii informatice dau o acoperire foarte mare. În principiu, aceste cinci milioane de carduri pot fi convertite în format electronic. Șansa dicționar al limbii române, care va include cinci milioane de sensuri ale cuvintelor.

Dmitry Dmitriev. Desigur, am pășit peste limitele sumei. Acest lucru nu este neapărat casa pentru a pune douăzeci de volume de dicționar, puteți pune un CD și va fi totul previzibil, într-o singură casetă de căutare. Acest lucru, de altfel, este mult mai interesant - lucra cu material viu. Acesta este cel mai interesant în scrierea unui dicționar - pazesc viața reală a cuvântului.

Alexander Kostinsky. Și utilizați Internetul?

Dmitry Dmitriev. Desigur. Internet - un element viu, care compensează lipsa de material proaspăt, care este adesea observată în cazul. Sub corpul se înțelege un set de texte electronice, care funcționează lexicograf. La urma urmei, tu știi că 95% din greutatea totală a textului este de obicei umplut cu trei sau patru mii de cuvinte - token-uri, iar restul de 5% din masa de text, există sute de mii de restul fondului lexical. Internetul este folosit ca o resursă uriașă de texte de diferite genuri: oameni a scrie, deoarece colocvială, cuvânt argotic pentru literatura de provenienta de clasa. Pe internet puteți găsi totul. Este foarte interesant de a face o căutare activă în web de cuvinte și expresii cu privire la care dorim să efectueze unele cercetări.

articole similare