Operația principală se face pe caracterele individuale ale textului - o comparație între caractere.
Atunci când se compară personajele cel mai important aspect este codul unic pentru fiecare caracter, iar lungimea codului, și selectarea principiului de codificare este aproape irelevant.
diferite tabele de conversie sunt utilizate pentru a codifica textul. Este important ca același tabel este utilizat în codare și decodare a aceluiași text.
tabel de căutare - un tabel care conține o listă ordonată de un anumit fel de caractere codificate, prin conversia de caractere este în codul său binar și înapoi.
Cele mai populare tabelul de date: DKOI-8, ASCII, CP1251, Unicode.
Punct de vedere istoric, ca lungime de cod de 8 biți sau 1 octet a fost selectat pentru caractere de codificare. De aceea, de multe ori un singur caracter de text care este stocat în computer corespunde cu un octet de memorie.
Diferite combinații de 0 și 1, cu lungimea de cod de 8 biți ar putea fi de 28 = 256, deci folosind un singur tabel de căutare poate codifica pana la 256 de caractere. Când o lungime de cod de 2 octeți (16 biți) pot fi codificate 65.536.
În prezent, majoritatea oamenilor folosesc o procese de calculator text, care este format din caractere: litere, cifre, semne de punctuație, etc ..
În mod tradițional, pentru a codifica un simbol folosind informația referitoare la numărul de 1 octet, T. E. I = 1 octet = 8 biți. Cu ajutorul unei formule care se referă la numărul de evenimente posibile la cantitatea de informații și cu mine, putem calcula cât de multe caractere diferite pot fi codificate (presupunând că personajele - este evenimente posibile):
t. e. să reprezinte informațiile textuale, puteți utiliza puterea alfabetului de 256 de caractere.
Esența codare este că fiecare caracter este plasat într-un cod binar corespunzător 00000000 - 11111111 și codul zecimal corespunzător între 0 și 255.
Trebuie amintit faptul că în prezent pentru codificarea literelor românești utilizate cinci seturi diferite de caractere (KOI - 8, SR1251, SR866, Mac, ISO), textele sunt codificate utilizând același tabel nu va fi afișat corect într-o codificare diferită. Intuitiv, aceasta poate fi reprezentată ca un fragment dintr-un tabel de codificare caracter unitar.
Codul binar același este asociată cu o varietate de caractere.
Cod binar zecimal Cod KOI8 SR1251 SR866 Mas ISO
194 B B 11000010 - - T
Cu toate acestea, în cele mai multe cazuri de conversie a documentelor text pe un utilizator griji și programe speciale - convertoare, care sunt construite în aplicație.
Pentru a determina codul numeric în Windows de codificare a caracterelor (SR1251) necesitatea de a utiliza mouse-ul sau tastele săgeată pentru a selecta caracterul dorit, apoi apăsați pe tasta butonul. După aceea, ecranul afișează o Setări casetă de dialog, în care colțul din stânga jos conține un cod numeric zecimal al simbolului selectat.
Trei abordări pentru definirea „cantitatea de informații“
1 Abordarea combinatorie
Să variabila x este în măsură să ia valori care aparțin unui set finit de X, care este compus din N elemente. Se spune că entropia este egal cu curent alternativ
Indicând o anumită valoare x = a variabilelor x, vom „elimina“ această entropie spune Infomatsiya
În cazul în care variabilele x1, x2. xk poate rula independent de set, care constau respectiv din N1, N2. Elemente, nk
Pentru a transfera cantitatea de informații trebuie să folosesc
cifre binare. De exemplu, numărul de diferite „cuvinte“ care constau din zerouri și k și una dintre cele două unități este egal cu 2k (k + 1),
Prin urmare, cantitatea de informații de acest tip este un mesaj egal
și anume pentru „codificare“, astfel de cuvinte într-un sistem pur binar este necesară (în continuare f≈g înseamnă pretutindeni că diferența f-g limitată și f
g, care este raportul dintre f: g abordări unitate)
zero-uri si altele. În prezentarea teoriei informației, de obicei, nu persista mult timp pe o astfel de abordare combinatorie de afaceri. Dar cred că este important să se sublinieze independența față de orice logică fel de ipoteze probabilistice. De exemplu, să ne ia sarcina de codificare mesaje scrise într-un alfabet format din literele S, și este cunoscut faptul că frecvența
Aspectul de caractere individuale din lungimea mesajului n satisfac inegalitatea
Este ușor de calculat că pentru mare n logaritmul binar al numărului de posturi care fac obiectul cerinței (3), are o estimare asimptotică:
Prin urmare, transmiterea acestor mesaje este suficientă pentru a utiliza aproximativ cifre binare nh.
Metoda universală de codificare, care permite să transfere orice mesaj suficient de mult timp într-un alfabet de scrisori s, folosind nu cu mult mai mult de cifre binare nh, nu trebuie să fie prea complicate, în special, nu este obligat să înceapă cu o definiție a frecvențelor de PR pentru întregul mesaj. Pentru a înțelege acest lucru, este suficient să se constate: mesajul Crashing S pentru m S1, S2 segmente. Sm, obținem inegalitatea
Cu toate acestea, nu vreau să intru în detalii cu privire la această sarcină specială. Pentru mine este important să se demonstreze că problemele matematice care apar pe baza unei abordări pur combinatorice la măsurarea cantității de informații nu se limitează la trivialitati.
Este în mod natural o abordare pur combinatorice la conceptul de „vorbire entropie“, dacă ținem cont de evaluarea „flexibilitate“ de vorbire - vorbire ramificare extensie index este posibil pentru un anumit dicționar și reguli date pentru a construi propoziții. Pentru logaritmul binar al numărului N al textelor tipărite românești compuse din cuvinte incluse în „Dicționarul limbii române S. I. Ozhegova și singura cerință subordonată“ corectitudinii gramaticale „de lungime n, exprimată în“ numărul de caractere „(inclusiv spațiile), și M. Ratner VN Svetlov au fost evaluat
Acest lucru este semnificativ mai mare decât estimarea superioară pentru „entropia textelor literare“ produse prin diferite metode de „continuări ghicitul.“ Această discrepanță este destul de firesc, ca texte literare nu sunt supuse doar la cerința de „corectitudine gramaticală.
Este mai dificil de a evalua o entropie combinatorie a textelor, sub rezerva anumitor limitări de fond. Ar fi, de exemplu, de interes pentru a evalua entropia textelor românești care ar putea fi considerate ca fiind suficient de precise în traducerea conținutului text dat limbă străină. Numai prezența unui astfel de „entropie reziduală“ permite vers traduceri, în cazul în care „cost-entropie“ să urmeze contorul ales și rima de caractere poate fi o destul de precise numărate. Se poate demonstra că iamb clasic chetyrehstopnym rima cu unele restricții cu privire la frecvența naturală a „schimburi“ și așa mai departe. N. Libertatea cere un material verbal tratament ipotezelor caracterizate prin „entropie reziduală“ aproximativ 0,4 (la metoda convențională menționată mai sus pentru măsurarea lungimii textului " numărul de caractere, inclusiv alb pro- „). Dacă luăm în considerare, pe de altă parte, că limitările stilistice gen, probabil snizha- a fost evaluat „complet“ entropia celor de mai sus de la 1.9 la nu mai mult de 1,1-1,2, situația devine remarcabilă ca și în cazul traducerii, așa iar în cazul poeziei originale.
Iartă-mă cititorii utilitariști minte din acest exemplu. În justificare, am act de faptul că problema mai largă de estimare a volumului de informații care trebuie să facă o activitate umană creativă este foarte importantă.
Să vedem acum în ce măsură abordarea pur combinatorice ne permite să se estimeze „cantitatea de informații“ conținute în variabila x în raport cu variabila y asociată. Relația dintre variabilele x și y, respectiv rulează prin setul X și Y. este că nu toate perechile x, y, aparținând X.Y. produs direct Este „posibil“. Pentru o varietate de posibile perechi de U aX definit în oricare din pluralitatea Ya y, pentru care
3 - + - -
Este firesc să se definească ecuația entropie condiționată
(In care N (Yx) - numărul de elemente din setul Yx), precum și informații referitoare la y-x formula
De exemplu, în cazul prezentat în tabel au
Se înțelege că H (y | x) și I (x: y) sunt funcții de x (în timp ce y este inclus în desemnarea lor ca „variabilă legat“).
Cu ușurință introdus în conceptul de reprezentare pur combinatorie a „cantitatea de informații necesare pentru a specifica x obiect cu cerințele de acuratețe dat indicații.“ (. A se vedea în acest sens, literatura de specialitate detaliate cu privire la „# 949; entropie“ de seturi în spații metrice.)
2 Abordarea probabilistă
Posibilități pentru dezvoltarea în continuare a teoriei informației bazate pe definiții (5) și (6) au rămas în umbra datorită faptului că dau variabile x și caracterul y „variabila aleatoare“, o având o anumită distribuție în comun de probabilitate, permite obținerea unui concepte de sistem mult mai bogată și relații. În paralel cu introducerea §1 valori avem aici
Ca și înainte, HW (y | x) și IW (x: y) sunt functii de x. Avem inegalitățile
trecerea în egalitate cu uniformitate corespunzătoare distribuții (în X și Yx). Valorile IW (x: y) și I (x: y) nu este conectat la un semn de inegalitate. La fel ca în § 1,
Dar diferența constă în faptul că putem forma așteptări MAB (y | x), MIW (x: y), iar valoarea
Se caracterizează „gradul de apropiere a relației“ între x și y în mod simetric.
Cu toate acestea, trebuie remarcat și apariția în conceptul probabilistă de valoare paradox I (x: y) la o abordare combinatorie întotdeauna non-negativ, așa cum este firesc pentru o reprezentare naivă a „informației sumă“, valoarea IW (x: y) poate fi negativ. măsură „Informații sumă“ True acum devine o valoare medie IW (x, y).
O abordare probabilistică este firesc în teoria transmiterii prin canale de comunicare „masă“ de informații, constând dintr-un număr mare de mesaje e-mail care nu au legătură sau doar ușor legate care fac obiectul unor regularități probabilistice. In astfel de aspecte practic inofensive și înrădăcinate în cercetarea aplicată amestecarea probabilități și frecvențe în cadrul unei serii vremenn.ogo suficient de lungă (primind o justificare strict la o ipoteză suficient de rapidă „amestecare“). Aproape pot fi luate în considerare, de exemplu, problema „entropie“ flux de telegrame de felicitare și „lățime de bandă“ a canalului de comunicare necesară pentru transmiterea în timp util și nedistorsionat, corect pus în interpretarea lui de probabilitate și înlocuirea normală a frecvențelor empirice de probabilități. Dacă există încă unele nemulțumiri, acesta este asociat cu o anumită neclaritate a ideilor noastre despre relația dintre teoria matematică a probabilității și „fenomene aleatoare reale, în general.
Dar ce sens real este, de exemplu, pentru a vorbi despre „cantitatea de informații“ conținute în „Război și Pace“ text? Este posibil să se includă un mod rezonabil în acest set nou de „romane posibile“, chiar postulat în acest set o distribuție de probabilitate? Sau ar trebui să fie considerate ca scene individuale de „Război și Pace“, care formează secvență aleatoare pentru a amortizată rapid la o distanță de câteva pagini de „relații stocastice?
În esență, nu mai puțin de culoare închisă și o cantitate de expresie la modă“de informații genetice necesare, să zicem, să joace un tip special de cuc. Din nou, în cadrul conceptului acceptat de probabilitate sunt două posibilități. În prima variantă a setului de „forme posibile“ de nicăieri care se angajează de distribuție de probabilitate pe acest sovokupnosti2 (2Obraschenie la o varietate de specii care există sau au existat în lume, chiar și pur și simplu de numărare combinatorie ar da limite superioare mici total inacceptabile (ceva de genul <100 бит!).).
Într-o a doua variantă de realizare, proprietățile caracteristice sunt considerate ca un set de variabile aleatoare conectate vag. În favoarea celei de a doua opțiune, puteți aduce argumente bazate pe mecanismul real al mutației. Dar aceste considerații sunt iluzorii, în cazul în care se presupune că, ca rezultat al selecției naturale, un sistem de convenit între ele semnele caracteristice ale speciei.
3 algoritmică Abordarea
În esență, reprezentarea mai informativ este informații cu privire la numărul de „ce-sau (x) și„despre orice »(y). Nu este o coincidență faptul că în conceptul probabilistică a fost generalizat la cazul variabilelor continue pentru care entropia este infinit, dar într-o gamă largă de cazuri de capăt.
obiecte reale să fie studiul nostru, foarte (pe termen nelimitat?) complex, dar relația dintre două obiecte reale sunt epuizate, la o simplă schematică a descrierii. Dacă harta geografică ne oferă informații importante despre aria suprafeței Pământului, dar microstructura de hârtie și cerneală imprimată pe hârtie, nu are nici o legătură cu microstructura porțiunii de imagine a suprafeței Pământului.
noul tabel va conține aproximativ
Informații despre original (n - numărul de cifre în coloanele).
În conformitate cu descrierea de mai sus este doar faptul că definiția propusă a cantității IA (x: y) va păstra un grad de incertitudine. Diferite variante echivalente ale acestei definiții ar conduce la valori echivalente numai în sensul IA1≈IA2, adică
în cazul în care constanta CA1A2 depinde de formarea baza celor două opțiuni pentru a defini universale metode de programare A1 și A2.
Considerăm că „o zonă numerotată de obiecte“, adică set numărabilă X =, fiecare element este setat în corespondență ca „non n» (x) este o secvență finită de unu și zero, începând cu unul. Notam cu l (x) lungime n (x) secvență. Presupunem că
1) corespondența între X și D pluralitate de secvențe binare descrise tip bijectively;
2) DX, funcția n (x) D recursive [1], în care pentru xD
unde C - este o constantă;
3) împreună cu x și y în X include o pereche ordonata (x, y), numărul acestei perechi este numere de funcții recursive x și y, și
în cazul în care Cx depinde numai de x.
Nu toate aceste cerințe sunt esențiale, dar ele facilitează prezentarea. construcție Rezultatul este invariabilă în raport cu tranziția la noul n numerotare „(x), având aceleași proprietăți și-au exprimat recursiv general prin intermediul vechi, și în ceea ce privește sistemul X inclus într-un sistem X mai extins“ (în ipoteza în care numărul de n“în extins sistem pentru elementele sistemului original de recursive general, exprimat în termeni de numărul n inițial). Cu toate aceste transformări noi „complexitate“ și volumul de informații rămân echivalente cu originalul în ceea ce privește ≈
„Complexitatea relativă“ a obiectului la un anumit x y se va presupune lungime l minimă (p) care primesc programul p y din x. Formulată astfel încât cu siguranță că depinde de „metoda de programare. Metoda de programare nu este nimic altceva, în funcție de # 966; (p, x) = y, care se asociază potrivirea programului p și obiectul x un obiect y.
În conformitate cu universal acceptată în logica matematică modernă, trebuie să avem în vedere funcția # 966; parțial recursivă. Pentru orice astfel de funcții noi credem
funcţia # 965 = # 966; (u) valorilor ux # 965; X este numit recursiv parțială dacă generează o funcție parțial recursivă a ratelor de conversie
Pentru înțelegerea definiției este important de menționat că funcțiile recursive parțiale, în general vorbind, nu sunt definite peste tot. Nu există nici un proces regulat pentru a afla programul va utiliza p la un obiect x orice rezultat sau nu. Prin urmare, funcția K # 966; (y | x) nu poate fi în mod eficient sunteți calculabil (recursiv) chiar și atunci când este cunoscut a fi finit pentru toate x și y.