Introducere în deduplicare de date, savepearlharbor

În domeniul de continuitate a afacerii, există mai multe probleme diferite asociate cu creșterea rapidă a datelor în infrastructuri IT de astăzi. În opinia noastră, putem distinge două principale:

  1. Cum de a planifica un loc pentru a stoca cantități mari de date
  2. Cum de a face o copie de rezervă a datelor

Introducere în deduplicare de date, savepearlharbor

deduplicare

În general, există două tipuri principale de deduplicare:

  • deduplicare la nivel de fișier (deduplicare, fișier de nivel) - o unitate de deduplicare în această metodă este ușor de înțeles, este un fișier separat, atunci când fișierele duplicate sunt eliminate din sistemul de stocare. Atunci când vorbim despre de-duplicarea la nivelul de fișier, tehnologia de multe ori, de asemenea, menționat cu o singură instanță de stocare (SIS).
  • deduplicare de nivel bloc (bloc deduplicare) - aici unitatea este bloc de date deduplicare de lungime arbitrară, care este adesea repetată în diverse spații de depozitare logice.

În general, se utilizează schema deduplicare mai detaliată, cu atât mai mare economiile de spațiu în depozitul de date.

Sună grozav! Dar numai până când fișierele sunt identice. Dacă unul dintre fișierele identice vor fi schimbate pentru cel puțin un octet, acesta va crea o copie separată a eficienței modificate și deduplicare va scădea.

Bloc deduplicare funcționează la blocurile de date înregistrate pe disc pentru identitate de evaluare sau de unicitate, care utilizează o funcție hash. Sistemul de deduplicare păstrează un tabel hash pentru toate blocurile de date stocate în acesta. Odată ce sistemul Deduplicarea este identic pentru diferite valori hash blocuri, este nevoie să se mențină blocuri într-un singur exemplar și un set de link-uri către acesta. Puteți compara, de asemenea, blocurile de date de la diferite calculatoare (deduplicare la nivel mondial), ceea ce crește și mai mult eficiența deduplicare, deoarece unitățile de diferite calculatoare cu același sistem de operare poate stoca o mulțime de date duplicat. Trebuie remarcat faptul că cea mai mare eficiență va fi atins prin reducerea dimensiunii blocului și blocul de maximizare factorul de repetabilitate. În acest sens, există două metode de bloc deduplication: o constantă (predeterminate) și variabile (ajustate dinamic pentru date specifice) lung.

Aplicații deduplicare

Majoritatea dezvoltatorilor de produse cu suport deduplicare axat pe piața de rezervă. În acest caz, cu timp de backup poate dura până la două-trei ori mai mult spațiu decât datele originale propriu-zise. Prin urmare, produsele de rezervă au folosit mult timp deduplicare fișier, care, cu toate acestea, poate fi insuficientă în anumite condiții. Adăugarea de bloc deduplicare poate îmbunătăți în mod semnificativ utilizarea spațiului de stocare și de a face punerea în aplicare a cerințelor de toleranță la defecte de sistem mai ușor.

interes abreviat și speranțe mari

Procentajul economisi spațiu pe disc - cel mai important domeniu, care este ușor de manipulat, referindu-se la „reducere de 95% din dimensiunea fișierului copie de rezervă.“ Cu toate acestea, algoritmul utilizat pentru calcularea acestui raport nu poate fi destul de relevante pentru situația dvs. special. Prima variabilă care trebuie să fie luate în considerare - acest tip de fișiere. Formate, cum ar fi ZIP, CAB, JPG, MP3, AVI - este deja comprimat de date, care dau raportul deduplicare mai mici decât datele necomprimate. La fel de important este frecvența schimbării de date și cantitatea de date deduplicare de arhivă. Dacă utilizați un produs care deduplicates datele existente pe server de fișiere, atunci nu vă faceți griji. Dar dacă deduplicare este utilizat ca parte a unui sistem de backup, trebuie să răspundă la următoarele întrebări:

Deduplicarea este ușor de calculat on-line cu calculatoare speciale, dar într-un mod pe care nu se poate imagina cum ar fi în situația dumneavoastră special. După cum se poate observa, procentul depinde de mulți factori și ajunge la 95% din teorie, dar în practică, ar putea ajunge la doar câteva procente.

Timpul - nostru toate

Vorbind de deduplicare în sistemele de backup, este important să știi cât de repede se execută. Există trei tipuri principale de deduplicare:

  • sursă (pe partea sursei de date);
  • țintă (sau "post-procesare deduplication");
  • continuu (sau „deduplicare de tranzit“);
Primul tip: deduplicare pe partea sursei de date

Aceasta se realizează pe dispozitivul pe care datele originale. Orice date care sunt marcate pentru backup, împărțite în blocuri pentru a le numărat hash. Aici veți observa 3 probleme potențiale.

  1. Prima problemă este că există resurse implicate mașină sursă. De aceea, trebuie să ne asigurăm că are suficiente resurse de memorie și CPU. Nu există nici un motiv rațional pentru a efectua deduplicare pe un deja încărcat serverul de e-mail. Desigur, unii producători spun ușurința deciziilor lor, dar nu neagă faptul că performanța inițială de mediu vor fi afectate, iar acest lucru poate fi inacceptabil.
  2. A doua problemă - în cazul în care pentru a stoca tabela hash? Puteți avea tabelul hash în aceeași sursă-server sau pe un server centralizat în rețea (acest lucru este necesar dacă se aplică deduplicare la nivel mondial), cu toate acestea, acest lucru creează o sarcină suplimentară în rețea.
  3. În ciuda neajunsurile sale, deduplicare de date sursă are dreptul de a utiliza, de exemplu, în societățile cu o dimensiune mică a infrastructurii IT, în cazul în care mai multe servere de infrastructură, utilizarea irațională a deduplicare la nivel mondial.
Țintă (sau post-proces) deduplication

Să presupunem că datele de pe toate computerele trimise într-un backup de depozitare. De îndată ce sosește datele, magazia poate crea un tabel hash a acestor blocuri de date c. Primul avantaj al acestei metode - cu cât cantitatea de date, și mai mare piscina de date, cu atât mai mare va fi masa de hash și, în consecință, cu atât mai mare șansa de a găsi blocuri duplicat. Al doilea avantaj este că întregul proces are loc în afara rețelei de producție.

Cu toate acestea, această opțiune nu rezolvă toate problemele. Există câteva puncte care trebuie să fie luate în considerare.

  1. Primul - dependența de spațiu. Dacă aveți o infrastructură extinsă, dimensiunea spațiului necesar poate fi foarte mare.
  2. De asemenea, al doilea deduplication țintă defect - cerințe privind magazia subsistemului disc. De obicei, datele trebuie să fie scrise pe disc înainte de a magaziei defalcate în blocuri, iar apoi procesul de hashing și începe de-duplicarea. Acest lucru face ca arhitectura strangulare subsistemului disc.
  3. Un al treilea dezavantaj poate fi faptul că fiecare funcție hash este probabilitatea coliziunilor hash. adică o situație în care două blocuri diferite este calculat același hash. Acest lucru duce la deteriorarea datelor originale. Pentru a preveni necesitatea de a selecta un algoritm hash cu probabilitate de coliziune minimă, care, la rândul său, necesită o putere de procesare mai mare. De obicei, acest lucru nu este o problemă, ca țintă pentru deduplicare utilizează hardware care pot ocupa o astfel de sarcină. Trebuie spus că probabilitatea ca un hash coliziune funcții hash moderne este destul de mică.
  4. Al patrulea dezavantaj potențial este faptul că suma totală a datelor din „producția“ trebuie să fie transmise prin rețea, fără a crea o sarcină importantă în rețea și sistemul foarte productiv. Acest lucru poate fi rezolvată prin utilizarea de noapte sau alte ore mai puțin aglomerate pentru sistem, sau izolarea că traficul către o altă rețea (care este o practică comună în companiile medii și mari).
deduplicare de tranzit

deduplicare Tranzit explică modul de proces care are loc în timpul transferului de date de la sursa la țintă. Termenul este ușor înșelătoare. Datele nu este, de fapt deduplicați „în sârmă.“ De fapt, aceasta înseamnă că datele colectate în dispozitivul de memorie țintă, se deduplicați înainte de operația de scriere pe disc. Se afișează disc căuta timp din ecuație. deduplicare de tranzit poate fi considerată ca fiind cea mai bună formă de deduplicare țintă. Are toate avantajele unei reprezentări globale de date, împreună cu procesul de descărcare a hashing, dar nici unul dintre dezavantajele de lent disc I / O.

Cu toate acestea, încă mai reprezintă o mulțime de trafic de rețea și potențiale coliziuni hash. Această metodă necesită cele mai mari resurse de calcul (CPU și memorie), între toate cele de mai sus.

Rezumând

Tehnologia deduplicare poate ajuta la reducerea achiziționarea costurilor de depozitare. Trebuie luată în considerare pentru a selecta tipul de deduplicare. În cele din urmă, deduplicare va permite companiei să crească încet, costurile de stocare a datelor lor în creștere.

materiale utile