Na czym polegają trzy podstawowe poziomy deduplikacji plików?

Proces deduplikacji danych komputerowych, to eliminowanie powtarzających się danych oraz może odbywać się na trzech podstawowych poziomach: bajtów, bloków oraz plików. Każdy z tych poziomów przedstawia inny rodzaj fragmentu danych.




Są one następnie przy pomocy systemu sprawdzane pod kątem pojawienia się powtórzeń. Do tworzenia unikalnych identyfikatorów wykorzystywany jest algorytm funkcji skrótu. Dotyczy to każdej przeanalizowanej części danych. Wspomniane identyfikatory przechowywane są w indeksie, a następnie wykorzystywane są podczas procesu deduplikacji. Naturalnie zduplikowane fragmenty posiadają takie same identyfikatory funkcji skrótu. Teoretycznie im bardziej precyzyjna jest analiza, to tym lepszy jest współczynnik deduplikacji. W rzeczywistości jednak wszystkie wymienione poziomy w każdym przypadku mają swe plusy i minusy. Przykładowo deduplikacja na poziomie plików jest w każdym przypadku najbardziej prosta do wdrożenia.


PIT


efekty


Co istotne, taka postać deduplikacji nie jest za bardzo obciążająca dla serwera, gdyż generowanie funkcji skrótu jest relatywnie proste. Niestety wadą takiej formy jest to, że jeżeli dany plik zostanie w dowolny sposób zmodyfikowany, to przekształca się też identyfikator funkcji skrótu. W rezultacie obydwie wersje plików będą na serwerze zamieszczone. Deduplikacja na szczeblu bloków polega naturalnie na porównywaniu bloków danych. Wymaga ona większej mocy obliczeniowej. Analogicznej mocy potrzebuje deduplikacja na szczeblu bajtów. Jest to poniekąd najbardziej podstawowy sposób porównywania danych.




Wykonuje się to, jak sama nazwa wskazuje, bajt po bajcie. Wykonywana w ten sposób analiza jest naturalnie niezwykle dokładna. Pewnym minusem mógłby okazać się czas przeprowadzania takiego typu deduplikacji.