• 20-02-2017
  • Technologie storage
  • Grzegorz

Deduplikacja – realna oszczędność przestrzeni dyskowej

Żyjemy w cyfrowym świecie, w którym wciąż przybywa nam danych. Każdego dnia wysyłamy dziesiątki e-maili, wiele z nich wraz z załącznikami. Czasami ta sama wiadomość trafia do wielu odbiorców w naszym przedsiębiorstwie. Bazy puchną w zastraszającym tempie, co za tym idzie nasze serwery wymagają co raz większych przestrzeni dyskowych dla operacji backupu, a wszystko to pociąga za sobą dodatkowe koszty. Naprzeciw jak zawsze wychodzi nam technologia.

Deduplikacja

Wyobraźmy sobie sytuację, w której jeden e-mail wędruje do pięciu odbiorców. Nadawca dołączył do niego załącznik o rozmiarze 5 MB. Podczas okna backupowego wykonujemy kopię skrzynek mailowych należących do wszystkich użytkowników w efekcie nasz backup przyjmuje rozmiar aż pięciokrotnie większy, niż wysłana wiadomość. Załącznik oraz treść e-maila zostały zmultiplikowane 5 razy. Powstaje pytanie – po co?!

 

Celem deduplikacji jest usuwanie powtarzających się sekwencji danych, w tym przypadku w procesie deduplikacji załącznik zostałby wyeliminowany, natomiast jego miejsce w backupie zająłby wskaźnik odnoszący się do lokalizacji rzeczonego załącznika, w której znajduje został zapisany tylko raz.  Jak widać, oszczędność miejsca na opisanym przykładzie wynosi nawet ok 80%.

Deduplikacja nie ogranicza się do usuwania powielających się załączników. Wszak wszystko na czym pracujemy to tak naprawdę powielone wielokrotnie sekwencje. Deduplikacja w zależności od zastosowanego algorytmu (a takie rozwiązania znajdziemy pośród producentów sprzętu określanego mianem „enterprise”, np. EMC, HPE, IBM) potrafi wyeliminować powtarzające się bity danych, zastępując je jedynie odnośnikami do pojedynczej kopii zapisanej na dysku.

Rozmiar danych po deduplikacji zależy od zastosowanego przez producenta naszego rozwiązania, algorytmu. Od zastosowanego algorytmu zależy także sam sposób wykonywania deduplikacji oraz proces przywracania danych do stanu pierwotnego. Deduplikację możemy podzielić na dwa rodzaje, tzw „inline” oraz „post proces”. Deduplikacja typu „inline” to proces w którym dane poddawane są procesowi eliminacji dubli już „w locie”, w efekcie na urządzeniu zapisane zostają dane skompresowane. Jest to rozwiązanie niewątpliwie efektywniejsze, ale jednocześnie droższe. „Post process” pozwala najpierw na zapisanie naszego backupu, a dopiero potem dokonuje deduplikacji i zapisuje dane po kompresji.

Co ważne, wraz z deduplikacją nie powinniśmy stosować enkrypcji danych. Deduplikacja usuwa zdublowane bloki danych, pozostawiając jedynie wzór, wg którego algorytm ma odtworzyć plik do stanu pierwotnego, podczas gdy rolą enkrypcji jest usuwanie takich wzorów, aby dane stały się nieczytelne dla osób nieuprawnionych. Może to doprowadzić do nieodwracalnego uszkodzenia struktury, uniemożliwiając tym samym odtworzenie danych zdeduplikowanych.

Autor: Adam Grzesiak