Backup i archiwizacja

ITpedia

Zagadnienie zabezpieczania danych wymaga zdefiniowania trzech, bardzo często mylonych pojęć:

  • backupu,
  • archiwizacji danych,
  • kopii zapasowej.

Spis treści

Backup

Backup to ochronna kopia na bieżąco przetwarzanych danych (a często także systemu operacyjnego i zainstalowanych aplikacji) z serwera lub stacji roboczych. W razie wystąpienia awarii pomaga w krótkim czasie przywrócić system informatyczny do stanu z momentu wykonania ostatniego backupu. Procedura wykonania backupu i całe rozwiązanie zabezpieczające powinny być tak skonstruowane, aby nie obciążały nadmiernie serwerów ani sieci. Proces ten nie powinien być widoczny dla użytkowników sieci, a jednocześnie powinien być na tyle zautomatyzowany, aby zminimalizować ryzyko wystąpienia błędu ludzkiego. Jedna z podstawowych zasad backupu mówi, że całość zabezpieczanych danych powinna zmieścić się na jednym nośniku (szczególnie gdy system backupu nie jest zautomatyzowany). Z tego powodu do backupu najczęściej są wykorzystywane napędy taśmowe, które, oprócz dysków twardych, są dziś najbardziej pojemnymi nośnikami.

Backupy są najczęściej wykonywane wg ściśle określonych schematów rotacji nośników (np. „Dziadek/Ojciec/Syn” czy „Wieże Hanoi”). Określają, w których dniach tygodnia jest wykonywany tzw. Backup pełny (wówczas są zapisywane wszystkie, konieczne do zabezpieczenia dane), a kiedy backup przyrostowy lub różnicowy (wtedy są zapisywane tylko te dane, które pojawiły się lub się zmieniły w ostatnim czasie).

Każdy schemat rotacji nośników charakteryzuje się parametrem zwanym horyzontem backupu. To określenie liczby dni sprzed backupu, z których można odzyskać dane. Horyzont backupu zależy od liczby wykorzystanych nośników w danym schemacie. Jeśli do backupu codziennie będzie wykorzystywany ten sam nośnik i codziennie będzie wykonywany pełny backup, to horyzont będzie wynosił jeden dzień. Przy codziennym pełnym backupie, ale z pięcioma nośnikami, wyniesie pięć dni. Bardziej optymalne wykorzystanie nośników zapewniają bardziej rozbudowane schematy, np. w schemacie „Dziadek/Ojciec/Syn” przy 19 nośnikach horyzont backupu wynosi rok.

Archiwizacja danych

Archiwizacja danych odbywa się wyłącznie na potrzeby użytkowników systemu informatycznego. W procesie tym do archiwum trafiają stare i rzadko przetwarzane dane, dzięki czemu mogą być przeniesione na wolniejsze od dysków twardych, ale tańsze (i bezpieczniejsze) nośniki. Dobrze skonstruowane rozwiązanie archiwizacyjne (jeśli jest taka potrzeba) powinno cały czas udostępniać zarchiwizowane dane, chociaż czas tego dostępu nie musi być krótki. W systemach archiwizacji danych świetnie sprawują się rozwiązania optyczne i magnetooptyczne, głównie ze względu na dość dużą pojemność i niski koszt nośnika. Istnieją także rozwiązania hierarchicznego zarządzania danymi. Statystyki pokazują, że z 80% stworzonych danych nigdy już firma nie korzysta bądź korzysta bardzo rzadko. Rozwiązanie HSM (Hierarchical Storage Management) umożliwia przeniesienie najrzadziej wykorzystywanych danych na wolniejsze, ale tańsze nośniki. W wielu przypadkach oszczędność może być znacząca.

Kopia zapasowa

Kopia zapasowa to dodatkowe zabezpieczenie (kopia) nośników z backupem bądź zarchiwizowanymi danymi. Warto o niej pamiętać, bowiem taśmy, na których jest wykonywany backup, często są nadmiernie eksploatowane, a w wyniku tego ryzyko wykonania bezwartościowego (bo bez możliwości odzyskania danych) backupu znacznie rośnie.

Replikacja synchroniczna

Replikacja synchroniczna to zabezpieczanie danych w czasie rzeczywistym. Już podczas tworzenia lub modyfikowania danych jest wykonywana ich kopia, najczęściej w oddalonym o kilka kilometrów zapasowym centrum przetwarzania danych. Awaria serwera głównego od razu pozwala na kontynuowanie działalności, korzystając z danych zapasowych.

Możliwość wykonania replikacji synchronicznej jest ograniczona ze względu na odległość między centrum podstawowym a zapasowym. Dlatego wprowadzono możliwość wykonania replikacji asynchronicznej, w której dane są kopiowane z pewnym, z reguły kilkunastominutowym opóźnieniem.

Pewną formą replikacji asynchronicznej jest replikacja periodyczna. Tu też dane są kopiowane z opóźnieniem, ale o zdefiniowanych z góry porach.

Rodzaje backupów

Backup całościowy (full backup)

Procesowi backupu całościowego podlegają wszystkie dane, bit „archive” plików jest ustawiany w stan „0”.

Zalety:

  • łatwość wyszukiwania dowolnych danych (wszystkie znajdują się na jednym nośniku)
  • Odtworzenie systemu można przeprowadzić bardzo szybko

Wady:

  • Nieefektywne wykorzystanie nośników - cały czas są backupowane dane rzadko ulegające zmianom
  • Długi czas wykonywania operacji

Backup przyrostowy (incremental backup)

Zapisywane są tylko te dane, które powstały lub uległy zmianie od czasu przeprowadzenia ostatniego całościowego lub przyrostowego backupu; backupowane są pliki, które bit „archive” mają ustawione w stan „1”, a po tej operacji bit „archive” jest przestawiany w stan „0”.

Zalety:

  • Czas przeprowadzenia backupu jest bardzo krótki
  • Efektywne wykorzystanie nośników

Wady:

  • Trudność wyszukiwania danych (do odnalezienia zbioru są potrzebne wszystkie nośniki z backupami przyrostowymi oraz ostatni nośnik z backupem całościowym)
  • Długi czas odtworzenia systemu

Backup różnicowy (differential backup)

Zapisywane są tylko te dane, które uległy zmianie od czasu przeprowadzenia ostatniego całościowego lub przyrostowego backupu; backupowane są pliki, które bit „archive” mają ustawione w stan „1”. Po tej operacji nie ulega on zmianie.

Zalety:

  • łatwy sposób wyszukiwania dowolnych danych (do odnalezienia dowolnego zbioru potrzebne są maksymalnie dwa nośniki)
  • Odtworzenie systemu przeprowadza się stosunkowo szybko
  • Czas przeprowadzenia backupu dużo krótszy niż w przypadku backupu całościowego

Wady:

  • Nieefektywne wykorzystanie nośników; nadmiarowość backupów, dane które nie uległy zmianie, są cały czas backupowane
  • Dłuższy czas wykonywania operacji niż backupów przyrostowych

Backup lokalny

Zalety:

  • Prosta instalacja i konfiguracja
  • Szybki transfer danych
  • Krótki czas konieczny do wykonania backupu

Wady:

  • Konieczna regularna (często codzienna) ingerencja człowieka
  • Duże ryzyko wystąpienia tzw. błędu ludzkiego
  • Szybki wzrost kosztów (sprzętu, oprogramowania, administracji)
  • Utrudniona automatyzacja

Backup sieciowy

Zalety:

  • Centralne zarządzanie
  • Prosta „naturalna” automatyzacja
  • Niskie koszty administracji

Wady:

  • Bardzo duże obciążenie sieci
  • Wolny transfer danych
  • Stosunkowo długi czas konieczny do wykonania backupu
  • Słabe wykorzystanie możliwości sprzętu

Inne pokrewne tematy

Zobacz także

-
-