Deduplizierung ist eine innovative Technik, die die Speichersysteme moderner Rechenzentren maßgeblich umstrukturieren wird. Mit Deduplizierung ist grob folgender Umstand gemeint. Jede Datei wird beim sichern auf dem Speicher des Servers als digitales Bild gesichert. Unterschiedliche Dateien erzeugen unterschiedliche digitale Muster. Hierbei finden sich aber immer auch Gleichnisse. Diese Gleichnisse, falls sie von der Deduplizierunglösung (hier sind sowohl Hardware als auch Software denkbar) aufgespürt werden, werden nur einmal gespeichert und logisch verknüpft.
Grundsätzlich unterscheidet man zwei Möglichkeiten der Deduplizierung:
1. Postprocessing: Hier werden nach einem abgeschlossenen Speichervorgang die Dateien oder Blöcke auf Identitäten untersucht. Vorteil: Das Verfahren ist unkritisch für den eigentlichen Speichervorgang. Nachteil: Es benötigt zusätzliche Zeit, für die zumeist eine Ruhephase des eigentlichen Speichersystems erforderlich ist. Weiterhin benötigt es auch zusätzlichen Speicherplatz, um die Daten während es Postprozessing-Durchlaufs zu cachen.
2. Inline-Deduplizierung: Hier werden die Dateien während des eigentlichen Schreibvorganges gefiltert. Nachteil: Das Verfahren stellt hohe Anforderungen an die Leistungsfähigkeit der Deduplizierungs-Hardware und an einen intelligenten und schnellen Algorithmus. Vorteil: Das Verfahren bietet optimale Ergebnisse in der Deduplizierungsquote und funktioniert praktisch ohne Zeitverlust („on the fly“). Der Speicherplatz kann hier tatsächlich analog zur Deduplizierungsquote reduziert werden, da ein Duplikat das Storagesystem erst gar nicht erreicht.
Während nur die Inline-Deduplizierung echte Speichermengen verkleinern kann ist die Methode des Postprozessing inzwischen schon vielfach auf dem Markt vorhanden.
Technisch gibt es hier auch weitere Abstufungen. Diese beziehen sich vor allem auf den Grad der Deduplizierung. Ein hoher Grad sichert hohe Einsparungen an Speicherplatz. Ein hoher Grad wird zum Beispiel dadurch realisiert, dass sich der Deduplizierungsalgorihmus nicht nur auf Dateiredundanzen wie Updates bezieht, sondern echte Datenblöcke aufteilt und Sequenzen erkennt.