Es war ein Dienstagmorgen, als das Telefon klingelte und ein völlig aufgelöster IT-Leiter eines mittelständischen Fertigungsbetriebs am Apparat war. Er hatte am Vorabend zwei Festplatten in seinem Hauptserver getauscht, weil das System Warnmeldungen ausgab. Er dachte, er wisse, was er tut, schließlich lief dort ein Raid Redundant Array Of Inexpensive Disks, das genau für solche Ausfälle gebaut war. Doch beim Rebuild des Verbunds passierte das Unvermeidliche: Eine dritte Platte gab unter der massiven Leselast auf. Das Ergebnis? Ein kompletter Datenverlust der letzten fünf Jahre, ein stillstehendes Werk und Wiederherstellungskosten bei einem spezialisierten Labor, die im sechsstelligen Bereich lagen. Dieser Mann hat schmerzhaft gelernt, dass Theorie und Praxis in diesem Bereich zwei völlig verschiedene Welten sind. Er dachte, Hardware-Redundanz schützt ihn vor menschlichen Fehlern oder Pech. Er irrte sich gewaltig.
Die Lüge von der Unverwundbarkeit durch Raid Redundant Array Of Inexpensive Disks
Der größte Fehler, den ich in über fünfzehn Jahren Praxis sehe, ist die Annahme, dass Spiegelung oder Parität eine Datensicherung ersetzen. Das ist technischer Unsinn, der Firmen in den Ruin treibt. Ein Verbund schützt nur vor einer Sache: dem physikalischen Defekt einer oder mehrerer Festplatten, damit der Betrieb ohne Unterbrechung weitergeht. Er schützt nicht vor Ransomware, nicht vor versehentlichem Löschen durch einen Administrator und schon gar nicht vor einem defekten Controller, der korrupte Daten über alle Platten schreibt.
Wer glaubt, mit dieser Technik sicher zu sein, vernachlässigt oft die 3-2-1-Regel der Archivierung. Ich habe Systeme gesehen, bei denen die Verantwortlichen so stolz auf ihre Hardware waren, dass sie seit zwei Jahren kein externes Backup mehr geprüft hatten. Als der Blitz einschlug und die Überspannung den Controller sowie alle angeschlossenen Laufwerke grillte, war das Gejammer groß. Die Hardware-Redundanz ist eine Komfortfunktion für die Verfügbarkeit, kein Tresor für die Ewigkeit. Wenn du keine Kopie hast, die physisch von diesem System getrennt ist, hast du keine Sicherheit. Punkt.
Billige Festplatten in professionellen Gehäusen rächen sich sofort
Ein weiterer Klassiker ist der Versuch, beim Speichermedium zu sparen. Das Wort "Inexpensive" im Namen verleitet viele dazu, einfache Desktop-Platten in ein Rack zu schrauben. Das geht schief. Ich habe Projekte gesehen, bei denen nach sechs Monaten die Fehlerraten so hoch waren, dass das gesamte System nur noch im Schneckentempo arbeitete. Desktop-Laufwerke sind nicht für die Vibrationen ausgelegt, die entstehen, wenn acht oder zwölf Platten in einem engen Metallkäfig nebeneinander rotieren. Sie haben keine Vibrationssensoren und ihre Firmware gibt viel zu schnell auf, wenn sie einen Sektor nicht sofort lesen kann.
In einem professionellen Verbund muss eine Platte schnell entscheiden: Kann ich den Sektor lesen oder melde ich einen Fehler, damit der Controller die Daten aus der Parität errechnet? Eine Desktop-Platte versucht es minutenlang selbst, was dazu führt, dass der Controller denkt, das Laufwerk sei tot, und es aus dem Verbund wirft. Plötzlich stehst du vor einem degradierten System, nur weil du 50 Euro pro Laufwerk sparen wolltest. Am Ende zahlst du das Dreifache für den Austausch und den Stress.
Die Gefahr langer Rebuild-Zeiten bei modernen Kapazitäten
Früher, als wir mit 300 Gigabyte großen Platten gearbeitet haben, war ein Rebuild in zwei Stunden erledigt. Heute hängen 18 oder 22 Terabyte in den Schächten. Wenn dir da eine Platte im Raid Redundant Array Of Inexpensive Disks mit einfacher Parität ausfällt, dauert die Wiederherstellung Tage, nicht Stunden. Während dieser Zeit werden alle verbleibenden Platten bis an ihre Belastungsgrenze beansprucht. Die Wahrscheinlichkeit, dass in diesen 48 bis 72 Stunden eine weitere Platte stirbt, ist statistisch gesehen erschreckend hoch.
Ich habe Szenarien erlebt, in denen Administratoren während des Rebuilds nervös auf den Bildschirm starrten, während die Lesezugriffe auf 100 Prozent feststeckten. Jedes Mal, wenn ein Nutzer dann noch eine große Datei öffnete, stieg das Risiko eines Totalausfalls. In der modernen Welt ist ein einfacher Fehlerschutz oft nicht mehr genug. Man braucht mindestens eine doppelte Parität, um ruhig schlafen zu können, auch wenn das bedeutet, dass man noch mehr Bruttokapazität für die Sicherheit opfert. Wer hier knausert, spielt russisches Roulette mit seinen Firmendaten.
Warum Software-Lösungen oft die Hardware-Controller schlagen
Viele schwören immer noch auf teure Hardware-RAID-Controller mit Batterie-Backup. Das war vor zehn Jahren der Goldstandard. Heute sieht die Realität anders aus. Wenn dir ein proprietärer Controller stirbt, stehst du vor einem massiven Problem: Du brauchst exakt den gleichen Controller mit der exakt gleichen Firmware-Version, um an deine Daten zu kommen. Ich habe Nächte damit verbracht, auf eBay nach uralten Steckkarten zu suchen, weil ein Kunde kein Ersatzteil mehr im Lager hatte.
Moderne Dateisysteme, die auf Software-Ebene arbeiten, sind viel flexibler. Sie sind nicht an eine bestimmte Platine gebunden. Du kannst die Platten an fast jeden beliebigen Computer hängen, das Betriebssystem booten und die Daten importieren. Zudem erkennen diese Systeme schleichende Datenkorruption, den sogenannten Bit-Rot, den ein alter Hardware-Controller einfach ignorieren würde. Wer heute noch auf Hardware-Karten setzt, ohne einen identischen Ersatz im Schrank liegen zu haben, handelt fahrlässig. Es ist ein Single Point of Failure, den man leicht vermeiden kann.
Ein Vorher-Nachher-Vergleich aus der echten Welt
Schauen wir uns an, wie zwei verschiedene Firmen mit einem ähnlichen Problem umgegangen sind.
Firma A setzte auf ein klassisches System mit Hardware-Controller und einfacher Spiegelung. Als eine Festplatte ausfiel, piepte der Server. Der Techniker tauschte die Platte im laufenden Betrieb. Doch der Controller war überfordert, das System wurde extrem langsam, die Datenbanken der Buchhaltung quittierten den Dienst wegen Zeitüberschreitungen. Während des Rebuilds gab es einen Stromausfall. Da die Pufferbatterie des Controllers alt und schwach war, wurden die Daten im Cache nicht geschrieben. Das Dateisystem war danach korrupt. Es dauerte drei Tage, das System aus alten Bandlaufwerken wiederherzustellen, wobei die Daten der letzten 24 Stunden unwiederbringlich verloren waren.
Firma B nutzte einen modernen softwarebasierten Ansatz mit doppelter Parität und Prüfsummen für jeden Block. Als dort eine Platte ausfiel, passierte für die Nutzer gar nichts. Das System meldete den Fehler per E-Mail. Der Austausch erfolgte am nächsten Tag. Da das System wusste, welche Blöcke tatsächlich mit Daten belegt waren, musste es nicht die gesamte 12-Terabyte-Platte spiegeln, sondern nur die tatsächlich genutzten 4 Terabyte. Der Vorgang war nach wenigen Stunden abgeschlossen. Selbst ein simulierter Stromausfall hätte hier nichts zerstört, da das Dateisystem so konstruiert ist, dass es immer in einem konsistenten Zustand bleibt. Firma B hatte keinen einzigen Byte Datenverlust und keine Minute Ausfallzeit.
Vernachlässigte Wartung und das Schweigen der Warnsysteme
Der teuerste Fehler ist jedoch das Ignorieren von Warnsignalen. Ich kann nicht mehr zählen, wie oft ich in Serverräume gekommen bin, in denen eine rote LED leuchtete und niemand wusste, seit wann. "Das System läuft doch noch", ist die Standardausrede. In einem Fall lief ein Server über anderthalb Jahre mit einer defekten Platte. Als die zweite starb, war das Erstaunen groß.
Ein Speicherverbund ist kein "Set-and-forget"-System. Man muss die Logs lesen, man muss regelmäßige Integritätsprüfungen, sogenannte Scrubber-Läufe, einplanen. Dabei wird jede einzelne Stelle auf den Platten gelesen, um sicherzustellen, dass die Daten noch da sind. Festplatten sterben oft leise. Sie entwickeln defekte Sektoren in Bereichen, die selten gelesen werden. Wenn du diese Fehler erst bemerkst, wenn du die Daten für einen Rebuild brauchst, ist es zu spät.
- Richte eine E-Mail-Benachrichtigung ein, die bei jedem SMART-Fehler sofort alarmiert.
- Teste den Ernstfall: Ziehe eine Platte (in einer Testumgebung!) und schau, ob du das System wiederherstellen kannst.
- Tausche Festplatten proaktiv aus, wenn sie die vom Hersteller angegebene Laufzeit überschritten haben, meist nach fünf Jahren.
- Dokumentiere genau, welcher Schacht zu welcher Seriennummer gehört, damit du nicht die falsche Platte ziehst.
Der Realitätscheck für den Erfolg
Wer glaubt, dass Technik allein die Daten rettet, hat den Job nicht verstanden. Erfolg in der Datenspeicherung hat nichts mit glänzenden Prospekten von Hardware-Herstellern zu tun. Er hat mit Disziplin und Misstrauen zu tun. Du musst davon ausgehen, dass jede Komponente in deinem System genau in dem Moment versagt, in dem es am schlechtesten passt.
Ein stabiler Speicherbetrieb erfordert eine ehrliche Kalkulation der Kosten. Wenn du nicht das Budget hast, um zwei Paritätsplatten einzuplanen und zusätzlich ein Offline-Backup zu führen, dann ist dein Projekt von vornherein zum Scheitern verurteilt. Es gibt keine Abkürzung zur Datensicherheit. Wer am falschen Ende spart, zahlt später für den Datenretter – und das ist ein Vielfaches von dem, was gute Hardware und eine durchdachte Strategie gekostet hätten. Du musst dich entscheiden: Willst du jetzt ein bisschen mehr Geld ausgeben oder später deinen Job riskieren, wenn alles weg ist? Die Technik verzeiht keine Nachlässigkeit. Wer das nicht akzeptiert, sollte die Finger von Servern lassen. Es ist ein hartes Geschäft, in dem nur diejenigen überleben, die ihre Hausaufgaben machen und niemals aufhören, ihre eigenen Systeme zu hinterfragen. Es geht nicht um Hoffnung, sondern um Redundanz, die diesen Namen auch verdient.