
TL;DR#
Eine Hot Spare kann in ZFS automatisch in einen degradierten Pool einspringen und sofort ein Resilver starten. Der Rebuild läuft dann unter Produktionslast, ohne dass zuvor Backup- und Diagnose-Schritte abgeschlossen sind. In vielen Umgebungen ist ein Cold Spare + Incident-Playbook + verifizierte Backups die praktikablere Lösung.
Was ist ein Hot Spare (und was nicht)?#
- Hot Spare: Eine eingebaute, verfügbare Platte, die automatisch oder halbautomatisch als Ersatz aktiviert wird.
- Warm Spare: Eine eingebaute Platte im JBOD/Gehäuse, aber (noch) nicht als Spare zugewiesen (schnell aktivierbar bei Bedarf).
- Cold Spare: Eine getestete Ersatzplatte „im Regal“ (oder im Datacenter), die erst bei Bedarf eingebaut wird.
Nachteile von Hot Spares in ZFS#
Resilver startet bei Pool-Degradation#
Wenn ein Pool degradiert ist, ist die Situation bereits angespannt: höhere Last, weniger Redundanz, erhöhte Fehlerwahrscheinlichkeit. Ein automatisch startender Resilver bedeutet:
- Maximaler I/O über lange Zeit (bei großen HDDs schnell viele Stunden bis Tage)
- Konkurrenz zu Produktions-Workloads (Resilver läuft zwar mit Prioritäten, dauert dadurch aber noch länger)
- Zusätzlicher Stress auf verbleibenden, oft gleich alten Laufwerken
Gerade bei homogenen Batches (gleicher Hersteller, gleiche Serie, gleiche Laufzeit) ist das Risiko real, dass weitere Laufwerke während des Resilver-Prozesses ausfallen.
Automatisierung kann Diagnose-Schritte überspringen#
Nicht jedes Disk-Event bedeutet einen defekten Datenträger: Die Ursache kann auch außerhalb der Festplatte liegen – etwa Stromversorgung, Kabel, Backplane, HBA/Controller, Firmware-Reset oder Temperaturspitzen. Springt ein Hot Spare sofort ein, werden häufig wichtige Schritte übersprungen:
- Ursache nicht identifiziert
- Backup nicht frisch/verifiziert
- Fehlerbild wird durch den Rebuild überdeckt, während die eigentliche Ursache weiter besteht
Ein automatischer Einsatz des Spares kann zu einer Kaskade führen: erst ein Replacement, dann ein zweiter Fehler, dann Datenverlust – obwohl ein Spare vorhanden war.
Wann ein Hot Spare sinnvoll sein kann#
Mögliche Szenarien:
- Remote/Unattended Standorte (keine schnelle Hands-on-Reparatur möglich)
- Kurze Reaktionszeit hat Priorität (z.B. weniger kritische Systeme)
- Sehr gutes Monitoring/Alerting und klare Prozessdisziplin (Resilver wird beobachtet, Ursachenanalyse folgt sofort)
TrueNAS und kommerzielle Plattformen wie Open-E unterstützen Spares als Betriebskonzept. Entscheidend ist, ob das Gesamtsystem (Monitoring, Prozesse, Ersatzteilstrategie, Backup) dazu passt.
Empfehlung für die Praxis#
Alternative zu Hot Spare#
- Cold Spare + Burn-in: Ersatzplatten vorab testen (SMART, Oberflächentest, kurzer Stresstest).
- Reihenfolge im Incident:
- Backup anstoßen (falls nicht ohnehin eng getaktet) und Wiederherstellung stichprobenartig testen.
- Ursache prüfen (Disk vs. Slot vs. Kabel vs. HBA).
- Defekte Komponente ersetzen (nach Seriennummer/Slot identifizieren).
- Resilver starten und überwachen (Temperaturen, Fehlerzähler, Performance).
- Pool-Design: Für große HDDs und kritische Daten ist RAID-Z2/3 oder Mirrors oft die realistischere Risikoannahme als „RAID-Z1 + Hot Spare".
Wenn Hot Spare genutzt wird#
Empfehlungen:
- Resilver-Start als Alarm: Der Spare bedeutet nicht, dass alles in Ordnung ist – erhöhte Aufmerksamkeit ist erforderlich.
- Spare rotieren: Hot Spares nicht jahrelang unangetastet lassen; periodisch tauschen/validieren.
- Mehr als ein Spare bei großen Pools oder langen Lieferzeiten.
Fazit#
Hot Spares wirken wie eine einfache Automatisierung, die das Risiko reduziert. In ZFS belastet der automatische Resilver ein ohnehin degradiertes System zusätzlich. In vielen Umgebungen ist die praktikablere Strategie: robustes Pool-Layout, verifizierte Backups, Ursachenanalyse und ein getesteter Cold Spare.
Weiterführend: Der Artikel „Why a HOT SPARE Hard Disk Is a Bad Idea" liefert eine weitere Perspektive aus der Praxis: Open-E: Why a HOT SPARE Hard Disk Is a Bad Idea .
Wim Bonis ist CTO der Stylite AG und beschäftigt sich schwerpunktmäßig mit Storage und Netzwerktechnik.
