Notfallwiederherstellungs-Tests tragen dazu bei, dass sich Unternehmen von einer Betriebsunterbrechung effektiv erholen können. Aber zu wissen, welche Notfallwiederherstellungs-Szenarien zu testen sind, kann knifflig sein, besonders wenn sich einige Bedrohungen ständig weiterzuentwickeln scheinen.
Sollten Sie nur für Szenarien testen, die Ihre IT-Systeme betreffen? Nur Ihre Datensicherungssysteme?
Was ist mit Wiederherstellungsplänen für eine Pandemie? Was ist zum Beispiel, wenn Sie mit Personalengpässen, Unterbrechungen der Versorgungskette oder Heimarbeitspflicht-Anordnungen konfrontiert sind, die es erforderlich machen, dass Ihre Mitarbeiter aus der Ferne arbeiten?
In Wahrheit gibt es endlose Notfallwiederherstellungs-Szenarien, die Sie testen müssen, wenn Sie zu 100% auf jede erdenkliche Situation vorbereitet sein wollen. Aber nicht alle Unternehmen haben die Ressourcen oder die Zeit für solche ausführlichen Tests. Sehen wir uns also einige der wichtigsten Szenarien an, die getestet werden müssen.
Für welche Notfallwiederherstellungs-Szenarien soll getestet werden?
1) Datenverlust & Backup-Wiederherstellung
Dies ist eines der wichtigsten Notfallwiederherstellungs-Szenarien, auf das Sie testen sollten. Wenn es zu einem Datenverlust kommt, ist es wichtig, dass Ihr Unternehmen in der Lage ist, die Daten schnell aus einem Backup wiederherzustellen. Das gilt unabhängig davon, ob eine einzelne Datei gelöscht wurde oder ein ganzer Server ausgefallen ist. Wenn Daten nicht wiederhergestellt werden können, kann die Situation zu einem kostspieligen Alptraum werden.
Was genau testen Sie also?
In erster Linie müssen Sie testen, ob Ihre Backups funktionsfähig sind und wiederhergestellt werden können. Führen Sie Tests sowohl für die Wiederherstellung auf Dateiebene als auch für die Wiederherstellung des gesamten Rechners/Servers durch, um sicherzustellen, dass beides in einem realen Fall durchgeführt werden kann.
Einige Dinge, die Sie nach diesen Tests berücksichtigen sollten:
- Wie lange hat die Wiederherstellung gedauert?
- Wurden die RTO- und RPO-Ziele erreicht?
- Welche unerwarteten Probleme behinderten den Wiederherstellungsprozess, wenn überhaupt?
- Welche Verbesserungen könnten vorgenommen werden, um die Wiederherstellung zu beschleunigen?
Alle Tests sollten gut dokumentiert werden. Wenn Probleme auftreten, die Änderungen am Wiederherstellungsprozess erfordern (einschließlich Technologieeinsatz, Protokolle oder sogar die Testszenarien selbst), sollte der Notfallwiederherstellungs-Plan entsprechend aktualisiert werden.
2) Fehlgeschlagene Backups
Was passiert, wenn ein Backup nicht wiederhergestellt werden kann? Dies ist eine häufige Situation für Unternehmen, die sich auf traditionelle inkrementelle Backups verlassen, da es in der Backup-Kette zu Datenbeschädigungen kommen kann. Es handelt sich also um ein weiteres wichtiges Szenario, für das Unternehmen testen sollten.
Das Testen auf ein fehlgeschlagenes Backup umfasst in der Regel zwei Arten von Reaktionen:
- Fehlerbehebung des Problems, um zu sehen, ob das fehlgeschlagene Backup wiederhergestellt werden kann (wenn es die Zeit erlaubt)
- Wiederherstellung von einem anderen Backup
Wenn ein sekundäres Backup verfügbar ist und schnell wiederhergestellt werden kann, ist dies in der Regel vorzuziehen, anstatt Zeit mit dem Versuch zu verbringen, das ausgefallene Backup zu „reparieren“ oder zu rekonstruieren.
Die Wiederherstellung aus einem anderen Backup erfordert eine eigene Reihe von zusätzlichen Testszenarien.
Beispieltests:
- Wiederherstellung aus einem Cloud-Backup
- Bare-Metal-Wiederherstellung
- Backup-Virtualisierung
- Hypervisor-Wiederherstellung
- Hyper-V Replica-Tests & Wiederherstellung
- Export eines Backup-Images
- iSCSI-Wiederherstellung
Einige Datensicherungssysteme verfügen natürlich über zusätzliche Wiederherstellungsoptionen, mit der Sie weit verbreitete Dateiveränderungen, z. B. durch Ransomware, rückgängig machen können. Da jede BC/DR-Lösung einzigartig ist, sollten Sie regelmäßig alle möglichen Wiederherstellungsmethoden testen, um sicherzustellen, dass diese Optionen im Ernstfall auch tatsächlich nutzbar sind.
3) Testen der Backup-Verifikation
Das manuelle Testen Ihrer Backups ist immer eine gute Idee, kann aber auch sehr zeitaufwändig sein. Viele Backup-Systeme verfügen mittlerweile über automatische Backup-Verifizierungs-/Validierungsprüfungen, die diesen Prozess effizienter machen. So eine Lösung setzen wir auch bei unseren Kunden ein.
Der Zweck der Backup-Verifizierung ist es, zu überprüfen, ob ein Backup tatsächlich wiederhergestellt werden kann. Sie automatisiert den Testprozess und prüft jedes neue Backup auf Anzeichen von Datenbeschädigung oder andere Probleme, die den Wiederherstellungsprozess behindern könnten.
Obwohl die Verifizierungstests so konzipiert sind, dass sie automatisch ablaufen, erfordern sie dennoch einen Überblick. Einige Dinge sind zu beachten:
- Wie oft wird die Backup-Überprüfung durchgeführt?
- Ist sie richtig konfiguriert?
- Wie wird eine erfolgreiche Verifizierung (oder ein Fehlschlag) kommuniziert? Überprüft jemand aktiv die Testergebnisse?
- Nach welchen Arten von Problemen wird bei der Überprüfung gesucht? Haben Sie die Kontrolle über diese Überprüfungen?
4) Netzwerkunterbrechungen und -ausfälle
Ein längerer Netzwerkausfall kann genauso störend sein wie ein Datenverlust. Wenn das Netzwerk ausfällt – oder selbst wenn eine einzelne Arbeitsstation plötzlich keine Verbindung mehr herstellen kann – müssen IT-Manager schnell reagieren.
Das Testen Ihrer Vorbereitung auf Netzwerkunterbrechungen ist der beste Weg, um sicherzustellen, dass Sie in der Lage sind, Probleme schnell zu beheben, wenn sie tatsächlich auftreten. Es gibt eine Vielzahl von Netzwerktest-Tools, mit deren Hilfe gängige Katastrophenszenarien simuliert werden können.
Beispiele für Tests sind:
- Testen auf unerwartete Schwankungen im Netzwerkverkehr
- Probetests (Mock-Tests), die die Auswirkungen eines lähmenden Netzwerkangriffs nachbilden
- Netzwerkzustand-Tests, die potenzielle Probleme in bestimmten Teilen des Netzwerks identifizieren
- Bereitschaftstests, die sicherstellen, dass die IT-Teams in der Lage sind, schnell zu reagieren
Denken Sie daran, dass diese Tests niemals nur auf softwarebasierte Tests beschränkt sein sollten. Es ist von entscheidender Bedeutung, dass Netzwerkadministratoren diese Notfallwiederherstellungs-Szenarien routinemäßig testen und die Wiederherstellungsprotokolle tatsächlich durchspielen, um sicherzustellen, dass sie genau wissen, was bei einer echten Störung zu tun ist.
5) Hardware-Ausfall
Hardware-Ausfälle sind eine der häufigsten Ursachen für Datenverluste und Betriebsunterbrechungen, aber wie testet man darauf?
Oben haben wir die Bedeutung von Backup- und Wiederherstellungstests angesprochen. Aber das ist spezifisch für die Daten. Wie schnell werden Sie in der Lage sein, die defekte Hardware zu reparieren oder zu ersetzen? Die Antwort hängt größtenteils davon ab, wie gut sich Ihre Wiederherstellungs-Teams auf dieses Szenario vorbereitet haben.
- Wie wird ermittelt, ob die Hardware gerettet werden kann oder ausgetauscht werden muss?
- Wenn ein Austausch erforderlich ist, wie schnell kann die neue Hardware bereitgestellt werden?
- Wie kann die Notfallwiederherstellungs-Planung helfen, den Prozess zu beschleunigen? Gibt es zum Beispiel Lieferantenbeziehungen, die einen Austausch am selben Tag gewährleisten können?
All diese Fragen beziehen sich auf Prozesse, die routinemäßig überprüft und getestet werden sollten. Die Wiederherstellung der verlorenen Daten ist nur der erste Teil dieses Katastrophenszenarios. Eine vollständige Wiederherstellung der Hardware und der zugehörigen Systeme ist entscheidend für die Aufrechterhaltung der Geschäftskontinuität, weshalb das Testen aller Wiederherstellungsprotokolle so wichtig ist.
6) Ausfälle von Versorgungsunternehmen
Ein weiteres wichtiges Notfallwiederherstellungs-Szenario, das es zu testen gilt, ist ein plötzlicher Ausfall der Stromversorgung oder anderer Versorgungseinrichtungen. Diese Szenarien treten am häufigsten bei Unwettern und anderen Naturkatastrophen auf, können aber aus einer Reihe von Gründen auftreten.
Wenn diese und andere alltägliche Stromausfälle auftreten, sind Unternehmen in der Regel der Gnade des Versorgungsunternehmens ausgeliefert, um die Stromversorgung wiederherzustellen. Das heißt aber nicht, dass sie nichts tun können. Die Kosten eines Stromausfalls können schnell in die Höhe schießen, daher sollte jeder Versuch unternommen werden, den Betrieb mit anderen Mitteln wiederherzustellen.
Bei den ersten Anzeichen einer Versorgungsunterbrechung sollten Wiederherstellungsteams schnell handeln:
- Feststellen, ob der Ausfall auf das Gebäude beschränkt oder weit verbreitet ist
- Kommunikation mit dem Energieversorger, um den Ausfall zu melden und die voraussichtliche Behebung zu erfahren
- Überprüfen der Ersatzstromquellen, falls vorhanden, um sicherzustellen, dass sie ordnungsgemäß funktionieren
- Priorisierung der kritischen Dienste und des Personals in Bezug auf die Leistungseinschränkungen der Reservestromquellen und/oder Einsatz von Teams, die aus der Ferne arbeiten, wenn anderswo Strom verfügbar ist
Jedes dieser Protokolle sollte routinemäßig überprüft und getestet werden, um sicherzustellen, dass die Wiederherstellungsteams darauf vorbereitet sind, schnell zu handeln und genau zu wissen, was zu tun ist, wenn ein Ausfall auftritt.
7) Vor-Ort-Bedrohungen & physische Gefahren
Es gibt eine Reihe von Katastrophenszenarien, die für Ihre Mitarbeiter und Ihren Betrieb extrem schädlich sein können – und dennoch wenig mit Ihren IT-Systemen zu tun haben. Aus diesem Grund sollten Notfallwiederherstellungs-Tests (und Geschäftskontinuitäts-Tests) nicht strikt auf die IT beschränkt sein.
Das Testen verschiedener Krisenszenarien kann das Risiko eines Schadens für Ihr wertvollstes Gut erheblich reduzieren: Ihre Mitarbeiter. Und indem Sie Ihre Mitarbeiter schützen, schützen Sie auch Ihren Betrieb.
Zu berücksichtigende Tests:
- Evakuierungsübungen für Brände, Bombendrohungen und andere Gefahren vor Ort
- Notfallprozeduren für Erdbeben und andere plötzliche Naturkatastrophen (je nach Ihrem Geschäftsort)
- Testen der Kommunikationssysteme, mit denen die Mitarbeiter während einer lang anhaltenden Katastrophe auf dem Laufenden gehalten werden sollen
8) Unterbrechungen in der Belegschaft
Was passiert, wenn Mitarbeiter nicht zur Arbeit kommen können? Dies könnte eine Situation wie COVID-19 sein, bei der ein Virusausbruch die Mitarbeiter zwingt, zu Hause zu bleiben. Oder es könnte eine Reihe anderer Katastrophenszenarien sein:
- Terroristische Aktivitäten
- Stillstand des Verkehrs
- Arbeiterstreiks
- Gebäudeschäden oder strukturelle Mängel
- Längere Unzugänglichkeit des Gebäudes aufgrund von Naturkatastrophen oder Zwangsevakuierungen
Was auch immer das Szenario ist, Unternehmen können mit einer ernsthaften Betriebsunterbrechung konfrontiert werden, wenn Mitarbeiter nicht in der Lage sind, ihre Arbeit zu erledigen. Ein Plan B ist daher unerlässlich.
Als Reaktion auf die Coronavirus-Pandemie haben Unternehmen schnell auf Telearbeit umgestellt, aber viele waren nicht darauf vorbereitet, dies auf effektive Weise zu tun. Gestresste IT-Systeme verursachten zusätzliche Hindernisse und erhöhten die Cybersicherheitsrisiken. Vielen Unternehmen fehlten auch die Tools, um ihre Remote-Mitarbeiter zu rationalisieren, was die Produktivität noch weiter beeinträchtigte.
Hier können Tests helfen, weitaus bessere Ergebnisse zu erzielen. Unternehmen müssen routinemäßig ihre Bereitschaft für eine plötzliche Unterbrechung der Belegschaft bewerten und diese Protokolle auf den Prüfstand stellen. Das könnte Folgendes beinhalten:
- Testen von IT-Systemen und -Plattformen, die Remote-Arbeit ermöglichen
- Testen der Verfahren, die zur Aufrechterhaltung kritischer Abläufe beitragen
- Testen der Fähigkeit des Unternehmens, den Betrieb zu verlagern
Grundsätzlich sollte jeder Prozess oder jedes System getestet werden, der/das als Reaktion auf eine Personalunterbrechung eingesetzt werden soll.
Gerne sind wir Ihnen behilflich bei etwaigen Tests oder Erstellung von Plänen. Wir haben Vorlagen, mit denen wir gemeinsam schneller zum Ziel kommen. Rufen Sie uns einfach an.
Gründer und Inhaber der Firma hagel IT-Services GmbH. Natürlich leidenschaftlicher Technikfan und immer auf der Suche nach Verbesserungen.
Kommentarbereich geschlossen.