DATEV Rechenzentrum - 4. Mai 2020

Ein Blick tief ins Herz

Als wir uns Ende Dezember 2019 gegenseitig ein gesundes und erfolgreiches 2020 gewünscht haben, ahnten wir nicht, wie fromm diese Wünsche bleiben würden. Das bisherige Jahr verlief ganz anders als gedacht und erhofft. Und das liegt nicht nur an der Corona-Krise, deren Auswirkungen wir noch lange spüren werden.

Ein Beitrag von Prof. Dr. Peter Krug, Chief Technology Officer DATEV

Auch ohne Corona hätten wir mehr Arbeit gehabt als gewünscht, zumindest dieser Art. Im Februar und März haben uns und vor allem Ihnen große Störungen im Rechenzentrum schwer zu schaffen gemacht. Dass aus diesen Störungen bei einigen Mitgliedern ein Vertrauensverlust in DATEV und speziell in den Vorstand einherging, kann ich durchaus nachvollziehen. Das Rechenzentrum ist und bleibt das Herz unserer Dienstleistungen für den Berufsstand. Trotz der Störungen kann ich voller Überzeugung sagen: Wir haben alles getan und tun auch künftig alles dafür, dass dieses Herz so gleichmäßig wie möglich schlägt. Das sind natürlich erstmal nur Phrasen, dessen bin ich mir bewusst; und 100-prozentige Garantien für reibungslose Abläufe kann es dort, wo Menschen auf komplexe Technik treffen, nie geben – deshalb möchte ich Ihnen einen Einblick in unser DATEV-Herz gewähren. Zu den einzelnen Störungsursachen habe ich bereits in der DATEV-Community Stellung bezogen (Störung Februar / Störung März).

Vorweg: Vielfach wurde vermutet, dass die hohen Lastzahlen an den Störungstagen zu den Störungen geführt haben. Dem ist ganz entschieden nicht so. Dazu ein paar Zahlen aus dem Vorjahr. In dem haben wir in unserem Rechenzentrum insgesamt mehr als 352 Millionen eingereichte Belege verarbeitet – 36 Prozent mehr als noch 2018. Den Spitzenwert haben wir am 9. Dezember 2019 mit 2,15 Millionen eingereichten Belegen verzeichnet. Zum Vergleich: Der Tageshöchstwert 2018 lag bei 1,5 Millionen eingereichter Belege. Bei der Umsatzsteuervoranmeldung haben wir 2019 rund 600.000 Datensätze mehr übermittelt als noch im Jahr zuvor. Trotz Störung wurden am 10. März 2020 neue Spitzenwerte erreicht. So wurden an diesem Tag 2.210.152 Belege ins RZ gesendet und dort erfolgreich verarbeitet. Doch ist die Fehlersuche und -behebung unter großer Last schwieriger durchzuführen als zu ruhigeren Zeiten. Dennoch haben wir am 11. März haben auch diesen Wert noch einmal überschritten und 2.310.455 Belege im Rechenzentrum störungsfrei verarbeitet.

Doch zurück zu den allgemeinen Abläufen in unserem Rechenzentrum. Es bleibt dabei nicht aus, in Fachtermini abzudriften, schreibt man über das Rechenzentrum. Ich hoffe dennoch, dass ich Ihnen die Zusammenhänge so verständlich wie möglich darstellen kann, damit Sie nachvollziehen können, wie unser Rechenzentrum funktioniert und wie wir daran arbeiten, es stabil und störungsfrei zu halten; und auch, warum das manchmal leider nicht klappt, wenn sich mehrere unglückliche Umstände verketten.

Wie sehen die Prozesse in unserem Rechenzentrum aus?

Die IT Service Management Prozesse (ITSM) in unserem Rechenzentrum sind nach dem internationalen Standard IT Infrastructure Library (ITIL) organisiert und bilden damit die Grundlagen für wichtige Rechenzentrumszertifizierungen.  

Unser Rechenzentrum ist 24/7 organisiert. Das heißt, wir betreiben und überwachen unsere Anwendungen 24 Stunden am Tag und das an 365 Tagen im Jahr (und in diesem, wie in allen anderen Schaltjahren, natürlich auch einen zusätzlichen Tag). Die Mitarbeiter im Rechenzentrum sind deshalb – wo es notwendig ist – im Drei-Schicht-Betrieb vor Ort und über Bereitschaften organisiert. Spezialisten aus Software-Entwicklung und Administration sind rund um die Uhr für den Fall der Fälle erreichbar.

DATEV betreibt insgesamt Rechenzentren an vier Standorten. Durch Redundanzen stellen wir sicher, dass bei Störungen an einem Standort die anderen Standorte den Betrieb auffangen. Durch regelmäßige Übungen proben wir genau diese Konzepte für den Ernstfall. Darüber hinaus arbeiten wir bereits heute am Rechenzentrumskonzept von morgen, doch dazu später mehr.

Wie sieht unser Störungsmanagement aus?

Unsere Anwendungen werden 24/7 durch professionelle Monitoringsysteme überwacht. Diese schlagen bereits Alarm, wenn kritische Schwellenwerte erreicht werden. So können wir reagieren, bevor überhaupt eine Störung entsteht und damit vermeiden. Zusätzlich werden über automatisierte Systeme die wichtigsten Anwendungsprozesse überwacht. Sollte dies einmal nicht klappen, gibt es für jede Überwachung einen detaillierten Fahrplan, mit dem wir notwendige Maßnahmen durchführen können. Im Störungsfall erfolgt automatisiert eine Alarmierung und es beginnt unverzüglich eine Analyse der Situation, um Störungen schnellstmöglich beseitigen zu können. Parallel werden die Anwender über die Störungen informiert. Bei tiefergehenden Problemen werden weitere Spezialisten hinzugezogen. In Eskalationsfällen können wir auf die Entwicklungslabore der Hersteller zurückgreifen – so lief der Prozess zum Beispiel auch bei der Störung im März. Direkt nachdem die Störung auftrat, haben wir gemeinsam mit dem Hersteller nach der Ursache gesucht. Zudem kam ein Experte des Herstellers zu uns ins Haus, um die Beeinträchtigung schnellstmöglich zu beheben.

Bei großen Störungsbehebungen wird ein sogenannter Major Incident ausgerufen. In diesen Fällen treffen sich alle Experten in einem eigens dafür bereit gehaltenen Einsatzraum. Über den RZ-Status und die DATEV-Community werden unsere Kunden regelmäßig über den Status auf dem Laufenden gehalten.

Wie sieht unsere Störungsprävention aus?

Nach Störungsbehebung startet der Problem-Management-Prozess. Ziel ist es, wiederkehrende Beeinträchtigungen zu erkennen und dauerhafte Maßnahmen zur Störungsvermeidung zu identifizieren und zeitnah umzusetzen.

Bei der Software und Infrastruktur arbeiten wir zur Störungsprävention schon heute darauf hin, unsere Anwendungen im Ernstfall auf einem hohen Level zu isolieren. Das bedeutet, dass bei einer auftretenden Störung einer Anwendung nicht zeitgleich Störungseffekte in weiteren Anwendungen auftreten, zum Beispiel durch Staueffekte. Unsere technischen Systeme werden in sogenannten Hochverfügbarkeitsclustern betrieben. Fällt ein Großrechner in einem der RZ-Standorte aus, übernimmt automatisch ein anderer Standort. Diesen Vorgang bemerken wir in der RZ-Überwachung umgehend und reagieren entsprechend. Von diesen meist durch Hardware-Ausfall begründeten Störungen bekommen Sie als Nutzer der Anwendung nichts mit. So sollte es auch sein. Leider greifen diese Konzepte nicht immer. Gerade wenn Systeme nur teilweise einen Defekt aufweisen oder im Backup-Mechanismus selbst ein Fehler zu finden ist, bleibt eine Störung bis zu den Anwendungen leider nicht aus.  

Für zu erwartende hohe Lastspitzen reduzieren wir andere Maßnahmen auf ein absolutes Minimum, um den Betrieb störungsfrei zu halten. Zudem können wir mit sogenannten Frozen Zones kritische Phasen – wie etwa den Jahreswechsel – sichern, in dem wir alle Maßnahmen am Rechenzentrum auf ein notwendiges Mindestmaß herunterfahren, wie etwa für gesetzliche Änderungen oder unumgängliche sicherheitsrelevante Arbeiten, um einen reibungslosen Betrieb zu gewährleisten. Dabei geht es nicht darum, jegliche Änderungen zu unterbinden, sondern die notwendigen und unverzichtbaren Änderungen bewusst mit mehr gegenseitiger Kontrolle (Mehraugenprinzip) und kritischer Würdigung der möglichen Risikendurchzuführen. Eine solche Frozen Zone haben wir im Übrigen nach der März-Störung eingerichtet – sie läuft noch bis Anfang Mai. Wir beginnen bereits jetzt, diese Zeitstrecke intensiv zu analysieren und daraus Lessons Learned für den dann anschließenden Normalbetrieb abzuleiten.

Was unternehmen wir für mehr Sicherheit?

Sicherheit geht über die Virenprüfung und den Schutz vor Angriffen hinaus. Sicherheit steht bei DATEV synonym für den deutlich weitergreifenden Begriff Vulnerability (Verwundbarkeit). Auch im Rahmen der Informationssicherheit sind unsere Prozesse entscheidend. Wir unterziehen unsere Anwendungen nicht nur vor jedem großen Release einem Penetrationstest, durch den im Vorfeld mögliche Schwachstellen für Angriffe von Hackern aufgedeckt werden sollen. Vielmehr sichern wir zudem permanent die Daten unseres Rechenzentrums mehrfach und etablieren Konzepte für Wiederanlaufprozeduren nach Störungen.

In unserer DATEV-Software gilt Security by Design. Das heißt, wir schreiben jede einzelne Programmzeile bereits unter Berücksichtigung aller notwendigen Sicherheitsaspekte. Sicherheitsaspekte kann in einer Anwendung nicht erst im Nachhinein berücksichtigt werden, sie müssen von Anfang an sicher gebaut werden. Hierzu werden unserer Entwickler permanent geschult, stehen mit eigens in DATEV angestellten Sicherheitsexperten im engen Austausch und arbeiten mit externen IT-Security-Firmen zusammen. Bevor eine Anwendung aus der Entwicklung ins Rechenzentrum übergeben wird, erfolgen noch einmal spezielle Sicherheitsprüfungen.

Die Sicherheit unserer Daten ist nicht nur für die DATEV als Unternehmen von essentieller Bedeutung. Zudem ist die Verschwiegenheit ein wesentlicher Berufsgrundsatz unserer Mitglieder. Daher ist die Abschirmung vor Viren, Trojanern oder ähnlicher Schad-Software ein wesentlicher Eckpfeiler unserer Unternehmensstrategie, um unsere und die Vertrauenswürdigkeit unserer Mitglieder jederzeit zu gewährleisten. Hierzu arbeiten wir selbstverständlich mit namhaften Anbietern von Virenschutz-Software zusammen. Darüber hinaus entwickeln wir weitere Schutzmaßnahmen, um der DATEV ein höchstes Maß an Sicherheit zu bieten.

So werden sämtliche E-Mails, die an unsere Kunden weitergeleitet werden, für einen gewissen Zeitraum zwischengespeichert. Sofern bestimmte neuartige Viren erst durch Updates der Virenschutzhersteller entdeckt werden, wenden wir diese neuen Erkenntnisse auf den zwischengespeicherten Bestand an. Dadurch können wir unsere Kunden auch im Nachhinein auf etwaige Gefahren hinweisen, was gängige Virenschutzprogramme nicht leisten können.

Wir arbeiten bereits seit Jahren mit Konzepten des maschinellen Lernens. Demnach werden unsere Virendetektoren anhand von Schad-Software trainiert, die dann bei bestimmten Merkmalen gefährliche Inhalte von E-Mails erkennen.

Neben dem bereits erläuterten Security by Design haben wir mit unserem Security Operation Center (SOC) eine weitere Verteidigungslinie. Hier arbeiten IT-Sicherheitsspezialisten, deren Aufgabe die Erkennung und Abwehr von Cyberbedrohungen ist, kontinuierlich an der Verbesserung des Gesamtsicherheitsniveaus der DATEV. Das SOC analysiert die aktuelle generelle Bedrohungslage sowie die internen sicherheitsrelevanten Log-Daten aus dem IT-Infrastrukturbereich weitestgehend automatisch. Daraus generiert das SOC ein kontinuierliches Lagebild und schlägt aus den gewonnenen Erkenntnissen Maßnahmen zur Verbesserung des präventiven Schutzes vor. Dabei setzen wir auf moderne Analysetools.  Was mich besonders stolz macht: Ein Kollege durfte das SOC und den Einsatz eines solchen Tools vergangenes Jahr vor über 11.000 Experten auf einer Konferenz in Las Vegas vorstellen. Das zeigt, dass wir bei diesem Thema ganz vorne mitspielen.

Blick in die Zukunft

Das war der – zugegeben sehr technische – Status quo und Einblick ins DATEV-Rechenzentrum. Doch was bringt die Zukunft? Vertrauen zurückzugewinnen funktioniert natürlich nur, wenn wir auch in Zukunft stabil laufen und die Geschäftsprozesse unserer Kunden 24/7 unterstützen.

Im Hintergrund modernisieren und optimieren wir das heutige Rechenzentrum ständig. Parallel arbeiten wir bereits heute an einem zukunftsweisenden Rechenzentrum, das sich in seiner Architektur deutlich von dem heutigen RZ unterscheidet. Allzu viele technische Details kann ich dazu an dieser Stelle noch nicht verraten. Dafür bitte ich Sie um Verständnis. Nur so viel: Grundsätzlich steht der Schutz der Daten des Berufsstands für uns immer an erster Stelle. Wir haben uns ganz bewusst dafür entschieden, auf der grünen Wiese ein Projekt für die Entwicklung eines neuen modernen Rechenzentrums mit den aktuellsten Technologien zu starten. Also ein sogenanntes Cloud-native-Rechenzentrum. Cloud-native-Anwendungen bestehen aus kleinen, voneinander weitestgehend isolierten Bestandteilen. Diese können unabhängig voneinander parallel entwickelt werden und laufen später in voneinander isolierten Umgebungen im Rechenzentrum. So wird zum einen die Entwicklungsgeschwindigkeit erhöht und im Störungsfall beschränkt sich der Ausfall im besten Fall auf einzelne Komponenten. Da die Anwendungen eine grundlegend andere Architektur benötigen, werden wir morgen im heutigen Rechenzentrum nicht das Licht ausschalten und alle Anwendungen laufen im neuen Rechenzentrum. Das wird ein Prozess in mehreren Schritten sein.

Wir investieren damit gerade nicht nur in die Entwicklung neuer Online-Lösungen, sondern auch enorm viel in die Zukunft des Rechenzentrums. Im Hintergrund arbeiten bereits heute viele Kollegen daran, auch wenn Sie, unsere Kunden, davon aktuell noch nichts sehen.

Und, was kann ich Ihnen nun versprechen? Kann ich Ihnen versprechen, dass es nie wieder zu Störungen kommen wird? Nein, das kann ich Ihnen leider nicht versprechen. Das wird Ihnen kein Techniker der Welt für irgendein Rechenzentrum der Welt versprechen können. Es können immer wieder Konstellationen auftauchen, die zu Störungen führen. Dieser Tatsache müssen wir leider ins Auge sehen. Was wir als DATEV tun können und künftig verstärkt, ist Transparenz über unsere Prozesse zu schaffen und diese Prozesse noch mehr abzusichern, zu hinterfragen und beständig weiterzuentwickeln. Denn glauben Sie mir: Auf diese Tage wie im Februar und März können wir alle sehr gut verzichten, auch uns sind dabei viele graue Haare gewachsen.

Ich hoffe, ich konnte Ihnen mit diesem kleinen Blick in unser Herz ein paar neue Erkenntnisse verschaffen – diskutieren können wir darüber gerne in der DATEV-Community.

Zum Autor

Prof. Dr. Peter Krug

vereint als Chief Technology Officer (CTO) alle Entwicklungs- und Operationsfunktionen einschließlich Druck und Versand. In diesem Sinne verantwortet er die Digital- und Technologiestrategie der DATEV und den Betrieb des Rechenzentrums.

Weitere Artikel vom Autor