Vollautomatisiertes Adlerauge – IT-Geschäftsabläufe effizient überwachen

Acht Arme und 42 Augen müsste ein Systemadministrator haben, um jederzeit alle seine Systeme vollständig im Blick zu haben. Wie hoch ist die Netzwerklast? Glüht die CPU gerade genüsslich vor sich hin? Vergreift sich der Java-Prozess schon wieder am Arbeitsspeicher? Ist ein Login auf der Webseite noch möglich? Stauen sich die E-Mails auf dem Mailserver?

Eine kontinuierliche, manuelle Prüfung ist ein Ding der Unmöglichkeit, aber unabdingbar zur Erfüllung des täglichen Geschäfts. Die statische Prüfung von Werten ist zwar weit verbreitet, aber so dynamisch wie Ihr Unternehmen sollte auch die Überwachung der geschäftsrelevanten IT-Prozesse sein.

In der Regel sind nicht einzelne Werte dafür verantwortlich, ob ein Service dem Benutzer zur Verfügung steht, sondern eine Gruppe von Werten oder gar ein dynamischer Ablauf, der darüber entscheidet, ob ein Service zur Verfügung steht oder nicht. Was nützt die Auslieferung der Startseite eines Portals, wenn anstelle der Login-Maske ein "Service unavailable" erscheint oder der Login-Vorgang mehrere Minuten braucht, auch wenn der userspezifische Content binnen weniger Millisekunden zur Verfügung steht. Auch diese dynamischen Vorgänge lassen sich vollautomatisiert überwachen und bei entsprechender Wahl von Schwellenwerten lassen sich sogar die Probleme durch den Administrator bereits erahnen, bevor die Schmerzgrenze der Anwender überschritten ist und diese zum Telefon greifen. Eine solche Überwachung muss nicht zwingend intern erfolgen, sondern kann und sollte sogar - wenn die Dienste nach extern verfügbar sind - von extern überwacht werden. Denn hier spielt auch noch die Anbindung nach außen eine wichtige Rolle. Eine Router- oder Firewall-Fehlkonfiguration kann schnell dazu beitragen, einen Dienst von der Außenwelt abzuschotten, ohne es selbst zu merken.

Mit Standard-Tools wie Nagios und Icinga können Sie diese Anforderungen abbilden. Wer großen Aufwand bei der Einrichtung komplexer Testszenarien scheut, kann sich einen Teil der Arbeit durch Tools wie cucumber-nagios abnehmen lassen und für jeden gut lesbar Tests beschreiben, die sich dann in Nagios integrieren lassen oder die Überwachung an einen entsprechenden Partner abgeben. Dieser kann nicht nur die Überwachung, sondern auch die Problembehebung und das Reporting übernehmen.

Wie verfügbar ist meine Applikation wirklich?

Gerade das Reporting findet in der Regel immer erst dann statt, wenn man das Gefühl hat, dass der Service nicht mehr in ausreichendem Umfang zur Verfügung steht. Dann gilt es für die Administratoren, meist in kürzester Zeit managementfähige Statistiken zu erstellen, aus denen unmissverständlich die Verfügbarkeit eines Services hervorgeht. Gerade bei komplexen Szenarien keine leichte Aufgabe – vor allem dann nicht, wenn das Monitoring nicht die komplexe Service-Struktur als Gesamtkonstrukt betrachtet, sondern nur vereinzelte Dienste und Leistungsparameter überwacht. Hier kommen dann sogenannte Multi-Checks zum Einsatz, die einzelne Parameter entsprechend verknüpfen können und so ein realistisches Bild der Verfügbarkeit abbilden können. Als Königsdisziplin gilt dann das automatische Erstellen der benötigten Reports, um den Administrator nur noch mit Störungen zu belasten. Gerade im Rahmen von Service Level Agreements werden diese automatisierten Berichte in regemäßigen Abständen angefordert, um die Qualität des Services zu messen. Hier geht es also um mehr als nur nackte Zahlen – hier geht es um Geld, und daher sollten diese Berichte nicht nur selbsterklärend, sondern vor allen Dingen auch korrekt sein. Hier sind die Lösungen ebenso individuell wie die Services, deren Verfügbarkeit zu überwachen ist.

Gerne unterstützt Sie unser Beratungsteam aus dem IT-Service gemeinsam mit seinen Partnern bei der Anpassung oder Einführung einer Lösung.