33 users online | 33 Gäste und 0 Registrierte

Aufbau einer Benachrichtigungs-Mail


Collax Server überwachen alle systemkritische Funktionen und Komponenten aktiv mit Hilfe von fortlaufend wiederholten Tests, sowie der Auswertung von Parametern, die von Hardware-Sensoren oder Diensten zur Verfügung gestellt werden. Die aktive Überwachung von Collax Servern sendet bei auffälligen Ergebnissen eine Nachricht an eine hinterlegte E-Mail-Adresse. Das Subsystem zur Überwachung basiert auf dem Open-Source-Projekt Nagios.

 

Struktur des Betreffs

Im Betreff einer Nagios-Mail sind die wichtigsten Informationen angegeben:

     PROBLEM - cubenode1/Cluster Nodes is WARNING
     -------   --------- -------------    -------
       1)         2)          3)            4)

1) Art der Benachrichtigung (Notification Type)

An erster Stelle des Betreffs einer Benachrichtigungs-Mail wird die Art der Meldungen genannt. Folgende Arten können auftreten:

  • PROBLEM: Die Überwachung eines Dienstes oder eines Servers hat ein Problem erkannt.
  • RECOVERY: Die Überwachung eines Dienstes oder eines Servers hat erkannt, dass ein zuvor gemeldetes Problem nicht mehr auftritt.
  • ACKNOWLEDGEMENT: Ein Problem wurde durch einen Administrator bestätigt und gegebenenfalls kommentiert.


2) Name des Servers (Host)

An zweiter Stelle Name (Hostname) des Servers aufgeführt, auf dem das Problem entdeckt wurde.

 

3) Betroffene Komponente oder Dienst (Service)

Die dritte Stelle gibt an bei welcher Komponente oder welchem Dienst ein Problem erkannt wurde.

Nach diesem Kriterium sind die FAQs alphabetisch sortiert.

 

4) Zustand (State)

Wie schwerwiegend das Problem eingestuft wurde, ist an der letzten Stelle des Betreffs hinterlegt. Der Schweregrad kann folgende Status annehmen:

  • CRITICAL: Das Problem wurde als schwerwiegend eingestuft.
  • WARNING:  Es wurde ein Zustand erkannt, der nicht als ernst eingestuft wird, jedoch die Aufmerksamkeit eines Administrators notwendig machen kann.
  • UNKNOWN: Es kann keine eindeutige Zuordnung in eine der Kategorien vorgenommen werde.
  • PENDING: Es wurde noch kein Test durchgeführt, der einen Status ermitteln konnte. Die Überprüfung wird aber noch erfolgen.
  • OK: Die Komponente oder der Dienst läuft nach einem gemeldeten Problem wieder ordnungsgemäß.

Handelt es sich um einen Server oder Cluster-Node sind diese Zustände möglich:

  • DOWN: Der Server ist heruntergefahren
  • UNREACHABLE: Der Server konnte über das Netzwerk nicht erreicht werden.
  • UP: Der Server läuft nach einem gemeldeten Problem wieder ordnungsgemäß.
  • PENDING: Es wurde noch kein Test durchgeführt, der einen Status ermitteln konnte. Die Überprüfung wird aber noch erfolgen.

 

Struktur des Nachrichtentextes

Im Text der E-Mail werden die Informationen aus dem Betreff tabellarisch, ergänzt um die IP-Adresse, zusammengefasst.  Im zweiten Abschnitt (Additional Information) sind testspezifische Zusatzinformationen, die weitere Rückschlüsse auf das Problem geben können.

 

 

Notification Type: PROBLEM
 
         Service: Cluster Nodes
              Host: cubenode1
           Address: 127.0.0.1
             State: WARNING

---- Additional Information ----
Warning: offline node: cubenode2

 

Erläuterung des Beispiels

Die aktive Überwachung des Cluster-Nodes cubenode1 hat erkannt, dass der Node cubenode2 nicht mehr für den Cluster zur Verfügung steht. In diesem Fall wurde ein Update durchgeführt, woraufhin der Node neu gestartet wurde.

2015-05-07 17:46 Falk Krämer {writeRevision}
Durchschnittliche Bewertung: 5 (1 Abstimmung)

Kommentieren nicht möglich

Chuck Norris has counted to infinity. Twice.