Under Construction

Connection Monitoring

Um Ausfälle und Nichterreichbarkeit von Managed Systems zu erkennen, kann auf den HMCs Connection Monitoring konfiguriert werden. Ist ein überwachtes Managed System dann nicht erreichbar, wird ein Service Event generiert. Connection Monitoring kann für jedes Managed System individuell aktiviert oder deaktiviert werden. Auf der HMC können Timer konfiguriert werden, welche bestimmen was als Nichterreichbarkeit gewertet wird.

Welche Managed System aktuell von einer (oder beiden) HMCs überwacht werden, kann mit dem Kommando „ms lsconnmon“ angezeigt werden:

$ ms lsconnmon
                     CONNMON
NAME  SERIAL_NUM  HMC1      HMC2
ms11  17G6G7S   Disabled  Disabled
ms12  07G6G8R   Disabled  Disabled
ms13  323B31V   Enabled   Enabled
ms14  323B31V   Enabled   Enabled

$

Besitzt ein Managed System eine Anbindung an zwei HMCs, dann kann das Managed System von beiden HMCs überwacht werden.

Die Überwachung für ein Managed System kann mit dem Kommando „ms enableconnmon“ aktiviert werden:

$ ms enableconnmon ms11
$

Die Überwachung wird auf beiden HMCs (falls vorhanden) aktiviert.

Um während geplanter Wartungsarbeiten keine Events zu generieren, kann die Überwachung für die Dauer der Wartungsarbeit deaktiviert werden. Hierfür kann das Kommando „ms disableconnmon“ verwendet werden:

$ ms disableconnmon ms11
$

Nach Abschluß der Wartungsarbeiten sollte die Überwachung aber wieder eingeschaltet werden, damit ein Ausfall des Managed Systems wieder erkannt wird.

Auf der HMC können drei Timer Werte konfiguriert werden, die bestimmen was als Ausfall oder Nichterreichbarkeit gewertet wird. Die aktuellen Werte der drei Timer lassen sich mit Hilfe des Kommandos „hmc lsconnmon“ anzeigen:

$ hmc lsconnmon
      OUTAGE        RECOVER    NEW
HMC    DISCONNECTED  CONNECTED  INCIDENT
hmc01  15            10         60
hmc02  30            2          20
$

Der erste Timer kann über das Attribut outage_disconnected_minutes gesetzt werden. Er gibt an nach wievielen Minuten Nichterreichbarkeit eines Managed Systems dies als Ausfall gewertet wird und entsprechend ein Service Event generiert wird. Der zweite Timer (Attribut recover_connected_minutes) gibt an, wie lange ein vorher nicht verfügbares Managed System wieder erreichbar sein muss, um als wiederhergestellt zu gelten. Dies soll verhindern das eine nur kurzfristige Erreichbarkeit als wiederhergestellt gilt. Der letzte Timer (Attribut new_incident_minutes) nach welcher Zeit eine erneute Nichterreichbarkeit als neuer Ausfall gelten soll. Ist ein Managed System nur für kurze Zeit wieder erreichbar und dann erneut nicht erreichbar, wird dies nicht als neuer Ausfall gewertet.

Die Timer-Werte können über die genannten Attribute über das Kommando „hmc chconnmon“ gesetzt werden:

$ hmc chconnmon hmc02 outage_disconnected_minutes=15 \
  recover_connected_minutes=10 new_incident_minutes=60
$

Hinweis: Bei einigen älteren HMC-Versionen müssen immer alle 3 Timer-Werte angegeben werden, auch wenn nicht alle Werte geändert werden!