HMC Fehler #25B810

Das Verwalten und Administrieren von Service-Ereignissen (Serviceable Events) wird auf HMCs gerne vergessen. In diesem Beitrag wollen wir an einem konkreten Beispiel, Fehler mit Referenz-Code #25B810, das Umgehen mit solchen Ereignissen zeigen. Zum Einsatz kommt hier natürlich unser LPAR-Tool.

Wir lassen uns zunächst einmal alle offenen Service Ereignisse anzeigen:

$ hmc lssvcevents
TIME                 PROBLEM  PMH   HMC     REFCODE   STATE     STATUS  CALLHOME  FAILING_MTMS      TEXT                                         
02/13/2019 23:02:31  7        -     hmc01   #25B810   approved  Open    false     8231-E2B/06A084P  File System alert event occurred...          
02/16/2019 16:14:28  8        -     hmc01   B3030001  approved  Open    false     8231-E2B/06A084P  ACT04284I A Management Console connect failed
02/11/2019 16:12:43  37       -     hmc02   B3030001  approved  Open    false     8231-E2B/06A084P  ACT04284I A Management Console connect failed
02/11/2019 17:43:19  38       -     hmc02   B3030001  approved  Open    false     8231-E2B/06A084P  ACT04283I A connection to a FSP,BPA...  
$

In diesem Beitrag soll es um das Problem mit der Nummer 7 gehen. Das Problem wurde am 13.02.2019 um 23:02:31 festgestellt, und von der HMC mit dem Namen hmc01 untersucht. Der Fehlercode ist #25B810. Das Problem befindet sich im Zustand „offen“ („open“), ein Call-Home wurde nicht ausgelöst. Als weitere Information entnehmen wir das das Problem auf dem Managed System mit der Seriennummer 06A084P aufgetreten ist, einer Power 710 (8231-E2B). Der Beginn der Fehlermeldung ist in der letzten Spalte zu finden.

Wir lassen uns zunächst den ganzen Datensatz zu dem Problem anzeigen, indem wir die Problem-Nummer und die HMC zusätzlich angeben

$ hmc lssvcevents -p 7 hmc01
analyzing_hmc: hmc01
analyzing_mtms: 7042-CR8/21009CD
approval_state: approved
callhome_intended: false
created_time: 02/14/2019 04:11:31
duplicate_count: 0
eed_transmitted: false
enclosure_mtms: 8231-E2B/06A084P
event_severity: 0
event_time: 02/13/2019 23:02:31
failing_mtms: 8231-E2B/06A084P
files: iqyymrge.log/Consolidated system platform log,
iqyvpd.dat/Configuration information associated with the HMC,
actzuict.dat/Tasks performed,
iqyvpdc.dat/Configuration information associated with the HMC,
problems.xml/XML version of the problems opened on the HMC for the HMC and the server,
refcode.dat/list of reference codes associated with the hmc,
iqyylog.log/HMC firmware log information,
PMap.eed/Partition map, obtained from 'lshsc -w -c machine',
hmc.eed/HMC code level obtained from 'lshmc -V' and connection information obtained from 'lssysconn -r all',
sys.eed/Output of various system configuration commands,
8231-E2B_06A084P.VPD.xml/Configuration information associated with the managed system
first_time: 02/14/2019 04:11:31
last_time: 02/14/2019 04:11:31
problem_num: 7
refcode: #25B810
reporting_mtms: 8231-E2B/06A084P
reporting_name: p710
status: Open
sys_mtms: 8231-E2B/06A084P
sys_name: p710
sys_refcode: #25B810
text: File System alert event occurred on /home/ios/CM/DB. Free space is less than 10%, or there was an error querying the filesystem.

Am Ende der Ausgabe finden wir die ungekürzte Fehlermeldung. Es geht um ein Filesystem, in dem weniger als 10% freier Platz verfügbar ist. Der Pfad „/home/ios/CM/DB“ deutet auf einen Virtual-I/O-Server hin. Die in Frage kommenden Virtual-I/O-Server befinden sich auf dem Managed System mit der Seriennummer 06A084P:

$ ms show 06A084P
NAME  SERIAL_NUM  TYPE_MODEL  HMCS        
p710  06A084P     8231-E2B    hmc01,hmc02
$

Es ist das Managed System mit dem Namen p710. Auf dem Managed System befinden sich die folgenden Virtual-I/O-Server:

$ vios -m p710 show
LPAR     ID  SERIAL    LPAR_ENV   MS    HMCs
aixvio1  1   06A084P1  vioserver  p710  hmc01,hmc02
$

Eine Überprüfung des Error-Reports auf dem Virtual-I/O-Server aixvio1 ergibt den folgenden Eintrag:

LABEL:          VIO_ALERT_EVENT
IDENTIFIER:     0FD4CF1A

Date/Time:       Wed Feb 13 22:02:31 CST 2019
Sequence Number: 98
Machine Id:      00F6A0844C00
Node Id:         aixvio1
Class:           O
Type:            INFO
WPAR:            Global
Resource Name:   /home/ios/CM/DB 

Description
Informational Message

Probable Causes
Asynchronous Event Occurred

Failure Causes
PROCESSOR

        Recommended Actions
        Check Detail Data

Detail Data
Alert Event Message
25b810
A File System alert event occurred on /home/ios/CM/DB. Free space is less than 10%, or there was an error querying the filesystem.

Diagnostic Analysis
Diagnostic Log sequence number: 19
Resource tested:        sysplanar0
Menu Number:            25B810
Description:


 File System alert event occurred on /home/ios/CM/DB. Free space is less than 10%, or there was an error querying the filesystem.

Eine kurze Überprüfung des Filesystems zeigt ,das das Problem schon bereinigt wurde, und es ausreichend Platz gibt:

$ df -g
Filesystem    GB blocks      Free %Used    Iused %Iused Mounted on
...
/dev/hd1           0.25      0.16   35%      111     1% /home
...
$ 

Das Problem besteht also nicht mehr. Daher sollte das Service-Event auf der HMC auch geschlossen werden, was wir nun auch tun:

$ hmc chsvcevent -o close -p 7 hmc01
$

Zur Überprüfung listen wir die noch offenen Service-Events auf:

$ hmc lssvcevents 
TIME                 PROBLEM  PMH  HMC     REFCODE   STATE     STATUS  CALLHOME  FAILING_MTMS      TEXT                                         
02/16/2019 16:14:28  8        -    hmc01   B3030001  approved  Open    false     8231-E2B/06A084P  ACT04284I A Management Console connect failed
02/11/2019 16:12:43  37       -    machmc  B3030001  approved  Open    false     8231-E2B/06A084P  ACT04284I A Management Console connect failed
02/11/2019 17:43:19  38       -    machmc  B3030001  approved  Open    false     8231-E2B/06A084P  ACT04283I A connection to a FSP,BPA...   
$    

Das Event mit der Nummer 7 wurde erfolgreich geschlossen.

Service-Events lassen sich mit dem LPAR-Tool also relativ leicht verwalten!

LPAR-Tool ist ab sofort verfügbar

Ab 05.11.2018 ist das LPAR-Tool nun offiziell verfügbar!

Im Download-Bereich kann eine Version für Linux heruntergeladen werden (Versionen für AIX und MacOS folgen in Kürze), außerdem steht das Benutzerhandbuch für das LPAR-Tool dort ebenfalls zum Download bereit.

Um das LPAR-Tool kostenfrei zu Testen ist folgendes notwendig:

  1. Download der aktuellen Version des LPAR-Tools aus dem Download-Bereich.
  2. Anfordern einer Trial-Lizenz.
  3. Installation des LPAR-Tools (Ist im Benutzerhandbuch beschrieben).

Viel Spaß beim Testen des LPAR-Tools!

Welche HMC gehört zu einer LPAR

In der Regel weiß ein Administrator welche LPAR von welcher HMC verwaltet wird. In größeren Umgebungen, mit hunderten von LPARs und vielen HMCs, kann es aber trotzdem vorkommen, das man die Zugehörigkeit nicht mit Sicherheit kennt. Ist man auf einer LPAR eingeloggt, und hat diese eine aktive RMC-Verbindung zur HMC, dann kann man auf einfache Weise die HMC bzw HMCs herausfinden:

$ lsrsrc IBM.MCP
Resource Persistent Attributes for IBM.MCP
resource 1:
...
        KeyToken          = "hmc01"
        ...
        HMCName           = "7042CR6*XXXXXXX"
        HMCIPAddr         = "N.N.N.N"
...
resource 2:
...
        KeyToken          = "hmc02"
...
        HMCName           = "7042CR6*XXXXXXX"
        HMCIPAddr         = "N.N.N.N"
...

Die „resource 1“ stellt die erste HMC dar und, falls vorhanden, die „resource 2“ die zweite HMC. Das Attribute „KeyToken“ gibt den Namen der HMC an, das Attribute „HMCName“ ergibt das Model und die Seriennummer der HMC (hier durch XXXXXXX ersetzt). Das Attribut „HMCIPAddr“ liefert die IP-Adresse der HMC, hier durch N.N.N.N ersetzt.