Das Verwalten und Administrieren von Service-Ereignissen (Serviceable Events) wird auf HMCs gerne vergessen. In diesem Beitrag wollen wir an einem konkreten Beispiel, Fehler mit Referenz-Code #25B810, das Umgehen mit solchen Ereignissen zeigen. Zum Einsatz kommt hier natürlich unser LPAR-Tool.
Wir lassen uns zunächst einmal alle offenen Service Ereignisse anzeigen:
$ hmc lssvcevents
TIME PROBLEM PMH HMC REFCODE STATE STATUS CALLHOME FAILING_MTMS TEXT
02/13/2019 23:02:31 7 - hmc01 #25B810 approved Open false 8231-E2B/06A084P File System alert event occurred...
02/16/2019 16:14:28 8 - hmc01 B3030001 approved Open false 8231-E2B/06A084P ACT04284I A Management Console connect failed
02/11/2019 16:12:43 37 - hmc02 B3030001 approved Open false 8231-E2B/06A084P ACT04284I A Management Console connect failed
02/11/2019 17:43:19 38 - hmc02 B3030001 approved Open false 8231-E2B/06A084P ACT04283I A connection to a FSP,BPA...
$
In diesem Beitrag soll es um das Problem mit der Nummer 7 gehen. Das Problem wurde am 13.02.2019 um 23:02:31 festgestellt, und von der HMC mit dem Namen hmc01 untersucht. Der Fehlercode ist #25B810. Das Problem befindet sich im Zustand „offen“ („open“), ein Call-Home wurde nicht ausgelöst. Als weitere Information entnehmen wir das das Problem auf dem Managed System mit der Seriennummer 06A084P aufgetreten ist, einer Power 710 (8231-E2B). Der Beginn der Fehlermeldung ist in der letzten Spalte zu finden.
Wir lassen uns zunächst den ganzen Datensatz zu dem Problem anzeigen, indem wir die Problem-Nummer und die HMC zusätzlich angeben
$ hmc lssvcevents -p 7 hmc01
analyzing_hmc: hmc01
analyzing_mtms: 7042-CR8/21009CD
approval_state: approved
callhome_intended: false
created_time: 02/14/2019 04:11:31
duplicate_count: 0
eed_transmitted: false
enclosure_mtms: 8231-E2B/06A084P
event_severity: 0
event_time: 02/13/2019 23:02:31
failing_mtms: 8231-E2B/06A084P
files: iqyymrge.log/Consolidated system platform log,
iqyvpd.dat/Configuration information associated with the HMC,
actzuict.dat/Tasks performed,
iqyvpdc.dat/Configuration information associated with the HMC,
problems.xml/XML version of the problems opened on the HMC for the HMC and the server,
refcode.dat/list of reference codes associated with the hmc,
iqyylog.log/HMC firmware log information,
PMap.eed/Partition map, obtained from 'lshsc -w -c machine',
hmc.eed/HMC code level obtained from 'lshmc -V' and connection information obtained from 'lssysconn -r all',
sys.eed/Output of various system configuration commands,
8231-E2B_06A084P.VPD.xml/Configuration information associated with the managed system
first_time: 02/14/2019 04:11:31
last_time: 02/14/2019 04:11:31
problem_num: 7
refcode: #25B810
reporting_mtms: 8231-E2B/06A084P
reporting_name: p710
status: Open
sys_mtms: 8231-E2B/06A084P
sys_name: p710
sys_refcode: #25B810
text: File System alert event occurred on /home/ios/CM/DB. Free space is less than 10%, or there was an error querying the filesystem.
Am Ende der Ausgabe finden wir die ungekürzte Fehlermeldung. Es geht um ein Filesystem, in dem weniger als 10% freier Platz verfügbar ist. Der Pfad „/home/ios/CM/DB“ deutet auf einen Virtual-I/O-Server hin. Die in Frage kommenden Virtual-I/O-Server befinden sich auf dem Managed System mit der Seriennummer 06A084P:
$ ms show 06A084P
NAME SERIAL_NUM TYPE_MODEL HMCS
p710 06A084P 8231-E2B hmc01,hmc02
$
Es ist das Managed System mit dem Namen p710. Auf dem Managed System befinden sich die folgenden Virtual-I/O-Server:
$ vios -m p710 show
LPAR ID SERIAL LPAR_ENV MS HMCs
aixvio1 1 06A084P1 vioserver p710 hmc01,hmc02
$
Eine Überprüfung des Error-Reports auf dem Virtual-I/O-Server aixvio1 ergibt den folgenden Eintrag:
LABEL: VIO_ALERT_EVENT
IDENTIFIER: 0FD4CF1A
Date/Time: Wed Feb 13 22:02:31 CST 2019
Sequence Number: 98
Machine Id: 00F6A0844C00
Node Id: aixvio1
Class: O
Type: INFO
WPAR: Global
Resource Name: /home/ios/CM/DB
Description
Informational Message
Probable Causes
Asynchronous Event Occurred
Failure Causes
PROCESSOR
Recommended Actions
Check Detail Data
Detail Data
Alert Event Message
25b810
A File System alert event occurred on /home/ios/CM/DB. Free space is less than 10%, or there was an error querying the filesystem.
Diagnostic Analysis
Diagnostic Log sequence number: 19
Resource tested: sysplanar0
Menu Number: 25B810
Description:
File System alert event occurred on /home/ios/CM/DB. Free space is less than 10%, or there was an error querying the filesystem.
Eine kurze Überprüfung des Filesystems zeigt ,das das Problem schon bereinigt wurde, und es ausreichend Platz gibt:
$ df -g
Filesystem GB blocks Free %Used Iused %Iused Mounted on
...
/dev/hd1 0.25 0.16 35% 111 1% /home
...
$
Das Problem besteht also nicht mehr. Daher sollte das Service-Event auf der HMC auch geschlossen werden, was wir nun auch tun:
$ hmc chsvcevent -o close -p 7 hmc01
$
Zur Überprüfung listen wir die noch offenen Service-Events auf:
$ hmc lssvcevents
TIME PROBLEM PMH HMC REFCODE STATE STATUS CALLHOME FAILING_MTMS TEXT
02/16/2019 16:14:28 8 - hmc01 B3030001 approved Open false 8231-E2B/06A084P ACT04284I A Management Console connect failed
02/11/2019 16:12:43 37 - machmc B3030001 approved Open false 8231-E2B/06A084P ACT04284I A Management Console connect failed
02/11/2019 17:43:19 38 - machmc B3030001 approved Open false 8231-E2B/06A084P ACT04283I A connection to a FSP,BPA...
$
Das Event mit der Nummer 7 wurde erfolgreich geschlossen.
Service-Events lassen sich mit dem LPAR-Tool also relativ leicht verwalten!