HMC Fehler #25B810

Das Verwalten und Administrieren von Service-Ereignissen (Serviceable Events) wird auf HMCs gerne vergessen. In diesem Beitrag wollen wir an einem konkreten Beispiel, Fehler mit Referenz-Code #25B810, das Umgehen mit solchen Ereignissen zeigen. Zum Einsatz kommt hier natürlich unser LPAR-Tool.

Wir lassen uns zunächst einmal alle offenen Service Ereignisse anzeigen:

$ hmc lssvcevents
TIME                 PROBLEM  PMH   HMC     REFCODE   STATE     STATUS  CALLHOME  FAILING_MTMS      TEXT                                         
02/13/2019 23:02:31  7        -     hmc01   #25B810   approved  Open    false     8231-E2B/06A084P  File System alert event occurred...          
02/16/2019 16:14:28  8        -     hmc01   B3030001  approved  Open    false     8231-E2B/06A084P  ACT04284I A Management Console connect failed
02/11/2019 16:12:43  37       -     hmc02   B3030001  approved  Open    false     8231-E2B/06A084P  ACT04284I A Management Console connect failed
02/11/2019 17:43:19  38       -     hmc02   B3030001  approved  Open    false     8231-E2B/06A084P  ACT04283I A connection to a FSP,BPA...  
$

In diesem Beitrag soll es um das Problem mit der Nummer 7 gehen. Das Problem wurde am 13.02.2019 um 23:02:31 festgestellt, und von der HMC mit dem Namen hmc01 untersucht. Der Fehlercode ist #25B810. Das Problem befindet sich im Zustand „offen“ („open“), ein Call-Home wurde nicht ausgelöst. Als weitere Information entnehmen wir das das Problem auf dem Managed System mit der Seriennummer 06A084P aufgetreten ist, einer Power 710 (8231-E2B). Der Beginn der Fehlermeldung ist in der letzten Spalte zu finden.

Wir lassen uns zunächst den ganzen Datensatz zu dem Problem anzeigen, indem wir die Problem-Nummer und die HMC zusätzlich angeben

$ hmc lssvcevents -p 7 hmc01
analyzing_hmc: hmc01
analyzing_mtms: 7042-CR8/21009CD
approval_state: approved
callhome_intended: false
created_time: 02/14/2019 04:11:31
duplicate_count: 0
eed_transmitted: false
enclosure_mtms: 8231-E2B/06A084P
event_severity: 0
event_time: 02/13/2019 23:02:31
failing_mtms: 8231-E2B/06A084P
files: iqyymrge.log/Consolidated system platform log,
iqyvpd.dat/Configuration information associated with the HMC,
actzuict.dat/Tasks performed,
iqyvpdc.dat/Configuration information associated with the HMC,
problems.xml/XML version of the problems opened on the HMC for the HMC and the server,
refcode.dat/list of reference codes associated with the hmc,
iqyylog.log/HMC firmware log information,
PMap.eed/Partition map, obtained from 'lshsc -w -c machine',
hmc.eed/HMC code level obtained from 'lshmc -V' and connection information obtained from 'lssysconn -r all',
sys.eed/Output of various system configuration commands,
8231-E2B_06A084P.VPD.xml/Configuration information associated with the managed system
first_time: 02/14/2019 04:11:31
last_time: 02/14/2019 04:11:31
problem_num: 7
refcode: #25B810
reporting_mtms: 8231-E2B/06A084P
reporting_name: p710
status: Open
sys_mtms: 8231-E2B/06A084P
sys_name: p710
sys_refcode: #25B810
text: File System alert event occurred on /home/ios/CM/DB. Free space is less than 10%, or there was an error querying the filesystem.

Am Ende der Ausgabe finden wir die ungekürzte Fehlermeldung. Es geht um ein Filesystem, in dem weniger als 10% freier Platz verfügbar ist. Der Pfad „/home/ios/CM/DB“ deutet auf einen Virtual-I/O-Server hin. Die in Frage kommenden Virtual-I/O-Server befinden sich auf dem Managed System mit der Seriennummer 06A084P:

$ ms show 06A084P
NAME  SERIAL_NUM  TYPE_MODEL  HMCS        
p710  06A084P     8231-E2B    hmc01,hmc02
$

Es ist das Managed System mit dem Namen p710. Auf dem Managed System befinden sich die folgenden Virtual-I/O-Server:

$ vios -m p710 show
LPAR     ID  SERIAL    LPAR_ENV   MS    HMCs
aixvio1  1   06A084P1  vioserver  p710  hmc01,hmc02
$

Eine Überprüfung des Error-Reports auf dem Virtual-I/O-Server aixvio1 ergibt den folgenden Eintrag:

LABEL:          VIO_ALERT_EVENT
IDENTIFIER:     0FD4CF1A

Date/Time:       Wed Feb 13 22:02:31 CST 2019
Sequence Number: 98
Machine Id:      00F6A0844C00
Node Id:         aixvio1
Class:           O
Type:            INFO
WPAR:            Global
Resource Name:   /home/ios/CM/DB 

Description
Informational Message

Probable Causes
Asynchronous Event Occurred

Failure Causes
PROCESSOR

        Recommended Actions
        Check Detail Data

Detail Data
Alert Event Message
25b810
A File System alert event occurred on /home/ios/CM/DB. Free space is less than 10%, or there was an error querying the filesystem.

Diagnostic Analysis
Diagnostic Log sequence number: 19
Resource tested:        sysplanar0
Menu Number:            25B810
Description:


 File System alert event occurred on /home/ios/CM/DB. Free space is less than 10%, or there was an error querying the filesystem.

Eine kurze Überprüfung des Filesystems zeigt ,das das Problem schon bereinigt wurde, und es ausreichend Platz gibt:

$ df -g
Filesystem    GB blocks      Free %Used    Iused %Iused Mounted on
...
/dev/hd1           0.25      0.16   35%      111     1% /home
...
$ 

Das Problem besteht also nicht mehr. Daher sollte das Service-Event auf der HMC auch geschlossen werden, was wir nun auch tun:

$ hmc chsvcevent -o close -p 7 hmc01
$

Zur Überprüfung listen wir die noch offenen Service-Events auf:

$ hmc lssvcevents 
TIME                 PROBLEM  PMH  HMC     REFCODE   STATE     STATUS  CALLHOME  FAILING_MTMS      TEXT                                         
02/16/2019 16:14:28  8        -    hmc01   B3030001  approved  Open    false     8231-E2B/06A084P  ACT04284I A Management Console connect failed
02/11/2019 16:12:43  37       -    machmc  B3030001  approved  Open    false     8231-E2B/06A084P  ACT04284I A Management Console connect failed
02/11/2019 17:43:19  38       -    machmc  B3030001  approved  Open    false     8231-E2B/06A084P  ACT04283I A connection to a FSP,BPA...   
$    

Das Event mit der Nummer 7 wurde erfolgreich geschlossen.

Service-Events lassen sich mit dem LPAR-Tool also relativ leicht verwalten!

%d Bloggern gefällt das: