Extrem schnell wachsendes /var/adm/wtmp

Kürzlich hatten wir auf einem unserer AIX SAP-Systeme ein volles /var-Filesystem. Es stellte sich heraus das ein auf 1.9 GB angewachsenes /var/adm/wtmp-File die Ursache war. Diese Datei war innerhalb kurzer Zeit auf fast 2 GB angewachsen. Es stellte sich die Frage was die extrem vielen Einträge produzierte. Um dies festzustellen wurde erst einmal der Inhalt der Datei in ASCII-Form angezeigt:

# cat /var/adm/wtmp  | /usr/sbin/acct/fwtmp
         ac02                         8 25690134 0000 0177 1558338990                                  Mon May 20 09:56:30 DFT 2019
         ac01                         8 27525310 0000 0177 1558338990                                  Mon May 20 09:56:30 DFT 2019
         ac00                         8 27525308 0000 0177 1558338990                                  Mon May 20 09:56:30 DFT 2019
ac00     ac00                         5 7864366 0000 0000 1558338990                                  Mon May 20 09:56:30 DFT 2019
ac01     ac01                         5 7864368 0000 0000 1558338990                                  Mon May 20 09:56:30 DFT 2019
ac02     ac02                         5 7864370 0000 0000 1558338990                                  Mon May 20 09:56:30 DFT 2019
         ac01                         8 7864368 0000 0177 1558338990                                  Mon May 20 09:56:30 DFT 2019
         ac00                         8 7864366 0000 0177 1558338990                                  Mon May 20 09:56:30 DFT 2019
…
#

Diese Einträge wiederholten sich endlos, teilweise gab es mehr als 50 Einträge innerhalb einer Sekunde! Die Zeichenketten „ac00“, „ac01“ und „ac02“ sind IDs aus der /etc/inittab. In der Spalte 2 bzw. 3 steht der Typ des Eintrags, hier 5 und 8. Die Bedeutung lässt sich über die Header-Datei /usr/include/utmp.h herausfinden:

# cat /usr/include/utmp.h
…
/*      Definitions for ut_type                                         */
…
#define INIT_PROCESS    5       /* Process spawned by "init" */
…
#define DEAD_PROCESS    8
…

Die Prozesse wurden von /etc/init gestartet und sind dann aber sofort wieder verstorben. Es sieht so aus, als würden hier Prozesse mit der Aktion „respawn“ gestartet, welche dann aufgrund eines Fehlers sofort wieder beendet werden. Wir schauen uns die zugeörigen inittab-Einträge an:

#  lsitab ac00    
ac00:2345:respawn:/oracle/NW1/acs/acsgen -D
#  lsitab ac01
ac01:2345:respawn:/oracle/NW1/acs/acsd
#  lsitab ac02
ac02:2345:respawn:/oracle/NW1/acs/fcmcli -D
#

Es handelt sich hier um Einträge von Oracle, die offensichtlich nicht wie beabsichtigt funktionieren.

In unserem Falle existierten schlicht die Binaries nicht an der angegebenen Stelle:

#  ls -l /oracle/NW1/acs/acsgen /oracle/NW1/acs/acsd /oracle/NW1/acs/fcmcli
ls: 0653-341 The file /oracle/NW1/acs/acsgen does not exist.
ls: 0653-341 The file /oracle/NW1/acs/acsd does not exist.
ls: 0653-341 The file /oracle/NW1/acs/fcmcli does not exist.
#

In Absprache mit den Oracle-Kollegen wurden die Einträge aus der /etc/inittab entfernt und damit das Problem behoben:

# rmitab ac00
# rmitab ac01
# rmitab ac02
#

Fehlerhafte Einträge in der /etc/inittab können eine schnell wachsende /var/adm/wtmp zur Folge haben.