[gelöst] kein sauberer Reboot, muss Server ausschalten

Hast Du Probleme mit Hardware, die durch die anderen Foren nicht abgedeckt werden? Schau auch in den "Tipps und Tricks"-Bereich.
Antworten
Benutzeravatar
jph
Beiträge: 1049
Registriert: 06.12.2015 15:06:07
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Greven/Westf.

[gelöst] kein sauberer Reboot, muss Server ausschalten

Beitrag von jph » 10.05.2018 11:34:52

Hallo zusammen,

ich verwende einen HP Proliant Microserver Gen8 mit Debian 9 als Heimserver für alles mögliche. Der Server ist headless im Keller untergebracht. Sicherheitsupdates werden über unattended-upgrades automatisch installiert und automatische nächtliche Reboots waren bislang erlaubt. „Bislang“ daher, weil der Server seit neuestem nicht mehr sauber rebootet.

Shutdown und Neustart:

Code: Alles auswählen

Mai 10 02:00:11 proliant systemd[1]: Shutting down.
Mai 10 02:00:11 proliant systemd[1]: Hardware watchdog 'HPE iLO2+ HW Watchdog Timer', version 0
Mai 10 02:00:11 proliant systemd[1]: Set hardware watchdog to 10min.
Mai 10 02:00:11 proliant kernel: hpwdt: Unexpected close, not stopping watchdog!
Mai 10 02:00:11 proliant kernel: systemd-shutdow: 46 output lines suppressed due to ratelimiting
Mai 10 02:00:11 proliant systemd-shutdown[1]: Sending SIGTERM to remaining processes...
Mai 10 02:00:11 proliant systemd-journald[213]: Journal stopped
-- Reboot --
Mai 10 02:02:15 proliant kernel: Linux version 4.9.0-6-amd64 (debian-kernel@lists.debian.org) (gcc version 6.3.0 20170516 (Debian 6.3.0-18+deb9u1) ) #
Mai 10 02:02:15 proliant kernel: Command line: BOOT_IMAGE=/boot/vmlinuz-4.9.0-6-amd64 root=UUID=2a485f0a-0fcc-4198-a92e-e0a9f854ac46 ro quiet
Mai 10 02:02:15 proliant kernel: x86/fpu: Supporting XSAVE feature 0x001: 'x87 floating point registers'
Mai 10 02:02:15 proliant kernel: x86/fpu: Supporting XSAVE feature 0x002: 'SSE registers'
Mai 10 02:02:15 proliant kernel: x86/fpu: Enabled xstate features 0x3, context size is 576 bytes, using 'standard' format.
Mai 10 02:02:15 proliant kernel: x86/fpu: Using 'eager' FPU context switches.
Mai 10 02:02:15 proliant kernel: e820: BIOS-provided physical RAM map:
Dass für den POST zwei Minuten vergehen, ist bei dem Server normal. Die letzten Einträge im syslog sind

Code: Alles auswählen

Mai 10 02:02:24 proliant systemd-timesyncd[447]: Network configuration changed, trying to establish connection.
Mai 10 02:02:24 proliant systemd[1]: Stopping Network Time Synchronization...
Mai 10 02:02:24 proliant systemd[1]: Stopped Network Time Synchronization.
Mai 10 02:02:24 proliant systemd[1]: Starting Network Time Synchronization...
Mai 10 02:02:24 proliant systemd[1]: Started Network Time Synchronization.
Mai 10 02:02:24 proliant systemd-timesyncd[520]: Synchronized to time server 192.168.178.1:123 (192.168.178.1).
Mai 10 02:02:24 proliant dhclient[443]: bound to 192.168.178.31 -- renewal in 337972 seconds.
Mai 10 02:02:24 proliant sh[424]: bound to 192.168.178.31 -- renewal in 337972 seconds.
Mai 10 02:02:24 proliant sh[424]: eno1=eno1
Mai 10 02:02:33 proliant systemd-networkd[239]: br0: Configured
Mai 10 02:02:33 proliant systemd-timesyncd[520]: Network configuration changed, trying to establish connection.
Mai 10 02:02:33 proliant systemd-timesyncd[520]: Synchronized to time server 192.168.178.1:123 (192.168.178.1).
Danach scheint der Rechner zu stehen. Er Ist nicht über ssh etc. zu erreichen; iLO meldet, dass die HP-Services nicht laufen.

Über iLO ist ein „sanftes“ Ausschalten (entspricht dem Drücken des Ausschaltknopfs) nicht möglich, Debian reagiert da nicht drauf. Ein „hartes“ Ausschalten über iLO (entspricht einem langen Drücken des Ausschaltknopfs) und anschließendes Wiedereinschalten resultiert in einem sauberen Bootvorgang und der Server ist wieder da, als sei nichts gewesen.

Wo fange ich an zu suchen?

Ich habe die Logs vom fehlgeschlagenen Boot und dem folgenden sauberen Boot hier abgelegt:
https://d9k1gvecv37f8cba.myfritz.net/ne ... oAL6XeHtN3
https://d9k1gvecv37f8cba.myfritz.net/ne ... w7AARDJmKL

Gruß

Jan
Zuletzt geändert von jph am 17.08.2018 18:50:55, insgesamt 1-mal geändert.

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: kein sauberer Reboot, muss Server ausschalten

Beitrag von rendegast » 11.05.2018 21:13:11

Funktioniert denn der Boot des Systems,
wenn Du statt des direkten Neustarts in der grub-Shell erstmal den Befehl 'reboot' ausführst?

Dann könnte mit grub-Shell-"Magie" vielleicht ein walkaround entwickelt werden.
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

cronoik
Beiträge: 2049
Registriert: 18.03.2012 21:13:42
Lizenz eigener Beiträge: GNU Free Documentation License

Re: kein sauberer Reboot, muss Server ausschalten

Beitrag von cronoik » 11.05.2018 21:32:53

Vielleicht ein btrfs Problem?

Code: Alles auswählen

771:Mai 10 02:02:16 proliant kernel: BTRFS error (device sdc1): open_ctree failed
Die restlichen Sachen smbd sind vielleicht nur eine Folge:

Code: Alles auswählen

862-Mai 10 02:02:24 proliant systemd[1]: smbd.service: Unit cannot be reloaded because it is inactive.
863-Mai 10 02:02:24 proliant sh[424]: smbd.service is not active, cannot reload.
864:Mai 10 02:02:24 proliant sh[424]: invoke-rc.d: initscript smbd, action "reload" failed.
865-Mai 10 02:02:24 proliant root[503]: /etc/dhcp/dhclient-enter-hooks.d/samba returned non-zero exit status 1
Hilf mit unser Wiki zu verbessern!

Benutzeravatar
jph
Beiträge: 1049
Registriert: 06.12.2015 15:06:07
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Greven/Westf.

Re: kein sauberer Reboot, muss Server ausschalten

Beitrag von jph » 19.05.2018 14:34:50

rendegast hat geschrieben: ↑ zum Beitrag ↑
11.05.2018 21:13:11
Funktioniert denn der Boot des Systems,
wenn Du statt des direkten Neustarts in der grub-Shell erstmal den Befehl 'reboot' ausführst?

Dann könnte mit grub-Shell-"Magie" vielleicht ein walkaround entwickelt werden.
Der Server steht headless im Keller und soll, sofern erforderlich, nach Updates automatisch rebooten. Das macht er irgendwann nachts ohne mein Zutun. Ich kann also nichts in die grub-shell eingeben.

Was mich wurmt, ist die Tatsache, dass ein Kaltstart zu funktionieren scheint, nicht aber ein Reboot.

Benutzeravatar
jph
Beiträge: 1049
Registriert: 06.12.2015 15:06:07
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Greven/Westf.

Re: kein sauberer Reboot, muss Server ausschalten

Beitrag von jph » 19.05.2018 14:36:49

cronoik hat geschrieben: ↑ zum Beitrag ↑
11.05.2018 21:32:53
Vielleicht ein btrfs Problem?

Code: Alles auswählen

771:Mai 10 02:02:16 proliant kernel: BTRFS error (device sdc1): open_ctree failed
Das hat mich auch gewundert, aber erst eimal ignoriert, denn das ist eine der Platten, auf denen die Daten liegen. Das Betriebssystem liegt in Gänze auf sda.

Beim Kaltstart taucht der Fehler nicht auf. Nur der Reboot hängt.

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: kein sauberer Reboot, muss Server ausschalten

Beitrag von rendegast » 19.05.2018 19:57:30

jph hat geschrieben: Der Server steht headless im Keller und soll, sofern erforderlich, nach Updates automatisch rebooten. Das macht er irgendwann nachts ohne mein Zutun. Ich kann also nichts in die grub-shell eingeben.
Einerseits ist es ja möglich, mal Tastatur und Monitor anzuhängen.
Weiterhin könnte vielleicht ein KVM-Switch im persönlichen Fundus vorhanden sein.

Letztlich könnte ein solcher Boot auch einfach so konstruiert werden, derart

Code: Alles auswählen

menuentry 'reboot-walkaround' $menuentry_id_option 'reboot-target' {
    reboot
}

Code: Alles auswählen

[grub-editenv - create]
grub-editenv - set next_entry=reboot-target
systemctl reboot
Dazu darf /boot aber nicht auf einem btrfs oder sonstigem von grub nicht beschreibbaren Dateisystem liegen,
da grub-Shell sonst nicht den next_entry löschen kann und das System in einer Schleife hinge.
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

Benutzeravatar
jph
Beiträge: 1049
Registriert: 06.12.2015 15:06:07
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Greven/Westf.

Re: kein sauberer Reboot, muss Server ausschalten

Beitrag von jph » 17.08.2018 18:50:25

Update: das Problem hat sich mittlerweile von selbst verflüchtigt. Vor ein paar Wochen habe ich die automatischen Reboots wieder aktiviert und da es seitdem einige Kernel- oder Intel-Microcode-Updates gab, hat der Rechner auch mehrfach Neustarts ausgelöst.

Funktioniert jetzt wie es soll. Wieso auch immer… :?:

Antworten