Server sporadisch nicht mehr erreichbar

Welches Modul/Treiber für welche Hardware, Kernel compilieren...
Antworten
Kipperlenny
Beiträge: 23
Registriert: 31.05.2012 18:10:39

Server sporadisch nicht mehr erreichbar

Beitrag von Kipperlenny » 29.05.2019 15:53:49

Moin,

ich nutze einen Debian Server (v.a. für Web, Mail, DNS usw.) bei Hetzner. Dieser hat schon seit 2 Jahren das Problem, dass er alle 1-3 Monate nicht mehr erreichbar ist (ich schicke dann über den Hetzner Robot einen Reset Auftrag und er läuft wieder). Die letzten Tage ist es aber viel schlimmer geworden - ca. alle 1-2 Tage ist er offline. Hetzner hat einen defekten Lüfter gewechselt, als er plötzlich gar nicht mehr startete.

Ich vermute was in Richtung kernel/swap - weiß aber so gar nicht was und hoffe in diesen Forumsbereich richtig zu sein. In /var/log/messages findet sich (kurz vor dem nicht mehr erreichbar sein) sowas (hunderte Male):

NoPaste-Eintrag40742

Im syslog findet sich nichts. Wenn man gerade über SSH eingeloggt ist während es los geht, kann man sowas sehen:

Code: Alles auswählen

Message from syslogd@s2 at Sep  7 15:32:19 ...
 kernel:[446047.919548] NMI watchdog: BUG: soft lockup - CPU#3 stuck for 22s! [k                                     swapd0:77]
Braucht Ihr noch Infos? Könnt Ihr mir irgendwie helfen?

Linux s2 4.9.0-9-amd64 #1 SMP Debian 4.9.168-1+deb9u2 (2019-05-13) x86_64 GNU/Linux

Danke!
Lennart

Benutzeravatar
habakug
Moderator
Beiträge: 4313
Registriert: 23.10.2004 13:08:41
Lizenz eigener Beiträge: MIT Lizenz

Re: Server sporadisch nicht mehr erreichbar

Beitrag von habakug » 30.05.2019 11:55:55

Hallo,

du solltest schauen, ob ein Microcode-Update nötig ist [1].
Du hast:

Code: Alles auswählen

Hardware name: FUJITSU /D3401-H2, BIOS V5.0.0.12 R1.14.0 for D3401-H2x                    10/24/2017
Du solltest mindestens Debianintel-microcode installiert haben.

Gruss, habakug

[1] https://wiki.hetzner.de/index.php/HT_Mi ... _EX41_EX51
( # = root | $ = user | !! = mod ) (Vor der PN) (Debianforum-Wiki) (NoPaste)

Kipperlenny
Beiträge: 23
Registriert: 31.05.2012 18:10:39

Re: Server sporadisch nicht mehr erreichbar

Beitrag von Kipperlenny » 30.05.2019 13:36:50

intel-microcode is already installed at the requested version (3.20190514.1~deb9u1)
Und laut hetzner kommt dieser Fehler nur vor Versionen vom 05/15/2017 vor. Meine ist vom 10/24/2017

Benutzeravatar
habakug
Moderator
Beiträge: 4313
Registriert: 23.10.2004 13:08:41
Lizenz eigener Beiträge: MIT Lizenz

Re: Server sporadisch nicht mehr erreichbar

Beitrag von habakug » 30.05.2019 14:10:07

Hallo,

wird der microcode denn geladen?

Code: Alles auswählen

# journalctl -k | grep microcode
Die Fehlermeldung kommt aus dieser Datei [1]. Speicherfehler?

Code: Alles auswählen

May 27 08:08:08 s2 kernel: [55847.084942] WARNING: CPU: 2 PID: 77 at /build/linux-onOppc/linux-4.9.168/lib/list_debug.c:62 __list_lru_walk_one.isra.3+0xa8/0x130
May 27 08:08:08 s2 kernel: [55847.085966] list_del corruption. next->prev should be ffff9260394b33f8, but was ffff9260294b33f8
list-debug.c hat geschrieben:Failures here indicate memory corruption
Gruss, habakug

[1] https://git.kernel.org/pub/scm/linux/ke ... st_debug.c
( # = root | $ = user | !! = mod ) (Vor der PN) (Debianforum-Wiki) (NoPaste)

Kipperlenny
Beiträge: 23
Registriert: 31.05.2012 18:10:39

Re: Server sporadisch nicht mehr erreichbar

Beitrag von Kipperlenny » 30.05.2019 14:12:08

May 29 10:35:06 s2 kernel: microcode: microcode updated early to revision 0xb4, date = 2019-04-01
May 29 10:35:06 s2 kernel: microcode: sig=0x906e9, pf=0x2, revision=0xb4
May 29 10:35:06 s2 kernel: microcode: Microcode Update Driver: v2.01 <tigran@aivazian.fsnet.co.uk>, Peter Oruba
Die Hardware wurde komplett (außer Festplatten) getauscht (also Festplatten raus und in einen neuen Server rein). Das Problem blieb das gleiche.

Benutzeravatar
habakug
Moderator
Beiträge: 4313
Registriert: 23.10.2004 13:08:41
Lizenz eigener Beiträge: MIT Lizenz

Re: Server sporadisch nicht mehr erreichbar

Beitrag von habakug » 30.05.2019 16:27:58

Hallo,

was gibt

Code: Alles auswählen

# cat /sys/devices/system/cpu/vulnerabilities/mds
# cat /sys/devices/system/cpu/vulnerabilities/l1tf
# cat /sys/devices/system/cpu/smt/control
aus?
Nicht nur für den letzten Patch [1] ist an dem SLAB herumgedoktert worden.

Gruss, habakug

[1] https://security-tracker.debian.org/tra ... 2019-11683
https://www.kernel.org/doc/html/latest/ ... /l1tf.html
https://www.kernel.org/doc/html/latest/ ... n/mds.html
( # = root | $ = user | !! = mod ) (Vor der PN) (Debianforum-Wiki) (NoPaste)

Kipperlenny
Beiträge: 23
Registriert: 31.05.2012 18:10:39

Re: Server sporadisch nicht mehr erreichbar

Beitrag von Kipperlenny » 30.05.2019 16:30:08

root@s2 /home/lenny # cat /sys/devices/system/cpu/vulnerabilities/mds
Mitigation: Clear CPU buffers; SMT vulnerable
root@s2 /home/lenny # cat /sys/devices/system/cpu/vulnerabilities/l1tf
Mitigation: PTE Inversion; VMX: conditional cache flushes, SMT vulnerable
root@s2 /home/lenny # cat /sys/devices/system/cpu/smt/control
on

Antworten