Seltsame Netzwerkprobleme und plötzliche Reboots am Server

worker777 · Beitrag von **worker777** » 20.10.2020 14:59:18

Hallo Community,

ich habe mal meine Problemschilderung in diese Kategorie gestellt, da ich davon ausgehe, dass ein Hardwareproblem besteht - sicher bin ich mir jedoch nicht...
Bitte um Entschuldigung, dass die Schilderung 'etwas länger' ausgefallen ist. Ich wollte es eben so schildern, wie es sich zugetragen hat, um es möglichst nachvollziehbar zu machen...

Mein Heimserver dient mir lediglich als "Aufbewahrungsort" für meine Datensammlung und gelegentlich auch als "Hinhalte-Server", wenn ich neue Dinge (z.B. Nextcloud) ausprobieren/kennenlernen möchte, oder mal kurzfristig externen Festplattenspeicher brauche.

Die Hardware (schon etwas älter):
- Mainboard: "Asus M2A-VM (BIOS 02/04/2010)"
- CPU: "AMD Athlon 64 X2 Dual Core 5200+"
- RAM: 2x "2048MB - Kingston DDR2-667" und 2x "Kingston 2G-UDIMM DDR2-667"
- Netzwerkkarten (laut 'lspci'): 1x "OnBoard Marvell Technology Group Ltd. 88E8001 Gigabit Ethernet Controller", 1x "Realtek Semiconductor Ltd. RTL8111/8168/8411 PCI Express Gigabit Ethernet Controller"
- 3 SATA-Festplatten: sda (Linux [mit 'btrfs' als Filesystem]), sdb (Datenplatte [ext4]), sdc (FreeBSD)

Betriebssysteme (jeweils auf eigener Fesplatte installiert):
1. Debian-Linux 10.6 (Hauptbetriebssystem; Filesystem ist 'btrfs')
2. FreeBSD 12 (Übungs-/Testsystem)

Das Problem:
Seit geraumer Zeit (einige Monate) beobachte ich ein merkwürdiges Verhalten, was zuerst nur das Netzwerk anbelangte...
Da ich meinen Server nicht ständig brauche, schalte ich ihn lediglich ein, wenn er eben gebraucht wird.
Nach dem Einschalten ist es häufig passiert, dass Linux das Netzwerk (oder die Netzwerkkarte?) nicht richtig initialisiert hatte(?) - jedenfalls war keine Route routbar (z.B. kein Ping zum Haus-Router). Abhilfe schaffte ein Umstecken des Netzwerkkabels auf die jeweils andere Netzwerkkarte, oder ein aus- und wieder Einstecken des Netzwerkkabels in die selbe Netzwerkkarte.
Ich hatte deshalb die PCI-Netzwerkkarte gewechselt in der Hoffnung, dass dies Abhilfe schaffen würde, jedoch trat keine Verhaltensänderung zu Tage.

Mit der Zeit merkte ich, dass das System aber auch im Laufenden Betrieb "Aussetzer" hatte, was das Netzwerk angeht.
Z.B. wurden plötzlich SSH-Sessions, oder das Übertragen von Dateien [mittels Samba] unterbrochen. Nach einer Weile war der Server aber dann wieder erreichbar...

Vor einigen Tagen habe ich mich direkt (physisch) am Server [als root] eingeloggt, um dem ganzen auf den Grund zu gehen und wollte den Midnight-Commander starten, da ich damit sehr gerne arbeite. Zu meinem Erstaunen führte das Starten des Midnight-Commanders dazu, dass die Serverkiste ganz plötzlich (ohne herunterzufahren) neu bootete.
Als normaler User kann ich den Midnight-Commander normal starten und auch benutzen, jedoch als root-User startet der Server immer sofort neu.

Daraufhin hatte ich den 'mc' neu installiert - jedoch selbe Verhalten.
Nun hatte ich die Festplatte als den Übeltäter im Auge und führte 'badblocks' aus. Es kamen einige Fehler heraus. So beschloss ich eine neue Festplatte einzubauen und Debian 10.6 neu zu installieren - gesagt, getan...
Anschliessend auch den Midnight-Commander installiert und ... selbes Problemverhalten :-/

Meine nächster Versuch war den RAM mit 'MemTest 5' zu checken. Hier habe ich auch ein seltsames Verhalten festgestellt, welches aber wohl nicht unbedingt auf einen RAM-Defekt hindeuten muss: Und zwar ist es so, dass wenn ich den Test so starte, dass alle Kerne genutzt werden, nach einer Weile [ca. 45 Minuten] der Rechner einfriert - ohne dass RAM-Fehler gemeldet/gefunden wurden.
Wenn ich den Test mit der Benutzung von nur einem CPU-Core starte, läuft der Test durch (Pass: 1) - ohne RAM-Fehler.

Ich vermute mal daher, dass eventuell die 2. CPU-Einheit im Prozessor 'defekt' ist(?)...

Unter FreeBSD hab ich den RAM auch testen wollen, doch irgendwie hat da der 'memtester' nur 1980MB zum testen gefunden/zur Verfügung gehabt(?)...
Dieser Test lief 'OK' durch.
Übrigens: Unter FreeBSD habe ich keine Probleme festgestellt - auch der Midnight-Commander läuft da problemlos.

Unter Linux habe ich nen CPU-StressTest mit 'stress' durchgeführt und zwar mit Parameterwerten welche die Kiste total am Anschlag fuhren - über einige Stunden hindurch .... ohne Probleme.
Dabei habe ich allerdings einen Temperaturunterschied zwischen Core 0 und Core 3 von bis zu 8 Grad festgestellt. Überwiegend war der Temperaturunterschied aber ca. 2-4 Grad und die Temperaturen der einzelnen Cores gingen auch nie über 70 Grad hinaus.
(Der Prozessor sitzt gerade auf dem Sockel)

Seit neuestem lande ich beim Booten im 'emergency-mode' und die Logfiles geben - meiner Ansicht nach - auch keinen rel. Hinweis darauf, was die Probleme verursachen könnte...
'kern.log':

Code: Alles auswählen

ACPI Error: AE_NOT_FOUND, While resolving a named reference package element - LNKC (20180810/dspkginit-414)
[^- Diese Meldung wiederholt sich ca. 28x]
...
ACPI Error: AE_NOT_FOUND, While resolving a named reference package element - \_PR_.CPU0 (20180810/dspkginit-414)
...
ACPI: PCI Interrupt Link [LNKA] (IRQs 3 4 5 6 7 10 11) *0, disabled.
ACPI: PCI Interrupt Link [LNKB] (IRQs 3 4 5 6 7 10 11) *0, disabled.
ACPI: PCI Interrupt Link [LNKC] (IRQs 3 4 5 6 7 10 11) *0, disabled.
ACPI: PCI Interrupt Link [LNKD] (IRQs 3 4 5 6 7 10 11) *0, disabled.
ACPI: PCI Interrupt Link [LNKE] (IRQs 3 4 5 6 7 *10 11)
ACPI: PCI Interrupt Link [LNKF] (IRQs 3 4 *5 6 7 10 11)
ACPI: PCI Interrupt Link [LNK0] (IRQs 3 4 5 6 7 10 *11)
ACPI: PCI Interrupt Link [LNK1] (IRQs 3 4 5 6 7 10 11) *0, disabled.
...
[drm] radeon: 1 quad pipes, 1 z pipes initialized.
[drm] PCIE GART of 512M enabled (table at 0x00000000D7880000).
radeon 0000:01:05.0: WB enabled
radeon 0000:01:05.0: fence driver on ring 0 use gpu addr 0x00000000a0000000 and cpu addr 0x000000003f5300a8
[drm] Supports vblank timestamp caching Rev 2 (21.10.2013).
[drm] Driver supports precise vblank timestamp query.
radeon 0000:01:05.0: radeon: MSI limited to 32-bit
radeon 0000:01:05.0: radeon: using MSI.
[drm] radeon: irq initialized.
[drm] Loading RS690/RS740 Microcode
kvm: disabled by bios
radeon 0000:01:05.0: firmware: failed to load radeon/RS690_cp.bin (-2)
firmware_class: See https://wiki.debian.org/Firmware for information about missing firmware
radeon 0000:01:05.0: Direct firmware load for radeon/RS690_cp.bin failed with error -2
[drm:r100_cp_init [radeon]] *ERROR* Failed to load firmware!
radeon 0000:01:05.0: failed initializing CP (-2).
radeon 0000:01:05.0: Disabling GPU acceleration
...

'syslog':

Code: Alles auswählen

...
ifup[464]: Cannot find device "enp2s0"
ifup[464]: ifup: failed to bring up enp2s0
ifup[464]: Cannot find device "enp3s5"
ifup[464]: ifup: failed to bring up enp3s5
systemd[1]: Started Clean PHP session files every 30 mins.
systemd[1]: Reached target Timers.
systemd[1]: Starting System Logging Service...
systemd[1]: Starting Login Service...
systemd[1]: networking.service: Main process exited, code=exited, status=1/FAILURE
systemd[1]: networking.service: Failed with result 'exit-code'.
systemd[1]: Failed to start Raise network interfaces.
systemd[1]: Starting Clean php session files...
systemd[1]: Reached target Network.
...

Also ich bin mit meinem Latein am Ende und hoffe, dass mir hier jemand einen Tipp geben kann, der mich der Problemlösung näher bringen kann.

Grüsse
worker777

PS: Was mir jetzt noch als mögliche Fehlerquelle eingefallen ist: Ist btrfs jetzt ausgereift, oder können die o.g. Probleme daher kommen?

[ Problem hier teilweise erkannt/behoben. ]

bluestar · Beitrag von **bluestar** » 20.10.2020 15:41:26

Du könntest deinem Linux-Kernel beim Booten mal die Option "nosmp" mitgeben und schauen, wie sich der Rechner dann verhält.

MSfree · Beitrag von **MSfree** » 20.10.2020 15:56:29

worker777 hat geschrieben:
20.10.2020 14:59:18
Code: Alles auswählen
...
ifup[464]: Cannot find device "enp2s0"
...
ifup[464]: Cannot find device "enp3s5"
...

Hast du schonmal mit

Code: Alles auswählen

ip a

nachgeschaut, wie deine Netzwerkkarten heißen?

worker777 · Beitrag von **worker777** » 20.10.2020 16:11:19

bluestar hat geschrieben:
20.10.2020 15:41:26
Du könntest deinem Linux-Kernel beim Booten mal die Option "nosmp" mitgeben und schauen, wie sich der Rechner dann verhält.

Soeben getan...
Ergebnis:

Code: Alles auswählen

...
[0.568095] ACPI Error: AE_NOT_FOUND, While resolving a named reference package element - LNKC (20180810/dspkginit-414)
[^- Diese Meldung wiederholt sich]
...
[0.568489] ACPI Error: AE_NOT_FOUND, While resolving a named reference package element - \_PR_.CPU0 (20180810/dspkginit-414)
[1.990189] r8169 0000:02:00.0: Can't allocate interrupt
[10.582783] NMI watchdog: Watchdog detected hard LOCKUP on cpu 0

Danach friert der Server ein...

worker777 · Beitrag von **worker777** » 20.10.2020 16:18:04

MSfree hat geschrieben:
20.10.2020 15:56:29
worker777 hat geschrieben:
20.10.2020 14:59:18
Code: Alles auswählen
...
ifup[464]: Cannot find device "enp2s0"
...
ifup[464]: Cannot find device "enp3s5"
...
Hast du schonmal mit
Code: Alles auswählen
ip a
nachgeschaut, wie deine Netzwerkkarten heißen?

'ip a' zeigt mir die o.g. Bezeichnungen (lo, enp2s0, enp3s5)

bluestar · Beitrag von **bluestar** » 20.10.2020 16:18:33

Welche Kernel-Version hast du eigentlich im Einsatz ?

worker777 · Beitrag von **worker777** » 20.10.2020 16:30:29

bluestar hat geschrieben:
20.10.2020 16:18:33
Welche Kernel-Version hast du eigentlich im Einsatz ?

4.19.0-11-amd64 #1 SMP Debian 4.19.146-1

mat6937 · Beitrag von **mat6937** » 21.10.2020 09:57:32

worker777 hat geschrieben:
20.10.2020 14:59:18
.... - jedenfalls war keine Route routbar (z.B. kein Ping zum Haus-Router). Abhilfe schaffte ein Umstecken des Netzwerkkabels auf die jeweils andere Netzwerkkarte, oder ein aus- und wieder Einstecken des Netzwerkkabels in die selbe Netzwerkkarte.

Wie sind in so einem Fall, die Ausgaben von:

Code: Alles auswählen

arp -av
route -n

? Welchen Haus-Router hast Du?

worker777 · Beitrag von **worker777** » 21.10.2020 16:55:37

mat6937 hat geschrieben:
21.10.2020 09:57:32

worker777 hat geschrieben:
20.10.2020 14:59:18
.... - jedenfalls war keine Route routbar (z.B. kein Ping zum Haus-Router). Abhilfe schaffte ein Umstecken des Netzwerkkabels auf die jeweils andere Netzwerkkarte, oder ein aus- und wieder Einstecken des Netzwerkkabels in die selbe Netzwerkkarte.
Wie sind in so einem Fall, die Ausgaben von:
Code: Alles auswählen
arp -av
route -n
? Welchen Haus-Router hast Du?

Nun, ich denke, dass das irrelevant ist, sich hier mit dem Routing zu beschäftigen, denn:
1. Alle sonstigen PCs/Laptops im Haushalt arbeiten diesbezüglich ohne Probleme - also am Router liegt's nicht
2. Die Netzwerkkarten bekommen nicht mal nen LINK, werden also zuerst garnicht hardwareseitig initialisiert
3. Siehe mein UpDate, welches ich gleich posten werde

...

Trotzdem danke für Deine Mühe.

worker777 · Beitrag von **worker777** » 21.10.2020 17:00:41

Also, UpDate [Problem teilweise behoben] ...

Hab jetzt noch etliche Dinge Probiert, wie
- vorherige BIOS-Versionen flashen und wieder zurück zur aktuellen Version
- RAM-Test (memtest86) mit nur 2GB-RAM - Speicherriegel
- Verringerung des CPU- und RAM-Taktes
... alle diese Versuche brachten keine Besserung.

Schlussendlich probierte ich Debian 10.6 auf nem ext4-FS zu installieren und siehe da, der Midnight-Commander verursachte keinen plötzlichen Reset
mehr. Da habe ich Debian wieder auf nem btrfs-FS installiert und auch dieses mal kein plötzliche Reset durch den Midnight-Commander...
Das war seltsam .... bis ich das Verzeichnis '/root' nach '/home/root' kopiert und '/home/root' nach '/root' verlinkt (symlink) hatte!
Ab da fingen die Probleme mit dem harten Reset wieder an, wenn ich den Midnight-Commander gestartet hatte. Ich dachte, ich falle gleich vom Stuhl...!!
Kann mir DAS bitte jemand erklären?!

Die Probleme mit dem Netzwerk habe ich jedoch teilweise immer noch.
D.h.: Wenn der Rechner "frisch" startet (durch den Einschaltknopf), dann lässt sich die OnBoard-Netzwerkkarte iwie von Debian nicht initialisieren.
Sprich: Es kommt kein LINK zu stande (wohl vom MoBo nicht richtig initialisiert).
Erst durch ein Reboot des Rechners, kann Debian die OnBoard-Karte initialisieren und dann geht das Netzwerk auch wieder...
Ich hatte dann noch mit drei unterschiedlichen PCI-Netzwerkkarten den Versuch gestartet, ob der Rechner sich mit ner PCI-Netzwerkkarte beim ersten Booten zur Zusammenarbeit überreden lässt, aber 'dmsg' meint, dass die Karten keine gültige MAC-Nummer hätten (alle zeigten 'ff:ff:ff:ff:ff:ff' als MAC an)...
Sehr seltsam...

Anscheinend hatt die Platine (oder CPU?) doch iwo nen schuss - keine Ahnung.
Erstmal kann ich damit so leben. Auf Dauer muss ich mir da aber eine Alternative überlegen...

debianforum.de

Seltsame Netzwerkprobleme und plötzliche Reboots am Server

Seltsame Netzwerkprobleme und plötzliche Reboots am Server

Re: Seltsame Netzwerkprobleme und plötzliche Reboots am Server

Re: Seltsame Netzwerkprobleme und plötzliche Reboots am Server

Re: Seltsame Netzwerkprobleme und plötzliche Reboots am Server

Re: Seltsame Netzwerkprobleme und plötzliche Reboots am Server

Re: Seltsame Netzwerkprobleme und plötzliche Reboots am Server

Re: Seltsame Netzwerkprobleme und plötzliche Reboots am Server

Re: Seltsame Netzwerkprobleme und plötzliche Reboots am Server

Re: Seltsame Netzwerkprobleme und plötzliche Reboots am Server

Re: Seltsame Netzwerkprobleme und plötzliche Reboots am Server