Ahoy Freunde.
Aktuell betreibe ich auf einem ASRock X470D4U einen Ryzen 2700X mit Debian Bullseye, und da drauf mit KVM ca. 20 VMs.
Nun habe ich geupgraded auf einen Ryzen 3900X welcher unterstützt wird vom Mainboard, jedoch bekomme ich nun beim Boot "Soft-Lockups". Nach wenigen Sekunden ist das System nicht mehr ansprechbar.
Weiterhin habe ich einen Ryzen 5800X getestet, dort besteht die gleiche Problematik. Jedoch beim Ryzen 2700X nicht. Daher vermute ich zumindest irgendeine Problematik mit #RDRAND. (Vorallem da das ganze ab der 3000er Serie passiert wo RDRAND bekanntlich kaputt ist.)
Ich weiß jedoch nicht wie ich das Problem weiter eingrenzen kann, oder gar beheben kann. Ich habe versucht ein Mod-BIOS zu bauen mit aktualisierten Microcodes, jedoch hat das auch keinen Erfolg gebracht.
Hat jemand eventuell eine Idee wie ich hier Abhilfe schaffen kann?
In ein Slackware Live System mit 5.12er Kernel kann ich problemlos reinbooten, da klappt alles. Qemu habe ich jedoch dort noch nicht getestet.
CPU Soft-Lockup
-
- Beiträge: 3281
- Registriert: 29.06.2013 17:32:10
- Lizenz eigener Beiträge: GNU General Public License
-
Kontaktdaten:
Re: CPU Soft-Lockup
Wenn wirklich das kaputte RDRAND die CPU blockiert, probiere doch mal den Kernelparameter nordrand.
Aber das ist geraten, ob der was bringt.
Aber das ist geraten, ob der was bringt.
(=_=)
Unsere neue Mutter: https://www.nvidia.com/de-de/data-center/a100/
Unsere neue Mutter: https://www.nvidia.com/de-de/data-center/a100/
Re: CPU Soft-Lockup
Hey danke dir. Habe das mal probiert, jedoch ohne Erfolg. Hmm. Ich denke das irgendein anderes Architekturspezifisches Problem dahinter ist. Schade.inne hat geschrieben:23.07.2021 20:21:18Wenn wirklich das kaputte RDRAND die CPU blockiert, probiere doch mal den Kernelparameter nordrand.
Aber das ist geraten, ob der was bringt.
- OrangeJuice
- Beiträge: 625
- Registriert: 12.06.2017 15:12:40
Re: CPU Soft-Lockup
Diese Soft Lockups hatte ich auch bei den Ryzen mit APUs 2200g... allerdings habe ich die ganzen Probleme mit den CPUs und Mainboards nie wirklich lösen können.
Es könnte aber ein Problem mit dem Chipsatz sein oder wenn es schlecht läuft mit den CPUs selbst, denn in verschiedensten Foren häufen sich, meiner Meinung nach, die Fehler die ähnlich aussehen.
Vielleicht auch für dich wichtig:
https://www.amd.com/en/corporate/product-security
https://www.kernel.org/doc/html/v4.14/a ... eters.html
Sonst würde ich mal den Chipsatz deaktivieren und den internen locale-apic(lapic) verwenden. Mit noapic als Parameter, zusammen mit swiotlb könnte etwas bringen.
Gegebenenfalls später nochmal mit der schauen ob die Software-Iommu etwas bringt.
Was zeigt denn folgendes an? "
Es könnte aber ein Problem mit dem Chipsatz sein oder wenn es schlecht läuft mit den CPUs selbst, denn in verschiedensten Foren häufen sich, meiner Meinung nach, die Fehler die ähnlich aussehen.
Vielleicht auch für dich wichtig:
https://www.amd.com/en/corporate/product-security
https://www.kernel.org/doc/html/v4.14/a ... eters.html
Sonst würde ich mal den Chipsatz deaktivieren und den internen locale-apic(lapic) verwenden. Mit noapic als Parameter, zusammen mit swiotlb könnte etwas bringen.
Code: Alles auswählen
swiotlb=force,8192 noapic
Gegebenenfalls später nochmal mit der schauen ob die Software-Iommu etwas bringt.
Code: Alles auswählen
amd_iommu=off iommu=soft
Code: Alles auswählen
cat /proc/interrupts
dmesg -x -l crit,warn,err
journalctl -p err..alert