mce: [Hardware Error]: Machine check events logged - Bedeutung?

Hast Du Probleme mit Hardware, die durch die anderen Foren nicht abgedeckt werden? Schau auch in den "Tipps und Tricks"-Bereich.
Antworten
slu
Beiträge: 2136
Registriert: 23.02.2005 23:58:47

mce: [Hardware Error]: Machine check events logged - Bedeutung?

Beitrag von slu » 24.01.2020 17:43:12

Hallo,

ich teste hier gerade einen ganz neuen Fujitsu Esprimo G588 [1] mit Debian 10.
Egal ob Debianintel-microcode installiert ist oder nicht gibt der Kernel Hardware Fehler aus:

Code: Alles auswählen

[    0.351672] smpboot: CPU0: Intel(R) Core(TM) i5-9400T CPU @ 1.80GHz (family: 0x6, model: 0x9e, stepping: 0xa)
[    0.351756] mce: [Hardware Error]: Machine check events logged
[    0.351758] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 6: ae00000000801136
[    0.351763] mce: [Hardware Error]: TSC 0 ADDR 845cff80 MISC 3040000086 
[    0.351769] mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1579883674 SOCKET 0 APIC 0 microcode ca
[    0.351772] mce: [Hardware Error]: Machine check events logged
[    0.351773] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 7: ae00000000801136
[    0.351776] mce: [Hardware Error]: TSC 0 ADDR 845cfe80 MISC 47040000086 
[    0.351780] mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1579883674 SOCKET 0 APIC 0 microcode ca
[    0.351783] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ae00000000801136
[    0.351786] mce: [Hardware Error]: TSC 0 ADDR 845cff00 MISC 43040000086 
[    0.351790] mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1579883674 SOCKET 0 APIC 0 microcode ca
[    0.351793] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 10: ee00000000801136
[    0.351796] mce: [Hardware Error]: TSC 0 ADDR 845cfec0 MISC 3040000086 
[    0.351800] mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1579883674 SOCKET 0 APIC 0 microcode ca
[    0.351803] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 11: ee00000000801136
[    0.351806] mce: [Hardware Error]: TSC 0 ADDR 845cffc0 MISC 43040000086 
[    0.351810] mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1579883674 SOCKET 0 APIC 0 microcode ca
Steckt jemand tief genug in der Hardware um mir ein Hinweis zu geben woran es liegen könnte?
RAM hab ich schon getauscht, das brachte keinen Erfolg.

Erschwerend kommt hinzu das nicht immer gleich viele Fehler kommen, manchmal sind es deutlich weniger.
Die Hardware läuft ansonsten ohne Probleme.

Ich habe den FUJITSU Support schon kontaktiert, der verweist mich zum Hardware Test an den Kundendienst und gab mir den Hinweis das Linux nicht freigegeben ist...

[1] https://www.fujitsu.com/de/products/com ... rimo-g558/

Edit:
Ich hab jetzt mal den Debianrasdaemon installiert und neu gestartet, der Kernel gibt wieder Fehler aus aber die ras-mc-ctl nicht:

Code: Alles auswählen

root@wdlw01:~# ras-mc-ctl --summary
No Memory errors.

No PCIe AER errors.

No Extlog errors.
No MCE errors.
root@wdlw01:~#
Gruß
slu

Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.

Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER


slu
Beiträge: 2136
Registriert: 23.02.2005 23:58:47

Re: mce: [Hardware Error]: Machine check events logged - Bedeutung?

Beitrag von slu » 27.01.2020 11:29:25

Wenn ich das Wiki richtig verstehe liegt ein Hardware Fehler vor.
Leider komme ich mit dem Support gerade nicht so recht weiter, sehr ärgerlich bei einem neuen Business Gerät.
Gruß
slu

Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.

Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER

Benutzeravatar
OrangeJuice
Beiträge: 614
Registriert: 12.06.2017 15:12:40

Re: mce: [Hardware Error]: Machine check events logged - Bedeutung?

Beitrag von OrangeJuice » 27.01.2020 13:44:25

Läuft rasdeamon korrekt? "systemctl status rasdaemon". Ich musste noch ein "systemctl enable rasdaemon" machen, und "rasdaemon -e", "rasdaemon -r".

Vielleicht hilft ein Bios-Update. Wann tritt den der Fehler auf?
Den Arbeitsspeicher hast du mit Memtest86 überprüft? Vielleicht mal, wenn es geht ein ClearMos machen.
Zuletzt geändert von OrangeJuice am 27.01.2020 16:16:40, insgesamt 1-mal geändert.

slu
Beiträge: 2136
Registriert: 23.02.2005 23:58:47

Re: mce: [Hardware Error]: Machine check events logged - Bedeutung?

Beitrag von slu » 27.01.2020 14:46:06

OrangeJuice hat geschrieben: ↑ zum Beitrag ↑
27.01.2020 13:44:25
Läuft rasdeamon korrekt? "systemctl status rasdaemon". Ich musst noch ein "systemctl enable rasdaemon" machen, und "rasdaemon -e", "rasdaemon -r".

Code: Alles auswählen

● rasdaemon.service - RAS daemon to log the RAS events
   Loaded: loaded (/lib/systemd/system/rasdaemon.service; enabled; vendor preset: enabled)
   Active: active (running) since Mon 2020-01-27 13:36:12 CET; 1h 3min ago
  Process: 527 ExecStartPost=/usr/sbin/rasdaemon --enable (code=exited, status=0/SUCCESS)
 Main PID: 526 (rasdaemon)
    Tasks: 1 (limit: 4915)
   Memory: 8.7M
   CGroup: /system.slice/rasdaemon.service
           └─526 /usr/sbin/rasdaemon -f -r
Ich hab die Befürchtung das der Daemon zu spät kommt:

Code: Alles auswählen

[    0.350602] mce: [Hardware Error]: Machine check events logged
[    0.350604] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 6: ae00000000801136
[    0.350609] mce: [Hardware Error]: TSC 0 ADDR 8b445140 MISC 3040000086 
[    0.350615] mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1580128567 SOCKET 0 APIC 0 microcode ca
[    0.350619] mce: [Hardware Error]: Machine check events logged
/var/log/syslog:

Code: Alles auswählen

Jan 27 13:36:12 wdlw01 kernel: [    4.998113] r8169 0000:02:00.0 enp2s0: Link is Down
Jan 27 13:36:12 wdlw01 nm-dispatcher: req:2 'connectivity-change': new request (1 scripts)
Jan 27 13:36:12 wdlw01 nm-dispatcher: req:2 'connectivity-change': start running ordered scripts...
Jan 27 13:36:12 wdlw01 NetworkManager[535]: <info>  [1580128572.5534] modem-manager: ModemManager available
Jan 27 13:36:12 wdlw01 rasdaemon: ras:mc_event event enabled
Jan 27 13:36:12 wdlw01 rasdaemon: Enabled event ras:mc_event
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: ras:mc_event event enabled
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: Enabled event ras:mc_event
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: ras:aer_event event enabled
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: Enabled event ras:aer_event
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: ras:arm_event event enabled
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: Enabled event ras:arm_event
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: Family 6 Model 9e CPU: only decoding architectural errors
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: mce:mce_record event enabled
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: Enabled event mce:mce_record
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: ras:extlog_mem_event event enabled
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: Enabled event ras:extlog_mem_event
Jan 27 13:36:12 wdlw01 rasdaemon[526]: rasdaemon: Listening to events for cpus 0 to 5
Der Rasdaemon würde dann erst bei "4.0" kommen, der Fehler wird aber schon um "0.35" vom Kernel ausgegeben.
OrangeJuice hat geschrieben: ↑ zum Beitrag ↑
27.01.2020 13:44:25
Vielleicht hilft ein Bios-Update. Wann tritt den der Fehler auf?
Den Arbeitsspeicher hast du mit Memtest86 überprüft? Vielleicht mal, wenn es geht ein ClearMos machen.
Bios ist aktuell, der Fehler kommt soweit ich das sehe NUR beim booten.
Memtest mache ich heute Abend.
Gruß
slu

Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.

Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER

Benutzeravatar
OrangeJuice
Beiträge: 614
Registriert: 12.06.2017 15:12:40

Re: mce: [Hardware Error]: Machine check events logged - Bedeutung?

Beitrag von OrangeJuice » 27.01.2020 17:25:36

Als nächstes(nach Memtest) würde ich ein Debian Testing nonfree(Link) laden und als Live-USB-Stick starten und schauen, ob auch dort der Fehler auftritt.

Eventuell mal zum testen "acpi=off", "intel_iommu=soft iommu=soft" als Startparameter setzen. SecureBoot an/aus. Grubx64 starten statt shimx64.

slu
Beiträge: 2136
Registriert: 23.02.2005 23:58:47

Re: mce: [Hardware Error]: Machine check events logged - Bedeutung?

Beitrag von slu » 30.01.2020 19:34:44

Leider läuft der memtest86+ nicht an, ich kann ihn zwar noch im Grub auswählen dann passiert aber nichts mehr (schwarzer TFT).
"acpi=off" und "intel_iommu=soft iommu=soft" habe ich probiert, keine Änderung.

Bei einem aktuellen Testing kam der Fehler bestimmt 3-5 Bootvorgänge nicht, dann jedoch auch im Testing (hatte mich schon gefreut).
Was auch immer da passiert, es kommt nur beim starten:

Code: Alles auswählen

root@wdlw01:~# uptime
 19:30:56 up  9:30,  1 user,  load average: 0,61, 1,03, 1,07
 
root@wdlw01:~# ras-mc-ctl --summary
No Memory errors.

No PCIe AER errors.

No Extlog errors.
No MCE errors.

root@wdlw01:~# dmesg | grep Error
[    0.331870] mce: [Hardware Error]: Machine check events logged
[    0.331872] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 6: ae00000000801136
[    0.331877] mce: [Hardware Error]: TSC 0 ADDR 8b445140 MISC 3040000086 
[    0.331883] mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1580374843 SOCKET 0 APIC 0 microcode ca
[    0.331886] mce: [Hardware Error]: Machine check events logged
[    0.331888] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 8: ee00000000801136
[    0.331890] mce: [Hardware Error]: TSC 0 ADDR 8ab44cc0 MISC 30e0000086 
[    0.331895] mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1580374843 SOCKET 0 APIC 0 microcode ca
[    0.331898] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 11: ee00000000801136
[    0.331901] mce: [Hardware Error]: TSC 0 ADDR 8b445100 MISC 43040000086 
[    0.331905] mce: [Hardware Error]: PROCESSOR 0:906ea TIME 1580374843 SOCKET 0 APIC 0 microcode ca
root@wdlw01:~# 
Vielleicht ist es doch ein Bios Problem und verschwindet mit irgend einem Bios Update.
Gruß
slu

Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.

Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER

Benutzeravatar
OrangeJuice
Beiträge: 614
Registriert: 12.06.2017 15:12:40

Re: mce: [Hardware Error]: Machine check events logged - Bedeutung?

Beitrag von OrangeJuice » 31.01.2020 10:54:24

Ich habe mal in den Changelog von "linux-image-amd64 (5.5~rc5-1~exp1)" geschaut. Dort sind ein paar MCE Verbesserungen vorhanden.
- [x86] mce: Lower throttling MCE messages' priority to warning
Quelle
x86/mce: Lower throttling MCE messages' priority to warning

On modern CPUs it is quite normal that the temperature limits are
reached and the CPU is throttled. In fact, often the thermal design is
not sufficient to cool the CPU at full load and limits can quickly be
reached when a burst in load happens. This will even happen with
technologies like RAPL limitting the long term power consumption of
the package.
...
Quelle
Könnte sein, dass es damit etwas zu tun hat. Du hast eine 6-Kern-CPU in einem sehr kleine Gehäuse. Wenn es mit neuem Kernel schon besser geworden ist, könnte es sein, dass es mit Kernel 5.5 noch etwas besser läuft. Bios Update bringt nur etwas, wenn der Hersteller auch alle Patches einfügt und sie ihr Bios verbessern, was leider nicht alle machen. Du kannst mal schauen, ob du ein Bios-Update machen kannst und was damit verbessert werden soll. Die Intel-ME Updates würde ich jedenfalls einspielen.

Ich würde mal schauen wie warm die CPU und anderen Komponenten unter einem Benchmark werden.

hrzlbrmpft
Beiträge: 1
Registriert: 01.08.2021 11:44:45

Re: mce: [Hardware Error]: Machine check events logged - Bedeutung?

Beitrag von hrzlbrmpft » 01.08.2021 11:50:47

Vielleicht hilft es jemandem in Zukunft weiter: Ich habe hier einen Esprimo P578 in Betrieb. Mit BIOS Version V5.0.0.13 R1.25.0 gibt es die genannten MCEs:
2021-08-01T10:34:01.466241+02:00 fujitsu-i7 kernel: [ 0.191736] mce: CPU0: Thermal monitoring enabled (TM1)
2021-08-01T10:34:01.466248+02:00 fujitsu-i7 kernel: [ 0.193821] mce: [Hardware Error]: Machine check events logged
2021-08-01T10:34:01.466249+02:00 fujitsu-i7 kernel: [ 0.193822] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 10: ee00000000801136
2021-08-01T10:34:01.466249+02:00 fujitsu-i7 kernel: [ 0.193825] mce: [Hardware Error]: TSC 0 ADDR 8b2c6a40 MISC 3040000086
2021-08-01T10:34:01.466249+02:00 fujitsu-i7 kernel: [ 0.193827] mce: [Hardware Error]: PROCESSOR 0:906ed TIME 1627814034 SOCKET 0 APIC 0 microcode ea
2021-08-01T10:34:01.466250+02:00 fujitsu-i7 kernel: [ 0.193829] mce: [Hardware Error]: Machine check events logged
2021-08-01T10:34:01.466250+02:00 fujitsu-i7 kernel: [ 0.193830] mce: [Hardware Error]: CPU 0: Machine Check: 0 Bank 11: ae00000000801136
2021-08-01T10:34:01.466250+02:00 fujitsu-i7 kernel: [ 0.193831] mce: [Hardware Error]: TSC 0 ADDR 8b2c6a00 MISC 3040000086
2021-08-01T10:34:01.466250+02:00 fujitsu-i7 kernel: [ 0.193833] mce: [Hardware Error]: PROCESSOR 0:906ed TIME 1627814034 SOCKET 0 APIC 0 microcode ea

Nach Update auf BIOS Version V5.0.0.13 R1.28.0 (vor ca. einer halben Stunde durchgeführt) sind bei mir die BIOS-Meldungen weg.

slu
Beiträge: 2136
Registriert: 23.02.2005 23:58:47

Re: mce: [Hardware Error]: Machine check events logged - Bedeutung?

Beitrag von slu » 02.08.2021 10:47:52

Vielen Dank für den Hinweis, ich hab das Bios Update installiert und bin gespannt ob das Problem jetzt weg ist.

Edit: Kann ich bestätigen, das Problem ist weg.
Gruß
slu

Das Server Reinheitsgebot:
Debian Bookworm, sonst nichts.

Stolzer Gewinner der Jessie Release Wette:
https://wiki.debianforum.de/Jessie_Release_Wette#SIEGER

Antworten