mce: [Hardware Error]: Machine check events logged

Welches Modul/Treiber für welche Hardware, Kernel compilieren...
Antworten
trendco
Beiträge: 26
Registriert: 25.02.2012 16:18:46

mce: [Hardware Error]: Machine check events logged

Beitrag von trendco » 23.03.2015 21:14:01

Hallo,

ich hatte heute im syslog und dmesg folgenden Fehler:

"mce: [Hardware Error]: Machine check events logged"

mcelog ist noch nicht installiert, kann ich trotzdem rausfinden, was genau diesen Fehler verursacht hat?

bullgard
Beiträge: 1642
Registriert: 14.09.2012 23:03:01

Re: mce: [Hardware Error]: Machine check events logged

Beitrag von bullgard » 23.03.2015 22:52:03

http://en.wikipedia.org/wiki/Machine-check_exception hast Du gelesen?
Du müßtest ausführlicher und genauer beschreiben, wie es zu dieser Meldung gekommen ist.
bullgard

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: mce: [Hardware Error]: Machine check events logged

Beitrag von NAB » 23.03.2015 23:12:46

trendco hat geschrieben:mcelog ist noch nicht installiert, kann ich trotzdem rausfinden, was genau diesen Fehler verursacht hat?
Nein, kannst du nicht. Du kannst nur mcelog installieren, auf den nächsten Fehler warten und den dann auslesen.

Genau das würde ich auch tun. Solange die Dinger nicht wiederholt auftreten, ist es müßig, ihnen nachzugehen.
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

trendco
Beiträge: 26
Registriert: 25.02.2012 16:18:46

Re: mce: [Hardware Error]: Machine check events logged

Beitrag von trendco » 24.03.2015 10:17:53

Ok, hab mcelog nun installiert und warte mal, ob das noch mal auftaucht.
Das System (Proxmox Server) läuft auch noch und zeigt(e) auch keine Besonderheiten, mir viel das auch nur auf, weil ich per cron dmesg und syslog stündlich nach "error" durchsuchen lass.

trendco
Beiträge: 26
Registriert: 25.02.2012 16:18:46

Re: mce: [Hardware Error]: Machine check events logged

Beitrag von trendco » 24.03.2015 14:44:36

Heute wieder ein Error, mcelog schreibt folgendes ins Log:
mcelog: Unsupported new Family 6 Model 3c CPU: only decoding architectural errors
mcelog: Unsupported new Family 6 Model 3c CPU: only decoding architectural errors
Hardware event. This is not a software error.
MCE 0
CPU 3 BANK 0
TIME 1427202001 Tue Mar 24 14:00:01 2015
MCG status:
MCi status:
Corrected error
Error enabled
MCA: Unknown Error 5
STATUS 90000040000f0005 MCGSTATUS 0
MCGCAP c09 APICID 6 SOCKETID 0
CPUID Vendor Intel Family 6 Model 60
Was sagt mir das jetzt genau?

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: mce: [Hardware Error]: Machine check events logged

Beitrag von NAB » 25.03.2015 03:27:07

Interessant! Das scheint ein Fehler in den Haswell-Prozessoren zu sein. Ein Prüfsummenfehler, der sich korrigieren lies, wird von der CPU fälschlicher Weise als MCE gemeldet:
http://forums.debian.net/viewtopic.php?f=7&t=109392

Kurz gesagt: diesen Fehler kannst du ignorieren. Wenn das so stimmt. Ist das denn ein Haswell? Welchen Kernel verwendest du denn?
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

trendco
Beiträge: 26
Registriert: 25.02.2012 16:18:46

Re: mce: [Hardware Error]: Machine check events logged

Beitrag von trendco » 25.03.2015 11:07:20

Die CPU ist eine "Xeon E3-1246V3".

Das System ist Proxmox-3.4, ist ein Debian mit angepasstem RedHat Kernel:
uname -a
Linux proxmox 3.10.0-7-pve #1 SMP Thu Jan 22 11:20:00 CET 2015 x86_64 GNU/Linux

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: mce: [Hardware Error]: Machine check events logged

Beitrag von NAB » 25.03.2015 16:37:57

Öhm ... zu RedHat-Kerneln kann ich nun wenig sagen ...

Deine Log-Meldung oben sagt vorallem aus, dass der Fehlercode nicht interpretiert werden kann, weil der Prozessor unbekannt ist.

Nun kam Kernel 3.10 Ende 2013 raus und deine CPU Anfang 2014 ... das ist also nicht verwunderlich. Wie weit RedHat neue Prozessoren in alte Kernel einpflegt, weiß ich nicht. Und das "mcelog" von Debian dürfte auch älter als 2014 sein, wenn du "stable" verwendest.

Wenn du mit der Meldung oben was sinnvolles anfangen willst, brauchst du entweder einen neueren Kernel und ein aktuelleres mcelog, oder du musst lange und gründlich das Errata zu deinem Prozessor von Intel studieren.

Und dann gibt es da noch das Paket "intel-microcode", mit dem Intel nachträglich Fehler in seinen Prozessoren beseitigt. Das sollte natürlich auch aktueller sein als der verwendete Prozessor.
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

trendco
Beiträge: 26
Registriert: 25.02.2012 16:18:46

Re: mce: [Hardware Error]: Machine check events logged

Beitrag von trendco » 25.03.2015 16:49:09

Ok, danke für die Info.
Proxmox ist ne fertige Virtualisierungs-Distribution, da kann oder will ich nix dran rumbiegen, da muss ich wohl mit dem "Problem" leben. Vielleicht ändert sich da ja was mit den nächsten Versionen, es läuft ja ansonsten super stabil.

rendegast
Beiträge: 15041
Registriert: 27.02.2006 16:50:33
Lizenz eigener Beiträge: MIT Lizenz

Re: mce: [Hardware Error]: Machine check events logged

Beitrag von rendegast » 25.03.2015 19:00:35

Für per Software behebbare CPU-Fehler gäbe es
Debianintel-microcode / Debianamd64-microcode.

(Unter opensuse heißen die entsprechenden Pakete ucode-intel / ucode-amd)





------------------------------------------
Anmerkung.
Im Fall intel wird vor eine initrd (Format cpio.gz) ein cpio mit der Firmware gesetzt
(falls der Kernel jüngeren Datums ist, zBsp. 3.16).
Um wieder an den Inhalt der normalen initrd zu kommen (zBsp. für Vergleiche),
muß der Teil mit dem firmware-cpio übersprungen werden,
Information dafür zBsp. per

Code: Alles auswählen

# cpio -t < initrd.img-3.16.0-0.bpo.4-686-pae 2>&1
kernel
kernel/x86
kernel/x86/microcode
kernel/x86/microcode/GenuineIntel.bin
22 blocks
in diesem Fall nach 22blocks.
mfg rendegast
-----------------------
Viel Eifer, viel Irrtum; weniger Eifer, weniger Irrtum; kein Eifer, kein Irrtum.
(Lin Yutang "Moment in Peking")

Antworten