[gelöst] Wie geht man freezes auf den Grund?

Du kommst mit der Installation nicht voran oder willst noch was nachfragen? Schau auch in den "Tipps und Tricks"-Bereich.
Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

[gelöst] Wie geht man freezes auf den Grund?

Beitrag von smutbert » 10.01.2016 23:10:44

Hallo,

mein (relativ neues) Notebook ist bereits ein paar Mal eingefroren und damit meine ich so richtig eingefroren. Der Mauszeiger hat sich nicht mehr bewegt, Strg+Alt+F1-6 bringen nichts, über das Netzwerk bekomme ich auch keine Verbindung.

Nur bei den Magic+SysRq Tastenkombinationen bin ich nicht 100%ig sicher, dass sie tatsächlich tot sind, erstens weil ich mir bei der Notebooktastatur nicht sicher bin die richtige Taste bzw. Tastenkombination gefunden zu haben und zweitens, weil das das erste Mal ist, dass ich versuche diese magischen Tastenkombinationen zu nutzen...

Als nächstes ist mir eingefallen, dass rendegast einmal die netconsole erwähnt hat. Ich wollte also einen Freeze provozieren und auf einen Computer die Meldungen mitverfolgen. Das habe ich davor bereits erfolglos (keinerlei Meldungen) mit »journalctl -f -p 7« über ssh versucht, der Versuch mit netconsole ist aber genauso fehlgeschlagen, weil die Network-Interfaces polling nicht beherrschen, was aber notwendig wäre.


Jetzt stehe ich ziemlich dumm da und weiß nur, dass die Freezes bis jetzt weder bei besonders hoher Last für CPU oder SSD aufgetreten sind sondern eigentlich immer nur während dem gemütlichen Durchblättern von Fotos mit Debiangeeqie oder Debianeog, was ich schon auffällig finde.

Das System ist ein jessie mit einem Kernel aus den Backports, weil der aus jessie die Hardware noch nicht besonders gut unterstützt. Allerdings bin ich mir ziemlich sicher davor schon öfter problemlos Bilder angesehen zu haben, möglicherweise mit einem früheren Kernel aus den Backports.
Testweise habe ich deshalb von 4.3.0-0.bpo.1-amd64 auf 4.2.0-0.bpo.1-amd64 downgegradet, was allerdings auch nichts gebracht hat.


lg smutbert
Zuletzt geändert von smutbert am 20.01.2016 20:15:00, insgesamt 1-mal geändert.

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie geht man freezes auf den Grund?

Beitrag von NAB » 10.01.2016 23:28:58

Falls das eine Intel-Grafik ist ... ist auch der Intel-Xorg-Treiber aus den Backports installiert?
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Wie geht man freezes auf den Grund?

Beitrag von smutbert » 10.01.2016 23:39:37

Ja, beides. Es ist eine Intelgrafik (HD 5300) und auch der Xorg-Treiber ist aus den Backports.

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie geht man freezes auf den Grund?

Beitrag von NAB » 11.01.2016 00:57:38

Oh, ein Broadwell System?

Schau mal hier:
https://bugs.launchpad.net/ubuntu/+sour ... ug/1509764
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Wie geht man freezes auf den Grund?

Beitrag von smutbert » 11.01.2016 10:35:14

Danke für den Hinweis, aber intel-microcode ist auf dem neuesten Stand. Der Fehler sollte sowohl in der Version aus proposed-updates (3.20151106.1~deb8u1) wie auch in der Version aus den Backports (3.20151106.1~bpo8+1 bei mir installiert) behoben sein und bereits das BIOS spielt bei mir die letzten Microcodeupdates ein, wenn ich die Kernelmeldungen nicht missinterpretiere.

Das passt dazu, dass das System ja außerdem bereits stabil(er) gelaufen ist (glaube ich zumindest - irgendwie lässt sich das schwer von einigen anderen Problemen auseinanderhalten, die ich hatte).
Zuletzt geändert von smutbert am 11.01.2016 14:48:04, insgesamt 1-mal geändert.

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie geht man freezes auf den Grund?

Beitrag von NAB » 11.01.2016 13:43:56

Ich würd noch mal den Hinweis aus dem ersten Posting auf die c-states ausprobieren.
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

r4pt0r
Beiträge: 1237
Registriert: 30.04.2007 13:32:44
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie geht man freezes auf den Grund?

Beitrag von r4pt0r » 11.01.2016 14:12:31

Ich hatte für Broadwell nen i915.xxx Kernelparameter setzen müssen, allerdings crashte bei mir nur der x-server beim laden des i915-moduls. Beim Wechsel auf skylake hab ich das mit dem "neuesten Intel-Hotfix" (i915.preliminary_hw_support=1) in den grub-scripten überschrieben, hab daher leider keinen alten Eintrag mehr zum Nachschauen :(

Die Arch-wiki zu Intel-Grafik ist recht gut und ausführlich. Dort ist auch die rede von einem Crash/Freeze mit Kernel 4.0+ und Broadwell:
https://wiki.archlinux.org/index.php/In ... re-M_chips
This can be fixed by disabling execlist support which was changed to default on with kernel 4.0. Add the following kernel parameter:

i915.enable_execlists=0

This is known to be broken to at least kernel 4.0.5.
Evtl hilft das?

Benutzeravatar
Datenteiler
Beiträge: 84
Registriert: 12.10.2008 21:01:46
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Hannover
Kontaktdaten:

Re: Wie geht man freezes auf den Grund?

Beitrag von Datenteiler » 11.01.2016 15:46:14

Hi,

was hast du denn für eine SSD?

Code: Alles auswählen

smartctl -a /dev/sda
Und wie sieht deine Swappiness aus?

Code: Alles auswählen

cat /proc/sys/vm/swappiness
Evtl. hilft es, die Swappiness auf 10 einzustellen: https://wiki.debianforum.de/Debian_auf_ ... swappiness

Vielleicht solltest du auch den Schreibzugriff auf deine SSD reduzieren:

* Ist der AHCI-Modus im Bios aktiviert
* Passt Alignment der Partitionen?

Code: Alles auswählen

   /sbin/blockdev --getalignoff /dev/sda1
   0
* Reduziere Schreibzugriffe mit "relatime" in der "/etc/fstab"

Zuguter letzt, kann es auch an defektem RAM liegen. Was sagt denn Memtest?

Viele Grüße
Immi

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie geht man freezes auf den Grund?

Beitrag von NAB » 11.01.2016 16:09:06

Vorsicht, die Intel-Grafik klaut sich einen Teil vom RAM. Der ist dann per Memtest nicht mehr erreichbar. Wenn der Fehler genau in diesem Bereich liegt, dann fliegt er durch Memtest nicht auf. So ein Problem hat mich mal viele Stunden der Fehlersuche gekostet ... schließlich half es dann, den Speicher mit etwas mehr Volt zu versorgen, was auch nicht in jedem Fall helfen wird.
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

Benutzeravatar
mistersixt
Beiträge: 6601
Registriert: 24.09.2003 14:33:25
Lizenz eigener Beiträge: GNU Free Documentation License

Re: Wie geht man freezes auf den Grund?

Beitrag von mistersixt » 11.01.2016 16:49:56

--
System: Debian Bookworm, 6.5.x.-x-amd64, ext4, AMD Ryzen 7 3700X, 8 x 4.0 Ghz., Radeon RX 5700 XT, 16 GB Ram, XFCE

Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Wie geht man freezes auf den Grund?

Beitrag von smutbert » 11.01.2016 17:11:28

Ein paar Sachen kann ich schon jetzt beantworten, das Testen der diversen Modul- und Kernelparameter dauert noch etwas.

Das Problem tritt zumindest unabhängig von der Menge des für die Grafik reservierten Hauptspeichers auf, das habe ich bereits ausprobiert.

@Mister Sixt
Es handelt sich um Broadwell, nicht Skylake.

@Immi
  • Hauptspeicher
    memtextx86(+) bringt den Computer zum Einfrieren noch bevor es gestartet ist, aber Debianmemtester liefert nach vielen Stunden keine Fehler.
  • SSD
    Es handelt sich um eine Crucial MX200 im m.2-Format mit SATA-Schnittstelle. AHCI ist aktiviert (es lässt sich im BIOS gar nicht deaktivieren). Swappiness dürfte keine Rolle spielen, weil ich keine swap-Partition eingerichtet habe. Die Abfrage des Alignments liefert für alle Partitionen 0.
    relatime ist bereits bei default mit von der Partie, sollte also überflüssig sein, aber ich hatte sogar von Anfang an noatime in der fstab stehen.

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie geht man freezes auf den Grund?

Beitrag von NAB » 11.01.2016 18:01:42

smutbert hat geschrieben:memtextx86(+) bringt den Computer zum Einfrieren noch bevor es gestartet ist,
Falls das eine BIOS- und keine UEFI-Installation ist, würde mich das sehr nachdenklich machen. Unter UEFI läuft memtestx86 meines Wissens eh nicht.
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

Benutzeravatar
Datenteiler
Beiträge: 84
Registriert: 12.10.2008 21:01:46
Lizenz eigener Beiträge: GNU Free Documentation License
Wohnort: Hannover
Kontaktdaten:

Re: Wie geht man freezes auf den Grund?

Beitrag von Datenteiler » 11.01.2016 18:31:07

Wieviel RAM sind denn eingebaut? 1 oder 2 Riegel? Wenn 2 ist dass dann beides Mal der selbe Hersteller und haben die Riegel dieselben Werte? Kannst du die Riegel einzeln testen? Wenn 1 Riegel, kannst du den anderen Slot probieren, wenn es mehr als einen Slot im Notebook gibt? Schonmal anderen, neuen RAM-Riegel getestet?

Viele Grüße
Immi

Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Wie geht man freezes auf den Grund?

Beitrag von smutbert » 11.01.2016 20:41:36

Es ist ein 8 GB-Riegel im einzigen verfügbaren Speicherslot. Einen anderen RAM-Riegel habe ich noch nicht getestet - mir fehlt aber auch die Möglichkeit dazu (dh der andere RAM-Riegel)
NAB hat geschrieben:Falls das eine BIOS- und keine UEFI-Installation ist, würde mich das sehr nachdenklich machen. Unter UEFI läuft memtestx86 meines Wissens eh nicht.
Es ist eine UEFI-Installation. Wenn das BIOS überhaupt ein CSM bietet habe ich es deaktiviert.


Momentan läuft das System gerade mit der Option »i915.enable_execlists=0«, die r4pt0r vorgeschlagen hat und bis jetzt bin ich von einem Freeze verschont geblieben, nur noch nicht lange genug, dass ich mir sicher wäre, dass das tatsächlich die Lösung ist...

Edit:
Jetzte habe ich es als Moduloption in /etc/modptobe.d geschrieben (enable_execlists=0) und habe noch immer keine Freezes zu beklagen. Ich warte zwar noch ein bißchen bevor ich diesen Thread auf gelöst setze, sage aber schon einmal vielen Dank für die vielen Tipps!

Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Wie geht man freezes auf den Grund?

Beitrag von smutbert » 13.01.2016 09:31:32

Schade, das war es doch nicht. Dafür bin ich jetzt ziemlich sicher, dass die Freezes mit Kernel 4.2 seltener auftreten als mit Kernel 4.3.

Als nächstes werde ich das ausprobieren was NAB vorgeschlagen hat »processor.max_cstate=0 intel_idle.max_cstate=0 idle=poll«.

Benutzeravatar
mistersixt
Beiträge: 6601
Registriert: 24.09.2003 14:33:25
Lizenz eigener Beiträge: GNU Free Documentation License

Re: Wie geht man freezes auf den Grund?

Beitrag von mistersixt » 13.01.2016 11:42:25

Oder auch mal mit intel_pstate=disable booten, so dass ACPI das Scaling der CPUs übernimmt (ich hatte schon viele komische Effekte mit diesem neuen pstate-Treiber).

Einen Versuch wert ist es bestimmt.

Gruss, mistersixt.
--
System: Debian Bookworm, 6.5.x.-x-amd64, ext4, AMD Ryzen 7 3700X, 8 x 4.0 Ghz., Radeon RX 5700 XT, 16 GB Ram, XFCE

Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Wie geht man freezes auf den Grund?

Beitrag von smutbert » 14.01.2016 19:01:36

Das würde ich nur ungern tun müssen. Selbst »idle=poll« möchte ich lieber nicht beibehalten, das verkürzt die Akkulaufzeit doch sehr. Immerhin hat es mir bis jetzt weiterhin die Freezes vom Hals gehalten. Es deutet also doch alles darauf hin als wäre es der Bug, den NAB verlinkt hat

https://bugs.launchpad.net/ubuntu/+sour ... ug/1509764

aber eigentlich sollte das nicht sein, weil der durch die Microcode-Updates angeblich beseitigt wurde. Was mich momentan zur Spekulationen verleitet, dass es mit irgendeiner anderen Besonderheit meines Systems zusammenhängt.

Zum Beispiel habe ich ua die Stromsparfeatures aller pcie-Geräte aktiviert (…/power/control im sysfs auf auto gesetzt), sodass es in powertop so aussieht

Code: Alles auswählen

[…]
>> Good          Wireless Power Saving for interface wlan0                      
   Good          NMI watchdog should be turned off
   Good          Bluetooth device interface status
   Good          Enable SATA link power management for host0
   Good          Enable SATA link power management for host1
   Good          Enable Audio codec power management
   Good          VM writeback timeout
   Good          Autosuspend for USB device xHCI Host Controller [usb1]
   Good          Autosuspend for USB device xHCI Host Controller [usb2]
   Good          Autosuspend for unknown USB device 1-4 (8087:0a2a)
   Good          Autosuspend for USB device USB2.0 UVC HD Webcam [SuYin]
   Good          Runtime PM for PCI Device Intel Corporation Broadwell-U Host Br
   Good          Runtime PM for PCI Device Intel Corporation Wildcat Point-LP PC
   Good          Runtime PM for PCI Device Intel Corporation Wildcat Point-LP SM
   Good          Runtime PM for PCI Device Intel Corporation Wildcat Point-LP SA
   Good          Runtime PM for PCI Device Intel Corporation Wildcat Point-LP LP
   Good          Runtime PM for PCI Device Intel Corporation Wildcat Point-LP PC
   Good          Runtime PM for PCI Device Intel Corporation Wildcat Point-LP Hi
   Good          Runtime PM for PCI Device Intel Corporation Wildcat Point-LP ME
   Good          Runtime PM for PCI Device Intel Corporation Wildcat Point-LP US
   Good          Runtime PM for PCI Device Intel Corporation Broadwell-U Camaril
   Good          Runtime PM for PCI Device Intel Corporation Broadwell-U Audio C
   Good          Runtime PM for PCI Device Intel Corporation Broadwell-U Integra
   Good          Runtime PM for PCI Device Intel Corporation Wireless 7265
   Good          Wake-on-lan status for device wlan0
ich werde einmal testweise alle wieder "auf bad schalten", um zu sehen ob es an einem davon liegen kann.

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie geht man freezes auf den Grund?

Beitrag von NAB » 14.01.2016 19:44:23

Eh, wir schrauben hier an den cstates, nicht an den pstates:
https://software.intel.com/en-us/blogs/ ... -c-states/

smutbert, es mag ja sein, dass der Fehler nicht komplett behoben wurde. Lass doch das "idle=poll" mal weg ... läuft er dann noch stabil? Dann erhöhe doch mal langsam die erlaubten cstates.
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Wie geht man freezes auf den Grund?

Beitrag von smutbert » 15.01.2016 09:07:58

NAB hat geschrieben:Eh, wir schrauben hier an den cstates, nicht an den pstates:
https://software.intel.com/en-us/blogs/ ... -c-states/
Dass das was anderes ist, ist mir schon klar, aber irgendeinen Zusammenhang könnte es ja trotzdem geben?
NAB hat geschrieben:smutbert, es mag ja sein, dass der Fehler nicht komplett behoben wurde. Lass doch das "idle=poll" mal weg ... läuft er dann noch stabil? Dann erhöhe doch mal langsam die erlaubten cstates.
idle=poll habe ich ganz allein eingetragen - die Parameter für die c-states habe ich von Anfang an weggelassen.

Es ist aber auch ein bißchen blöd, dass ich bis jetzt noch keinen Weg gefunden habe das Einfrieren zuverlässig zu reproduzieren, selbst ganz ohne Kerneloption. Ich kann mir also noch nicht ganz sicher sein, dass idle=poll das Problem gänzlich beseitigt hat.

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie geht man freezes auf den Grund?

Beitrag von NAB » 15.01.2016 13:21:20

smutbert hat geschrieben:idle=poll habe ich ganz allein eingetragen - die Parameter für die c-states habe ich von Anfang an weggelassen.
Nach dem, was ich gelesen habe, ist idle=poll unfreundlicher für den Akku als reduzierte c-states. Hast du es mal umgekehrt versucht?
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Wie geht man freezes auf den Grund?

Beitrag von smutbert » 15.01.2016 14:52:04

Mache ich noch - zuerst möchte ich sicher sein, dass es mit idle=poll wirklich nicht mehr auftritt.

Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Wie geht man freezes auf den Grund?

Beitrag von smutbert » 17.01.2016 12:34:07

Sch…ade, das umgekehrte, also nur »processor.max_cstate=0 intel_idle.max_cstate=0« hilft gar nichts, dafür bin ich endlich sicher dass »idle=poll« das Problem löst, allerding bei ungefähr geviertelter Akkulaufzeit :(

Dann habe ich geschaut ob bei mir wie im Bugreport auf Bugzille [1] der Fehler als (dieselbe) "Machine check exception" angezeigt wird (in Debianmcelog). Leider ohne Erfolg, mcelog segfaultet bei mir nur, wenn es die vergangenen Fehler anzeigen soll und im BIOS-Setup gibt es keine Anzeige dafür bei mir (soweit ich weiß sollten die Fehler ja irgendwo im nvram? gespeichert werden, damit man sie nach einem Crash auslesen kann?).
Ein paar Versuche mit älteren Kerneln und Microcode-Update-Versionen (der Versuch einen früheren Zustand wiederherzustellen, weil ich ja glaube, dass jessie bereits stabil gelaufen ist) und der Versuch einige andere Stromsparmechanismen zu deaktivieren, die eigentlich nichts damit zu tun haben, haben auch nichts gebracht.

Werde auch noch ausprobieren wie sich »intel_pstate=disable« auf die Freezes und die Akkulaufzeit auswirkt. Gibt es sonst noch Vorschläge was ich tun kann, außer warten und hoffen, dass es noch ein Microcode oder Kernelupdate gibt, das das Problem beseitigt?


[1] https://bugzilla.kernel.org/show_bug.cgi?id=103351

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie geht man freezes auf den Grund?

Beitrag von NAB » 17.01.2016 13:31:37

Wie du ja selber sagst ... der Fehler gleicht keinem bisher bekannten Bug. Ich würde einen Hardwaredefekt nicht ausschließen. Langsam wäre interessant, wie sich der Laptop unter Windows 10 verhält.
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

Benutzeravatar
smutbert
Moderator
Beiträge: 8331
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Wie geht man freezes auf den Grund?

Beitrag von smutbert » 17.01.2016 14:15:23

NAB hat geschrieben:Wie du ja selber sagst ... der Fehler gleicht keinem bisher bekannten Bug.[…]
Das würde ich eigentlich nicht sagen. Bis auf den Segfault von mcelog und die Tatsache, dass er bis jetzt durch kein Microcode-Update behoben wurde, gleicht er schon dem Bugreport, den du eingangs verlinkt hast und ein Hardwaredefekt, der sich mit idle=poll umgehen lässt käme mir auch sehr merkwürdig vor.
Das Deaktiviert doch eigentlich nur ein Feature des Prozessor - ich habe es so verstanden, dass mit dem default (mwait statt poll) eine idle-Schleife unterbrochen wird, bis ein Interrupt ausgelöst wird, bei idle läuft sie dagegen immer weiter?

Das Deaktivieren des pstate-Treibers bringt auch nichts. Ich denke ich werde einmal eine andere Distribution oder zumindest den Kernel einer anderen Distribution testen - wenn ich es recht in Erinnerung habe ist laut Bugreport der oder ein sehr ähnlicher Fehler bei Fedora nie aufgetreten.

Noch bin ich jedenfalls zu optimistisch um von einem Hardwaredefekt auszugehen :wink:

NAB
Beiträge: 5501
Registriert: 06.03.2011 16:02:23
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie geht man freezes auf den Grund?

Beitrag von NAB » 17.01.2016 14:32:49

Naja, wenn du ein "Feature" des Prozessors nutzen willst, und es geht nicht, dann könnte dieses Feature kaputt sein ...

Eigentlich sollte es übrigens ein BIOS-Update mit aktualisiertem Microcode geben.
Never change a broken system. It could be worse afterwards.

"No computer system can be absolutely secure." Intel Document Number: 336983-001

Antworten