[gelöst]Wie lässt sich die Ursache für Hänger einkreisen?

Sound, Digitalkameras, TV+Video und Spiele.
Antworten
DonPedro
Beiträge: 9
Registriert: 10.11.2018 20:44:29
Lizenz eigener Beiträge: MIT Lizenz

[gelöst]Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von DonPedro » 12.11.2018 00:46:33

Hallo zusammen,

ich habe hier ein Problem an dem ich schon seit Monaten herumbastele, aber dessen Ursache ich nicht finden kann. Ich kann noch nicht einmal sagen, ob es sich hier um ein Soft- oder ein Hardwareproblem handelt. Das herauszufinden wäre der erste Schritt. Worum geht es:
  • Ich habe eine Maschine aufgesetzt, die vorrangig einen tvheadend Server betreiben soll (daher mein Post unter "Multimedia und Spiele"), der Sendungen von einem SAT-IP Server aufnehmen und abspielen soll.
  • Hierzu habe ich ein vorhandenes Asus M4A89GTD-PRO/USB3 mit einem AMD Phenom(tm) II X6 1055T Prozessor und 4GB RAM genommen, was noch in der Schublade lag und früher unter Windows problemlos seinen Dienst verrichtet hat.
  • Das Board wurde zusammen mit einer SSD zum Starten und zwei Platten für Aufnahmen, Videos, etc. in ein be quiet Gehäuse verpflanzt.
  • Es ist ansonsten keine zusätzliche Hardware verbaut, keinerlei Steckkarten, USB-Geräte, o.ä.
  • Ich habe auf der Maschine ein debian als headless Server installiert und dort dann tvheadend installiert. Als Abspieler dient u. a. ein Raspi mit xbian/Kodi.
Grundsätzlich funktioniert das System auch wunschgemäß, aber jetzt kommt das große Aber: In variablen Abständen friert die komplette Maschine ein und kann nur durch einen harten Reset neu gestartet werden. :cry: Auffällig dabei ist:
  • Die Zeit in der die Maschine bis zum nächsten Freeze läuft ist variabel, es kann sein, dass der nächste Freeze nach einer Stunde kommt, oder auch erst nach zwei Tagen.
  • Ich habe tvheadend zwischenzeitlich als Debug installliert und lasse alles loggen. Oft (aber nicht immer) ist das letzte was ich im Log sehe ein "arm Channel timer" Eintrag: "2018-11-09 14:06:23.774 [ DEBUG]:epg: arm channel timer @ 2018-11-09;14:55:00(+0100) for WDR HD Köln"
  • Unmittelbar hinter dem "arm channel timer"-Eintrag kommt als allerletzes immer mal wieder (aber längst nicht bei jedem Freeze) eine Reihe von Punkten im Log:
    2018-11-09 14:06:22.475 [ DEBUG]:epg: arm channel timer @ 2018-11-09;14:55:00(+0100) for WDR HD Köln
    2018-11-09 14:06:23.774 [ DEBUG]:epg: arm channel timer @ 2018-11-09;14:55:00(+0100) for WDR HD Köln
    ................................................................................................................................................................................................................................................................ <- Diese Punkte sind Bestandteil des Logs!
    Die Punkte sind null Bytes, wenn man sich das Logfile mit einem Hexeditor ansieht.
  • Auf der Konsole (testweise angeschlossener VGA Monitor) ist *keine* Kernel Panic Meldung zu sehen, sondern meist schlicht und ergreifend gar nichts mehr (obwohl in grub die Option "consoleblank=0" gesetzt ist)
  • Das System reagiert auch sonst nicht mehr, nicht über ssh und auch nicht auf eine lokal angeschlossene Tastatur. Es ist auch nicht mehr pingbar, die Karre steht tatsächlich komplett.
Nun gehe ich davon aus, dass ein crashendes tvheadend nicht das komplette OS zum Einfrieren bringt. Und wenn doch, dann sollte man zumindest ein Kernel Panic sehen. Daher habe ich meine Fehlersuche erstmal auf die Lokalisierung eines Hardwaredefektes konzentriert. Was ich probiert habe:
  • Memtest laufen lassen (mehrere Tage lag), die Maschine lief dabei 100% stabil durch und es wurden keine RAM Fehler gefunden. Man konnte am Hochdrehen des CPU-Lüfters auch gut erkennen, dass die Lüfterregelung korrekt funktioniert.
  • Netzteil und Versorgungsspannungen kontrolliert
  • Aktuellstes BIOS und Firmware für HDD'Ss installiert
  • Alle nicht benöigten Treiber temporär deaktiviert
  • Power Management deaktiviert
  • Konservative BIOS-Einstellungen geladen
  • Den EPG-Grabber von tvheadend deaktiviert
  • Versucht alle Cores bis auf einen zu deaktivieren. Das funktionierte jedoch nicht, offenbar beherrscht das BIOS das Abschalten der Cores nicht sauber, Nach dem Abschalten wollte das Board gar nicht mehr mit dem POST beginnen, ich musste das CMOS löschen(!) um den Rechner wieder starten zu können.
  • Den Developer Branch von tvheadend installiert
Nichts von all diesen Tests hat einen Hinweis auf die Ursache gebracht und nichts davon hat die Crashes verhindert! Aber es kommt noch viel seltsamer. Es ist zwischenzeitlich zweimal passiert, dass sich irgendetwas so geändert hat, dass das System auf einmal stabil lieft - aber nur bis bis zum nächsten (manuell eingeleiteten) Reboot! Ich schreibe bewusst "irgendetwas", weil weder aktiv etwas geändert wurde, noch sich die Veränderung anderweitig ermittel lässt. Also so:
System hängt, drücke Reset und starte neu. Ein paar Stunden später hängt das System erneut, Reset drücken und neu starten. Jetzt fährt das System neu hoch und läuft auf einmal unerklärlicherweise stabil, ich hatte schon Uptimes von ~150 Tagen. Irgendwann muss der Server dann doch mal neu gestartet werden, und damit geht das Einfrierproblem von neuem los. Was habe ich gemacht außer Reset zu drücken? Absolut gar nichts!

Die Tatsache, dass die Freezes so undeterministisch sind lässt mich immer noch ein Hardwaredefekt in Betracht ziehen, aber was kann ich noch tun um irgendetwas zu testen? Bevor ich das Board schrotte und ein neues kaufe würde ich gerne sicherstellen, dass auch tatsächlich ein Hardwaredefekt auf dem Board vorliegt. Was also kann ich noch weiter tun um den Auslöser für die Freezes einzugrenzen??`Bin für jede Hilfe und Idee dankbar!

THX

Don
Zuletzt geändert von DonPedro am 17.12.2018 22:53:29, insgesamt 1-mal geändert.

Benutzeravatar
whisper
Beiträge: 3155
Registriert: 23.09.2002 14:32:21
Lizenz eigener Beiträge: GNU Free Documentation License
Kontaktdaten:

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von whisper » 12.11.2018 08:29:45

Immer nur beim WDR? Könnte am Stream liegen

DonPedro
Beiträge: 9
Registriert: 10.11.2018 20:44:29
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von DonPedro » 12.11.2018 21:01:59

whisper hat geschrieben: ↑ zum Beitrag ↑
12.11.2018 08:29:45
Immer nur beim WDR? Könnte am Stream liegen
  • Nee, nicht "immer nur beim WDR", das war nur ein Beispiel.
  • Außerdem würde ich erwarten, dass ein Stream der per TCP/IP reinkommt nicht das ganze System in den Abrgrund reisst, völlig egal was dort für ein Schrott ankommt. Letztlich haben wir hier ein Linux/Unix, da darf man eine gewisse Stabilität erwarten, gelle?
  • Ein kompletter Logeintrag sieht BTW so aus: "2018-11-09 00:08:02.003 [ DEBUG]:epg: arm channel timer @ 2018-11-09;00:55:00(+0100) for TLC". Er besagt dass der EPG Grabber versucht aus dem Stream die EPG Daten zu lesen. Es findet weder eine Aufnahme eines Programms statt, noch wird Live geschaut. Es kann gut sein, dass die Maschine mitten in der Nacht einfriert, wo sie gar nichts zu tun hat und halt nur mal die EPG Daten aktualisiert.
  • Es ist auffällig, dass ein solcher Eintrag sehr oft (nicht immer) als letztes dort steht. Deswegen bin ich auch so am rätseln ob ich tatsächlich ein Hardwareproblem habe. Zumindest das Netzteil ist aus meiner Sicht extrem unwahrscheinlich (Spannnungswerte in BIOS sind OK, dann kämen nur noch Glitches, Spikes oder Brownouts in Frage und da würde ich tatsächlich völlige Zufallsereignisse erwarten, also nicht nur Freezes, sondern auch Crashes und spontane Neustarts) und das RAM habe ich aktiv ohne Negativbefund getestet. Würde aus meiner Sicht nur noch Board, Prozessor oder eine der Platten in Frage kommen, was anderes ist nicht verbaut oder angeschlossen. Letzteres ist aber auch sehr unwahrscheinlich, ich würde jede Menge Timeouts im Log erwarten und der Rechner ist noch nie mit brennender HDD-Zugriffs-LED eingefroren, die war tatsächlich *immer* aus.
So langsam bin ich etwas am verzweifeln was ich noch ausprobieren soll. Ich würde ja ein neues Board/Proz kaufen, will aber unbedingt vermeiden, dass ich Komponenten tausche die sich nacher nicht also ursächlich heraustellen. Zumindest sollte irgendwie sichergestellt werden können, dass es auf keinen Fall ein Softwareproblem ist und da sind wir wieder bei der auffälligen Häufung der EPG Logeinträge vor einem Hänger...

Was mich auch total mistrauisch macht sind die gelegentlichen Nullbytes die ich dort sehe, die Maschine läuft so grade noch, sie kann auch noch etwas ins Log schreiben, aber was/wer veranlasst dass dort Nullbytes landen (die nach meiner Einschätzung dort gar nicht landen dürften)? Hier ist also schon vorher etwas ziemlich aus dem Ruder gelaufen und das spricht wieder für ein Softwareproblem. Wie finde ich heraus wo sich der Kernel zum Zeitpunkt des Hängers gerade befindet und was er tut/versucht zu tun?

BTW: Das tvheadend Forum habe ich schon komplett durch, dort hatte man auch keine Idee mehr...

Benutzeravatar
TBT
Beiträge: 923
Registriert: 18.06.2003 08:39:36
Kontaktdaten:

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von TBT » 12.11.2018 21:59:37

Sowas hatte ich auch, lag am Ram obwohl Memtest keine Fehler gebracht hatte.

Ich hatte wohl ungewöhnliche DDR3 Riegel, die 1,65V brauchten und vom Board nicht korrekt erkannt wurden.
Normalerweise wird DDR3 wohl mit 1,5V befeuert, was das Board auch getan hat.

Effekt war genau der Beschriebene, nicht reproduzierbares Einfrieren des Systems,
teilweise schon beim Hochfahren, manchmal auch erst nach einer Woche oder viel längerer Laufzeit.

DonPedro
Beiträge: 9
Registriert: 10.11.2018 20:44:29
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von DonPedro » 12.11.2018 22:45:23

TBT hat geschrieben: ↑ zum Beitrag ↑
12.11.2018 21:59:37
Sowas hatte ich auch, lag am Ram obwohl Memtest keine Fehler gebracht hatte.

Ich hatte wohl ungewöhnliche DDR3 Riegel, die 1,65V brauchten und vom Board nicht korrekt erkannt wurden.
Normalerweise wird DDR3 wohl mit 1,5V befeuert, was das Board auch getan hat.
Schrotteinträge im SPD oder kaputtes BIOS???
TBT hat geschrieben: ↑ zum Beitrag ↑
12.11.2018 21:59:37

Effekt war genau der Beschriebene, nicht reproduzierbares Einfrieren des Systems,
teilweise schon beim Hochfahren, manchmal auch erst nach einer Woche oder viel längerer Laufzeit.
OK, danke für den Hinweis, wäre eine Option die ich noch nicht durch habe. Nachdem Memtest nichts gefunden hat bin ich von keinem RAM Fehler ausgegangen. Ich nutze zwar nur Standard-RAM, nichts ungewöhnliches oder Overclockerzeugs, aber das muss ja nichts heißen. Ich könnte zwei Dinge probieren:
  • In der Annahme dass nur ein Riegel defekt ist testweise einen Riegel ziehen und schauen ob das Board damit stabil wird.
  • Ich kann die Spannung der RAM Riegel im BIOS variieren (das BIOS ist wie heute üblich vollgestopft mit irgendwelchem Overclockermist, was ich aber alles deaktiviert oder auf auto gestellt habe, Performancegewinne im Promillebereich sind vollkommen uninteressant, es soll vor allem stabil laufen), ich könnte die testweise also mal leicht nach oben setzen, in 0,05V Schritten vmtl.
Was mich irritiert ist, dass das Board vorher unter Windoof keinen Streß gemacht hat. Wenn man nicht saftige Aufpreise zahlen müsste wäre man fast geneigt sich mal 'nen Satz ECC RAMs zu gönnen...

Benutzeravatar
TBT
Beiträge: 923
Registriert: 18.06.2003 08:39:36
Kontaktdaten:

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von TBT » 12.11.2018 23:14:17

Keine Ahnung, warum die Rams nicht richtig erkannt wurden.
Mir fiel nur irgendwann auf, dass auf den Aufklebern 1,65V steht.
Im BIOS konnte ich aber die Voltzahl auch per Hand nicht so hoch setzen.

Nichts übertaktet etc an dem System, eigentlich komplett Standard.
Im BIOS auch alles auf "Normal" und nicht "Turbo" gestellt.
Neue Rams mit 1,5V hatten das Problem komplett behoben.

pferdefreund
Beiträge: 3791
Registriert: 26.02.2009 14:35:56

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von pferdefreund » 13.11.2018 09:47:07

Hab auch schon gehört, dass diverse Boards nur mit bestimmten Riegeln richtig laufen. Normalerweise sollte man auf der Herstellerseite des Boards eine Auflistung der möglichen Ram-Riegel (mit Hersteller) finden. Bloß kein E-Bucht-Billigzeug kaufen. Die Lebenszeit, die man opfert, ist der Minderpreis nicht wert.

DonPedro
Beiträge: 9
Registriert: 10.11.2018 20:44:29
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von DonPedro » 13.11.2018 21:16:24

pferdefreund hat geschrieben: ↑ zum Beitrag ↑
13.11.2018 09:47:07
Hab auch schon gehört, dass diverse Boards nur mit bestimmten Riegeln richtig laufen. Normalerweise sollte man auf der Herstellerseite des Boards eine Auflistung der möglichen Ram-Riegel (mit Hersteller) finden.
Korrekt, leider stehen in solchen Listen (natürlich) nur DIMMs drin, die's zum Druckzeitpunkt erhältlich waren. Nach zwei Jahren ist die Liste nutzlos, weil dort nur noch lächerlich kleines Zeugs gelistet ist.
pferdefreund hat geschrieben: ↑ zum Beitrag ↑
13.11.2018 09:47:07
Bloß kein E-Bucht-Billigzeug kaufen.
War in diesem Fall auch kein Billichzeuchs, Markendimms von A-Data, gekauft über Alternate, kein OC Kram, Standard DDR3-1333, keine eloxierten Aluschmankerl, usw. Aber auch Markenware geht ja schonmal kaputt oder hat eine Macke.

Habe die Spannung mal moderat von 1,55V (lt. Ist-Anzeige in BIOS, nominell 1,5V) auf 1,6V angehoben, mal schauen ob das was ändert. Sack Zement, wenn die Karre jetzt läuft beiß ich mir in' Hintern, habe Monate an dem Problem gefrickelt, weil's manchmal sehr lange stabil gelaufen ist und jeder Testdurchgang Tage gedauert hat bis das Ergebnis feststand. Von daher:
pferdefreund hat geschrieben: ↑ zum Beitrag ↑
13.11.2018 09:47:07
Die Lebenszeit, die man opfert, ist der Minderpreis nicht wert.
Das hast du aber *sowas* von recht!!

DonPedro
Beiträge: 9
Registriert: 10.11.2018 20:44:29
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von DonPedro » 14.11.2018 10:10:37

DonPedro hat geschrieben: ↑ zum Beitrag ↑
13.11.2018 21:16:24
Habe die Spannung mal moderat von 1,55V (lt. Ist-Anzeige in BIOS, nominell 1,5V) auf 1,6V angehoben, mal schauen ob das was ändert.
Heute morgen hing die Maschine leider wieder, bin jetzt auf 1,65V hoch gegangen. :evil:

BTW, weiß jemand wie hoch man Standard-DIMMs dreschen kann ohne sie zu grillen? 1,7V? 1,8V? Im meinem BIOS sind glaube ich bis 2,0V drin, aber ich will ja kein Schlachtfest ausrufen. Würde alternativ auch mal Undervoltage testen, hier müsste sich ja auch eine Änderung zeigen, vermutlich zum Schlechteren, sprich noch schnellere Hänger, wenn es was mit den RAMs zu tun hat. Wenn das Spielen mit der Spannung nichts bring würde ich als nächstes dann mal einen Riegel ziehen...
Zuletzt geändert von DonPedro am 14.11.2018 10:14:39, insgesamt 1-mal geändert.

pferdefreund
Beiträge: 3791
Registriert: 26.02.2009 14:35:56

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von pferdefreund » 14.11.2018 10:14:36

Da würde ich aber mal mit dem Fingerthermometer prüfen, ob die nicht zu warm werden - gilt auch für die CPU. Die Sensoren auf dem Board zeigen auch nicht immer die echte Temperatur und wenn die CPU runtertaktet....

DonPedro
Beiträge: 9
Registriert: 10.11.2018 20:44:29
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von DonPedro » 14.11.2018 10:18:47

pferdefreund hat geschrieben: ↑ zum Beitrag ↑
14.11.2018 10:14:36
Da würde ich aber mal mit dem Fingerthermometer prüfen, ob die nicht zu warm werden - gilt auch für die CPU. Die Sensoren auf dem Board zeigen auch nicht immer die echte Temperatur und wenn die CPU runtertaktet....
Ja klar, ist ein echtes "Spiel mit dem Feuer". Höher als 1,65V, maximal 1,7V würde ich auch nicht gehen wollen. Dies auch nur als Test ob man eine Abhängigkeit erkennen kann. Falls nicht geht die Spannung wieder auf die nominellen 1,5V (bzw. die Auto-Einstellung) runter.

debianoli
Beiträge: 4068
Registriert: 07.11.2007 13:58:49
Wohnort: Augschburg

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von debianoli » 14.11.2018 14:36:20

Und was ist mit der TV Karte? Kannst du die ausschließen? Evtl TV-Stick, der an einen USB Port mit Schlag hängt? SATA Kabel ok?

DonPedro
Beiträge: 9
Registriert: 10.11.2018 20:44:29
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von DonPedro » 14.11.2018 21:46:33

debianoli hat geschrieben: ↑ zum Beitrag ↑
14.11.2018 14:36:20
Und was ist mit der TV Karte? Kannst du die ausschließen? Evtl TV-Stick, der an einen USB Port mit Schlag hängt? SATA Kabel ok?
  • Ich nutze keine TV Karte oder einen TV Stick: Externer IP/TV-Server auf dem Dachboden und der hängt am Onboard Ethernet Port. Wenn der Rechner sich weggehängt hat sind die Kontrolllämpchen am Ethernetport BTW die einzigen die noch rumblinken...
  • SATA Kabel sollten soweit OK sein, beim Zusammenbau des Rechners neu aus der Packung gezogen. Kann man natürlich testweise mal tauschen, allerdings passt das nicht zum Absturzbild. Bei defekten SATA Kabeln würe ich völlig sporadische Crashes, Kernel Panic, massig Timeouts und Fehlermeldungen im Log, korrupte Dateisysteme, Hänger mit dauerleuchtender HDD LED, usw. erwarten. Alles aber nicht der Fall.

DonPedro
Beiträge: 9
Registriert: 10.11.2018 20:44:29
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von DonPedro » 23.11.2018 10:14:41

Wen's interessiert hier ein kurzer Report zum aktuellen Status Quo:
  • Nachdem ich die RAM Spannung auf 1,65V (statt der normalen 1,5V) erhöht habe ist der Rechner nun rund eine Woche ohne Hänger durhgelaufen.
  • In der Vergangenheit habe ich immer mal wieder einzelne Phasen gehabt wo ich aus unerklärlichen Gründen eine längere Uptime hatte, einmal sogar weit über 100 Tage. Als solches traue ich dem Braten (noch) nicht. Und um das zu checken habe ich daher heute absichtlich einen Neustart durchgeführt. Das hat bei stabilen Phasen bisher immer dazu geführt, dass die Maschine in ihren alten "ich bleibe regelmäßig hängen" Trott zurückgefallen ist. Ich werde das in den nächsten Tagen und Wochen mehrfach wiederholen und bleibt die Maschine über mehrere Neustarts hinweg stabil, dann ist die Ursache wohl tatsächlich gefunden und die Lösung lautet RAM Spannung hoch oder ggf. RAM tauschen.
  • Die erhöhte Spannung scheint sich ansonsten nicht durch extreme Temperatur bemerkbar zu machen, ich versuche ja nicht gleichzeitig zu übertakten. sensors sagt für die CPU +38°, MB +25°, CPU Fan 2000 RPM (bei min. 600RPM und max. 7200 RPM), also alles sehr moderat. Die RAM Spannung zeigt sensors leider nicht an, offenbar fehlt hier ein Treiber (im BIOS hingegen kann ich die Spannung sehen, es gibt eine separate Liveanzeige mit Werten die leicht schwanken, so dass das ein Ist- und kein Sollwert sein müsste).
Ich bin gespannt wie sich das weiter entwickelt und werde berichten.

DonPedro
Beiträge: 9
Registriert: 10.11.2018 20:44:29
Lizenz eigener Beiträge: MIT Lizenz

Re: Wie lässt sich die Ursache für Hänger einkreisen?

Beitrag von DonPedro » 17.12.2018 22:52:45

Hier der vorläufige Endzustand meiner Versuche:
Nachdem ich die RAM Spannung auf 1,65V erhöht habe hat sich das System über mehrere Wochen nicht mehr weggehängt. Ich habe während dieser Zeit den Rechner absichtlich mehrfach neu gestartet um auszuschließen, dass ich eine zufällige stabile Phase erwischt habe. Das System ist ohne jegliche Probleme durchlaufen, ich gehe also davon aus, dass dies die Ursache behoben oder zumindest umgangen hat. Endgültig wissen werde ich es vmtl. im kommenden Sommer, wo sich zeigen wird ob die Maschine auch bei hohen Raumtemperaturen sauber läuft. Ich habe aktuell diesbzgl. aber keine Bedenken und falls es zu Problemen käme würde ich dann das RAM tauschen.

An dieser Stelle nochmal Dank an TBT für den richtigen Tipp! :THX:

Antworten