Kurioser Power Off, gefolgt von Neustart

Hast Du Probleme mit Hardware, die durch die anderen Foren nicht abgedeckt werden? Schau auch in den "Tipps und Tricks"-Bereich.
Antworten
Gunman1982
Beiträge: 923
Registriert: 09.07.2008 11:50:57
Lizenz eigener Beiträge: MIT Lizenz

Kurioser Power Off, gefolgt von Neustart

Beitrag von Gunman1982 » 20.07.2018 11:32:24

Kurze Problembeschreibung: Laptop schaltet sich aus, komplett, startet dann nach 5sek neu.

System:

Code: Alles auswählen

System:    Host: Gunman Kernel: 4.17.0-1-amd64 x86_64 bits: 64 Desktop: Gnome 3.28.3 
           Distro: Debian GNU/Linux buster/sid 
Machine:   Type: Laptop System: LENOVO product: 244754G v: ThinkPad W530 serial: <root required> 
           Mobo: LENOVO model: 244754G v: Win8 Pro DPK TPG serial: <root required> UEFI [Legacy]: LENOVO 
           v: G5ETA7WW (2.67 ) date: 05/16/2017 
Battery:   ID-1: BAT0 charge: 33.4 Wh condition: 33.4/93.6 Wh (36%) 
CPU:       Topology: Quad Core model: Intel Core i7-3840QM bits: 64 type: MT MCP L2 cache: 8192 KiB 
           Speed: 1232 MHz min/max: 1200/3800 MHz Core speeds (MHz): 1: 1222 2: 1323 3: 1226 4: 1255 5: 1232 
           6: 1198 7: 1326 8: 1468 
Graphics:  Card-1: Intel 3rd Gen Core processor Graphics driver: i915 v: kernel 
           Card-2: NVIDIA GK107GLM [Quadro K2000M] driver: N/A 
           Display: x11 server: X.Org 1.20.0 driver: intel,nouveau unloaded: fbdev,modesetting,vesa 
           resolution: 1920x1080~60Hz 
           OpenGL: renderer: Mesa DRI Intel Ivybridge Mobile v: 4.2 Mesa 18.1.4 
Audio:     Card-1: Intel 7 Series/C216 Family High Definition Audio driver: snd_hda_intel 
           Card-2: Logitech H600 [Wireless Headset] type: USB driver: snd-usb-audio 
           Sound Server: ALSA v: k4.17.0-1-amd64 
Network:   Card-1: Intel 82579LM Gigabit Network driver: e1000e 
           IF: eth0 state: down mac: 3c:97:0e:96:b3:b2 
           Card-2: Intel Centrino Ultimate-N 6300 driver: iwlwifi 
           IF: wlp3s0 state: up mac: 3c:a9:f4:33:9e:50 
Drives:    Local Storage: total: 931.52 GiB used: 813.16 GiB (87.3%) 
           ID-1: /dev/sda vendor: Samsung model: SSD 850 EVO 500GB size: 465.76 GiB 
           ID-2: /dev/sdb vendor: Seagate model: ST500LM000-1EJ162 size: 465.76 GiB 
Sensors:   System Temperatures: cpu: 35.0 C mobo: N/A 
           Fan Speeds (RPM): cpu: 2056 
Info:      Processes: 323 Uptime: 16h 13m Memory: 15.22 GiB used: 4.24 GiB (27.8%) Shell: bash inxi: 3.0.18 

primusrun inxi -G
Graphics:  Card-1: Intel 3rd Gen Core processor Graphics driver: i915 v: kernel 
           Card-2: NVIDIA GK107GLM [Quadro K2000M] driver: N/A 
           Display: x11 server: X.Org 1.20.0 driver: intel,nouveau unloaded: fbdev,modesetting,vesa 
           resolution: 1920x1080~60Hz 
           OpenGL: renderer: Quadro K2000M/PCIe/SSE2 v: 4.6.0 NVIDIA 390.67 
optirun/bumblebee.conf

Code: Alles auswählen

[optirun]
# Acceleration/ rendering bridge, possible values are auto, virtualgl and
# primus.
Bridge=primus
# The method used for VirtualGL to transport frames between X servers.
# Possible values are proxy, jpeg, rgb, xv and yuv.
VGLTransport=proxy
# PBO should be faster.
VGL_READBACK=pbo
# List of paths which are searched for the primus libGL.so.1 when using
# the primus bridge
PrimusLibraryPath=/usr/lib/x86_64-linux-gnu/primus:/usr/lib/i386-linux-gnu/primus:/usr/lib/primus:/usr/lib32/primus
# Should the program run under optirun even if Bumblebee server or nvidia card
# is not available?
AllowFallbackToIGC=false

...

## Section with nvidia driver specific options, only parsed if Driver=nvidia
[driver-nvidia]
# Module name to load, defaults to Driver if empty or unset
KernelDriver=nvidia-current
PMMethod=bbswitch
# colon-separated path to the nvidia libraries
#LibraryPath=/usr/lib/x86_64-linux-gnu/nvidia:/usr/lib/i386-linux-gnu/nvidia:/usr/lib/nvidia
LibraryPath=/usr/lib/x86_64-linux-gnu/nvidia:/usr/lib/i386-linux-gnu/nvidia:/usr/lib/nvidia:/usr/lib/x86_64-linux-gnu:/usr/lib/i386-linux-gnu
# comma-separated path of the directory containing nvidia_drv.so and the
# default Xorg modules path
XorgModulePath=/usr/lib/nvidia/nvidia,/usr/lib/xorg/modules
XorgConfFile=/etc/bumblebee/xorg.conf.nvidia
Problembeschreibung:
Ich kann das Verhalten, shutdown+neustart, recht gut erzwingen indem ich gnome3 starte, calibre öffne und offen lasse, steam starte und dann unter steam das Spiel "Silence" starte per primusrun. Nach einer nicht fest definierten Zeit aber in der Regel unter 10 Minuten geht der Laptop aus, das heisst Powerbutton ist aus, kein softreset/reboot. Nach 5 Sekunden startet der Laptop als hätte ich ihn angeschaltet. Wenn ich das Spiel starte ohne calibre besteht kein Problem.

Der zweite Weg wie ich das Problem erzeugen kann ist, wieder steam, dann das Spiel "The Fall Part 2: Unbound" per optirun starte. Wieder nach einer undefinierten Zeit Power off mit restart. Wenn ich das Spiel per primusrun öffne schaltet er mir die Karte nach dem Intro direkt wieder aus und werkelt auf der Intel Karte weiter, kein power-off, reboot in diesem Fall aber grottige Performance.

Nach beiden Fällen ist nichts besonderes in Logs zu finden. Ich vermute daher das da irgendeine Hardware-Sicherung anschlägt und die Kiste in den Not-Aus reisst. Vielleicht im Zusammenhang mit OpenGL Beschleunigung auf der falschen Karte?! Mein Latinum ist am Ende.

Was ich ausschließen kann:
Thermisches Problem, habe mich mit einem anderen Gerät während eines "Tests" per ssh verbunden und mir in 5sek abständen die Temperatur anzeigen lassen, weder CPU noch GPU waren übermässig Heiss. CPU zwischen 80-85°C und GPU bei 60°C.
RAM Problem, Problem tritt auf bei genügend freiem Speicher und auch wenns eng wird, die Speicherauslastung selber bei Tests war nicht gravierend.

Was mich interessieren würde ist ob das jemand (oder Niemand) mit ähnlicher Hardware (Optimus, Nvidia) und der Software ("Silence" + calibre, "The Fall Part 2: Unbound") reproduzieren könnte.

PS: Das System unter Voll-Last hat keine Probleme. Getestet mit "primer" (Prime-Zahlen rechnen) und auch bei Grafisch/Rechnerisch anspruchsvollen Spielen ist alles in Butter.

Benutzeravatar
smutbert
Moderator
Beiträge: 8316
Registriert: 24.07.2011 13:27:39
Wohnort: Graz

Re: Kurioser Power Off, gefolgt von Neustart

Beitrag von smutbert » 20.07.2018 11:50:39

Hast du Temperaturprobleme nicht vielleicht etwas voreilig ausgeschlossen?

Ich hatte mit einem i7-4770T, der deiner CPU von zumindest einigen Daten her fast schon verdächtig ähnlich ist, ähnliche Probleme. Bei mir war imho das Mainboard/BIOS mitverantwortlich, denn die CPU wurde nie heruntergetaktet sondern der Computer hat sich einfach ausgeschaltet und das bei CPU-Temperaturen, bei denen ich eigentlich noch mit ~10 °C Reserve gerechnet hätte. In einem anderen Mainboard wird bei den Temperaturen bereits heruntergetaktet und auch bei Volllast schaltet sich nie etwas aus.
(Mit prime habe ich das übrigens nur nach sehr langer Laufzeit reproduzieren können, beim Konvertieren von Videos mit handbrake oder anderen Dingen ist es dagegen recht schnell passiert und ich habe keine Ahnung wie man feststellen kann, ob sich der Computer nicht wegen etwas anderem abschaltet, zB überhitzten Spannungswandlern und vielleicht daraus folgenden großen Spannungsabweichungen oder ähnlichem.)

Gunman1982
Beiträge: 923
Registriert: 09.07.2008 11:50:57
Lizenz eigener Beiträge: MIT Lizenz

Re: Kurioser Power Off, gefolgt von Neustart

Beitrag von Gunman1982 » 20.07.2018 11:58:07

smutbert hat geschrieben: ↑ zum Beitrag ↑
20.07.2018 11:50:39
Hast du Temperaturprobleme nicht vielleicht etwas voreilig ausgeschlossen?
Ich denke nicht. Grund sind zum einen die Limits (high = +87.0°C, crit = +105.0°C) für die CPU, die fehlenden "Thermal throttling" Einträge in den Logs, die 60° der GPU die ziemlich stabil sind, die recht konstanten thermischen Ausgaben per sensors und nvidia-smi über die ssh session und was halt der Knackpunkt ist: Wenn ich im ersten Beispiel calibre nicht starte oder vorher beende dann geht die Kiste nicht aus. Produziert natürlich noch die selben thermischen Werte. Und calibre ist halt jetzt auch nichts wo ich sagen würde "Hey das braucht richtig Leistung".

Konvertieren von Videos ist mit dem Laptop kein Problem und andere Spiele (Mad Max, Middle Earth, ...) lasten den um einiges mehr aus und nichts passiert.

Was ich beim primetest vergessen hatte zu erwähnen: Temperatur CPU ging bis 95° und ab da fing wohl das throtteln an denn höher hab ich sie nicht gekriegt.

Antworten