UPDATE: ist nicht mehr spezifisch für den Netfinity 5000, sondern selbes Problem auch mit Quad-P3-Xeon (Netfinity 7000 M10) aufgetreten!
UPDATE 20.6.2012: Problem könnten NMIs bzw. der Watchdog-Mechanismus sein - siehe hinzugefügte Antwort.
Hallo zusammen!
Ausgangslage: ich betreibe mehrere SMP-Systeme mit Pentium-3-CPUs, darunter einen IBM Netfinity 5000 mit 2x P3-Coppermine und, ihm am vergleichbarsten, einen IBM xSeries 232 mit 2x P3-Tualatin. Auf allen Systemen läuft Debian testing (wheezy) mit einem aktuellen Stand und relativ ähnlicher Konfiguration.
Problem: der Netfinity 5000 läuft, im Gegensatz zu den anderen Systemen, nicht stabil mit neueren Kerneln als der Version 2.6.32. Ich habe alle getestet, von 2.6.38, 2.6.39 und 3.0 bis nun mittlerweile 3.2.1.
Mit allen diesen neuen Versionen habe ich das Problem, daß es nach einiger Laufzeit (min. ca. 1 Stunde, max. ca. 60 Stunden) zu enen völligen Aufhängen des Systems kommt, das - insbesondere mit dem Kernel 3.2.1, mit dem ich aktuell teste - ein Deadlock zwischen den beiden CPUs zu sein scheint (der Netfinity 5000 hat an der Frontplatte zwei "Aktivitäts-LEDs" für die CPUs, die in "eingefrorenem" Zustand ein sich in immer gleicher Folge wiederholendes Blinkmuster zeigen; bei einem normalen Absturz wäre dies nicht der Fall).
Die verwendeten Kernel sind die von Debian paketierten, je nach Version aus stable, testing oder experimental; seit der "Zwangseinführung" von PAE für die SMP-fähigen Kernel dementsprechend diejenigen mit PAE.
Leider hinterläßt der Deadlock nichts auf der Festplatte, so daß ich bisher an keine konkreten Infos zur Ursache des Problems kommen konnte (allerdings plane ich, sobald wie möglich einen Log über die serielle Schnittstelle aufzuzeichnen, in der Hoffnung daß hier noch Meldungen kommen).
Ich habe die Konfigurationen und Kernel-Logs der beiden genannten Rechner schon intensiv verglichen und komme als wesentliche Unterschiede nur auf das folgende:
- der Netfinity 5000 hat eine Onboard-LAN-Karte, die den AMD pcnet32-Treiber verwendet
- im Gegensatz zum xSeries 232 (2 IO-APICs) hat der Netfinity 5000 nur einen IO-APIC
Kann das Problem irgendwas mit der BKL-Thematik zu tun haben? Mit den neueren Kerneln werden offenbar auch intensiv NMIs für das Locking verwendet - mit 2.6.32 ist der NMI-Zähler für alle CPUs stets null, mit den neueren Versionen wächst er im Betrieb stetig.
Anbei noch die dmesg-Ausgaben der Bootvorgänge:
Kernel 2.6.32: http://nopaste.debianforum.de/36212
Kernel 3.2.1: http://nopaste.debianforum.de/36213
Besten Dank im Voraus für jede Unterstützung!
Schöne Grüße,
Hans-Jürgen


