Serverausfall heute Nacht: kaputtes Filesystem

Neues rund um debianforum.de
Antworten
Benutzeravatar
feltel
Webmaster
Beiträge: 9815
Registriert: 20.12.2001 13:08:23
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Leipzig, Germany
Kontaktdaten:

Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von feltel » 01.11.2009 11:22:28

Heute nacht war -wie ihr sicher gemerkt habt- der Server down bzw. er lebte schon noch, schrieb z.B. Logfiles, war aber nicht mehr erreichbar. Ein SSH-Login dauerte fünf Minuten und brach dann wegen eines Timeout ab.

In der /var/log/messages fand ich dann Kerneltraps für verschiedenste Prozesse:

Code: Alles auswählen

Oct 31 20:18:52 leela kernel: Modules linked in: ac battery ipv6 dm_snapshot dm_mirror dm_mod loop parport_pc parport floppy pcspkr k8temp i2c
Oct 31 20:18:52 leela kernel: Pid: 176, comm: kswapd0 Tainted: G      D 2.6.24-etchnhalf.1-amd64 #1
Oct 31 20:18:52 leela kernel: RIP: 0010:[<ffffffff88020157>]  [<ffffffff88020157>] :ext3:ext3_clear_inode+0x22/0x8a
Oct 31 20:18:52 leela kernel: RSP: 0018:ffff81007c2dbd60  EFLAGS: 00010287 
Oct 31 20:18:52 leela kernel: RAX: ffffffff88020135 RBX: ffff8100187ba408 RCX: ffff81007c2dbdc0
Oct 31 20:18:52 leela kernel: RDX: ffff81002d873160 RSI: 0000000000000007 RDI: dfffffffffffffff
Oct 31 20:18:52 leela kernel: RBP: ffff8100187ba340 R08: ffff81007bd60e18 R09: ffff81004641dc80
Oct 31 20:18:52 leela kernel: R10: ffffffff802aa6fa R11: ffffffff880200bc R12: 0000000000000000
Oct 31 20:18:52 leela kernel: R13: ffff81007c2dbdc0 R14: 0000000000000080 R15: 0000000000000180
Oct 31 20:18:52 leela kernel: FS:  00002afa826a6ae0(0000) GS:ffffffff80514000(0000) knlGS:00000000f7e3a6b0
Oct 31 20:18:52 leela kernel: CS:  0010 DS: 0018 ES: 0018 CR0: 000000008005003b
Oct 31 20:18:52 leela kernel: CR2: 00000000004316d0 CR3: 0000000055b03000 CR4: 00000000000006e0
Oct 31 20:18:52 leela kernel: DR0: 0000000000000000 DR1: 0000000000000000 DR2: 0000000000000000
Oct 31 20:18:52 leela kernel: DR3: 0000000000000000 DR6: 00000000ffff0ff0 DR7: 0000000000000400
Oct 31 20:18:52 leela kernel: Process kswapd0 (pid: 176, threadinfo ffff81007c2da000, task ffff81007d4c1660)
Oct 31 20:18:52 leela kernel: Stack:  ffff8100187ba408 ffff8100187ba408 0000000000000033 ffffffff802aa68a
Oct 31 20:18:52 leela kernel:  ffff8100187ba418 ffffffff802aacc8 ffff81007c2dbd90 ffff810054dfa780
Oct 31 20:18:52 leela kernel:  0000000000000000 0000000000000080 0000000000000080 ffffffff802aaf40
Oct 31 20:18:52 leela kernel: Call Trace:
Oct 31 20:18:52 leela kernel:  [<ffffffff802aa68a>] clear_inode+0xaf/0x106
Oct 31 20:18:52 leela kernel:  [<ffffffff802aacc8>] dispose_list+0x56/0xf6
Oct 31 20:18:52 leela kernel:  [<ffffffff802aaf40>] shrink_icache_memory+0x1d8/0x208
Oct 31 20:18:52 leela kernel:  [<ffffffff8027b681>] shrink_slab+0xe2/0x159
Oct 31 20:18:52 leela kernel:  [<ffffffff8027ba9d>] kswapd+0x31f/0x4a5
Oct 31 20:18:52 leela kernel:  [<ffffffff80414a3b>] thread_return+0x3d/0xab
Oct 31 20:18:52 leela kernel:  [<ffffffff80248106>] autoremove_wake_function+0x0/0x2e
Oct 31 20:18:52 leela kernel:  [<ffffffff8027b77e>] kswapd+0x0/0x4a5
Oct 31 20:18:52 leela kernel:  [<ffffffff80247fe6>] kthread+0x47/0x75
Oct 31 20:18:52 leela kernel:  [<ffffffff802311e7>] schedule_tail+0x27/0x5b
Oct 31 20:18:52 leela kernel:  [<ffffffff8020cc48>] child_rip+0xa/0x12
Oct 31 20:18:52 leela kernel:  [<ffffffff80247f9f>] kthread+0x0/0x75
Oct 31 20:18:52 leela kernel:  [<ffffffff8020cc3e>] child_rip+0x0/0x12
Oct 31 20:18:52 leela kernel:   
Oct 31 20:18:52 leela kernel:   
Oct 31 20:18:52 leela kernel: Code: ff 0f 0f 94 c0 84 c0 74 05 e8 ab 3e 27 f8 48 c7 43 b8 ff ff
Oct 31 20:18:52 leela kernel:  RSP <ffff81007c2dbd60>
Oct 31 20:18:52 leela kernel: ---[ end trace 8461bf448ca0d391 ]---
Nach einem Reset des Server lief er dann wieder, bis heute morgen. Dann trappte er wieder und die hoffentlich wahre Ursache fand sich in den Logs. Das Dateisystem hat wohl nen Knacks bekommen:

Code: Alles auswählen

leela:/home/feltel# e2fsck /dev/sdb2
e2fsck 1.40-WIP (14-Nov-2006)
/dev/sdb2 contains a file system with errors, check forced.
Pass 1: Checking inodes, blocks, and sizes

Running additional passes to resolve blocks claimed by more than one inode...
Pass 1B: Rescanning for multiply-claimed blocks
Multiply-claimed block(s) in inode 19497162: 45227581
Multiply-claimed block(s) in inode 22613868: 45227581
Pass 1C: Scanning directories for inodes with multiply-claimed blocks
Pass 1D: Reconciling multiply-claimed blocks
(There are 2 inodes containing multiply-claimed blocks.)

File /www/debianforum.de/htdocs/webalizer/webalizer.current (inode #19497162, mod time Sun Nov  1 10:25:19 2009) 
  has 1 multiply-claimed block(s), shared with 1 file(s):
	/www/debianforum.de/htdocs/phpBB-3.0.5/includes/acp/acp_styles.php.orig (inode #22613868, mod time Mon Dec 15 18:39:26 2008)
Clone multiply-claimed blocks<y>? yes

File /www/debianforum.de/htdocs/phpBB-3.0.5/includes/acp/acp_styles.php.orig (inode #22613868, mod time Mon Dec 15 18:39:26 2008) 
  has 1 multiply-claimed block(s), shared with 1 file(s):
	/www/debianforum.de/htdocs/webalizer/webalizer.current (inode #19497162, mod time Sun Nov  1 10:25:19 2009)
Multiply-claimed blocks already reassigned or cloned.

Pass 2: Checking directory structure
Pass 3: Checking directory connectivity
Pass 4: Checking reference counts
Pass 5: Checking group summary information
Block bitmap differences:  -37648595 +38772285
Fix<y>? yes

Free blocks count wrong for group #1 (29650, counted=29649).
Fix<y>? yes

Free blocks count wrong for group #1148 (63, counted=64).
Fix<y>? yes

Free blocks count wrong for group #1380 (5, counted=11).
Fix<y>? yes

Free blocks count wrong (54687022, counted=54687028).
Fix<y>? yes


/dev/sdb2: ***** FILE SYSTEM WAS MODIFIED *****
/dev/sdb2: 212605/36634624 files (2.5% non-contiguous), 18555315/73242343 blocks
leela:/home/feltel# 
Soweit ich es jetzt beurteilen kann ist nix schlimmes passiert und ich hoffe mal, das der Server jetzt wieder durchläuft.

Benutzeravatar
GoKi
Beiträge: 2068
Registriert: 04.07.2003 23:08:56
Lizenz eigener Beiträge: MIT Lizenz

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von GoKi » 01.11.2009 12:17:33

Die Kernelfragen-Rubrik hat wohl gerade nen Knacks.
Allgemeiner Fehler
SQL ERROR [ mysqli ]

Table 't' is marked as crashed and should be repaired [1194]

Beim Laden der Seite ist ein SQL-Fehler aufgetreten. Bitte kontaktiere die Board-Administration, falls dieses Problem fortlaufend auftritt.
MfG GoKi
:wq

Benutzeravatar
feltel
Webmaster
Beiträge: 9815
Registriert: 20.12.2001 13:08:23
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Leipzig, Germany
Kontaktdaten:

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von feltel » 01.11.2009 12:24:34

Fixed.

Benutzeravatar
minimike
Beiträge: 5572
Registriert: 26.03.2003 02:21:19
Lizenz eigener Beiträge: neue BSD Lizenz
Wohnort: Köln
Kontaktdaten:

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von minimike » 01.11.2009 18:36:07

Mal OT. Ich bemerke seit einigen Monaten auf Servern bei Hetzner Netzwerktimeouts sowie teilweise eine sehr geringe Bandbreite. Teilweise sind Server kurzweilig auch nicht zu erreichen. Bei debianforum.de kann ich mich jetzt so an 4 mal errinnern. Kann dies jemand bestätigen? OK der Preis ist niedrig und somit die Hardware nicht das gelbe vom Ei. Für das Geld kann man wirklich keinen Poweredge erwarten. Jedoch würde mich auch mal allgemeine Benchmarks sowie Ausfälle interessieren. Ist nicht böse gemeint aber manchmal denke ich die Arbeiten wie MS$. Bring it up and fix it later. Ich werde die Tage wahrscheinlich zu internet4ever wechseln. Die haben Opterons mit 2 GB Ram für 49 € im Angebot. Mit etwas mehr ist auch ECC Ram drin. Jedenfalls garantieren die nur 24 Server pro Switch, Ich vermute Hetzner klemmt da einiges mehr an.
"Lennart Poettering is one of those typical IT leaders..." "like Linus Torvalds and Theo de Raadt?" "more like Bozo the Clown"
I am an Veteran Unix Admin. Don't hesitate about to support Devuan. See https://devuan.org/ for more details.

Benutzeravatar
feltel
Webmaster
Beiträge: 9815
Registriert: 20.12.2001 13:08:23
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Leipzig, Germany
Kontaktdaten:

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von feltel » 01.11.2009 21:26:34

Unser Server hat offenbar ein ernstes Problem. Hab eben versucht fsck über / laufen zu lassen und es hat über eine Stunde gedauert. Die Kerneltraps kommen immer wieder und ich nehme an das entweder der Speicher einen Weg hat oder aber eine der Festplatten. Zeit für nen neuen Server? :roll:

Benutzeravatar
minimike
Beiträge: 5572
Registriert: 26.03.2003 02:21:19
Lizenz eigener Beiträge: neue BSD Lizenz
Wohnort: Köln
Kontaktdaten:

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von minimike » 01.11.2009 22:03:03

PM hast du bekommen?

gruß Darko
"Lennart Poettering is one of those typical IT leaders..." "like Linus Torvalds and Theo de Raadt?" "more like Bozo the Clown"
I am an Veteran Unix Admin. Don't hesitate about to support Devuan. See https://devuan.org/ for more details.

123456
Beiträge: 6126
Registriert: 08.03.2003 14:07:24

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von 123456 » 01.11.2009 22:49:36

Lass doch erstmal Tools drauf los, um rauszufinden wo das Problem sein könnte. Tauscht Hetzner Hardware nicht, wenns dann sein muss?

Wie lange hat der Server denn diesmal gehalten (im Vergleich zum letzten Mal)?
Wenn Hetzner wieder die Setupgebühr erlässt wäre es eine Überlegung wert.

Benutzeravatar
feltel
Webmaster
Beiträge: 9815
Registriert: 20.12.2001 13:08:23
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Leipzig, Germany
Kontaktdaten:

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von feltel » 02.11.2009 05:56:16

Würd ja gerne sowas die memcheck laufen lassen, aber das geht halt nicht. Schreib nachher dem Hetzne-Support ne Mail, vielleicht tauschen sie den Speicher. Das es die Festplatte ist ist mir immer unwahrscheinlicher, denn dann hätten ja beide Platten im System unabhängig voneinander den selben Knacks bekommen. Auch fehler mir die bei sterbenden Platten üblichen "dma_intr error" Fehler im Syslog. Ich tippe eher auf den RAM.

Benutzeravatar
hikaru
Beiträge: 11145
Registriert: 09.04.2008 12:48:59

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von hikaru » 02.11.2009 10:48:06

Hetzner scheint größere Probleme zu haben als nur deinen Server. Auch andere Foren die dort liegen sind zeitweise nicht zu erreichen.
Übrigens scheint es den Beitragscounter erwischt zu haben. Von mir aus kann das so bleiben, denn der führt nur zu falschen Schlüssen.

Benutzeravatar
feltel
Webmaster
Beiträge: 9815
Registriert: 20.12.2001 13:08:23
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Leipzig, Germany
Kontaktdaten:

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von feltel » 02.11.2009 10:49:32

viewtopic.php?f=5&t=115304#p731891

Beitragscounter geht wieder.

Benutzeravatar
hikaru
Beiträge: 11145
Registriert: 09.04.2008 12:48:59

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von hikaru » 02.11.2009 14:54:19

In welchem Rechenzentrum steht eigentlich dein Server?

Benutzeravatar
feltel
Webmaster
Beiträge: 9815
Registriert: 20.12.2001 13:08:23
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Leipzig, Germany
Kontaktdaten:

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von feltel » 02.11.2009 14:59:33

Im RZ6 bei Hetzner.

123456
Beiträge: 6126
Registriert: 08.03.2003 14:07:24

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von 123456 » 02.11.2009 15:05:10

ein traceroute hilft da i.d.R. bei Hetzner ganz gut.
die letzten 3 Hops:

Code: Alles auswählen

  5    19 ms    18 ms    18 ms  hos-bb1.juniper2.rz6.hetzner.de [213.239.240.239]
  6    20 ms    19 ms    19 ms  et.2.16.rs3k2.rz6.hetzner.de [213.239.229.132]
  7    19 ms    18 ms    19 ms  leela.debianforum.de [78.47.201.130]

Benutzeravatar
hikaru
Beiträge: 11145
Registriert: 09.04.2008 12:48:59

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von hikaru » 02.11.2009 15:23:51

Danke für die Infos! Ich hatte einen Zusammenhang vermutet, den es aber offenbar doch nicht gibt.

Benutzeravatar
feltel
Webmaster
Beiträge: 9815
Registriert: 20.12.2001 13:08:23
Lizenz eigener Beiträge: MIT Lizenz
Wohnort: Leipzig, Germany
Kontaktdaten:

Re: Serverausfall heute Nacht: kaputtes Filesystem

Beitrag von feltel » 02.11.2009 15:25:16

Nein, den gibts wirklich nicht. Kaputter Speicher kann überall mal auftreten und die Behebung seitens Hetzner war auch problemlos und schnell.

Antworten