25. Dezember 2007 - 15:57
Festplattenprobleme unter Linux
Da ich das schon öfters hatte, allerdings unter gänzlich verschiedenen Umständen, dachte ich mir ich erspare vielleicht dem ein oder anderen die Odysee in Foren zu suchen und wilde Theorien zu überprüfen, was nicht alles für obige Meldungen in Frage kommen könnte und schreibe hier einfach mal meine Erfahrungen sowie eine kleine Hitliste der Fehlerquellen auf, welche meines Erachtens am wahrscheinlichsten sind.
Symptome sind vielfältig. Beobachtet habe ich ständiges rauf und runterfahren der Platten, klappern und scheppern von heftigen Bewegungen innerhalb der Platte aufgrund der häufigen Resets (gleichen einem schnellen ein- und ausschalten der Platte) und natürlich Datenverlust und Todstellen der Platte ;)
So oder so ähnlich stellt sich das Problem meistens im Syslog dar:
geode ~ # cat /var/log/messages ... Nov 2 00:20:09 geode hdb: task_in_intr: status=0x59 { DriveReady SeekComplete DataRequest Error } Nov 2 00:20:09 geode hdb: task_in_intr: error=0x10 { SectorIdNotFound }, LBAsect=134479951, high=8, low=262223, sector=134479951 Nov 2 00:20:09 geode ide: failed opcode was: unknown Nov 2 00:20:09 geode ide0: reset: success Nov 2 00:20:09 geode hdb: task_in_intr: status=0x59 { DriveReady SeekComplete DataRequest Error } Nov 2 00:20:09 geode hdb: task_in_intr: error=0x10 { SectorIdNotFound }, LBAsect=134479951, high=8, low=262223, sector=134479951 Nov 2 00:20:09 geode ide: failed opcode was: unknown Nov 2 00:20:09 geode ide0: reset: success Nov 2 00:20:09 geode hdb: task_in_intr: status=0x59 { DriveReady SeekComplete DataRequest Error } Nov 2 00:20:09 geode hdb: task_in_intr: error=0x10 { SectorIdNotFound }, LBAsect=134479951, high=8, low=262223, sector=134479951 Nov 2 00:20:09 geode ide: failed opcode was: unknown Nov 2 00:20:09 geode end_request: I/O error, dev hdb, sector 134479951 Nov 2 00:20:09 geode EXT3-fs error (device hdb1): ext3_get_inode_loc: unable to read inode block - inode=8404993, block=16809986 Nov 2 00:20:09 geode hdb: status error: status=0x59 { DriveReady SeekComplete DataRequest Error } Nov 2 00:20:09 geode hdb: status error: error=0x10 { SectorIdNotFound }, LBAsect=134479951, high=8, low=262223, sector=63 Nov 2 00:20:09 geode ide: failed opcode was: unknown Nov 2 00:20:09 geode hdb: drive not ready for command Nov 2 00:20:09 geode ide0: reset: success Nov 2 00:20:09 geode EXT3-fs error (device hdb1) in ext3_reserve_inode_write: IO failure ...
Bei meinen Recherchen in diversen Foren sind mir allerlei mehr oder weniger plausible Gründe für dieses Verhalten über den Weg gelaufen. Mit der Zeit hab ich mir auch selbst noch einige Theorien zurechtgelegt.
Naja, man merkt schon: Eine konkrete Fehlerquelle lässt sich mit diesen Informationen leider nicht ermittlen.
Der obige Syslog Auszug lässt jedoch auf eine gestörte Kommunikation zwischen Platte und Controller bzw. fehlerhaftes Verhalten der Platte auf Kommandos des Controllers schließen. Der Treiber versucht daher durch Reset Kommandos Platte und Controller wieder in einen definierten Zustand zu versetzen.
Die gute Nachricht:
Laut meiner Erfahrung ist in den seltensten Fällen ein Hardwaredefekt der Festplatte oder gar des Controllers Grund für dieses Verhalten.
Im Folgenden möchte ich einfach mal eine Art Checkliste erstellen, die helfen soll den Fehler möglichst schnell zu finden oder zumindest einzukreisen. Die Punkte sind am besten der Reihe nach zu prüfen. Allerdings basieren Ordnung und Inhalt der Liste auf meiner Erfahrung mit dem Problem und müssen nicht sachlich korrekt sein ;)
-
IDE Kabel defekt/schlechter Kontakt
Ob man’s glaubt oder nicht: Platten die Monate und Jahre funktioniert haben fallen plötzlich wegen lockerer/defekter Kabel aus.
Kabel also auf korrekten Sitz prüfen, ruhig auch mal ab- und wieder anstecken. Wenn möglich tauschen, am besten gegen ein nicht baugleiches kürzeres Kabel (siehe nächster Punkt). -
IDE Kabel zu lang
Man möchte meinen ein zu langes Kabel, das zu unzuverläsiger Kommunikation führt, würde sofort auffallen. Allerdings treten nicht korrigierbare Fehler scheinbar erst mit hoher Last auf oder wenn sich einige Magnetfelder in der Umgebung ändern (->EMV) oder oder oder …
Das Problem ist mir jedenfalls schon einige Male zu oft untergekommen, deshalb verwende ich nur noch möglichst kurze, möglichst geschirmte Kabel.
Am besten also versuchen das verbaute mal gegen ein solches zu tauschen, auch wenn das Ausbau der Platte und andere Unanehmlichkeiten bedeutet. -
defekte Festplatte
Als Faustregel kann man sagen, dass die Wahrscheinlichkeit für einen Festplattenausfall in den ersten 4 Monaten Betrieb am höchsten ist. Platten die das überstanden haben sind aller Wahrscheinlichkeit nach baulich einwandfrei und werden noch etwa 4-6 Jahre durchhalten, solange sie korrekt verbaut und ausreichend gekühlt sind. Das eine korrekt betriebene Platte nach 1,5 Jahren auf einmal ausfällt kommt meiner Erfahrung nach recht selten vor.
Falls alles andere nicht gefruchtet hat lohnt es aber doch die fragliche Platte ggf. mal in einem zweiten PC zu testen, um einen defekt auszuschließen. -
anderer Hokuspokus
Falls das alles nicht weiter geholfen hat wirst du wohl in den sauren Apfel beißen und auf Geisterjagd gehen müssen.
Konkret also Google foltern und in Foren nach Boot-Parametern, BIOS-Einstellungen und Problemen mit obskuren Chipsatztreiber oder Chipsätzen forschen.
All das, was man eigentlich vermeiden wollte.
hdparm/standby Einstellungen
Solltest du deine Platte mit hdaparm Konfiguriert haben versuche weniger aggressive Einstellungen.
Solltest du deine Platte über hdparm oder andere Tools in den Standby schicken deaktiviere das testweise.
Alternativ kann man das schneller testen indem man das System neu startet und die fragliche Platte unter Last betreibt. Treten keine Fehler auf, so ist mit hoher Wahrscheinlichlkeit ein fehlerhaftes Aufwachen aus dem Standby für die Probleme verantwortlich.
Keine Kommentare »
Noch keine Kommentare.
RSS Feed für Kommentare zu diesem Eintrag. TrackBack URI


Kommentare: