Das Self-Monitoring, Analysis and Reporting Technology (SMART bzw. S.M.A.R.T.), zu deutsch System zur Selbstüberwachung, Analyse und Statusmeldung, ist ein Industriestandard, der in Computerfestplatten eingebaut wird. Es ermöglicht das permanente Überwachen wichtiger Parameter und somit das frühzeitige Erkennen drohender Defekte.
Inhaltsverzeichnis |
Die Auswertung der überwachten Daten erfolgt beim Starten des PCs durch das entsprechend eingestellte BIOS oder durch spezielle Software, die zusätzlich zum Betriebssystem installiert werden muss. Microsoft beispielsweise stellt hierzu seit Windows 95b (OSR 2) nur einen Treiber bereit, der dann von dieser Software angesprochen wird. Nur sie kann die Daten auswerten und eventuelle Warnungen anzeigen.
Dabei orientiert sich das Programm an vom Festplattenhersteller festgelegten Grenzwerten für die einzelnen Parameter, etwa für die Temperatur. Nach einem längeren Zeitraum kann die Software dann auch noch zu erwartende Ausfälle prognostizieren.
Seines Ziels wegen ist S.M.A.R.T. nicht abschaltbar, dabei ist das Deaktivieren sogar im Standard vorgesehen. Der entsprechende Befehl wird jedoch von Laufwerken aller Hersteller ignoriert. Die Funktion wird dann als deaktiviert gemeldet, es wird jedoch weiter protokolliert. Gespeichert werden die gesammelten Daten in einem reservierten, durch Programme nicht änderbaren Bereich der Festplatte.
Die gesamte Überwachung verlangsamt übrigens nicht, da sie das Geschehen nur protokolliert, ohne korrigierend einzugreifen. Dies erledigen bereits festplatteninterne Mechanismen, so bei Erschütterungen, die wiederum schon vor S.M.A.R.T. existierten. Alles Weitere, etwa Laufleistung und Temperatur, wird durch extra dafür eingebaute Sensoren und Chipfunktionen erfasst. Hierbei gibt es eine Einteilung in „Online“-Parameter, die permanent notiert werden, und jene, die in Ruhepausen aktualisiert werden, wenn das Laufwerk gewissermaßen „offline“ ist.
S.M.A.R.T. bleibt dabei auf die Festplatte beschränkt und liefert keine Aussage zur Gesamtzuverlässigkeit des Computers. Auch findet keine Vernetzung der gewonnenen Daten mehrerer Festplatten statt. Des Weiteren stellt das System keine Norm dar. Es bleibt den Festplattenherstellern überlassen, welche Parameter sie überwachen und in welche Grenzen sie diese einbetten. Unter Anwendern wird auch die Genauigkeit der Überwachung diskutiert. So gelten manche Temperatursensoren als zu optimistisch eingestellt oder platziert, da sie beim Start des Systems deutlich unter Raumtemperatur liegen. Noch schwieriger zu entdecken sind Überlaufe einzelner Parameter. Ähnlich der PKW-Laufleistung wird etwa die Betriebszeit der Festplatten mitgezählt. Die Null-Durchläufe dieser Zähler werden weder protokolliert, noch sind sie durch Sichtprüfung erkennbar.
Eine unabhängige Google-Studie[1] [2] über neun Monate, alle Hersteller und insgesamt 100.000 Festplatten brachte 2006 folgendes Ergebnis: Unter Einbeziehung aller relevanten Parameter sind 64% aller Ausfälle mit S.M.A.R.T. vorhersagbar. Hierbei würden alle anderen, also akustisch oder als Datenfehler bemerkbaren Warnsignale ignoriert. Im übrigen Drittel aller Ausfälle meldet sich die Festplatte selbst zu unrecht als problemfrei.
Die Beanspruchung der Festplatte hatte dabei einen weit geringeren Einfluss auf ihre Haltbarkeit als bisher angenommen. Übersteht ein Laufwerk das erste Jahr, spielt der Leerlaufanteil bis zu seinem turnusmäßigen Austausch nach vier Jahren keine Rolle mehr. Nur im ersten und nach dem vierten Jahr verdoppelt permanentes Lesen/Schreiben die Ausfallrate.
1992 erkannte IBM, dass mit zunehmender Verbreitung von PCs in Unternehmen ebenso das in sie gesetzte Vertrauen stieg. Ausfälle wurden zunehmend zu einem finanziellen Problem, dem man mit PFA (Predictive Failure Analysis) begegnen wollte. IBM-Festplatten mit diesem System teilten dem Computer jegliche Parameteränderungen mit, dessen Nutzer so rechtzeitig mit Austausch reagieren konnte. Etwas später wurde durch Compaq IntelliSafe vorgestellt. Dieses filtert Unrelevantes und meldet der mitlaufenden Software nur die bedrohlichen Änderungen und Sollwerte. Seagate, Quantum und Conner waren an der Entwicklung beteiligt und passten es an ihre Produkte an; Compaq selbst fertigte keine Festplatten.
Das Potenzial ahnend und mit einem Industriestandard vor Augen wurde die Offenlegung des Systems durch Compaq und insbesondere Seagate forciert. Zusammen mit Conner, Quantum, Western Digital und dann auch IBM entstand eine Fusion der beiden Ansätze unter dem Namen S.M.A.R.T.
Seit 1996 und dem Start des ATA-3-Standards, respektive SCSI-3 vier Jahre zuvor, gehört es beinah ausnahmslos zur Standardausstattung einer Festplatte.
Die Spezifikation für die S.M.A.R.T.-Parameter wurde jedoch vor der Verabschiedung des ATA-3-Standards wieder entfernt (siehe Weblinks). So gibt es strenggenommen auch laut ATA-7-Standard keine Möglichkeit, beispielsweise die Temperatur einer Platte auszulesen. Praktisch alle erhältlichen Platten halten aber das Datenformat aus dem ATA-3-Entwurf ein.
Die Realisierung des S.M.A.R.T.-Standards unterscheidet sich bei den Festplatten-Anschlüssen.
Bei den im Computer eingebauten gibt es zwei: ATA- und SCSI-Standard. Beide kennen den HEALTH STATUS. Damit gibt die Firmware, also das Laufwerk selbst an, ob es sich als „okay“ oder „problematisch“ einstuft. Beide Standards unterstützen auch das Auslesen der Temperatur und mehrere Varianten von Selbsttests und Logbüchern.
Bei den ATA-Festplatten können zusätzlich über eine mitlaufende Software zahlreiche Werte und ihre Grenzen abgefragt werden. So kann die Software oder der Nutzer genauer einstufen, ob und warum ein Fehler auftreten wird. Diese Parameter sind allerdings nicht genau standardisiert und unterscheiden sich in Umfang und Interpretation, auch zwischen Modellen eines Herstellers.
Die Kommandos und Datenformate für alle diese Funktionen sind allerdings bei ATA und SCSI völlig unterschiedlich.
Externe Festplatten unterscheiden sich von den internen nur durch das Gehäuse und dessen Anschluss. Bei diesem gibt es wiederum mehrere übliche Standards.
Auf dem USB-Anschluss werden im Grunde SCSI-Kommandos übertragen. Die über USB angeschlossenen Festplatten sind aber fast ausnahmslos keine SCSI-, sondern (S)ATA-Platten. Daher ist kein direkter Zugriff auf deren S.M.A.R.T.-Funktionalität möglich. Somit bleiben viele externe Festplatten ungeprüft. Es gibt jedoch USB-ATA-Bridges, die eine Tunnelung der ATA-Kommandos durch den USB-Anschluss ermöglichen. Die Treiber für externe Festplatten unterstützen dies aber nicht. Doch es gibt Programme, die dies übernehmen, so etwa „Active SMART“ für WesternDigital Passport-, I-O Data- und Trekstor USB-Laufwerke, sowie „Hard Drive Inspector“ für solche mit dem verbreiteten Cypress AT2-Chip. Beide Programme sind allerdings auf wenige Wochen kostenfreie Nutzung beschränkt und zudem nur für Windows erhältlich.
Firewire – besonders bei Apple-Computern üblich – ermöglicht die Übermittlung wiederum, Mac OS X nutzt dies aber nicht.
Per eSATA angeschlossene Laufwerke sind wie ihre internen SATA-Pendants problemlos auslesbar.
Über Serial Attached SCSI (SAS) angeschlossene Serial-ATA-Platten können geprüft werden, wenn die entsprechenden SAT-Kommandos zur Verfügung stehen.
Für Bandlaufwerke gibt es zu S.M.A.R.T. ähnliche Funktionen mit der Bezeichnung TapeAlert. Sie dienen zur Warnung bei abgenutzten Bändern.
Jeder Wert wird zuerst als Raw-Data, z. B. 30 °C für die Temperatur, gespeichert. Dieser wird dann zum besseren Verständnis auf einer Werteskala von 0 bis 100, 200 oder 255 einsortiert. Die unterschiedlichen Skalen dienen dabei einer feineren Abstufung, wo der Hersteller sie für sinnvoll erachtet. Mit dem Skalenmaximum startend, nähert sich der Wert (Value) bei Fehlern oder zunehmendem Alter Null. Häufig ist die kritische Grenze (Threshold) aber schon weit darüber angesiedelt.
Parameterart: | ausfallrelevant | informierend |
Seek Error Rate |
Raw Read Error Rate |
Hardware ECC Recovered |
Scan Error Rate |
Throughput Performance |
Spin Up Time |
Start/Stop Count |
Reallocated Sector Count |
Power On Hours Count |
Load/Unload Cycle Count |
Drive Temperature |
Ultra DMA CRC Error Count |
Es gibt noch zahlreiche weitere Parameter, auch herstellerexklusive. Vollständige Listen finden sich im Literatur-Abschnitt der Weblinks.
Die Auswertung wichtiger S.M.A.R.T.-Parameter am Beispiel einer Hitachi 250 GB, angeschlossen über Serial-ATA und ausgelesen mit den smartmontools.
Parameter-ID | Parametername | Value | Worst | Threshold | Typ | Updated | RAW Value | Bemerkung |
---|---|---|---|---|---|---|---|---|
2 | Throughput Performance | 100 | 100 | 050 | Pre-fail | Offline | 0 | |
3 | Spin Up Time | 118 | 118 | 024 | Pre-fail | Always | 294 | Hitachi verwendet eine eigene Zählweise, keine (Milli-)Sekunden. |
4 | Start Stop Count | 100 | 100 | 000 | Old age | Always | 772 | 772 mal wurde der Festplattenmotor an-/ausgeschaltet, inklusive Standbystarts. |
5 | Reallocated Sector Count | 100 | 100 | 005 | Pre-fail | Always | 55 | 55 Sektoren wurden wegen Defekts gegen Reservesektoren ausgetauscht. Das Laufwerk schätzt das aber noch als problemlos ein (der Value ist nach wie vor 100) - vielleicht zu unrecht. |
7 | Seek Error Rate | 100 | 100 | 067 | Pre-fail | Always | 0 | Bisher gab es keine Schreib-/Lesefehler. |
9 | Power On Hours | 100 | 100 | 000 | Old age | Always | 1775 | Laufwerk wurde bisher 1775 Stunden mit Strom versorgt. Dies umfasst auch Standbyphasen, in denen die Platten stillstanden. Wenn das Auswertungsprogramm das Festplattenmodell nicht kennt, muss man selbst einschätzen, ob der Wert Stunden, Minuten oder Sekunden darstellt. |
10 | Spin Retry Count | 100 | 100 | 060 | Pre-fail | Always | 0 | Bisher gab es keine Fehlstarts, die Festplatte lief immer problemlos an. |
12 | Power Cycle Count | 100 | 100 | 000 | Old age | Always | 745 | Bisher wurde der PC mit dieser Festplatte 745 mal an-/ausgeschaltet. |
194 | Temperature | 161 | 161 | 000 | Old age | Always | 34 +(10·216 + 49·232) |
Aktuelle Temperatur wäre hier 34 °C. Bisherige Lebensmaxima des Laufwerkes waren 10°C bzw. 49°C. Value ist daher von 200 auf 161 gesunken. |
199 | UDMA CRC Error Count | 200 | 253 | 000 | Old age | Always | 730 | Bisher gab es 730 Übertragungsfehler zum Mainboard. Ursache ist hier ein verrutschtes Kabel oder Kontaktproblem. Dies zeigt ein Blick in das Fehlerlogbuch, das berichtet, dass die Fehler kurz hintereinander auftraten. Das Laufwerk hat hier allerdings den Worst-Wert nicht aktualisiert. |
Value | ist der aktuelle Parameterwert, |
---|---|
Worst | der bisher schlechteste Wert, |
Threshold | die Grenze, unter die der Wert nicht fallen darf. |
Typ | zeigt an, ob bei Grenzüberschreitung des Parameters ein baldiger Ausfall droht (Pre-fail), oder der Parameter einfach informiert - über Dinge wie die Temperatur oder die verbleibende Designlebensdauer - daher auch „Old age“. |
Updated | zeigt an, ob der Wert permanent (always) oder erst durch einen Selbsttest vom Typ „Offline data collection“ aktualisiert wird. |
Auswertung. Laut festplatteneigener Einschätzung ist dieses Laufwerk völlig in Ordnung. Nirgends wurde der Grenzwert annähernd erreicht. Nur die 55 ausgewechselten Sektoren sind laut einer Google-Studie bedenklich. Dieser Wert sollte daher im Blick behalten werden. Erhöht sich nach dem vorgenommenen Kabeltausch aber der UDMA CRC Error Count nicht weiter und wird die Kühlung so verbessert, dass etwa 45°C (Temperature) nicht mehr überschritten werden, ist das Laufwerk eigentlich problemlos weiter verwendbar.
Neben der laufenden Protokollierung obiger Parameter gibt es noch weitere Tests. Einige Hersteller starten diese periodisch im Leerlauf, andere überlassen das dem Nutzer. Dies kann er mit manchen der angebotenen Programme durchführen. Was schließlich getestet wird, ist ebenso herstellerbestimmt. Standard ist ein Kurztest mit Prüfung aller Parameter, gefolgt von Stichproben der Lesbarkeit der einzelnen Scheiben. Die Langversion tauscht die Stichprobe gegen eine Komplettüberprüfung.
ATA-6 ergänzt zwei weitere Varianten. Die eine empfiehlt sich nach einem Laufwerkstransport (genannt Conveyance – ähnlich dem Kurztest), die andere ermöglicht die Prüfung selbst wählbarer Bereiche des Laufwerkes (Selective – ähnlich dem Langtest).
Seit 1999 und dem ATA-5-Standard werden aufgetretene Fehler nicht nur in die Parameterwerte eingerechnet (Ergebnis etwa „Fehlerrate: hoch“), sondern ausführlich protokolliert. Notiert werden hierbei die Fehler, die Zeit seit dem letzten Anschalten und die fünf zuvor ausgeführten Schritte. Für die Ergebnisse der obigen Selbsttests gibt es sogar eine eigene Tabelle. Generell gelten hier nur aktuelle Fehlerhäufungen als bedenklich.
Unterstützt die Festplatte das Erneuern ihrer Firmware, wird beim Neuschreiben derselben (gleich, mit welcher Version) das Fehlerprotokoll komplett geleert. Die Parameterwerte bleiben meist erhalten.
Im Folgenden sind bekannte Programme zum Auslesen der S.M.A.R.T.-Daten aufgeführt.
smartmontools | HDAT2 | DriveSitter | HDD Health | Active SMART | SpeedFan | SMARTReporter | HDTune | Norton System Doctor | |
---|---|---|---|---|---|---|---|---|---|
Betriebssystem | Windows (nativ oder Cygwin) Linux Darwin (Mac OS X) Free/Open/NetBSD Solaris OS/2 |
DOS | Windows | Windows | Windows | Windows | Mac OS X | Windows | Windows |
Preis | Open Source | Freeware | ab 29,69 $ | Freeware | ab 18,46 € | Freeware | Open Source | Freeware | proprietär |
Laufzeit der Demoversion |
- | - | 30 Tage | - | 21 Tage | - | - | - | - |
Zielgruppe |
Profianwender | Profianwender | Fortgeschrittene | Einsteiger bis Fortgeschrittene | Einsteiger bis Fortgeschrittene | Einsteiger bis Fortgeschrittene | Einsteiger | Einsteiger bis Fortgeschrittene | Einsteiger |
Benutzeroberfläche |
Kommandozeile, optional Daemon bzw. Dienst |
Textmenü | grafisch | grafisch | grafisch | grafisch | grafisch | grafisch | grafisch |
Anschluss |
(S)ATA, SCSI, SAT | (S)ATA | (S)ATA | (S)ATA | (S)ATA, SCSI, USB | (S)ATA, SCSI | (S)ATA | (S)ATA | (S)ATA, SCSI, USB |
Auslesen von Festplatten an RAID-Controllern:1 |
3ware (Linux, FreeBSD, Windows), Compaq/HP (Linux, FreeBSD), und HighPoint (nur Linux) |
ja (nicht bei allen) | - |
- |
angekündigt |
- | - | - |
? |
Anzeige des Fehlerprotokolls |
ja | ja | ja | ja (in neuer Version) | nein | nein | nein | nein | nein |
Starten der Selbsttests |
ja (auch zeitgesteuert) | ja | ja | ja (in neuer Version) | nein | nein | nein | nein | nein |
Ausfallvorhersage |
nein | nein | ja | ja | ja | nein | nein | nein | nein |
Benachrichtigung bei |
wählbaren Parameteränderungen, Grenzwert, Temperatur | - | wählbaren Parameteränderungen, Grenzwert, Temperatur | jeder Parameteränderung, Temperatur | Grenzwert, Temperatur | - | Grenzwert | - | Grenzwert (für jeden Datenträger einzeln) |
Benachrichtigung per | Fenster (nur Windows), E-Mail, Systemprotokoll, Beliebiges Kommando ausführen | - | Fenster, Ton, E-Mail, Netzwerknachricht, Systemprotokoll, Beliebiges Kommando ausführen | Fenster, Ton, E-Mail, Netzwerknachricht | Fenster, Ton, E-Mail, Netzwerknachricht | - | Fenster, E-Mail, Beliebiges Kommando ausführen | - | Taskleisten-Symbol, Ton, administrative Nachricht |
Anbieter |
smartmontools | Lubomir Cabla | Oliver Marr | PANTERASoft | Ariolic ATA / SCSI / USB | Alfredo Milani Comparetti | Julian Mayer | EFD Software | Symantec weblink |
Bemerkungen | Anleitung | Bietet Einstellung von AAM und weiterer Parameter, sowie Oberflächentests. | Hoch skalierbar, schaltet auf Wunsch bei kritischer Temperatur in Ruhezustand. | Schaltet auf Wunsch bei kritischer Temperatur in Ruhezustand. | Bietet Online-Analyse des Laufwerks [1], überwacht PC-Temperaturen | Führt Benchmark und Oberflächentests durch | Lässt sich für jeden Datenträger einzeln konfigurieren, Interface für Disc Doktor/chkdsk: Oberflächentest, Kompletttest bei Neustart |
1 Auslesen von Festplatten an RAID-Controllern: