Qu’est-ce que S.M.A.R.T. et comment l’utiliser pour prévenir les pannes de disque dur ou SSD

Beaucoup d’entre nous ont connu une panne de disque dur ou de SSD. Certains d’entre nous ont même essayé d’en savoir plus sur la fiabilité des disques durs et leur fonction de prédiction cachée qui fait partie d’une technologie appelée S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology).
C’est une technologie d’auto-analyse et de détecte des problèmes de disques ou SSD conçue pour prévenir des pannes de disques et SSD.
Mais elle n’est pas forcément simple à comprendre pour la majorité des utilisateurs.

Ainsi, dans ce tutoriel, vous trouverez tout ce qu’il faut savoir sur S.M.A.R.T, comment il fonctionne, comment lire les données S.M.A.R.T.
Qu’est-ce que SMART ? Que fait-il ? Quels sont les attributs SMART les plus importants ? Comment utiliser SMART pour prédire la défaillance d’un disque dur ou d’un SSD ?

Qu'est-ce que S.M.A.R.T. et comment l'utiliser pour prévenir les pannes de disque dur ou SSD

Qu’est-ce que les informations S.M.A.R.T.

S.M.A.R.T. (Self-Monitoring, Analysis, and Reporting Technology) est un système de surveillance intégré à la plupart des disques.
Il a été conçu par IBM pour surveiller l’état du disque en utilisant diverses méthodes et dispositifs (capteurs).
Son objectif principal est de détecter et d’avertir automatiquement des signes de défaillance du disque.
En clair donc les tests S.M.A.R.T. régulièrement sur vos disques pour déterminer les problèmes de disque avant qu’ils ne s’aggravent.
Il peut donner une indication sur la santé de votre disque ou SSD.

S.M.A.R.T. assure le suivi d’une série de variables dont le nombre et le type varient d’un disque à l’autre, qui sont des indicateurs de sa fiabilité. Si vous voulez avoir une idée approfondie de tous les attributs SMART, car il y en a une cinquantaine (taux d’erreur de lecture brut, temps de rotation, erreurs non corrigibles signalées, temps de mise sous tension, nombre de cycles de charge, etc.), visitez cette page Web.

Les applications de vérifications de disques sont capables de détecter, traiter et afficher ces informations S.MA.R.T.
Les BIOS des ordinateurs vérifient aussi les données S.M.A.R.T des périphériques de stockages lors de la phase POST (Power-On Self Test).
Si un problème est détecté, il peut afficher une erreur du type Hardrive Failure ou S.M.A.R.T. Status Bad, Backup and Replace.
Ainsi il est possible de prévenir l’utilisation avant une défaillance critique du disque.
Ce dernier peut alors effectuer une sauvegarde et copie des données pour éviter une perte de données.

Enfin, notez que S.M.A.R.T stocke aussi des informations générales du disque, comme le modèle, le numéro de série, la version du firmware, la température du disque, la vitesse de rotation (si HDD), le nombre de lecture/écritures, le nombre d’allumage, le nombre heures de fonctionnement.

Vérifier l'état de santé de son disque dur avec la technologie SMART

Quels sont les attributs S.M.A.R.T pour prévenir des pannes de disque/SSD

Pour établir un état et statut du disque, S.M.A.R.T fonctionne avec des attributs qui peuvent différer d’un constructeur à l’autre.
Toutefois, on trouve souvent les mêmes pour uniformiser le standard.
Le principe est assez simple, la technologie SMART du disque dur ou SSD vérifie ces attributs, qui par défaut, ne doivent pas dépasser un certains seuil.
Si le seuil est dépassé, on considère qu’un problème matériel est présent, des compteurs indiquent le taux d’erreur.
Si ce n’est pas le cas pour un attribut critique, une panne est prévue, le disque dur est considéré comme mauvais et il doit être remplacé immédiatement (l’attribut détermine le problème).
Mais si le Seuil est égal à 0 pour un attribut quelconque, cet attribut n’est pas en mesure de prédire une défaillance (car la Valeur ne peut être inférieure à 0).
Ainsi, selon le niveau de dépassement, vous pouvez en déduire si le disque est endommagé ou très endommagé.

Quels sont les attributs S.M.A.R.T et leurs lectures

Les attributs S.M.A.R.T les plus importants ou critiques qui peuvent indiquer une panne d’un disque ou SSD :

ID	Attributs S.M.A.R.T	Description	Comment le lire
01	Read Error Rate	Donne des indications sur des erreurs de lecture sur la surface de disque.	Cela peut indiquer des problèmes de disque sur la surface ou tête de lecture
05	Reallocated Sectors Count	indique le nombre de secteurs réalloués. Si des erreurs de lecture ou écriture/vérification d’un secteur sont détectées, les données sont déplacés vers un secteur “sain”.	Trop de secteurs réalloués peut indiquer un problème matériel. D’autre part, cela peut ralentir la vitesse de lecteur/écriture
10	Spin Retry Count	Nombre total de tentative de rotation à la vitesse nominale du disque.	Si ce nombre est trop élevé, cela peut indiquer un problème mécanique du disque dur. Une augmentation de cet attribut est signe de problèmes au niveau du sous-système mécanique du disque dur. Cela ne concerne donc pas les SSD qui ne sont pas mécaniques.
196	Reallocation Event Count	Nombre de tentative de réallocation de secteurs
197	Current Pending Sector Count	Nombre de secteurs potentiellement défectueux, si un secteur marqué comme défectueux a pu être réutilisé, le compteur est diminué
187	Reported Uncorrectable Errors	Le nombre d’erreurs qui n’ont pu être corrigées par le code correcteur.
188	Command Timeout	Nombre total de d’opération interrompues avec un délai de réponse trop élevé (timeout)
190	Airflow Temperature (WDC)	Température de l’air sur les disques Western Digital (la même que la température (C2), mais la valeur de l’attribut est inférieure de 50).
196	Reallocation Event Count	Nombre d’opérations de réallocation (remap).	La valeur brute de cet attribut est le nombre total de tentatives de transfert de données entre un secteur réalloué et un secteur de réserve. Les essais fructueux et les échecs sont tous comptés au même titre.
197	Current Pending Sector Count	Nombre de secteurs « instables » (en attente de réallocation). Quand des secteurs instables sont lus avec succès, cette valeur est diminuée.	Les données sont donc transférées un secteur sain. Toutefois un nombre élevés indique un problème sur la surface du disque (HDD) ou sur les unités de mémoires (SSD)
198	Uncorrectable Sector Count	Nombre total d’erreurs incorrigibles à la lecture/écriture d’un secteur.	Une augmentation de cette valeur indique des défauts de la surface du disque et/ou des problèmes avec le sous-système mécanique

Les attributs critiques de S.M.A.R.T

Vous trouverez une liste plus complète sur Wikipedia : https://fr.wikipedia.org/wiki/Self-Monitoring,_Analysis_and_Reporting_Technology

Encore une fois les attributs diffèrent selon un fabriquant ou encore le type de disque.
Par exemple, ci-dessus, beaucoup de ces attributs critiques préviennent des secteurs défectueux qui ne concernent que les disques dur HDD.
Si des erreurs se produisent à la lecture d’un secteur, le disque va tenter de récupérer les données, puis de les transférer vers la zone de réserve et va marquer le secteur comme réalloué.
Ainsi, les SSD n’affichent pas ces attributs.

Attributs S.MA.R.T sur un disque dur (HDD) et SSD.

Comment lire les données S.M.A.R.T

Quels sont les logiciels de vérification de disque

Vous pouvez consulter les informations S.M.A.R.T de vos disques en utilisant des logiciels de vérifications de disques.
Il en existe de nombreux. Par exemple sur Windows, CrystalDiskInfo est le plus populaire mais il en existe d’autres comme Speccy, Hard Disk Sentinel, DiskGenius, HD Heatlh, etc.
Du côté de Linux, on trouve GSmartControl ou smartctl.
Enfin, la plupart des Live USB de dépannage embarquent un de ces outils de vérifications de disque.

Vérifier l’état de santé de son disque dur/SSD avec la technologie S.M.A.R.T.

Pour Windows, vous trouverez une liste de logiciels de vérifications de disques dans cet article complet :

8 meilleurs logiciels pour faire un test S.M.A.R.T de son disque dur ou SSD

Vérifier l'état de santé de son disque dur avec CrystalDiskInfo

Comment lire les attributs S.M.A.R.T

L’état actuel du disque dur sont constamment examinés par de nombreux capteurs.
Les valeurs mesurées sont ensuite traitées par des algorithmes et les attributs correspondants sont modifiés en fonction des résultats.

Un attribut S.M.A.R.T. unique comporte les champs suivants :

Identificateur (octet) : la signification de l’attribut. De nombreux attributs ont des significations standard (par exemple, 5 = nombre de secteurs réaffectés, 194 = température, etc.) La plupart des applications fournissent un nom et une description textuelle des attributs
Données/Data (6 octets) : les valeurs mesurées brutes sont stockées dans ce champ, fournies par un capteur ou un compteur. Ces données sont ensuite traitées par un algorithme conçu par le fabricant du disque dur. Parfois, différentes parties (par exemple, 16 bits de poids faible, moyen et élevé) de cette valeur contiennent différents types d’informations
Seuil/Threshold (octet) : la valeur limite (de défaillance) pour l’attribut
Valeur/Value (octet) : la “santé” relative actuelle de l’attribut. Ce nombre est calculé par l’algorithme, en utilisant les données brutes (voir ci-dessus). Sur un disque dur neuf, ce nombre est élevé (un maximum théorique, par exemple 100, 200 ou 253) et il diminue pendant la durée de vie du disque
Worst/Pire (byte) : la pire (la plus petite) valeur jamais trouvée au cours de la vie précédente du disque dur.
Indicateurs d’état/Statut : indiquent l’objectif principal de l’attribut. Un attribut peut être par exemple critique (capable de prédire une défaillance) ou statistique (n’affecte pas directement l’état)

Vérifier l'état de santé de son disque dur avec HD Tune

Ci-dessous, un exemple de sortie des attributs S.MA.R.T.
Lorsque vous essayez de comprendre l’état d’un attribut S.M.A.R.T., vérifiez les valeurs de ces trois champs : valeur, seuil et indicateurs. Rappelez-vous également que, généralement, des valeurs plus petites indiquent une diminution de la fiabilité.

ID	Nom de l’attribut	Seuil	Valeur	Pire Valeur	Données	Statut
1	Raw Read Error Rate	50	100	100	000000000000	000B
5	Reallocated Sectors Count	50	100	100	000000000015	0033
7	Seek Error Rate	50	100	100	000000000000	000B
10	Spin Retry Count	30	152	100	000000000000	0033
240	Head flying hours	1	100	100	000000000000	0001

Exemple d’attributs S.M.A.R.T

Les critiques et limites de S.M.A.R.T

La technologie S.MA.R.T souffre de quelques limitations et critiques.
Tout d’abord, il faut bien comprendre que celle-ci ne peut prévenir que des défaillances prévisibles.
Les défaillances prévisibles comprennent les pannes qui apparaissent dans le temps et sont causées par une mécanique défectueuse du disque ou des dommages de la surface du disque dans le cas des disques durs.
Pour les disques à semi-conducteurs, les pannes prévisibles peuvent inclure l’usure normale au fil du temps ou un nombre élevé de tentatives d’effacement qui ont échoué. Les problèmes s’aggravent avec le temps et le disque finit par tomber en panne.

Les défaillances non prévisibles sont causées par des événements soudains, parmi lesquels on peut citer, par exemple, des surtensions soudaines ou des dommages inattendus aux circuits à l’intérieur du disque dur ou du lecteur à semi-conducteurs.

Ce qu’il est important de comprendre, c’est que S.M.A.R.T. ne peut vous aider qu’à détecter les défaillances prévisibles.

Ensuite, S.M.A.R.T souffre de quelques critiques.
La majorité du problème réside dans le fait que le fabriquant ne fournit pas forcément un seuil ou que celui-ci n’est pas correct.
Certains contrôleurs de disque dur ou certaines cartes mères ne fournissent pas du tout de valeurs de seuil S.M.A.R.T. – ou toutes les valeurs de seuil sont à 0.
Les disques durs connectés à de tels contrôleurs ne montreront aucun signe de défaillance car les valeurs d’attribut ne peuvent pas descendre en dessous de 0. Les applications peuvent également montrer l’état du disque dur “excellent” car les valeurs sont loin des seuils.

L’autre souci est l’algorithme ou les choix faites par les applications de vérification de disques.
Certains attributs S.M.A.R.T sont peu ou très peu significatifs alors que d’autres sont critiques.
Une petite variation dans un attribut critique peut révéler ou non un problème de disque.
Ainsi, selon la manière dont le concepteur de l’application évalue l’attribut, cela peut beaucoup influencer sur l’indication de l’état de santé général du disque.
Les concepteurs peuvent se référer aux méthodes spécifique du fabricant. Mais ce dernier peut aussi minimiser les seuils et algorithmes des données S.M.A.R.T pour faire apparaître leurs disques durs mieux qu’un autre disque dur d’un autre fabricant également. Cela peut induire en erreur les applications et les utilisateurs.

Ce qu’il faut retenir, c’est que S.M.A.R.T donne une indication générale de la santé du disque.
Dans tous les cas, l’utilisateur se doit de faire des sauvegardes de ses données pour prévenir de toute perde de données.