NAS et surveillance de disque (SMART)

Le système de surveillance Self-Monitoring, Analysis and Reporting Technology (communément appelé SMART) est présent dans chaque disque dur. Vous l’avez peut-être vu ou lu la mention Test S.M.A.R.T. ou Informations SMART depuis l’interface d’administration de votre NAS. On va tenter de vous expliquer les différences et comment utiliser ces outils…

NAS + SMART

Un disque dur peut tomber en panne du jour au lendemain sans prévenir. Cela arrive tous les jours. Cependant, dans la majorité des cas, il y a des signes avant-coureurs : bruit, lenteur de copie, plantage du système… Il existe de nombreux outils, souvent ceux des fabricants de disques, qui permettent d’analyser un disque et d’alerter le cas échéant. Il existe aussi le généraliste CrystalDisklnfo avec moins d’options, mais très efficace et gratuit. Lorsqu’on lance ce genre de logiciel, généralement, c’est qu’on a des doutes sur l’état de santé d’un disque (ou SSD). Windows et macOS sont des systèmes qui remontent peu (ou pas) d’alertes sur la santé d’un disque dur… certains diront qu’ils sont plus tolérants.

Sous Linux, c’est différent et si on vous parle de ce système d’exploitation, c’est parce que c’est celui que l’on retrouve dans la plupart des NAS : Synology, Qnap, Asustor… Les NAS alertent dès les premiers signes de faiblesse et c’est bien normal. En effet, on y stockons nos précieuses données… Il ne faudrait pas qu’elles disparaissent du jour au lendemain.

Nous allons tout d’abord regarder quels tests sont à effectuer régulièrement sur votre NAS… puis quelles informations trouver et lire pour savoir si un disque est en réelle bonne santé ou non.

Ces outils, vous les trouverez chez :

  • Synology : Gestionnaire de stockage > HDD/SDD > Infos sur la santé
  • Qnap : Stockage et snapshots > Disques/VJBOD > Santé du disque
  • Asustor : Gestionnaire de stockage > Disques > Infos S.M.A.R.T

Qu’est-ce qu’un test SMART ?

Il existe 2 types de tests SMART sur nos NAS : rapide et étendu (appelé aussi approfondi). L’objectif de ces tests est de faire remonter les problèmes réels (ou potentiels). Ces tests doivent être réalisés sur chacun des disques du NAS. On a :

  • Le test SMART rapide va faire un examen rapide du disque dur et pourra générer un rapport. Il inspecte le disque à la recherche d’une défaillance électronique ou mécanique. Il prend généralement en 2 et 5 minutes par disque.
  • Le test SMART étendu est bien plus long. Il va analyser l’intégralité d’un disque dur, minutieusement. Comme le travail est plus méticuleux, le temps nécessaire peut varier de 4 heures à plus de 24h (suivant la taille du disque).

Ces tests peuvent être lancés manuellement ou à travers un planificateur de tâches.

Conseil : Nous vous recommandons de programmer un test SMART rapide une fois par mois et un test SMART étendu une fois par trimestre. Les plus prudents pourront le faire plus fréquemment. Attention, pendant un test étendu le disque et donc le NAS peuvent être ralentis. Il faudra les prévoir le soir ou la nuit, lorsque les disques sont les moins sollicités.

Informations SMART

Avec ou sans test, il est important de regarder de plus près les Informations SMART dès que vous avez un doute. Sur les NAS, vous aurez plusieurs intitulés : Informations, données ou encore attributs. C’est la même chose. Ces informations sont stockées dans le disque dur et ne peuvent être modifiées par un programme (pour l’accès, voir plus haut). Vous retrouverez un tableau avec un peu moins de 20 lignes. Elles sont toutes intéressantes :

  • Spin-Up Time : Temps moyen pour la mise en rotation des plateaux (démarrage) ;
  • Start Stop Count : Compteur de cycles de mise en rotation (Nombre de Départ / Arrêt du disque) ;
  • Power On Hours : Nombre d’heures de fonctionnement du disque ;
  • etc.

Ce qui va nous intéresser en prévention d’une panne, ce sont les lignes suivantes :

  • Raw Read Error Rate : Taux d’erreur lors de la lecture de la surface du disque (problème de tête de lecture ou de surface) ;
  • Reallocated Sectors Ct : Compteur de secteurs réalloués, suite à une erreur de lecture/écriture/vérification d’un secteur.

Ce sont les 2 lignes à regarder en premier. Si la colonne Données Brutes (la plus à droite) est à 0, alors aucune inquiétude à avoir. Si la valeur est différente de 0, alors il faut un examen approfondi des lignes. Vous allez trouver d’autres colonnes comme Seuil et Pire. Seuil fournit la valeur qui déclenchera une alerte… Grosso modo, si vous atteignez le Seuil : il faut réfléchir au changement du disque. Si vous avez atteint la valeur contenue dans la colonne Pire, il faut changer le disque immédiatement (limite, il est trop tard). Il existe d’autres lignes à contrôler, mais s’il n’y en avait que 2 à retenir… ce serait celles-ci. À de nombreuses reprises, nous avons vu des NAS indiquer que le disque était affiché SAIN avec de nombreuses erreurs. Prudence…

Conseil : Un souci de lecture Raw Read Error Rate, ça arrive. Ne vous inquiétez pas s’il vaut 1 ou 2. Cependant, notez l’information dans un coin (valeur et date). Si elle augmente rapidement, alors pensez à changer de disque. Pour le Reallocated Sectors Ct, c’est plus compliqué. On ne parle pas ici d’un simple problème de lecture, mais bien d’un secteur du disque qui ne fonctionne plus et qui a été désactivé, réalloué. Il faut être extrêmement prudent avec la valeur Reallocated Sectors Ct, dès qu’elle passe à 1. De notre expérience, elle passe très vite à 2 puis 3… en quelques jours, le disque est HS.

SMART et Seagate

Contrairement à la majorité des fabricants, Seagate utilise des valeurs différentes… On vous rassure, vous retrouverez les mêmes lignes Raw Read Error Rate ou Reallocated Sectors Ct mais avec des valeurs (si différente de 0) assez étrange : 647520 par exemple. Le fabricant n’utilise pas le même encodage et cela peut être compliqué à interpréter pour nous humain. C’est pour cette raison qu’il a développé un outil IronWolf Health Management (IHM) et que ce dernier est disponible en téléchargement gratuit pour tous les NAS Synology, Qnap et Asustor… Malheureusement, l’outil est pour nous trop succinct.