Le raid c'est raide

La semaine passée, un serveur en RAID 5 sur 3 disques est tombé en panne. Évidemment, ce truc était vital pour ma société.
Ca a commencé pour une petite LED passée du vert a l’orange et par une alerte : disque 2 HS. J’ai changé le disque, (pas facile de trouver de l’ultra SCSI 320) mais le RAID 5, comme trop souvent, n’est pas remonté…

Pour les non initiés, le RAID 5, c’est pas 5 flics déguisés en Robocop, mais : Redundant Array of Independent Disks, ce qui signifie: «regroupement redondant de disques indépendants »

Le RAID 5, c’est donc un groupe de disques durs (3 ou plus), vu comme un seul par l’utilisateur, qui permet, grace a une redondance de données, de s’affranchir d’une panne de disque. En effet si un disque lâche, la machine continue comme si de rien n’était, vu qu’elle a toujours toutes les données.
On peut alors changer le disque sans même arrêter l’ordi (hot plug). Dès qu’elle a son nouveau disque tout neuf, la bête reconstruit son RAID (c’est a dire qu’elle répartit les données sur l’ensemble des disques), prête a supporter vaillamment une nouvelle défaillance. Magique non ? Sur le papier c’est beau, même très beau. Tellement beau que ça permet aux commerciaux de vendre un système d’une fiabilité absolue (donc cher). En effet, 2 disques en panne en même temps, ça n’arrive jamais mon bon monsieur…
Dans la pratique, il suffit qu’un des autres disques, sans être vraiment naze, présente quelques petites erreurs après la panne du premier, et on se retrouve avec une soupe de data totalement indémerdable. C’est en tout cas la théorie communément admise par la plupart des informaticiens.

Revenons a mon serveur. Il tourne donc sur 2 pattes au lieu de 3 et le remplacement du disque HS n’a rien résolu. Pour la petite PME dont je gère le parc info, c’est la cata. Ce serveur a 6 ans, il est donc considéré comme préhistorique par le prestataire fournissant le soft. Mais quasi neuf par mon boss. Bien sur, l’appli métier qui tourne dessus est également obsolète et n’est pas compatible avec la version actuelle de Windows Server. Pour revenir a une situation fonctionnelle, il faut donc remonter un serveur neuf sous Win2003 server (qui ne se fait plus), et installer l’appli dans l’ancienne version qui acceptera (ou pas) de reprendre les sauvegardes. Ensuite il faut migrer sur la nouvelle version puisque l’ancienne n’est plus supportée (donc payer la nouvelle licence) et enfin passer le tout sur Win 2008 Server (cher aussi). Délai d’environ un mois, sans compter les aléas. Le devis prévisionnel tourne autour de 15k€.
Avec la crise, le CA de la boite tombe en vrille depuis un an. Je préfère piquer ses croquettes a un pitt-bull que d’annoncer ce genre de nouvelle au big boss.
A force de chercher une solution, on m’indique une jeune société de récupération de donnée : DataWolf. Il se trouve que je connais un de ses membres fondateurs dont j’ai déjà eu l’occasion d’apprécier la technicité et la ténacité.
Après un contact téléphonique, il se déplace le jour même pour effectuer un premier diagnostique. Il s’avère qu’un 2eme disque présente des erreurs. Le RAID 5 avec 2 disques sur 3 HS est complètement naze… De plus, à la fin de mes essais de redémarrage a la poussette de ce foutu RAID, j’ai tenté un “initialise” qui, semble-t-il, équivaut a “format”. (oups…). L’homme de l’art, optimiste, propose de tenter de tout récupérer, estimant avoir de bonnes chances de succès. Vu le coût dérisoire de la tentative en cas d’échec, nous décidons de tenter l’opération.
Au final, DataWolf a fait un travail incroyable, réussissant a réparer un des disques HS, (tête de lecture dégradée), à retrouver tout les fichiers, réparer l’arborescence, puis le cloner. Avec le clone + le dernier bon disque, ils arrivent même à remonter le RAID. A ce stade il a fallu restaurer le secteur de démarrage de NTFS et les différentes tables d’allocation pour reconstruire la structure de fichiers qui avaient disparu. (Tous les fichiers en vrac dans le même répertoire ça fait peur !)
Cette étape réussie, la plupart des fichiers s’avèrent pourtant illisibles. Qu’à cela ne tienne. Les experts se retroussent les manches et finissent par identifier la cause (qui avait causé la dégradation du RAID) et réparer les fichiers avec succès.
Le bon vieux Win 2000 Server, forcément impacté, ne voulait toujours pas redémarrer et la base de registre restait corrompue malgré tous ces efforts.
Et là, une lueur dans l’obscurité. C’est a ce momment que que j’ai compris a quoi ça servait de cocher l’option “system state” de NTbackup. Grace a une copie de la ruche “SAM”, ils ont pu achever la restauration de la base de registre. Ouf !
Ne restait plus qu’à migrer tout ça en RAID1 (mirroring) sur des disques neufs et redémarrer le serveur avec son OS et toutes ses fonctions ! Yeeeessss !
Un vrai feuilleton, mieux que Dallas, que j’ai pu suivre heure par heure par mail grâce a des rapports précis. Au ciné les happy end me gonflent, mais dans la vrai vie, c’est cool. Grosse économie de temps et d’argent pour ma boite, et un succès de plus pour le service informatique, dont “on se demande parfois ce qu’ils foutent”. :wink: Bingo !
Après la remise en route du serveur, Datawolf était encore disponible pour des conseils, et du support. J’avais pas vu une qualité de service à ce niveau depuis au moins 15 ans. Ça mérite d’être signalé.
Avec ces mecs là en parachute, je crois que je vais arrêter de m’emmerder avec les sauvegardes sur bandes, bazarder tout le foutoir de K7 et continuer les sauvegardes sur NAS. En mirroring bien sur ! Car bien entendu, je ne veux plus jamais entendre parler de RAID5 !

Oui et c’est quoi le but du topic hormis faire de la pub pour une boite de récupération de données ? :heink:

Mouais, c’est vrai que ça fait pub à peine déguisée (surtout la fin)

Alerter ceux qui dorment sereinement sur leurs 2 oreilles croyant qu’un RAID5 ne tombe jamais en panne. :wink:

Si c’est pas plus fiable, vu le surcout, autant monter un simple disque et effectivement s’assurer de bonnes suavegardes. C’est bien la que je voulais en venir…

Oui !

Pourtant j’ai reglé la note pas touché de rétro commission. Mais tu as rasion j’aurai pu rédiger ça autrement. :sarcastic:

Ca a déjà été dit.

Le jour où j’ai flingué une grappe RAID 1, je n’en ai pas fait tout un roman. :ane:

Disons que je ne sais pas si Clubic est le bon forum pour ça. Ce n’est pas assez orienté pro (non? qu’en pensez vous?).

Et de toute manière, rien n’est fiable à 100%. LE RAID5, les sauvegarde, les PSI, etc… ne servent qu’a limiter les risques.

Tu penses a quoi comme forum plus pro ?

Bien sur que rien n’est fiable a 100%, mais le RAID5, c’est moins fiable qu’un RAID1, plus cher a l’achat, et plus cher a dépanner… Ca se justifiait un peu a l’époque ou les disques etaient tres cher car on perds moins de place qu’en RAID 1 mais vu le prix des disques aujourd’hui ce n’est plus un argument. Si les constructeurs / vendeurs continuent de le mettre en avant je ne vois pas d’autre raison que d’augmenter leurs chiffre d’affaire.
Tiens je vais encore faire de la pub : mon ancien fournisseur me vendait des NAS lame de marque (DELL ou HP) sous Win server en RAID 5. Ca fait un bruit d’enfer a cause des minis ventilos, ça bouffe un max d’electricité et ca coute 2000/3000€. Maintenant je prends des petits Synology en RAID1. Ca tourne sous une sorte de Linux Synology (pas de licence Woin), ca consomme rien (l’onduleur apprécie) et ça coute 600€ avec 2 x 2To.
Bon j’ai pas encore beaucoup de recul sur la fiabilité mais je le sens bien !

j’ai un raid0 qui tourne depuis 8ans maintenant mes données sont toujours en place :smiley:

Bonjour,

Effectivement, les Synology sont assez chers mais si tu as les moyens de dépenser 600 € pour stocker 2 To de données alors pourquoi pas ; après tout c’est du matériel qui a bonne réputation. :neutre:

En fait le RAID5 est moins cher à l’achat qu’un RAID1, ou alors il est au même prix mais on y met plus de données. :wink:

Tu dis que le RAID5 est moins fiable que le RAID1 car sur 3 HDD tu en as 2 qui sont tombés en panne en même temps, mais que se passe-t-il sur ton RAID1 si tu as 2 HDD qui tombent en panne en même temps ??? :neutre:

Plutôt que le RAID1 n’aurais-tu point dû passer au RAID6 ???

Je confirme ce que dis Jacky67, en aucun cas le RAID 5 est moins fiable que le RAID 1. Dans les deux cas, si plus d’un disque claque d’un coup, c’est mort.
Néanmoins, il faut bien garder à l’esprit que, si on respecte les règles de base de la mise en place d’un RAID (pas de disque dur de la même série qui serait susceptibles d’avoir le même problème), les probabilités que 2 disques claquent en même temps sont minimes …
De même, en utilisant un matériel correct, statistiquement, on est tranquille côté contrôleur (qui reste quand même le point sensible). En fonction du contrôleur, de la RAM ECC peut être nécessaire pour éviter la corruption de données.

Concrètement, il y a eu une simili polémique autour du RAID 5 et son pseudo de manque de sécurité (d’où la mise en avant du RAID 6). Sauf que le RAID 6 est nettement plus cher à mettre en place (contrôleurs compatibles) et la quantité de personnes réellement touchées par les probabilités de fail du RAID 5 doivent être inférieures à 1%.

Le RAID 1, c’est bien, mais c’est aussi très limité :stuck_out_tongue:
A la limite tu peux toujours caser un RAID 0 au-dessus d’un RAID 1 pour faire du RAID 10 mais là on rentre dans du compliqué avec peu d’avantages ^^
Edité le 01/03/2013 à 10:01

Si on regarde comment ça fonctionne, pour moi le RAID5 peut s’avérer moins fiable en cas de soucis.

Il ne faut pas oublier que le RAID5 ne duplique pas les Données “brutes” mais un simple contrôle de parité.
Un RAID1 c’est une copie brute des données.
Restaurer un RAID5 après la perte d’un des 3 HDD est moins évident que de remettre un RAID1 en route après qu’un des disques ai laché.
Le RAID5 doit reconstituer les données à partir des parités, avec le risque que la reconstruction se passe mal (parité corrompu, même si les deux autres disques semblent en bonne santé, etc). Surtout que sur des gros disques c’est un processus très long, et plus c’est long, plus c’est sujet aux erreurs/problèmes.
En RAID1, il va juste resynchroniser le disque restant avec le nouveau (en gros copier le contenu du disk1 vers le disk2), pas de traitement particulier.
Si le second disque du RAID1 as des erreurs, ça n?empêche pas de récupérer les données (en-dehors de celles concernées par les secteurs défectueux). Si un des disques du RAID5 as des erreurs, cela peut bloquer le processus de reconstruction de la Grappe quand on y remplace un disque. C’est d’ailleurs ce qui semble avoir été le cas ici si on lit ce que nous dit Carolucem.
Non seulement il ne faut pas avoir perdu plus d’un disques en RAID5, mais il faut aussi être sur qu’aucun des disques restant ne présente de défauts pouvant toucher les contrôles de parités, ce qui augmente quand même la possibilité de pannes (ou du moins d’incapacité de reconstruire la grappe.

Pour moi un RAID5 à 3 disques n’est moins fiable que le RAID1 à 2 disques. Sont avantage étant un coup plus faible. Mais en terme de fiabilité le RAID5 devient vraiment “intéressant” au-delà de 3 disques (avec ou sans l’usage d’un disque SPARE)

Effectivement. Je suis d’accord en tout point mais je te renvoies quand même à ce que je disais plus haut : “De même, en utilisant un matériel correct, statistiquement, on est tranquille côté contrôleur”. Or c’est une défaillance de son côté qui provoquerait les erreurs dont tu parles et qui empêcheraient la reconstruction du tableau de disques.
A ma connaissance c’est extrêmement rare et si ce sont des erreurs d’écriture liées directement à une défaillance du disque, non seulement celles-ci devraient être remontées tout de suite (je parle là encore de matériel correct avec un cache et une vérification des données avant/après écriture) mais en plus tant que le contrôleur n’est pas touché, je ne vois pas de raison que la reconstruction du RAID échoue (là encore, par expérience, mais je conçois ne pas tout avoir vu ou vécu ^^), seules les données concernées devraient être impactées.

Dans tous les cas, j’espère que tu concèderas que la plupart des pertes de données liées à du RAID (quel qu’il soit d’ailleurs ce n’est pas limité aux 1, 5, 6 ou 10) sont dues à une erreur de manipulation ou une casse gravissime de matériel (genre une baie de disque qui traverse un faux-sol et tombe, c’est du vécu). Je pars du principe que les pertes dues à une vraie panne matérielle sont dérisoires :slight_smile:
Edité le 01/03/2013 à 10:59

Minimes, certes, mais certainement pas inexistantes.

D’ailleurs on peut se demander si le RAID 5 (voir le post du mangeur de bambous :ane: ) n’est pas plus stressant pour les disques durs, justement lors de la reconstruction, stress mécanique qui pourrait provoquer un problème similaire sur un des disques lors de la reconstruction …

Gros avantage du RAID 1 en plus : Généralement, les données sont “en clair” étant donné qu’elles sont juste dupliquées (pas de calcul de parité, etc …), ce qui permet au pire de sortir un disque d’une grappe pour faire une copie classique des données.

Chose que j’ai déjà effectué avec un disque sur grappe RAID 1 (contrôleur Intel) pour récupérer les données suite à une grappe RAID explosée (j’y étais pour quelque chose :ane: ). :neutre:

J’avoue que c’est un gros point positif du RAID 1 :slight_smile:

Je te renvoie au dernier paragraphe de ma précédente réponse :fou:

Une grappe RAID5 avec un seul disque en panne n’est jamais en danger pour qui sait s’en servir… :ange:

Si ton logiciel de sauvegarde avait su faire du bas niveau ou “crash recovery”, tu aurais pu remonter tout le système sur une grappe RAID en état de marche.

Le RAID5, c’est de la balle !
Les sauvegardes sur bande avec un bon logiciel de sauvegarde, c’est aussi de la balle ! :icon_biggrin: