Les exercices, c’est bon pour la santé

tbowan & aryliin
(in english)
16 août 2021

Divulgâchage : Pour vendre des systèmes de sauvegarde, on prétend que le monde est divisé en deux, ceux qui ont perdu des données, et ceux qui vont en perdre. C’est aussi oublier qu’il y a ceux qui prennent soin de leur santé et les autres qui s’exposent aux problèmes… Comme pour la santé en général, il faut passer du stade « ça serait bien de le faire » à celui « on le fait ». Et donc de planifier ces séances d’entraînement et d’exercices. Non seulement ça ne coûte pas grand chose, mais les bénéfices sont réels.

C’est sûrement parce qu’on nous appelle surtout après les sinistres, on entend ~~très~~ trop souvent cette même plainte :

Si seulement j’avais vérifié que ça marchait !

Une victime

Vous n’imaginez probablement pas la colère et la frustration qu’on rencontre lorsque nos clients ont consacré un certain budget à l’installation d’une boite magique sensée les protéger, puis qu’ils constatent qu’une erreur quelque part, a rendu cette solution inopérante et qu’ils ont finalement tout perdu…

Alors, pour ceux qui n’ont pas encore eu la (mal)chance de vivre ce deuil, on vous proposes de petites histoires pour se faire peur. Et comme on ne va pas vous laisser dans l’angoisse, on vous propose aussi une solution pour reprendre confiance.

Si on considère une infrastructure réseau comme un ensemble de « machins connectés », on peut parler d’un problème d’entretien ou de contrôle technique. Comme pour une voiture où les fabriquant incitent au premier (sinon la garantie saute) et où l‘État oblige le second (sinon c’est 135€ d’amende et la voiture peut être immobilisée).

Personnellement, sûrement notre petit côté démiurges, on préfère voir notre infrastructure comme un être vivant qu’on a créé, qui vit et qui évolue. Du coup, on parle de manque d’entraînements et d’exercices.

Petites histoires pour se faire peur

Comme toujours, ces histoires sont tirées de nos expériences et, secret professionnel oblige, nous les avons anonymisées et adaptées pour respecter les participants, les entreprises (et leur réputation).

Un ransomware troue les défenses

Sylvain est administrateur système et s’occupe depuis quelques années des sauvegardes des données de son entreprise lorsque sa direction lui propose une promotion vers le nouveau poste de RSSI (Responsable de la Sécurité). Avant de prendre officiellement ses fonctions, il est déchargé de ses tâches actuelles (le flambeau des sauvegardes est passé à un collègue) et il commence une formation en alternance pendant un an.

En plein apprentissage de ses nouvelles missions, son entreprise est soudain victime d’un ransomware… Toutes les données de l’entreprise sont chiffrées et tant que le système informatique ne sera pas reconstruit et les données restaurées, les salariés vont devoir se débrouiller et travailler à l’ancienne. Sylvain doit mettre sa formation en pause pour sauver ce qui peut encore l’être et reconstruire ce qui a été détruit.

Malheureusement, alors qu’il termine enfin l’installation d’un nouveau serveurs de fichier, il se rend compte que les sauvegardes sur lesquelles il comptait n’ont pas été faites depuis le passage de flambeau… Son successeur, déjà très occupé par ses tâches, n’avait pas jugé la chose prioritaire et l’avait remise à plus tard. Ce sont ainsi six mois de production qui sont partis en fumée.

Après avoir remis le système informatique sur les rails, Sylvain est licencié pour faute grave. Ça ne fera pas revenir les données ou rembourser la rançon éventuelle, mais ça permet de sauver la face : c’était donc la faute du RSSI, pas celle de l’entreprise, malheureuse victime des circonstances.

Problèmes en cascade

Charlène est une architecte réputée dans la région, au point d’avoir monté son propre cabinet et d’avoir embauché d’autres architectes pour traiter les nombreux chantiers qui lui sont confié. Comme elle ne se considère pas compétente en informatique et n’a pas les budgets pour embaucher un administrateur à demeure, elle a fait appel à une société spécialisée pour gérer, entre autre, son serveur de fichier (avec deux disques en RAID1, miroir l’un de l’autre) et ses deux boîtiers de sauvegarde (dont un chez elle).

Pendant plusieurs années, tout s’est bien passé : Charlène a payé la maintenance et la société a configuré toutes ses machines, s’est occupée d’un déménagement dans des nouveaux locaux et lors d’une défaillance d’un des disques du serveur de fichier, l’a remplacé rapidement.

Jusqu’à ce que le nouveau disque lâche lui aussi et que Charlène découvre que, malgré tous ses efforts, elle ne pourra pas récupérer ses données…

La panne est matérielle, les têtes de lectures sont venu frapper les disques qui sont détruits, même avec une salle blanche, il est irrécupérable,
Lors du remplacement du disque, le RAID1 n’a pas été reconfiguré, le nouveau disque a été utilisé seul, sans copie sur le second qui ne contient donc rien de nouveau depuis cette intervention,
Lors du déménagement, la sauvegarde n’a pas été adaptée aux nouveaux paramètres réseau, elle ne s’est jamais faite et le boîtier dans les locaux ne contient aucun fichier plus récent que le déménagement,
Le boîtier installé chez elle n’a en fait jamais été configuré et ne contient aucun fichiers.

Bien sûr, le technicien qui a effectué ces opérations ne travaille plus pour la société d’infogérance depuis cette époque et c’est avec autant de surprise que son gérant découvre le champ de mine qu’il avait laissé derrière lui et qui a finalement explosé au nez de son client.

L’affaire est maintenant dans les mains des avocats et des experts informatiques (avec la participation d’assurances invitées pour l’occasion). Dans quelques années, un juge pourra déterminer les responsabilités et le montant du préjudice remboursé à l’un ou l’autre. Mais en attendant, ça ne fera pas revenir les trois années de fichiers perdus.

Faire des exercices

On aurait pu vous en raconter encore d’autres du même genre. À chaque fois vous vous seriez rendu compte qu’après avoir installé un système de sauvegarde, les vaillants héros ont tendance à le laisser sans surveillance dans son coin. Les entreprises se considèrent alors à l’abri des problèmes grâce à ce système infaillible (après tout, c’est ce que les white hats leur ont promis).

Planifier

Dans tous nos exemple, les dégâts auraient pu être évités si quelqu’un avait pris la peine de vérifier que tout marchait bien. Mais comme souvent cette tâche, considérée comme accessoire, est repoussée ad vitam aeternam…

Et on peut le comprendre. Pris dans le flux ininterrompu des tâches à faire, on ne voit pas comment leur dégager du temps. Et comme on considère ces exercices rébarbatif, notre cerveau trouve plein d’autres tâches à faire à la place et fini par les oublier.

Si vous avez des difficultés à prendre cette habitude, à vous astreindre à faire ces exercices, le plus efficace est encore de les planifier formellement. Que ce soit via votre agenda ou votre gestionnaire de tickets, il est facile d’y créer des tâches récurrente (e.g. avec kanboard (qu’on utilise) mais aussi Nextcloud ou encore thunderbird).

Vous pouvez bien sûr adapter la fréquence à la densité d’activité dans votre infrastructure. Plus ça bouge, plus il faut vérifier souvent que tout continue de fonctionner.

Vu autrement, pour la sauvegarde des données, le dernier exercice correspond aux données les plus récentes récupérables en cas de scénario catastrophe. Ne tardez donc pas trop.

Procéder

Lors d’un exercice, le but est de simuler un problème pour vérifier que les mécanismes de protections (automatiques ou manuels) sont efficaces. Voici quelques exemples :

Se connecter au système de sauvegarder et restaurer un fichier à une date arbitraire,
Arrêter un serveur primaire et vérifier que le secondaire prend la main,
Débrancher la connexion internet principale et vérifier que la connexion de secours fonctionne,
À partir de l’extérieur du réseau, connecter un client VPN vers votre infrastructure, y compris pendant une coupure de l’accès internet principal.

Et comme on parle surtout de redondance, vérifiez aussi la redondance humaine ; si un administrateur a mis en place une solution, l’exercice doit être effectué par une autre personne.

Même si l’administrateur est présent pour gérer les problèmes éventuels, l’exercice doit être mené comme s’il était absent.

D’où l’intérêt de rédiger des procédures formelles, mises à jours pendant chaque exercice. En cas d’indisponibilité de l’administrateur, ce document permettra à n’importe qui de résoudre ces problèmes. Tout le monde y gagne ; les salariés en compétences et l’entreprise en résilience.

Évoluer

Dans l’idéal, chaque exercice se déroule sans problème ; les mécanismes fonctionnent comme prévu, la procédure est adaptée et tout se passe bien.

Dans la réalité, ces exercices pointent presque toujours un problème quelque part. Et c’est bien là tout leur intérêt. Une fois un problème rencontré, quel qu’il soit, vous pouvez appliquer ces deux règles de gestion GTD :

Si la tâche prend moins de 2 minutes, effectuez-là tout de suite,
Sinon, créez un ticket dans votre gestionnaire de tâches et planifiez-le.

Certaines corrections seront urgente (« l’exercice a tout cassé ») et donc faite immédiatement. D’autres moins (« la protection n’est pas aussi efficace que prévu ») et planifiées à un moment ultérieur.

Dans tous les cas, à l’issue de chaque exercice, vous gagnez une meilleure vision de la résilience de votre infrastructure et l’opportunité de l’améliorer toujours un peu plus.

Une fois devenue routinière, cette amélioration continue prend un côté zen.

Au début, je trouvais ça pénible. Et puis, de fois en fois, j’ai fini par y prendre goût, maintenant, je suis running addict.

Un coureur de fond

Chez les arsouyes

Pour nous organiser, nous synchroniser et éviter d’oublier des tâches importantes, nous utilisons Kanboard et créons des tickets pour tout ce qu’on doit ou veut faire.

Et au milieu de toutes ces tâches, nous avons créé une tâche récurrente « Test PRA », que nous effectuons une fois par mois et qui comprend, entre autres, les sous-tâches suivantes :

Pendant un ping en IPv4 et IPv6, débrancher la fibre puis redémarrer le pare-feu principal,
Si aucune utilisation dans le mois précédent, connexion VPN depuis l’extérieur,
Restaurer un fichier, via le serveur de sauvegarde.

Et depuis le temps, ces exercices nous ont permis de détecter et corriger quelques problèmes…

Alors que nous n’étions plus branché en ADSL et reportions la connexion de secours sur nos téléphones en 4G, on s’est rendu compte que le boitier WISP et la procédure n’étaient plus adaptés. On en a fait un article.
Les sauvegardes sont plutôt configurées par Aryliin, faire l’exercice par Tbowan nous a forcé à rédiger une procédure qu’on met régulièrement à jour. On prévoit d’impliquer les enfants la prochaine fois.
Après d’une panne de disques durs sur le serveur (en RAID5, donc sans conséquence), nous l’avons remplacé, acheté un autre disque supplémentaire et, surtout, mis en place un CD-ROM permettant la restaurations des données sauvegardées depuis n’importe quel PC. Ce CD-ROM est utilisé lors d’un exercice de restauration sur 4.
Lorsque nous avons enregistré sur le NAS les données extraites d’un scellé (~1To), la machine de sauvegarde n’a plus eu assez de place disque et les sauvegardes ne s’effectuaient plus. On exclu maintenant de la sauvegarde les répertoires « DoNotSave » qui ont vocation à contenir ces données volumineuses mais n’ont pas besoin de sauvegarde distante.
Lorsque nous avons supprimé un répertoire « DoNotSave », il s’est retrouvé dans la corbeille, qui n’était pas exclue de la sauvegarde. La VM n’a de nouveau plus eu assez de place et vous connaissez les conséquences. On exclu maintenant le répertoire de la corbeille.
Lorsque notre certificat TLS sur notre AD a expiré, nous n’avons pas pu nous connecter à nos services (ceux-ci vérifiant la connexion LDAPs). Pour éviter que ça ne se reproduise, on a depuis ajouté la vérification de tous nos certificats aux exercices mensuels.

Pour avoir une idée du « coût » de ces exercices, nous chronométrons chacune des sous-tâches (kanban s’en charge automatiquement lorsqu’on coche la case). Le mois dernier, ça nous a coûté 0,44 heures (soit 26 minutes, dont 15 à attendre que duplicati liste les fichiers distants).

Et maintenant ?

Sur une année, nos exercices mensuels nous coûtent moins de 2 jours (de 7 heures), ou 1% d’un temps plein (de 218 jours), je vous laisse faire les calculs en euros.

C’est relativement peu. Surtout comparé aux bénéfices en termes d’expérience gagnées et de réduction des conséquences en cas de panne. Il faudra bien plus de deux jours pour reconstruire ce qui peut l’être, et faire le deuil du reste.

En échange de ces quelques heures, on est beaucoup plus sereins sur notre capacité à résister et survivre à une grosse panne.