Actions sur le document

Redif : Gestion de stress

Zythom - Zythom MEM, 30/07/2015

Dans le cadre des rediffusions estivales, je vous propose ce billet publié en octobre 2010, et dont l'image d'illustration m'a toujours fait sourire (il m'en faut peu). Vous pouvez cliquer dessus pour l'agrandir...

------------------------------------------------------------------------------------------------

Cet après-midi là, tous les ordinateurs du travail se sont mis à planter (sauf le mien ;). Mon téléphone a commencé à crépiter et mes voisins de bureau à venir me voir, goguenards.

Aussitôt, je suis aller rejoindre mon équipe en salle serveurs.

Première chose, redémarrer la production. Comprendre ensuite si possible, mais arrêter le moins longtemps possible la structure. Et pour cela, il faut un peu de calme: je prends les téléphones de mon équipe pour éliminer le plus possible les interférences avec le monde extérieur. Je deviens le seul point d'entrée du service informatique (je réponds à tous les appels, poliment mais très succinctement: "Nous avons un gros problème, nous nous en occupons, merci de votre appel mais il va falloir patienter").

Nous commençons une analyse de tous les symptômes du problème. Les serveurs sont très lents. Seuls les serveurs Windows semblent atteints. Il est difficile, voire impossible, d'ouvrir une session distante dessus. Une attaque virale?

Je continue de répondre aux appels et à accueillir les personnes qui se déplacent jusqu'au service (en général des étudiants envoyés par les professeurs à la pêche aux informations).

Est-ce une instabilité liée au système de virtualisation? Dans ce cas, pourquoi les machines virtuelles GNU/Linux ne semblent pas affectées?

Je suis calme et ma sérénité gagne toute l'équipe. Nous sommes en train de faire un diagnostic différentiel sans canne et sans Vicodin... Les hypothèses fusent librement et nous les soupesons chacune pour trouver une piste.

Qu'est-ce qui peut bien mettre tout notre système par terre? Nous lançons iptrafic pour regarder les trames réseaux.
"Tiens, les machines de Casablanca se synchronisent sur notre WSUS local. Pas bon ça!"
"Peut pas être en rapport avec le problème, les débits en jeux sont trop faibles: 10Mb/s d'un côté, 2Gb/s de l'autre, un rapport de 200 entre les deux..."
"Un problème de synchro entre les deux annuaires, alors"
"OK, reboote l'un des deux serveurs AD, attend qu'il soit en ligne et reboote le deuxième ensuite, on verra bien"

La situation de crise est bien là. L'école est arrêtée, je sais que l'on me reprochera d'avoir failli. Mais le moment n'est pas encore à assumer le problème, le moment est à la recherche d'une solution pour retrouver un bon fonctionnement...

Nous sommes calmes, les gestes sont précis et les hypothèses, plus ou moins loufoques, sont passées au crible les unes après les autres.

"Si c'est un problème réseau, on est mal"
"C'est sur, nous n'avons pas de sondes temps-réel, à peine une surveillance snmp des principaux switches."
"Tous les serveurs Windows fonctionnent au ralenti, plusieurs personnes n'arrivent pas à s'y connecter, ceux déjà connectés ont des timeouts, et certaines machines sous XP se figent"
"Regarde la carte réseaux de la console, elle clignote comme une folle."
"Bon, pas le temps de lancer un Wireshark. On reboote le cœur de réseau. Si ce n'est pas cela. On débranche tout. On arrête toutes les VM, tous les serveurs physiques, et on redémarre tout".

Et comme dans une opération dans un bloc chirurgical, nous arrêtons le cœur (trois alimentations à mettre sur off), nous comptons jusqu'à dix, puis l'on remet tout sous tension.

Le cœur de réseau repart... Sur nos écrans, nous lançons différents tests pour jauger le fonctionnement des serveurs. Je regarde les courbes de charge. Il faut environ une minute pour que les autotests du cœur de réseau aboutissent et que le système soit de nouveau opérationnel. Nous retenons notre souffle.

Les étudiants dans le couloir nous font des petits signes d'encouragement. Les cours reprennent. Le problème est résolu. Notre switch principal était en vrille. Pourquoi? Pour l'instant, nous ne savons pas. J'ai peur d'une attaque virale qui serait passée à travers les antivirus. Il faudra bien que cela nous arrive, maintenant que l'on a abandonné Novell...

L'alerte aura durée un quart d'heure. C'est trop, beaucoup trop. Maintenant il faut que j'explique à 1000 personnes que je n'ai pas été capable d'empêcher cela. Mais pendant un quart d'heure, l'équipe a fait corps et travaillé avec une puissance que l'on ne trouve que dans les situations d'urgence.

Et ça, c'est beau.

Retrouvez l'article original ici...

Vous pouvez aussi voir...