De l’importance du monitoring

Peut-être est-ce dû à la façon dont j’ai été formé depuis mes débuts dans l’informatique, mais je ne conçois pas qu’un système d’information puisse fonctionner sans un outil de monitoring. Quel qu’il soit.

L’un des plus connus, et celui avec lequel j’ai commencé à travailler, est probablement Nagios. Mais aujourd’hui, l’offre est vaste et les solutions nombreuses.

L’objectif ici n’est pas de comparer les outils existants, mais plutôt de rappeler pourquoi une solution de monitoring est indispensable dans une infrastructure informatique.

Prévenir plutôt que subir

La première raison est, selon moi, la plus importante : l’anticipation.

Sans monitoring, impossible d’avoir une vision claire de l’état réel d’une infrastructure. Quelle machine commence à manquer d’espace disque ? Quelle autre sature en mémoire ? Quel service consomme anormalement du CPU ?

Sur certains services critiques, comme les bases de données SQL, un manque d’espace disque peut rapidement devenir catastrophique. De la même façon, un serveur en manque de mémoire peut entraîner des ralentissements importants, voire provoquer l’arrêt brutal de certains processus par le système d’exploitation.

Et les exemples sont nombreux :

usure des disques ;
réallocation de secteurs ;
état du RAID ;
charge CPU ;
saturation mémoire ;
état des sauvegardes ;
disponibilité des services critiques ;
expiration des certificats SSL.

Le monitoring permet justement d’identifier ces problèmes avant qu’ils ne deviennent des incidents.

Aider au diagnostic

Combien de fois ai-je vu des techniciens perdre un temps considérable à chercher l’origine d’une panne… alors qu’il s’agissait simplement d’une connexion Internet coupée ou d’un serveur ayant mal redémarré ?

Avoir un outil de monitoring permet de poser rapidement un premier diagnostic et de savoir immédiatement où regarder.

Si une connexion WAN est hors service, l’information apparaît immédiatement.
Si un serveur ne répond plus après un redémarrage, cela se voit également très vite.
Si un processus critique est arrêté, l’alerte remonte sans attendre qu’un utilisateur appelle le support.

Le temps gagné lors du diagnostic est énorme.

Accélérer la résolution des incidents

Savoir où regarder permet souvent de savoir immédiatement sur quoi agir.

Prenons un exemple simple : une connexion Internet ne répond plus. Le monitoring permet rapidement de déterminer si le problème vient du routeur, du modem, du fournisseur d’accès ou simplement d’un équipement éteint.

Autre cas fréquent : un serveur dont la mémoire est saturée en permanence. Même si la correction n’est pas immédiate, le problème est identifié suffisamment tôt pour planifier une augmentation de RAM ou une optimisation du service concerné.

Et lorsqu’on ne peut pas intervenir directement, disposer d’informations fiables permet au moins de transmettre un diagnostic précis à la personne ou au prestataire chargé de résoudre le problème.

Éviter les alertes inutiles

Un bon monitoring ne consiste pas à générer un maximum d’alertes.

Le plus important est d’avoir des alertes pertinentes, adaptées à l’infrastructure et au contexte métier.

Par exemple, il est parfaitement normal d’avoir plus de 150 ms de latence entre un site situé en Martinique et un autre à La Réunion. Déclencher une alerte à 80 ms dans ce contexte n’aurait aucun sens.

En revanche, une telle latence entre la Martinique et la Guadeloupe serait anormale et mériterait effectivement une alerte.

Même logique pour l’espace disque : définir un warning à 20 % d’espace libre sur un volume de 4 To revient à déclencher une alerte alors qu’il reste encore 800 Go disponibles. Ce seuil serait probablement pertinent sur un disque de 50 Go, mais pas sur un volume de plusieurs téraoctets.

Le monitoring doit donc être réfléchi et adapté à chaque environnement.

Surveiller ce qui compte vraiment

Tous les services n’ont pas le même niveau d’importance.

Prenons l’exemple d’un site e-commerce. Si le site devient inaccessible, l’activité commerciale s’arrête immédiatement. Il est donc indispensable de surveiller tous les composants nécessaires à son fonctionnement :

serveur web ;
base de données ;
moteur PHP ;
certificats SSL ;
connectivité réseau ;
espace disque ;
sauvegardes.

L’objectif n’est pas simplement de savoir qu’un serveur est allumé, mais de vérifier que le service rendu aux utilisateurs fonctionne réellement.

Le monitoring, c’est de la dentelle

C’est une expression que j’utilise souvent lorsque je parle de monitoring : faire de la dentelle.

Car un bon monitoring ne se limite pas à appliquer une configuration standard à tous les serveurs. Il faut comprendre l’infrastructure, les usages, les contraintes métier et les priorités de production.

Bien sûr, il existe généralement un socle commun de supervision. Mais chaque environnement possède ses spécificités.

Une alerte critique dans une entreprise peut être totalement secondaire dans une autre. À l’inverse, certains services qui semblent anodins peuvent être essentiels au fonctionnement quotidien d’une activité.

Construire un monitoring efficace demande donc du temps, de la réflexion et beaucoup d’adaptation.

C’est un travail minutieux, parfois long, mais qui apporte ensuite quelque chose de précieux : de la visibilité, de la réactivité… et une vraie tranquillité d’esprit lors des incidents.

Pour conclure

J’évoquerai peut-être, dans un autre article, les différentes façons de mettre en place du monitoring. Mais ce n’était pas vraiment le sujet ici.

Le plus important, à mon sens, est de rappeler à quel point ce type d’outil est indispensable au quotidien. Non seulement pour faciliter le travail des équipes informatiques, mais aussi pour améliorer la relation avec les utilisateurs.

Lorsqu’un utilisateur contacte le support et que le technicien est capable d’identifier rapidement l’origine du problème, l’impact psychologique est énorme. Entendre, après quelques secondes seulement, « Oui, je vois d’où cela vient » inspire immédiatement davantage confiance.

Même si la résolution prend ensuite du temps — dépendance à un prestataire, panne complexe, intervention matérielle, ou autre — le simple fait de ne pas passer de longues minutes à chercher l’origine de l’incident change complètement la perception du support.

Un bon monitoring ne sert donc pas uniquement à générer des alertes. Il permet surtout de comprendre son infrastructure, d’anticiper les incidents et de réagir efficacement lorsqu’ils surviennent.

ASLION