Après un premier billet consacré aux grandes nouveautés et orientations de vROps 6.7, sorti il y a quelques semaines, cet article sera quant à lui dédié à son usage quotidien : comment nous en servons-nous, quels dashboards sont les plus utilisés et quelques exemples de tableaux de bord construits spécifiquement chez nous pour du suivi ou du diagnostic.
Ce billet est bien entendu à mettre en perspective avec les autres que j’ai pu rédiger sur d’autres produits, DCScope, SexiGraf en tête, mais aussi le plus récent sur Grafana. Sachez que j’utilise de toutes façons l’ensemble des approches de ces outils pour me faire une idée précise “des choses de la production”.
vROps : utile pour le meilleur et pour le pire
Au début ce n’était qu’une curiosité portée par un architecte-geek (moi !) qui s’amusait à montrer des beaux graph en s’exclamant qu’il avait trouvé le Graal… aheum. Depuis, les choses ont énormément évoluées, après des années de lobbying, de présentations (au moins 3 ou 4) et d’utilisation concrètes à l’occasion d’incidents complexes ou à fort impact. A tel point qu’aujourd’hui, vROps est connu de quasiment tous les techniciens et ingénieurs de notre département infrastructure et utilisé régulièrement par nombre d’entre eux.
vROps est utilisé pour trois finalités :
– Le suivi opérationnel des environnements de production : évolutions des charges, suivi des contentions, impact des augmentations de périmètres fonctionnels/utilisateurs
– Le capacity planning : tendances long-terme, échéances, rapprochement des jolis murs ^^, argumentaires en mode executive pour les investissements
– Le diagnostic : analyse comportementale d’une VM, d’un host ou d’un cluster, d’un stockage, pour justifier d’une dégradation quelconque et envisager des pistes de remédiation
Suivi opérationnel
Pour arriver à nos fins sur ce sujet, nous utilisons pas mal de dashboards spécifiques, construits par notre équipe à dessein. Voici quelques exemples concrets :
Suivi de charge à l’occasion du lancement d’un nouveau silot de serveurs Citrix XenApp pour une application institutionnelle :
Suivi de latence disque sur l’ensemble de nos serveurs Citrix, chaque graph correspondant au DC dans lequel se trouvent les machines :
Vue macro de la production historique (hors VxRail/VSAN) :
Suivi de la contention CPU sur notre cluster “Big Data”
Evidemment, nous travaillons aussi sur les tableaux de bord par défaut, qui ont beaucoup progressé depuis vROps 6.5. Voici ceux qui sont les plus appréciés :
Suivi des versions ESXi et petites statistiques qui impressionnent ;)
Heatmap de l’ensemble de nos hyperviseurs :
Celui-là je l’adore, surtout en ce moment ^^, “vSAN Operations Overview” :
… et ce n’est qu’une petite partie de l’ensemble des tableaux de bord disponibles évidemment. Autant dire que dans ce domaine, quel que soit vos ambitions en matière de supervision, vous serez servis. Et si, malgré tout cela, ce n’est pas le cas, libre à vous de construire vos propres dashboards, les possibilités sont quasi infinies et les wizard de création sont désormais tout à fait compréhensibles et faciles à prendre en main.
Capacity planning
Pour le capacity planning encore une fois c’est une combinaison de tableaux de bord intégrés et custom. Voici quelques exemples :
Diagnostic
Pour le diagnostic, nous avons deux approches complémentaires. Tout d’abord les 4 tableaux de bord intégrés et justement destinés à avoir une vision d’ensemble de l’élément à analyser : “Troubleshoot a VM”, “Troubleshoot vSAN”, “Troubleshoot a Cluster” et “Troubleshoot a Datastore”. Vous trouverez ci-dessous quelques exemples d’utilisation de ces tableaux.
Ensuite, personnellement je travaille beaucoup avec la section “All metrics” qui permet d’aller s’appuyer sur tous les metrics remontés par vROps pour un composant donné : c’est un peu plus difficile d’accès, mais tout est là à disposition et les corrélations sont très faciles à faire en ajoutant différentes mesures sur une même timeline. Vous pouvez même agréger des sources différentes (un host et une VM par exemple) pour établir des liens entre différentes contentions. Bref, c’est vraiment l’outil ultime pour de l’analyse en profondeur. Voici quelques exemples :
Ne surtout pas s’endormir sur ses lauriers
vROps a mis longtemps à s’imposer chez nous, mais les version les plus récentes mettant l’accent sur l’ergonomie et l’approche plus universelle (avec la multiplication des tableaux de bords disponibles de base) ont, je pense, fortement contribué au résultat final : une adoption de l’ensemble des équipes et une utilisation quasi systématique pour de nombreux aspects de notre production, comme détaillé plus haut. Contrairement à d’autres produits chez VMware, on sent ici une équipe de développement à l’écoute de ses clients et une direction claire. L’orientation “cloud” est encore assez timide (je n’en ai pas encore parlé, je ferai un billet dédié dans les prochaines semaines), mais nul doute que cela évolue rapidement durant cette année.
D’un autre coté, de nouveaux entrants plus légers, moins chers et donnant malgré tout accès à l’essentiel pour des productions moyennes (vous voyez de qui je veux parler sans doute ^^ …) font d’ores et déjà de l’œil à pas mal de clients dont les finances ne leur permettent pas d’accéder au niveau de licence nécessaire. C’est donc une impérieuse nécessité pour VMware que d’avoir un cycle d’évolution aussi dynamique.
c’est plus joli qu’avant c’est vrai…
on t’a grillé avec ton dashboard kommandantur !
Ah, mais il faut rendre à César ce qui est à César, c’est surtout vous qui m’avez inspiré pour ce nom, j’ai adoré, du coup ya des Kommandantur partout chez nous, maintenant :D
un peut de fantaisie dans ce monde de marketing bullshit ca fait pas de mal ;)