18-05-15 15-39-17 2372

Grafana, pour les gouverner tous

Le nerf de la guerre dans toute production informatique d’envergure, c’est la supervision. Vous le savez tous, rien n’est pire que d’être aveugle quand il s’agit de suivre et d’entretenir comme il se doit tous les composants qui participent au fonctionnement général de nos systèmes d’information. A l’opposé, il serait illusoire d’imaginer qu’un seul et même outil puisse couvrir tous les besoins en la matière : certains seront plus orientés “diagnostic temps réel” (comme VMware Log Insight, SexiLog par exemple), d’autres au contraire seront plus adaptés à un suivi moyen ou long terme, avec des courbes de tendances et/ou des outils de simulation de type “What If”. Enfin, suivant la diversité des équipements et constructeurs impliqués, on va plutôt privilégier “des intégrés” (comme vRealize Operations ou Turbonomics) ou se tourner vers de l’Open Source riche en plugins et très ouvert aux évolutions.

En somme, il n’y a pas de solution miracle et pour le coup, cela me pousse régulièrement à tester de nouveaux produits, histoire de voir si par hasard, l’herbe ne serait pas plus verte ailleurs … C’est là que démarre le sujet de ce billet.

A la suite de nombreux échanges avec mon pote Erwan Quelin, que j’ai connu il y a déjà plus deux ans à l’occasion du VMworld 2016, nous avons décidé de nous rencontrer pour démarrer une collaboration autour, au départ, de la supervision des baies Unity. Il se trouve en effet qu’Erwan venait de terminer le développement de la v1 de UnityMetrics, un outil open source capable d’interroger l’API REST d’une baie et d’en récupérer les divers points de supervision et les restituer au format “Telegraf” (j’y reviendrai).

Histoire de remettre cette initiative dans le contexte, les Unity disposent aujourd’hui, certes, d’un super outil “Cloud” géré par Dell EMC, CloudIQ. Malgré tout, je trouvais intéressant de conserver des metrics en local pour le capacity planning et de disposer d’une accessibilité plus directe par nos équipes de production. Il me fallait un framework adapté pour construire cela. D’autre part, je voulais depuis longtemps me mettre à Grafana… les planètes étaient donc parfaitement alignées pour travailler sérieusement et profiter de l’expertise d’Erwan sur ce sujet.

Dont acte, décision est prise de se voir… ce n’était que le début, tout de suite, la suite !

Lire la suite …

Image 007

Easyvirt DCScope v6 en avant-première

Bonjour à tous ! Vous le savez sans doute maintenant, nos chouchous de la Nantes’tech, Easyvirt, qui, au passage, étaient présent au dernier VMug Nantes, travaillent d’arrache-pied à améliorer continuellement leur produit phare, DCScope, si bien que son cycle de mise à jour est relativement rapide avec une version majeure tous les 8/10 mois environ. Et justement, Martin et son équipe m’ont encore fait l’honneur tout récemment de tester en avant-première leur nouvelle version “v6” qui devrait arriver en GA dans les prochains jours. Pour ceux qui n’ont pas eu l’occasion de lire mes précédents billets sur cet excellent produit de monitoring et capacity planning d’environnements vSphere, rendez-vous tout de suite ici et ici) avant de lire la suite. S’t’un’ordre !

Inutile de vous rappeler tout le bien que je pense de la société et de son produit phare, évidemment. Alors, ne traînons pas : petit tour d’horizon de DCscope v6 en mode “primeure”, pour ce printemps 2018 !

Lire la suite …

IMG_2240

vSphere/VSAN 6.7 sont annoncés !

C’est le buzz de cette après-midi : la nouvelle itération vSphere et, se faisant, VSAN sont de sortie sur la toile, vCenter 6.7 et ESXi/VSAN 6.7 ! Pour l’instant, on trouve surtout des infos sur VSAN en fait, avec un article de Duncan Epping dédié à consulter d’urgence ici ainsi qu’un article sur Virtual Blocks (chez VMware), à lire ici.

Je reviendrai sur les grosse évolutions de VSAN dans un article dédié dès que j’aurai eu un peu de temps pour décortiquer tout ça, mais si je devais résumer très rapidement : interface HTML5 pour VSAN (whooo !), de grosses améliorations coté stretched clusters et des optimisations diverses coté moteur.

A l’heure ou j’écris ces lignes, pas de téléchargement à se mettre sous la dent mais ça devrait arriver bientôt. Je vous propose de mettre à jour ce billet au fur et à mesure que tout cela se met en place concrètement.

Updates live :
La home page vSphere est à jour : https://blogs.vmware.com/vsphere/launch
– Nouveau billet de blogs.vmware.com sur les évolutions du jeu d’APIs REST de vCenter 6.7, ici.
– Nouveau billet de blogs.vmware.com sur vSphere 6.7 ici !
– La documentation technique de VSAN 6.7, par le menu, ici.
– Tous les liens vSphere 6.7 : téléchargement, release notes etc. par William, évidemment ^^, ici.
– Nouveau billet de Cormac Hogan sur vSphere/VSAN 6.7 (un must-read, comme toujours), ici.
NDLR :
– Rien que ça, déjà : nouvelles fonctions dispo dans le client HTML5 : Update Manager, Content Library, vSAN, Storage Policies, Host Profiles, vDS Topology Diagram, Licensing.
– Au sujet de VSAN 6.7, en vrac : le moteur vROps pour les stats VSAN au sein de vCenter 6.7, la couche iSCSI sait discuter “en mode cluster” (RAC, MCSC etc.), support des devices gérant des blocs de 4K, Adaptive Resync etc.

IMG_2239

Alertes “ping” sur votre VSAN 6.6 : je vous demande de vous arrêter !

J’en parlais la semaine dernière avec Noham de MyVMworld.fr lors un petit échange sur Twitter : notre tout nouveau cluster VxRail en cours de mise en production nous affiche régulièrement des alertes “Warning” lors de ses tests de santé. Noham évoquait à l’époque une limitation à 200 echo-reply par seconde maximum sur les ESXi qui pourrait être la cause de ce comportement.

Entre temps, le week-end est passé et Noham a sorti, avec un timing parfait un nouveau billet sur MyVMworld.fr revenant justement sur un certain nombre de points autour VxRail. En fin de billet, il a linké un KB spécifique qui parle précisément de ce bug VSAN (comme c’est curieux ^^).

Du coup, je me suis rué dessus pour vérifier si c’était applicable à notre monstre : la suite en image et en texte !

Lire la suite …

img_9631

VxRail et son adolescence tourmentée, VSAN et sa trentaine triomphante

Je vous avais fait part il y a quelques temps de mon “rognotudju” au sujet d’un de nos clusters VxRail, victime d’une panne hardware qui n’en finissait pas et sur laquelle le support Dell EMC avait été franchement mauvais. Depuis, ce souci a été enfin résolu, courant Janvier 2018 (quand même, plus de 3 mois elapsed …) et tout fonctionne bien depuis, ouf.

Sauf que, entre temps, c’est un nouveau cluster flambant neuf chez nous, équipé de 6 Noeuds full-flash Dell PowerEdge, qui nous a encore réclamé une attention de tous les instants.

Petit récit à la Dallas de cette épopée…

Lire la suite …

Image 006

VMUG à Nantes : c’est demain !

C’est sans doute bien tard pour l’annonce, mais j’ai complètement oublié de vous prévenir : pour ceux qui ne sont pas accrocs aux réseaux sociaux et/ou qui habitent dans une caverne sous un blocaus de la côte Atlantique, VMUG France organise demain, ce Jeudi 22 Mars 2018, une conférence à Nantes ! Au menu, une matinée de présentation et d’échanges sur les sujets suivants : migration vSphere 6.0 vers 6.5 avec du VSAN dans le dedans, ProhpetStor le petit nouveau dans le monde SDS et l’analyse prédictive de pannes dont je vous ai déjà parlé, un retour d’expérience sur l’outil d’automatisation Ansible et pour finir, une présentation d’EasyVirt avec son désormais célèbre DCScope !

Ce sera aussi l’occasion de se voir en vrai et de discuter de vive voix autour d’un café. Bref, si vous pouvez vous déplacer demain matin, j’y serais évidemment, tout comme une bonne partie de la Dream Team des vBeers Nantaises que nous organisons de temps en temps. Merci à Noham pour tout ça !

Pour vous inscrire, rendez-vous ici.

18-02-07 14-14-27 1847

Votre cluster VSAN n’apparaît pas dans vRealize Ops, une piste à vérifier

Nous avons intégré en fin d’année dernière un nouveau cluster VxRail tout neuf au sein de notre production. Ce cluster dispose de son propre vCenter, relié à nos PSC externes, pour faire partie de la communauté des vCenter de prod chez nous (via Enhanced Linked Mode). Très logiquement, nous avons donc ajouté tout cela aussi à notre instance vRealize Operations (version 6.6.1) afin de le superviser et suivre son activité sur le long terme.

Or, depuis le début, autant la partie compute remontait très bien au sein des tableaux de bord de vROps, autant le cluster VSAN lui-même refusait obstinément d’apparaître. En fait, ce n’était pas si grave que ça à l’époque de l’intégration sachant que, comme je vous l’avais déjà dit, j’utilise aussi l’exxxcellent SexiGraf pour superviser nos environnements VMware, dont les métrics VSAN (voir ce billet) marchaient quand à eux parfaitement.

Ceci étant, cela restait “un truc qui cloche” … et je suis comme le Schtroumpf grognon, “MOI J’AIME PAS LES TRUCS QUI CLOCHENT”. J’ai fini par y accorder le temps nécessaire mais sans vraiment comprendre d’où venait le problème malgré une bonne demi-heure d’investigation. En désespoir de cause, j’ai appelé le support VMware et bien m’en a pris, car en quelques dizaines de minutes j’avais une réponse directe à ma question.

Voici la marche à suivre et surtout la règle à respecter pour que ça marche du premier coup …

Lire la suite …

17-12-01 15-06-55 1565

Rognotudju du Vendredi : Allo, le support VxRail ?

EDIT du 04/12/2017 à 10h25 : Quelques précisions concernant la panne et les nouveaux délais … buarh.

Hé oui… désolé pour Dell EMC, ça tombe encore sur vous, mais vous cherchez un peu par moment, aussi, hein, en même temps ! Après le joli troll du service logistique en Mars/Avril dernier, c’est désormais du coté du support VxRail que ça se passe. Le 10 Octobre dernier, nous avons eu un gros incident sur l’un de nos clusters : un des nœuds a perdu d’un coup tout ses disques VSAN. Oops ! Bon, déjà quand un comportement de ce type se produit, a priori, comme ça, à vue de nez, en mode intuition, avez la réserve nécessaire … on s’imagine que ça sent quand même pas mal le problème hardware, un fond de panier en vrac, par exemple ou carte SAS plantée. Ceci étant, le SR est ouvert et le travail de collecte et de diagnostic commence de la part de la hotline.

En terme de fonctionnement, pas d’impact majeur, grâce au FTT1 appliqué sur l’ensemble des machines virtuelles, mais assez sérieux pour que nous suivions le call de près, même si par définition, un VxRail, ça s’installe … et ça s’oublie ou presque, en théorie du moins. De plus, comme cela ne concernait que les disques du nœud, la partie Hyperviseur pur continuait à marcher. Nous avions donc un compute opérationnel mais un VSAN sur 2 pattes au lieu de trois, pas si gênant que cela vu le workload hébergé sur ce VxRail : des machines de Test/Pré-production.

Maintenant, comme vous pouvez le constater, nous sommes le 1er décembre et le noeud n’est toujours pas remplacé. Pendant ces derniers 50 jours, nous avons eu droit à des tonnes de tests sur VSAN, des bascules diverses, des reboots, sessions Webex, des visites sur site de nos chers collègues d’EMC Nantes (qui font ce qu’ils peuvent pour nous aider) et j’en passe. Aujourd’hui, le nouveau noeud de remplacement (ENFIN ! c’était si dur de le changer plus tôt en se posant un peu moins de questions métaphysiques sur l’univers et tout le reste ?) est chez nous depuis 10 jour, à la louche, mais toujours pas branché et pas de news récente… désespérant :(

Alors, bon, je veux bien être early adopter sur des workload non critiques, mais faut pas pousser le bouchon un peu trop loin Michael…

Bonne fin de Vendredi et bon week-end à tous !

EDIT : L’aventure continue ! En fait, j’avais effectivement oublié, comme me l’ont justement rappelé mes collègues de la production, que ce n’était pas le noeud seul, mais carrément tout le fond de panier qu’il fallait changer (oops !). On vient de nous annoncer qu’en plus le nouveau chassis ne sera pas disponible avant la mi-décembre. Et bien sûr, il va falloir arrêter tout le bouzin pour pouvoir réinsérer les noeuds dans le nouveau hardware… chouette !

Image 007

Sexigraf “Nova Prospekt” : libéré ! délivré !

Nous sommes en Juillet, c’est l’été, on se relâche un peu … Du coup, désolé pour le titre quelque peu obscure, les gamers fans de Disney comprendront surement cette double référence à un célèbre pénitencier du monde du jeu vidéo ainsi qu’à un film d’animation récent … mais cessons là ces billevesées : le nouveau Sexigraf est donc arrivé en version 0.99d. Mais ne vous y trompez pas, le passage de l’indice “c” précédent au “d” de cette release ne valorise pas du tout la très grosse mise à jour réalisée. En effet, ce sont des dizaines d’améliorations et de corrections de bugs qui sont présentes dans la build “Nova Prospekt”.

On fait un petit survol ensemble ? Libérez-vous, délivrez-vous de la prison dorée des solutions payantes, prenez la pilule rouge !
C’est parti …

Lire la suite …

photo-2016-11-21-17-40-16_9642

VxRail ou l’art difficile de faire du plug’n play

Je vous ai conté à plusieurs reprises ici notre volonté d’investir en 2016 dans VxRail. L’objectif était à l’époque de pouvoir réellement confronter cette plateforme Hyper-Convergée à la situation d’une production réelle (en prévision d’un investissement éventuel beaucoup plus massif en 2018). Cela s’est traduit à l’époque par l’acquisition de deux clusters VxRail séparés : un cluster 3 Noeuds autonome pour héberger notre “pré-production” et un cluster 2×3 Noeuds en mode stretched pour absorber l’ensemble de nos “machines d’administration” (rendez-vous dans la section VxRail de ce blog pour plus d’info).

Même si l’architecture VxRail est, au départ, basée sur un regroupement de logiciels issus du même éditeur, VMware en l’occurence, placé sur une plateforme hardware industrielle, il ne faut pas sous-estimer la difficulté pour un constructeur, fut-il EMC, de produire et assurer la maintenance de tels environnements. On imagine souvent, à tord, qu’il s’agit juste de monter un bundle, y affecter une ligne de support dédié et “zou, on peut faire du business”. Non, définitivement, l’affaire n’est pas si simple.

Preuve en est, appuyée par notre propre expérience récente de client VxRail, que cet exercice reste un travail complexe et de longue haleine.

Lire la suite …