18-03-26 16-55-35 1989

“Le monstre” VxRail est en production !

Après avoir expérimenté, puis déployé sur des cas d’usage précis, nous y sommes désormais, notre “TIER2” historique, un peu plus de 600 VMs de production institutionnelle, commence à migrer vers un nouveau cluster VxRail, dit “Le monstre” chez nous. Le chantier d’installation s’est déroulé parfaitement, sans retard ni gros problèmes techniques, entre le mois de Février et la fin du mois d’Avril. Il s’agit maintenant de réaliser la montée en charge, après la signature de la “Vérification d’Aptitude”.

Retour sur une épopée VxRail dont le commencement date du mois de Janvier 2016.

Lire la suite …

18-05-15 15-39-17 2372

Grafana, pour les gouverner tous

Le nerf de la guerre dans toute production informatique d’envergure, c’est la supervision. Vous le savez tous, rien n’est pire que d’être aveugle quand il s’agit de suivre et d’entretenir comme il se doit tous les composants qui participent au fonctionnement général de nos systèmes d’information. A l’opposé, il serait illusoire d’imaginer qu’un seul et même outil puisse couvrir tous les besoins en la matière : certains seront plus orientés “diagnostic temps réel” (comme VMware Log Insight, SexiLog par exemple), d’autres au contraire seront plus adaptés à un suivi moyen ou long terme, avec des courbes de tendances et/ou des outils de simulation de type “What If”. Enfin, suivant la diversité des équipements et constructeurs impliqués, on va plutôt privilégier “des intégrés” (comme vRealize Operations ou Turbonomics) ou se tourner vers de l’Open Source riche en plugins et très ouvert aux évolutions.

En somme, il n’y a pas de solution miracle et pour le coup, cela me pousse régulièrement à tester de nouveaux produits, histoire de voir si par hasard, l’herbe ne serait pas plus verte ailleurs … C’est là que démarre le sujet de ce billet.

A la suite de nombreux échanges avec mon pote Erwan Quelin, que j’ai connu il y a déjà plus deux ans à l’occasion du VMworld 2016, nous avons décidé de nous rencontrer pour démarrer une collaboration autour, au départ, de la supervision des baies Unity. Il se trouve en effet qu’Erwan venait de terminer le développement de la v1 de UnityMetrics, un outil open source capable d’interroger l’API REST d’une baie et d’en récupérer les divers points de supervision et les restituer au format “Telegraf” (j’y reviendrai).

Histoire de remettre cette initiative dans le contexte, les Unity disposent aujourd’hui, certes, d’un super outil “Cloud” géré par Dell EMC, CloudIQ. Malgré tout, je trouvais intéressant de conserver des metrics en local pour le capacity planning et de disposer d’une accessibilité plus directe par nos équipes de production. Il me fallait un framework adapté pour construire cela. D’autre part, je voulais depuis longtemps me mettre à Grafana… les planètes étaient donc parfaitement alignées pour travailler sérieusement et profiter de l’expertise d’Erwan sur ce sujet.

Dont acte, décision est prise de se voir… ce n’était que le début, tout de suite, la suite !

Lire la suite …

IMG_2239

Alertes “ping” sur votre VSAN 6.6 : je vous demande de vous arrêter !

J’en parlais la semaine dernière avec Noham de MyVMworld.fr lors un petit échange sur Twitter : notre tout nouveau cluster VxRail en cours de mise en production nous affiche régulièrement des alertes “Warning” lors de ses tests de santé. Noham évoquait à l’époque une limitation à 200 echo-reply par seconde maximum sur les ESXi qui pourrait être la cause de ce comportement.

Entre temps, le week-end est passé et Noham a sorti, avec un timing parfait un nouveau billet sur MyVMworld.fr revenant justement sur un certain nombre de points autour VxRail. En fin de billet, il a linké un KB spécifique qui parle précisément de ce bug VSAN (comme c’est curieux ^^).

Du coup, je me suis rué dessus pour vérifier si c’était applicable à notre monstre : la suite en image et en texte !

Lire la suite …

img_9631

VxRail et son adolescence tourmentée, VSAN et sa trentaine triomphante

Je vous avais fait part il y a quelques temps de mon “rognotudju” au sujet d’un de nos clusters VxRail, victime d’une panne hardware qui n’en finissait pas et sur laquelle le support Dell EMC avait été franchement mauvais. Depuis, ce souci a été enfin résolu, courant Janvier 2018 (quand même, plus de 3 mois elapsed …) et tout fonctionne bien depuis, ouf.

Sauf que, entre temps, c’est un nouveau cluster flambant neuf chez nous, équipé de 6 Noeuds full-flash Dell PowerEdge, qui nous a encore réclamé une attention de tous les instants.

Petit récit à la Dallas de cette épopée…

Lire la suite …

17-12-01 15-06-55 1565

Rognotudju du Vendredi : Allo, le support VxRail ?

EDIT du 04/12/2017 à 10h25 : Quelques précisions concernant la panne et les nouveaux délais … buarh.

Hé oui… désolé pour Dell EMC, ça tombe encore sur vous, mais vous cherchez un peu par moment, aussi, hein, en même temps ! Après le joli troll du service logistique en Mars/Avril dernier, c’est désormais du coté du support VxRail que ça se passe. Le 10 Octobre dernier, nous avons eu un gros incident sur l’un de nos clusters : un des nœuds a perdu d’un coup tout ses disques VSAN. Oops ! Bon, déjà quand un comportement de ce type se produit, a priori, comme ça, à vue de nez, en mode intuition, avez la réserve nécessaire … on s’imagine que ça sent quand même pas mal le problème hardware, un fond de panier en vrac, par exemple ou carte SAS plantée. Ceci étant, le SR est ouvert et le travail de collecte et de diagnostic commence de la part de la hotline.

En terme de fonctionnement, pas d’impact majeur, grâce au FTT1 appliqué sur l’ensemble des machines virtuelles, mais assez sérieux pour que nous suivions le call de près, même si par définition, un VxRail, ça s’installe … et ça s’oublie ou presque, en théorie du moins. De plus, comme cela ne concernait que les disques du nœud, la partie Hyperviseur pur continuait à marcher. Nous avions donc un compute opérationnel mais un VSAN sur 2 pattes au lieu de trois, pas si gênant que cela vu le workload hébergé sur ce VxRail : des machines de Test/Pré-production.

Maintenant, comme vous pouvez le constater, nous sommes le 1er décembre et le noeud n’est toujours pas remplacé. Pendant ces derniers 50 jours, nous avons eu droit à des tonnes de tests sur VSAN, des bascules diverses, des reboots, sessions Webex, des visites sur site de nos chers collègues d’EMC Nantes (qui font ce qu’ils peuvent pour nous aider) et j’en passe. Aujourd’hui, le nouveau noeud de remplacement (ENFIN ! c’était si dur de le changer plus tôt en se posant un peu moins de questions métaphysiques sur l’univers et tout le reste ?) est chez nous depuis 10 jour, à la louche, mais toujours pas branché et pas de news récente… désespérant :(

Alors, bon, je veux bien être early adopter sur des workload non critiques, mais faut pas pousser le bouchon un peu trop loin Michael…

Bonne fin de Vendredi et bon week-end à tous !

EDIT : L’aventure continue ! En fait, j’avais effectivement oublié, comme me l’ont justement rappelé mes collègues de la production, que ce n’était pas le noeud seul, mais carrément tout le fond de panier qu’il fallait changer (oops !). On vient de nous annoncer qu’en plus le nouveau chassis ne sera pas disponible avant la mi-décembre. Et bien sûr, il va falloir arrêter tout le bouzin pour pouvoir réinsérer les noeuds dans le nouveau hardware… chouette !

photo-2016-11-21-17-40-16_9642

VxRail ou l’art difficile de faire du plug’n play

Je vous ai conté à plusieurs reprises ici notre volonté d’investir en 2016 dans VxRail. L’objectif était à l’époque de pouvoir réellement confronter cette plateforme Hyper-Convergée à la situation d’une production réelle (en prévision d’un investissement éventuel beaucoup plus massif en 2018). Cela s’est traduit à l’époque par l’acquisition de deux clusters VxRail séparés : un cluster 3 Noeuds autonome pour héberger notre “pré-production” et un cluster 2×3 Noeuds en mode stretched pour absorber l’ensemble de nos “machines d’administration” (rendez-vous dans la section VxRail de ce blog pour plus d’info).

Même si l’architecture VxRail est, au départ, basée sur un regroupement de logiciels issus du même éditeur, VMware en l’occurence, placé sur une plateforme hardware industrielle, il ne faut pas sous-estimer la difficulté pour un constructeur, fut-il EMC, de produire et assurer la maintenance de tels environnements. On imagine souvent, à tord, qu’il s’agit juste de monter un bundle, y affecter une ligne de support dédié et “zou, on peut faire du business”. Non, définitivement, l’affaire n’est pas si simple.

Preuve en est, appuyée par notre propre expérience récente de client VxRail, que cet exercice reste un travail complexe et de longue haleine.

Lire la suite …

img_9631

VxRail 4.0 : Quelques précisions sur l’update 4.0.132

Avec la sortie récente de vSphere 6.0u3 (voir ici), Dell EMC vient d’annoncer la disponibilité de VxRail 4.0.132, une update critique, directement dérivée des patchs intégrés à la nouvelle itération de VMware. Cette mise à jour apporte notamment le support de vSphere 6.0u3 et s’accompagne mécaniquement des derniers patchs pour ESXi contenant les nombreuses corrections et améliorations sur VSAN (voir le billet de Noham si vous souhaitez un peu plus de détail).

Histoire de faire le tour des spécificités de cette version, voici quelques précisions importantes au sujet de VxRail 4.0.132.

Lire la suite …

2017-01-04 09-19-39 9821

Install VxRail, partie 4 : GO !

Enfin ! Après plusieurs mois d’attente, notre cluster VxRail est désormais dans sa configuration cible et quasi-prêt à rentrer en production. Si vous n’avez pas suivi le roman associé et que vous voulez dévorer ma longue prose, je vous conseille de lire mes précédents billets à ce sujet : ici, ici, ici, ici, ici ou encore .

Pour conclure cette première série de billets détaillant la mise en oeuvre de VxRail chez nous, je vous propose un petit résumé du projet, ses rebondissmeents, ses cascades à vous couper le souffle et, finalement, son dénouement en mode “Happy End” :)

Lire la suite …

img_6982

Install VxRail, partie 3 : mise à jour en VxRail 4.0

Enfin ! Mon énorme buzz sur le hashtag #ChadFreeThe4 a finalement porté ses fruits … ou pas :D . Vous l’aurez compris, la v4.0 de VxRail est désormais de sortie et disponible directement sur le site support de Dell EMC. L’occasion pour moi, comme notre cluster n’est pas encore en production, de tester cette mise à jour sans contrainte et de manière autonome, évidemment (vous commencez à me connaître je pense ^^).

Avant de rentrer dans le vif du sujet, je souhaite adresser un grand merci à un de mes lecteurs, Lionel, qui a posté il y a quelques heures un commentaire annonçant la GA de VxRail 4.0, sinon, je serais sans doute en train d’attendre gentiment qu’on m’appelle pour m’avertir. Bon, ceci dit, cela doit être tout récent, donc je ne blâme pas du tout les équipes d’EMC qui doivent être bien bien chargées pour les cadeaux de Noël traditionnels de fin d’année !

Allez, en route pour la mise à jour 3.5 vers 4.0 de VxRail…

Lire la suite …

photo-2016-11-21-17-40-16_9642

Install VxRail, partie 2 : Chad, please, free the 4.0 !

“Chad, please, free the 4.0”, le nouveau hastag Twitter : #ChadFreeThe4.0

Avant toute chose, désolé pour le titre un peu trollesque : je n’ai pas pu résister à chambrer Chad Sakac (il faut se permettre des choses incroyables dans la vie…), président de la division VCE de Dell EMC, qui a pourtant fait jouer ses relations pour essayer de nous faire obtenir la dernière version à temps, sans succès. De plus j’ai appris que Chad aimait parler Français quand il le pouvait, donc il lira peut-être ce modeste billet. Big Up, Chad !

Mais bon, trêve de plaisanteries, après une première journée riche en découvertes et rebondissements (voir ce billet), la seconde a été plus calme et a en très grande partie confirmé les conclusions de la veille. Notre cluster VxRail est désormais complètement opérationnel en 3.5 avec 6 Nœuds sur un seul site. Certes il n’est pas en configuration définitive, mais au moins, en attendant la GA de VxRail 4.0, il est fonctionnel et nous allons pouvoir éprouver ses performances et sa robustesse.

Voici un petit résumé des opérations réalisées.

Lire la suite …