18-05-15 15-39-17 2372

Grafana, pour les gouverner tous

Le nerf de la guerre dans toute production informatique d’envergure, c’est la supervision. Vous le savez tous, rien n’est pire que d’être aveugle quand il s’agit de suivre et d’entretenir comme il se doit tous les composants qui participent au fonctionnement général de nos systèmes d’information. A l’opposé, il serait illusoire d’imaginer qu’un seul et même outil puisse couvrir tous les besoins en la matière : certains seront plus orientés “diagnostic temps réel” (comme VMware Log Insight, SexiLog par exemple), d’autres au contraire seront plus adaptés à un suivi moyen ou long terme, avec des courbes de tendances et/ou des outils de simulation de type “What If”. Enfin, suivant la diversité des équipements et constructeurs impliqués, on va plutôt privilégier “des intégrés” (comme vRealize Operations ou Turbonomics) ou se tourner vers de l’Open Source riche en plugins et très ouvert aux évolutions.

En somme, il n’y a pas de solution miracle et pour le coup, cela me pousse régulièrement à tester de nouveaux produits, histoire de voir si par hasard, l’herbe ne serait pas plus verte ailleurs … C’est là que démarre le sujet de ce billet.

A la suite de nombreux échanges avec mon pote Erwan Quelin, que j’ai connu il y a déjà plus deux ans à l’occasion du VMworld 2016, nous avons décidé de nous rencontrer pour démarrer une collaboration autour, au départ, de la supervision des baies Unity. Il se trouve en effet qu’Erwan venait de terminer le développement de la v1 de UnityMetrics, un outil open source capable d’interroger l’API REST d’une baie et d’en récupérer les divers points de supervision et les restituer au format “Telegraf” (j’y reviendrai).

Histoire de remettre cette initiative dans le contexte, les Unity disposent aujourd’hui, certes, d’un super outil “Cloud” géré par Dell EMC, CloudIQ. Malgré tout, je trouvais intéressant de conserver des metrics en local pour le capacity planning et de disposer d’une accessibilité plus directe par nos équipes de production. Il me fallait un framework adapté pour construire cela. D’autre part, je voulais depuis longtemps me mettre à Grafana… les planètes étaient donc parfaitement alignées pour travailler sérieusement et profiter de l’expertise d’Erwan sur ce sujet.

Dont acte, décision est prise de se voir… ce n’était que le début, tout de suite, la suite !

Lire la suite …

Photo-2016-06-01-09-39-03_8570

Quotidien VPlex : utilisation de la fonction cache-invalidate

Ceux qui travaillent sur VPlex et qui suivent un peu les actualité des versions savent sans doute que depuis la 5.2, GeoSynchrony a introduit une nouvelle fonction permettant de vider le cache cohérent (qu’il soit local ou distribué) d’un LUN donné. L’objectif ici est de pouvoir utiliser directement des LUNs de type snapshot, sans être obligé, à chaque refresh ou revert, de les dé-configurer complètement puis de les provisionner à nouveau. Un gain de temps non négligeable et qui rend désormais cette fonctionnalité de nos baies de stockage particulièrement simple à travers VPlex.

Je vous propose de revenir sur un cas d’usage chez nous qui nous a donné l’occasion d’utiliser la commande en question sur VPlex : cache-invalidate.

Lire la suite …

organiser-son-temps

Encore un ETA sur VPlex concernant les secondes de rattrapage

EDIT 29/12/2016: La dernière version du script d’install “leapsec”, la v9, est disponible sur le site support d’EMC ici.

C’était déjà le cas en Juin 2015 (rappelez-vous …) et apparemment ça ne semble pas encore réglé pour VPlex : un ETA vient de sortir au sujet des secondes de rattrapage prévues lors du passage du 31 Décembre au 1er Janvier en cette fin d’année. Les distributions SUSE Linux qui servent de base aux Management Stations et Directeurs de nos chers clusters semblent encore sensibles à cette opération pourtant relativement régulière désormais.

Pour pouvoir sécuriser tout ça, EMC recommande de passer, comme la dernière fois, un petit script pour modifier les paramètres NTP de l’ensemble des composants des clusters. L’opération est comme toujours sans douleur, mais pensez quand même à le faire, juste pour être tranquille pendant le réveillon :)

Toutes les versions sont concernées jusqu’à GeoSynchrony 6.0 patch 2 (la dernière en date si je ne m’abuse).

L’ETA est disponible sur le support Dell EMC : https://support.emc.com/kb/490557.

image-001

Rogue LUN : an ESXi and VPlex story

Désolé pour le titre un peu “putaclic”, mais comme le trailer officiel de Rogue One, a Starwars story est sorti hier, je me devais, en bon geek quarantenaire, de caser une référence quelconque dans un de mes billets. Donc, comme on dit, ça c’est fait :)

Voici donc une saga pas banale qui nous est arrivé ces derniers jours sur notre environnement test & dev (ouf !), sur lequel j’ai passé plusieurs jours avec l’aide du support Dell|EMC, mais sans pour autant – pour l’instant, tout du moins – avoir trouvé la root-cause. L’histoire en question commence il y a quelques mois, dans une ferme bac à sable lointaine, très lointaine …

Lire la suite …

Image 001

VMworld 2016 : Dell EMC, Netapp SolidFire, vSphere 6 Next etc.

Oui, je sais, je suis en vacances… reposantes, ou pas, d’ailleurs, sachant que j’ai commencé par craquer pour un joli drone DJI après des mois d’hésitation et de tentation (ça va de paire n’est-ce pas ^^), du coup je passe mon temps à pied pour profiter de coins sympas de ma région natale et adorée à explorer d’en haut.

Maiiiis, je n’oublie pas pour autant les échéances professionnelles et en particulier sans doute la plus importante de cette rentrée, le VMworld 2016 de Las Vegas. J’en ai déjà parlé il y a quelques semaines pour le salon lui-même, son ambiance, ses labs et ses “breakout sessions” techniques. Pour autant et comme tous les ans, je vais faire madame Irma de l’IT en vous proposant, à mon sens, les quelques très grands sujets qui seront vraisemblablement sur toutes les lèvres durant les prochains jours.

Allez, jouons les oracles (bizarrement je n’aime plus ce mot depuis que je suis dans l’IT … allez savoir pourquoi …)

Lire la suite …

Photo-2016-08-19-14-04-33_8893

Petit coup d’oeil sur VPlex Performance Monitor 1.0

Après un premier billet survolant la chose à la fin de l’année dernière lors de son annonce, en même temps que VPlex 5.5, je vous propose de voir un peu plus en détail les possibilité de l’outil VPlex Performance Monitor 1.0.1, le compagnon “compris dans le prix” de VPlex pour le suivi de performance moyen terme (30 jours).

Tout de suite, la suite !

Lire la suite …

Photo-2016-06-01-09-39-03_8570

VPlex VS6 : une nouvelle plateforme conçue pour le flash

VPlex est une plateforme très appréciée de ses administrateurs et ce depuis plusieurs années déjà, notamment à cause de sa fiabilité et sa stabilité dans le temps. En effet, sorti en 2010 (si ma mémoire est bonne), VPlex a apporté aux productions un système clef en main pour assurer des plans de continuité d’activité/reprise d’activité particulièrement efficaces et quasiment transparent, pour le stockage tout du moins. A l’époque EMC inventa un nouveau terme pour se démarquer : on ne parlait pas de virtualisation de stockage (décorrélation de l’adhérence des serveurs à leur baie) mais de “fédération du stockage”.

Aujourd’hui, VPlex dit “VS2” est très largement déployé et un véritable succès commercial et technique pour EMC. Pour autant, l’arrivée en fanfare il 3/4 ans des premières baies dites “full-flash” a progressivement posé un challenge important à cette plateforme, celui de la latence et des performances, évidemment. Quand VPlex VS2 servait en général des baies mid-range avec des temps de réponse de quelques millisecondes et des IOps qui ne dépassaient que rarement les 100.000 à 150.000, tout allait bien, mais maintenant que les XtremIO et autres Pure Storage ou Violin peuvent lâcher sans broncher plus de 500.000 IOps avec des IO dont la latence est annoncée comme inférieure en moyenne à la milliseconde… là, les choses se corsent.

Il était temps de faire un refresh : voici donc EMC VPlex VS6 !
Petit tour des améliorations de cette nouvelle plateforme hardware.

Lire la suite …

Photo-2016-06-01-09-38-32_8569

Le bug “Unit Attention” de VPlex est résolu !

Bonjour à tous ! C’est fait, EMC a, comme annoncé récemment, livré une nouvelle version de VPlex qui corrige le bug des Unit Attention que nous avions rencontré il y a quelques mois (voir ce billet et ce billet). GeoSynchrony 5.5 Service Pack 1 Patch 2, dernière en date est donc à passer rapidement si vous avez, vous aussi, été confronté à ce type de dysfonctionnement (heureusement très rare).

J’ai dors et déjà demandé à EMC de programmer cet update chez nous. Cela me permettra aussi de vous donner des informations complémentaires “terrain” sur cette nouvelle version 5.5 déjà évoquée récemment (voir ce billet) avec l’arrivée de la fonction UNMAP et la compatibilité avec VPlex performance monitor.

Pour plus d’information au sujet de ce correctif, rendez-vous sur la note ETA chez EMC.

IMG_5788

VPlex 5.5sp2 disponible, le thin provisionning et UNMAP à l’honneur

Après des mois (des années …) d’attente, la nouvelle release de VPlex GeoSynchrony 5.5sp2 vient d’être officiellement dévoilée (donc disponible pour les nouveaux client en attendant sa qualification “target firmware” pour tous). Au menu, des tonnes de belles choses, mais en particulier la prise en charge complète de la primitive “UNMAP” qui permet, je le rappelle de pouvoir, depuis un host, ordonner à une baie (en particulier les AFA, forcément) de libérer des blocs non utilisés et récupérer l’espace ainsi dégagé.

Faisons le tour des nouvelles fonctions ensemble.

Lire la suite …

Image 001

EMC documente les latences VPlex/VNX en cas d’ajout de LUN

Rappelez-vous, il y a quelques semaines, nous avions été victimes d’un incident majeur sur notre production VPlex/VNX à la suite d’opérations d’ajouts et suppressions de LUN sur notre environnement (voir ce billet). EMC vient de publier un KB spécifique sur ce sujet et rappelle les conditions, le comportement exact et les solutions de contournement en attendant des patchs spécifiques en cours de réalisation.

Pas encore de date officielle de release de ces correctifs, mais d’après les informations que j’ai pu avoir, la fenêtre de livraison serait autour de Juin prochain. Pour plus d’info, rendez-vous sur la page du KB#478940 chez EMC : https://support.emc.com/kb/478940