Après avoir expérimenté, puis déployé sur des cas d’usage précis, nous y sommes désormais, notre “TIER2” historique, un peu plus de 600 VMs de production institutionnelle, commence à migrer vers un nouveau cluster VxRail, dit “Le monstre” chez nous. Le chantier d’installation s’est déroulé parfaitement, sans retard ni gros problèmes techniques, entre le mois de Février et la fin du mois d’Avril. Il s’agit maintenant de réaliser la montée en charge, après la signature de la “Vérification d’Aptitude”.
Retour sur une épopée VxRail dont le commencement date du mois de Janvier 2016.
Découverte et premier cas d’usage
En effet, c’est en Janvier 2016, il y a un peu plus de deux ans, qu’EMC m’invite, sous NDA, à découvrir en avant-première, sa nouvelle offre hyper-convergée : VxRail. Issue de la refonte de VSPEX Blue, dont le succès plus que mitigé n’avait pas rempli les objectifs, en grande partie à cause d’une offre un peu trop jeune et dont l’aspect licensing donnait des boutons aux commerciaux, ce nouvel ensemble hyper-convergé était, cette fois-ci, taillé pour contrer les pure players Nutanix et Simplivity.
Je vous en avait fait a l’époque une description assez complète, suite au Webinar, une fois l’annonce officielle, vous pouvez relire le billet ici.
Cette offre est en fait arrivée à point nommé pour nous car nous travaillons déjà à l’époque sur un chantier “Cluster d’Admin” : l’objectif, comme déjà évoqué dans cet article, était de découpler totalement nos environnements de diagnostic et supervision des machines virtuelles généralistes et destinées à hébergées les applications métier. Le chantier en question était un moyen quasi idéal d’évaluer sur de la production, mais sans prendre de grands risques, l’offre VxRail, pour éventuellement la généraliser ensuite.
Le cluster ainsi monté était, de plus, une vraie nouveauté en terme de support pour EMC : un stretched cluster VSAN de 2x 3 noeuds. Un bon moyen, là encore, d’éprouver les capacités d’adaptation et de hotline de la société sur ce nouveau segment des HCI.
Après la production, on s’occupe de la pré-production (qui a dit que c’était logique ?)
Après la mise en production de notre cluster d’admin et son fonctionnement nomminal pendant plusieurs mois jusqu’à la fin de l’année 2016, décision est prise de créer un deuxième cluster VxRail pour héberger des environnements de “pré-production/qualification” isolés pilotés via un vCloud Director dédié. L’objectif ici, était de pouvoir construire une offre SDDC autonome pour pouvoir travailler sur des environnements “clones” de la production, mais totalement isolés. Ce fut fait au début de l’année 2017, avec un nouvel environnement – modeste – constitué de 3 serveurs.
La grosse affaire du “Big Data”
L’année 2017 devait donc être celle des “environnements silos”, car un troisième gros projet a conduit à acquérir un troisième cluster VxRail, dit “BIG DATA”, le premier VxRail “Full Flash” chez nous, chargé d’héberger l’ensemble du nouvel environnement de calcul destiné au décisionnel. On franchissait alors une étape crucial : VxRail devrait désormais assumer une production de VM à destination des métiers.
Un hiver pluvieux et venteux …
Ceux qui me suivent régulièrement auront pu lire durant cet hiver difficile (pour les humains … mais aussi pour les machines) que nous avons rencontré, entre Octobre 2017 et Mars 2018, tout une série d’incident divers sur notre “flotte” de clusters VxRail : entre problèmes de livraisons de backplane, problèmes de drivers, problèmes de mises à jour etc … cela nous aura beaucoup occupé – beaucoup trop à vrai dire – durant ces 6 mois. J’ai eu l’occasion de m’épancher à plusieurs reprises sur ce sujet, je n’y reviendrai pas aujourd’hui, mais si cela vous intéresse, attendez vous à lire de jolis noms d’oiseau ici, ici ou encore plus récemment ici.
… mais un printemps ensoleillé qui annonce un bel été !
Malgré ces difficultés, nous avons au final signé en début d’année pour “Le monstre”, un quatrième cluster VxRail d’une tout autre envergure, comme déjà expliqué dans le chapeau, une profession de foi en quelque sorte. Certains arguerons qu’il n’est pas raisonnable de signer pour un produit dont on est pas entièrement satisfait. Certes, mais c’est sans compter sur les promesses de cette solution : une technologie adaptée aux enjeux des 5 prochaines années, totalement compatible et intégrée avec l’écosystème de notre institution et, c’est loin d’être négligeable, supportée par des partenaire de confiance : Axians Cloud Builder, l’équipe Dell EMC de Nantes, sans oublier VMware notre partenaire de 15 ans sur la virtualisation. De plus, les problèmes rencontrés récemment n’étaient en fait, avec le recul, que des problèmes d’intégration et de jeunesse des plateformes hardware, et pas des problèmes plus profonds liés à la technologie logicielle utilisée.
Mais alors, ce monstre, c’est quoi ? Pour une fois, quelques chiffres, histoire de vous donner une idée précise :
– Cluster VSAN Stretched de 2x 10 Noeuds
– Cluster VxRail basé sur des machine Dell EMC PowerEdge P570F
– Chaque noeud pèse 768 Go de RAM sur la balance et 2 processeurs Xeon Skylake 6140 (18 coeurs / 36 threads) y ajoutent un joli compute à l’état de l’art
– Chaque noeud dispose de 4 Diskgroups VSAN, chacun constitué d’un Cache tier de 372 Go et deux disques Capacitifs de 1,75 To
– Chaque noeud dispose de 4 vmnic 10 Gbit/s
– L’interconnexion entre nos deux salles est aujourd’hui de 40 Gbit/s avec un RTT de moins de 300 microsecondes
– Soit un total de 720 Coeurs (1440 avec l’HT), 15 To de RAM et 284 To utilisable sur VSAN (on divise par deux si l’on respecte la règle des 2×100% de notre PRA)
Le chantier s’est parfaitement déroulé, comme déjà évoqué, depuis la mise en ordre de marche, jusqu’à la signature de la VA cette semaine. Nous avons eu quelques petits problèmes techniques, mais qui sont restés très légers et on été traités rapidement. Pour l’instant, le projet est donc au beau fixe et la météo prévisionnelle s’annonce sous les meilleures augures !
Ceci étant, il faut rester la tête froide, nul doute que cette épopée VxRail n’est pas terminée, il nous reste à évaluer la charge, les niveaux de réduction de donnée et la contention globale, à mi-parcours, lorsque l’ensemble du TIER2 aura été déménagé. Il faudra aussi être vigilent lors d’une prochaine mise à jour majeure (3.5 à 4.0, 4.0 à 4.5), une situation toujours stressante pour un environnement HCI quel qu’il soit et dont nous avons souvent gardé, jusqu’à présent, une expérience plus ou moins douloureuse.
Gageons que Dell EMC a désormais toute notre attention et sera au petit soins pour nous ^^
Petite Précision, ce n’est pas “un” monstre mais “une monstre, ou plutôt au déesse qui va rejoindre notre panthéon où se trouve déjà 2 dieux et une autre déesse (égalité des sexes). Pour l’installation, on repassera sur le coté “One click” un peu survendu par DELL EMC mais l’installation centralisée est d’un grand confort quand on doit mettre à jour 20 “ESX”. Nous attendons maintenant avec impatience la montée en charge. Les prochaines grandes étapes sont la migration totale de notre ancien T2, le passage d’une mise à jour VxRail avec notre PROD tournant sur ce mêm cluster VxRAIL, un test de PRA (TERESA)…..On a de quoi encore s’amuser.
Merci pour les précisions, Fabrice ! (Le chef de projet de SELENE, notre VxRail “TIER2”).
Félicitations.
Quel contrôleur de stockage est utilisé sur ces serveurs? Car on a eu quelques problèmes à cause de ce composant sur nos VSAN Ready nodes.
Merci d’avance pour la réponse
Hello Capic, H330 Mini si je me rappelle bien.
Moi j’aime bien les belles histoires, même celle avec des montres gentils dedans :-)
Joli config en effet, ça promet de bô dashboard dans sexigragf et grafana !!!
4.5