Mercredi 18 Octobre, 6h00.
Ciel dégagé.
Beaucoup de stress après les complications de la veille (voir la première partie ici). Mais, diantre ! Nous sommes des professionnels et la raison doit l’emporter sur les sentiments !
Arrivée au bureau à 7h00, histoire de préparer tout cela avant l’arrivée des collègues.
Mercredi 8h00 …
De 08h00 à 08h30 : Première opération, supprimer ce fichu Update Manager. Comme je vous l’expliquais dans mon premier billet, notre essai depuis la section “Uninstall” de Windows n’a pas fonctionné, avec des erreurs un peu dans tous les sens. Nous avons cette fois-ci essayé depuis l’installeur officiel de la distribution vSphere 6.0u2. Malgré quelques avertissements sur son incapacité à supprimer les règles firewall sur la machine, la désinstallation est finalement arrivé à son terme ! Nous étions fin prêts pour re-tenter l’upgrade.
De 08h30 à 09h30 : Histoire de sécuriser, comme toujours, notre état technique, nous arrêtons l’ensemble des VMs impliquées et prenons des snapshots de l’ensemble. Après une relance et les vérifications d’usage, nous lançons la mise à jour, SANS update Manager, avec l’espoir que l’erreur d’hier ne se reproduise pas.
De 09h30 à 10h00 : Phase 1 OK, déploiement de la nouvelle VCSA et première configuration (déjà réussi hier, donc peu de risques).
De 10h00 à 11h30 : Phase 2, étape 1 critique correspondant à l’export des données, commence.
De 11h30 à 12h05 : De bonne augure ! l’étape 1 s’est finalement terminée sans erreur au bout de 40 minutes. Passage à l’étape 2, c’est à dire la configuration du nouveau vCenter 6.5.
12h30 : vCenter 6.5 est UP ! Touch Down !
De 14h00 à 18h30 : Nous avons passé l’après-midi à faire de nombreux tests de fonctionnement pour revalider l’ensemble de l’écosystème : Sauvegardes OK, Restaurations OK, vRealize Operations OK, NSX Manager OK, création de Edge Gateways OK, vCloud Director …. ha non, pas OK. Le vCloud voyait correctement le vCenter, mais impossible d’importer des VMs depuis vSphere, ni même d’en créer de nouvelles directement. L’erreur était toujours la même, un problème de timeout sur la base de donnée coté vCloud. Malgré un troubleshooting long et laborieux, nous constatons que lors de ces opérations, les requêtes Oracle se plantaient systématiquement avec une erreur ORA-600. Vraiment étrange.
Au final, nous ouvrons un call chez VMware en fin de journée pour pouvoir investiguer avec le support dès le lendemain.
Jeudi
Je vous passe les nombreux échanges avec la hotline VMware et tous les diagnostics sur notre infrastructure vCD : au final, le problème de vCloud Director n’était pas lié à la migration vSphere, mais tout simplement de sa base Oracle, comme nous le présagions, dont certains index étaient manifestement corrompus, provoquant des plantages sur certaines requêtes. En fait, aux vues du timing de mise à jour de vCloud – passage en 8.20 la veille des opérations – nous n’avions pas eu le temps de tout tester. L’instabilité de la base devait donc dater de Lundi soir. Après un call chez Oracle et la réparation de la base le Vendredi matin, tout est rentré dans l’ordre et notre vCloud Director était de nouveau opérationnel. Ouf !
Vendredi
Histoire de bien terminer la semaine, nous avons profité du Vendredi sans mises en production pour consolider notre infrastructure full VCSA en y injectant des certificats SSL tout neufs, sur les deux PSC ainsi que sur le vCenter. Je vous ferai un petit billet la dessus pour vous résumer les manipulations, mais globalement, j’ai suivi les instructions de ce KB chez VMware.
J’ai tout de suite commencé à explorer les nouvelles fonctionnalités 6.5 et notamment le backup/resto du vCenter avec le nouvel outil intégré et ça marche ! Petit bémol, pour l’instant, je n’ai pas trouvé le moyen de programmer ce backup via l’interface de management, mais j’imagine que ça doit être possible, à creuser.
L’heure du bilan
Cette semaine aura été particulièrement intense, c’est vrai, mais malgré les quelques problèmes rencontrés, pour une évolution de cette envergure, le résultat est satisfaisant. Il permet en outre de mettre en évidence les “trous” dans nos checklists et tests préalables (déjà nombreux). La roue de Deming continue de tourner et c’est tant mieux !
Notre passage en VCSA va en outre rendre les choses plus simples à l’avenir puisque désormais, l’immense majorité de nos outils de gestion VMware sont des virtual appliances, gage de fiabilité mais aussi de support dédié VMware (bases de données intégrées).
Il nous reste juste vCloud Director à passer en 9.0 et de-facto profiter de la possibilité de migrer la base de données Oracle vers PostgreSQL… mais c’est une autre histoire ^^
Tout n’est pas fini, évidemment, loin s’en faut d’ailleurs. Il nous reste en effet à réaliser tranquillement la mise à jour de nos ESXi, en prennant toutes les précautions nécessaires. Il faudra également que l’on s’occupe en temps et en heure des deux vCenter dédiés à nos deux clusters VxRail (il faut attendre que Dell EMC nous sorte ENFIN la fameuse release 4.5 … annoncé depuis déjà plusieurs mois).
Vous l’aurez compris, c’était une première étape critique mais ce n’est finalement que le début. Si tout se passe bien, nous devrions être en full 6.5 d’ici le début de l’année prochaine.
Pas possible malheureusement de scheduler un backup via l’UI. Contourner le problème il te faudra ;)
Par ex en PowerCLI: https://www.brianjgraf.com/2016/11/18/vsphere-6-5-automate-vcsa-backup/
Bonjour Romain et merci pour l’info !
Cédric