Nous avions lancé il y a quelques semaines une campagne de mise à jour vers ESXi 5.5 (build 1623387) de nos hyperviseurs de production, après une phase de qualification sur nos environnements de bac à sable et test. A priori, pas de souci, comme depuis plusieurs années, pendant cette phase critique d’upgrade.
Je dis a priori, car dans la pratique, nous avons rencontré des problèmes assez étranges sur certaines de nos VMs. Les machines refusaient de changer de machine via vmotion malgré une compatibilité parfaite entre les hardwares des serveurs. Plus grave, après un arrêt à froid, puis tentative de déplacement (via donc un dé-registrer/register effectué par le vCenter), la machine se retrouvait bloquée et tagguée comme “invalide”. Par contre, si l’on faisait l’opération de de-register depuis un ESXi 5.5 puis re-register sur un ESXi encore en 5.1 à la main, la VM retrouvait son état power-off classique et l’on pouvait à nouveau la démarrer, par contre toujours impossible à migrer vers un 5.5.
Après différentes recherches et tests divers et un appel chez VMWare, il est apparu que la cause de ces dysfonctionnements ponctuels était vraisemblablement liée à un positionnement particulier des masques de flag CPUs. Le KB2068817 chez VMWare correspond peu ou prou à la procédure que nous avons utilisé pour contourner ce problème. L’opération est lourde car elle nécessite d’arrêter physiquement la VM pour pouvoir en modifier le .vmx à la main. Nous avons tenté d’utiliser directement l’interface du vCenter, sans succès.
La procédure est assez artisanale, mais elle a le mérite de fonctionner (voir le KB).
La conclusion à laquelle nous arrivons est donc que le comportement de ESXi 5.5 est quelque peu différent vis à vis de ces masques CPU, voir que l’hyperviseur est victime d’un bug spécifique sur cette fonctionnalité. A suivre dans les release notes des futurs patchs ESXi !