Après la mise à jour de nos VPlex en 5.4 sp1p1 ainsi que nos XtremIO en 4.0.1-7 en Septembre dernier, nous avions prévu d’upgrader aussi nos VNX7500 au dernier FlareCode et code Celerra en date histoire que tout notre back-end soit bien à jour pour la fin de l’année. C’est un cycle que l’on essaye d’appliquer tous les ans, au minimum, afin de correctement entretenir tout notre réseau de stockage (y compris les switchs FC bien sûr).
Malheureusement, il semble que le flarecode dont nous partons, le 5.32.000.5.215 ait pas mal de bugs bien ennuyeux, notamment lorsque VPlex est impliqué dans la chaine de stockage ce qui est notre cas. Plus précisément, deux ETA critiques sont dans la balance aujourd’hui. Voyons cela de plus prêt.
Le premier concerne des risques de plantage des Storage Processors des VNX en phase de NDU (Non-disruptive Upgrade) alors que le VAAI est activé. Pour rappel, VAAI est un ensemble d’extensions spécifiques à VMWare pour soulager les hyperviseurs de tâches purement “stockage” qu’en généal, les baies exécutent bien plus efficacement. L’ETA en question est le numéro 207784 et sa fiche est disponible ici.
Le second ETA concernant un risque de perte de connectivité des LUNs servies par les baies sur VPlex à cause d’un bug spécifique sur toutes les version de VPlex jusqu’à la 5.4. Les version suivantes à partir de la 5.4sp1 ne sont pas touchées. Le numéro d’ETA est le 197315, dont la fiche est disponible ici.
Notre première baie VNX7500 a terminé son upgrade correctement après pas mal d’heures d’échange avec le RCM au sujet de ces deux ETA et tout s’est bien passé.
Si on prend un peu de recul vis à vis de ce chemin d’upgrade un peu tortueux et difficile, il s’agit tout de même de rappeler que même si les infrastructures SAN (FC et iSCSI) se sont démocratisées au milieu des années 2000 au point de devenir le “standard” de nombreux environnement de stockage aujourd’hui, il n’en demeure pas moins qu’il faut rester vigilent vis à vis des phases de mise à jour des équipements. En prenant trop l’habitude “que tout se passe bien” sans alerte particulière, on en perd aujourd’hui la notion que ces équipement restent très sensibles et les protocoles employés particulièrement pointus et riches. La complexité aidant, les risques de mauvaise interaction se multiplient aussi.
Le maître mot aujourd’hui, encore plus qu’hier, est donc : ne faites pas comme la NASA avec la navette Challenger, restez vigilent et alertes vis à vis de vos updates SAN et prenez le temps, avec EMC ou tout autre constructeur, de les planifier correctement ! (c’est une évidence, mais ça va mieux en le disant ;) ).