NDLR: à propos des billets Rognotudju

Non ?! Vraiment ? je veux dire, pour de vrai dans la vraie vie ? En vrai de vrai ? Oui, j’avoue c’est assez inhabituel. Si inhabituel, en fait, que ça ne s’est jamais produit depuis que j’écris mon 3615 My-IT-life sur vBlog ! Pour autant, ça ne m’enchante pas du tout, mais, alignement des planète, cette fois-ci, après HPE et ses Proliant il y a quelques heures, c’est au tour de Dell EMC Avamar de passer à la casserole …

D’abord, comme ça, cela m’évitera le procès d’intention et ensuite, pas de jaloux, après tout, une solution qui n’a pas de bugs ça n’existe pas. Or, donc, notre sauvegarde tourne depuis plus de 4 ans maintenant sur Avamar-Datadomain, vous le savez sans doute. Même si au quotidien, ces plateformes doivent vraiment être “entretenues”, comprenez par là qu’il n’est pas une semaine ou deux sans qu’on soit contraint d’ouvrir un SR pour des petits trucs qui déconnent, globalement “le boulot de backup et restauration est assuré”.

Sauf que depuis environ une semaine, nous avons un sérieux souci. Notre vCenter “se plante” quasi toutes les nuits, pendant la grande période de sauvegarde chez nous. Plus exactement et après quelques heures d’investigation, force est de constater que ce n’est “que” le démon VPXD qui panique, au sens littéral. Rien que ça vous me direz, et, certes, ça marche beaucoup moins bien quand le moteur principal de vSphere est cassé. Il faut donc, depuis plusieurs jours, redémarrer notre vCenter à l’arrivé des collègues du service exploitation vers 7h. Et, bien sûr, relancer les dizaines de jobs de backup en erreur, ce qui est relativement laborieux, reconnaissons-le.

Plus précisément, il se trouve que nous avons upgradé récemment notre Avamar sur la version 19.1 et qu’il existe un bug connu qui a pour conséquence le plantage régulier de VPXD (voir ici chez Dell EMC). Alors, vous allez me dire que la 19.1 n’est pas mentionnée, sauf que c’est tellement la même chose avec les mêmes messages d’erreur dans les logs, que je me dis qu’il n’y a pas fumée sans feu. Malgré tout, nous attendons confirmation auprès de VMware notre première analyse et j’espère qu’elle ne saurait tarder.

Il n’empêche, comme nous n’avons pas de pistes de contournement pour l’instant ni de date prévisionnelle de résolution, nous sommes obligés de trouver des solutions bien crados pour relancer le vpxd dès qu’il plante, histoire de ne pas perdre une nuit de backup. Bref, tout va bien en ce moment comme vous le voyez. Bon, rassurez-vous, les backups sont malgré tout assurés et les données de notre chère institution sont encore au chaud, donc pas de panique, contrairement au VPXD… En attendant, si vous êtes dans la même configuration que nous, n’hésitez pas à échanger, je me sentirai moi seul :)

Je mettrai à jour le billet quand on aura une solution définitive en place. Et, Promis-juré-craché, si Avamar n’est finalement pas en cause (j’en doute), je ferai des excuses publiques ^^

EDIT du Vendredi 11 Octobre à 17h. Confirmation du bug “Avamar” par VMware.