EDIT : Apparemment, ce n’est pas encore réglé en 4.5.210 , merci à Maxime (Twitter: @mhercelin) pour l’info !
EDIT2 : Je viens de recevoir une confirmation que les dernières versions (je n’ai pas le build exact) de VxRail intègrent bien la correction de ce bug, bonne nouvelle ! Par contre, il faut bien vérifier les numéros de build des iDrac aussi. Contactez la hotline Dell EMC pour le demander de faire le ménage et de mettre tout à niveau

Depuis plus de deux ans maintenant, nous investissons massivement dans VxRail, la solution hyper-convergé de Dell EMC. Il nous est arrivé pas mal de misères, surtout assez récemment avec les plateformes hardware. J’en ai d’ailleurs pas mal parlé à l’occasion de plusieurs billets sur le sujet. Heureusement, tout cela est désormais du passé ?

Du passé ? Mmmmmhh, oui… et non. Certes, l’immense majorité des soucis initiaux ont été réglés et VxRail constitue désormais un pilier de production pour nous. Fiabilité de VSAN, performances à la hauteur, réduction de données dans la bonne moyenne, les résultats sont là en terme de service. Mais, malgré tout, il reste encore des petits ennuis ponctuels, qui, s’ils ne remettent plus en cause notre choix, sont quand même pénibles. L’un d’entre eux est lié à des bugs résiduels dans l’interfaces IPMI des iDrac sur plateforme Dell PowerEdge. En effet, de manière aléatoire, certains serveurs “disparaissent” de la console VxRail et ne sont de facto plus supervisés par le manager éponyme.

Maiiiis, il y a une solution assez simple pour remédier au problème, en attendant une prochaine release plus stable de ce point de vue. La voici !

Pour être précis, le problème survient chez nous sur la version 4.5.150 de VxRail sur les plateformes hardware VxRail P470F. Depuis, plusieurs versions plus récentes sont sorties, mais nous n’avons pas encore réalisé la mise à jour. Je mettrai à jour ce billet dès que nous aurons assez de recul sur la nouvelle version 4.5.212 sortie le 7 Juillet dernier, que nous allons mettre en place ASAP.

En attendant, le symptôme de la “disparition” se matérialise par ce type d’affichage sur le VxRail Manager :

Pour résoudre le problème, au départ, nous n’avions pas d’autre solution que de mettre en maintenance le serveur en question et faire carrément un “Power Off/Power On” dessus. Pas terrible, car, par ailleurs, sous vSphere, la machine reste parfaitement fonctionnelle.

Après avoir un peu creusé le “truc” de mon coté, je suis arrivé à trouver une solution de contournement bien plus légère. Il s’agit en fait de rebooter la iDrac et redémarrer complètement le service “DellPTAgent” dans l’ESXi. Pour se faire, voici la procédure.

Reboot de la Drac :
Connectez-vous en admin/root sur ESXi via SSH puis tapez la commande suivante :

Attendez ensuite une dizaine de minutes (maximum) que l’iDrac soit de nouveau accessible et complètement opérationnelle. Connectez-vous sur celle-ci pour le vérifier. Enfin, relancez le service DellPTAgent. Il peut arriver que le process sous-jacent soit planté, auquel cas, un bête “/etc/init.d/DellPTAgent restart” ne suffira pas. Dans le doute, faite-le de cette manière – assez radicale, certes – en killant d’abord le process en question puis en relançant le service de manière plus classique :

Une fois réalisé, attendez une dizaine de minutes environ, vous devriez voire revenir votre beau Node au sein de VxRail Manager !