En faisant le tour des mes blogs favoris pour préparer nos upgrades ESXi6 suite à notre mise à jour vCenter6 de cette semaine, je suis tombé sur un article très intéressant au sujet de bugs résiduels sur ESXi 6.0. Un premier bug concerne le comportement d’ESXi en cas de demande de bascule temporaire de chemin SAN, voir ce KB#2144657 chez VMWare, qui a été résolu dans ESXi 6.0u2. Un second bug est encore non résolu à ce jour et concerne plutôt la gestion du “smart” (Self-Monitoring, Analysis and Reporting Technology), ce protocole de monitoring de l’état de santé des disques. La encore, le bug en question peut conduire à des problèmes de connectivité et de performance sur les liens SCSI, voir ce KB#2133286.
Pour aller plus loin, rendez-vous tout de suite sur ce billet qui décrit avec force de détails ces deux bugs et les conditions qui mènent aux incidents. Du même coup, vous aimerez surement la référence, au sein de cet article, à un décodeur de codes SCSI “Sense”, très utile aussi pour comprendre un peu mieux le langage parfois difficile de vos ESXi ;)
De mon coté, étant donné que pour le moment, notre “target” est ESXi 6.0u2, je vais aller faire un tour du coté d’EMC pour vérifier le comportement des VNX et XtremIO en face d’une requête SCSI “smart” et prévoir en même temps sur nos images à déployer la désactivation systématique du démon smartd (c’est un moindre mal).
Je vous laisse avec cette bonne lecture pour ce long week-end pascal, vous le valez bien !
Bonjour,
Nous sommes en production avec deux fermes de 3 ESXi en 6.0 U2 avec une VNX2 5400 sur le site A et une VNX 5300 sur le site B.
Chaque VNX présente environ 20 LUNs en iSCSI.
Je constate des temps de démarrage des ESXi très long, environ 12 minutes.
Sur le site B je n’avait au début que 6 LUNs de présenter est le temps de boot était de 5 minutes.
J’ai ouvert un case j’ai vmware mais assez déçu du traitement de celui-ci, a part de me dire qu’il y a des APD au boot mais que c’est normal …
Bref,
Avez-vous constaté ce même phénomène sur vos ESXi.
Merci
Jérôme
Bonjour Jérome, est-ce que vous présentez toutes vos LUNs (des deux VNX) sur vos deux fermes ESXi ? Toutes les LUNs sont formatées en VMFS ou utilisez-vous des RDM ?
Bonjour Cedric,
Tout d’abord merci pour tes réponses rapide et ton super Blog ^^.
Mon Cluster A (vSphere Essential plus) ne voit que la VNX5400 sur le site A
Mon Cluster B (vSphere Essential plus) ne voit que la VNX5400 sur le site B
Il y a SRM au milieu avec du MirrorView pour la partie PRA.
Toutes les LUNs sont en VMFS 5.61
Je n’utilise plus de RDM.
Précision, j’avais fait un petit billet sur les problèmes de temps de boot, c’était sur les ESXi 5.0/5.1 à l’époque mais ça doit toujours être valable sur les 6.x :
https://vblog.io/?p=82
Merci mais j’ai pas de RDM.
C’est quand même surprenant ces temps de boot, dans ce cas. Je vois pas pourquoi on vous répond qu’il y a des APD et surtout que c’est sensé être “normal”… un serveur ESXi peut mettre quelques minutes (disons de 2 à 5) à booter, certes, mais pas 15… sauf s’il “bute” sur certains LUNs lockés ou inaccessibles
En tout cas personne m’apporte de réponse (vmware).
Tout est ok au niveau stockage j’ai encore revérifie et même désactivé le smartd…
Vous avez quel marque et modèle de serveur ?
On a du Dell R730 avec carte 10Gb Broadcom QLogic 57810 SFP avec utilisation du iSCSI Offload.
J’ai beaucoup de log au niveau du VMKernel :
WARNING: ScsiPath: 608: Path vmhba33:C0:T0:L210 claims to be a VVol PE but has a version of 4 (expected 5 or higher). Not treating it as a PE
J’ai constaté que mes cartes 10 Gb sont en Firmware 7.12 et drivers vmware 5.5
Pourtant c’est bien ok dans la matrice de compatibilité de la v6.0 U2
Cependant HP Cisco et QLogic propose dans la matrice des Firmware 7.13 avec drivers 6.0.
Alors savoir si ça vient de là ?
J’ai ouvert un ticket chez Dell pour une demande de Firmware 7.13…
Je ne parle pas de la gestion catastrophique du Boot sur support USB ou SD
J’ai encore eu le support ce matin il considère que c’est un problème et qu’ils sont la pour résoudre des problèmes !! Scandaleux
2016-04-07T08:59:38.226Z cpu16:32855)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x9e (0x439e1736ac80, 0) to dev “mpx.vmhba32:C0:T0:L0” on path “vmhba32:C0:T0:L0” Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE
2016-04-07T09:00:23.339Z cpu5:33533)NMP: nmp_ResetDeviceLogThrottling:3349: last error status from device mpx.vmhba32:C0:T0:L0 repeated 2 times
2016-04-07T09:01:01.709Z cpu24:32863)NMP: nmp_ThrottleLogForDevice:3298: Cmd 0x9e (0x439e16a04300, 0) to dev “mpx.vmhba32:C0:T0:L0” on path “vmhba32:C0:T0:L0” Failed: H:0x0 D:0x2 P:0x0 Valid sense data: 0x5 0x20 0x0. Act:NONE