vSAN : Perte d’un hôte dans un cluster

4 novembre 2015 0 Par Michael PERES

La défaillance d’un hyperviseur peut se produire n’importe quand, et pour n’importe quelle raison.
Cela peut-être dû à une défaillance matérielle, logicielle, etc…
Lorsque qu’un Virtual SAN est implémenté, le simple reboot d’un serveur hôte ne doit pas avoir de conséquence sur l’intégrité du volume.
Quand l’un des composants actifs d’un objet résidant sur l’hôte qui tombe en panne ou est redémarré, alors ces composants sont marqués comme étant « manquant ».

Les flux I/O à l’objet est rétablie dans les 5-7 secondes en enlevant le composant identifié comme « manquant » de l’ensemble des composants actifs dans l’objet.
L’état « manquant » est utilisé dans un premier temps, parce que dans de nombreux cas, la défaillance de l’hôte est un état temporaire.
L’état « dégradé » est utilisé lorsque l’état « manquant » dépasse au moins 60 minutes.
Le simple redémarrage suffit à changer le statut en « manquant », le temps que l’ESXi redémarre complètement et que tous ses services soient « up ».

Virtual SAN est conçu pour laisser assez de temps à un hôte de redémarrer avant que la reconstruction du volume ne démarre sur d’autres serveurs hôtes, et ce, afin de ne pas gaspiller les ressources de l’ensemble du cluster. En effet, Virtual SAN ne peut pas déterminer s’il s’agit d’une défaillance système d’un hyperviseur, de la déconnexion du réseau vSAN, ou d’un simple redémarrage d’un hôte.
Si le délai des 60 minutes expire, et que l’hyperviseur ayant le statut « manquant » n’a pas rejoint le cluster, une reconstruction des composants stockage sur les hôtes restants dans le cluster s’amorce.

Si un hyperviseur devient indisponible ou est redémarré, cet événement va déclencher une alarme de type « Host connection and power
state ». Si vSphere HA est activé sur le cluster, il entraînera aussi une alarme de type « vSphere HA host status » et un message de type « Host cannot communicate with all other nodes in the VSAN Enabled Cluster ».
Si la variable « NumberOfFailuresToTolerate = 1 » (ou plus) est configuré dans la politique de stockage VM, et que l’un des hôtes ESXi
du cluster vSAN tombe en panne, les machines virtuelles qui ne sont pas hébergées par ce serveur continueront de fonctionner normalement.
Les VMs hébergées par le serveur en statut « Failed » seront redémarrées sur d’autres ESXi du cluster vSAN grâce à vSphere HA, si celui-ci est correctement configuré au niveau du cluster.

Attention:
Si la variable « NumberOfFailuresToTolerate = 0 » est configurée, les machines virtuelles hébergées sur le serveur hôte en statut « failed » ne seront pas accessible et resteront indisponible jusqu’à ce que le serveur redevienne actif au sein du cluster vSAN ou jusqu’à ce qu’elles soient migrées manuellement sur un serveur actif et membre du cluster.