Fonctionnalités Huawei Ultrapath

Fonctionnalités Huawei Ultrapath

7 décembre 2024 0 Par Michael PERES

All Paths Down Protection

Dans un réseau single path, l’HBA ou l’initiateur iSCSI tente de se reconnecter pendant 30 ou 60 secondes après une perte de liaison. Si la reconnexion se passe bien, les I/O (entrées/sorties) continuent à être envoyées. Dans un réseau à chemins multiples (Mutlipath), un chemin « de secours » est disponible, le temps dédié à la nouvelle tentative de reconnexion est réduit de manière à ce que UltraPath puisse détecter les pertes d’I/O afin d’optimiser le temps de basculement, tout en réduisant la congestion des I/O.

En cas d’erreur All Paths Down (généralement dû à des points de défaillance uniques), les I/O peuvent être interrompus immédiatement. Les services seront interrompus si vous redémarrez le switch.

UltraPath offre un mécanisme de reconnexion. Si un problème APD se produit, UltraPath interrompt les I/O et tente de restaurer le chemin pendant un certain temps.

S’il y a au moins un chemin qui est récupéré pendant la période de temps, les services pourront être récupérés.

UltraPath détecte automatiquement les défauts de liaison intermittents, les erreurs de bits, la perte de trame et la congestion. Il dégrade et isole la liaison pour assurer la continuité du service et la stabilité.

Par exemple, lorsque le logiciel de multipathing ne dispose pas d’un mécanisme d’isolation et que les liens sont déconnectés par intermittence en raison d’une mauvaise qualité ou d’une connexion incorrecte, la liaison devient inactive et les I/O sont transmis à une autre liaison. Lorsque le lien est récupéré, les I/O sont rebasculées.

Impact sur les services

Le basculement (et les basculements répétés) prend du temps, ce qui entraîne une congestion des I/O à court terme. Si la congestion des I/O se produit fréquemment, les performances des services de couche supérieure se détériorent et les services sensibles à la latence peuvent même tomber.

UltraPath utilise les mécanismes suivants pour isoler les chemins défectueux par intermittence :

– Un chemin n’est pas utilisé immédiatement après la récupération d’une panne, mais reste en état de veille pour les tests. Les I/O ne seront pas rebasculés sur le chemin tant que celui-ci n’aura pas « passé les tests ».

– Les temps d’indisponibilité d’un chemin sont monitorés. UltraPath définit l’état d’un chemin défectueux plusieurs fois, comme étant un chemin « dégradé ».

Isolation des liens présentant des « Bit Errors »

Si la qualité d’un lien Fibre Channel est mauvaise, comme par exemple une fibre optique pliée ou endommagée ou que la puissance d’un module optique diminue, des erreurs de bits peuvent se produire au niveau du lien. En général, ces erreurs n’entraînent pas l’arrêt du lien, mais des I/O peuvent être perdus.

Lorsque la solution de multipathing ne dispose pas de mécanisme d’isolation, le logiciel de multipathing effectue une nouvelle tentative en cas d’erreur I/O. Une nouvelle tentative est alors effectuée, et souvent tout se passe correctement. Par conséquent, le logiciel de multipathing ne définira pas l’état du lien comme étant « défectueux ». Les liens présentant des « bits errors » étant plus encombrés, il y aura moins d’I/O reçus lorsque l’algorithme d’équilibrage de charge sera utilisé, ce qui réduit l’impact sur les services. Cependant, certains I/O seront toujours reçus.

Impact sur les services

Sans le mécanisme d’isolation, les I/O peuvent être perdus. Bien que certains I/O soient correctement reçus après plusieurs tentatives, d’autres I/O restent bloqués pendant les tentatives.

En conséquence, les performances des services de couche supérieure se détériorent et les services nécessitant une faible latence pourront être impactés.

L’expiration du délai d’I/O entraîne un blocage de 60 secondes des services de couche supérieure.

Les E/S qui échouent occasionnellement ont un impact incertain sur la couche supérieure. Dans le pire des cas, les performances des services de couche supérieure chutent de plus de 80%.

UltraPath utilise de multiples mécanismes pour isoler les liens qui ont erreurs de bits. Il identifie les chemins « non viables » en fonction de la latence des I/O, du taux d’échec, collecte des statistiques et définit leur état en « dégradé ». Ces chemins ne seront plus utilisés de manière préférentielle.

Le fait que les I/O passant par des liens qui ont des « bits errors » soient probablement perdus, ces mêmes I/O devront être rigoureusement testés pendant une longue période. UltraPath établit « un I/O sensitive » aux erreurs de bits pour vérifier en permanence les chemins dégradés, en s’assurant que les liens qui ont des erreurs de bits soient isolées.