Présentation du stockage Huawei OceanStor Pacific

7 janvier 2024 0 Par Michael PERES

Le système OceanStor Pacific prend en charge les protocoles de fichiers standard, y compris NFS et CIFS, ainsi que le déploiement de DPC sur les nœuds de calcul pour prendre en charge les MPI-IO pour de meilleures performances. Il prend également en charge la mise en réseau hybride des protocoles standard et des DPC pour répondre aux exigences de service diversifiées dans le HPC et d’autres scénarios.

OceanStor fournit des services d’accès simultanés via plusieurs nœuds. Le système de fichiers évolutif efficace et la technologie d’équilibrage des connexions client, permettent de maximiser la concurrence du système. Grâce à des technologies innovantes telles que le partitionnement de répertoire basé sur une table de hachage distribuée (DHT), la série OceanStor Pacific peut fournir une bande passante élevée pour les fichiers volumineux et des opérations par seconde élevées (OPS) pour les petits fichiers afin de faire face à différentes charges de service. Basée sur les DPC, la série OceanStor Pacific peut optimiser remarquablement les performances d’E/S par flux de données et par client. En outre, OceanStor fournit des interfaces MPI et implémente un accès E/S parallèle haute vitesse multi-noeuds en permettant à plusieurs nœuds ou threads de lire simultanément des données et d’écrire des données dans différentes parties d’un fichier.

Composant DPC :

DPC est un composant client qui implémente le stockage parallèle. Il s’exécute sur des nœuds de calcul en tant que client de stockage et échange des données avec des nœuds de stockage back-end. DPC prend en charge l’accès sémantique aux fichiers en utilisant le protocole MPI ou POSIX.

Par rapport aux protocoles standard, DPC fournit un accès aux données plus efficace. Le DPC est idéal dans les scénarios HPC et offre une grande échelle (supportant plus de 10,000 nœuds), une concurrence élevée et un débit élevé. Il répond aux exigences d’accès aux données à grande échelle et haute performance dans les scénarios HPC.

Découpage de fichiers :

Pour mettre en œuvre la protection des données et l’accès haute performance, la série OceanStor Pacific effectue le striping des données par nœud comme suit :

1. Lorsqu’un fichier est créé, le système de fichiers sélectionne des nœuds en fonction du niveau de protection configuré.

2. Lorsque des données sont écrites dans le système, le système de fichiers distribue les données à ces nœuds uniformément.

3. Lorsque des données sont lues à partir du système, le système de fichiers lit les données de tous ces nœuds simultanément.

Le système OceanStor illustré dans la figure précédente se compose de dix nœuds. Les données des utilisateurs sont distribuées uniformément à huit d’entre eux. En pratique, le nombre de nœuds permettant de répartir uniformément les données utilisateur dépend des configurations.

Système de fichiers Multiples :

OceanStor Pacific permet aux utilisateurs de créer plusieurs systèmes de fichiers pour différents services ou départements. Un système de fichiers peut contenir un maximum de 256 nœuds, et un cluster peut contenir un maximum de 4096 nœuds. Cela répond à l’isolement requis des ressources entre les services ou les départements, et répond également à l’évolutivité flexible des ressources.

La série OceanStor Pacific offre des fonctionnalités de série telles que SmartQuota (quota), HyperSnap (snapshots) et SmartQoS (QoS) pour mieux prendre en charge plusieurs systèmes de fichiers. SmartQuota limite l’espace utilisé par un seul système de fichiers, HyperSnap assure la sécurité des données des systèmes de fichiers et SmartQoS empêche l’impact sur les performances entre les systèmes de fichiers.

Le service HDFS :

Le service HDFS adopte une architecture innovante où les nœuds de calcul et de stockage sont déployés séparément. Il suit les principes de conception évolutive, axée sur les services et basée sur des microservices.

Comparaison entre une architecture intégrée Hadoop et une architecture de découplage stockage-calcul de Huawei

Le service HDFS avec son architecture hautement évolutive, fournit une base Big Data efficace.

Configuration à la demande pour les ressources de stockage et de calcul :

Le service HDFS organise les supports de stockage, tels que les disques durs et les SSD, en pools de stockage à grande échelle grâce à des technologies évolutives. Il sépare les ressources de stockage des ressources de calcul, ce qui permet d’obtenir une configuration flexible des ressources de stockage et de calcul, une extension de la capacité à la demande et un investissement réduit. Du fait que les ressources de stockage sont découplées des ressources de calcul, les données sont séparées des grappes de calcul. Cela permet une expansion et une homogénéisation rapide de la capacité des grappes de calcul sans migration de données et sans allocation flexible de ressources de calcul.

Pool de ressources de stockage unifié :

Le service HDFS permet à plusieurs espaces de noms de se connecter à plusieurs clusters de calcul. Chaque cluster de calcul prend en charge l’authentification isolée et est authentifié avec son espace de noms correspondant de manière unifiée. Les pools de ressources de stockage sont pleinement utilisés grâce à l’isolation des données logiques parmi les espaces de noms, à l’allocation d’espace flexible et au partage des capacités de stockage.

Gestion à grande échelle des données et des métadonnées :

OceanStor adopte une architecture entièrement évolutive. Il permet une croissance linéaire de la capacité et des performances du système en augmentant les nœuds de stockage, ne nécessitant pas de plans de ressources complexes. Il peut être facilement étendu pour contenir des milliers de nœuds et fournir une capacité de stockage de niveau EB. Cela permet de répondre aux futures exigences en matière de stockage. Le HDFS natif utilise des NameNodes actifs et standby, et un seul NameNode ne prend en charge qu’un maximum de 100 millions de fichiers. Différent du HDFS natif, le service HDFS utilise un mécanisme de NameNode entièrement évolutif, permettant à un espace de noms unique de prendre en charge des dizaines de milliards de fichiers et à l’ensemble du cluster de prendre en charge des milliers de milliards de fichiers.

Compatibilité avec la sémantique HDFS native :

Le HDFS natif EC ne prend pas en charge les interfaces comme append, troncate, hflush et fsync.

Différent du HDFS natif EC, le service HDFS est entièrement compatible avec la sémantique HDFS native, facilitant une migration d’entreprise fluide et prenant en charge une large gamme de plates-formes Big Data Huawei et tierces. Ce service prend même en charge le schéma EC 22+2 avec un taux d’utilisation de 91,7%, considérablement plus élevé que l’utilisation obtenue en utilisant le mécanisme natif HDFS EC et trois copies. Cela permet de réduire vos coûts d’investissement.

Fiabilité du stockage Huawei :

Le service HDFS est développé sur la base de l’architecture de virtualisation des fonctions de données (DFV), qui est appliquée par les systèmes de stockage Huawei on- et off-cloud, offrant une fiabilité de stockage de classe entreprise. La vitesse de reconstruction des données est d’environ 2 To par heure, empêchant la perte de données en cas de pannes ultérieures, et prend en charge l’identification des disques défectueux et endommagés et le traitement de la tolérance aux pannes, le contrôle de flux (Token Flow Control), ainsi que la vérification silencieuse de la corruption des données, assurant la sécurité du service et des données avec une fiabilité de stockage de classe d’entreprise.