PowerScale, Isilon OneFS : Mise hors tension correcte d’un cluster
Sommaire: Pratiques d’excellence pour arrêter correctement votre cluster PowerScale et inclut des informations sur les risques associés à un arrêt incorrect du cluster. Procédures étape par étape pour arrêter correctement le cluster. Certaines étapes doivent être exécutées 4 à 8 semaines avant la mise à niveau planifiée. ...
Instructions
Introduction
Cet article fournit la procédure à suivre pour arrêter correctement votre cluster Dell Isilon et inclut des informations sur les risques associés à un arrêt incorrect du cluster.
Les nœuds qui sont arrêtés de manière incorrecte dans le cluster ne doivent pas être sans alimentation système pendant une durée supérieure à la durée de vie de la batterie NVRAM.
Ce délai prend environ trois à cinq jours, selon le type de nœud.
Si les données sont toujours stockées dans le journal d’un nœud alors que le nœud est sans alimentation pendant une durée supérieure à la durée de vie de la batterie NVRAM, les données sont perdues.
Si cela se produit sur plusieurs nœuds, le cluster devra être reconstruit.
Contactez le support technique Dell Isilon pour obtenir de l’aide si vous avez des questions sur les procédures ou les informations décrites dans cet article.
Procédure
Pour arrêter le cluster, il faut avoir les informations d’identification root et l’accès à la console série pour tous les nœuds du cluster. La procédure est divisée en plusieurs phases.
- Phase 1 : Effectuez une maintenance préventive
- Phase 2 : Arrêtez chaque nœud du cluster
- Phase 3 : Assurez-vous que les nœuds ont été arrêtés avec succès
- Phase 4 : Déconnectez la source d’alimentation
- Phase 5 : Mettez sous tension chaque nœud du cluster
- Phase 6 : Exécutez un contrôle d’intégrité sur le cluster
Lisez l’intégralité de la procédure avant de commencer le processus d’arrêt. Vous vous assurez ainsi de comprendre le contexte et l’ordre de réalisation de chaque étape.
Phase 1 : Effectuez une maintenance préventive.
Ces étapes sont effectuées environ 4 à 8 semaines avant l’arrêt planifié. L’objectif de cette phase est d’identifier les problèmes matériels ou de firmware inconnus ou latents qui peuvent entraver la procédure d’arrêt.
Si les circonstances nécessitent un arrêt immédiat à l’échelle du cluster, vous pouvez arrêter tous les nœuds simultanément à l’aide de l’interface de ligne de commande OneFS ou de l’interface d’administration Web OneFS.
En cas de procédure d’arrêt d’urgence, Dell recommande vivement de suivre toutes les étapes de la phase 3 pour préserver l’intégrité des données en cas d’arrêt d’urgence.
- Chargez les journaux pour une référence ultérieure en cas de besoin.
# isi diagnostics gather start --gather-mode full
- Effectuez ou demandez un contrôle d’intégrité Isilon.
- L’intégrité du cluster est ainsi évaluée pour s’assurer qu’il est dans un bon état opérationnel et compatible.
- Elle peut être effectuée par le client à l’aide de PowerScale : exécution de l’outil Isilon On-Cluster Analysis
- Elle peut être effectuée par l’équipe du support réactif (support client). Cela est disponible pour tous les clients disposant d’un contrat de maintenance actif pour les clusters sur les versions de code prises en charge. Si vous répondez à ces exigences, ouvrez une demande de service (SR) sur le site de support en ligne Dell pour demander un « contrôle d’intégrité Isilon ». Fournissez également les journaux complets pour le contrôle d’intégrité en exécutant la commande suivante
# isi diagnostics gather start --gather-mode full
* Le contrôle d’intégrité n’est pas destiné à résoudre les problèmes de cluster ou à évaluer la configuration, les performances ou le workflow du cluster.
- Effectuez un « redémarrage à froid » de chaque nœud en procédant comme suit. Une fenêtre de maintenance doit être planifiée pour cette activité.
Remarque : Ce processus vous permet d’identifier les erreurs de mémoire ou les modes de défaillance de disque détectés uniquement lorsque le nœud est remis sous tension.
- Arrêtez chaque nœud de votre cluster un par un. Pour arrêter chaque nœud :
- Ouvrez une connexion SSH à n’importe quel nœud. Arrêtez chaque nœud en exécutant la commande suivante
isi config shutdown <node_lnn>
- Assurez-vous que chaque nœud est hors tension en vérifiant que le voyant d’alimentation vert à l’arrière du nœud n’est plus allumé.
- Appuyez sur le bouton d’alimentation afin de remettre le nœud sous tension.
- Vérifiez que le nœud s’est réintégré au cluster et est en bonne santé en exécutant la commande
isi status -qet en recherchant OK dans la colonne Health DASR de la sortie. - Si un nœud rencontre des problèmes indiqués dans la colonne Health DASR ou ne parvient pas à rejoindre le cluster, résolvez ces problèmes avant d’arrêter le nœud suivant.
Un exemple de problème est sélectionné. Le nœud 1 a rejoint le cluster avec succès, mais la colonne Health DASR indique qu’il nécessite une intervention.
mycluster-1# isi status -q Cluster Name: mycluster Cluster Health: [ ATTN] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-A-- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Vérifiez l’intégrité de l’ensemble de votre cluster après avoir redémarré chaque nœud. Ouvrez une connexion SSH à n’importe quel nœud et exécutez la commande ci-dessous :
isi status -q
isi config reboot <node_lnn>
Toutefois, Dell recommande vivement d’utiliser l’approche de redémarrage à froid pour identifier plus efficacement les problèmes matériels latents.
Phase 2 : Arrêtez chaque nœud du cluster.
Ces étapes doivent être effectuées le jour de l’arrêt de votre cluster Isilon. Lors d’un arrêt à l’échelle du cluster, certains facteurs peuvent avoir un impact sur le processus d’arrêt ou le retarder. Par exemple, les écritures de données en attente sur un nœud peuvent affecter l’arrêt. L’objectif des étapes 1 et 2 est de s’assurer que tous les clients sont déconnectés du cluster et que les données sont correctement enregistrées à partir des journaux de nœuds dans le système de fichiers avant d’exécuter la commande d’arrêt. Si vous disposez de clients iSCSI, assurez-vous d’arrêter les clients avant que le service iSCSI ne soit désactivé.
L’étape 3 explique comment arrêter chaque nœud de votre cluster de manière séquentielle à l’aide d’une console série. Cette méthode est recommandée, car elle vous permet de vérifier que chaque nœud est correctement arrêté avant de passer au nœud suivant, et d’effectuer les ajustements ou de résoudre les problèmes nécessaires pour garantir un arrêt correct du cluster. Cependant, cette méthode peut prendre beaucoup de temps, car il faut connecter une console série à chaque nœud afin d’exécuter la commande d’arrêt. La section Arrêter simultanément tous les nœuds de votre cluster explique comment utiliser l’interface de ligne de commande OneFS ou l’interface d’administration Web OneFS pour arrêter votre cluster. Moins chronophage que l’étape 3, cette méthode rend plus difficile l’identification des nœuds qui rencontrent des problèmes lors du processus d’arrêt.
- Isilon suggère de séparer le cluster des clients afin de garantir qu’un client qui consomme beaucoup d’écritures ne perturbe pas la procédure d’arrêt du cluster. Pour ce faire, désactivez les services orientés client qui s’exécutent sur votre cluster. Procédez comme suit pour désactiver les services orientés client :
- Identifiez les services ou protocoles orientés client qui s’exécutent sur votre cluster en exécutant les commandes suivantes pour chaque service orienté client :
isi services apache2 isi services isi_hdfs_d isi services isi_iscsi_d isi services ndmpd isi services nfs isi services smb isi services vsftpd
- B. Documentez les services qui sont « activés » sur votre cluster en fonction du résultat de chaque commande. Sélectionné dans l’exemple ci-dessous, le service SMB est activé tandis que le service NFS est désactivé :
mycluster-4# isi services smb Service 'smb' is enabled. mycluster-4# isi services nfs Service 'nfs' is disabled. mycluster-4#
- Désactivez les services orientés client. À l’issue de cette étape, tous les clients perdent immédiatement la connexion au cluster. Pour désactiver un service, exécutez la commande suivante liée au service que vous avez activé.
isi services apache2 disable isi services isi_hdfs_d disable isi services isi_iscsi_d disable isi services ndmpd disable isi services nfs disable isi services smb disable isi services vsftpd disable
Si vous disposez de clients iSCSI, assurez-vous que les clients iSCSI ont démonté leurs LUN avant d’effectuer l’étape 2. Exécutez la commande isi iscsi list pour confirmer que tous les clients iSCSI sont déconnectés du cluster.
Remarque : Si vous désactivez le service iSCSI, assurez-vous d’avoir arrêté tous les clients iSCSI avant de lancer la commande.
isi_iscsi_d disable . L’interruption d’une LUN iSCSI montée peut endommager le client, ce qui nécessite généralement une restauration à partir d’une sauvegarde.
- Transférez les écritures de données stockées dans les journaux de nœuds vers le système de fichiers en exécutant la commande
isi_for_array isi_flush. Un résultat similaire à celui qui suit apparaît sur chaque nœud :
Notez que lors de l’exécution de isi_flush il ne s’arrêtera PAS tant que le vidage n’est pas terminé sur un nœud, ou que le nœud n’est pas hors tension ou en panique. Vous ne pouvez pas utiliser Ctrl+c pour sortir de la chasse en cas de problème.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... mycluster-1: Cache flushing complete.
mycluster-4# isi_for_array isi_flush mycluster-1: Flushing cache... vinvalbuf: flush failed, 1 clean and 0 dirty bufs remaining mycluster-2: Flushing cache... fsync: giving up on dirty
Exécutez la commande isi_for_array isi_flush à nouveau. En cas de problème lors du vidage d’un nœud, veuillez contacter le support technique Dell Isilon. Tous les nœuds doivent être vidés avec succès avant de passer à l’étape suivante.
- Arrêtez chaque nœud du cluster de manière séquentielle et surveillez la sortie. Cette approche est recommandée, car elle vous permet d’identifier et de résoudre les problèmes avant d’arrêter le nœud suivant du cluster. Arrêtez chaque nœud en procédant comme suit :
Attention : N’exécutez PAS la commande
isi_for_array shutdown -p pour arrêter le cluster.
- Raccordez une console série à chaque nœud.
- Exécutez la commande suivante :
isi config shutdown
Powering the system off using ACPI
- C. Visionnez la console et recherchez les événements de défaillance liés au matériel. Les sauvegardes réussies du journal de nœuds sont sélectionnées dans les variations de sortie suivantes :
2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Attempting to save journal to default location 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: Saving journal to /var/journal/journal.gz 2014-03-22T00:35:19Z <1.5> mycluster-3(id11) isi_save_journal[44868]: All data saved successfully 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: Attempting to save journal to default location 2014-03-22T00:37:29Z <1.5> mycluster-3(id11) isi_save_journal[45074]: A valid backup journal already exists. Not saving. An example of a node journal save failure is highlighted in the output below: 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: ERROR: Validation failed for backup journal. Shutdown aborted 2014-03-21T23:39:09Z <1.4> mycluster-3(id11) /sbin/shutdown: Failed command output:
Si vous recevez une erreur indiquant que le journal du nœud n’a pas été enregistré, vous pouvez enregistrer manuellement le journal en effectuant les étapes de la phase 3.
Arrêtez tous les nœuds du cluster en même temps.
En cas d’urgence, vous pouvez arrêter simultanément tous les nœuds du cluster. Toutefois, cette méthode n’est pas recommandée, car elle ne vous permet pas de surveiller l’état et la sortie de chaque nœud en cas de problème. Si vous choisissez de suivre ces étapes, Dell vous recommande vivement de suivre toutes les étapes de la phase 3 pour vérifier que tous les nœuds se sont correctement arrêtés après avoir effectué les procédures ci-dessous.
Avertissement : Si vous retirez une source d’alimentation d’un nœud qui n’a pas vidé les données de son journal vers le système de fichiers, le risque de perte de données augmente considérablement. Si vous avez besoin d’aide pour la procédure d’arrêt, contactez le support technique Dell Isilon.
# isi config shutdown all
isi_for_array shutdown -p Pour arrêter votre cluster à partir de l’interface d’administration Web OneFS, dans OneFS 8.0 et versions ultérieures.
Phase 3 : Assurez-vous que les nœuds ont été arrêtés avec succès.
Vérifiez que les nœuds ont été correctement mis hors tension en regardant le voyant lumineux à l’arrière de chaque nœud. Toutes les LED d’indicateur de puissance doivent apparaître sombres, voire éteintes. Cela indique que le nœud s’est arrêté avec succès.
Si le voyant d’alimentation à l’arrière du nœud est toujours allumé, cela signifie que le nœud ne s’est pas arrêté. Si le nœud ne s’est pas arrêté ou si vous recevez une sortie de la console indiquant que le journal du nœud n’a pas été enregistré correctement (à partir de la phase 2, étape 3C), vous devez enregistrer manuellement le journal pour vous assurer que les données sont validées sur le disque avant d’arrêter le nœud.
- Pour enregistrer manuellement le journal et arrêter le nœud, procédez comme suit :
- Si le nœud répond à l’interface de ligne de commande, redémarrez le nœud en exécutant la commande suivante :
# isi config reboot
- Si le nœud ne répond pas à l’interface de ligne de commande, redémarrez manuellement le nœud en appuyant sur le bouton d’alimentation situé à l’arrière du nœud et en le maintenant enfoncé. Cela entraîne la mise hors tension du nœud. Attendez 30 s, puis appuyez une fois sur le bouton d’alimentation pour redémarrer la sauvegarde du nœud. Passez à l’étape suivante.
- Après le redémarrage du nœud, reconnectez-vous et suivez les étapes suivantes pour enregistrer le journal :
- Essayez à nouveau d’arrêter correctement le nœud en exécutant la commande suivante :
# isi config shutdown
- Si la sortie indique toujours que le journal n’a pas été enregistré, enregistrez manuellement le journal en exécutant la commande suivante :
# isi_save_journal
- Si le journal n’est toujours pas enregistré, démontez le système de fichiers /ifs, puis forcez l’enregistrement du journal en exécutant les commandes suivantes :
# isi_kill_busy && umount /ifs
- Vérifiez que le journal est enregistré en exécutant la commande isi_checkjournal.
# isi_checkjournal
- Ne passez pas à l’étape suivante tant que la sortie n’indique pas que le journal a été enregistré avec succès.
Contactez le support technique Dell si besoin.
Phase 4 : Débranchez la source d’alimentation.
Après l’arrêt réussi du cluster et la mise hors tension des nœuds, la source d’alimentation peut être déconnectée du cluster.
Batteries NVRAM
Lorsqu’un client écrit un fichier sur un nœud, les écritures sont d’abord stockées dans la RAM non volatile (NVRAM) hébergée sur la carte journal du nœud. Plus tard, OneFS valide ces écritures sur le disque. Pour protéger les données stockées dans la NVRAM en cas de panne de courant non planifiée, chaque nœud est équipé de batteries NVRAM (deux pour la redondance). Un nœud qui est hors tension mais reste connecté à une source d’alimentation continue d’actualiser ses batteries NVRAM. Lorsque la source d’alimentation est déconnectée du nœud, les batteries NVRAM commencent à se décharger. L’autonomie de la batterie de la génération actuelle de nœuds (X200, S200, X400 et NL400) est d’environ cinq jours. Dans la génération précédente de nœuds, l’autonomie de la batterie NVRAM est d’environ trois jours.
Dell Technologies recommande d’éteindre correctement les nœuds pour éviter de devoir compter sur les batteries NVRAM pendant une longue durée en cas de panne de courant.
Si les batteries NVRAM d’un nœud se déchargent complètement, le nœud démarre en mode lecture seule et reste en mode lecture seule pendant environ 30 minutes jusqu’à ce que les batteries NVRAM se chargent complètement. Lorsque les batteries sont rechargées, le nœud revient automatiquement au mode de lecture/écriture normal.
Phase 5 : Mettez sous tension chaque nœud du cluster.
Ces étapes doivent être effectuées lorsque vous êtes prêt à redémarrer votre cluster Isilon.
- Restaurez la source d’alimentation de chaque nœud.
- Appuyez sur le bouton d’alimentation situé sur le panneau avant ou à l’arrière de chaque nœud pour les démarrer.
- Après la mise sous tension de tous les nœuds, exécutez la commande
isi status -qpour vérifier l’intégrité de votre cluster. Vérifiez que tous les nœuds sont OK dans la colonne Health DASR et qu’ils ne sont pas en mode lecture seule (R) avant de continuer. Pour un cluster sain, une sortie similaire à ce qui suit doit s’afficher :
Cluster Name: mycluster Cluster Health: [ OK ] Cluster Storage: HDD SSD Size: 11G (23G Raw) 0 (0 Raw) VHS Size: 11G Used: 7.9G (69%) 0 (n/a) Avail: 3.5G (31%) 0 (n/a) Health Throughput (bps) HDD Storage SSD Storage ID |IP Address |DASR | In Out Total| Used / Size |Used / Size -------------------+-----+-----+-----+-----+-----------------+----------------- 1|10.1.16.141 |-OK- | 0| 150K| 150K| 2.0G/ 2.8G( 69%)| (No SSDs) 2|10.1.16.142 |-OK- | 98K| 13K| 112K| 2.0G/ 2.8G( 69%)| (No SSDs) 3|10.1.16.143 |-OK- | 0| 44K| 44K| 2.0G/ 2.8G( 69%)| (No SSDs) 4|10.1.16.144 |-OK- | 0| 512| 512| 2.0G/ 2.8G( 69%)| (No SSDs) -------------------+-----+-----+-----+-----+-----------------+----------------- Cluster Totals: | 98K| 208K| 306K| 7.9G/ 11G( 69%)| (No SSDs) Health Fields: D = Down, A = Attention, S = Smartfailed, R = Read-Only
- Consultez la liste des services activés qui a été générée lors de la phase 2, étape 1b et activez les services qui avaient été désactivés en exécutant l’une ou plusieurs des commandes suivantes :
isi services apache2 enable isi services isi_hdfs_d enable isi services isi_iscsi_d enable isi services ndmpd enable isi services nfs enable isi services smb enable isi services vsftpd enable
- Assurez-vous que vos clients peuvent se connecter au cluster et exécuter leurs workflows habituels. Votre cluster devrait fonctionner normalement.
- Mettez en placeune collecte de journaux complète :
# isi_gather_info --esrs
- Effectuez ou demandez un contrôle d’intégrité Isilon par l’équipe du support réactif (support client).
Étapes d’exécution des contrôles d’intégrité.
PowerScale : Exécution de l’outil Isilon On-Cluster Analysis.
- Demandez un contrôle d’intégrité auprès de l’équipe du support réactif
Tous les clients disposant d’un contrat de maintenance valide pour des clusters sur des versions de code prises en charge peuvent en bénéficier.
Si vous répondez à ces exigences, ouvrez une demande de service (SR) sur le site de support en ligne Dell pour demander un « bilan de santé Isilon ».
*Le contrôle d’intégrité n’est pas destiné à résoudre les problèmes de cluster ou à évaluer la configuration, les performances ou le workflow du cluster.