Isilon : Comment déterminer si un cluster Isilon se trouve dans une fenêtre de risque de perte de données
Summary: Comment déterminer si un cluster Isilon se trouve dans une fenêtre de risque de perte de données.
Symptoms
Introduction
Une fenêtre de risque (WOR) se produit lorsque suffisamment d’appareils d’un cluster ou d’un pool de nœuds ou de disques sont défaillants pour que le niveau de protection soit atteint. Cette condition est également connue sous le nom de « protection » ou de « surprotection ». Lorsqu’un cluster ou un pool se trouve dans un WOR, aucune perte de données n’a encore eu lieu. Toutefois, si d’autres appareils tombent en panne, une perte de données peut se produire. La perte de données dépend de différents facteurs. Ces facteurs comprennent ; d’autres appareils échouent avant que FlexProtect puisse s’exécuter, ou si les appareils défaillants sont la seule source des données en question.
Cet article décrit le fonctionnement des niveaux de protection sur le cluster et la façon dont vous pouvez savoir si votre cluster est en WOR pour perte de données.
Aux fins du calcul du DOR, « en échec » désigne les appareils qui sont dans un état « hors service » ou « inactif ». Les appareils soft_failed ne sont pas comptabilisés dans les niveaux de protection. Reportez-vous à la section « Procédure » ci-dessous pour savoir comment déterminer le nombre de périphériques « en panne » ou « inactifs ».
NOTE
La condition dans laquelle le nombre d’appareils qui tombe en panne dépasse le nombre spécifié comme niveau de protection est appelée « surprotection ». Dans cet état, le cluster ou le pool de nœuds/disques ne peut plus recréer toutes les données qui y sont stockées.
Détails
OneFS utilise un modèle de protection des données N+M. Dans la notation N+M, N représente le nombre de nœuds. Le M représente le nombre simultané de nœuds, de lecteurs ou de pools de nœuds/pools de disques que le cluster peut gérer sans perdre de données. Par exemple, avec la protection N+2, le cluster ou le pool peut perdre deux disques sur des nœuds différents, ou perdre deux nœuds au total.
OneFS 6.5 et les versions ultérieures prennent également en charge un modèle de protection N+M :B. Dans la notation N+M :B, N représente le nombre de nœuds. M représente le nombre de disques en panne ou en panne. Le B représente le nombre de nœuds en panne ou en échec que le cluster ou le pool de nœuds/pools de disques peut gérer sans perdre de données. Par exemple, avec une protection N+3:1, le cluster ou le pool peut perdre trois disques ou un nœud sans perdre de données.
Plusieurs disques en panne ou en panne au sein d’un seul nœud représentent toujours une défaillance d’un nœud unique (plutôt que plusieurs défaillances de disque) dans le calcul WOR. Voici quelques exemples utilisant un cluster à 8 nœuds avec une protection N+3:1 :
- Exemple 1 : Dans un seul cluster, trois disques tombent en panne, chacun dans un nœud différent. Cela place le cluster en WOR (« at protection »).
- Exemple 2 : Dans un seul cluster, deux disques au sein du même nœud sont défaillants. Étant donné que les disques se trouvent dans le même nœud, les défaillances sont comptabilisées comme une défaillance de nœud unique. Cette situation place également le cluster en WOR (« at protection »).
Pour plus d’informations sur les niveaux de protection des données et la façon dont ils sont calculés, consultez le Guide d’administration OneFS.
PRUDENCE!
Si vous pensez ou déterminez que votre cluster est à l’état WOR, contactez le support technique Dell pour obtenir de l’aide avant de prendre d’autres mesures.
IMPORTANT!
Un WOR peut se produire en cas de défaillance des disques ou des nœuds. Toutefois, Isilon Engineering vous conseille de conserver les disques ou les nœuds défaillants dans le cluster jusqu’à ce que l’opération FlexProtect soit terminée avec succès. Bien qu’un appareil soit en panne, certains ou tous les blocs de données peuvent encore être lisibles. Le fait de laisser le disque ou le nœud joint au cluster offre une flexibilité si une tentative de récupération des données à partir de l’appareil en échec s’avère nécessaire.
Cause
Pour déterminer si le cluster ou le pool de nœuds/disques se trouve actuellement dans un WOR, commencez par déterminer le niveau de protection configuré sur le cluster ou le pool. Ensuite, déterminez le nombre de nœuds et de disques défaillants. Aux fins du calcul du DOR, « en échec » désigne les appareils qui sont dans un état « hors service » ou « inactif ». Suivez les instructions de la section appropriée qui suit.
Resolution
Procédure
OneFS 7.2, 8.0, 9.0 et versions ultérieures
- Dans l’interface d’administration Web OneFS, accédez à File System > Storage Pools > SmartPools.
- Obtenez le niveau de protection actuel à partir du tableau Niveaux et pools de nœuds , dans la colonne Requested Protection .
- Ouvrez une connexion SSH au nœud et connectez-vous à l’aide du compte « root ».
- Déterminez le nombre de périphériques « en panne » ou « inactifs » en exécutant la commande suivante :
isi_group_info Le résultat ressemble à ce qui suit. Si des appareils sont arrêtés ou inactifs, ils sont indiqués comme étant « en panne » ou « inactifs » dans la sortie.
Exemple de nœud en panne : efs.gmp.group : { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, vers le bas : 6 }
Exemple de disque en panne : efs.gmp.group : { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, vers le bas : 2:10, 4:11, soft_failed : 2:10, 4:11 }
Example of a dead drive : efs.gmp.group : { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morts : 2:10 }
OneFS 7.1
- Dans l’interface d’administration Web OneFS, accédez à File System Management > Storage Pools > SmartPools.
- Procurez-vous le niveau de protection actuel à partir du tableau Node Pools , dans la colonne Requested Protection .
- Ouvrez une connexion SSH au nœud et connectez-vous à l’aide du compte « root ».
- Déterminez le nombre de périphériques « en panne » ou « inactifs » en exécutant la commande suivante :
isi_group_info Le résultat ressemble à ce qui suit. Si des appareils sont arrêtés ou inactifs, ils sont indiqués comme étant « en panne » ou « inactifs » dans la sortie.
Exemple de nœud en panne : efs.gmp.group : { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, vers le bas : 6 }
Exemple de disque en panne : efs.gmp.group : { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, vers le bas : 2:10, 4:11, soft_failed : 2:10, 4:11 }
Example of a dead drive : efs.gmp.group : { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morts : 2:10 }
Pour plus d’informations sur l’interprétation de la sortie, y compris sur la façon de comprendre si les périphériques en panne ou morts sont des disques ou des nœuds, reportez-vous à : Comprendre les modifications apportées aux groupes OneFS ou Interpréter les modifications apportées aux groupes.
OneFS 7.0
- Dans l’interface d’administration Web OneFS, accédez à File System Management > SmartPools > Summary.
- Procurez-vous le niveau de protection actuel à partir du tableau Niveaux et pools de nœuds , dans la colonne Protection .
- Ouvrez une connexion SSH au nœud et connectez-vous à l’aide du compte « root ».
- Déterminez le nombre de périphériques « en panne » ou « inactifs » en exécutant la commande suivante :
isi_group_info Le résultat ressemble à ce qui suit. Si des appareils sont arrêtés ou inactifs, ils sont indiqués comme étant « en panne » ou « inactifs » dans la sortie.
Exemple de nœud en panne : efs.gmp.group : { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, vers le bas : 6 }
Exemple de disque en panne : efs.gmp.group : { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, vers le bas : 2:10, 4:11, soft_failed : 2:10, 4:11 }
Example of a dead drive : efs.gmp.group : { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morts : 2:10 }
OneFS 6.5
- Dans l’interface d’administration Web OneFS, accédez à File System > SmartPools > Disk Pools.
- Procurez-vous le niveau de protection actuel dans la colonne Default Protection .
- Ouvrez une connexion SSH au nœud et connectez-vous à l’aide du compte « root ».
- Déterminez le nombre de périphériques « en panne » ou « inactifs » en exécutant la commande suivante :
isi_group_info Le résultat ressemble à ce qui suit. Si des appareils sont arrêtés ou inactifs, ils sont indiqués comme étant « en panne » ou « inactifs » dans la sortie.
Exemple de nœud en panne : efs.gmp.group : { 3-4:0-8, 5:0-6,8, 9:1-2,4-6,8, 12:0-11, vers le bas : 6 }
Exemple de disque en panne : efs.gmp.group : { 1:0-11, 2:0-9,11, 3:0-11, 4:0-10, 5:0-11, 6:0-11, vers le bas : 2:10, 4:11, soft_failed : 2:10, 4:11 }
Example of a dead drive : efs.gmp.group : { 1:0-11, 2:0-9,11, 3:0-11, 4:0-11, 5:0-11, 6:0-11, morts : 2:10 }