PowerStore : la collecte de données échoue et l'interface utilisateur de PowerStore Manager signale des informations anormales

Summary: L’interface utilisateur de PowerStore Manager signale des valeurs incorrectes, des erreurs ou l’échec de tâches. Les ressources de support ou les collectes de données (DC) de support ne parviennent pas à s'exécuter ou restent bloquées à l'état d'exécution. ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Les symptômes sont les suivants :

  • Les documents de support ou les collectes de données (DC) de support ne s’exécutent pas ou restent bloqués dans l’interface utilisateur de PowerStore Manager. L’exécution des collectes de données sur l’interface de ligne de commande (svc_dc run) échoue avec le message suivant : 
    • FAILURE, Running too long
    • Timed out receiving service data bundle command response from container
  • Les volumes affichent une capacité de 0 Go.  
  • Impossible de créer ou de supprimer des objets (tels que des volumes, etc.).  
  • Les volumes ne peuvent pas être étendus : erreur 0xE0A080030019.
  • Les politiques de protection ne fonctionnent plus (les nouveaux snapshots ne sont pas créés et les anciens n'expirent pas), et la vérification de la réplication échoue.
  • Impossible d’afficher ou de modifier l’état SSH. Error: There was an error retrieving this information. Unknown property is_ssh_enabled requested. (0xE04040020002)
  • Erreurs de connexion au domaine LDAP
  • Alertes de partition racine saturée ou à court d’espace. Les fichiers DC temporaires ne sont pas nettoyés à partir de /cyc_var/cyc_service/tmp sur le nœud secondaire, ce qui peut entraîner la saturation de la partition racine. Le système génère des avertissements : Root partition usage of node X has exceeded Y% (codes: 0x00400601 or 0x00400602)
  • Dans certains cas extrêmes où aucune action n'est effectuée rapidement pour résoudre les problèmes d'espace de la partition racine, le nœud secondaire peut passer en mode de service.
  • Surveillance > des vérifications > du système L’exécution de la vérification du système échoue avec l’échec de la commande Fireman. (0xE0F010200004)



Exemple de problème de collecte de données observé sur PowerStore Manager :

image.png


Exemple d'échec de vérification du système observé dans PowerStore Manager :

image.png


 

Cause

La perte de nombreuses sessions de connexion système entraîne une fuite de mémoire au niveau du conteneur de service. Le service fireman du conteneur de service s'arrête lors de la collecte de données en raison d'un problème de mémoire insuffisante.

Le service fireman reste inactif si le système ne détecte pas sa défaillance après l'arrêt du service fireman.

Resolution

Correction

Le correctif permettant d'éviter ce problème se trouve dans PowerStoreOS 2.1.1.0-1649887. Il est recommandé d'effectuer une mise à niveau.

Ce correctif est répertorié dans les notes de mise à jour de PowerStoreOS version 2.1.1.0, révision A03 ou ultérieure :
ID du problème Zone fonctionnelle Description
MDT-361718  PowerStore Manager (interface utilisateur graphique) En raison d'un problème lié aux ressources de chemin de contrôle ou de gestion, une dégradation des interfaces utilisateur du système PowerStore peut se produire au fil du temps. Cette dégradation peut ralentir la réponse ou empêcher PowerStore Manager (interface utilisateur) de collecter des données.

Solution


Remarque : Cette solution de contournement s’applique uniquement aux modèles PowerStore T. PowerStore X a plus d’exigences et d’étapes qui doivent être effectuées avant de redémarrer des services.

Si le problème est déjà présent, contactez le support technique Dell ou votre représentant de service agréé en leur communiquant cet ID d’article de la base de connaissances avant d’essayer d’effectuer la mise à niveau.

Afin de résoudre ce problème lorsqu’il est déjà présent, deux services doivent être redémarrés.
  • Conteneur de service sur le nœud concerné.
    • Le redémarrage du conteneur de service prend environ 10 minutes.
    • Aucun impact sur le système, hormis une brève perte d’accès au conteneur de service (SSH ou CLI) du nœud concerné.
  • Chemin de contrôle (CP) ou services de gestion.
    • Le redémarrage prend environ cinq minutes.
    • Aucun impact sur le système, hormis une brève perte d’accès à l’interface utilisateur de PowerStore Manager.

Au bout de quelques minutes, l’espace sur la partition racine du nœud secondaire redescend à des niveaux normaux.

Si la partition /cyc_cfs est supérieure à 85 %, supprimez les anciens contrôleurs de domaine de l’interface utilisateur de PowerStore Manager.

Vous pouvez voir certaines alertes après le redémarrage des services, telles que :
  • Alertes de connectivité SupportAssist.
  • Alertes de non-respect du RPO de réplication.
  • Alertes de suppression automatique des snapshots.
Toutes ces alertes doivent s'effacer automatiquement après le plan d'action. Laissez suffisamment de temps, car certains devront peut-être attendre le prochain cycle RPO (réplication) ou la planification de snapshots pour se déclencher.

Additional Information

Identification du problème

Vérifiez s’il y a eu un nombre important de pertes de sessions de connexion (il y a un problème si le nombre est supérieur à 5 000) :
[SVC:service@xxxxxxx-A ~]$ ll /run/systemd/system/ | wc -l  
23251


La collecte de données échoue avec l'erreur FAILURE, Running too long :
[SVC:service@xxxxxxx-A user]$ svc_dc list e62c17be-7716-49ef-a0b0-7365db383e6e
start_timestamp            2022-01-19 04:42:46
end_timestamp              2022-01-19 04:59:46
status                     FAILURE
status_message             FAILURE, Running too long.
state                      OFFLINE
description
profiles                   Essential
creator_type               Manual
compressed_size
uncompressed_size
uploaded                   Never
downloaded                 Never
id                         e62c17be-7716-49ef-a0b0-7365db383e6e


Si le processus fireman n’existe plus sur le nœud principal, la collecte de données échoue avec l’erreur « Time out receiving service data bundle command response from container » :
[SVC:service@xxxxxxx-B user]$ svc_dc list 7ad948cb-5029-422f-b4dc-5bf2f9abf512
start_timestamp            2021-10-21 06:03:11
end_timestamp              2021-10-21 06:03:11
status                     FAILURE
status_message             Timed out receiving service data bundle command response from container  
state                      OFFLINE
description                2021-10-21 Daily Data Collection
profiles                   Essential
creator_type               Scheduled
compressed_size
uncompressed_size
uploaded                   Never
downloaded                 Never
id                         7ad948cb-5029-422f-b4dc-5bf2f9abf512

Affected Products

PowerStore

Products

Storage, Entry Level & Midrange, PowerStore, PowerStore 1000X, PowerStore 1000T, PowerStore 3000X, PowerStore 3000T, PowerStore 5000X, PowerStore 5000T, PowerStore 500T, PowerStore 7000X, PowerStore 7000T, PowerStore 9000X, PowerStore 9000T
Article Properties
Article Number: 000193605
Article Type: Solution
Last Modified: 29 May 2024
Version:  21
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.