ECS : Le conteneur est définitivement arrêté sur le nœud : Code symptôme : 2021

Summary: Cet article de la base de connaissances explique pourquoi ECS a signalé qu’un conteneur est définitivement arrêté sur un nœud.

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

Le système a effectué un appel à distance avec l’alerte suivante :
Clarify Id: APMxxxxxxxx
Site Name: UNKNOWN
Vendor: EMC
DeviceType: ElasticCloudStorageApp
Model: ElasticCloudStorage
SerialNumber: APMxxxxxxxx
WWN: APMxxxxxxxx
Platform: platform
OS: SLES
OS_VER: 12.4
EmbedLevel: 2
InternalMaxSize: 512800
Comment: Fabric
Ucode_Ver: 3.7.0.6-7700.ed29023b
ConnectType: ESRS
IP_Address: Not Available
IP_Name: hostname.domainname.net
ConnectNum: 169.254.1.1
Port: 22

SymptomCode: 2021
Category: Status
Severity: Critical
Status: Failed
Component: Node
ComponentID: xxxxxxx-xxxx-xxxx-xxxx-xxxxxxxx
SubComponent: Service
SubComponentID: <docker container name>
CallHome: true
FirstTime: 2023-12-09T07:48:20.232Z
Description: Container <container> is permanently down on node <node>

Cause

Le conteneur s’est arrêté, s’est interrompu ou n’a pas démarré du tout pendant au moins 10 minutes.

Resolution

Les conteneurs Docker (object-main, fabric-lifecycle, fabric-zookeeper, fabric-registry) se sont arrêtés ou ont été interrompus ou n’ont pas démarré du tout pendant au moins 10 minutes. Utilisez la procédure suivante pour déterminer le conteneur défectueux :
  1. En fonction de l’ID de composant ou de l’ID de nœud, déterminez le nœud du cluster ECS qui a enregistré la défaillance. Exemple : ID de composant
4ca42022-46ed-475e-8ab7-6ef9141e5415
sudo /opt/emc/caspian/fabric/cli/bin/fcli lifecycle node.network --id 4ca42022-46ed-475e-8ab7-6ef9141e5415
{
  "network": {
    "hostname": "hostname.domainname.net",  << Hostname
    "private_ip": "169.254.1.3",       << NAN IP
    "mgmt_ip": "10.2.3.4",     << Management IP 
    "public_ip": "10.241.207.59",
    "data_ip": "10.241.207.73",
    "replication_ip": "10.241.207.59",
    "public_interface_name": "public",
    "private_interface_name": "private.4",
    "mgmt_interface_name": "public",
    "data_interface_name": "public:data",
    "replication_interface_name": "public"
  },
  "status": "OK",
  "etag": 50
}
  1.  Connectez-vous en SSH au nœud cible à l’aide de l’adresse IP de gestion, de l’adresse IP privée ou du nom d’hôte.
 
  1. Vérifiez que le serveur Docker est opérationnel avec les paramètres appropriés
# ps -ef | grep docker
root      50062      1  0 Jun02 ?        00:02:11 /usr/bin/docker daemon -H fd:// --insecure-registry=0.0.0.0/0 --log-level=warn
  1. Ensuite, nous devons valider quel conteneur (colonne NAMES) a été arrêté ou n’a pas démarré du tout pour une raison quelconque (consultez la colonne STATUS) :
# sudo docker ps -a
CONTAINER ID        IMAGE               COMMAND                  CREATED                STATUS              PORTS               NAMES
7bf16df0ef15        464b97154c24        "/opt/vipr/boot/boot."   3 days ago          Up 3 days                                    object-main
0ef5cc422543        24d9d6008893        "./boot.sh lifecycle"    3 days ago          Up 3 days                                    fabric-lifecycle
87d6c77d98ca        32cce433c3dc        "./boot.sh 3 1=169.25"   3 days ago          Up 3 days                                    fabric-zookeeper
  1. Vérifiez que le service de structure est en cours d’exécution. L’agent de fabric tente de réactiver automatiquement le conteneur problématique
# sudo service fabric-agent status
fabric-agent.service - fabric agent
   Loaded: loaded (/usr/lib/systemd/system/fabric-agent.service; enabled)
   Active: active (running) since Thu 2016-06-02 17:56:39 UTC; 3 days ago
  Process: 50643 ExecStartPre=/bin/rm -f /var/run/fabric-agent.pid (code=exited, status=0/SUCCESS)
 Main PID: 50645 (java)
   CGroup: /system.slice/fabric-agent.service
  1. Afficher l’état du conteneur arrêté/défaillant 
# sudo docker inspect fabric-zookeeper | grep -A12 State
    "State": {
        "Status": "running",
        "Running": true,
        "Paused": false,
        "Restarting": false,
        "OOMKilled": false,
        "Dead": false,
        "Pid": 80462,
        "ExitCode": 0,
        "Error": "",
        "StartedAt": "2016-06-06T17:29:12.968133861Z",
        "FinishedAt": "2016-06-06T17:29:12.882812946Z"
    },
 
Si vous n’êtes toujours pas certains de l’existence d’un problème, contactez le support technique ECS pour obtenir de l’aide.

Affected Products

ECS Appliance Software without Encryption

Products

ECS Appliance, ECS Appliance Software with Encryption, ECS Appliance Software without Encryption
Article Properties
Article Number: 000064491
Article Type: Solution
Last Modified: 17 Dec 2025
Version:  6
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.