ECS : OBS : xDoctor : RAP095 : Code symptôme : 2060 Detected TCP-InCsumErrors count exceeds

Résumé: xDoctor a détecté que le nombre d’erreurs TCP a dépassé le seuil configuré.

Cet article concerne Cet article ne concerne pas Cet article n’est associé à aucun produit spécifique. Toutes les versions du produit ne sont pas identifiées dans cet article.

Symptômes

Le nombre d’erreurs TCP InCsumErrors (erreurs de somme de contrôle entrantes) a dépassé 20 000 sur le nœud identifié dans l’alerte.

xDoctor a détecté que le nombre d’InCsumErrors TCP a dépassé le seuil configuré. Cela indique que le nœud signalé est endommagé par Ethernet. Le seuil par défaut de xDoctor pour cette vérification est de 20 000.

xDoctor ERROR Example :
Timestamp    = 2019-09-17_213225
    Category = OS
    Source   = SOFTWARE
    Severity = ERROR
    Node     = 169.254.6.1
    Message  = Detected TCP InCsumErrors count exceeds threshold
    Extra    = {'169.254.6.6': '200000', '169.254.6.3': '100000'}
    RAP      = RAP095
    Solution = 537292 

Cause

Cela est souvent lié à la défaillance d’un composant matériel ou à une interruption du réseau dans la pile TCP pour augmenter l’incohérence CRC sur les nœuds ECS.

Résolution

IMPORTANT ! Une nouvelle fonctionnalité a été publiée dans xDoctor 4-8.106.0 et versions ultérieures. Cette base de connaissances (KB) est désormais automatisée avec xDoctor pour tenter rapidement de découvrir la cause potentielle des erreurs xDoctor RAP095. Si le script ne parvient pas à corriger les erreurs xDoctor RAP095, il fournit un récapitulatif détaillé de ses conclusions.

Pour plus d’informations, consultez la section ECS : ObjectScale : Exécution de scripts d’automatisation de la base de connaissances (pilote automatique)

Solution automatisée : 
Pour trouver le nœud maître du rack :
Commande :

ssh master.rack

Il s’agit d’un script à l’échelle du VDC. Par conséquent, la cible doit être le nom du VDC local. La topologie xDoctor a le nom du VDC à utiliser comme cible lors de l’exécution du script. 

Commande : 

# sudo xdoctor --top --vdc

Exemple : 

admin@ecsnode1:~> sudo xdoctor --top --vdc
 
ECS
|
|- CLOUD - ID:[21a7111a45e4a9dbca00000000000000]
   |
   |- Local VDC - ID:[8af5b9c3-9c0c-43b5-9402-000000000000] Name:[VDC1]
   |- Local SP  - ID:[52576f30-f8f3-493a-9999-000000000000] Name:[SP1]
   |  |
   |  |- Local RACK - Name:[red] Primary:[169.254.1.1] PSNT:[CKM00000000000] SWID:[CKM00000000000]
   |  |  |
   |  |  |- Node  1, [   provo], NAN.IP:[    169.254.1.1], Public.IP:[   10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd]
   |  |  |- Node  2, [   sandy], NAN.IP:[    169.254.1.2], Public.IP:[   10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd]
   |  |  |- Node  3, [    orem], NAN.IP:[    169.254.1.3], Public.IP:[   10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd]
   |  |  |- Node  4, [   ogden], NAN.IP:[    169.254.1.4], Public.IP:[   10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd]
   |  |  |- Node  5, [  layton], NAN.IP:[    169.254.1.5], Public.IP:[   10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd]
   |  |  |- Node  6, [   logan], NAN.IP:[    169.254.1.6], Public.IP:[   10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd]
   |  |  |- Node  7, [    lehi], NAN.IP:[    169.254.1.7], Public.IP:[   10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd]
   |  |  |- Node  8, [  murray], NAN.IP:[    169.254.1.8], Public.IP:[   10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd]

 

  1. Exécutez la commande d’automatisation à partir du nœud maître avec xDoctor 4-8.106.0 et versions ultérieures.  

 

Remarque : uniquement --target-node est pris en charge pour cette action.

 

Ce script a été incorporé dans la version xDoctor4/8/106.0 qui comporte la version 3.2 des scripts d’automatisation Ansible.

#sudo xdoctor autopilot --kb 48156 --target-node 169.254.1.x

Example:
Using /etc/ansible/ansible.cfg as config file
VERSION: 3.2.1
┌─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ Starting Automation: 48156
├─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
[WARNING]: Found variable using reserved name: run_once
┌─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 2025-09-29 08:31:50 TASK OK: hw_check role
│ 2025-09-29 08:31:50 [169.254.1.3] => OK
└─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
┌─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 2025-09-29 08:31:50 TASK OK: Set configuration file variables
│ 2025-09-29 08:31:50 [169.254.1.3] => OK

 

  1. Récapitulatif :
Exemple : Un problème actif a été détecté, indiquant que les erreurs s’incrémentent.
─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 2025-09-29 09:35:49 TASK OK: Print consolidated summary
│ 2025-09-29 09:35:49 [169.254.1.7] => OK
│ ************************************************
│ RAP095 Diagnostic Summary:
│ ************************************************
│ Issue Status:  FAIL: RAP095 Issue ACTIVE - InCsumErrors still incrementing — ongoing network or maintenance activity may be causing errors. Please investigate.
│ Initial InCsumErrors Count: 65183
│ Recheck After 5 Minutes: Incrementing
│ Threshold: 20000
│ ************************************************
└─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────

┌─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ NODE AUTOMATION SUMMARY:
├─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ HOST                   ok    changed   unreachable   failed   skipped   rescued   ignored
├─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 169.254.1.7            33          2             0        0        30         0         0
├─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ Status: PASS
│ Time Elapsed: 0h 0m 5s
│ Debug log: /tmp/autopilot/log/autopilot_48156_20250929_093541.log
│ Message:  Issue is active - ongoing network or maintenance related TCP InCsumErrors detected.
└────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
Exemple : Problème historique détecté avec des erreurs qui ne s’incrémentent pas. Seuil augmenté pour éviter les notifications xDoctor futures.
─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 2025-09-29 08:36:56 TASK OK: Print consolidated summary
│ 2025-09-29 08:36:56 [169.254.1.3] => OK
│ ************************************************
│ RAP095 Diagnostic Summary:
│ ************************************************
│ Issue Status:  PASS: RAP095 historical issue - InCsumErrors stable — historical issue. Threshold increased by 20,000 and /usr/local/xdoctor/config/pacemaker/bit_flip_check.conf updated.
│ Initial InCsumErrors Count: 4358017
│ Recheck After 5 Minutes: Not required (<20k)
│ Threshold: 20000
│ ************************************************
└─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────

┌─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ NODE AUTOMATION SUMMARY:
├─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ HOST                   ok    changed   unreachable   failed   skipped   rescued   ignored
├─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 169.254.1.3            34          3             0        0        29         0         0
├─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ Status: PASS
│ Time Elapsed: 0h 5m 6s
│ Debug log: /tmp/autopilot/log/autopilot_48156_20250929_083136.log
│ Message:  Issue is historical - threshold increased to avoid false alerts.

Exemple : Aucun problème trouvé

─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 2025-09-29 08:38:42 TASK OK: Print consolidated summary
│ 2025-09-29 08:38:42 [169.254.1.8] => OK
│ ************************************************
│ RAP095 Diagnostic Summary:
│ ************************************************
│ Issue Status:  PASS: No RAP095 issue detected.
│ Initial InCsumErrors Count: 0
│ Recheck After 5 Minutes: Not required (<20k)
│ Threshold: 20000
│ ************************************************
└─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────

┌─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ NODE AUTOMATION SUMMARY:
├─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ HOST                   ok    changed   unreachable   failed   skipped   rescued   ignored
├─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ 169.254.1.8            28          1             0        0        35         0         0
├─────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
│ Status: PASS
│ Time Elapsed: 0h 0m 5s
│ Debug log: /tmp/autopilot/log/autopilot_48156_20250929_083835.log
│ Message:  No RAP095 issue detected - InCsumErrors below threshold.

    Informations supplémentaires

    Contactez le support technique Dell et établissez un devis pour cet article de la base de connaissances si aucune des solutions de contournement proposées ne s’applique à votre cas d’utilisation spécifique. 
    Rassemblez et joignez l’archive de rapports xDoctor.
     

    Remarque : Cet article est enrichi de nouvelles solutions de contournement lorsque de nouveaux cas d’utilisation sont identifiés.

     

    Produits concernés

    Elastic Cloud Storage

    Produits

    ECS Appliance, ECS Appliance Hardware Series, Elastic Cloud Storage
    Propriétés de l’article
    Numéro d’article: 000048156
    Type d’article: Solution
    Dernière modification: 15 juin 2026
    Version:  6
    Trouvez des réponses à vos questions auprès d’autres utilisateurs Dell
    Services de support
    Vérifiez si votre appareil est couvert par les services de support.