ECS : OBS : xDoctor : RAP095 : Code symptôme : 2060 Detected TCP-InCsumErrors count exceeds
Résumé: xDoctor a détecté que le nombre d’erreurs TCP a dépassé le seuil configuré.
Symptômes
xDoctor a détecté que le nombre d’InCsumErrors TCP a dépassé le seuil configuré. Cela indique que le nœud signalé est endommagé par Ethernet. Le seuil par défaut de xDoctor pour cette vérification est de 20 000.
xDoctor ERROR Example :
Timestamp = 2019-09-17_213225
Category = OS
Source = SOFTWARE
Severity = ERROR
Node = 169.254.6.1
Message = Detected TCP InCsumErrors count exceeds threshold
Extra = {'169.254.6.6': '200000', '169.254.6.3': '100000'}
RAP = RAP095
Solution = 537292 Cause
Cela est souvent lié à la défaillance d’un composant matériel ou à une interruption du réseau dans la pile TCP pour augmenter l’incohérence CRC sur les nœuds ECS.
Résolution
IMPORTANT ! Une nouvelle fonctionnalité a été publiée dans xDoctor 4-8.106.0 et versions ultérieures. Cette base de connaissances (KB) est désormais automatisée avec xDoctor pour tenter rapidement de découvrir la cause potentielle des erreurs xDoctor RAP095. Si le script ne parvient pas à corriger les erreurs xDoctor RAP095, il fournit un récapitulatif détaillé de ses conclusions.
Pour plus d’informations, consultez la section ECS : ObjectScale : Exécution de scripts d’automatisation de la base de connaissances (pilote automatique)
Solution automatisée :
Pour trouver le nœud maître du rack :
Commande :
ssh master.rack
Il s’agit d’un script à l’échelle du VDC. Par conséquent, la cible doit être le nom du VDC local. La topologie xDoctor a le nom du VDC à utiliser comme cible lors de l’exécution du script.
Commande :
# sudo xdoctor --top --vdc
Exemple :
admin@ecsnode1:~> sudo xdoctor --top --vdc ECS | |- CLOUD - ID:[21a7111a45e4a9dbca00000000000000] | |- Local VDC - ID:[8af5b9c3-9c0c-43b5-9402-000000000000] Name:[VDC1] |- Local SP - ID:[52576f30-f8f3-493a-9999-000000000000] Name:[SP1] | | | |- Local RACK - Name:[red] Primary:[169.254.1.1] PSNT:[CKM00000000000] SWID:[CKM00000000000] | | | | | |- Node 1, [ provo], NAN.IP:[ 169.254.1.1], Public.IP:[ 10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd] | | |- Node 2, [ sandy], NAN.IP:[ 169.254.1.2], Public.IP:[ 10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd] | | |- Node 3, [ orem], NAN.IP:[ 169.254.1.3], Public.IP:[ 10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd] | | |- Node 4, [ ogden], NAN.IP:[ 169.254.1.4], Public.IP:[ 10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd] | | |- Node 5, [ layton], NAN.IP:[ 169.254.1.5], Public.IP:[ 10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd] | | |- Node 6, [ logan], NAN.IP:[ 169.254.1.6], Public.IP:[ 10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd] | | |- Node 7, [ lehi], NAN.IP:[ 169.254.1.7], Public.IP:[ 10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd] | | |- Node 8, [ murray], NAN.IP:[ 169.254.1.8], Public.IP:[ 10.60.ccc.ddd], DNS:[10.174.ccc.ddd], NTP:[10.18.ccc.ddd , 10.174.ccc.ddd]
- Exécutez la commande d’automatisation à partir du nœud maître avec xDoctor 4-8.106.0 et versions ultérieures.
--target-node est pris en charge pour cette action.
Ce script a été incorporé dans la version xDoctor4/8/106.0 qui comporte la version 3.2 des scripts d’automatisation Ansible.
#sudo xdoctor autopilot --kb 48156 --target-node 169.254.1.x Example: Using /etc/ansible/ansible.cfg as config file VERSION: 3.2.1 ┌───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ Starting Automation: 48156 ├───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── [WARNING]: Found variable using reserved name: run_once ┌───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ 2025-09-29 08:31:50 TASK OK: hw_check role │ 2025-09-29 08:31:50 [169.254.1.3] => OK └───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── ┌───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ 2025-09-29 08:31:50 TASK OK: Set configuration file variables │ 2025-09-29 08:31:50 [169.254.1.3] => OK
- Récapitulatif :
───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ 2025-09-29 09:35:49 TASK OK: Print consolidated summary │ 2025-09-29 09:35:49 [169.254.1.7] => OK │ ************************************************ │ RAP095 Diagnostic Summary: │ ************************************************ │ Issue Status: FAIL: RAP095 Issue ACTIVE - InCsumErrors still incrementing — ongoing network or maintenance activity may be causing errors. Please investigate. │ Initial InCsumErrors Count: 65183 │ Recheck After 5 Minutes: Incrementing │ Threshold: 20000 │ ************************************************ └───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── ┌───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ NODE AUTOMATION SUMMARY: ├───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ HOST ok changed unreachable failed skipped rescued ignored ├───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ 169.254.1.7 33 2 0 0 30 0 0 ├───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ Status: PASS │ Time Elapsed: 0h 0m 5s │ Debug log: /tmp/autopilot/log/autopilot_48156_20250929_093541.log │ Message: Issue is active - ongoing network or maintenance related TCP InCsumErrors detected. └────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────
───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ 2025-09-29 08:36:56 TASK OK: Print consolidated summary │ 2025-09-29 08:36:56 [169.254.1.3] => OK │ ************************************************ │ RAP095 Diagnostic Summary: │ ************************************************ │ Issue Status: PASS: RAP095 historical issue - InCsumErrors stable — historical issue. Threshold increased by 20,000 and /usr/local/xdoctor/config/pacemaker/bit_flip_check.conf updated. │ Initial InCsumErrors Count: 4358017 │ Recheck After 5 Minutes: Not required (<20k) │ Threshold: 20000 │ ************************************************ └───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── ┌───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ NODE AUTOMATION SUMMARY: ├───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ HOST ok changed unreachable failed skipped rescued ignored ├───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ 169.254.1.3 34 3 0 0 29 0 0 ├───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ Status: PASS │ Time Elapsed: 0h 5m 6s │ Debug log: /tmp/autopilot/log/autopilot_48156_20250929_083136.log │ Message: Issue is historical - threshold increased to avoid false alerts.
Exemple : Aucun problème trouvé
───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ 2025-09-29 08:38:42 TASK OK: Print consolidated summary │ 2025-09-29 08:38:42 [169.254.1.8] => OK │ ************************************************ │ RAP095 Diagnostic Summary: │ ************************************************ │ Issue Status: PASS: No RAP095 issue detected. │ Initial InCsumErrors Count: 0 │ Recheck After 5 Minutes: Not required (<20k) │ Threshold: 20000 │ ************************************************ └───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── ┌───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ NODE AUTOMATION SUMMARY: ├───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ HOST ok changed unreachable failed skipped rescued ignored ├───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ 169.254.1.8 28 1 0 0 35 0 0 ├───────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────────── │ Status: PASS │ Time Elapsed: 0h 0m 5s │ Debug log: /tmp/autopilot/log/autopilot_48156_20250929_083835.log │ Message: No RAP095 issue detected - InCsumErrors below threshold.
Informations supplémentaires
Contactez le support technique Dell et établissez un devis pour cet article de la base de connaissances si aucune des solutions de contournement proposées ne s’applique à votre cas d’utilisation spécifique.
Rassemblez et joignez l’archive de rapports xDoctor.