ECS: xDoctor: RAP081: Symptom Code: 2048. Разница между системным временем превышает пороговое значение ERROR

Summary: xDoctor обнаружил проблему с управляющей программой Network Time Protocol (NTP).

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Symptoms

На всех узлах в стойке ECS должен быть запущен демон NTP, а настроенные серверы NTP должны поддерживать синхронизацию времени. В противном случае это может привести к проблемам с приемом данных интерфейса.

Признак

Сообщение

Разница во времени системы выше порогового значения «ERROR»

Сообщение = разница системного времени выше порога
ERROR Extra = [Список узлов]

Cause

Вышеуказанные симптомы остаются в качестве ПРЕДУПРЕЖДЕНИЯ, если они не появляются в течение 24 часов.
Через 24 часа, если это сохраняется, серьезность будет повышена до ERROR и появится сообщение RAP081.

Resolution

Разница во времени на узле из-за файла смещения NTP, который обновляется каждый час службой ntpd на узлах. Эта проблема может возникнуть, если на узле уже была обнаружена проблема с сетью. После повторного присоединения сеть создает неверный файл дрейфа, что приводит к разнице во времени между узлами. 

Когда узел снова присоединяется к сети после возникновения проблемы, он может временно создать файл отклонения в соответствии со временем NTP на сервере NTP. Это должно быть временно, но если ntpd не может удалить файл, мы можем удалить файлы отклонений и перезапустить службу для его восстановления.

Проверка:
Проверьте, все ли серверы NTP могут выполнять проверку связи.
1. Убедитесь, что функция Комплаенс включена.

Команда:

# domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'
Пример.
admin@node1:~> domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'

192.168.219.1
========================================
compliance_enabled = true

192.168.219.2
========================================
compliance_enabled = true

192.168.219.3
========================================
compliance_enabled = true

192.168.219.4
========================================
compliance_enabled = true

2. Проверьте ECS, чтобы определить, соответствует ли кластер требованиям. 

Команда: 
# viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
Пример.
admin@node1:~> viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"

Output from host : 192.168.219.1
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Output from host : 192.168.219.2
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Output from host : 192.168.219.3
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Output from host : 192.168.219.4
{
  "compliance": "NON_COMPLIANT",
  "status": "OK",
  "etag": 22527
}

Ожидаемый вывод: COMPLIANT. Если мы видим NON_COMPLIANT, то мы должны исследовать, почему.

3. Запустите сценарий проверки комплаенса на каждом узле, чтобы выявить любые несоответствующие узлы. В результате проверки ECS могут быть выявлены несоответствия.

Запустите сценарий соответствия на всех узлах. На узлах с сообщением «NTP peers out of synced» может возникнуть проблема смещения файла NTP. Вывод «Checking compliance...» На узле с выводом без сбоев означает, что проверка пройдена без обнаруженных проблем.

Команда:
# domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
Пример.
admin@node1:~> domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
 
192.168.219.1
========================================
Checking compliance...
    NTP peers out of sync
 
192.168.219.2
========================================
Checking compliance...
   
 
192.168.219.3
========================================
Checking compliance...
    NTP peers out of sync
 
192.168.219.4
========================================
Checking compliance...
    NTP peers out of sync

Если выводится сообщение «Одноранговые узлы NTP не синхронизированы», перейдите к разделу «Одноранговые узлы не синхронизированы» ниже.

Резолюция:
1. Убедитесь, что смещение NTP больше 10 (+/-), что может вызвать оповещение о соответствии.

Команда:
# viprexec -i "ntpq -nc peers"
Пример. (Примечание. Пример — три сервера NTP на узел.)
admin@node1:~> viprexec -i "ntpq -nc peers"

Output from host : 169.254.1.1  
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.103 -367.66 44.909
+10.xxx.xxx.33 .GPSs. 1 u 32 64 377 0.097 -368.68 44.341
+10.xxx.xxx.35 .GPSs. 1 u 16 64 377 0.107 -338.96 69.736

Output from host : 169.254.1.2 
remote refid st t when poll reach delay offset jitter
==============================================================================
+10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.089 8.566 0.746
*10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.100 8.585 0.739
+10.xxx.xxx.35 .GPSs. 1 u 23 64 377 0.104 8.888 0.592

Output from host : 169.254.1.3 
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.101 -354.40 52.444
+10.xxx.xxx.33 .GPSs. 1 u 29 64 377 0.101 -338.84 63.750
+10.xxx.xxx.35 .GPSs. 1 u 39 64 377 0.106 -387.28 44.286


Output from host : 169.254.1.4 
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.084 72.675 9.200
+10.xxx.xxx.33 .GPSs. 1 u 37 64 377 0.107 65.047 14.913
+10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.103 87.374 13.435

Output from host : 169.254.1.5 
remote refid st t when poll reach delay offset jitter
==============================================================================
*10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.094 352.741 54.056
+10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.103 413.893 43.770
+10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.101 334.493 69.059

Output from host : 169.254.1.6 
remote refid st t when poll reach delay offset jitter
==============================================================================
+10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.101 -428.51 54.955
+10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.097 -326.21 91.208
*10.xxx.xxx.35 .GPSs. 1 u 32 64 377 0.098 -349.00 70.110

Если мы перезапустим службу ntpd, viprexec -i "ntpq -nc peers" у нас будет смещение меньше 10 в течение нескольких секунд, а затем снова увеличится до более чем 100.

2. Повторное применение неверного смещения в файле ntp.drift узла после перезапуска службы ntpd может привести к следующей ошибке:

Команда:
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift"
Пример.
admin@node1:~> viprexec -i "cat /var/lib/ntp/drift/ntp.drift"

Output from host : 169.254.1.1 
500.000

Output from host : 169.254.1.2 
-14.212

Output from host : 169.254.1.3 
500.000

Output from host : 169.254.1.4 
-102.474

Output from host : 169.254.1.5 
-500.000

Output from host : 169.254.1.6 
500.000

Из-за временной проблемы с сетью может быть автоматически создан файл смещения NTP с таким размером смещения. Если узел, повторно устанавливающий подключение к службе NTP, обнаруживает, что время отключено, создайте файл для повторного исправления. Через несколько секунд файл дрейфа станет недоступен и может быть удален. Поэтому следует провести следующее. 

1. Остановите сервис ntpd.
2. Файл ntp.drift будет удален.
3. Повторно запустите сервис ntpd.

Примечание. ntpd.service не влияет на работу.


Команды:
# viprexec -i "systemctl stop ntpd"
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift
# viprexec -i "rm -f /var/lib/ntp/drift/ntp.drift"
# viprexec -i "ntpd -gq"
# viprexec -i "systemctl start ntpd"
# viprexec -i "ntpq -p"

Повторно запустите сценарий проверки комплаенса: viprexec -i "/opt/emc/caspian/fabric/agent/conf/compliance_check.sh"Если

файлы смещения NTP равны нулю, проверьте, нет ли смещения даты в NTP, и перезапустите службу ntpd. 

Команда:
# viprexec "date +%s" 2>&1 | grep "^15"
Пример.
admin@node1:~> viprexec "date +%s" 2>&1 | grep "^15"
1554470147
1554470111
1554470096
1554470142
1554470144
1554470109
1554470124
1554470140

Различия между узлами указывают на то, что требуется смещение NTP с перезапуском службы ntpd. Проверьте состояние сервиса ntpd и перезапустите его. (Даже если состояние «Установлено и работает», выполните перезагрузку.) Примечание. ntpd.service не влияет на работу.

Команда:
# viprexec systemctl status ntpd.service | grep Active:
Пример.
admin@node1:~> viprexec systemctl status ntpd.service | grep Active:
   Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 58min ago
   Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
   Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
Команда:
# viprexec -i "systemctl restart ntpd.service"
Пример.
admin@node1:~> viprexec systemctl restart ntpd.service
Output from host : 192.168.219.1
Output from host : 192.168.219.2
Output from host : 192.168.219.3
Output from host : 192.168.219.4
Output from host : 192.168.219.5
Output from host : 192.168.219.6
Output from host : 192.168.219.7
Output from host : 192.168.219.8

Необходимо устранить дрейф NTP:

Команда:
# viprexec -i "date +%s" 2>&1 | grep "^15"
Пример.
admin@node1:~> viprexec -i "date +%s" 2>&1 | grep "^15"
1585746672
1585746672
1585746672
1585746672
1585746672
1585746672
1585746672
1585746672

Если проблема не устранена или не соответствует описанной выше проблеме, обратитесь в службу технической поддержки ECS.

Additional Information

Если указанное выше решение не помогло, для устранения проблемы с NTP необходимо обратиться к сетевому отделу заказчика.

Признак «Управляющая программа NTP не выполняется» (NTPD_NOT_RUNNING) см. в статье базы знаний:
ECS: xDoctor: RAP081: Symptom Code: 2048. Управляющая программа NTP не выполняется

При возникновении признака «Все серверы NTP НЕ подходят для синхронизации» (NTP_NOT_SUITABLE_ERROR) см. статью
базы знаний ECS: xDoctor: RAP081: Symptom Code: 2048. Все серверы NTP НЕ подходят для синхронизации.

Признак «Все серверы NTP настраивают смещение выше порога ошибки» (NTP_ERROR_OFFSET_ERROR) см. в статье базы знаний:
ECS: xDoctor: RAP081: Symptom Code: 2048. Все серверы NTP настраивают смещение выше порогового значения ошибки.

Affected Products

ECS

Products

ECS Appliance, ECS Appliance Gen 1, ECS Appliance Gen 2, ECS Appliance Gen 3, ECS Software
Article Properties
Article Number: 000230636
Article Type: Solution
Last Modified: 03 Oct 2024
Version:  2
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.