ECS: xDoctor: RAP081: Symptom Code: 2048. Разница между системным временем превышает пороговое значение ERROR
Summary: xDoctor обнаружил проблему с управляющей программой Network Time Protocol (NTP).
Symptoms
На всех узлах в стойке ECS должен быть запущен демон NTP, а настроенные серверы NTP должны поддерживать синхронизацию времени. В противном случае это может привести к проблемам с приемом данных интерфейса.
| Признак |
Сообщение |
|---|---|
| Разница во времени системы выше порогового значения «ERROR» |
Сообщение = разница системного времени выше порога |
Cause
Вышеуказанные симптомы остаются в качестве ПРЕДУПРЕЖДЕНИЯ, если они не появляются в течение 24 часов.
Через 24 часа, если это сохраняется, серьезность будет повышена до ERROR и появится сообщение RAP081.
Resolution
Разница во времени на узле из-за файла смещения NTP, который обновляется каждый час службой ntpd на узлах. Эта проблема может возникнуть, если на узле уже была обнаружена проблема с сетью. После повторного присоединения сеть создает неверный файл дрейфа, что приводит к разнице во времени между узлами.
Когда узел снова присоединяется к сети после возникновения проблемы, он может временно создать файл отклонения в соответствии со временем NTP на сервере NTP. Это должно быть временно, но если ntpd не может удалить файл, мы можем удалить файлы отклонений и перезапустить службу для его восстановления.
Проверка:
Проверьте, все ли серверы NTP могут выполнять проверку связи.
1. Убедитесь, что функция Комплаенс включена.
Команда:
# domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled'
admin@node1:~> domulti 'cat /opt/emc/caspian/fabric/agent/conf/agent_customize.conf | grep compliance_enabled' 192.168.219.1 ======================================== compliance_enabled = true 192.168.219.2 ======================================== compliance_enabled = true 192.168.219.3 ======================================== compliance_enabled = true 192.168.219.4 ======================================== compliance_enabled = true
2. Проверьте ECS, чтобы определить, соответствует ли кластер требованиям.
# viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
admin@node1:~> viprexec -i "/opt/emc/caspian/fabric/cli/bin/fcli lifecycle cluster.compliance"
Output from host : 192.168.219.1
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.2
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.3
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Output from host : 192.168.219.4
{
"compliance": "NON_COMPLIANT",
"status": "OK",
"etag": 22527
}
Ожидаемый вывод: COMPLIANT. Если мы видим NON_COMPLIANT, то мы должны исследовать, почему.
3. Запустите сценарий проверки комплаенса на каждом узле, чтобы выявить любые несоответствующие узлы. В результате проверки ECS могут быть выявлены несоответствия.
Запустите сценарий соответствия на всех узлах. На узлах с сообщением «NTP peers out of synced» может возникнуть проблема смещения файла NTP. Вывод «Checking compliance...» На узле с выводом без сбоев означает, что проверка пройдена без обнаруженных проблем.
# domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
admin@node1:~> domulti /opt/emc/caspian/fabric/agent/conf/compliance_check.sh
192.168.219.1
========================================
Checking compliance...
NTP peers out of sync
192.168.219.2
========================================
Checking compliance...
192.168.219.3
========================================
Checking compliance...
NTP peers out of sync
192.168.219.4
========================================
Checking compliance...
NTP peers out of sync
Если выводится сообщение «Одноранговые узлы NTP не синхронизированы», перейдите к разделу «Одноранговые узлы не синхронизированы» ниже.
Резолюция:
1. Убедитесь, что смещение NTP больше 10 (+/-), что может вызвать оповещение о соответствии.
# viprexec -i "ntpq -nc peers"
admin@node1:~> viprexec -i "ntpq -nc peers" Output from host : 169.254.1.1 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.103 -367.66 44.909 +10.xxx.xxx.33 .GPSs. 1 u 32 64 377 0.097 -368.68 44.341 +10.xxx.xxx.35 .GPSs. 1 u 16 64 377 0.107 -338.96 69.736 Output from host : 169.254.1.2 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.089 8.566 0.746 *10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.100 8.585 0.739 +10.xxx.xxx.35 .GPSs. 1 u 23 64 377 0.104 8.888 0.592 Output from host : 169.254.1.3 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 31 64 377 0.101 -354.40 52.444 +10.xxx.xxx.33 .GPSs. 1 u 29 64 377 0.101 -338.84 63.750 +10.xxx.xxx.35 .GPSs. 1 u 39 64 377 0.106 -387.28 44.286 Output from host : 169.254.1.4 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 26 64 377 0.084 72.675 9.200 +10.xxx.xxx.33 .GPSs. 1 u 37 64 377 0.107 65.047 14.913 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.103 87.374 13.435 Output from host : 169.254.1.5 remote refid st t when poll reach delay offset jitter ============================================================================== *10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.094 352.741 54.056 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.103 413.893 43.770 +10.xxx.xxx.35 .GPSs. 1 u 33 64 377 0.101 334.493 69.059 Output from host : 169.254.1.6 remote refid st t when poll reach delay offset jitter ============================================================================== +10.xxx.xxx.16 .GPSs. 1 u 27 64 377 0.101 -428.51 54.955 +10.xxx.xxx.33 .GPSs. 1 u 26 64 377 0.097 -326.21 91.208 *10.xxx.xxx.35 .GPSs. 1 u 32 64 377 0.098 -349.00 70.110
Если мы перезапустим службу ntpd, viprexec -i "ntpq -nc peers" у нас будет смещение меньше 10 в течение нескольких секунд, а затем снова увеличится до более чем 100.
2. Повторное применение неверного смещения в файле ntp.drift узла после перезапуска службы ntpd может привести к следующей ошибке:
# viprexec -i "cat /var/lib/ntp/drift/ntp.drift"
admin@node1:~> viprexec -i "cat /var/lib/ntp/drift/ntp.drift" Output from host : 169.254.1.1 500.000 Output from host : 169.254.1.2 -14.212 Output from host : 169.254.1.3 500.000 Output from host : 169.254.1.4 -102.474 Output from host : 169.254.1.5 -500.000 Output from host : 169.254.1.6 500.000
Из-за временной проблемы с сетью может быть автоматически создан файл смещения NTP с таким размером смещения. Если узел, повторно устанавливающий подключение к службе NTP, обнаруживает, что время отключено, создайте файл для повторного исправления. Через несколько секунд файл дрейфа станет недоступен и может быть удален. Поэтому следует провести следующее.
Примечание. ntpd.service не влияет на работу.
Команды:
# viprexec -i "systemctl stop ntpd" # viprexec -i "cat /var/lib/ntp/drift/ntp.drift # viprexec -i "rm -f /var/lib/ntp/drift/ntp.drift" # viprexec -i "ntpd -gq" # viprexec -i "systemctl start ntpd" # viprexec -i "ntpq -p"
Повторно запустите сценарий проверки комплаенса: viprexec -i "/opt/emc/caspian/fabric/agent/conf/compliance_check.sh"Если
файлы смещения NTP равны нулю, проверьте, нет ли смещения даты в NTP, и перезапустите службу ntpd.
# viprexec "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec "date +%s" 2>&1 | grep "^15" 1554470147 1554470111 1554470096 1554470142 1554470144 1554470109 1554470124 1554470140
Различия между узлами указывают на то, что требуется смещение NTP с перезапуском службы ntpd. Проверьте состояние сервиса ntpd и перезапустите его. (Даже если состояние «Установлено и работает», выполните перезагрузку.) Примечание. ntpd.service не влияет на работу.
# viprexec systemctl status ntpd.service | grep Active:
admin@node1:~> viprexec systemctl status ntpd.service | grep Active: Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Wed 2019-08-07 20:13:27 UTC; 58min ago Active: active (running) since Tue 2019-08-06 02:49:06 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago Active: active (running) since Tue 2019-08-06 02:49:07 UTC; 1 day 18h ago
# viprexec -i "systemctl restart ntpd.service"
admin@node1:~> viprexec systemctl restart ntpd.service Output from host : 192.168.219.1 Output from host : 192.168.219.2 Output from host : 192.168.219.3 Output from host : 192.168.219.4 Output from host : 192.168.219.5 Output from host : 192.168.219.6 Output from host : 192.168.219.7 Output from host : 192.168.219.8
Необходимо устранить дрейф NTP:
# viprexec -i "date +%s" 2>&1 | grep "^15"
admin@node1:~> viprexec -i "date +%s" 2>&1 | grep "^15" 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672 1585746672
Если проблема не устранена или не соответствует описанной выше проблеме, обратитесь в службу технической поддержки ECS.
Additional Information
Если указанное выше решение не помогло, для устранения проблемы с NTP необходимо обратиться к сетевому отделу заказчика.
Признак «Управляющая программа NTP не выполняется» (NTPD_NOT_RUNNING) см. в статье базы знаний:
ECS: xDoctor: RAP081: Symptom Code: 2048. Управляющая программа NTP не выполняется
При возникновении признака «Все серверы NTP НЕ подходят для синхронизации» (NTP_NOT_SUITABLE_ERROR) см. статью
базы знаний ECS: xDoctor: RAP081: Symptom Code: 2048. Все серверы NTP НЕ подходят для синхронизации.
Признак «Все серверы NTP настраивают смещение выше порога ошибки» (NTP_ERROR_OFFSET_ERROR) см. в статье базы знаний:
ECS: xDoctor: RAP081: Symptom Code: 2048. Все серверы NTP настраивают смещение выше порогового значения ошибки.