VMware: Посібник з усунення несправностей з фізичним диском vSAN
Summary: Це загальний посібник з усунення несправностей, який допомагає визначити, чи є проблема з фізичним диском у кластерах vSAN.
Instructions
Перевірка стану фізичного диска vSAN за веб-інтерфейсом:
Підключіться до веб-клієнта vCenter Server і перевірте статус диска з:
Інвентар > Хост і кластери > vSAN Кластер > Налаштувати > vSAN > Disk
Management Зображення 1: vSAN Disk Management Виберіть
уражений хост і розгорніть розділ перегляду диска:
Зображення 2: vSAN Disk Group Тут
ви можете перевірити, чи виявлено диск як:
Нездоровий Відключений
диск з постійною
відмовою
диска Відсутній диск Також
перевірте наявність тривог, пов'язаних із диском, які спрацьовують у розділі vSAN Skyline Health:
Інвентар > Host and Clusters > vSAN > Cluster Monitor > vSAN >>Skyline Physical
Disk Picture 3: Огляд
Skyline Health Тут ви можете перевірити, чи спрацює будь-яка з наступних тривог:
Impending permanent disk failure, data is being evacuated (Health state - Yellow).Impending permanent disk failure, data evacuation failed due to insufficient resources (Health state - Red).Impending permanent disk failure, data evacuation failed due to inaccessible objects (Health state - Red).Impending permanent disk failure, data evacuation completed (Health state - Yellow)
Також ви можете перевірити стан диска зі списку пристроїв зберігання відповідного хоста:
Інвентар > Хост і кластери > vSAN-кластер>, уражені vSAN ESXi Хост > Конфігурація > пристроїв зберігання >Зображення 4:
Перегляд
хост-накопичувальних пристроїв Тут ви можете перевірити, чи статус диска такий:
Диск об'єму
0 Відсутній
диск Відключений
Перевірте, чи відбувається повторна синхронізація:
Інвентар > Хост і кластери > vSAN Cluster > Monitor > vSAN > Об'єкти ресинхронізації:
Зображення 5: Перегляд об'єктів ресинхронізується
Перевірте статус об'єктів vSAN:
Інвентар > Host and Clusters > vSAN Cluster > Monitor > vSAN > Skyline > Health Data > vSAN object health
Data vSAN Image 6: vSAN object health view
Наступний крок — зібрати більше інформації про проблему через CLI та перевірити журнали:
Перевірка стану фізичного диска vSAN від CLI:
Підключитися через SSH до ураженого хоста та виконати такі команди:
vdq -qH
Перевірте "IsPDL" (постійна втрата пристрою) параметр. Якщо дорівнює 1, диск втрачається.
Приклад:
DiskResults:
DiskResult[0]:
Name: naa.600508b1001c4b820b4d80f9f8acfa95
VSANUUID: 5294bbd8-67c4-c545-3952-7711e365f7fa
State: In-use for VSAN
ChecksumSupport: 0
Reason: Non-local disk
IsSSD?: 0
IsCapacityFlash?: 0
IsPDL?: 0
<<truncated>>
DiskResult[18]:
Name:
VSANUUID: 5227c17e-ec64-de76-c10e-c272102beba7
State: In-use for VSAN
ChecksumSupport: 0
Reason: None
IsSSD?: 0
IsCapacityFlash?: 0
IsPDL?: 1
vdq -iH
Перевірте, чи немає диска в групі дисків.
Приклад:
Mappings: DiskMapping[0]: SSD: naa.58ce38ee2016ffe5 MD: naa.5002538a4819e3e0 DiskMapping[2]: SSD: naa.58ce38ee2016fe55 MD: naa.5002538a48199ca0 MD: naa.5002538a48199e20 MD: naa.5002538a48199e00
esxcli vsan storage list
Перевірте "In CMMDS" параметр. Якщо це хибно, то зв'язок втрачається на диск.
Приклад:
Device: Unknown
Display Name: Unknown
Is SSD: false
VSAN UUID: 529cadbc-acd1-b588-8643-68336d5512d6
VSAN Disk Group UUID:
VSAN Disk Group Name:
Used by this host: false
In CMMDS: false
On-disk format version: <Unknown>
Deduplication: false
Compression: false
Checksum:
Checksum OK: false
Is Capacity Tier: false
for i in `esxcli storage core device list | grep ^naa` ; do echo $i; esxcli storage core device smart get -d $i; done.
Перевірте помилки читання/запису за допомогою команди smart get.
Приклад:
naa.55cd2e404c1f35a1 Parameter Value Threshold Worst Raw -------------------------- ----- --------- ----- --- Health Status OK N/A N/A N/A Media Wearout Indicator 100 0 100 86 Read Error Count 130 39 130 133 Power-on Hours 100 0 100 110 Power Cycle Count 100 0 100 106 Drive Temperature 100 0 100 26 Uncorrectable Sector Count 100 0 100 0
naa.55cd2e404c1f35a5 Parameter Value Threshold Worst Raw -------------------------- ----- --------- ----- --- Health Status OK N/A N/A N/A Media Wearout Indicator 100 0 100 10 Read Error Count 130 39 130 53 Power-on Hours 100 0 100 110 Power Cycle Count 100 0 100 106 Drive Temperature 100 0 100 27 Uncorrectable Sector Count 100 0 100 0
esxcli vsan storage list | grep "VSAN Disk Group UUID:" | sort | uniq -c
Перевірте наявність доступних груп дисків.
Приклад:
2 VSAN Disk Group UUID: 5203424c-ee56-497d-75d1-fcf73ae997cb 2 VSAN Disk Group UUID: 52af8e5c-77d1-b552-3310-ec5fef09edf4
while true;do echo " ****************************************** "; echo "" > /tmp/resyncStats.txt ;cmmds-tool find -t DOM_OBJECT -f json |grep uuid |awk -F \" '{print $4}' |while read i;do pendingResync=$(cmmds-tool find -t DOM_OBJECT -f json -u $i|grep -o "\"bytesToSync\": [0-9]*,"|awk -F " |," '{sum+=$2} END{print sum / 1024 / 1024 / 1024;}');if [ ${#pendingResync} -ne 1 ]; then echo "$i: $pendingResync GiB";fi;done |tee -a /tmp/resyncStats.txt;total=$(cat /tmp/resyncStats.txt |awk '{sum+=$2} END{print sum}');echo "Total: $total GiB" |tee -aa /tmp/resyncStats.txt;total=$(cat /tmp/resyncStats.txt |grep Total);totalObj=$(cat /tmp/resyncStats.txt|grep -vE " 0 GiB|Total"|wc -l);echo "`date +%Y-%m-%dT%H:%M:%SZ` $total ($totalObj objects)" >> /tmp/totalHistory.txt; echo `date `; sleep 60; done
Перевірте, чи є поточні або застрягли операції синхронізації.
Приклад:
Total: 0 GiB Mon Feb 13 17:32:06 UTC 2023
Натисніть Ctrl+ C, щоб зупинити команду.
cmmds-tool find -f python | grep CONFIG_STATUS -B 4 -A 6 | grep 'uuid\|content' | grep -o 'state\\\":\ [0-9]*' | sort | uniq -c
Перевірте стан компонентів.
Healthy -- state 7Inaccessible -- state 13Absent or Degraded -- state 15
Приклад:
425 state\": 7
Як визначити, де знаходиться зламаний SSD або ЖОРСТКИЙ ДИСК через CLI:
Перелічіть усі доступні пристрої:
esxcli storage core device list | grep "naa" | awk '{print $1}' | grep "naa"
Приклад:
naa.5000c500852df8d3 naa.55cd2e404c1f35a1 naa.55cd2e404c1f35a5 naa.5000c500852dd5e7
Перевірте місцезнаходження за допомогою кожного диска naa зі списку:
esxcli storage core device physical get -d
Приклад:
esxcli storage core device physical get -d naa.5000c500852df8d3 esxcli storage core device physical get -d naa.55cd2e404c1f35a1 esxcli storage core device physical get -d naa.55cd2e404c1f35a5 esxcli storage core device physical get -d naa.5000c500852dd5e7 Physical Location: enclosure 65535 slot 0 Physical Location: enclosure 65535 slot 1 Physical Location: enclosure 65535 slot 2 Physical Location: enclosure 65535 slot 3
Як визначити несправний ЖОРСТКИЙ ДИСК або SSD, якщо ім'я пристрою відсутнє:
Можливо, що несправний диск не виявлено і він не може ідентифікуватися за допомогою відповідного naa. У цьому випадку потрібно знайти всі диски, і той, що не знаходиться фізично, буде тим, що вийшов з ладу.
Ось скрипт, який можна використати, щоб виконати завдання трохи швидше:
echo "=============Physical disks placement=============="
echo ""
esxcli storage core device list | grep "naa" | awk '{print $1}' | grep "naa" | while read in; do
echo "$in"
esxcli storage core device physical get -d "$in"
sleep 1
echo "===================================================="
done
Релевантні журнали vSAN для питань, пов'язаних із зберіганням даних:
/var/log/vmkernel.log
Проблеми з читанням і записом на диски vSAN, пульсами хоста vSAN, PDL, SCSI-сенс-кодами та запитами вводу/виводу (читання/запис), а також інформацією про членство кластера.
Приклад:
2021-06-22T12:02:08.408Z cpu30:1001397101)ScsiDeviceIO: PsaScsiDeviceTimeoutHandlerFn:12834: TaskMgmt op to cancel IO succeeded for device naa.55cd2e404b7736d0 and the IO did not complete. WorldId 0, Cmd 0x28, CmdSN = 0x428.Cancelling of IO will be 2021-06-22T12:02:08.408Z cpu30:1001397101)retried.
/var/log/vobd.log
Звіти про стан диска, постійні втрачені диски (PDL), затримку диска та звіти про те, коли хост входить і виходить із режиму обслуговування.
Приклад:
2022-05-31T11:42:46.065Z: [vSANCorrelator] 10605891965954us: [vob.vsan.lsom.devicerepair] vSAN device 521a74ce-c980-c16c-ff3d-38a036233daf is being repaired due to I/O failures, and will be out of service until the repair is complete. If the device is part of a dedup disk group, the entire disk group will be out of service until the repair is complete. 2022-05-31T11:42:46.065Z: [vSANCorrelator] 10606062774178us: [esx.problem.vob.vsan.lsom.devicerepair] Device 521a74ce-c980-c16c-ff3d-38a036233daf is in offline state and is getting repaired
/var/log/vsandevicemonitord.log
Це допомагає визначити, чи диск був позначений як нездоровий через надмірне перевантаження журналів або затримки введення/виведення.
Приклад:
INFO vsandevicemonitord WARNING - WRITE Average Latency on VSAN device naa.50000xxxxxxxx has exceeded threshold value 2000000 us 2 times. INFO vsandevicemonitord Tier 2 (naa.50000xxxxxxxx) as unhealthy