ECS: xDoctor RAP162 Низкий оставшийся срок службы SSD-диска или SSDr-диска
Сводка: Низкий оставшийся срок службы системного диска может представлять проблему, если срок службы SSD или SSDr узла ниже 5%.
Симптомы
xDoctor сообщает RAP162:
------------------------------------------
ERROR - System disk has low remaining life
------------------------------------------
Node = Nodes
Extra = {"Nodes": {"169.254.1.13": {"BTWM5AM000UB": {"used_life": "255"}}, "169.254.1.14": {"BTWM59N0079B": {"used_life": "255"}}, "169.254.1.15": {"BTWM59N002PB": {"used_life": "255"}}, "169.254.1.16": {"BTWM59N0025B": {"used_life": "255"}}}}
RAP = RAP162
Solution = KB 215459
Timestamp = 2023-06-30_132850
PSNT = Rome @ 4.8-92.0
----------------------------------------
ERROR - SSDR disk has low remaining life
----------------------------------------
Node = Nodes
Extra = {"Nodes": {"169.254.1.13": {"BTWM5AM000UA": {"used_life": "255"}}, "169.254.1.14": {"BTWM59N0077B": {"used_life": "255"}}, "169.254.1.15": {"BTWM59N002AB": {"used_life": "255"}}, "169.254.1.16": {"BTWM59N0025C": {"used_life": "255"}}}}
RAP = RAP162
Solution = KB 215459
Timestamp = 2023-06-30_132850
PSNT = Rome @ 4.8-92.0 Обнаружено высокое использование диска в системе путем проверки данных SAR, которые собирают информацию каждые 10 минут, чтобы определить, сохраняется ли в системе проблема производительности диска с высоким уровнем ожидания в статистике SAR.
Другая проверка может подтвердить данные SAR для производительности диска кэш-памяти SATA и/или диска чтения SSDr SATA операционной системы:
Команда: (Операционная система, твердотельный накопитель SATA, отдельный узел)
# ssd=$(cs_hal list --all disks | grep 'intl/sys'|awk '{print $2}'|sed 's/.*[/:]//');sar -d -p --dev=$ssdКоманда: (Операционная система, кластер твердотельных накопителей SATA)
# svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys'|awk '{print \$2}'|sed 's/.*[/:]//');sar -d -p --dev=\$ssd"SSDr чтение кэш-диска:
Команда: (SATA, SSDr, диск кэш-памяти, чтение, отдельный узел)
# ssdr=$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print $2}');sar -d -p --dev=$ssdrКоманда: (твердотельный накопитель SATA для кэш-памяти чтения, кластер)
# svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sar -d -p --dev=\$ssdr"Пример. (Убедитесь, что время ожидания превышает 100 для последних трех проверок SAR)
[...Output Truncated...]
DEV tps rkB/s wkB/s areq-sz aqu-sz await svctm %util
12:10:01 sdad 3.23 69.58 130.87 62.14 29.78 9503.41 224.33 72.36
12:10:01 DEV tps rkB/s wkB/s areq-sz aqu-sz await svctm %util
12:20:01 sdad 2.24 35.28 18.28 23.95 67.97 29994.40 371.69 83.11
12:30:01 sdad 2.72 76.23 91.17 61.48 17.16 6813.32 102.38 27.88
[...Output Truncated...]Причина
SSD и SSDr имеют полезный срок службы, т.е. время, в течение которого диск может функционировать до выхода из строя. Эти проверки ключей необходимо выполнить, чтобы определить, является ли неисправность причиной и требуется замена.
- Когда срок службы SSD-накопителя SATA и/или диска кэш-памяти чтения SSDr SATA операционной системы достигает 85% или остается 15%, рекомендуется выполнить профилактическую замену.
- Когда срок службы твердотельного накопителя SATA и/или твердотельного накопителя SATA SSDr чтения, кэш-диска используется 95% или оставшийся срок службы 5%, рекомендуется выполнить реактивную замену.
Твердотельный накопитель SATA операционной системы:
- Проверьте сбои SSD-дисков с помощью следующей команды, которая проверяет все системные диски на наличие виртуального ЦОД; ее можно проверить по отдельности. Разные модели твердотельных накопителей по-разному выдают выходные данные.
# svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"Пример 1 (индикатор «Используемый ресурс» в процентах и «Оставшийся ресурс в процентах»)
admin@node1:~> svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 13:47:17
Output from node: r1n1 retval: 0
0x07 0x008 1 90 --- Percentage Used Endurance Indicator
245 Percent_Life_Remaining 0x0032 064 064 000 Old_age Always - 10 <-- % Remaining.
...[Output Truncated]...
admin@node1:~> svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 13:47:17
Output from node: r1n1 retval: 0
0x07 0x008 1 85 --- Percentage Used Endurance Indicator
245 Unknown_Attribute 0x0032 064 064 000 Old_age Always - 15 <-- % Remaining is reported as Unknown_Attribute.
...[Output Truncated]...
Пример 3: (Оставшийся срок службы в процентах)
admin@node1:~> svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.1) Started 2023-06-30 13:53:41
Output from node: r1n1 retval: 0
245 Percent_Life_Remaining 0x0032 082 082 000 Old_age Always - 5 <-- % Remaining.
...[Output Truncated]...
Пример 4: (Индикатор использования ресурса в процентах)
admin@node1:~> svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 14:02:03
Output from node: r1n1 retval: 1
0x07 0x008 1 95 N-- Percentage Used Endurance Indicator <-- % Used subtract from 100 for % Remaining.
...[Output Truncated]...
Пример 5: (Unknown_Attribute)
admin@node1:~> svc_exec "ssd=\$(cs_hal list --all disks | grep 'intl/sys' |awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssd | grep Endurance;sudo /usr/sbin/smartctl -a \$ssd | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.1) Started 2023-06-30 13:53:41
Output from node: r1n1 retval: 0
245 Unknown_Attribute 0x0032 082 082 000 Old_age Always - 10 <-- % Remaining is reported as Unknown_Attribute
...[Output Truncated]...
- Проверка отдельных узлов для исследования дисков на уровне узла
Команда:
# ssd=$(cs_hal list --all disks | grep 'intl/sys' |awk '{print $2}');sudo /usr/sbin/smartctl -l devstat $ssd | grep Endurance;sudo /usr/sbin/smartctl -a $ssd | grep -e 245
Пример. Используйте пять примеров, чтобы определить правильный процент долговечности узла.
Диск кэш-памяти чтения SSDr SATA:
- Чтобы проверить наличие сбоев SSDr при работе кэш-памяти, выполните следующие действия, чтобы проверить все системные диски на наличие виртуального ЦОД, которые можно проверить по отдельности. Разные модели SSDr по-разному выдают выходные данные.
# svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"Пример 1 (индикатор «Используемый ресурс» в процентах и «Оставшийся ресурс в процентах»)
admin@node1:~> svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 13:47:17
Output from node: r1n1 retval: 0
0x07 0x008 1 95 --- Percentage Used Endurance Indicator
245 Percent_Life_Remaining 0x0032 064 064 000 Old_age Always - 5 <-- % Remaining.
...[Output Truncated]...
admin@node1:~> svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 13:47:17
Output from node: r1n1 retval: 0
0x07 0x008 1 94 --- Percentage Used Endurance Indicator
245 Unknown_Attribute 0x0032 064 064 000 Old_age Always - 6 <-- % Remaining is reported as Unknown_Attribute.
...[Output Truncated]...
Пример 3: (Оставшийся срок службы в процентах)
admin@node1:~> svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.1) Started 2023-06-30 13:53:41
Output from node: r1n1 retval: 0
245 Percent_Life_Remaining 0x0032 082 082 000 Old_age Always - 15 <-- % Remaining.
...[Output Truncated]...
Пример 4: (Индикатор использования ресурса в процентах)
admin@node1:~> svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.2) Started 2023-06-30 14:02:03
Output from node: r1n1 retval: 1
0x07 0x008 1 80 N-- Percentage Used Endurance Indicator <-- % Used subtract from 100 for % Remaining.
...[Output Truncated]...
Пример 5: (Unknown_Attribute)
admin@node1:~> svc_exec "ssdr=\$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print \$2}');sudo /usr/sbin/smartctl -l devstat \$ssdr | grep Endurance;sudo /usr/sbin/smartctl -a \$ssdr | grep -w 245"
svc_exec v1.0.6 (svc_tools v2.12.1) Started 2023-06-30 13:53:41
Output from node: r1n1 retval: 0
245 Unknown_Attribute 0x0032 082 082 000 Old_age Always - 10 <-- % Remaining is reported as Unknown_Attribute
...[Output Truncated]...
- Проверка отдельных узлов для исследования дисков на уровне узлов.
Команда:
# ssdr=$(sudo -i fcli agent disk.disks --pretty-print | grep "READ_CACHE" | awk '{print $2}');sudo /usr/sbin/smartctl -l devstat $ssdr | grep Endurance;sudo /usr/sbin/smartctl -a $ssdr | grep -w 245
Пример. Используйте пять примеров, чтобы определить правильный процент долговечности узла.