Может потребоваться замена накопителя из-за ошибок ввода-вывода или если программно-определяемое хранилище помечает диск как неисправный или непригодный для использования

Summary: Пользователи могут запросить замену накопителя из-за ошибок ввода-вывода или если диск помечен программно-определяемым хранилищем (SDS) как «неисправный» или «непригодный для использования». ...

This article applies to This article does not apply to This article is not tied to any specific product. Not all product versions are identified in this article.

Instructions

Существует несколько различных решений SDS, таких как Ceph (Linux), vSAN (VMware), Nutanix и т. д. Несколько серверов с одинаковой конфигурацией объединяются в сеть для создания кластера хранения данных. Серверы настроены с использованием адаптера главной шины (HBA) вместо PERC, чтобы накопители представлялись операционной системе в исходном виде. Операционная система управляет всеми дисками на каждом сервере напрямую, без какого-либо вмешательства со стороны HBA-адаптера. Диск отображается как «Работоспособный» в средствах мониторинга Dell (например, iDRAC и OMSA) и в автономной диагностике ePSA. Данные SMARTCTL для накопителя могут содержать или не содержать неисправленные ошибки чтения и записи. Тесты SMART (короткие, длинные и расширенные) будут пройдены, и накопитель будет отображаться как работоспособный.

 

Решения для программно-определяемого хранения данных (SDS) переносят все связанные с хранением элементы управления хранилищем с аппаратного на программный с помощью адаптера главной шины (HBA), чтобы обеспечить физическое подключение к накопителям.

 

RAID-контроллер (PERC) отвечает за выполнение нескольких профилактических действий по обслуживанию дисков, включая дежурное чтение и проверки согласованности на виртуальных дисках. Так как в решениях SDS вместо PERC используется адаптер главной шины (HBA), программное обеспечение теперь выполняет все эти действия по профилактическому обслуживанию.

 

Пользователи могут сообщить, что SDS помечает диск как «неисправный или непригодный для использования» или может выводить список ошибок ввода-вывода на диске. Средства мониторинга Dell, такие как iDRAC и OMSA, сообщают о работоспособности накопителя.

 

Такие инструменты, как «SMARTMON» или «SMARTCTL», могут выдавать некоторые ошибки на одном или нескольких указанных дисках, но общее состояние диска отображается как «РАБОТОСПОСОБНО» или «ОК».

 

 

Такое несоответствие обусловлено следующими факторами:

  • iDRAC показывает состояние работоспособности компонента. Если микропрограмма накопителя сообщает, что накопитель работоспособен, то это отражено в iDRAC. Если в микропрограмме накопителя указано, что накопитель находится в состоянии прогнозируемого сбоя, это отображается в iDRAC.
  • Все накопители могут выдерживать некоторые поврежденные блокировки или неустранимые ошибки и продолжать работать без каких-либо функциональных последствий. Пороговое значение для поврежденных блоков запрограммировано в микропрограмме накопителя производителем диска и не является стандартным числом или процентом.
  • Накопители будут оставаться работоспособными до тех пор, пока общее количество поврежденных блоков или неустранимых ошибок на накопителе не превысит пороговое значение прогнозируемого отказа или отказа.
  • Адрес смещения на накопителе помечается как поврежденный блок, и данные перемещаются ТОЛЬКО в том случае, если операция WRITE завершается сбоем по этому адресу. Микропрограмма накопителя не учитывает ошибки READ для пометки секторов как поврежденных блоков.
  • Ошибки ввода-вывода, зарегистрированные на уровне операционной системы, могут не отражаться в журналах жизненного цикла.

 

В этом случае накопители будут работоспособны и находятся в пределах своих эксплуатационных параметров. Они не подходят для замены оборудования и не требуют ее. Для устранения проблемы рекомендуется выполнить необходимые действия по обслуживанию на уровне программного обеспечения.

 

В этом случае необходимо собрать полный пакет журналов операционной системы или отчеты с одного или нескольких затронутых серверов. Обратитесь в Dell SST (если на это предусмотрено гарантийное соглашение) или поставщика операционной системы для проверки журналов, поскольку они должны сообщить о дальнейших действиях по устранению ошибки.

 

Dell SST или поставщик операционной системы определяет следующие данные:

  • Общее количество ошибок ввода-вывода, записанных ядром операционной системы (если таковые имеются).
  • Для каких устройств (одного или нескольких) регистрируются ошибки.
  • Вид коррупции: Уровень файла или метаданных (при наличии)
  • Произошел сбой службы хранилища? Если да, то почему?
  • Для устранения таких ошибок в SDS доступны корректирующие действия.

 

ПРИМЕЧАНИЕ. Упомянутые выше пункты для Dell SST или поставщика операционной системы не являются исчерпывающим списком. В их исследовании может быть несколько других ссылок или точек данных.

 

Affected Products

Rack Servers
Article Properties
Article Number: 000219050
Article Type: How To
Last Modified: 21 ذو الحجة 1446
Version:  4
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.