文章編號: 000068456

PERC9 – sob determinadas condições, há um possível problema de integridade de dados com o Rapid Rebuild.

摘要: Os controladores PERC 9 (H330, H730, H730P, H830, FD33xS e FD33xD) apresentaram um recurso chamado Rapid Rebuild (Recompilação rápida), que acelera o tempo para recompilar unidades com falha em determinadas condições. Existe a possibilidade de problemas de integridade de dados quando esse recurso é usado sob determinadas condições. ...

本文可能採用自動翻譯。如果您對翻譯品質有任何寶貴意見，請使用此頁面底部的表單告訴我們，謝謝。

文章內容

症狀

Os controladores Dell PERC 9 (H330, H730, H730P e H830) apresentaram um recurso chamado Rapid Rebuild (Recompilação rápida), que acelera o tempo para recompilar unidades com falha em determinadas condições. Esse recurso baseia-se no T10 Rebuild Assist. A Dell determinou que existe a possibilidade de problemas de integridade de dados quando esse recurso é usado sob determinadas condições.

Operação do recurso:

Qualquer unidade habilitada para o Rapid Rebuild registrará esse recurso com o controlador. Esse recurso é compatível com discos virtuais RAID de paridade: RAID 5, RAID 6, RAID 50 e RAID 60. O recurso exige um servidor para ter unidades habilitadas, níveis de RAID baseados em paridade e um hot spare configurado (global ou dedicado ao VD exato). Cada unidade habilitada no VD mantém o controle de seus próprios blocos/setores com falha. Uma unidade pode, então, falhar e ainda conseguir se comunicar com o PERC e informar quais setores ainda estão "bons". Em vez de executar demorados algoritmos XOR de recuperação de RAID para o disco inteiro, o PERC copiará os setores bons para o hot spare e só precisará recuperar os setores com falha. O PERC copiará os setores bons para o hot spare e só precisará recompilar esses setores com falha. Sem o recurso Rapid Rebuild, o PERC precisa recompilar todos os setores, o que pode demorar muito em unidades de grande capacidade.

Declaração do problema

Quando o PERC está recriando os dados dos setores "ruins", ele grava incorretamente os dados do cache na unidade com falha, em vez de fazer isso no hot spare. Isso faz com que os dados e a paridade associada não sejam gravados no hot spare. No modo Write-through, ocorrerão erros de paridade. No modo Write-back, ocorrerão erros nos dados e na paridade associada.

Como saber se isso aconteceu

Nota: A explicação de como extrair o log do controlador PERC está no artigo SLN295784.

No registro do controlador PERC, se você vir o texto destacado abaixo, significa que encontrou o problema.

C0:EVT#395950-08/17/16 13:54:59: 114=State change on PD 0b(e0x20/s11) from OFFLINE(XX) to REBUILDASSIST(12)

Solução

Se o seu VD estiver no modo Write-through, somente os dados de paridade estarão em risco, e a execução de uma CC (Consistency Check, Verificação de consistência) restaurará a paridade. Esse processo só funcionará se houver uma única ocorrência do recurso Rebuild Assist. Se houver mais de uma ocorrência do Rebuild Assist para o mesmo VD, será necessário restaurar seus dados a partir de um backup anterior.
Se o seu VD estiver no modo Write-back, e você tiver encontrado o problema, será necessário restaurar seus dados a partir do backup. Infelizmente, não é possível recuperar os dados perdidos. Faça a restauração a partir de um backup anterior.

Caso não tenha encontrado esse problema, então se proteja contra ele: atualize o firmware do controlador PERC H730, H730p, H830 para a versão 25.5.0.0018 e o firmware do controlador PERC H330 para a versão 25.5.0.0019 ou posterior, pois elas desativarão o recurso Rapid Rebuild.

Para fazer download da versão mais recente do firmware, vá até a seção "Drivers and Downloads" (Drivers e downloads) de um servidor 13G e expanda o arquivo de menu "SAS Raid" (RAID SAS).

O firmware correto foi implementado na fábrica e os novos servidores não estão expostos a esse problema.

Nota da Dell: Como parte do constante aprimoramento de processo de negócio em todas as funções principais, a Dell analisa os principais processos e implementa os aprimoramentos com frequência. A Dell coloca um grande foco nos processos de desenvolvimento, teste e fabricação de nossos sistemas de servidor e armazenamento. Essas melhorias de processo ajudarão a evitar problemas no futuro e estão permitindo que a Dell reaja mais rapidamente e de maneira mais assertiva a possíveis problemas em campo.

原因

解析度

文章屬性

受影響的產品

PowerEdge RAID Controller H330, PowerEdge RAID Controller H730, PowerEdge RAID Controller H730P, PowerEdge RAID Controller H830

上次發佈日期

16 9月 2021

版本

文章類型

Solution

返回頁首

歡迎

歡迎來到 Dell