A unidade NVMe Dell Kioxia CM6 relata um erro fatal de PCIe durante a atualização do firmware
Summary: Falha nos servidores PowerEdge com erros fatais de PCIe ao atualizar o firmware da unidade NVMe Kioxia CM6.
Symptoms
Atualizar o firmware em unidades NVMe Kioxia CM6 pode causar uma falha no sistema operacional (SO). Um erro fatal é relatado no log do controlador LifeCycle para o switch PCIe associado às unidades NVMe.
Após a falha do sistema operacional e a reinicialização subsequente, as unidades informarão que o firmware atualizado foi instalado com sucesso.
10/24/24 7:00 RED110 Informational Downloading the Express-Flash-PCIe-SSD_Firmware_GMM6V_WN64_2.2.2_A08.EXE update package.
10/24/24 7:00 RED054 Informational An update job JID_298144489144 was created.
10/24/24 7:00 RED002 Informational Package successfully downloaded.
10/24/24 7:01 SUP0516 Informational Updating firmware for PCIe SSD In Slot 0 In Bay 1 to version 2.2.2.
10/24/24 7:01 SUP0516 Informational Updating firmware for PCIe SSD In Slot 1 In Bay 1 to version 2.2.2.
10/24/24 7:01 SUP0516 Informational Updating firmware for PCIe SSD In Slot 2 In Bay 1 to version 2.2.2.
10/24/24 7:01 SUP0516 Informational Updating firmware for PCIe SSD In Slot 3 In Bay 1 to version 2.2.2.
10/24/24 7:02 SUP0518 Informational Successfully updated the PCIe SSD In Slot 0 In Bay 1 firmware to version 2.2.2.
10/24/24 7:02 SUP0518 Informational Successfully updated the PCIe SSD In Slot 1 In Bay 1 firmware to version 2.2.2.
10/24/24 7:02 SUP0518 Informational Successfully updated the PCIe SSD In Slot 2 In Bay 1 firmware to version 2.2.2.
10/24/24 7:02 SUP0518 Informational Successfully updated the PCIe SSD In Slot 3 In Bay 1 firmware to version 2.2.2.
10/24/24 7:02 PR36 Informational Version change detected for PCIe SSD In Slot 0 In Bay 1 firmware. Previous version:2.2.0, Current version:2.2.2
10/24/24 7:02 PR36 Informational Version change detected for PCIe SSD In Slot 1 In Bay 1 firmware. Previous version:2.2.0, Current version:2.2.2
10/24/24 7:02 PR36 Informational Version change detected for PCIe SSD In Slot 2 In Bay 1 firmware. Previous version:2.2.0, Current version:2.2.2
10/24/24 7:02 PR36 Informational Version change detected for PCIe SSD In Slot 3 In Bay 1 firmware. Previous version:2.2.0, Current version:2.2.2
10/24/24 7:04 PCI1318 Critical A fatal error was detected on a component at bus 227 device 0 function 0.
10/24/24 7:04 PCI1318 Critical A fatal error was detected on a component at bus 226 device 2 function 0.Cause
O servidor detecta um tempo de espera excedido da unidade NVMe durante a atualização do firmware, causando travamento do sistema operacional do host, enquanto o iDRAC relata um erro fatal de PCIe.
Resolution
A Dell Technologies lançou a versão 2.2.2 do firmware CM6 para resolver esse comportamento. A Dell Technologies recomenda atualizar o firmware da unidade durante uma janela de manutenção para reduzir o risco para a produção.
Nota: Embora o problema tenha sido corrigido no firmware 2.2.2, os aprimoramentos entrarão em vigor somente após a conclusão da atualização. Esse problema ainda pode ocorrer durante uma atualização para 2.2.2 ou versões posteriores de qualquer firmware anterior.
O Dell Kioxia CM6 e muitos outros dispositivos NVMe oferecem suporte a atualizações de firmware sem reinicialização que se aplicam sem a necessidade de uma reinicialização do servidor.
O iDRAC instala o firmware imediatamente em vez de transferi-lo para o LifeCycle Controller para instalação na próxima reinicialização. O suporte para atualizações de firmware sem reinicialização foi adicionado no firmware 6.10.00.00 do iDRAC9; Mais detalhes podem ser encontrados nos Guias do usuário do iDRAC disponíveis no Suporte Dell.
As soluções que usam atualizações automatizadas podem ser afetadas se as atualizações de firmware forem executadas antes que os sistemas sejam movidos para o modo de manutenção.
Firmware Kioxia CM6 2.2.2 (GMM6V)
https://www.dell.com/support/home/drivers/DriversDetails?driverID=GMM6V
O firmware 2.2.2 do Kioxia CM6 contém melhorias para estender as condições de tempo de espera excedido enquanto o firmware da unidade está sendo atualizado.