VxRail: ESXi 호스트가 vCenter에서 응답하지 않는 것으로 표시되고 며칠 동안 호스트를 재부팅한 후 이 문제가 재발함
Summary: iSM 3.4 업그레이드 도중 또는 후에 iDRAC9을 v3.30.30으로 업그레이드하는 경우 iSM이 TLS 오류와 함께 실패합니다.
Symptoms
일부 ESXi 호스트가 vCenter에서 응답하지 않는 것으로 표시될 수 있습니다. 호스트를 재부팅하면 문제가 일시적으로 해결될 수 있지만 며칠 후에 문제가 다시 발생합니다. 이 문제는 iDRAC9을 사용하는 Dell PowerEdge 14G 서버에서만 발생합니다.
TSR 로그에서 다음과 같은 메시지가 표시됩니다.
2019-06-04 15:26:05 ISM0049 The iDRAC Service Module (iSM) is unable to communicate to the iDRAC because the client certificate is either unavailable or invalid.
vmkernel.log에서,
2019-06-04T02:05:56.920Z cpu61:2105520)WARNING: VisorFSObj: 1576: Cannot create file /etc/cim/dell/srvadmin/iSM/ini/tttttttttttttyZxIL9 for process sfcb-dcism because the inode table of its ramdisk (etc) is full.
hostd.log에서,
2019-06-02T13:39:59.688Z error hostd[2105490] [Originator@6876 sub=Libs opID=e4a0107a-853b-11e9-f2a3 user=dcui:vsanmgmtd] VsanUtil: Failed to lock esx.conf /etc/vmware/esx.conf.LOCK.2104629: symlink failed: No space left on device
iDRAC UI에서
Cause
iDRAC9 v3.30.30에는 iSM v3.4.0-1471 이상을 사용하여 보안 TLS 채널을 생성하기 위한 필수 요구 사항이 도입되었습니다.
Dell 엔지니어링 팀은 iDRAC 펌웨어를 업그레이드하기 전에 iSM v3.4.0-1471을 설치 또는 업그레이드한 경우 iDRAC9이 아직 이 보안 TLS 연결을 조정하지 않으면 메모리 누수가 발생하는 시나리오를 확인했습니다. 누수로 인해 결국 /etc/dell에서 생성된 임시 INI 파일의 홍수로 인해 커널 inode 수가 손실됩니다.
VxRail SW 릴리스 4.5.400, 4.7.200 이상 통합 iSM v3.4.0-1471. 이 문제를 방지하기 위한 해결 방법이 4.5.400 및 4.7.212에 추가되었습니다. 4.7.210은 제조 전용 릴리스이므로 업그레이드가 이루어지지 않으므로 영향을 받지 않습니다. 따라서 VxRail 4.7.200 및 4.7.211 릴리스에서 이 문제가 발생할 가능성이 가장 높습니다.
Resolution
이미 vCenter에서 응답하지 않는 것으로 표시되는 경우 ESXi 호스트를 재부팅합니다.
iSM을 다시 설치하면 보안 TLS 채널이 iDRAC9과 재협상되도록 트리거하여 문제가 다시 발생하지 않도록 해결할 수 있습니다.
영향을 받는 ESXi 호스트에서 다음 명령을 실행하여 iSM을 다시 설치합니다.
esxcli software vib remove -n dcism esxcli software vib install -d <path to iSM VIB>
ESXi에 사용 가능한 inode가 없는 경우 inode 부족으로 인해 불필요한 파일을 먼저 제거할 수 있습니다.
ls -l /etc/cim/dell/srvadmin/iSM/ini/ rm -f /etc/cim/dell/srvadmin/iSM/ini/tttttt*
하드웨어 장애로 인해 시스템 보드를 교체한 경우 위의 해결 단계도 적용됩니다.