Nvidia Mellanox ConnectX NIC 디바이스 시간 초과 및 재설정
Summary: AX 및 ACP Azure 로컬 솔루션을 실행하는 Azure 고객의 경우 NIC 드라이버 25.1.26647을 사용하여 SBE 4.1.2506.n 또는 4.1.2507.n을 설치한 후 여러 노드에서 NIC가 자주 재설정되는 문제를 경험할 수 있습니다.
Symptoms
개요
SBE 버전 4.2.2506.n(AX) 또는 4.2.2507.n(MC)을 설치한 후 NVIDIA ConnectX NIC(네트워크 인터페이스 카드)가 있는 컴퓨터가 있는 Azure 로컬 인스턴스에서 경고 수준 NDIS 이벤트 ID 10400 및 mlx5 이벤트 ID 386이 발생할 수 있습니다.


다음 명령을 사용하여 이러한 이벤트에 대한 이벤트 로그를 검색할 수 있습니다.
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
이러한 이벤트에는 네트워크 중단, Azure 로컬 클러스터에서 컴퓨터 제거 및 가끔 버그 확인 이벤트가 발생할 수 있는 ConnectX NIC 재설정이 포함됩니다. 이 상태는 mlx5.sys 드라이버 버전 25.1.26647.0과 SBE 4.2.2506.n(AX) 또는 4.2.2507.n(MC)으로 설치된 해당 ConnectX 펌웨어를 사용하는 특정 워크로드에서 관찰되었습니다.
영향을 받는 Azure 로컬 인스턴스 식별
다음 조건이 모두 충족되면 문제가 되는 동작이 발생할 수 있습니다.
- 컴퓨터는 Azure 로컬 인스턴스의 구성원입니다.
- 컴퓨터에 하나 이상의 ConnectX NIC가 설치되어 있습니다.
- SBE 4.2.2506.n(AX) 또는 4.2.2507.n(MC)이 Azure 로컬 인스턴스에 설치됩니다.
- 실행 중인 ConnectX NIC 드라이버 버전은 25.1.26647.0입니다.
설치된 ConnectX 펌웨어 버전 식별
다음 절차는 Azure 로컬 인스턴스의 각 컴퓨터에서 수행할 수 있습니다.
- iDRAC 웹 인터페이스에 연결하고 System 드롭다운 및 Inventory를 선택합니다.
- 펌웨어 인벤토리를 확장하고 설명에서 ConnectX가 작동하는 구성 요소를 찾습니다. 설치된 펌웨어 버전을 기록해 둡니다.

설치된 ConnectX 드라이버 버전 식별
다음 절차는 Azure 로컬 인스턴스의 각 컴퓨터에서 수행할 수 있습니다.
- 호스트 OS에서 다음 명령을 실행하여 실행 중인 ConnectX 드라이버 버전을 식별합니다.
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX 드라이버 및 펌웨어 버전
|
구성 요소 |
영향을 받는 버전 |
문제 해결 버전 |
문제 해결 버전 다운로드 |
|
ConnectX 드라이버 |
25.1.26647.0 |
24.4.26429.0 |
해당 없음(SBE 페이로드) |
|
ConnectX-6 LX FW |
26.44.10.36 |
26.41.10.00 |
|
|
ConnectX-6 DX FW |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX FW |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
이 상태는 mlx5.sys 드라이버 버전 25.1.26647.0 및 SBE 4.2.2506.n(AX) 또는 4.2.2507.n(MC)으로 설치된 해당 ConnectX 펌웨어를 사용하는 특정 워크로드의 Dell AX 및 MC Azure Local 솔루션에서 관찰되었습니다.
Resolution
문제 해결 구현
SBE 4.2.2509.n(AX)을 설치하기 전에 ConnectX NIC 펌웨어 다운그레이드
영향을 받는 Azure Local 인스턴스의 각 컴퓨터에서 다음 절차를 수행합니다.
- iDRAC 웹 인터페이스에 연결하고 Maintenance 드롭다운을 선택한 다음 System Update를 선택합니다.
- 파일 선택 버튼을 클릭하고 컴퓨터에 ConnectX NIC용으로 설치할 펌웨어 파일 실행 파일을 선택합니다. 열기 버튼을 클릭하여 선택을 완료합니다.

- 업로드 버튼을 클릭하여 업로드 프로세스를 시작합니다.

- 업로드 프로세스가 완료되면 업로드된 파일 옆의 더하기 기호를 클릭하여 이 펌웨어 파일이 적용되는 구성 요소를 확인합니다. 현재 설치된 펌웨어 버전과 사용 가능한 펌웨어 버전이 표시됩니다. 사용 가능한 펌웨어 버전은 설치될 버전입니다.
- 설치할 펌웨어 파일 옆의 확인란을 클릭하고 설치를 선택합니다. 이 작업은 ConnectX NIC 펌웨어 업그레이드를 스테이징합니다. 이후 단계에서 호스트 OS가 재부팅되면 펌웨어 업그레이드가 완료됩니다.

- 포메이션 설치 작업이 작업 대기열에 추가됩니다. Job Queue 버튼을 클릭하여 작업 대기열에서 작업을 봅니다.

- 작업 진행 상황이 표시됩니다.

- 작업 상태가 100% 완료로 표시될 때까지 기다립니다. 표시된 서버 재부팅 보류 중 상태를 확인합니다.

- Lifecycle Log를 클릭하고 펌웨어 업데이트가 서버를 재시작한 후에 적용된다는 것을 다시 확인합니다. 서버는 이후 단계에서 SBE 설치의 일부로 자동으로 재시작됩니다.

SBE 4.2.2509.n 설치
표준 SBE 설치 프로세스를 사용하여 SBE 4.2.2509.n을 설치합니다. SBE 4.2.2509.n 설치는 스테이징된 ConnectX 펌웨어의 설치를 호출하고, SBE 4.2.2509.n 드라이버 및 펌웨어 페이로드를 설치합니다. mlx5 드라이버 버전 24.4.26429.0도 SBE 4.2.2509.n 설치의 일부로 설치됩니다.
문제 해결이 성공했는지 확인
SBE 4.2.2509.n이 성공적으로 설치된 후 ConnectX 드라이버 및 펌웨어 버전을 확인합니다.
설치된 ConnectX 펌웨어 버전 확인
다음 절차는 Azure 로컬 인스턴스의 각 컴퓨터에서 수행할 수 있습니다.
- iDRAC 웹 인터페이스에 연결하고 System 드롭다운 및 Inventory를 선택합니다.
- 펌웨어 인벤토리를 확장하고 설명에서 ConnectX가 작동하는 구성 요소를 찾습니다. 설치된 펌웨어 버전을 기록해 둡니다.

설치된 ConnectX 드라이버 버전 확인
다음 절차는 Azure 로컬 인스턴스의 각 컴퓨터에서 수행할 수 있습니다.
- 호스트 OS에서 다음 명령을 실행하여 실행 중인 ConnectX 드라이버 버전을 식별합니다.
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

참고: MC 노드의 경우 다음 Dell Apex Cloud Platform 소프트웨어 업데이트 전까지 이 KB의 방법을 사용하여 NVIDIA 드라이버 및 펌웨어를 수동으로 다운그레이드하십시오.
참고: SBE 4.2.2509.n을 이미 적용했지만 Mellanox 펌웨어를 다운그레이드하지 않은 경우 아래 단계를 사용하여 펌웨어를 드라이버와 동일한 수준으로 다운그레이드하십시오.
- 노드를 일시 중지하고 드레이닝합니다.
- C:에서 BitLocker 일시 중단 ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - "문제 해결 구현" 섹션의 단계에 따라 NIC 모델에 따라 적절한 DUP를 호출하여 펌웨어 다운그레이드를 수행하고 시스템을 재시작합니다.
- IDRAC에서 FW 다운그레이드가 성공했는지 확인합니다.
- Mellanox NIC에서 적절한 연결을 확인하고 BitLocker를 다시 시작합니다.
Resume-BitLocker -MountPoint "C:" - 유지 보수 모드에서 노드를 제거합니다. 다른 노드를 일시 중지하기 전에 스토리지 작업이 완료될 때까지 기다리십시오.