Nvidia Mellanox ConnectX NIC -laitteen aikakatkaisu ja nollaus
Summary: AX ja ACP For Azure Paikallista ratkaisua käyttävät asiakkaat voivat kokea toistuvia verkkokortin nollauksia useissa solmuissa SBE:n 4.1.2506.n:n tai 4.1.2507.n:n asentamisen jälkeen ja NIC-ajurin 25.1.26647 asentamisen jälkeen ...
Symptoms
Yleiskuvaus
Azuren paikallisissa esiintymissä, joissa on NVIDIA ConnectX NIC (Network Interface Card) -kortti, saattaa ilmetä varoitustason NDIS-tapahtumatunnus 10400 ja mlx5-tapahtumatunnus 386, kun SBE-versio 4.2.2506.n (AX) tai 4.2.2507.n (MC) on asennettu.


Näiden tapahtumien tapahtumalokia voidaan etsiä seuraavalla komennolla:
Get-WinEvent -FilterHashtable @{LogName="System";ID=10400,386} -ErrorAction SilentlyContinue | Format-list -Property Id,TimeCreated,ContainerLog,LevelDisplayName,Message
Näihin tapahtumiin liittyy ConnectX NIC:n nollauksia, jotka voivat aiheuttaa verkkohäiriöitä, koneen häätämisen Azure Local -klusterista ja satunnaisia virheentarkistustapahtumia. Tämä ongelma on havaittu tietyissä kuormituksissa mlx5.sys kun ajuriversio on 25.1.26647.0 ja vastaava ConnectX-laiteohjelmisto, jotka SBE 4.2.2506.n (AX) tai 4.2.2507.n (MC) asentaa.
Niiden Azuren paikallisten esiintymien tunnistaminen, joita haavoittuvuus koskee
Ongelmallinen käyttäytyminen voi ilmetä, kun kaikki seuraavat ehdot täyttyvät:
- Koneet ovat Azuren paikallisen esiintymän jäseniä
- Koneissa on asennettuna vähintään yksi ConnectX-verkkokortti
- SBE 4.2.2506.n (AX) tai 4.2.2507.n (MC) asennetaan Azure Local -esiintymään
- Käytössä olevan ConnectX NIC -ajurin versio on 25.1.26647.0
Asennetun ConnectX-laiteohjelmistoversion tunnistaminen
Seuraavat toimet voidaan suorittaa kullekin koneelle Azure Local -esiintymässä.
- Yhdistä iDRAC-verkkokäyttöliittymään, valitse avattavasta Järjestelmä-valikosta Varasto.
- Laajenna laiteohjelmistoluettelo ja etsi osia, joiden kuvauksessa on ConnectX-työ. Merkitse asennettu laiteohjelmistoversio muistiin.

Asennetun ConnectX-ajuriversion tunnistaminen
Seuraavat toimet voidaan suorittaa kullekin koneelle Azure Local -esiintymässä.
- Suorita seuraava komento isäntäkäyttöjärjestelmässä käynnissä olevan ConnectX-ajuriversion tunnistamiseksi:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

ConnectX-ajuri- ja laiteohjelmistoversiot
|
Osa |
Versio, jota asia koskee: |
Korjausversio |
Korjausversion lataus |
|
ConnectX-ajuri |
25.1.26647.0 |
24.4.26429.0 |
- (SBE-hyötykuorma) |
|
ConnectX-6 LX -laiteohjelmisto |
26.44.10.36 |
26.41.10.00 |
|
|
ConnectX-6 DX -laiteohjelmisto |
22.44.10.36 |
22.41.10.00 |
|
|
ConnectX-5 EN/EX -laiteohjelmisto |
16.35.40.30 |
16.35.30.06 |
|
|
ConnectX-4 LX |
14.32.21.02 |
14.32.20.04 |
Cause
Tämä ongelma on havaittu Dell AX- ja MC Azure Local -ratkaisuissa tietyissä kuormituksissa mlx5.sys ajuriversiossa 25.1.26647.0 ja vastaavassa ConnectX-laiteohjelmistossa, jotka SBE 4.2.2506.n (AX) tai 4.2.2507.n (MC) on asentanut.
Resolution
Korjauksen toteuttaminen
ConnectX NIC -laiteohjelmiston varhentaminen ennen SBE 4.2.2509.n:n asentamista (AX)
Suorita seuraavat toimenpiteet jokaisessa koneessa Azuren paikallisessa esiintymässä, jota haavoittuvuus koskee.
- Yhdistä iDRAC-verkkokäyttöliittymään, valitse avattavasta Maintenance-valikosta ja valitse System Update.
- Napsauta Choose File -painiketta ja valitse suoritettava laiteohjelmistotiedosto, joka asennetaan tietokoneen ConnectX-verkkokortille. Viimeistele valinta valitsemalla Avaa.

- Aloita lataus napsauttamalla Lataa-painiketta.

- Kun lataus on valmis, napsauta ladatun tiedoston vierellä olevaa plusmerkkiä, jotta näet osat, joita kyseinen laiteohjelmistotiedosto koskee. Asennettu laiteohjelmistoversio ja saatavilla oleva laiteohjelmistoversio tulevat näkyviin. Saatavilla oleva laiteohjelmistoversio on asennettava versio.
- Napsauta asennettavan laiteohjelmistotiedoston vieressä olevaa valintaruutua ja valitse Asenna. Tämä vaihe vaiheistaa ConnectX NIC -laiteohjelmistopäivityksen. Laiteohjelmistopäivitys suoritetaan, kun isäntäkäyttöjärjestelmä käynnistetään uudelleen myöhemmässä vaiheessa.

- Muodostumisen asennustyö lisätään työjonoon. Voit tarkastella työtä työjonossa napsauttamalla Työjono-painiketta.

- Työn edistyminen näytetään.

- Odota, kunnes työn tila näyttää 100% valmiiksi. Huomioi ilmoitettu Odottaa palvelimen uudelleenkäynnistystä -tila.

- Napsauta Lifecycle Log -lokia ja huomaa uudelleen, että laiteohjelmistopäivitys tulee voimaan, kun palvelin käynnistetään uudelleen. Palvelin käynnistetään automaattisesti uudelleen osana SBE-asennusta myöhemmässä vaiheessa.

SBE:n asentaminen 4.2.2509.n
Asenna SBE 4.2.2509.n SBE:n vakioasennusprosessin mukaisesti. SBE 4.2.2509.n -asennus asentaa vaiheittaisen ConnectX-laiteohjelmiston asennuksen, asentaa SBE 4.2.2509.n -ohjaimen ja laiteohjelmiston hyötytiedoston. mlx5-ohjaimen versio 24.4.26429.0 asennetaan myös osana SBE 4.2.2509.n:n asennusta.
Onnistuneen korjauksen varmistaminen
Tarkista ConnectX-ajuri ja laiteohjelmistoversio, kun SBE 4.2.2509.n on asennettu onnistuneesti.
Tarkista asennetun ConnectX-laiteohjelmiston versio
Seuraavat toimet voidaan suorittaa kullekin koneelle Azure Local -esiintymässä.
- Yhdistä iDRAC-verkkokäyttöliittymään, valitse avattavasta Järjestelmä-valikosta Varasto.
- Laajenna laiteohjelmistoluettelo ja etsi osia, joiden kuvauksessa on ConnectX-työ. Merkitse asennettu laiteohjelmistoversio muistiin.

Tarkista asennetun ConnectX-ajurin versio
Seuraavat toimet voidaan suorittaa kullekin koneelle Azure Local -esiintymässä.
- Suorita seuraava komento isäntäkäyttöjärjestelmässä käynnissä olevan ConnectX-ajuriversion tunnistamiseksi:
Get-NetAdapter -InterfaceDescription “*ConnectX*” | Sort-Object -Property Name | Format-Table -Property Name, InterfaceDescription, DriverInformation

HUOMAUTUS: Jos kyseessä on MC-solmu, varhenna Nvidia-ajuri ja laiteohjelmisto manuaalisesti tämän tietämyskannan ohjeiden mukaisesti seuraavaan Apex Cloud Platform -ohjelmistopäivitykseen saakka.
HUOMAUTUS: Jos olet jo asentanut SBE 4.2.2509.n -ohjelmiston, mutta et varhentanut Mellanox-laiteohjelmistoa, varhenna laiteohjelmisto ajurin tasolle seuraavien ohjeiden mukaisesti.
- Keskeytä solmu ja tyhjennä se.
- Keskeytä BitLockerin käyttö C-luokassa: ->
Suspend-BitLocker -MountPoint "C:" -RebootCount 0 - Noudata Implementing Remediation -osan ohjeita ja tee laiteohjelmiston varhennus käyttämällä verkkokorttimallin mukaista DUP-pakettia ja käynnistä järjestelmä uudelleen.
- Varmista IDRACista, että laiteohjelmiston varhennus on onnistunut.
- Tarkista Mellanox-verkkokorttien toimivuus ja jatka BitLockerin käyttöä:
Resume-BitLocker -MountPoint "C:" - Poista solmu huoltotilasta. Odota, että tallennustyöt ovat valmiita, ennen kuin keskeytät muut solmut.