VxRail: vCenter에 "High pnic rx generic error rate detected" 또는 "High pNic error rate detected" 경고가 표시됨
Summary: vCenter에서는 다음과 같은 경고 메시지가 표시됩니다. "경고: vmnicX에서 높은 pnic rx 일반 오류율이 감지되었습니다.", "높은 pNIC 오류율이 감지되었습니다. 자세한 내용은 호스트의 vSAN 성능 보기를 확인하십시오."
Symptoms
이 메시지에는 다르게 처리해야 하는 두 가지 문제가 있습니다.
문제 1:
vCenter 웹 클라이언트에 여러 호스트에 대한 아래 메시지가 표시됩니다. 경고의 vmnic는 호스트가 네트워크에 연결하는 모든 vmnic일 수 있습니다.
**이는 문제 2(다음에 언급됨)와 다릅니다. 문제 2의 경보에 있는 vmnic는 vSAN의 활성 및/또는 대기 vmnic만 해당합니다.**
Warning: High pnic rx generic error rate detected on vmnicX.
ESXi 호스트에서 다음 명령을 실행할 때 사용자에게 많은 rx(수신) 길이 오류가 표시되고 오류가 계속 증가합니다. 이러한 경우 경고가 트리거됩니다.
('X'를 적절한 vmnic 번호로 대체)
esxcli network nic stats get -n vmnicX vmnic0 Packets received: 2611289 Receive length errors: 279662 Multicast packets received: 529478 Broadcast packets received: 512315 vmnic1 packets received: 5812398 Receive length errors: 279518 Multicast packets received: 538956 Broadcast packets received: 427913
호스트 내부의 모든 vmnic는 거의 동일한 "Receive length error" 개수를 가집니다. 즉, "Multicast packets received" 또는 "Broadcast packets received" 경우가 다음의 원인이 됩니다. "Receive length errors."
**멀티캐스트 패킷은 일반적으로 브로드캐스트 패킷과 같은 방식으로 동일한 VLAN 내부에 전송됩니다.
수신 길이 오류 및 브로드캐스트 패킷의 비율 또는 수신 길이 오류 및 멀티캐스트 패킷의 비율을 계산할 수 있습니다. 그런 다음 다른 노드와 비교합니다.
서로 다른 노드에서도 멀티캐스트 또는 브로드캐스트로 인한 수신 길이 오류의 비율은 거의 동일합니다.**
문제 1을 해결하려면 vmnic에서 패킷을 캡처합니다.
- SSH를 통해 노드에 연결합니다.
- 다음 명령을 실행합니다. ("
vmnicX"를 길이 오류를 수신한 vmnic로 대체)pktcap-uw --uplink vmnicX --dir 2 -o /tmp/lengtherror.pcap
- 오류 업링크 패킷을 캡처하고 Ctrl+C>를 눌러 중지합니다.
- 로컬 데스크탑에 .pcap 파일을 다운로드하고 Wireshark를 사용하여 엽니다.
- 브로드캐스트 패킷 필터:
ip.addr == 255.255.255.255 - 다중 캐스트 패킷 필터:
eth.dst == ff:ff:ff:ff:ff:ff - 필터 결과에서 "Malformed Packet"을 찾습니다.
- 때때로 이 필터가 작동합니다.(Wireshark 4.0.12에서만)
((eth.len != frame.len - 14) || eth.len != frame.len - 18)

문제 2:
알람 이름이 지정됩니다.
High pNic error rate detected Check the host's vSAN performance view for details.
사용자가 호스트의 vSAN 성능 보기를 확인하면 알람에 언급된 vmnic이 항상 vSAN 트래픽의 활성 및/또는 대기 vmnic임을 확인할 수 있습니다.
대부분의 경우 vmnic는 vSAN의 대기 상태입니다.
이 알람은 vSphere 7.0U2와 관련이 있습니다.
참조: https://knowledge.broadcom.com/external/article/312096/alarm-about-high-pnic-error-rate-being-d.html
다음 표에는 모니터링되는 vSAN에 사용되는 pNIC과 해당 알람 임계값에 대한 메트릭이 나와 있습니다.
이러한 유형의 오류는 vSAN 성능에 영향을 줄 수 있습니다.
Cause
문제 1:
이 경우 패킷 캡처는 CAPWAP-Control 패킷을 전송하는 Cisco AP(Access Point) 컨트롤러를 표시합니다.
Wireshark에서는 이 패킷을 잘못된 것으로 표시합니다.
ESXi는 일반적으로 이러한 종류의 패키지도 처리할 수 없습니다.
만약 Wireshark가 분석하는 동안 프로토콜의 예상된 구조에 부합하지 않는 패킷을 발견하면, 패킷을 "Malformed"로 표시합니다. 이는 일반적으로 패킷이 전송 중에 손상되었거나 프로토콜이 비정상적이거나 올바르지 않게 구현되었음을 나타냅니다.
다음 필터는 다른 유형의 출력을 제공할 수 있으며(프레임 길이가 지원되지 않기 때문에) 다음 오류가 발생할 수 있습니다. "received length error."
그러나 정확하지 않으므로 고객에게 보고서를 제출하기 전에 이 필터의 출력에 대한 추가 분석을 수행해야 합니다.((eth.len != frame.len - 14) || eth.len != frame.len - 18)
문제 2:
VMware는 vSAN 성능에 영향을 미칠 수 있는 오류를 모니터링하기 위해 이 알람을 도입했습니다.
오류의 비율이 특수 값에 도달한 경우 사용자에게 알리기 위해 vSAN 성능을 관리해야 한다는 알람이 발생합니다.
하지만 알람 트리거 알고리즘에 문제가 있을 수 있다는 사실을 확인했습니다. 오류 패킷 비율을 계산할 때 단기간의 데이터 패킷 수와 총 오류 패킷의 양을 사용합니다.
대부분의 경우 vmnic의 트래픽이 적기 때문에 vmnic 오류는 항상 vSAN의 대기 vmnic입니다.
Resolution
문제 1:
- 문제 1의 경우 소스 IP 주소는 VLAN 1에 연결된 Cisco AP 컨트롤러였습니다.
- VxRail Cluster의 VDS 설정을 확인하여 VLAN 1을 사용하는 트래픽이 없는지 확인합니다.
- VxRail 호스트에 연결된 TOR 스위치 포트에서 VLAN 1을 제거합니다.
- VLAN 1에 없는 경우 동일한 단계에 따라 스위치 포트에서 VLAN을 제거합니다.
- VLAN이 클러스터 트래픽을 전달하는 경우 스위치 포트에서 VLAN을 제거할 수 없습니다. 사용자는 VxRail Cluster에서 수신된 길이 오류를 일으킨 트래픽을 분리하기 위해 네트워크 설계를 변경해야 할 수 있습니다.
문제 2:
이러한 유형의 문제를 처리할 수 있는 몇 가지 시나리오가 있습니다.
- vmnic 보고 오류는 vSAN의 대기 vmnic이며 오류 패킷 증가가 느립니다.
이는 알고리듬으로 인해 발생하는 거짓 알람이며 vSAN 성능에는 영향을 주지 않습니다. 이 알람은 수시로 다시 나타나지만 고객은 이 알람을 무시하는 것이 좋습니다.
- vmnic 보고 오류는 vSAN의 활성 vmnic 또는 대기 vminc이지만 오류 패킷은 계속 증가합니다.
오류의 유형마다 해결 방법이 다르며 CRC 오류, 수신 길이 오류 및 수신 일시 중지 프레임으로 인해 발생하는 알람이 종종 발생합니다.
-
vmnic에서 CRC 오류를 수신했습니다.
하드웨어 문제로 인해 일반적으로 CRC 오류가 발생합니다. 대부분 노드 및 스위치 측 모두에서 케이블, SFP 및 네트워크 어댑터와 관련이 있습니다.
하드웨어 문제 해결 프로세스를 따라 문제를 확인합니다. -
vmnic에서 길이 오류를 수신했습니다.
근본 원인은 문제 1과 동일합니다. 이러한 상황에서는 문제 1의 문제 해결 과정을 따르면 됩니다.
-
vmnic에서 수신된 일시 중지 프레임입니다.
일시 중지 프레임은 네트워크 흐름 제어에 사용됩니다.
흐름 제어 활성화 네트워크 불안정성 또는 정체는 VxRail의 성능 저하를 초래하며 vSAN I-O 데이터 저장소 작업에 부정적인 영향을 미칩니다.
흐름 제어는 버퍼 오버런을 방지하기 위해 데이터 전송 속도를 관리하는 데 도움이 되는 스위치 기능입니다.
VxRail에서는 흐름 제어를 다음과 같이 설정하는 것을 권장합니다."receive on" and "transmit off."
https://www.delltechnologies.com/asset/en-us/products/converged-infrastructure/technical-support/h15300-vxrail-network-guide.pdf 88페이지를 참조하십시오.
스위치에서 흐름 제어를 활성화하는지 확인하는 방법은 무엇입니까?
Dell 스위치를 예로 들어 보겠습니다.
Run the command "show interface ethernet 1/1/1," replacing the switch interface number with the interface connecting the node
Vxrail-S5048-01# show interface ethernet 1/1/1 Ethernet 1/1/1 is up, line protocol is down Pluggable media present, SFP28 type is SFP28 25GBASE-SR-NOF Wavelength is 850 Interface index is 15 Internet address is not set Mode of IPv4 Address Assignment: not set Interface IPv6 oper status: Disabled MTU 1532 bytes, IP MTU 1500 bytes LineSpeed 0, Auto-Negotiation off Configured FEC is cl108-rs, Negotiated FEC is cl108-rs Flowcontrol rx on tx on ----- tx on means that the flow control is transmit on
흐름 제어 전송을 비활성화하는 방법
Vxrail-S5048-01# configure terminal vxrail-S5048-01(config)# interface e1/1/1 ----replace the switch interface number Vxrail-S5048-01(conf-if-eth1/1/1)# flowcontrol transmit off
vSAN vmnic과 연결된 모든 스위치 인터페이스를 전송 OFF로 구성합니다.
알람을 녹색으로 재설정하고 알람이 다시 울리는지 모니터링합니다.