Data Domain - Risoluzione degli errori del frame di rete
Summary: Gli errori di frame in un'interfaccia di rete indicano un problema con i pacchetti di dati che attraversano il dispositivo e la rete.
Symptoms
Questo articolo descrive come risolvere gli errori del frame di rete su Data Domain.
eth4c Link encap:Ethernet HWaddr x:C7:AA:x:12:7E
inet addr:x.x.x.7 Bcast:x.x.x.x Mask:255.255.254.0
inet6 addr: fe80::f6c7:aaff:fe58:127e/64 Scope:Link
UP BROADCAST RUNNING MULTICAST MTU:1500 Metric:1
RX packets:115362856103 errors:0 dropped:2939814 overruns:10098 frame:79198392
TX packets:29061855128 errors:0 dropped:0 overruns:0 carrier:0
collisions:0 txqueuelen:1000
RX bytes:167162598519873 (152.0 TiB) TX bytes:25775705362014 (23.4 TiB)
Interrupt:47 Memory:b4020000-b403ffff Cause
Gli errori di framing possono derivare da vari fattori che spesso indicano potenziali problemi di hardware o compatibilità. Alcune cause comuni includono:
- Problema di compatibilità tra i due ricetrasmettitori, anche se può essere visualizzato come una selezione di velocità inferiore quando si utilizza autoneg.
- Problemi di sincronizzazione, relativi al numero 1, ma possono verificarsi tra ricetrasmettitori compatibili.
- Tipo di cavo errato. Ad esempio, utilizzare un cavo InfiniBand anziché un cavo Ethernet standard supportato.
- Un cavo difettoso
- Un connettore difettoso sul Data Domain o sullo switch.
- Il ricetrasmettitore hardware su Data Domain o sullo switch è danneggiato.
- Il ricetrasmettitore hardware è del tipo sbagliato o non è supportato.
- Per il rame, i segnali esterni possono causare rumore sulla linea e causare errori di framing.
Resolution
Esaminare gli otto elementi elencati in precedenza per verificare se qualcuno di essi contribuisce al problema.
Aprire una richiesta di assistenza al supporto Data Domain per ulteriori procedure di risoluzione dei problemi se nessuno di questi elementi risolve il problema.
Verifica la presenza di errori di frame nel supporto automatico precedente e storicamente con elysium.
- Gli errori frame indicano un componente difettoso, ad esempio un cavo difettoso o ricetrasmettitori collegabili con fattore di forma ridotto.
- Se sono presenti migliaia di errori di frame e l'interfaccia è Fiber, può trattarsi di un ricetrasmettitore difettoso sul lato DD, di un cavo ottico difettoso o di un ricetrasmettitore difettoso sul lato switch del cliente.
- Il cliente è responsabile della sostituzione dei cavi e dei ricetrasmettitori sul proprio lato.
- Se l'interfaccia è intermittente o inattiva e sono presenti errori di frame, i componenti devono essere sostituiti.
- Anche gli errori frame contribuiscono al rallentamento delle prestazioni, poiché i pacchetti devono essere ritrasmessi più volte.
- La sezione net show configuration del supporto automatico mostra l'esempio di statistiche dell'interfaccia riportato di seguito con un'interfaccia con molti errori di frame.
Il comando per elencare le statistiche dell'interfaccia nella CLI è:
# net show config Additional Information
In che modo gli errori di frame influiscono sulle prestazioni di Data Domain
Gli errori di frame su un'interfaccia di rete indicano frame Ethernet danneggiati, spesso causati da un cablaggio errato, mancate corrispondenze duplex o problemi a livello fisico. Questi errori forzano lo stack di rete a ignorare e ritrasmettere i pacchetti, con un effetto a cascata sul sistema Data Domain:
1. Aumento delle ritrasmissioni
- Ogni frame danneggiato significa che il mittente deve inviare nuovamente i dati.
- Per Data Domain, il traffico di replica e backup è intenso e continuo. Le ritrasmissioni moltiplicano il carico di lavoro perché:
- Gli stessi segmenti di dati vengono letti nuovamente dal disco.
- La logica di compressione e deduplica viene eseguita nuovamente per i blocchi ritrasmessi.
2. Maggiore utilizzo della CPU e della memoria
- Data Domain utilizza processi a uso intensivo di CPU per:
- Deduplica (segmenti di fingerprinting)
- Compression
- Crittografia (se abilitata)
- Quando i frame hanno esito negativo e i dati vengono inviati nuovamente, questi processi si ripetono inutilmente, consumando ulteriore cicli di CPU e memoria.
3. Ceppo file system
- Il file system DD (DDFS) è ottimizzato per le scritture sequenziali e le ricerche di segmenti.
- Le ritrasmissioni causano modelli di I/O non sequenziali, costringendo il file system a:
- Rileggere i segmenti.
- Ricalcolare gli hash.
- Mantenere la coerenza per le scritture parzialmente completate.
- Ciò comporta ulteriori ricerche del disco e pressione della cache, rallentando il throughput complessivo.
4. Aumento della durata del backup
- Poiché il throughput effettivo della rete cala (a causa di ritrasmissioni ed errori), i backup richiedono molto più tempo.
- Il sistema DD si sente tassato perché:
- Esegue più lavoro per unità di dati forniti.
- I blocchi della rete causano inefficienze delle pipeline; I thread attendono i dati, aumentando la latenza.
Conclusione
Gli errori di frame creano un circolo vizioso:
- Frame → ritrasmissioni non validi → ripetuta deduplica/compressione → I/O del disco aggiuntivo → affaticamento della CPU → backup più lenti.
Correzione consigliata
- Controllare lo stato della rete fisica:
- Sostituire i cavi difettosi.
- Verificare la velocità della scheda di interfaccia di rete (NIC) o le impostazioni duplex.
- Monitorare gli errori delle porte dello switch.
- Verificare che le impostazioni MTU corrispondano in tutto il percorso.
- Se l'errore persiste, prendere in considerazione i problemi hardware della scheda di rete o dello switch.