Dell Unity: Come raccogliere le informazioni necessarie per un'analisi delle prestazioni di Unity
Summary: Questo articolo illustra come raccogliere registri e dati per la diagnosi dei problemi di prestazioni sugli array Unity.
Instructions
Problema
-
Scarse prestazioni di lettura o scrittura (o entrambe) o tempi di risposta elevati per gli host connessi.
-
I tempi di risposta per le applicazioni host sono aumentati o sono inaccettabilmente elevati.
-
Problemi relativi alle prestazioni di un array Dell Unity che richiedono l'analisi delle prestazioni.
I problemi relativi alle prestazioni possono avere un certo numero di cause, tra cui configurazione di rete, congestione, configurazione host, guasti hardware, conflitto del disco (varie LUN occupate che condividono le stesse unità) o l'array di storage al massimo utilizzo.
Il supporto tecnico di Unity non è in grado di analizzare e risolvere completamente i problemi di prestazioni fino a quando non sono stati forniti i seguenti elementi:
- File di dati del servizio (Data Collect)
- File UPA (Unity Performance Archives)
- Una descrizione dettagliata dei sintomi riscontrati nell'ambiente del cliente
La mancata condivisione tempestiva delle informazioni contenute in questo articolo della KB Dell può comportare tempi di risoluzione più lunghi.
I dettagli dei problemi relativi alle prestazioni (sintomi, timestamp e così via) sono cruciali per far sì che il tecnico sappia dove concentrarsi (tempi/LUN/host e così via), anziché impiegare diverse ore solo per trovare il problema (non la causa). Senza questi dettagli, potrebbero essere impiegate ore per la ricerca di un problema e potremmo solo analizzare le statistiche generali sulle prestazioni.
Ambito
I servizi di supporto al cliente esaminano i casi inerenti alle prestazioni per identificare i problemi che interessano i siti dei clienti. L'ottimizzazione delle prestazioni (per ottenere massime prestazioni per un host o un'applicazione) e la riconfigurazione sono attività per uno Storage Administrator o un Solutions Architect, quindi questo non verrà gestito in una Service Request di break/fix.
Le Service Request che non comportano un problema effettivo, ad esempio la richiesta di un report del livello corrente di carico di lavoro su un array, non rientrano nel supporto per la riparazione dei guasti. Per il supporto in autonomia o per richiedere assistenza per determinare il livello del carico di lavoro su un array, è possibile utilizzare il servizio LiveOptics. Per informazioni dettagliate su questa opzione, consultare il seguente articolo:
Requisiti di dati e informazioni per un'analisi dettagliata delle prestazioni
Per ogni evento, il supporto tecnico necessita dei seguenti registri e delle seguenti informazioni che coprono il periodo dell'incidente:
- File di dati di servizio (noti anche come raccolte dati), generati poco dopo il problema.
- Se la replica è in uso, sono necessari data collection e file UPA da entrambi gli array.
- File UPA di Unity (Unity Performance Archives), che coprono l'intero periodo in cui si è verificato il problema.
- Potrebbero essere necessari anche i registri host grab e switch se il problema sembra essere esterno all'array.
- Potrebbe essere necessario anche Unity Network Traces.
PROBLEMI DI BLOCCO
- Fornire una descrizione chiara e dettagliata del problema:
- Quando è accaduto il problema (data, ora e fuso orario)?
- Quali LUN sono interessate?
- Questo aspetto è importante per restringere la ricerca.
- La riduzione o la deduplica dei dati avanzata sono abilitate sulle LUN che riscontrano problemi? La riduzione dei dati è abilitata per altre LUN? Consultare il white paper sulle best practice di Unity, sezione relativa all'utilizzo della CPU a pagina 9
- La replica è in uso? Fornire informazioni sull'RPO per la replica e verificare se i problemi di prestazioni migliorano quando la replica viene sospesa.
- Ci sono, o ci sono stati in qualsiasi momento, dati attivi non disponibili?
- C'è altro in esecuzione al momento specificato (backup, processi, batch, scansioni antivirus, ottimizzazione del disco host (TRIM/UNMAP) e così via)?
- Se qualcosa non funziona come dovrebbe, ha mai funzionato? O fa parte di una nuova implementazione/configurazione? Sono state aggiunte di recente nuove applicazioni o host?
- Come vengono misurate le prestazioni o qual è l'impatto? Ritardi o errori sul lato host? Gli utenti finali segnalano lentezza?
- Sono state apportate modifiche recenti all'ambiente SAN (host, switch, array)?
- Impatto (applicazioni interessate, n. di server interessati, n. di utenti interessati e così via)
- Con quale frequenza si verifica il problema (costantemente/regolarmente/una sola volta/in modo casuale)?
- Quali sono i nomi degli host interessati?
- Quale topologia viene utilizzata? FC, iSCSI o Ethernet? Se si utilizza iSCSI, tutti gli host DEVONO avere l'opzione TCP Delayed ACK disabilitata.
- Se il problema potrebbe riguardare la connettività, il supporto potrebbe richiedere un diagramma della topologia.
- Esiste un problema noto nella rete contemporaneamente o la rete è stata aggiornata di recente? Verificare inoltre che iSCSI non sia utilizzato sulla LAN interna e gli switch utilizzati devono essere switch di classe enterprise.
PROBLEMI RELATIVI AI FILE
- Fornire una descrizione chiara e dettagliata del problema:
- Quali sono i protocolli specifici coinvolti?
- Esempio: NFS (versione), CIFS (versione), NDMP, iSCSI, FTP e così via
- Il problema è correlato a una specifica esportazione/condivisione, file system/LUN?
- A che ora del giorno si verifica il problema? (data, ora e fuso orario)?
- Qual è al momento il carico di lavoro attivo?
- Esempio: accesso, disconnessione, backup, processi batch e così via
- Quali host sono coinvolti?
- Esempio: backup, macchine virtuali, workstation, server e così via?
- Dettagli specifici sull'applicazione.
- Che aspetto ha la configurazione di rete?
- Fornire dettagli specifici su interfaccia/NIC.
- Le interfacce di rete sono isolate su schede NIC separate?
- Esempio: traffico di replica sulla sua scheda di rete dedicata
Raccolta del file di dati del servizio (Data Collect)
Per raccogliere file di dati del servizio (Data Collect), consultare LKB 000023676. I file di output generati dall'esecuzione di file di dati del servizio sull'array sono necessari per visualizzare la configurazione dettagliata dell'array e gli eventi verificatisi sull'array. Il supporto consiglia ai clienti di raccogliere il file di dati del servizio (Data Collect) il prima possibile dopo il verificarsi dell'evento.
Tenere presente che il file di dati del servizio contiene l'ultimo file UPA completo (un'ora) e qualsiasi file UPA -tmp.archive disponibile. Spesso, queste informazioni non sono sufficienti per un'adeguata revisione delle prestazioni e sono necessari file UPA aggiuntivi.
Per trovare il file UPA all'interno del file di dati del servizio (Data Collect), accedere a spx\cmd_outputs\metrics\
-
spx= SP primario -
Esempio: Se SPA è l'SP attivo, il file UPA è in
spa\cmd_outputs\metrics
Raccolta di file UPA
- Il supporto potrebbe richiedere ulteriori file UPA.
- A differenza del file di dati del servizio (Data Collect), l'array archivia fino a 48 ore di file UPA.
- I file UPA sono simili all'esempio riportato di seguito. Ogni nome file contiene la data e l'ora del primo data point nel file. L'intervallo è di 10 secondi e copre un'ora meno 10 secondi. La data e l'ora nei nomi dei file sono UTC/GMT.
- L'ultimo file UPA nell'esempio riportato di seguito è l'archivio più recente (
-tmp.archive). Contiene i dati sulle prestazioni correnti e può essere copiato dall'array (solo tramite SSH/CLI) per esaminare i dati più recenti. Il supporto può utilizzare questo file per visualizzare gli eventi relativi alle prestazioni senza dover attendere fino all'ora successiva.
- L'ultimo file UPA nell'esempio riportato di seguito è l'archivio più recente (
Esempio di file UPA archiviati nell'array Dell Unity:01/05/2017 10:59 AM 11,017,216 _default_20170105_150000.archive
01/05/2017 11:59 AM 11,017,216 _default_20170105_160000.archive
01/05/2017 01:00 PM 11,017,216 _default_20170105_170000.archive
01/05/2017 01:59 PM 10,983,424 _default_20170105_180000.archive
01/05/2017 02:45 PM 8,308,736 _default_20170105_190000-tmp.archive
Opzione 1. Elenco Unisphere
Questa opzione è disponibile solo per Unity OE 4.2 e versioni successive. Potrebbe non essere elencato tutto l'elenco dei file UPA disponibili. L'interfaccia utente (Unisphere) presenta una limitazione e consente di visualizzare solo alcuni dei file disponibili. Se il file UPA richiesto non è presente nell'elenco, passare all'Opzione 2 o utilizzare SSH/CLI.
Opzione 2. Intervallo di tempo di Unisphere
- È possibile selezionare un intervallo di tempo per il pull degli UPA disponibili da parte del sistema.
- Confermare l'ora del problema prima di raccogliere i registri in modo che vengano scaricati solo i registri necessari.
- L'intervallo di tempo specificato in Custom Time è impostato sull'ora del browser locale e corrisponde spesso all'ora corrente della workstation.
- Questa opzione è disponibile solo per Unity OE 4.2 e versioni successive

Utilizzo di SSH/CLI
È inoltre possibile utilizzare la CLI per accedere a più UPA presenti sull'array Unity (ma non elencati nell'interfaccia utente (Unisphere) per l'opzione 1.
-
Effettuare l'accesso con l'utente e la password service
-
Copiare i registri desiderati in
/cores/service/userfrom/EMC/backend/metricsluna1/archives -
Scaricare questi registri tramite WinSCP o uno strumento simile
-
Se l'array è su OE 4.5.X o versione successiva, modificare il protocollo del file in SCP
-
Effettuare l'accesso con l'utente e la password service
-
ll /EMC/backend/metricsluna1/archives/
cp /EMC/backend/metricsluna1/archives/_default_20230221_180000.archive.gz /cores/service/user
Nota: se si stanno raccogliendo solo gli UPA correnti, è possibile eseguire |tail-10 poiché nel back-end sono disponibili decine di file UPA; tuttavia, se lo si desidera, è possibile elencarli tutti.

Raccolta dei dati host
Potrebbe essere necessario fornire i file di output Host Grab (o del report EMC), soprattutto se il problema è relativo a specifici host.
-
Accedere a https://www.dell.com/support/home/ (sito del Supporto Dell) e cercare l'utilità Grab per il sistema operativo host corretto (ad esempio: Host Grab ESXi)
-
Scaricare l'utilità e il file README.
-
Seguire il file README per eseguire l'utilità per il sistema operativo host scelto.
Registri degli switch
Se il problema di prestazioni esiste solo su alcuni percorsi, potrebbero essere necessari i registri degli switch. Consultare la seguente LKB per istruzioni (in base al modello utilizzato):
Brocade/Connectrix