Dell Unity: SPs kan gå inn i servicemodus på grunn av loggoppblåsthet (/nbsnas-partisjonen blir 100 % full)
Summary: Et array kan gå i servicemodus (data utilgjengelig) på grunn av oppblåst logg (korrigerbar Dell)
Symptoms
For doble SP-arrayer går én SP av lagringssystemet i servicemodus, og hele systemet kan ikke kjøres via administrasjonsgrensesnitt, inkludert CLI, UI, REST API og SMI-S. Dette kan også manifestere seg som at SP-er starter på nytt vekselvis til begge SP-ene havner i servicemodus.
En Unity-matrise med begge SP-ene i servicemodus utfører ikke service, så dette er en situasjon med data utilgjengelig (DU).
For VSA kan den enkle SP-en starte på nytt i servicemodus eller bare forbli i normal modus, og miste administrasjon i begge tilfeller.
Hele systemet kan ikke driftes gjennom administrasjonsgrensesnitt, inkludert CLI, UI, REST API og SMI-S.
SSH eller IPMI skal fungere. IPMI fungerer alltid, SSH fungerer kanskje bare etter at arrayet ble stabilisert.
Dette problemet finnes på OE versjon 4.0.0.x og er løst i OE versjon 4.0.1.x.
Cause
Loggfilen /nbsnas/http/logs/mod_jk.log, som registrerer alle forespørsler fra UI og REST, ligger i et filsystem montert på /nbsnas i den primære SP-en. Uten en loggrotasjonsmekanisme fortsetter oppblåsthet av denne filen å konsumere ledig plass i filsystemet. Andre interne forbrukere begynner å mislykkes når det ikke er plass igjen på filsystemet. Én av SP-ene går i servicemodus når det oppdages gjentatte feil på disse komponentene.
Det ble observert i laboratoriet at når dette skjer og tjenester prøver å failover til sekundær SP, opplever det også de samme symptomene. SP-ene starter vekselvis på nytt noen ganger, og til slutt går begge i servicemodus.
Kunder ser dette problemet hvis: Bruk alltid brukergrensesnitt eller REST API til å konfigurere lagringssystemet, eller åpne brukergrensesnittet i nettleseren og la det være der uten å lukke. Med bare UI-tilgang, normalt Det tar noen måneder for kundene å se dette problemet. Hvis kunder bruker REST API til å spørre etter data fra lagringssystemet ofte, skjer dette problemet raskere.
Det ble funnet et annet problem der oppgradering til Unity OE 4.0.1.8320161 kan forverre problemet, da det kan duplisere den aktuelle loggfilen under NDU, og dermed akselerere prosessen.
Du kan i så fall bekrefte ved å sjekke plassforbruket på /nbsbas. Hvis plassforbruket er minimalt eller lavt, opplevde du IKKE dette problemet under NDU, og derfor er det ikke nødvendig med noe annet.
4.0.1.x-koder inneholder allerede løsningen for hovedproblemet, så selve loggrotasjonen fungerer som den skal.
Hvis partisjonen viser en svært høy prosentandel brukt, kan det hende at de ansvarlige loggfilene må slettes (krever kundestøtte fra Dell).
Eksempel på hvordan du kontrollerer plassbruk og hvilke logger som skal slettes, finner du i merknadsdelen.
Dell har besluttet å fjerne Unity OE 4.0.1.8320161 for Unity og UnityVSA fra support.emc.com. En revidert Unity OE-utgivelse (4.0.1.8404134) ble publisert i september 2016.
Resolution
Hvis du vil løse dette problemet, er det nødvendig for teknisk støtte å få rottilgang til arrayet.
Kontakt teknisk støtte for Unity og nevn denne KB-artikkelen: 489057
Additional Information
Eksempel på hvordan du kontrollerer plassbruk:
spX:~> df -h /nbsnas Filesystem Size Used Avail Use% Mounted on /dev/c4nasdba1 1013M 55M 908M 6% /nbsnas
Loggen eller loggene som forårsaker dette finner du i /nbsnas/http/logs:
spx:~> cd /nbsnas/http/logs spx:/nbsnas/http/logs> ll -h total 975M -rw-r--r-- 1 root root 12K Sep 8 13:32 access_log -rw-r--r-- 1 root root 165K Sep 8 08:45 access_log.1.gz -rw-r--r-- 1 root root 239K Sep 8 06:59 access_log.2.gz -rw-r--r-- 1 root root 1.6M Sep 8 13:32 error_log -rw-r--r-- 1 root root 167K Sep 3 04:56 error_log.1.gz -rw-r--r-- 1 root root 495M Sep 8 13:32 mod_jk.log <<<<<<<<<< -rw-r--r-- 1 root root 475M Sep 8 08:45 mod_jk.log.1 <<<<<<<<<<
svc_dc -lcd (list core dumps) kan også vise noen dumper med "_mgmtd"-suffikset.
Disse ble opprettet når SPs panikk som noen tjenester ikke kan starte (på grunn av / nbsnas er full).
spx:/> svc_dc -lcd ======================== [DC copier]: Available on backend: CP_dump_spb_CKM00161701xxx_2016-09-08_13_29_47_17275_ECOM core-dump_dump_spb_CKM00161701xxx_2016-09-08_08_46_23_778_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_19_11994_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_53_21524_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_05_11446_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_45_24620_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_28_30_3067_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_29_08_15086_mgmtd