Dell Unity: SP:er kan gå in i serviceläge på grund av uppsvällda loggar (/nbsnas-partitionen blir 100 % full)
Summary: Ett disksystem kan försättas i serviceläge (data är inte tillgängliga) på grund av uppsvällda loggar, (kan korrigeras av Dell)
Symptoms
För dubbla SP-disksystem försätts en SP i lagringssystemet i serviceläge och hela systemet kan inte drivas via hanteringsgränssnitt, inklusive CLI, UI, REST API och SMI-S. Detta kan även visa sig som att SP:er startar om växelvis tills båda SP:erna hamnar i serviceläge.
Ett Unity-disksystem med båda SP:erna i serviceläge hanterar inte I/O, så det här är en DU-situation (Data Unavailable).
För VSA kan den enda SP:n startas om i serviceläge eller bara förbli i normalt läge och förlora hanteringen i båda fallen.
Hela systemet kan inte drivas via hanteringsgränssnitt, inklusive CLI, UI, REST API och SMI-S.
SSH eller IPMI borde fungera. IPMI fungerar alltid, SSH kanske bara fungerar efter att disksystemet har stabiliserats.
Det här problemet finns i OE version 4.0.0.x och är åtgärdat i OE version 4.0.1.x.
Cause
Loggfilen /nbsnas/http/logs/mod_jk.log, som registrerar varje begäran från användargränssnittet och REST, finns i ett filsystem som är monterat på /nbsnas på den primära SP. Utan en loggrotationsmekanism fortsätter uppblåsthet för den här filen att förbruka det tillgängliga utrymmet i filsystemet. Andra interna konsumenter börjar misslyckas när det inte finns något utrymme kvar i filsystemet. En av SP:erna övergår till serviceläge när upprepade fel upptäcks på dessa komponenter.
Det observerades i labbet att när detta händer och tjänster försöker redundansväxla till den sekundära SP, upplever den också samma symptom. SP:erna startas om ett par gånger varannan gång och så småningom övergår båda till serviceläge.
Kunder ser det här problemet om: Använd alltid användargränssnittet eller REST API för att konfigurera lagringssystemet eller öppna användargränssnittet i webbläsaren och lämna det där utan att stänga. Med endast åtkomst till användargränssnittet tar det normalt några månader för kunderna att se problemet. Om kunder använder REST API för att fråga efter data från lagringssystemet ofta sker det här problemet snabbare.
Ett andra problem upptäcktes där en uppgradering till Unity OE 4.0.1.8320161 kan förvärra problemet eftersom loggfilen i fråga kan dupliceras under NDU, vilket påskyndar processen.
Du kan bekräfta om så är fallet genom att kontrollera utrymmesförbrukningen på /nbsbas. Om utrymmesförbrukningen är minimal eller låg upplevde du INTE det här problemet under NDU och därför krävs inget annat.
4.0.1.x-koder innehåller redan rättningen av huvudproblemet, så själva loggrotationen fungerar korrekt.
Om partitionen visar en mycket hög använd procentandel kan de ansvariga loggfilerna behöva tas bort (Dells support krävs).
Exempel på hur du kontrollerar utrymmesanvändning och vilka loggar som ska tas bort finns i anteckningsavsnittet.
Dell har beslutat att ta bort Unity OE 4.0.1.8320161 för Unity och UnityVSA från support.emc.com. En reviderad Unity OE-version (4.0.1.8404134) publicerades i september 2016.
Resolution
För att lösa det här problemet måste den tekniska supporten få rotåtkomst till disksystemet.
Kontakta teknisk support för Unity och nämn denna KB-artikel: 489057
Additional Information
Exempel på hur du kontrollerar utrymmesanvändningen:
spX:~> df -h /nbsnas Filesystem Size Used Avail Use% Mounted on /dev/c4nasdba1 1013M 55M 908M 6% /nbsnas
Loggen eller loggarna som orsakar detta finns i /nbsnas/http/logs:
spx:~> cd /nbsnas/http/logs spx:/nbsnas/http/logs> ll -h total 975M -rw-r--r-- 1 root root 12K Sep 8 13:32 access_log -rw-r--r-- 1 root root 165K Sep 8 08:45 access_log.1.gz -rw-r--r-- 1 root root 239K Sep 8 06:59 access_log.2.gz -rw-r--r-- 1 root root 1.6M Sep 8 13:32 error_log -rw-r--r-- 1 root root 167K Sep 3 04:56 error_log.1.gz -rw-r--r-- 1 root root 495M Sep 8 13:32 mod_jk.log <<<<<<<<<< -rw-r--r-- 1 root root 475M Sep 8 08:45 mod_jk.log.1 <<<<<<<<<<
svc_dc -lcd (list core dumps) kan också visa några dumpar med suffixet "_mgmtd".
Dessa skapades när SP:erna får panik eftersom vissa tjänster inte kan starta (på grund av att /nbsnas är full).
spx:/> svc_dc -lcd ======================== [DC copier]: Available on backend: CP_dump_spb_CKM00161701xxx_2016-09-08_13_29_47_17275_ECOM core-dump_dump_spb_CKM00161701xxx_2016-09-08_08_46_23_778_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_19_11994_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_53_21524_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_05_11446_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_45_24620_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_28_30_3067_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_29_08_15086_mgmtd