Dell Unity: SP'er kan gå i servicetilstand på grund af logoppustethed (/nbsnas-partitionen bliver 100 % fuld)
Summary: Et system kan gå i servicetilstand (data ikke tilgængelige) på grund af oppustethed i loggen (kan rettes af Dell)
Symptoms
For to SP-systemer går en SP i storagesystemet i servicetilstand, og hele systemet kan ikke betjenes via administrationsgrænseflader, herunder CLI, UI, REST API og SMI-S. Dette kan også manifestere sig ved, at SP'er genstarter skiftevis, indtil begge SP'er ender i servicetilstand.
Et Unity-system med begge SP'er i servicetilstand vil ikke servicere I/O, så dette ville være en DU-situation (Data Unavailable).
For VSA kan den enkelte SP genstarte i servicetilstand eller bare forblive i normal tilstand og miste administrationen i begge tilfælde.
Hele systemet kan ikke betjenes via administrationsgrænseflader, herunder CLI, UI, REST API og SMI-S.
SSH eller IPMI skal fungere. IPMI fungerer altid, SSH fungerer muligvis kun, efter at arrayet er stabiliseret.
Dette problem findes på OE version 4.0.0.x og er rettet i OE version 4.0.1.x.
Cause
Logfilen /nbsnas/http/logs/mod_jk.log, som registrerer alle anmodninger fra brugergrænsefladen og REST, findes i et filsystem, der er monteret på /nbsnas i den primære SP. Uden en logrotationsmekanisme fortsætter oppustethed af denne fil med at forbruge den ledige plads i filsystemet. Andre interne forbrugere begynder at mislykkes, når der ikke er plads tilbage på filsystemet. En af SP'erne går i servicetilstand, når den registrerer gentagne fejl i disse komponenter.
Det blev observeret i laboratoriet, at når dette sker, og tjenester forsøger at failover til den sekundære SP, oplever det også de samme symptomer. SP'erne genstarter skiftevis et par gange, og til sidst går begge i servicetilstand.
Kunder ser dette problem, hvis: Brug altid brugergrænsefladen eller REST API til at konfigurere lagersystemet, eller åbn brugergrænsefladen i browseren, og lad den være der uden at lukke. Med kun adgang til brugergrænsefladen tager det normalt et par måneder, før kunderne ser dette problem. Hvis kunder ofte bruger REST API til at forespørge på data fra storagesystemet, opstår dette problem hurtigere.
Der blev fundet et andet problem, hvor opgradering til Unity OE 4.0.1.8320161 kan forværre problemet, da det kan duplikere den pågældende logfil under NDU og dermed fremskynde processen.
Du kan bekræfte dette ved at kontrollere pladsforbruget på /nbsbas. Hvis pladsforbruget er minimalt eller lavt, oplevede du IKKE dette problem under NDU, og derfor kræves intet andet.
4.0.1.x-koder indeholder allerede løsningen på hovedproblemet, så selve logrotationen fungerer korrekt.
Hvis partitionen viser en meget høj udnyttelsesprocent, skal de ansvarlige logfiler muligvis slettes (kræver Dell-support).
Eksempel på, hvordan du kontrollerer pladsforbrug, og hvilke logfiler der skal slettes, kan findes i noteafsnittet.
Dell har besluttet at fjerne Unity OE 4.0.1.8320161 for Unity og UnityVSA fra support.emc.com. En revideret Unity OE-udgivelse (4.0.1.8404134) blev offentliggjort i september 2016.
Resolution
For at løse dette problem er det nødvendigt, at teknisk support får rodadgang til systemet.
Kontakt Unitys tekniske support, og nævn denne KB-artikel: 489057
Additional Information
Eksempel på, hvordan du kontrollerer pladsforbruget:
spX:~> df -h /nbsnas Filesystem Size Used Avail Use% Mounted on /dev/c4nasdba1 1013M 55M 908M 6% /nbsnas
Den eller de logfiler, der forårsager dette, kan findes i /nbsnas/http/logs:
spx:~> cd /nbsnas/http/logs spx:/nbsnas/http/logs> ll -h total 975M -rw-r--r-- 1 root root 12K Sep 8 13:32 access_log -rw-r--r-- 1 root root 165K Sep 8 08:45 access_log.1.gz -rw-r--r-- 1 root root 239K Sep 8 06:59 access_log.2.gz -rw-r--r-- 1 root root 1.6M Sep 8 13:32 error_log -rw-r--r-- 1 root root 167K Sep 3 04:56 error_log.1.gz -rw-r--r-- 1 root root 495M Sep 8 13:32 mod_jk.log <<<<<<<<<< -rw-r--r-- 1 root root 475M Sep 8 08:45 mod_jk.log.1 <<<<<<<<<<
svc_dc -LCD (liste kernedumps) kan også vise et par dumps med suffikset "_mgmtd".
Disse blev oprettet, når SP'erne går i panik, da nogle tjenester ikke kan starte (på grund af at /nbsnas er fuld).
spx:/> svc_dc -lcd ======================== [DC copier]: Available on backend: CP_dump_spb_CKM00161701xxx_2016-09-08_13_29_47_17275_ECOM core-dump_dump_spb_CKM00161701xxx_2016-09-08_08_46_23_778_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_19_11994_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_53_21524_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_05_11446_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_45_24620_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_28_30_3067_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_29_08_15086_mgmtd