Dell Unity: 로그 부풀림으로 인해 SP가 서비스 모드로 전환될 수 있음(/nbsnas 파티션이 100% 가득 차게 됨)
Summary: 로그 팽창으로 인해 어레이가 서비스 모드(데이터 사용 불가)로 전환될 수 있음(Dell 수정 가능)
Symptoms
이중 SP 어레이의 경우 스토리지 시스템의 SP 한 개가 서비스 모드로 전환되고 전체 시스템을 CLI, UI, REST API, SMI-S 등의 관리 인터페이스를 통해 운영할 수 없습니다. 두 SP가 모두 서비스 모드로 전환될 때까지 SP가 번갈아 재부팅되는 것으로도 나타날 수 있습니다.
두 SP가 모두 서비스 모드인 Unity 어레이는 I/O를 처리하지 않으므로 DU(Data Unavailable) 상황이 됩니다.
VSA의 경우 단일 SP가 서비스 모드로 재부팅되거나 정상 모드로 유지되어 관리 기능이 손실될 수 있습니다.
전체 시스템은 CLI, UI, REST API, SMI-S를 비롯한 관리 인터페이스를 통해 작동할 수 없습니다.
SSH 또는 IPMI가 작동해야 합니다. IPMI는 항상 작동합니다. SSH는 어레이가 안정화된 후에만 작동할 수 있습니다.
이 문제는 OE 버전 4.0.0.x에서 발견되며 OE 버전 4.0.1.x에서 해결되었습니다.
Cause
UI 및 REST의 모든 요청을 기록하는 로그 파일 /nbsnas/http/logs/mod_jk.log는 운영 SP의 /nbsnas에 마운트된 파일 시스템에 상주합니다. 로그 순환 메커니즘이 없으면 이 파일이 부풀려지면 파일 시스템의 사용 가능한 공간이 계속 소모됩니다. 파일 시스템에 공간이 남아 있지 않으면 다른 내부 소비자가 실패하기 시작합니다. 이러한 구성 요소의 반복적인 장애를 탐지하면 SP 중 하나가 서비스 모드로 전환됩니다.
이 문제가 발생하고 서비스가 보조 SP로 장애 조치(failover)를 시도할 때 동일한 증상이 발생하는 것이 랩에서 관찰되었습니다. SP가 번갈아 몇 번 재부팅되고 결국 둘 다 서비스 모드로 전환됩니다.
항상 UI 또는 REST API를 사용하여 스토리지 시스템을 구성하거나 브라우저에서 UI를 열고 닫지 않고 그대로 두는 경우 고객에게 이 문제가 발생합니다. UI 액세스만 있으면 일반적으로 고객이 이 문제를 확인하는 데 몇 개월이 걸립니다. 고객이 REST API를 사용하여 스토리지 시스템의 데이터를 자주 쿼리하는 경우 이 문제가 더 빨리 발생합니다.
Unity OE 4.0.1.8320161로 업그레이드하면 NDU 중에 문제의 로그 파일이 중복되어 프로세스가 가속화될 수 있으므로 문제가 악화될 수 있는 두 번째 문제가 발견되었습니다.
/nbsbas에서 공간 사용량을 확인하여 이를 확인할 수 있습니다. 공간 사용량이 최소이거나 낮은 경우 NDU 중에 이 문제가 발생하지 않았 으므로 다른 작업이 필요하지 않습니다.
4.0.1.x 코드에는 이미 주요 문제에 대한 수정 사항이 포함되어 있으므로 로그 회전 자체가 올바르게 작동합니다.
파티션에 사용된 비율이 매우 높으면 원인이 되는 로그 파일을 삭제해야 할 수 있습니다(Dell 지원 필요).
공간 사용량을 확인하는 방법과 삭제할 로그의 예는 참고 섹션에서 찾을 수 있습니다.
Dell은 support.emc.com 에서 Unity 및 UnityVSA용 Unity OE 4.0.1.8320161을 제거하기로 결정했습니다. 개정된 Unity OE 릴리스(4.0.1.8404134)가 2016년 9월에 게시되었습니다.
Resolution
이 문제를 해결하려면 기술 지원 부서에서 어레이에 대한 루트 액세스 권한을 얻어야 합니다.
Unity 기술 지원에 문의하고 다음 KB 문서를 언급하십시오. 489057
Additional Information
공간 사용량을 확인하는 방법의 예:
spX:~> df -h /nbsnas Filesystem Size Used Avail Use% Mounted on /dev/c4nasdba1 1013M 55M 908M 6% /nbsnas
이 문제를 일으키는 로그는 /nbsnas/http/logs에서 찾을 수 있습니다.
spx:~> cd /nbsnas/http/logs spx:/nbsnas/http/logs> ll -h total 975M -rw-r--r-- 1 root root 12K Sep 8 13:32 access_log -rw-r--r-- 1 root root 165K Sep 8 08:45 access_log.1.gz -rw-r--r-- 1 root root 239K Sep 8 06:59 access_log.2.gz -rw-r--r-- 1 root root 1.6M Sep 8 13:32 error_log -rw-r--r-- 1 root root 167K Sep 3 04:56 error_log.1.gz -rw-r--r-- 1 root root 495M Sep 8 13:32 mod_jk.log <<<<<<<<<< -rw-r--r-- 1 root root 475M Sep 8 08:45 mod_jk.log.1 <<<<<<<<<<
svc_dc -lcd (list core dumps)는 "_mgmtd" 접미사와 함께 몇 개의 덤프를 표시할 수도 있습니다.
이는 일부 서비스를 시작할 수 없어 SP 패닉이 발생할 때 작성되었습니다(/nbsnas가 가득 찼기 때문에).
spx:/> svc_dc -lcd ======================== [DC copier]: Available on backend: CP_dump_spb_CKM00161701xxx_2016-09-08_13_29_47_17275_ECOM core-dump_dump_spb_CKM00161701xxx_2016-09-08_08_46_23_778_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_19_11994_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_18_53_21524_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_05_11446_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_09_41_45_24620_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_28_30_3067_mgmtd core-dump_dump_spb_CKM00161701xxx_2016-09-08_13_29_08_15086_mgmtd