Linux 커널 버그로 인한 PowerFlex SDS 패닉
Summary: 인텔 Haswell CPU에만 영향을 미치는 문제 SDS 패닉 단일 SDS 패닉으로 인한 DU(Data Unavailability) 긴 I/O 서빙으로 인해 SDC I/O 오류가 발생합니다. Linux 커널 버그
This article applies to
This article does not apply to
This article is not tied to any specific product.
Not all product versions are identified in this article.
Symptoms
시나리오
- 인텔 Haswell CPU를 사용 중입니다.
- SDS 중 하나가 뚜렷한 이유 없이 "데이터 성능 저하" 상태와 SDC의 볼륨 연결 끊김을 보고합니다.
- SDS 패닉
증상
- ScaleIO 시스템 이벤트에서 "data degraded"를 보고합니다.
ScaleIO system events report "data degraded": 205466 2015-12-10 08:11:49.450 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state. 205468 2015-12-10 08:12:04.688 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state. 205470 2015-12-10 08:12:06.699 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state. 205472 2015-12-10 08:12:16.931 MDM_DATA_DEGRADED ERROR The system is now in DEGRADED state.
SDS exp.0:
10/12 02:13:14.134144 Panic in file /emc/svc_flashbld/workspace/ScaleIO-SLES12/src/tgt/ioh/ioh.c, line 70, function iohIo_TimerExpired, PID 22333.Panic Expression !(1). /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosDbg_BackTrace+0x22) [0x479ba9] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosDbg_Panic+0xf0) [0x4740ad] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(iohIo_TimerExpired+0x5d) [0x43d92d] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosTimerQ_PollUnlocked+0x1b4) [0x46f6e3] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosTimer_PollQRange+0x83) [0x46fa6c] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(netPoll_StartIntr+0x2ef) [0x465808] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosUmt_StartFunc+0xbe) [0x47f07d] /opt/emc/scaleio/sds/bin/sds-1.32.3455.5(mosUmt_SignalHandler+0x4a) [0x47fa3a]
영향
- 데이터를 사용할 수 없음
- SDC와 볼륨의 연결이 끊어졌습니다.
- I/O 장애
- Long I/O 서비스/성능 저하
Cause
Linux 커널 버그로 인해 SDS 프로세스가 비정상적으로 동작했습니다. 이 때문에 SDS 프로세스에 스트레스가 있었고 동작을 예측할 수 없었습니다.
연결 유지 요청에 응답하는 동안 SDS가 완전히 작동하지 않고 SDC I/O 요청에 응답하지 않았습니다.
이러한 조건으로 인해 ScaleIO는 SDS를 실패한 것으로 표시할 수 없었으며, 결국 데이터를 사용할 수 없게 되었습니다.
- Linux 커널 버그 정보:
푸텍스: REQUEUE_PI와 작업 종료 간의 경합 상태를 수정합니다(bcn #851603(futex 확장성 시리즈).
푸텍스: get_futex_key_refs()가 항상 장벽을 의미하는지 확인합니다(bcn #851603(futex 확장성 시리즈)).
- 자세한 내용은 다음 링크를 참조하십시오.
SUSE:SUSE-SU-2015:0068-1
Red Hat: 심각한 Red Hat Linux 버그가 Haswell 기반 서버에 영향을 미침 - InfoQ
Resolution
해결 방법
- Linux 커널 버전을 업그레이드합니다.
Affected Products
PowerFlex rack, ScaleIOArticle Properties
Article Number: 000281636
Article Type: Solution
Last Modified: 06 Feb 2025
Version: 1
Find answers to your questions from other Dell users
Support Services
Check if your device is covered by Support Services.