开始新对话

未解决

此帖子已超过 5 年

Community Manager

 • 

6.1K 消息

3357

2016年4月24日 19:00

【微信群问题分享】NS80总是出现SP is ready to restore

大神们,请教个问题。NS80总是出现SP is ready to restore。日志中出现d40发生切换,切回去之后一两天又会出现这个警告。现在能恢复,但是会在固定时间又切换。每个raid组两个lun,有16个raid组,但是就一个lun出现切换在cs中看到的是d40。

#IWork4Dell

请您将合适的回复标记为“接受的回答”,并为喜欢的帖子“点赞”。这对我们非常重要!

Community Manager

 • 

6.1K 消息

2016年4月24日 19:00

用户“R”建议:

后端的问题可能性大,要看一下spcollect

Community Manager

 • 

6.1K 消息

2016年4月24日 20:00

提问者回复用户“J” 说:

光纤是直连DM的,并且如果光纤有问题的话应该不止一个lun切换吧。发生切换的时候检查信息就出现d40 failed over,用nas_storage -fialback 切换后再检查就没有报错了。

2.8K 消息

2016年4月24日 20:00

根据楼主的描述,我也觉得硬件故障的可能性比较大,特别是光纤线故障的嫌疑最大。可以考虑查查光纤交换机日志,看看错误I/O是否很多。

4K 消息

2016年4月24日 20:00

LUN trespass一般伴随着硬件故障,建议先查看一下后端CLARiiON上是否有错误,比较快速的方法是用USM (Unisphere Service Manager)分析一下SPCollects就能看个大概。

SP is ready to restore问题完整的排错指南可以参考KB:

Storage processor is ready to restore on VNX arrays, https://support.emc.com/kb/443063

Troubleshooting CLARiiON trespassed LUNs on Celerra, https://support.emc.com/kb/382905

Community Manager

 • 

6.1K 消息

2016年4月24日 20:00

用户“J” 回复说:

二种故障嫌疑最大:1、查查光纤交换机日至文件,如果错误I/O数量多,可能是光纤问题。2、在NS40上跑命令nas_storage -c -a,看看是否nas存在硬件故障。

58 消息

2016年4月24日 21:00

从日志中看到LUN46 是唯一切换了的lun。

3个附件

4K 消息

2016年4月30日 01:00

看了下日志,Bus上有不少错误,之前都是原厂服务吗?LCC Cable有换过不?

**********************************************************************************************

Backend Bus Speed INFORMATION                                                 [Backend Script]

**********************************************************************************************

Bus1 Enc1 Dsk2: current speed (4) exceeds max speed for device (2)

Bus1 Enc1 Dsk3: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 Dsk4: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 Dsk5: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 Dsk6: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 Dsk7: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 Dsk8: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 Dsk9: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 DskA: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 DskB: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 DskC: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 DskD: current speed (4) exceeds max speed for bus (2)

Bus1 Enc1 DskE: current speed (4) exceeds max speed for bus (2)

        Maximum  Actual Slowest Fastest

Backend   Speed   Speed  Device  Device

   Bus0       4       4       4       4

   Bus1       4       4       2       4

   Bus2       4       4       4       4

   Bus3       4       4       4       4

**********************************************************************************************

ENCLOSURE BUS CHECK INFORMATION                                              [EncCheck Script]

**********************************************************************************************

SP  Enclosure   Start Time        End Time          Disks Errors

B   Bus0 Enc0   03/30/16 08:10:38 03/30/16 08:10:39     5     26

另外还有一些Uncorrectable Parity Sector需要进一步确认以防止可能的DU/DL(参考 "Interpreting uncorrectable data and parity errors on a CLARiiON or VNX array.")。先解决Bus Speed的问题吧,按照KB "What to do when AHA/TRiiAGE logs report 'Backend Bus Speed FAILED: Determine cause for a device running faster than allowed'",如果找不到原因的话,需要升级到Engineering处理的。

最后说一下,SATA盘存放重要数据的话还是建议尽可能RAID 6。

找不到事件!

Top