Fenglin1
4 Germanium

Re: lun path dead

你在tanjun写的的系统日志里面发现有什么异常吗?你是哪个操作系统?3这条条链路报错有14xx个,应该系统日志有记录相关错误内容的。找到什么异常的可以贴出来大家一起分析下。

另外,在还没搞清楚具体问题之前,如果你真的要对HBA进行排错,个人觉得可以去尝试的是查看HBA日志、检查、升级HBA驱动,检查物理连线。

0 项奖励
qihua1
3 Argentum

Re: lun path dead

还是没有头绪。。

开始没有完全说明白,是suse 9 操作系统,其实这台机器连接了二台EMC,从IO延时来看,每台EMC 都有挂载的lun 有IO 延时很高的情况,一共是10个Lun,目前查看有3个Lun延时很高,一台EMC 是一个Lun,另一台EMC2个lun

所以现在有点乱,感觉EMC 不大可能二台都有问题,而且每一台emc都有正常的Lun,也有不正常的lun

具体的日志以及延时信息我都前面有贴了上去,有哪位大侠帮忙分析下吗,非常感谢~

要检查HBA 日志,从哪里看呢?

0 项奖励
Fenglin1
4 Germanium

Re: lun path dead

通常是在/var/log/messages里面,kernel: qla2x00或者scsi类,或者你问题盘sdxx的报错信息,看看有没有什么线索。

qihua1
3 Argentum

Re: Re: lun path dead

你好:

从Message日志看

bus 3有大量的报错,先是dead,然后又会kill,后面又会alive,这是什么情况呢,另外,为什么日志中只有bus 3出现,是不是应该有4个bus?

把日志也贴上,能帮我分析下吗?谢谢

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Killing bus 3 to Clariion  CK200074400728 port SP A1.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 6 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 3 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 7 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 0 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 2 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 5 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 1 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 1 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 6 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 3 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 7 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 0 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 2 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 5 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 4 to CK200074400728 is alive.

0 项奖励
Fenglin1
4 Germanium

Re: Re: lun path dead

从日志来看,看起来是链路不稳定造成的,导致PP把这个Path认为Dead了,然后又阶段性恢复。我建议你再根据以下几个步骤再一一排查:

  • 确认HBA驱动已经正确安装与加载。
  • 检查交换机日志是不是有错误和一些不常见的活动。(你已经做过了,不过最好再确认一下)
  • 尝试换一个交换机端口或者更换主机到交换机的光纤线,看看问题是不是还在。
  • 如果问题还在,联系你的服务器厂商,看看是不是HBA的硬件问题。
0 项奖励
qihua1
3 Argentum

Re: Re: lun path dead

fenglin 您好:

根据我的判断及您提的建议,我准备去现场做如下几个操作:

1.由于从链路看,都是由于HBA 3dead 造成的,我准备先把HBA 卡3 的光纤线拔掉,这样,正常情况下,数据应该都是转移到HBA 4上工作,到时再启业务查看下IO是否正常

2.由于交换机上端口更换不方便,交换机日志也没有报错,如果第一步操作后工作正常,准备直接更换HBA卡。

但是我没有过相关经验,有些问题想请教下:

更换HBA卡后,交换机中肯定会涉及到zone的更改问题,我是不是需要在交换机中改别名,重新配置下?

EMC 中有当时HBA卡的注册,现在换了HBA卡后,是不是应该重新注册?我想问下,重新注册,需要先删除之前的HBA卡注册信息吗?好像还要进入到工程模式?如果不需要删除,是不是主机suse 9系统端如果有安装有agent,是不是会自动识别到新的WWN,到时怎么个手动注册法呢?

非常感谢解答,如果有相关方法和网页链接,麻烦给下,谢谢了

0 项奖励
zhouzengchao
4 Beryllium

Re: Re: lun path dead

换HBA后重新注册下,先删除(deregister)之前的,在手动创建;或者在Linux上安装Agent自动注册。

手动注册步骤如下(这是用于CX4的,CX300太老,找不到对应的,你可以参考CX4的步骤来做)

1. Navigate to the Array System Information.

2. Select the Storage System Connectivity Status option which is on the left panel.

3. Select the hosts,drill down to the initiator which needs to be registered.

4. Highlight the initiator and select " Register ".

5. Enter the Initiator Name, Initiator type, Failover mode.

6. Check Array commpath. Select New Host/ Existing Host accordingly.

7. Click OK. This would result in Success message.

0 项奖励
Roger_Wu
5 Rhenium

Re: Re: lun path dead

交换机上如果之前用了别名来划分zone,那就改别名再重新激活配置。没有用别名的话,就要改所有zone的PWWN。

在存储上重新注册HBA (initiator)最好还是先删除之前的记录。一般只有在路径注册出现错误信息,或者需要彻底删除某个主机时"可能"需要进入工程师模式,日常操作的话不需要进入。

0 项奖励
qihua1
3 Argentum

Re: Re: Re: lun path dead

还有一些图片一起上图:

先说明一下情况,我新更单换上的HBA卡wwn 是:尾数为  57: F8 ,故障HBA 卡wwn 为:D6:E1

主机为 GDGZ-PB-TJ1-WAP20 

在上面的尝试都做过后,最近重新删除新注册后,我没选择:主机右键-connectivity status - 选 中二台wwn -group edit initiators 注册,直接Register 一条一条注册,还是不行,直接报错,见图 0710-2

我当时是按文档上操作的,见图8

后面是一些现场拍下的图,作为参考

可能大家看的比较不方便,写的比较多,比较乱,主要是刚接触EMC,还不熟悉,可能很多表达不清楚,只能麻烦各位大神帮忙 了,非常感谢

0 项奖励
shengqiu_Cui
3 Silver

Re: lun path dead

这个是链路问题吧

0 项奖励