开始新对话

未解决

此帖子已超过 5 年

9706

2013年6月24日 02:00

lun path dead

有个问题需要请教下大家 ,下面是描述:

一台DELL服务器通过二个2460单口HBA,二台交换机冗余连接二台EMC CX300,suse 9系统,现在发现IO响应很慢,不运行程序已经:

Device:    rrqm/s wrqm/s   r/s   w/s  rsec/s  wsec/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util

sda          0.06  26.52  0.43  1.14   13.30  221.34     6.65   110.67   148.84     1.79  227.01 632.91  99.77

sdb          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.00     0.00  469.38 469.38   0.00

sdc          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.60     0.00  192.48 188.60   0.00

无法运行程序。

下面是我的检查步骤,先抓取了DELL 硬件日志,查看没有明显问题,再查看 GDGZ-PB-TJ1-WAP20:~ # powernt display dev=all,里面有多个这种报错(有多个Lun):

Pseudo name=emcpowerbi

CLARiiON ID=CK200074400728 [GDGZ-PB-TJ1-WAP20]

Logical device ID=60060160EC901E0062EB0D45B945DE11 [LUN 12]

state=alive; policy=CLAROpt; priority=0; queued-IOs=0

Owner: default=SP A, current=SP A       Array failover mode: 1

==============================================================================

---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---

###  HW Path                I/O Paths    Interf.   Mode    State  Q-IOs Errors

==============================================================================

   4 qla2xxx                   sdaa      SP A0     active  alive      0      0

   4 qla2xxx                   sdai      SP B0     active  alive      0      0

   3 qla2xxx                   sdi       SP A1     active  alive      0   1460

   3 qla2xxx                   sds       SP B1     active  dead       0   1421

从这里看,一个链路感觉有问题,不知道是不是引起IO很高的原因,收集了二台EMC的日志,发现HBA连接注册都是正常,也没有报错,想请各位大侠帮忙分析下可能问题,以及下一步需要的解决思路,谢谢

196 消息

2013年6月24日 02:00

尝试下添加相关日志

4个附件

1.2K 消息

2013年6月24日 02:00

qihua , 你好。我是论坛版主Jason周。我注意到,你的这个帖子被不小心创建在了你的个人的版面内了。建在个人版块里的帖子其他人基本没机会看到,也就没有回复了。至于为什么会发生这样的情况以及如何避免,可参考我写的这个帖子 【帮助说明】如何避免帖子在不经意间被创建在了错误的版面里,导致收不到回复(因为别人看不到帖子)

我现在已把你的帖子移动到中文支持论坛内的 存储系统 版块里了,稍后会有懂CLARiiON CX系列的朋友来跟你分享或解答。以后建议先由中文支持论坛首页 用顶部的导航按钮先进入相应的版块(例如:存储系统),然后用右边操作栏里的“开始一个讨论”来创建帖子提问或者分享,这样创建出来的帖子默认就是在你所在的版块的,避免帖子被无意中创建在了个人版块内。谢谢!

196 消息

2013年6月24日 22:00

谢谢你的意见,下次注意

只是怎么没人给点意见啦,各位大神,求思路~

605 消息

2013年6月25日 01:00

楼主先处理链路问题。

我的看法如下:

楼主说的I/O很慢,应该是延迟导致的。从iostat结果来看,带宽使用率并不高,但是io延迟都是好几百毫秒。

HW Path为3的HBA所有链路都报错,原因应该是CK200074400728这台阵列的SPB1端口导致。如果CK200074400728这台阵列的SPB1端口出现链路bouncing状态(链路是否出现bouncing,可以先查看下/var/log/message有没有相关告警日志),这时候会影响HW Path为3的HBA所有链路。

以块设备emcpowerbc为列:

Pseudo name=emcpowerbc

CLARiiON ID=CK200074400728 [GDGZ-PB-TJ1-WAP20]

Logical device ID=60060160EC901E0091E42914D448DE11 [LUN 1]

state=alive; policy=CLAROpt; priority=0; queued-IOs=0

Owner: default=SP B, current=SP B       Array failover mode: 1

==============================================================================

---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---

###  HW Path                I/O Paths    Interf.   Mode    State  Q-IOs Errors

==============================================================================

   4 qla2xxx                   sdae      SP B0     active  alive      0      0

  3 qla2xxx                   sde       SP A1     active  alive      0   1458

  3 qla2xxx                   sdo       SP B1     active  dead       0   1422

   4 qla2xxx                   sdw       SP A0     active  alive      0      0

  

  

Device:    rrqm/s wrqm/s   r/s   w/s  rsec/s  wsec/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util

sde          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.59     0.00  482.87 479.07   0.01

sdo          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.00     0.00  177.58 177.58   0.00

sdae         0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.00     0.00    9.23   9.23   0.00

sdw          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.45     0.00   25.71  22.77   0.00

emcpowerbc   0.00   0.00  0.19  0.07   48.91   17.22    24.46     8.61   247.13     0.11  399.61 395.75  10.59

196 消息

2013年6月30日 20:00

谢谢jun的分析,有些不明白,想请教下

你说到HW Path为3的HBA所有链路都报错,原因应该是CK200074400728这台阵列的SPB1端口导致  ,但是

SPA 也有大量的报错,不过没有dead状态,这个需要怎么考虑呢?

  3 qla2xxx                   sde       SP A1     active  alive      0   1458

  3 qla2xxx                   sdo       SP B1     active  dead       0   1422


还有,我重启了下服务器,目前连接已经正常,链路没有dead状态,但是 还是这里会有error的错误 ,而SP A0,B0没有

Pseudo name=emcpowerbh

CLARiiON ID=CK200074400728 [GDGZ-PB-TJ1-WAP20]

Logical device ID=60060160EC901E0060EB0D45B945DE11 [LUN 10]

state=alive; policy=CLAROpt; priority=0; queued-IOs=0

Owner: default=SP A, current=SP A       Array failover mode: 1

==============================================================================

---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---

###  HW Path                I/O Paths    Interf.   Mode    State  Q-IOs Errors

==============================================================================

   4 qla2xxx                   sdag      SP B0     active  alive      0      0

   3 qla2xxx                   sde       SP A1     active  alive      0     10

   3 qla2xxx                   sdm       SP B1     active  alive      0      8

   4 qla2xxx                   sdy       SP A0     active  alive      0      0

再问个问题, 这下面的显示这么多sd 硬盘,怎么和EMC 映射的lun做对应关系啊,没有挂这么多硬盘啊

Device:    rrqm/s wrqm/s   r/s   w/s  rsec/s  wsec/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util

sde          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.59     0.00  482.87 479.07   0.01

sdo          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.00     0.00  177.58 177.58   0.00

sdae         0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.00     0.00    9.23   9.23   0.00

sdw          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.45     0.00   25.71  22.77   0.00

emcpowerbc   0.00   0.00  0.19  0.07   48.91   17.22    24.46     8.61   247.13     0.11  399.61 395.75  10.59

说了比较多,谢谢耐心察看~

2.1K 消息

2013年7月1日 00:00

qihua,powermt display输出的I/O Paths(sdxx)那一栏就是Powerpath多路径下面的设备。IOstat输出的emcpowerbc应该就是聚合以后的性能信息了。

196 消息

2013年7月3日 18:00

hi,fenglin:

之前说到HW Path为3的HBA所有链路都报错,原因应该是CK200074400728这台阵列的SPB1端口导致  ,但是

SPA 也有大量的报错,不过没有dead状态,这个需要怎么考虑呢?

  3 qla2xxx                   sde       SP A1     active  alive      0   1458

  3 qla2xxx                   sdo       SP B1     active  dead       0   1422

但是我还是没有明白,这二个报错的,是不是对应的3 这个HBA卡所连接的SPA1 以及SPB1 的链路有问题啊,我觉得不只是SPB1?不知道是不是我的理解有误,望解答

现在的情况是随着时间的增加,这下面的二行的error就是持续增加,而SP A0 B0并没有报错,磁盘的IO 延时还是很高,无法正常启业务,查看服务器硬件,交换机也没有报错,但是交换机HBA 卡对应的端口FP模块第一个灯正常绿灯,第二个橙灯,请问一般有什么问题呢,这种性能问题需要怎么做进一步的排错呢,谢谢了


2.1K 消息

2013年7月3日 18:00

qihua,看你powermt输出,全是3这条链路的报错,建议你先检查这个HBA的链路吧,如果你发现交换机上模块上灯状态不正常,先着重看那个问题吧。

另外,也许你贴出来的spcollect里面会有其它线索眉目呢,请论坛其它网友帮你分析一下吧。

196 消息

2013年7月3日 19:00

fenglin,我刚才详细查看了下交换机的日志,里面看起来端口都是正常,没有报错

13号端口就是3号HBA卡的这台交换机相连的

13  13   id    N4   Online           F-Port  21:00:00:1b:32:1e:d6:e1

=====Innfor for port 13=====

AUTH flags 1

AUTH main State: 0

AUTH Debug State: CLEAN

authFabricState: none

Last AUTH error: no error

Neighbort WWN 00:00:00:00:00:00:00:00

Timer is free

Fragment data is clean

只是发现13号端口接收发送信息挺多的,14号(4 HBA卡相连)这个端口信息量很少:

Port     BPort    Diag     Active   Speed     FrTX      FrRX      LLI Errs   Loopback

0/13     13       OK        UP     4G Auto   87777815  159814478 0        

0/14     14       OK        UP     4G Auto   36        33        0  

请问这些对问题有帮助吗?如果要对HBA卡进行排错,请问有什么方法没?谢谢了

2.1K 消息

2013年7月3日 20:00

你在tanjun写的的系统日志里面发现有什么异常吗?你是哪个操作系统?3这条条链路报错有14xx个,应该系统日志有记录相关错误内容的。找到什么异常的可以贴出来大家一起分析下。

另外,在还没搞清楚具体问题之前,如果你真的要对HBA进行排错,个人觉得可以去尝试的是查看HBA日志、检查、升级HBA驱动,检查物理连线。

196 消息

2013年7月3日 23:00

还是没有头绪。。

开始没有完全说明白,是suse 9 操作系统,其实这台机器连接了二台EMC,从IO延时来看,每台EMC 都有挂载的lun 有IO 延时很高的情况,一共是10个Lun,目前查看有3个Lun延时很高,一台EMC 是一个Lun,另一台EMC2个lun

所以现在有点乱,感觉EMC 不大可能二台都有问题,而且每一台emc都有正常的Lun,也有不正常的lun

具体的日志以及延时信息我都前面有贴了上去,有哪位大侠帮忙分析下吗,非常感谢~

要检查HBA 日志,从哪里看呢?

2.1K 消息

2013年7月3日 23:00

通常是在/var/log/messages里面,kernel: qla2x00或者scsi类,或者你问题盘sdxx的报错信息,看看有没有什么线索。

196 消息

2013年7月4日 00:00

你好:

从Message日志看

bus 3有大量的报错,先是dead,然后又会kill,后面又会alive,这是什么情况呢,另外,为什么日志中只有bus 3出现,是不是应该有4个bus?

把日志也贴上,能帮我分析下吗?谢谢

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Killing bus 3 to Clariion  CK200074400728 port SP A1.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 6 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 3 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 7 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 0 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 2 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 5 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Error:Mpx:Path Bus 3 Tgt 0 Lun 1 to CK200074400728 is dead.

Jul  4 14:32:21 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 1 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 6 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 3 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 7 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 0 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 2 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 5 to CK200074400728 is alive.

Jul  4 14:32:31 GDGZ-PB-TJ1-WAP20 kernel: Info:Mpx:Path Bus 3 Tgt 0 Lun 4 to CK200074400728 is alive.

1个附件

2.1K 消息

2013年7月4日 00:00

从日志来看,看起来是链路不稳定造成的,导致PP把这个Path认为Dead了,然后又阶段性恢复。我建议你再根据以下几个步骤再一一排查:

  • 确认HBA驱动已经正确安装与加载。
  • 检查交换机日志是不是有错误和一些不常见的活动。(你已经做过了,不过最好再确认一下)
  • 尝试换一个交换机端口或者更换主机到交换机的光纤线,看看问题是不是还在。
  • 如果问题还在,联系你的服务器厂商,看看是不是HBA的硬件问题。

196 消息

2013年7月4日 19:00

fenglin 您好:

根据我的判断及您提的建议,我准备去现场做如下几个操作:

1.由于从链路看,都是由于HBA 3dead 造成的,我准备先把HBA 卡3 的光纤线拔掉,这样,正常情况下,数据应该都是转移到HBA 4上工作,到时再启业务查看下IO是否正常

2.由于交换机上端口更换不方便,交换机日志也没有报错,如果第一步操作后工作正常,准备直接更换HBA卡。

但是我没有过相关经验,有些问题想请教下:

更换HBA卡后,交换机中肯定会涉及到zone的更改问题,我是不是需要在交换机中改别名,重新配置下?

EMC 中有当时HBA卡的注册,现在换了HBA卡后,是不是应该重新注册?我想问下,重新注册,需要先删除之前的HBA卡注册信息吗?好像还要进入到工程模式?如果不需要删除,是不是主机suse 9系统端如果有安装有agent,是不是会自动识别到新的WWN,到时怎么个手动注册法呢?

非常感谢解答,如果有相关方法和网页链接,麻烦给下,谢谢了

找不到事件!

Top