qihua1
3 Argentum

lun path dead

有个问题需要请教下大家 ,下面是描述:

一台DELL服务器通过二个2460单口HBA,二台交换机冗余连接二台EMC CX300,suse 9系统,现在发现IO响应很慢,不运行程序已经:

Device:    rrqm/s wrqm/s   r/s   w/s  rsec/s  wsec/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util

sda          0.06  26.52  0.43  1.14   13.30  221.34     6.65   110.67   148.84     1.79  227.01 632.91  99.77

sdb          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.00     0.00  469.38 469.38   0.00

sdc          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.60     0.00  192.48 188.60   0.00

无法运行程序。

下面是我的检查步骤,先抓取了DELL 硬件日志,查看没有明显问题,再查看 GDGZ-PB-TJ1-WAP20:~ # powernt display dev=all,里面有多个这种报错(有多个Lun):

Pseudo name=emcpowerbi

CLARiiON ID=CK200074400728 [GDGZ-PB-TJ1-WAP20]

Logical device ID=60060160EC901E0062EB0D45B945DE11 [LUN 12]

state=alive; policy=CLAROpt; priority=0; queued-IOs=0

Owner: default=SP A, current=SP A       Array failover mode: 1

==============================================================================

---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---

###  HW Path                I/O Paths    Interf.   Mode    State  Q-IOs Errors

==============================================================================

   4 qla2xxx                   sdaa      SP A0     active  alive      0      0

   4 qla2xxx                   sdai      SP B0     active  alive      0      0

   3 qla2xxx                   sdi       SP A1     active  alive      0   1460

   3 qla2xxx                   sds       SP B1     active  dead       0   1421

从这里看,一个链路感觉有问题,不知道是不是引起IO很高的原因,收集了二台EMC的日志,发现HBA连接注册都是正常,也没有报错,想请各位大侠帮忙分析下可能问题,以及下一步需要的解决思路,谢谢

0 项奖励
22 回复数
qihua1
3 Argentum

Re: lun path dead

尝试下添加相关日志

0 项奖励
Jason_Zhou
4 Beryllium

Re: lun path dead

qihua , 你好。我是论坛版主Jason周。我注意到,你的这个帖子被不小心创建在了你的个人的版面内了。建在个人版块里的帖子其他人基本没机会看到,也就没有回复了。至于为什么会发生这样的情况以及如何避免,可参考我写的这个帖子 【帮助说明】如何避免帖子在不经意间被创建在了错误的版面里,导致收不到回复(因为别人看不到帖子)

我现在已把你的帖子移动到中文支持论坛内的 存储系统 版块里了,稍后会有懂CLARiiON CX系列的朋友来跟你分享或解答。以后建议先由中文支持论坛首页 用顶部的导航按钮先进入相应的版块(例如:存储系统),然后用右边操作栏里的“开始一个讨论”来创建帖子提问或者分享,这样创建出来的帖子默认就是在你所在的版块的,避免帖子被无意中创建在了个人版块内。谢谢!

0 项奖励
qihua1
3 Argentum

Re: lun path dead

谢谢你的意见,下次注意

只是怎么没人给点意见啦,各位大神,求思路~

0 项奖励
Jun_Tan
3 Zinc

Re: lun path dead

楼主先处理链路问题。

我的看法如下:

楼主说的I/O很慢,应该是延迟导致的。从iostat结果来看,带宽使用率并不高,但是io延迟都是好几百毫秒。

HW Path为3的HBA所有链路都报错,原因应该是CK200074400728这台阵列的SPB1端口导致。如果CK200074400728这台阵列的SPB1端口出现链路bouncing状态(链路是否出现bouncing,可以先查看下/var/log/message有没有相关告警日志),这时候会影响HW Path为3的HBA所有链路。

以块设备emcpowerbc为列:

Pseudo name=emcpowerbc

CLARiiON ID=CK200074400728 [GDGZ-PB-TJ1-WAP20]

Logical device ID=60060160EC901E0091E42914D448DE11 [LUN 1]

state=alive; policy=CLAROpt; priority=0; queued-IOs=0

Owner: default=SP B, current=SP B       Array failover mode: 1

==============================================================================

---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---

###  HW Path                I/O Paths    Interf.   Mode    State  Q-IOs Errors

==============================================================================

   4 qla2xxx                   sdae      SP B0     active  alive      0      0

  3 qla2xxx                   sde       SP A1     active  alive      0   1458

  3 qla2xxx                   sdo       SP B1     active  dead       0   1422

   4 qla2xxx                   sdw       SP A0     active  alive      0      0

  

  

Device:    rrqm/s wrqm/s   r/s   w/s  rsec/s  wsec/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util

sde          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.59     0.00  482.87 479.07   0.01

sdo          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.00     0.00  177.58 177.58   0.00

sdae         0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.00     0.00    9.23   9.23   0.00

sdw          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.45     0.00   25.71  22.77   0.00

emcpowerbc   0.00   0.00  0.19  0.07   48.91   17.22    24.46     8.61   247.13     0.11  399.61 395.75  10.59

0 项奖励
qihua1
3 Argentum

Re: lun path dead

谢谢jun的分析,有些不明白,想请教下

你说到HW Path为3的HBA所有链路都报错,原因应该是CK200074400728这台阵列的SPB1端口导致  ,但是

SPA 也有大量的报错,不过没有dead状态,这个需要怎么考虑呢?

  3 qla2xxx                   sde       SP A1     active  alive      0   1458

  3 qla2xxx                   sdo       SP B1     active  dead       0   1422


还有,我重启了下服务器,目前连接已经正常,链路没有dead状态,但是 还是这里会有error的错误 ,而SP A0,B0没有

Pseudo name=emcpowerbh

CLARiiON ID=CK200074400728 [GDGZ-PB-TJ1-WAP20]

Logical device ID=60060160EC901E0060EB0D45B945DE11 [LUN 10]

state=alive; policy=CLAROpt; priority=0; queued-IOs=0

Owner: default=SP A, current=SP A       Array failover mode: 1

==============================================================================

---------------- Host ---------------   - Stor -   -- I/O Path -  -- Stats ---

###  HW Path                I/O Paths    Interf.   Mode    State  Q-IOs Errors

==============================================================================

   4 qla2xxx                   sdag      SP B0     active  alive      0      0

   3 qla2xxx                   sde       SP A1     active  alive      0     10

   3 qla2xxx                   sdm       SP B1     active  alive      0      8

   4 qla2xxx                   sdy       SP A0     active  alive      0      0

再问个问题, 这下面的显示这么多sd 硬盘,怎么和EMC 映射的lun做对应关系啊,没有挂这么多硬盘啊

Device:    rrqm/s wrqm/s   r/s   w/s  rsec/s  wsec/s    rkB/s    wkB/s avgrq-sz avgqu-sz   await  svctm  %util

sde          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.59     0.00  482.87 479.07   0.01

sdo          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.00     0.00  177.58 177.58   0.00

sdae         0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.00     0.00    9.23   9.23   0.00

sdw          0.00   0.00  0.00  0.00    0.00    0.00     0.00     0.00     8.45     0.00   25.71  22.77   0.00

emcpowerbc   0.00   0.00  0.19  0.07   48.91   17.22    24.46     8.61   247.13     0.11  399.61 395.75  10.59

说了比较多,谢谢耐心察看~

0 项奖励
Fenglin1
4 Germanium

Re: lun path dead

,powermt display输出的I/O Paths(sdxx)那一栏就是Powerpath多路径下面的设备。IOstat输出的emcpowerbc应该就是聚合以后的性能信息了。

0 项奖励
qihua1
3 Argentum

Re: lun path dead

hi,fenglin:

之前说到HW Path为3的HBA所有链路都报错,原因应该是CK200074400728这台阵列的SPB1端口导致  ,但是

SPA 也有大量的报错,不过没有dead状态,这个需要怎么考虑呢?

  3 qla2xxx                   sde       SP A1     active  alive      0   1458

  3 qla2xxx                   sdo       SP B1     active  dead       0   1422

但是我还是没有明白,这二个报错的,是不是对应的3 这个HBA卡所连接的SPA1 以及SPB1 的链路有问题啊,我觉得不只是SPB1?不知道是不是我的理解有误,望解答

现在的情况是随着时间的增加,这下面的二行的error就是持续增加,而SP A0 B0并没有报错,磁盘的IO 延时还是很高,无法正常启业务,查看服务器硬件,交换机也没有报错,但是交换机HBA 卡对应的端口FP模块第一个灯正常绿灯,第二个橙灯,请问一般有什么问题呢,这种性能问题需要怎么做进一步的排错呢,谢谢了


0 项奖励
Fenglin1
4 Germanium

Re: lun path dead

qihua,看你powermt输出,全是3这条链路的报错,建议你先检查这个HBA的链路吧,如果你发现交换机上模块上灯状态不正常,先着重看那个问题吧。

另外,也许你贴出来的spcollect里面会有其它线索眉目呢,请论坛其它网友帮你分析一下吧。

0 项奖励
qihua1
3 Argentum

Re: lun path dead

fenglin,我刚才详细查看了下交换机的日志,里面看起来端口都是正常,没有报错

13号端口就是3号HBA卡的这台交换机相连的

13  13   id    N4   Online           F-Port  21:00:00:1b:32:1e:d6:e1

=====Innfor for port 13=====

AUTH flags 1

AUTH main State: 0

AUTH Debug State: CLEAN

authFabricState: none

Last AUTH error: no error

Neighbort WWN 00:00:00:00:00:00:00:00

Timer is free

Fragment data is clean

只是发现13号端口接收发送信息挺多的,14号(4 HBA卡相连)这个端口信息量很少:

Port     BPort    Diag     Active   Speed     FrTX      FrRX      LLI Errs   Loopback

0/13     13       OK        UP     4G Auto   87777815  159814478 0        

0/14     14       OK        UP     4G Auto   36        33        0  

请问这些对问题有帮助吗?如果要对HBA卡进行排错,请问有什么方法没?谢谢了

0 项奖励