开始新对话

此帖子已超过 5 年

Solved!

Go to Solution

5856

2012年7月26日 07:00

EMC CX300 主机上的agent都掉了

HI,

    大家好,最近手头有个CX300,从navisphyer上看,存储上连四台主机的agent都掉了,但是盘还在主机上,并未影响业务。无从下手,附件为主机日志,麻烦有时间朋友帮忙分析一下。 谢谢了。

1个附件

290 消息

2012年7月26日 22:00

从附件中的图片和日志来看,主机上的F确实是主机注册的问题,不影响业务。

除了卸载Host Agent选择手动注册外,也可以试试在主机端重启Host Agent。各种OS上的重启Host Agent的命令请参考https://community.emc.com/message/586485#586485

从日志中看SPSA报Faulted,建议报修及时更换:)

SPE3 Enclosure SPE           *FAULT*

  (Enclosure SPE : Faulted; Enclosure SPE SPS A : Faulted)

SP A State:                 Present

SP B State:                 Present

Enclosure SPE Power A0 State: Present

Enclosure SPE Power A1 State: Present

Enclosure SPE Power B0 State: Present

Enclosure SPE Power B1 State: Present

Enclosure SPE SPS A State: Faulted

Enclosure SPE SPS B State:  Present

Enclosure SPE SPS A Cabling State: Cabling Status is unknown

Enclosure SPE SPS B Cabling State: Valid

416 消息

2012年7月26日 07:00

建议卸载Agent,手动在阵列注册。这种Agent自动注册的方法经常出现问题。

15 消息

2012年7月26日 07:00

嗯嗯,谢谢!

163

发件人: Password01!

发送时间: 2012-07-26 22:52

收件人: flyingkite

主题: New message: "EMC CX300 主机上的agent都掉了"

EMC Community Network

Re: EMC CX300 主机上的agent都掉了

created by Password01! in 存储系统 - View the full discussion

建议卸载Agent,手动在阵列注册。这种Agent自动注册的方法经常出现问题。

Reply to this message by replying to this email -or- go to the message on ECN

Start a new discussion in 存储系统 by email or at ECN

416 消息

2012年7月26日 23:00

我们在实际的实施过程中已经不是一次两次的遇到Agent注册的问题了。如果一个阵列连接多台主机,这些主机如果都安装agent,那么有可能会出现主机注册混乱的状况。所以,在实施的时候,我都不安装agent。还是手动注册靠谱,手动注册没出现过一次问题。

15 消息

2012年7月26日 23:00

嗯嗯,奇怪的是之前一直都是好的,突然之间就出现这个情况。是不是某个光纤卡或者SAN交换的某个端口出问题,就会影响到所有的agent注册了?

163

发件人: Password01!

发送时间: 2012-07-27 14:00

收件人: flyingkite

主题: New message: "EMC CX300 主机上的agent都掉了"

EMC Community Network

Re: EMC CX300 主机上的agent都掉了

created by Password01! in 存储系统 - View the full discussion

我们在实际的实施过程中已经不是一次两次的遇到Agent注册的问题了。如果一个阵列连接多台主机,这些主机如果都安装agent,那么有可能会出现主机注册混乱的状况。所以,在实施的时候,我都不安装agent。还是手动注册靠谱,手动注册没出现过一次问题。

Reply to this message by replying to this email -or- go to the message on ECN

Start a new discussion in 存储系统 by email or at ECN

15 消息

2012年7月26日 23:00

非常感谢您的帮助,硬件的更换问题不大,也好解决,就是这个注册的问题,之前都是好的,突然就这样,就怕有什么别的隐患而影响到业务。

163

发件人: Nancy Qian

发送时间: 2012-07-27 13:25

收件人: flyingkite

主题: New message: "EMC CX300 主机上的agent都掉了"

EMC Community Network

Re: EMC CX300 主机上的agent都掉了

created by Nancy Qian in 存储系统 - View the full discussion

从附件中的图片和日志来看,主机上的F确实是主机注册的问题,不影响业务。

除了卸载Host Agent选择手动注册外,也可以试试在主机端重启Host Agent。各种OS上的重启Host Agent的命令请参考https://community.emc.com/message/586485#586485

从日志中看SPSA报Faulted,建议报修及时更换:)

SPE3 Enclosure SPE FAULT

(Enclosure SPE : Faulted; Enclosure SPE SPS A : Faulted)

SP A State: Present

SP B State: Present

Enclosure SPE Power A0 State: Present

Enclosure SPE Power A1 State: Present

Enclosure SPE Power B0 State: Present

Enclosure SPE Power B1 State: Present

Enclosure SPE SPS A State: Faulted

Enclosure SPE SPS B State: Present

Enclosure SPE SPS A Cabling State: Cabling Status is unknown

Enclosure SPE SPS B Cabling State: Valid

Reply to this message by replying to this email -or- go to the message on ECN

Start a new discussion in 存储系统 by email or at ECN

60 消息

2012年7月28日 06:00

没问题的。

从来不自动注册,记得EMC实施工程师也告诉我最好不要自动注册,不如手动注册来的放心。

15 消息

2012年7月28日 06:00

嗯,那就放心了,谢谢~

163

发件人: chrsi_wang

发送时间: 2012-07-28 21:13

收件人: flyingkite

主题: New message: "EMC CX300 主机上的agent都掉了"

EMC Community Network

Re: EMC CX300 主机上的agent都掉了

created by chrsi_wang in 存储系统 - View the full discussion

没问题的。

从来不自动注册,记得EMC实施工程师也告诉我最好不要自动注册,不如手动注册来的放心。

Reply to this message by replying to this email -or- go to the message on ECN

Start a new discussion in 存储系统 by email or at ECN

93 消息

2012年7月28日 08:00

手工注册总要输主机名 、IP,还要对HBA的WWN号,在连的主机多的时候,也是件头疼的事情。

416 消息

2012年7月28日 20:00

我所说的手动注册不是指WWN也需要手动输入(HP-UX除外)。

而是,阵列可以扫描到HBA卡的WWN,然后将这个WWN再注册成一台主机,很简单,不需要手动输入WWN。

我的一个同事前两天连过一台HP-UX,这个WWN就无法被阵列扫描到,这个特殊的情况,需要手动输入WWN,然后注册主机。

416 消息

2012年7月28日 21:00

具体的如何操作??

谢谢!

1.4K 消息

2012年7月28日 21:00

HP-UX 必须触发I/O才能Login FC Fabric,dd一下就可以看到WWPN出现在connectivity status中。

109 消息

2012年7月29日 21:00

HP-UX的确比较特殊,在空闲的时候HBA会从存储阵列的前端口登出(logout),但是这个和"Fabric Login"的过程是有区别的。(HBA建立到存储的链接大致过程是 fabric login -> query name server -> (storage) port login)。这里从存储阵列端口登出,指的是最后一步的逆操作,但是不会从fabric 登出。

这个时候常见的情况是:

- 存储段看不到HBA的连接。Clariion或者VNX上,Connectivity Status会显示login为“No"

- 主机端没有报错,并且设备状态正常

- 交换机的状态会显示所有端口正常登录

因此在HP-UX上,不能由Clariion或者VNX的"Connectivity Status"来判断链路是否正常。

因此,使用HP-UX连接Clariion通常需要手动注册。在HP-UX上查看HBA设备的WWPN信息可以用  fcmsutil ,如 fcmsutil /dev/fcd1

题外话:

阿超同学提供的dd方法在初始配置的时候可能没法用,因为这时候如果还没有LUN分配给HP-UX,那么就没办法执行这个命令啦。但是在一个已经运行的环境中如果想要在Connectivity Status里面让login变为Yes,可能可以通过这个方式来迫使HP-UX的HBA登录到存储端口上。dd 命令的格式可以看一下man手册,大致是:

dd if= of= bs= count=

这里输入输出文件都可以是设备,但是千万不要输出到磁盘设备!否则数据就没有了...

举个例子:

dd if=/dev/dsk/c0t0d0 of=/dev/null bs=1024 count=10

会从c0t0d0上读取10个1024字节大小的块,扔到/dev/null里面去

15 消息

2012年8月18日 06:00

实在不好意思,最近实在太忙,导致没有结贴。

最后,把坏的SPS更换之后,主机没有注册的告警也同时消失了。没有做其它的操作了。

可能是SPS导致,还是第一次遇到这种情况。

再次谢谢各位。

60 消息

2012年8月19日 02:00

这种问题非理论可以解释,归咎于bug吧

找不到事件!

Top