Jason_Zhou

1.2K 消息

21755

2013年1月8日 21:00

【专家问答第七期】SAN环境下末端设备的常见光纤连接故障处理

2013新年第一期的“专家问答”活动即将开启。本期活动的技术话题为：SAN环境下末端设备（例如HBA/智能阵列端口/带库等）的常见光纤连接故障处理。从2013年1月14日（周一）开始为期两周的时间里，我们将和大家一起讨论和分享关于次话题的经验和心得。下面是一些相关的典型问题：

各类设备无法接入SAN存储局域网。
HBA无法访问到接入SAN存储局域网的智能阵列。
常见的zoning故障。
多路径软件检测到path dead。
Brocade/CISCO MDS交换机常见端口故障处理。

以往所有已完成的“专家问答”活动可参考这个汇总贴。

本期讨论主题：SAN环境下末端设备的常见光纤连接故障处理

本期持续时间：2013年1月14日 – 1月27日，为期两周。活动结束后，本贴将锁定，有相关的后续问题可开新贴提问。

本期我们邀请到的两位专家是： Sam Shi和Jude Zhao。

Sam Shi 13年IT从业经验，2000~2009年先后在通信行业以及跨国企业从事7*24小时关键系统UNIX系统管理。2009年初加入EMC全球支持中心，先后服务于Centera存储以及光纤交换机支持团队。熟悉IT基础架构运营、常见FC SAN环境设备连接故障处理。

Jude Zhao 7年通信/IT行业售后岗位工作经验。目前就职于EMC中国售后技术支持部门，主要负责Connectrix系列产品的技术支持。对FC、IP网络技术有着浓厚兴趣。

和专家交流，与同行畅谈。欢迎大家以回帖的方式就SAN环境下末端设备的常见光纤连接故障处理这个主题，来积极提问和踊跃发表自己的意见。期待您的参与！

回复(64)

J

Jason_Zhou

1.2K 消息

0

2013年1月8日 21:00

本贴暂时锁定。将于下周一（1月14日）活动正式开启前解锁，届时欢迎大家的积极提问和分享。

J

Jason_Zhou

1.2K 消息

0

2013年1月13日 16:00

活动正式开启。帖子解锁，欢迎大家参与提问和讨论。

L

liulei_it

3.2K 消息

0

2013年1月13日 17:00

请问前辈，我一般跑到SAN swith屁股后面看FC口指示灯的情况来判断是否正常除此之外还有别的办法做这件事情吗？SAN switch配置好了也没有登录上去看看也不知道怎么登录以及登录之后有没有什么危险。有什么好的建议么？

SamShi

37 消息

0

2013年1月13日 19:00

SAN switch配置好了也没有登录上去看看也不知道怎么登录以及登录之后有没有什么危险。有什么好的建议么？

不知道您用的什么交换机，Brocade还是CISCO MDS?

两种交换机都支持:

1.telnet/ssh login.

2.console 串口登陆。

Brocade交换机的webtool非常人性化，您可以用浏览器打开交换机IP地址直接管理交换机，完成zoning、交换机配置、监控等绝大多数常见维护。

MDS对应的工具叫做fabric manager/Device manager。

您需要获得交换机IP地址，用户名和密码，才能登陆交换机。

Brocade交换机缺省的IP 为 10.77.77.77，admin 用户缺省密码在Brocade Fabric OS Administrator's Guide中

搜索Password modification能看到。

如果您Ip/账号信息都忘记了，请提供交换机序列号并联系800工程师，我们会派工程师用串口线到现场去找出IP并帮助客户修改admin密码。

SamShi

37 消息

0

2013年1月13日 19:00

非常好的一个问题！我想这是很多IT人都在关注的一个问题。

很多年前我刚进入这个行业的时候只维护一台Linux服务器，那时候我写简单的shell script来监控服务器，脚本每天不同时段会检查设备文件系统、日志告错、系统资源利用等信息，并把结果发邮件给我的邮箱。

后来我进入通信行业维护数十台7*24小时通信系统UNIX服务器，其中大量服务器、数据库、Cluster、关键进程、日常备份结果需要监控，我写了shell脚本，在维护工作站上的crontab进程会每小时运行脚本，脚本程序会登陆我需要监控的服务器，逐一检查需要监控的对象。脚本执行完毕后，脚本会把每台服务器上发现的异常生成一份简洁的报告。对于严重的问题比如进程异常，会提示那台服务器什么进程异常，提示值班室人员打某部门的值班电话进行处理。发生严重问题时脚本程序还会主动发邮件。值班室的电脑一收到邮件，就会播放歌曲，就算深夜值班人员睡着了也不会错过这类故障的处理。那套简单的脚本上线后，7*24小时值班室的工作量减少了90%，监控人员无须IT以及英语背景就能轻松做好系统的监控。

再后来我有机会参与大公司好几千台Solaris/Linux服务器群的维护，国外公司的监控系统给我留下了非常深刻的印象。所有设备、各类网络端口告警、性能、历史数据，监控无处不在。监控系统在保障该公司系统可用率达到99.94%方面提供了极为重要的保障。

交换机的监控有很多方式：

1.您说的人为监控方式是其中的一种。

2.利用syslog服务，我们可以建立syslog 服务器，把所有交换机日志比如Brocade errdump，MDS show logging logs集中到yslog服务器上。然后再syslog服务器上您可以再写脚本去监控，发现严重告警就发邮件通知值班人员。

3.snmp trap，日本客户非常喜欢用的一种方式。主流的交换机都支持snmptrap，配置好后，交换机会往snmp网管系统发送告警。您可以在Brocade Fabric OS Administrator's Guide 或者CISCO CLi configure guide 搜索 trap找到更详细的介绍。

4.EMAIL Home功能。

需要License的：

Brocade的CMDCE或者过去叫做connectrix manager以及MDS的fabric manager或者新版的DCNM都支持主动callhome告警。任何硬件异常、模块重起、端口异常等都可以主动发送邮件，甚至于可以配置EMC callhome功能。一旦交换机发现严重问题，主动给emailalert@emc.com发邮件，EMC CSI系统会自动生成case。800工程师能够主动联系客户指定的值班电话，帮助客户定位并解决故障。

Brocade有fabric watch,CISCO上也有监控交换机性能等特殊的license，能够按照设置的规则来告警或者主动disable端口之类的操作。

MDS交换机本身有mail home的功能，不过这个功能无法支持emailalert@emc.com主动告警并开case，客户可以配置这个告警。一旦发生异常，交换机会给客户设定的邮箱发送告警。

5. snmp query，有的客户熟悉 snmp的，可以写自己的脚本，定期从交换机采集数据。发现异常，可以生成告警。您可以看 Brocade Fabric OS MIB Reference Manual 获得更多信息。

监控方面大家需要注意几点：

1、监控系统本身会增加交换机负荷，监控系统从交换机上采集数据的周期要恰当。

2、不要同时用多套监控系统同时监控一个fabric。过去，我们遇到有客户同时采用老版本、新版本Connectrix manager来监控一个Brocade fabric，结果导致交换机进程异常的现象。

3、某些安全审计软件做扫描的时候，可能造成交换机进程异常。

如果您有进一步的问题，欢迎发帖提问。

L

liulei_it

3.2K 消息

0

2013年1月13日 19:00

谢谢您，听君一席话胜读十年书啊谢谢

Chao_Ma

146 消息

0

2013年1月13日 20:00

以前遇到过2个问题，虽然都解决了，但是具体的原理不是特别清楚，请专家帮忙分析一下。

1、HBA连阵列和磁带库或VTL：主机（SQLServer数据库，集群）配置有2块HBA，其中一块既连阵列也连带库，有些时候带库重启，导致数据库实例在集群里漂移，据说阵列和带库的IO冲突，建议隔离。但为什么会冲突呢？

2、光纤线光衰出现问题，host对磁盘的写入特别慢：主机（linux系统）配置2块HBA，发现磁盘写入特别慢，在阵列和光纤交换机上都没有看到问题，后来发现其中一块HBA对应光纤线的光衰有问题，而且iostat观察发现，IO对所有多路径设备写入都间歇情况（每隔好几秒才写入一次），后来换了线就没有问题了。这种情况，正常是不是多路径软件PP（powerpath）能够自动隔离掉问题路径呢？1条线就导致2块卡都写入严重超时，是否有机制能够解决这个问题呢？

另外，各位前辈能否给一下学习SCSI及其通讯机制的资料呢？万分感谢！

SamShi

37 消息

0

2013年1月13日 20:00

针对您提到的第一个问题，我不了解问题的背景，不过从您提到的“据说阵列和带库的IO冲突，建议隔离。”来看，应该是RSCN方面的问题。

在zoning方面，EMC有几个best practices:

1.一定要做zoning，下面这种不做zone采用default的方式是EMC所不支持的

cfgshow:

/fabos/cliexec/cfgshow:

Defined configuration:

no configuration defined

Effective configuration:

no configuration in effect

defzone --show:

/fabos/link_abin/defzone --show:

Default Zone Access Mode

committed - All Access

transaction - No Transaction

2．Single initiator zoning。每个zone里面只有一个HBA（SCSI Initialtor）.

3. 推荐客户做pwwn zoning。

虽然好像没有文档提到，但是大多 SAN管理人员都会尽可能遵守的：尽可能做小的 zone，不要把太多SCSI target放在一个zone里。这样可以尽可能把RSCN消息隔离。

国内经常看到集成商为了方便，对每块HBA只做了个zone，zone里放大量的阵列、带库等设备！这样zone里任何成员发生任何状态改变，交换机都会发RSCN到这个zone内的所有成员。经常这类客户会在服务器上看到不必要的告警。

只要名称服务器有改变，比如一个设备增加或者以退出fabric网络，或者zoning变更，switch domain ID变更等，一个状态更改通知（RSCN）就会产生。如果没有zoning的话（采用default zone all access模式），RSCN会发到fabric网络上的所有设备上，这样每个设备都要去咨询名称服务器以确定fabric更改后的成员关系怎样。虽然有时该设备的改变没有影响到有的设备，但这个信息照样会送给它。如果是一个大的 fabric网络的话会产生非常多的信息流，尽管只是非常短的时间。

举个例子：一个新的服务器（访问发起者）加入到了fabric网络，这条信息其实是不用通知到其他的服务器（同样也是访问发起者）。因为服务器之间基本上是不会有什么交流的。在被访问者（如存储系统、磁带库等）之间也有同样的情况，这些设备之间也是很少有交流的，所以目标设备在光纤网络里的状态改变也是不用通知到其它的目标设备的。

如果zoning功能打开了的话，那么只有在改变设备所在的zone的有关设备才会收到RSCN。如果设备已经知道它们zone里的成员的话，那么它们不会收到RSCN。只有与状态改变有关的设备才会收到RSCN。所有的设备都假设是不影响正常应用的情况下处理RSCN的，实际的经验显示其实并不都是这样的（我们过去遇到过有设备收到RSCN后处理反常，甚至影响I/O的，怀疑设备驱动有潜在问题）。因此，实施了zone的fabric网络可以提高更高的可用性和稳定性。

把zone划小，可以把RSCN通知的范围控制到最小。

建议您有时间可以看一看这个文档Secure SAN Zoning Best Practices：

http://www.brocade.com/downloads/documents/white_papers/Zoning_Best_Practices_WP-00.pdf

SamShi

37 消息

0

2013年1月13日 21:00

对您提到的第二个问题，我需要咨询SSG/Linux支持的同事了解Powerpath的监控细节。

在交换机上，对于光的强度其实很容易看到的：

Brocade交换机：

Sfpshow 2/35

=============
Slot 2/Port 35:
=============
                                         Alarm                 Warn
                                      low        high       low         high
Temperature: 38      Centigrade     -25         95         -20         90
Current:     9.302   mAmps          1.000       17.000     2.000       14.000
Voltage:     3259.2 mVolts         2700.0      3900.0     2900.0      3700.0
RX Power:    -17.4   dBm (18.0 uW) 10.0   uW   1259.0 uW 15.8   uW   794.0 uW
TX Power:    -4.2    dBm (380.5 uW) 67.0   uW   631.0 uW 79.0   uW   631.0 uW

从上面端口2/35大家就能看到，端口RX power才18uW，系统还不告警（高于15.8uW），可是光已经非常弱了-17.4dBm，大大低于EMC推荐的-7dBm。

CISCO:

MDS9222I-2# show interface transceiver details#试验交换机没接设备，所以您看到的收发光都是0。

…

----------------------------------------------------------------------------

Alarms Warnings

High Low High Low

----------------------------------------------------------------------------

Tx Power N/A -- 1.00 dBm -13.50 dBm -3.00 dBm -9.50 dBm

Rx Power N/A -- 4.00 dBm -21.02 dBm 0.00 dBm -16.99 dBm

Transmit Fault Count = 0

----------------------------------------------------------------------------

一些相关的知识：

1.对于一个端口而言，TX以及RX power都非常关键，正常情况下，相同（单、双模）的SFP，他们的TX power应该是大致一样的。对于2个多模的端口，如果连接对端设备的光纤长度接近，RX power应该是非常接近的。单模SFP，光经过长距离传输后可能衰减厉害，经常会看到是100多uW。TX/RX异常，可能会引起ENC out/CRC,或者CISCO上MAC Bit error过高等一系列问题。毫无疑问也会进一步影响服务器I/O吞吐。

2.sfpshow看到的TX power值,只有在有设备连接的情况下，才有意义，没设备连接的情况下，看到很低的值不算反常。

3.大家经常会看到端口处于in-sync状态，就是sfp几乎不发光了，RX正常，TX接近于0。我的经验，很多时候，把光纤拔走，用portdisable/portenable后，sfpshow出来端口TX power就正常了。把光纤插到其他端口上，很可能新的口又出现类似TX power很低的问题了。这类故障，大多数是设备端或者光纤异常，更换SFP很可能没有帮助。

4.EMC推荐，光的强度要在-7dBm以上，这样设备才能获得非常好地传输速度。我的经验，大多数时候，我看到正常工作的多模sfp,光强度都在-7dBm以上。光的强度单位dBm和电的功率单位uW之间是关联的，uW很低的，光就非常弱。

5.Brocade和CISCO的微码中，SFP光/电压异常的Warn以及Alarm阀值都过于宽泛，真到超出阀值的时候光非常弱了，客户不可能获得稳定高速的传输。

国外一些大客户会用license许可的网管软件来监控类似问题。发生类似问题时，端口可能出现下面这些问题：

1.CRC报错

2.ENC out

3.C3 discard

4.端口频繁遇到Transmit Buffer credit为0的现象。

5.端口可能探测到RX power过低。

Fabric watch等监控软件除了可以报警，还可以按照我们设定的规则直接 disable端口，避免发生更严重的故障。

学习SCSI及其通讯机制的资料呢？我手头没有这方面的资料。您可以到t10.org网站看能不能搜到一些这方面的资料。祝您好运！

Jun_Tan

605 消息

0

2013年1月13日 23:00

说说个人的看法。

第一个问题：

楼主一个HBA同时接带库和存储。当带库重启后，RSCN会要求HBA和带库重新PLOGI、PRLI，这两个步骤会重置HBA。这样使得到存储的链路出现中断。如果带库和存储分别单独使用一个HBA，就应该不会出现这个问题。

第二个问题：

光信号衰减最大的结果不是链路不可用，而是超时错误很多，链路性能下降。故障链路都是通过超时来确定的，由于链路状态不稳定，这种状态对于软件来讲很难理解。毕竟超时配置是固定的。

SCSI通信机制这个跟操作系统实现有很大关系，个人对Linux内核理解，Block IO超时处理主要包含两层：SCSI抽象层和HBA驱动层。两个层面的超时配置是独立的，联系不大。HBA用于检测链路状态，SCSI用于检测SCSI超时。HBA驱动发现故障后，SCSI无法立刻感知；同样HBA驱动发现链路恢复后，SCSI也无法立刻感知。期待有人能够分享关于这块的详细资料。

merrist

482 消息

0

2013年1月14日 03:00

请问一下关于划Zone失效的问题：

实验室有公用的一台博科光交换机，大家都公用这台交换机，所以就存在一个问题，那就是在一个同事使用admin登陆使用时，另外一个用户也在用admin登陆使用，他们都在配置Zone，最终的结果导致后面使用他们自己划分的Zone时，没有生效，这是怎么回事呢？

A

Anonymous

5 Practitioner

•

274.2K 消息

0

2013年1月14日 18:00

想再咨询一下关于单模和多模的问题，之前我只了解到光纤线分单模和多模，这和传输的距离有关系，从9楼看到SFP也分单模和多模，我想问一下，我从交换机上如何查看SFP是单模和多模么。另外有关于单模和多模的文档资料么

SamShi

37 消息

0

2013年1月14日 19:00

谢谢Tan Jun精彩的回答！ Xingchen如果有进一步问题欢迎继续提问。

对于SFP，SFP的兼容性也是一个需要特别关注的地方。

我们一直要求客户采用兼容的SFP。例如Brocade 8G以及16G交换机都要求采用Brocade原厂的sfp(sfpshow输出中Vendor name:Brocade).不兼容的sfp插入后端口会显示Mod_inv状态。即使是Brocade品牌的sfp也有大量的类型，我们也要求客户采用EMC推荐的型号。我们在派单更换的时候都会指定sfp型号。

不同速率的sfp支持速度也不同，8G不再支持1Gb设备连接，16G也不再支持1Gb以及2Gb。所以设备接入遇到故障，SFP型号/HBA速率/光纤类型都需要考虑进来。

数据是所有公司IT系统中最宝贵的资产，SAN是客户IT基础架构中最为关键的部分。EMC的E_LAB兼容性测试实验室多年来先后投入10多亿美金用于异构环境的兼容性测试。多年来E_LAB实验室对于主流服务器、操作系统、交换机、存储阵列厂商的主流设备做了大量的兼容性测试。我们在设备采购、SAN设计、微码升级、日常troubleshooting中都需要关注设备的兼容性。没被大量严格测试验证过的环境有时候会出现各类罕见问题。

预知更多，欢迎访问E-LAB

https://elabnavigator.emc.com/

Jun_Tan

605 消息

0

2013年1月14日 19:00

楼上是认为多个用户同时创建Zone会失效吗？

根据个人理解，提供以下信息：

1、Brocade交换机对用户同时登录数有限制。admin用户最多允许2个session登录，楼主这种情况是符合的。

2、既然Brocade允许admin同时两个用户登录，我相信他们操作应该不会影响。楼上你这里是创建两个相同的zone还是两个不同的zone?

Zone创建步骤：

使用zonecreate命令建zone，使用cfgsave保存配置，可以通过cfgshow确认zone生效。

操作文档可以参考Brocade Fabric OS administration guide章节Administering Advanced Zoning。

下载链接：

Fabric OS Administrator's Guide v7.0

Fabric OS维护指南

http://www.brocade.com/downloads/documents/product_manuals/B_SAN/FOS_AdminGd_v700.pdf

更多文档可以参考帖子：

【汇总贴】EMC SAN交换机学习资料和操作文档（2013/01/04更新）

Jun_Tan

605 消息

0

2013年1月14日 19:00

SFP是单模还是多模可以通过交换机命令查看：

Cisco:

使用show interface transcerver details命令

Brocade：

使用sfpshow命令

SFP生成厂商都有详细介绍资料：

Brocade网址：

http://www.brocade.com/products/all/transceivers/product-details/transceiver-modules/index.page

1
2
3
4
5

查看全部

找不到事件！