此帖子已超过 5 年
6 消息
0
3705
Fast Cache性能疑惑
各位大侠好:
我这边有台cx480,配有10块200SSD的Fast Cache(全在BUS3上.....CX4 BUS总线带宽大家懂得),最近系统不知道什么情况在一个时刻很多raid都会出现一个并发的写io。导致写cache超过highwater mark,出现force flush (超过130MB/s的flush速度)导致两个控制器整体出现大概三分钟的40ms的延时。但此时的fast cache的dirty page 始终保持在59%... 写io大量增加的时刻,fast cache的使用情况没有任何变化,这个怎么理解,忘大侠们解答。 Fast Cache的dirty page water mark可以设置么?还是write cache的阀值设置在60%~80%是最佳实践么?
zhouzengchao
1.4K 消息
0
2013年1月30日 20:00
我理解你最大的困惑是为什么write-intensive i/o没有完全受益于FAST Cache
1. 首先需要理解的是如果write没有呈现re-hit 的迹象,即便write再多,也不会收益于FAST Cache,例如备份、数据库日志之类的顺序I/O。所以FAST Cache dirty page不增加也是正常的。
2. 系统总是尽可能让Write Cache服务I/O,随后才是FAST Cache
3. FAST Cache没有water mark,它仅在SSD故障或有新数据需要prmote但FAST CACHE又没有free space的情况下才会把数据往HDD LUN或Write Cache上刷。
总而言之,此类性能问题,从面向点做分析,看瓶颈在哪。Force Flush的本质就是过载,确定瓶颈改进配置或迁移流量来解决问题
关于FAST Cache,推荐你看下https://community.emc.com/message/706605#706605
liuhwe62390
6 消息
0
2013年1月30日 20:00
多谢回答,
但在我这边看两个控制器的总iops都在4100左右,写iops在2300左右,write size 在40kb左右,Average Busy Queue Length都达到了200左右。 这个负载对于存储来说处于一个什么水平?
liuhwe62390
6 消息
0
2013年1月30日 21:00
神奇的就是这4000iops 主要分布在6个RG中,最高的RG为10块disk的R10,它承受了1200iops,所有RG组最高的utilization才56%。
在analyzer中看到故障时刻两个控制器Bandwith/s在190MB左右,我看硬盘的ABQL基本都在12一下。还有那些方面能分析这个问题么?
zhouzengchao
1.4K 消息
0
2013年1月30日 21:00
write cache water mark 60-80是最佳实践,通常不用改动,除非针对特殊应用做个分析后做出对应调整。
zhouzengchao
1.4K 消息
0
2013年1月30日 21:00
宏观上排错顺序一般是这样的:
1. 看SP level:UT < 70%、Dirty Page是否存在过多95以上的点,如果是的话,就继续判断为什么会有force flush
2. 看LUN LEVEL:哪些LUN贡献的I/O最多,哪些LUN的reponse time过高了(大于20ms)
3. 看disk LEVEL:disk response time > 15ms,FC IOPS > 180,FC bandwidth > 12MB/s (仅供参考)
根据你之前的描述,force flush的可能比较大,FF就是过载,找出哪个RG过载需要仔细看NAR/NAZ file
zhouzengchao
1.4K 消息
0
2013年1月30日 21:00
我假设你给出的数据都是SP Level的:
总的来说,这个流量对整个存储来说不算大,你看下SP CPU就知道存储自己是否过载了。但如果都集中到某个点(RG)的话,就有可能在“点”上造成过载,具体问题还是需要看Analyzer log。
liuhwe62390
6 消息
0
2013年1月30日 22:00
1、首先两个控制器UT都达到85%,且控制器整体都有较大的response time
2、我这边没有个别的lun有特殊贡献的,基本提供的iops都不多,最多的也就500iops。位于不同riad组的很多没有关系的lun在故障时刻response time都有明显增加。
3.、在disk level 没有看到单个iops >180的 最高的在140 所以完全看不到过载的现象。
这样是不是就只能解释为因很多lun 的iops增加,导致sp UT升高,从而影响了存储整体性能。 纠结啊,8000的iops 就把存储干掉了啊...
zhouzengchao
1.4K 消息
0
2013年1月30日 23:00
1. 如果UT都达到85%,那存储本身有overload的嫌疑,但你前面说一共也只有160MB/s的带宽,照理这点I/O不会造成这么大的CPU UT,我觉得你有必要开个CASE看看是否有个别进程hung在那里了,这就不是I/O造成的高CPU了,这可能需要reboot来解决
2. 180 IOPS这些只是参考,对应随机小I/O,所以不能认为小于180就没有过载,你要看看disk的响应是多少
8000 IOPS不太可能把CX4-480逼上绝路的,最好还是找EMC支持看看NAR File找原因,猜是没有意义的。
zhouzengchao
1.4K 消息
0
2013年1月31日 01:00
客气了,多来论坛讨论讨论啊,互相学习。
再推荐你看个帖子:https://community.emc.com/thread/148915
liuhwe62390
6 消息
0
2013年1月31日 01:00
受教了,多谢啊。