开始新对话

此帖子已超过 5 年

Solved!

Go to Solution

3705

2013年1月30日 19:00

Fast Cache性能疑惑

各位大侠好:

我这边有台cx480,配有10块200SSD的Fast Cache(全在BUS3上.....CX4 BUS总线带宽大家懂得),最近系统不知道什么情况在一个时刻很多raid都会出现一个并发的写io。导致写cache超过highwater mark,出现force flush (超过130MB/s的flush速度)导致两个控制器整体出现大概三分钟的40ms的延时。但此时的fast cache的dirty page 始终保持在59%...  写io大量增加的时刻,fast cache的使用情况没有任何变化,这个怎么理解,忘大侠们解答。  Fast Cache的dirty page water mark可以设置么?还是write cache的阀值设置在60%~80%是最佳实践么?

1.4K 消息

2013年1月30日 20:00

我理解你最大的困惑是为什么write-intensive i/o没有完全受益于FAST Cache

1. 首先需要理解的是如果write没有呈现re-hit 的迹象,即便write再多,也不会收益于FAST Cache,例如备份、数据库日志之类的顺序I/O。所以FAST Cache dirty page不增加也是正常的。

2. 系统总是尽可能让Write Cache服务I/O,随后才是FAST Cache

3. FAST Cache没有water mark,它仅在SSD故障或有新数据需要prmote但FAST CACHE又没有free space的情况下才会把数据往HDD LUN或Write Cache上刷。

总而言之,此类性能问题,从面向点做分析,看瓶颈在哪。Force Flush的本质就是过载,确定瓶颈改进配置或迁移流量来解决问题

关于FAST Cache,推荐你看下https://community.emc.com/message/706605#706605

6 消息

2013年1月30日 20:00

多谢回答,

但在我这边看两个控制器的总iops都在4100左右,写iops在2300左右,write size 在40kb左右,Average Busy Queue Length都达到了200左右。    这个负载对于存储来说处于一个什么水平?

6 消息

2013年1月30日 21:00

神奇的就是这4000iops 主要分布在6个RG中,最高的RG为10块disk的R10,它承受了1200iops,所有RG组最高的utilization才56%。

在analyzer中看到故障时刻两个控制器Bandwith/s在190MB左右,我看硬盘的ABQL基本都在12一下。还有那些方面能分析这个问题么?

1.4K 消息

2013年1月30日 21:00

write cache water mark 60-80是最佳实践,通常不用改动,除非针对特殊应用做个分析后做出对应调整。

1.4K 消息

2013年1月30日 21:00

宏观上排错顺序一般是这样的:

1. 看SP level:UT < 70%、Dirty Page是否存在过多95以上的点,如果是的话,就继续判断为什么会有force flush

2. 看LUN LEVEL:哪些LUN贡献的I/O最多,哪些LUN的reponse time过高了(大于20ms)

3. 看disk LEVEL:disk response time > 15ms,FC IOPS > 180,FC bandwidth > 12MB/s (仅供参考)

根据你之前的描述,force flush的可能比较大,FF就是过载,找出哪个RG过载需要仔细看NAR/NAZ file

1.4K 消息

2013年1月30日 21:00

     我假设你给出的数据都是SP Level的:

  1. Total IOPS = 4100
  2. Write IOPS = 2300
  3. write size = 40KB -> large I/O
  4. Read IOPS = 1800 -> R/W ratio = 1:1.8左右 -> write intensive workload

  • Bandwith = 4100*40KB = 160MB/s < SP port 360MB/s (4G FC) -> port没有过载,但需要确认是否存在QueueFull
  • 160MB/s,以12MB/s FC盘 RAID5来算,需要14块盘的RAID Group才能满足,但通常不会有人做这么大的RAID5,如果没有做metaLUN,160MB/s必然会过载一个R5的小RAID Group,即便是130MB/s的flush rate一样如此。如果这160MB/s的流量分布到了不同的RG,那另说。另外,R5是write-intensive I/O的大忌,如果你那不是R5就最好。
  • ABQL = 200 -> 不能确定是否过载,建议看盘的ABQL,通常小于12还能接受

     总的来说,这个流量对整个存储来说不算大,你看下SP CPU就知道存储自己是否过载了。但如果都集中到某个点(RG)的话,就有可能在“点”上造成过载,具体问题还是需要看Analyzer log。

6 消息

2013年1月30日 22:00

1、首先两个控制器UT都达到85%,且控制器整体都有较大的response time

2、我这边没有个别的lun有特殊贡献的,基本提供的iops都不多,最多的也就500iops。位于不同riad组的很多没有关系的lun在故障时刻response time都有明显增加。

3.、在disk level 没有看到单个iops >180的    最高的在140  所以完全看不到过载的现象。

这样是不是就只能解释为因很多lun 的iops增加,导致sp UT升高,从而影响了存储整体性能。   纠结啊,8000的iops  就把存储干掉了啊...

1.4K 消息

2013年1月30日 23:00

1. 如果UT都达到85%,那存储本身有overload的嫌疑,但你前面说一共也只有160MB/s的带宽,照理这点I/O不会造成这么大的CPU UT,我觉得你有必要开个CASE看看是否有个别进程hung在那里了,这就不是I/O造成的高CPU了,这可能需要reboot来解决

2. 180 IOPS这些只是参考,对应随机小I/O,所以不能认为小于180就没有过载,你要看看disk的响应是多少

8000 IOPS不太可能把CX4-480逼上绝路的,最好还是找EMC支持看看NAR File找原因,猜是没有意义的。

1.4K 消息

2013年1月31日 01:00

客气了,多来论坛讨论讨论啊,互相学习。

再推荐你看个帖子:https://community.emc.com/thread/148915

6 消息

2013年1月31日 01:00

受教了,多谢啊。

找不到事件!

Top