liuhwe62390

6 消息

3705

2013年1月30日 19:00

Fast Cache性能疑惑

各位大侠好：

我这边有台cx480，配有10块200SSD的Fast Cache（全在BUS3上.....CX4 BUS总线带宽大家懂得），最近系统不知道什么情况在一个时刻很多raid都会出现一个并发的写io。导致写cache超过highwater mark，出现force flush （超过130MB/s的flush速度）导致两个控制器整体出现大概三分钟的40ms的延时。但此时的fast cache的dirty page 始终保持在59%... 写io大量增加的时刻，fast cache的使用情况没有任何变化，这个怎么理解，忘大侠们解答。 Fast Cache的dirty page water mark可以设置么？还是write cache的阀值设置在60%~80%是最佳实践么？

回复(10)

zhouzengchao

1.4K 消息

0

2013年1月30日 20:00

我理解你最大的困惑是为什么write-intensive i/o没有完全受益于FAST Cache

1. 首先需要理解的是如果write没有呈现re-hit 的迹象，即便write再多，也不会收益于FAST Cache，例如备份、数据库日志之类的顺序I/O。所以FAST Cache dirty page不增加也是正常的。

2. 系统总是尽可能让Write Cache服务I/O，随后才是FAST Cache

3. FAST Cache没有water mark，它仅在SSD故障或有新数据需要prmote但FAST CACHE又没有free space的情况下才会把数据往HDD LUN或Write Cache上刷。

总而言之，此类性能问题，从面向点做分析，看瓶颈在哪。Force Flush的本质就是过载，确定瓶颈改进配置或迁移流量来解决问题

关于FAST Cache，推荐你看下https://community.emc.com/message/706605#706605

liuhwe62390

6 消息

0

2013年1月30日 20:00

多谢回答，

但在我这边看两个控制器的总iops都在4100左右，写iops在2300左右，write size 在40kb左右，Average Busy Queue Length都达到了200左右。这个负载对于存储来说处于一个什么水平？

liuhwe62390

6 消息

0

2013年1月30日 21:00

神奇的就是这4000iops 主要分布在6个RG中，最高的RG为10块disk的R10，它承受了1200iops，所有RG组最高的utilization才56%。

在analyzer中看到故障时刻两个控制器Bandwith/s在190MB左右，我看硬盘的ABQL基本都在12一下。还有那些方面能分析这个问题么？

zhouzengchao

1.4K 消息

0

2013年1月30日 21:00

write cache water mark 60-80是最佳实践，通常不用改动，除非针对特殊应用做个分析后做出对应调整。

zhouzengchao

1.4K 消息

0

2013年1月30日 21:00

宏观上排错顺序一般是这样的：

1. 看SP level：UT < 70%、Dirty Page是否存在过多95以上的点，如果是的话，就继续判断为什么会有force flush

2. 看LUN LEVEL：哪些LUN贡献的I/O最多，哪些LUN的reponse time过高了（大于20ms）

3. 看disk LEVEL：disk response time > 15ms，FC IOPS > 180，FC bandwidth > 12MB/s （仅供参考）

根据你之前的描述，force flush的可能比较大，FF就是过载，找出哪个RG过载需要仔细看NAR/NAZ file

zhouzengchao

1.4K 消息

0

2013年1月30日 21:00

我假设你给出的数据都是SP Level的：

Total IOPS = 4100
Write IOPS = 2300
write size = 40KB -> large I/O
Read IOPS = 1800 -> R/W ratio = 1:1.8左右 -> write intensive workload

Bandwith = 4100*40KB = 160MB/s < SP port 360MB/s (4G FC) -> port没有过载，但需要确认是否存在QueueFull
160MB/s，以12MB/s FC盘 RAID5来算，需要14块盘的RAID Group才能满足，但通常不会有人做这么大的RAID5，如果没有做metaLUN，160MB/s必然会过载一个R5的小RAID Group，即便是130MB/s的flush rate一样如此。如果这160MB/s的流量分布到了不同的RG，那另说。另外，R5是write-intensive I/O的大忌，如果你那不是R5就最好。
ABQL = 200 -> 不能确定是否过载，建议看盘的ABQL，通常小于12还能接受

总的来说，这个流量对整个存储来说不算大，你看下SP CPU就知道存储自己是否过载了。但如果都集中到某个点（RG）的话，就有可能在“点”上造成过载，具体问题还是需要看Analyzer log。

liuhwe62390

6 消息

0

2013年1月30日 22:00

1、首先两个控制器UT都达到85%，且控制器整体都有较大的response time

2、我这边没有个别的lun有特殊贡献的，基本提供的iops都不多，最多的也就500iops。位于不同riad组的很多没有关系的lun在故障时刻response time都有明显增加。

3.、在disk level 没有看到单个iops >180的最高的在140 所以完全看不到过载的现象。

这样是不是就只能解释为因很多lun 的iops增加，导致sp UT升高，从而影响了存储整体性能。纠结啊，8000的iops 就把存储干掉了啊...

zhouzengchao

1.4K 消息

0

2013年1月30日 23:00

1. 如果UT都达到85%，那存储本身有overload的嫌疑，但你前面说一共也只有160MB/s的带宽，照理这点I/O不会造成这么大的CPU UT，我觉得你有必要开个CASE看看是否有个别进程hung在那里了，这就不是I/O造成的高CPU了，这可能需要reboot来解决

2. 180 IOPS这些只是参考，对应随机小I/O，所以不能认为小于180就没有过载，你要看看disk的响应是多少

8000 IOPS不太可能把CX4-480逼上绝路的，最好还是找EMC支持看看NAR File找原因，猜是没有意义的。

zhouzengchao

1.4K 消息

0

2013年1月31日 01:00

客气了，多来论坛讨论讨论啊，互相学习。

再推荐你看个帖子：https://community.emc.com/thread/148915

liuhwe62390

6 消息

0

2013年1月31日 01:00

受教了，多谢啊。

查看全部

找不到事件！

入门级和中端

Fast Cache性能疑惑