uchiy
2 Iron

IsilonのDIMMのBIOS POST エラーについて

解決策を見る

Isilon S210 、OneFS7.2.1.1で動作している環境で、DIMMのBIOS POSTエラーが何度も発生し交換をしている状況にあります。

DIMMが2個同時にBIOS POST エラーになっても、フロントパネルのアンバー点灯はしませんでした。

そこで、質問です。

1.DIMMが2個障害となりましたが、2個故障したまま使用し続けた場合、Isilonクラスタの性能は、低下するのでしょうか?

 もし、性能低下する場合は、どの程度の性能低下となるのでしょうか?

 またDIMMが4個、6個と障害となった場合には、どの程度の性能低下となるのでしょうか?

2.DIMMが2個障害となった場合は、フロントパネルのアンバー点灯はしませんでしたが、

  2個以上同時に障害となった場合はアンバー点灯するのでしょうか?

  もしアンバー点灯するならば、DIMMが何個障害になったタイミングでしょうか?

タグ(1)
0 件の賞賛
1 件の受理された解決策

受理された解決策
Hiroki3
4 Beryllium

Re: IsilonのDIMMのBIOS POST エラーについて

解決策を見る

uchiy さん

2のDIMMに障害が発生した場合ですが、2個より多くのDIMMに障害が発生した場合においても、フロントパネルのアンバーは点灯しません。DIMMに障害が発生した場合の対応ガイド(*1)や(LEDの点灯から障害の発生したユニットの特定について書かれている)ハードウェアメインテナンスのトレーニングテキストを確認しましたが、DIMMの障害によってアンバーが点灯するという記述はありませんでした。

*1:ドキュメント「Troubleshooting Guide: Hardware – DIMM Errors」(ややアクセスレベルが高いドキュメントのため、参照できない方がいらっしゃるかもしれません。)

0 件の賞賛
4件の返信4
Highlighted
Hiroki3
4 Beryllium

Re: IsilonのDIMMのBIOS POST エラーについて

解決策を見る

uchiy さん

まず、1について回答しますね。

メモリが使えなくなることにより、読み取りや書き込みの速度が落ちることは考えられます。しかし、そのテスト結果のようなものは見つけられませんでした。ただ、英語のスレッド(*1)に、メモリの効果により、秒間のIO合計の遅れが、読み取りと書き込みがそれぞれ、30msが0.1msに、3msが0.1msになったというものがあり、DIMM の一部が使えなくなることにより、一部のIOがこれらの効果を受けられない可能性はあると思います。

*1:「Ask the Expert: Isilon Performance Analysis

Copying a file:

If we take the simple MATH from the client READ and the OneFS server WRITE we end up with

( 1 second / ( (READ ( T1 + TT1 ) + (NETWORK COST RTT2) + ( WRITE (T3 + TT3 ))) * IO SIZE

The above doesn’t factor in BDP properly but as an illustration in determining “it’s slow” it’s important to be able to measure and identify where the lionshare of the latency is. e.g.

If the sum of READ latency is 30ms, Network Cost is .2ms and WRITE latency is 3ms and the IO SIZE is 32KB, your expected throughput would be

((1 second) / ((30 + .2 + 3) * milliseconds)) * 32 KB = 963.855422 KBps

Clearly the above fits the “IT’s SLOW”. Please modify the latency figures and see how this affects through-put.

MEMORY CACHE is a good thing. Memory access from cached files is in the microsecond range as it translates to file-server protocols. This is how we can achieve high end through put. A cached read on a client will likely be 0.1ms, the network latency will be .2ms and OneFS write cache will be in the .1ms range. This is how OneFS and file-servers can achieve as high or higher performance on scale-out than traditional block storage.

Hiroki3
4 Beryllium

Re: IsilonのDIMMのBIOS POST エラーについて

解決策を見る

uchiy さん

2のDIMMに障害が発生した場合ですが、2個より多くのDIMMに障害が発生した場合においても、フロントパネルのアンバーは点灯しません。DIMMに障害が発生した場合の対応ガイド(*1)や(LEDの点灯から障害の発生したユニットの特定について書かれている)ハードウェアメインテナンスのトレーニングテキストを確認しましたが、DIMMの障害によってアンバーが点灯するという記述はありませんでした。

*1:ドキュメント「Troubleshooting Guide: Hardware – DIMM Errors」(ややアクセスレベルが高いドキュメントのため、参照できない方がいらっしゃるかもしれません。)

0 件の賞賛
uchiy
2 Iron

Re: IsilonのDIMMのBIOS POST エラーについて

解決策を見る

回答ありがとうございます。

大変参考になりました。

リンクのページやドキュメントも確認させていただきます。

メモリは、いくら切り離されてもとしてフロントパネルのアンバー点灯しないこと理解しました。

メモリのエラーを確認するためには、GUIやCLIでイベントを確認するしかないということですかね。

DIMMが障害となり切り離されることで、キャッシュヒット率が低くなり、性能も低下するのはsonotooridato 。

今、S200では、各ノードに16GB DIMM×16個実装されています。

 DIMMに障害が無い場合、256GB

 DIMMが2個切り離された場合は、224GB

になりますが、この場合、キャッシュのヒット率は、どの程度低下するか計算とかできるものなのでしょうか?

0 件の賞賛
Hiroki3
4 Beryllium

Re: IsilonのDIMMのBIOS POST エラーについて

解決策を見る

uchiy さん

残念ながら、計算方法はありません。ただ、モデルは分からないのですが、同じように、ノード内の256GBのメモリーが224GBになったケースを体験した人の話を聞くことができました。パフォーマンス低下は見られなかったそうです。それは、Isilonが他のノードのメモリーも使用することに加え、最近のモデルは大量のメモリーを搭載していること。また、Isilon - クライアント間の転送にもある程度の時間がかかるため、1台のノードの16枚の内の2枚のメモリーが使えなくなっただけではパフォーマンスの低下が見えるような状況にはならなかったのではないかとのことでした。

0 件の賞賛