Article Number: 000124384

Nvidia V100 GPU搭載のDell C4140でのCheXNetトレーニングのための最適化の手法

Summary: Dell EMC C4140サーバーでNVIDIA V100 SXM2 GPUを使用して、CheXNetの分散スケールアウトトレーニングで最大限のパフォーマンスを実現するためのベストプラクティスについて説明します。

This article may have been automatically translated. If you have any feedback regarding its quality, please let us know using the form at the bottom of this page.

Article Content

Symptoms

この文書は、2019年10月にHPC AI Innovation LabのRakshith Vasudev氏とJohn Lockman氏によって作成されました。

Cause

Resolution

以前に紹介したように、CheXNetはDenseNetを活用して指定された胸部レントゲン写真から最大14の病状を特定するためのAI放射線技師アシスタントモデルです。拡張性とトレーニング精度の向上（ポジティブなAUROC）の両方を実証して、ResNet-50を搭載したオリジナルのCheXNet-121と同等以上のパフォーマンスを発揮できるモデルのトレーニングをスケールアウトするために、いくつかのアプローチを検討しました。この記事の作者らは、CPUシステムでの拡張性を実証しましたが、トレーニングプロセスを高速化するためにGPUの並列化を活用することに関心を持ちました。この記事では、Dell EMC C4140サーバーでNVIDIA V100 SXM2 GPUを使用して、CheXNetの分散スケールアウトトレーニングで最大限のパフォーマンスを実現するためのベストプラクティスについて説明します。Dell EMC PowerEdge C4140は、SXM2構成の4つのNVIDIA V100 GPUで密度とパフォーマンスの両方を実現します。

ハードウェア構成：	ソフトウェア構成：
4 PowerEdge C4140 4 NVIDIA V100 32 GB SXM2 2 20コアインテル（R）Xeon（R）Gold 6148 CPU @ 2.40GHz 384 GB RAM、DDR4 2666 MHz 1 Mellanox EDR HCA Lustreファイルシステム	ディープラーニングフレームワーク：tensorflow-gpu フレームワークバージョン：1.12.0 Horovodバージョン： 0.16.4 MPIバージョン：4.0.0（cudaおよびucx対応） CUDAバージョン： 10.1.105 CUDNNバージョン： 7.6.0 NCCLバージョン：2.4.7 Pythonバージョン： 3.6.8 OSおよびバージョン：RHEL 7.4

データパイプラインは、アクセラレーターから最大限のパフォーマンスを得るために不可欠です。

tf.dataの概要および使用する理由

新しいコンピューティングデバイス（GPUやTPUなど）により、ニューラルネットワークのトレーニングがますます高速になるにつれて、CPU処理がボトルネックになりがちです。tf.data APIは、CPUを効果的に活用してETLプロセスの各ステップを最適化する入力パイプラインを設計するためのビルディングブロックをユーザーに提供します。

トレーニングステップを実行するには、まずトレーニングデータを抽出して変換してから、アクセラレーターで実行されているモデルにフィードする必要があります。ただし、単純な同期実装では、CPUがデータを準備している間、アクセラレーターはアイドル状態になっています。反対に、アクセラレーターがモデルをトレーニングしている間、CPUはアイドル状態です。したがって、トレーニングステップの時間は、CPUの前処理時間とアクセラレーターのトレーニング時間の合計です。

パイプライン化により、前処理とモデルによるトレーニングステップの実行を重複させます。アクセラレーターがトレーニングステップNを実行している間、CPUはステップN+1のデータを準備しています。これにより、ステップ時間がトレーニングとデータの抽出と変換にかかる時間の最大（合計に対して）に短縮されます。

パイプラインを使用しない場合、CPUとGPU/TPUは多くの時間アイドル状態になります。

SLN318898_en_US__1Sequantial execution
図1：シーケンシャルな実行によりGPUが頻繁にアイドル状態になる

パイプライン化により、アイドル時間が大幅に短縮されます。

SLN318898_en_US__2Pipelining overlaps
図2：パイプライン化によりCPUとGPUの使用を重複してGPU使用率を最大化

tf.data APIは、tf.data.Dataset.prefetch変換を通じてソフトウェアパイプライン作成メカニズムを提供します。この変換を使用して、データが消費された時点からデータが生成された時点を切り離すことができます。具体的には、変換ではバックグラウンドスレッドと内部バッファーを使用して、要求される前に入力データセットから要素をプリフェッチします。

詳細については、次を参照してください：https://www.tensorflow.org/guide/performance/datasets

Tensorflowが提供するガイドラインに従うと、次のようなデータパイプラインを取得できます（古いアプローチ）：
https://github.com/dellemc-hpc-ai/code-examples/blob/master/cheXNet-snippets/old_approach.py

このアプローチ（古いアプローチとも呼ばれる）では、tfデータパイプラインは次の処理を行います（胸部レントゲンのデータセットがTFRecordのシーケンスであると仮定します）。

ファイル名の絶対リストを取得します。
TFRecordDataset()を使用して、ファイル名のリストからデータセットをビルドします。
前処理してロードおよびフォーマットする新しいデータセットを作成します。
データセットをシャーディングします。
トレーニング時にデータセットをシャッフルします。
データセットを繰り返します。
データセットをバッチ処理します。
batch_sizeのデータセットをプリフェッチします。

ただし、これは最もパフォーマンスの高いコードではありません。これは、停止を引き起こし、頻繁にGPU使用率が0%になります。基本的に、アクセラレーターを効果的に利用していません。

tfデータパイプラインを正しくセットアップするため、Tensorflowの公式モデル、特にResNetのアプローチに従います。古いアプローチと新しいアプローチの違いは、データパイプラインをモデルにフィードする前にセットアップする方法です。

新しいアプローチについては、次を参照してください：
https://github.com/dellemc-hpc-ai/code-examples/blob/master/cheXNet-snippets/new_approach.py

TensorFlowの公式モデルアプローチ（新しいアプローチとも呼ばれる）は、次のとおりです。

ファイル名の絶対リストを取得します。
from_tensor_slices()を使用して、ファイル名のリストからデータセットをビルドします。
シャーディングは事前に行います。
トレーニング中にデータセットがシャッフルされます。
その後、データセットは並列にインターリーブされます。これにより、複数のファイル（cycle_lengthによって定義される）をインターリーブして処理し、変換してTFRecordデータセットを作成します。
その後、データセットがプリフェッチされます。buffer_sizeは、プリフェッチされるレコードの数を定義します。これは通常、ジョブのミニbatch_sizeです。
データセットは再びシャッフルされます。シャッフルの詳細は、buffer_sizeによって制御されます。
データセットが繰り返されます。 num_epochsがトレーニングされるまで、データセットを繰り返します。
データセットには、tfレコードファイルを解析する同時map_and_batch()が適用されます。これにより、イメージが前処理され、バッチ処理されます。
前処理されたイメージはデータセットとして準備され、再びプリフェッチされます。

以下に、TF公式モデルを使用した、古いアプローチと新しいアプローチの両方のパフォーマンスの比較を示します。

SLN318898_en_US__3image(12053)
図3：新しいアプローチでは、ほぼ直線的なスケーリングが期待できる。

ご覧のように、古いアプローチでは深刻なパフォーマンスヒットがあり、スケーリングはまったくありません。GPUの使用率が皆無かそれに近い場合が多く、パフォーマンスが水平になります。1つのGPUで計算を効率化すると、通信が適切に処理されている場合に、複数ノード上の複数GPUの計算がより効率的になります。
CPUが前処理を並列で実行し、処理されたデータをメモリーにプリフェッチします。GPUは、高速通信によるマトリックス乗算の重い処理を行います。これは、この新しいアプローチが複数ノードに拡張する際に魅力的な手法となるもう1つの側面です。

最適なパフォーマンスを実現するために検討すべきその他の手法：

適切な環境を整えることが重要：

ジョブを実行する環境はジョブと同じくらい大切です。また、ライブラリー/モジュールはトレーニングのパフォーマンスに影響を与えるため、適切に用意することが重要です。さらに、最新のCUDA関連ライブラリーを持つことで、パフォーマンスを向上させることができます。

作業環境をセットアップしていない場合は、このチュートリアルに従ってインストールします。

MPIに正しいバインドパラメーターを使用する：

MPIは、Horovodによるジョブの分散を支援する通信ライブラリーです。異なるバインドおよびマッピングパラメーターのオプションが検討された結果、C4140の最適なパラメーターはソケット別マッピングでした。推奨される設定は次のとおりです。
mpirun --map-by socket -np x python pyfile.py --pyoptions

1つのプロセスが1つのGPUで動作することを確認する：

1つのGPUを動作させるプロセスが複数ある場合、GPUリソースをめぐって競合し、GPUメモリーを消費することがあります。これにより、バッチあたり多くのイメージを効果的に適合することができず、GPUにパフォーマンスヒットが起こる原因となります。Tensorflow 1.13.1が検討されましたが、その時点でバグがあるようでした。GPUごとに複数のプロセスを起動していました。

要約：

パフォーマンスを向上させるには、データパイプラインを正しくセットアップすることが重要です。
適切な環境を設定することは、パフォーマンスの向上に貢献します。
MPIに正しいバインドパラメーターを使用すると、パフォーマンスが向上します。
GPUを完全に使用していない場合のボトルネックをプロファイルして修正します。

Nvidia V100 GPU搭載のDell C4140でのCheXNetトレーニングのための最適化の手法

Summary: Dell EMC C4140サーバーでNVIDIA V100 SXM2 GPUを使用して、CheXNetの分散スケールアウトトレーニングで最大限のパフォーマンスを実現するためのベストプラクティスについて説明します。

Article Content

Symptoms

Cause

Resolution

データパイプラインは、アクセラレーターから最大限のパフォーマンスを得るために不可欠です。

tf.dataの概要および使用する理由

最適なパフォーマンスを実現するために検討すべきその他の手法：

適切な環境を整えることが重要：

MPIに正しいバインドパラメーターを使用する：

1つのプロセスが1つのGPUで動作することを確認する：

Article Properties

Affected Product

Last Published Date

Version

Article Type

Welcome

Welcome to Dell

Nvidia V100 GPU搭載のDell C4140でのCheXNetトレーニングのための最適化の手法

Summary: Dell EMC C4140サーバーでNVIDIA V100 SXM2 GPUを使用して、CheXNetの分散スケールアウト トレーニングで最大限のパフォーマンスを実現するためのベスト プラクティスについて説明します。

Article Content

Symptoms

Cause

Resolution

データ パイプラインは、アクセラレーターから最大限のパフォーマンスを得るために不可欠です。

tf.dataの概要および使用する理由

最適なパフォーマンスを実現するために検討すべきその他の手法：

適切な環境を整えることが重要：

MPIに正しいバインド パラメーターを使用する：

1つのプロセスが1つのGPUで動作することを確認する：

Article Properties

Affected Product

Last Published Date

Version

Article Type

Summary: Dell EMC C4140サーバーでNVIDIA V100 SXM2 GPUを使用して、CheXNetの分散スケールアウトトレーニングで最大限のパフォーマンスを実現するためのベストプラクティスについて説明します。

データパイプラインは、アクセラレーターから最大限のパフォーマンスを得るために不可欠です。

MPIに正しいバインドパラメーターを使用する：