Start a Conversation

Unsolved

Closed

Community Manager

 • 

3.1K Posts

160

April 25th, 2023 23:00

Dell PowerEdge Data Science: The Edge, AI, 5G & Training Deep Learning Models (Part1&2)

Itzikr's Blog 日本語翻訳版

*オリジナルブログは以下URLから参照可能です

https://volumes.blog/2023/03/10/dell-poweredge-data-science-the-edge-ai-5g-training-deep-learning-models-part12/

 

A guest post by Nomuka Luehr

 

デイビッド・ハンブルは、長い食料品のレジ待ちの苦痛から着想を得て、1984年にセルフサービスのレジを発明しました。1980年代に人工知能(AI)研究が再び注目を浴びると、これらの基本的なレジはAIを搭載したカメラを備えたインテリジェントなデバイスに変化し、顔や手の表情を分析して、誤ってスキャンされた商品や盗難を検出することができるようになりました。

JPCommunityMgr_0-1682411262042.png

 

AIやその他のデータサイエンスの活用が、地域の食品店のようなエッジロケーションで急速に普及している現状を考えると、ハイテクなユーザーエクスペリエンスを顧客が受ける未来を想像することができます。次に何が起こるかは分かりませんが、その何かを可能にするためには、ITインフラストラクチャーが重要な役割を果たすことは間違いありません。そこで、この新しいシリーズを通じて、データ分析、AI、機械学習(ML)インフラストラクチャーの領域におけるインフラストラクチャー技術とその多様な応用について探求したいと考えました。

 

このシリーズを始めるにあたり、本ブログではエッジでの最近のAIの進展、5Gの役割、およびPowerEdgeを用いたそれらに関連するワークロード展開の利点について探求します。

 

エッジ、AI、そして5G、かなり凄い!

 

5Gネットワークの登場により、エッジでのAI展開が多くの機会を創造するでしょう。エッジでのAI展開により、従来のデータ転送アーキテクチャに比べて低コストかつ低レイテンシで、意思決定の場でリアルタイムの具体的な洞察を得ることができます。5Gネットワークを通じて、サービスプロバイダはIoTデバイスを介してより迅速に洞察を得ることができ、(先ほどのセルフチェックアウトレジのような)リアルタイムのモニタリングなどの消費者向けアプリケーションを高い信頼性で実現できます。

 

用途によっては、AIはスマートフォン、ドローン、スピーカー、家電製品、産業用機械など、幅広いスマートデバイスに展開できます。これらの「エッジ」展開における知能は通常、スマートデバイス自体ではなく、エッジサーバーに存在します。したがって、特定のエッジ展開に最適なサーバーを選択することは、性能を最大限に引き出すために大切です。拡張現実(AR)/仮想現実(VR)体験のような複雑なユースケースに加えて、5Gは様々な機械間接続や超低レイテンシなどの機能を通じて、企業向けユースケースであるセルフサービスアプリケーションやダイナミックな倉庫在庫計画などにも大きな影響を与えるでしょう。最終的に、AIと5Gの技術は成熟を続け、無限の新たな機会をもたらすことになるので、エッジを探求するには今が最適なタイミングです。

 

PowerEdge Edge Essentials

 

新しいデータソースを活用し、独自のエッジおよびAIの目標を達成するために、PowerEdgeがどのように手助けできるかを探ってみましょう。

 

最善なエッジとクラウドの両方を活用しましょう

 

新しい分散型エッジソリューションの増加が急速に進んでいますが、クラウド中心およびハイブリッドアーキテクチャが最適なIoTのユースケースもまだ存在しています。そのため、多くの組織は異なる種類のエッジ実装と複数のクラウドオプションを組み合わせた戦略を用い、最適なサービスを最も低いコストで提供する必要があります。エッジ、クラウド、およびハイブリッド技術のリーダーであるPowerEdgeは、この多様な市場で組織を成功させるための包括的でカスタマイズされたアプローチを提供するのに適しています。

 

幅広いエッジ最適化サーバーにアクセスする

 

PowerEdgeのポートフォリオには、エッジ向けに最適化された複数のサーバーがあります。これらのサーバーはTier 1データセンターの機能を、エッジおよびテレコム環境にもたらすように設計されています。さらに、最小限のフットプリントでフルエンタープライズのコンピューティング能力を提供するPowerEdgeが、貴重なエッジスペースを最適化し、ターゲットを絞った仮想化環境を提供します。これらのサーバーには以下が含まれます:

JPCommunityMgr_1-1682411262056.png

 

 

多様なポートフォリオに対するシンプルな管理

 

幅広いポートフォリオには、多数のサーバー群を展開し、安全に保つための簡単な管理ツールも含まれています。OpenManage Enterpriseはデータセンターにインストールすることができ、WANソリューションとしてエッジデバイスに接続することができます。OpenManage Enterpriseはサーバーインベントリの発見と保守、サーバーの健康状態のモニタリング、BIOSおよびファームウェアの更新を実行するために使用することができます。また、Integrated Remote Access Controller (iDRAC)を使用してエッジサーバーの安全なリモート管理も行うことができます。iDRACでは仮想メディアやコンソールを使用したデプロイメントに加えて、BIOSやファームウェアの更新、PowerEdgeサーバーのモニタリングも行うことができます。

 

PowerEdge Edge Integrations

 

基本的な機能に加えて、PowerEdgeは多数のパートナー企業と協力してより高度なエッジ体験を提供しています。

 

NVIDIA Fleet Commandを使用したエッジAIの容易なスケーリング

 

エッジは多くの機会を提供していますが、限られたスタッフや過酷な環境により、AIの展開を維持するのが難しいことがあります。この問題に対処するために、DellはNVIDIAと提携し、対応するPowerEdgeサーバー上でのFleet Commandの展開を可能にしました。NVIDIA Fleet Commandはハイブリッドクラウドプラットフォームであり、管理者が数十から数百万のサーバーやエッジデバイスでのAIの展開を管理し、スケーリングすることを可能にします。

 

NVIDIA Fleet Commandは、主に3つの管理に関する利点を提供します:

 

  • 1つのコントロールプレーンで複数の場所のエッジシステムを管理 - Fleet Commandを使用することで、複数の場所にあるPowerEdgeサーバーをペアリングし、これらのサーバーに完全なオペレーティング環境やアプリケーションソフトウェアスタックを展開することができます。
  • プライベートまたはパブリックのカタログからアプリケーションを展開 - Fleet Commandを使用することで、パブリックのNGCカタログやNGCプライベートレジストリからエッジシステムにアプリケーションを展開することができます。
  • リモート管理で安全にシステムへ接続 - システムのアプリケーション実行準備が整っているかを確認するために、システムの状態をトラッキングすることができます。

 

もしPowerEdgeとNVIDIA Fleet Commandを使ってエッジを強化したいのであれば、DellがNVIDIA Certified SystemsおよびNGC Ready Systemsの検証プログラムを通じて認定した幅広い選択肢のサーバーを利用できます。先程紹介したエッジ向けに最適化されたサーバー(R650、R750、XE2420、XR2、XR11、およびXR12)に加えて、以下のサーバーもNVIDIA fleet commandの展開に利用できます: R650、R750xa、R6515、R6525、R7525、R940xa、DSS 8440、XE2420、R640、R740、およびR740xd。

JPCommunityMgr_2-1682411262065.png

 

 

VxRailを使ってHCIをエッジに持ち込む

 

エッジでの運用はスペースが制限され、リモートであり、時には過酷な環境で行われるため、機能性や性能を損なわないようにするには多くの課題があります。リモートロケーションでは、システムは操作しやすく、管理しやすく、アップデートしやすい必要があります。Hyperconverged Infrastructure(HCI)は、統合されたサーバーとストレージの技術を提供し、エッジでのライフサイクル管理とデータ保護を可能にするので、従来のデータセンターのような運用効率を得ることができます。新しいDell EMC VxRail Dシリーズは、VMware環境向けに開発・最適化された初の耐久性のあるHCIアプライアンスです。このソリューションは、既存のVMwareインフラストラクチャーとシームレスに統合され、シンプルでアジャイル、さらに重要なこととして、従来のユーザーエクスペリエンスを提供することができます。ユーザーは一貫性のあるインフラストラクチャーを介して従来のアプリケーションやクラウドネイティブアプリケーションを管理できます。

JPCommunityMgr_3-1682411262095.png

 

 

Confluentプラットフォームでデータを一元管理

 

Confluentプラットフォームは、複数のソースや場所からのデータを一つのイベント・ストリーミング・プラットフォームに統合することで、データサイエンスやITの専門家がリアルタイムのデータパイプラインやストリーミングアプリケーションの構築を共同で行えるようにします。Confluentは、データソースをKafkaに接続し、Kafkaサービスを使ったアプリケーションの構築、Kafkaインフラストラクチャーのセキュリティ、モニタリング、管理を簡素化します。PowerEdgeサーバーへのサンプル構成展開は、Confluent Kafkaアーキテクチャを堅牢にし、最新のサーバーテクノロジーを最大限に活用できるようにします。これらには以下のものが含まれます:

JPCommunityMgr_4-1682411262116.png

 

 

更なる情報は?

 

前述したように、PowerEdgeはAIワークロードをエッジに持っていくための機能を十分に備えています。更なる詳細について知りたい方は、以下のリソースを参照してください:

 

 

 

Data Science Part 2: Training Deep Learning Models with PowerEdge

JPCommunityMgr_5-1682411262122.jpeg

 

 

あなたはAIより賢いですか? 現在、AIの知能は成人の人間と同等であると広く認識されています。つまり、論理的な推論、問題解決、抽象的な思考などのスキルを必要とするタスクにおいて、私たち人間と機械は同等の性能を発揮します。この長い間待望されていたAIの発展は、主にディープラーニング(DL)の進化によるものとされています。

 

ディープラーニングとは何ですか?

 

ディープラーニング(DL)では他の機械学習(ML)手法と異なり、私たちの脳が結論を導き出し、時間とともに学ぶのと似た論理的なデザインを持つ、より複雑な構造の層状アルゴリズムであるニューラルネットワークを使用します。もしニューラルネットワークの異なるタイプやその仕組みについてもっと詳しく知りたい場合は、この記事を参照してください。モデルの精度を上げるためにエンジニアが調整を行う他のML手法とは異なり、ニューラルネットワークは過去の正確な予想と不正確な予測の両方から学習し、バックプロパゲーションというプロセスを用いて、自らのアルゴリズムの重みやバイアスを調整し、正しい出力が得られるようにします。DLの高い精度と人間の介入の必要性の低さは、より複雑なユースケースに対してより良い結果を得ることができるということを意味しています。

 

ディープラーニングは他の機械学習手法よりも長期的にはメンテナンスの必要性が少ない一方で、より多くの計算能力を必要とします。私たちの脳内の数十億の相互接続された細胞を模倣し、新しいデータを受け入れ、パターンを認識し、意思決定をすることはコンピュータにとって簡単なことではありません。ディープラーニングは一貫性を持った正確な結果を得るために大量のデータと複雑なソフトウェアシミュレーションを必要とします。それらの実行は困難であるにも関わらず、企業は必要なハードウェアやソフトウェアシステムに投資する意欲があります。なぜなら、ディープラーニングを通じたAIの強化が、より効果的で信頼性の高いデータ分析や意思決定の手法を通じて、数兆ドルのビジネス価値を創出すると期待されているからです。

 

組織がディープラーニングを最大限に活用するためにはどのようにすれば良いでしょうか?

 

ディープラーニングの技術を最適に活用することで、物体検出を行うコンピュータビジョン、リコメンデーションを通じた商取引、複数の技術を組み合わせた自動運転など、多くの分野で大きな成功が既に達成されています。しかし、これらの成果を得るには適切なツールがなければ困難です。ディープラーニングのワークロードは簡単に実行できるものではなく、関連するシステムコンポーネントはそれぞれのユニークなユースケースに合わせて注意深く選択およびチューニングされる必要があります。したがって、組織はデータ、ソフトウェア、パフォーマンス分析、インフラストラクチャーのコンポーネントなど、多くの複雑な選択をしなければなりません。それぞれが精度、展開の容易さと時間、ビジネスへの影響に様々な影響を与えます。

 

これらの課題を考慮し、エンジニアが利用可能なベンチマーキングツールを使用してモデルの効率を改善する方法、特に適切なインフラストラクチャー要素を選択およびサイジングすることについて探求してみたいと思います。とはいえ多くのワークロードと共に動作するこれらの関連するコンポーネントについて確認する前に、ディープラーニングモデルの実装プロセスを見てみましょう。

 

どのようにディープラーニングはインプリされる?

 

我々が学校で学ぶのと同様に、ディープラーニングは新しい事例に取り組む前に、サンプルデータセットでのトレーニングを経て、パターンを発見し、アルゴリズムを修正する必要があります。トレーニングフェーズでは数回の反復と大量のデータが必要であり、高い精度のためにはマルチコアのCPUやGPUを使用してパフォーマンスを上げる必要があります。トレーニングが完了した後、モデルは推論フェーズに移行し、特定のビジネス機能やタスクを実行するためにFPGA、CPU、またはGPUを利用して展開されます。

 

ディープラーニングモデルは、トレーニングと推論の間を循環しながらデータの変化に連続的に適応するので、システム全体のパフォーマンスを得るためには両方のフェーズにおける効率性を保つことが重要です。このブログでは、ディープラーニングのトレーニングフェーズの効率性を向上させるためにシステムコンポーネントを評価し、選択する方法について探求します。次のブログでは、ディープラーニングの推論に対して最適なパフォーマンスを確保するための同様の方法を探求しますので、お楽しみに!

JPCommunityMgr_6-1682411262132.png

 

 

Deep Learningモデルをトレーニングするための適切なインフラストラクチャーツールの選び方は?

 

Deep Learningのプラットフォームを最適化するには、多くの変数を考慮する必要があります。なぜなら、統計、ハードウェア、およびソフトウェアの最適化により、モデルの学習プロセス、トレーニング時間、および精度が大きく変化する可能性があるからです。また、利用可能なソフトウェアとハードウェアのシステムは非常に多様であり、同じデータ、コード、およびハイパーパラメータを使用したとしても、性能を比較することが困難です。

 

幸いにも、MLPerfという業界標準のMLパフォーマンスベンチマークシステムがあり、関連する課題を克服し、異なるDLシステムの性能を公平に評価するのに役立ちます。MLPerfは、異なるアクセラレータやシステムが与えられた特定のモデルをどのくらい速く効率的にトレーニングできるかを測定するための合意されたプロセスを提供しています。MLPerfは、特に画像分類、自然言語処理、物体検出などの複数のDLドメインに対して正確なベンチマーク結果を提供することで広く人気を博しています。

JPCommunityMgr_7-1682411262137.png

 

 

ドメインごとに、MLPerfは指定されたドメインのニューラルネットワークモデルが目標の精度に到達するまでにかかる合計時間を評価し、比較します。データサイエンティストがDLの目標を達成するために適切なインフラストラクチャーのコンポーネントの選択を手助けすることができるように、デルは以下のサーバーにおける異なるドメインでのベンチマークを計測しました:

JPCommunityMgr_8-1682411262143.png

 

 

以下は、自然言語処理(NLP)ドメインにおけるデルEMCシステムのベンチマーク結果の一部です。NLPは人間の言語を解釈し、応答し、操作(例えば翻訳)することに焦点を当てた機械学習の分野です。すべての利用可能なドメインのベンチマーク結果についてはここをクリックしてください。

JPCommunityMgr_9-1682411262156.png

 

 

MLPerfのベンチマーク結果を見ると、同じソフトウェアとデータセットを使用しても、サーバーやシステムのセットアップ、プロセッサのタイプや数、アクセラレータのタイプや数を変更することで、モデルの学習時間に大きな影響があることがわかります。

 

MLPerfのベンチマーク結果を探索する際には、以下の2つのことを念頭に置くことをお勧めします。

 

  1. GPUとFPGAは、DLに利用される最もよく知られたアクセラレータタイプです。元々はグラフィックス処理のために設計されたGPUは、Deep Learningモデルの高速な学習にも使用されます。FPGAは、最初に通信ネットワークで使用され、すでに学習済みのモデルに対する推論タスクへの利用が理想的です。これについては、今後のブログでさらに探求します。

 

  1. 優れたアクセラレータを使用することは有益ですが、学習時間やスケーリングの挙動に対する影響は異なるドメインやモデルによって異なります。例えば、翻訳や推薦のようなドメインでは、より大きなGPUの数は依然として有用ですが、性能のスケーリングは線形的にはなりません。そのため、適切なサーバーやGPUの数を選ぶには、使用されているモデルとドメインについて包括的な理解を持つことが非常に重要です。

 

次は何?

 

このブログでは、データサイエンティストがMLPerfベンチマークを使用してDLトレーニングプロセスを最適化する方法を探求しました。次のData Science Part 3ではトレーニングではなく、推論で最適な性能を発揮するための適切なインフラストラクチャーコンポーネントの選び方について探求します。お楽しみに!

 

深層学習についてもっと知りたいですか?以下のリソースをチェックしてみてください。

 

 

 

 

翻訳者:Uehara Y.

No Responses!
No Events found!

Top