膨大なデータの転送コストを考えてPowerEdgeをオンプレミスに導入
新たな推論モデルの解析を行うために開発された環境は、TensorFlowを利用したDockerベースのコンテナAIである。その環境を動かすプラットフォームとしては、オンプレミスとパブリッククラウドの2つの選択肢があったと近藤氏は次のように説明する。「解析を行うためには、推論に必要なデータを1日に40~50GBサーバーに送る必要があります。パブリッククラウドを利用する場合は、それだけでも大きなコストがかかることになり、試算では、1年間のパブリッククラウド運用コストで、オンプレミス環境の導入コストが賄えるという結果となりました。また、パブリッククラウドのサービス自体が停止してしまうと復旧や問題回避の対応に向けて当社側で何もできなくなるというリスクもあり、オンプレミスであれば何かあっても自分たちでコントロールできると考えました」。
オンプレミスに導入するAI用途のGPUサーバーを探していたジオ・サーチでは、デル・テクノロジーズが提供している「GPUサーバー貸し出しプログラム」を見つけ、すぐにデル・テクノロジーズに相談を持ち掛けたという。「オンプレミスでの導入は既存システムと連携がしやすい、カスタマイズ性が高いといったメリットがありますが、導入後にリソースの変更がしにくいといったデメリットもあります。そのため、GPU貸し出しプログラムで事前に検証できたのはよかったですね。また、ProSupport Plusの手厚いサポートが受けられるのも安心しました。GPUサーバーの選定は、①性能が満たせること ②拡張性があること ③自社で運用ができることを重視して決めました。あと、GPUサーバー導入は電源の検討も重要だと思います。検証時も電源について相談するとすぐに来てくれて100Vのコンセントで動作できるように設定変更してくれました」とジオ・サーチ株式会社減災事業本部ネットワーク・チーフエンジニアの小澤宏美氏は話す。また、近藤氏も検証機をすぐに使うことができて、作成した推論モデルが動作することを確認でき、十分に要求性能を満たせることが確認できたと評価している。
2021年8月にNVIDIA® T4 TensorコアGPUを3枚搭載した4台のPowerEdge R740xdを導入し環境を構築後、並列処理も組み入れ、2022年2月からパイロットプロジェクトを開始させている。ディープラーニングの学習ではNVIDIA® V100 TensorコアGPUを使っていたが、推論モデルの動作ではNVIDIA® V100とNVIDIA® T4に大きな速度の違いはなく、よりコストパフォーマンスの高いNVIDIA® T4の枚数を増やしたほうがよいと判断している。
また、路面下空洞調査のデータは本社や各事業所に置かれたNASで管理しているが、拡張性や電源の問題からPowerEdge R740xdは自社データセンターに置くことにしている。「遠隔地にGPUサーバーがあるので、PowerEdge用のリモート管理ツールのiDRAC(アイドラック)で管理できるのは非常に便利ですね。OSも遠隔でインストールできて、現地に行かなくてもよいのは助かりましたし、使い方がわからないときにも的確にサポートしてくれました」(近藤氏)。