ハイパフォーマンスコンピューティング(HPC)に最適化されたVMイメージの紹介

画像



ハイパフォーマンスコンピューティング(HPC)用に最適化されたCentOS 7ベースの仮想マシン(VM)イメージのパブリックプレビューのリリースを発表できることを嬉しく思います。これは主に、密結合のメッセージパッシングインターフェイス(MPI)ワークロード向けに設計されています。この記事では、HPC固有のVMイメージとその利点について詳しく説明します。このイメージからインスタンスを直接作成するには、ドキュメントとクイックスタートをお読みください 



2020年に、   GoogleCloudプラットフォームでMPIインターフェースを最適化するための多くの機能と設定について話しましたメッセージング遅延を数マイクロ秒に短縮し  ます。 小さなMPIメッセージを10マイクロ秒以下で配信します。MPI最適化により、アプリケーションのスケーリングが改善され、GoogleCloudプラットフォームで実行できるタスクの数が増えます。ただし、これらの手法を念頭に置いてVMイメージを作成するには、GoogleCloudのシステムとプラットフォームを深く理解する必要があります。したがって、元々計算され、ハイパフォーマンスコンピューティング用に準備されたイメージで作業を開始する方が論理的です。これにより、最適なCPUとネットワークパフォーマンスに調整されたVMインスタンスをGoogleCloudに簡単にデプロイできます。HPC VMイメージは、追加費用なしでGoogle CloudMarketplaceで入手できます  。 



従来のVMイメージに対するHPCVMイメージの利点



HPC VMイメージを選択すると、すぐに使用できる構成と定期的なメンテナンスが得られ、GoogleCloudで次のHPCのメリットが得られます。



  1. 密結合のワークロードに合わせて調整さ れた仮想マシンを簡単に作成できますHPC VMを簡単に作成し、その構成を最新の設定で定期的に更新します。

  2. 密結合システム向けのネットワークの最適化。 小さなメッセージの待ち時間を短縮し、ポイントツーポイントまたは共有通信を必要とするアプリケーションを高速化します。

  3. より効率的なコンピューティング。 システムの振動を減らすことにより、個々のノードのパフォーマンスを向上させます。

  4. 複数のノードの安定した再現可能なパフォーマンス。 さまざまなHPCタスクで効果的であることが証明されている設定を適用します。



HPC VMイメージは、標準のCentOS7ベースのイメージを簡単に置き換えることができます。



実際の例:CloudyClusterとHPCVMイメージを使用したSDPB方程式プログラムのスケーリング



Caltech Particle TheoryGroupのWalterLondryは   、国際的なBootstrapCollaborationプロジェクト用の研究ソフトウェアを開発してい  ます。このプロジェクトでは、  方程式を解くための半正定値計画(SDPB)を使用しています。その助けを借りて、初期宇宙の膨張、超伝導体、量子ホール効果、相転移など、理論物理学の幅広い問題に関連して場の量子論が調査されます。

プロジェクトの計算能力を拡張するために、LondriはGoogleCloudプラットフォームでSDPBプログラムを拡張することを決定しました。OmnibondCloudyClusterの使用   また、HPC用のVMイメージを使用して、Intel Xeon Gold6240プロセッサとInfinibandFDRテクノロジを搭載したコンピュータに基づいて、イェール大学のローカルクラスタに匹敵するレベルのパフォーマンスとスケーラビリティにプロジェクトをもたらすことができました。



1.jpg



Google CloudのインスタンスC2-Standard-60は、第2世代IntelXeonスケーラブルプロセッサを使用します。 C2インスタンスは、ノード間の通信遅延を削減する配置ルールをサポートしているため、密結合のMPIワークロードに最適です。 CloudyClusterには、C2ファミリのHPC VMイメージと配置ルールがネイティブに含まれているため、研究者は特別なことをする必要はありません。テストの結果、GoogleCloudは複数のインスタンスにわたって低レイテンシのワークロードを拡張できることが示されています。

これを自分で確認したい場合は、Google CloudMarketplaceに  アクセスしてくださいOmnibondのCloudyClusterの更新バージョンは、HPCVMイメージで利用できます。このリリースには、 オハイオ州立スーパーコンピューティングセンターによって配布され、NSFによって資金提供されているOpenOnDemandアプリケーションも含まれています  これにより、システム管理者はHPCリソースへのWebアクセスを簡単に提供できます。



ハイパフォーマンスコンピューティングVMイメージ機能 



設定と最適化。 現在のHPCVMイメージは、密結合されたワークロードのチューニングに重点を置いており、次のMPIパフォーマンス拡張を使用しています。



  • Intel Hyper-Threading. Intel Hyper-Threading . .

  • MPI. MPI MPI. MPI Intel, MPI.

  • tcp_*mem. C2 32 / TCP Linux.

  • busy polling. busy polling , , .

  • . , () , , , .

  • Linuxファイアウォール とSELinuxテクノロジーを無効にします。GoogleCloud上のCentOSLinuxイメージに対してデフォルトで有効になっているSELinuxエンジンとファイアウォールは、HPCVMイメージでは使用されません。これにより、MPIのパフォーマンスが向上します。

  • CPUIdleユーティリティを無効にします。C2仮想マシンはCPUアイドル状態を維持し、低電力モードに入ることができます。CPUIdleユーティリティを無効にすることで、レイテンシを一貫して低いレベルにすることができます。



これらの設定の有効性は、特定のアプリケーションによって異なります。最も強力で経済的な構成を見つけるために、実際にそれらをテストすることをお勧めします。



画像の有効性の比較分析



Intel MPIベンチマークと実世界の有限要素解析(ANSYS LS-DYNA)、流体力学(ANSYS Fluent)、および気象(WRF)アプリケーションを使用して、HPCVMイメージとCentOS7標準イメージのパフォーマンスを比較しました。 



このセクションでは、比較のために次のバージョンのHPCVMイメージとCentOSイメージを使用しました。



  • HPC VMイメージ:hpc-centos-7-v20210119(-ドキュメントで推奨されているように適用されるnomitigationおよびmpitune設定 

  • CentOSイメージ:centos-7-v20200811



Intel MPIベンチマーク(IMB)ピンポン -仮想マシンのペア全体の2つのランク間の固定サイズのメッセージの遅延を測定するために使用されます。HPCにVMイメージを使用すると、標準のCentOS 7イメージと比較してレイテンシが平均50%少なくなることが判明しました。



テスト構成:



  • 2 VM C2-standard-60、コンパクトな配置ルール

  • MPIライブラリ:Intel MPI Library 2018 Update 4

  • 起動コマンド:mpirun -genv I_MPI_PIN = 1 -genv I_MPI_PIN_PROCESSOR_LIST = 0 -hostfile <hostfile> -np 2 -ppn 1 IMB-MPI1 Pingpong -iter 50000



結果



2.jpg



IntelMPIベンチマーク(IMB)AllReduceテストは、VMを介して複数のランク間でデータを転送する際の集合的な遅延を測定するために使用されます。MPI_SUM操作を使用して固定長ベクトルを縮小します。結果は、ノードごとに1 MPIランクとランクごとに30スレッドがある1つのPPN(ノードごとにプロセス)の結果と、ノードごとに30MPIランクとランクごとに1スレッドがある場合の30PPNの結果を示しています。標準のCentOS7イメージと比較して、HPC VMイメージは、8ノード(ノードあたり30プロセス)にわたる240 MPIランクのAllReduceレイテンシーを最大40%削減することがわかっています。



テスト構成:



  • 8 VM C2-standard-60、コンパクトな配置ルール

  • MPIライブラリ:Intel MPI Library 2018 Update 4

  • a : mpirun -tune -genv I_MPI_PIN=1 -genv I_MPI_FABRICS ‘shm:tcp’ -hostfile <hostfile> -np <#vm*ppn> -ppn <ppn> IMB-MPI1 AllReduce -iter 50000 -npmin <#vm*ppn>



結果



3.jpg



4.jpg



テストHPCアプリケーション:LS-DYNA、Fluent、WRF。アプリケーション層でHPCVMイメージを使用すると、ANSYS LS-DYNA分析の3台の衝突シミュレーションで最大25%のパフォーマンスの向上が観察されました(8つのIntel XeonプロセッサベースのC2インスタンスで240のMPIランクを使用)... ANSYS FluentおよびWRF分析の一部として、HPC VMイメージは標準のCentOSイメージよりも6%パフォーマンスが向上しました。



テスト構成:



  • ANSYS LS-DYNA(「3台の車」モデル):AVX-2でコンパイルされたLS-DYNA MPPバイナリコードを使用した、コンパクトな配置ルールを備えた8 VMC2-standard-60 

  • ANSYS Fluent ( “aircraft_wing_14m”): 12  C2-standard-60

  • WRF V3 Parallel Benchmark (12 KM CONUS): 16  C2-standard-60

  • MPI: Intel MPI Library 2018 ( 4)







5.jpg



? SchedMD Slurm Linux



デフォルトのHPCVMイメージを使用するパートナーソリューションのリストを拡大します。来月から、すべてのSlurmのお客様は、デフォルトのHPC VMイメージを使用してクラスターを実行できるようになります(プレビューはこちらから入手でき ます)。



ハイパフォーマンスコンピューティング用のエンタープライズバージョンのLinuxをお探しの方には朗報です。SUSEはGoogleと協力して、GoogleCloud用に最適化されたSUSEEnterprise HPCVMイメージを開発しています。詳細情報が必要な場合、または他の統合やLinuxディストリビューションを要求する場合は、お  問い合わせください。..。



今日から始めましょう!



HPC VMイメージのプレビューが、Google CloudMarketplaceのすべてのユーザーが利用できるようになりました   。HPC VMイメージを使用してインスタンス化する方法については、ドキュメントとクイックスタートを参照してください    また、Google Cloudに初めて登録すると、300ドル相当のボーナスが利用可能になり、20を超える無料の製品が常に利用可能になることをお知らせします。専用リンクでGCPを試すことができ ます。




資料の準備に協力してくれた同僚のJiuXiao Liu、Tanner Love、Yang Jian、Hong Bo Lu、PallawiFengに特に感謝します。



All Articles