👺 🤚🏾 🤟🏻 データセンターネットワークの人工知能：Huawei Experience 🗑️ 👨🏼‍💼 🈵

12月4日のAIジャーニーカンファレンスでの私の講演の足跡をたどって、ネットワーク管理におけるAIシステムの正しいアプリケーションにより、ボトルネックやパケット損失なしにHuaweiソリューションに基づく最新のデータセンターを構築する方法をお伝えしたいと思います。このようなソリューションの利点は、オールフラッシュストレージがデータセンターで使用されている場合、ニューラルネットワークがトレーニングされている場合、または高性能GPUコンピューティングが実行されている場合に特に顕著です。

データセンターの変革

データセンターは概念的に変化し、劇的に変化しています。この傾向は約10年前に比較的広まったが、たとえば銀行部門では、はるかに早く始まった。選択したパスに関係なく、変換の目標は多かれ少なかれ類似しています。つまり、リソースの統合と統合です。

これが最初のステップであり、自動化、オーケストレーション、ハイブリッドクラウドモードへの移行を通じて、データセンターの効率がさらに向上します。そして、今日達成可能な変革の最も遠い限界は、人工知能システムの導入です。

変革のあらゆる段階に対応するHuaweiソリューション

各段階で、顧客の「IT成熟度」に応じて、Huaweiは、不要な費用をかけずに最高の近代化結果を提供するように設計された独自のソリューションを提供します。今日は、現代のデータセンターのAIシステムである「アイシングオンザケーキ」について詳しくお話ししたいと思います。

人体との類似性を引き出すために、データセンターネットワークスイッチは循環システムとして機能し、コンピューティングノードやデータストレージシステムなどのさまざまなコンポーネント間の接続を提供します。

ほんの数年前、SSDストレージテクノロジーが広く利用できるようになり、CPUパフォーマンスは向上し続けています。これにより、ストレージノードと計算ノードが遅延の主な原因ではなくなりました。しかし、データセンターネットワークは、一種の「弟」としてデータセンターの構造に長い間残っています。

メーカーはさまざまな方法で問題を解決しようとしました。誰かがネットワークを構築するためにライセンスされたInfiniBand（IB）テクノロジーを選択しました。ネットワークは特殊化されており、狭い範囲のタスクしか解決できないことが判明しました。誰かがファイバーチャネルプロトコルを使用してネットワーク工場を建設することを好んだ（FC）。どちらのアプローチにも限界がありました。ネットワーク帯域幅が比較的控えめであることが判明したか、ソリューションの総コストが制限され、1つのベンダーに依存することでさらに悪化しました。

当社はオープンテクノロジーを採用しました。 HuaweiのソリューションはRoCEの2番目のバージョンに基づいており、その機能は、スイッチで追加のライセンスされたアルゴリズムを使用することで拡張されています。これにより、ネットワークの機能を真剣に最適化することができました。

従来のFCソリューションの背後にある未来を見ないのはなぜですか？重要なのは、静的なクレジット割り当ての原則に基づいて動作することです。これには、限られた時間内にアプリケーションのニーズに応じてネットワークファブリックを構成する必要があります。

最近、FCはスタンドアロンストレージネットワークに向けて一歩前進しましたが、パフォーマンスの制限が続いています。現在主流である第6世代のテクノロジーで、32 Gb / sのスループットを実現し、64 Gb / sのソリューションが実装され始めています。同時に、イーサネットの助けを借りて、今日、優先順位テーブルを使用して、サーバーに100、200、さらには400 Gbit / sを取得できます。

データセンターネットワークの付加価値は、高速インターフェイスを備えたソリッドステートドライブが従来のスピンドルドライブに取って代わり、より多くの市場シェアを獲得している世界で特に重要です。Huaweiは、SSDストレージがその潜在能力を最大限に発揮できるようにすることをお約束します。

次世代データセンターネットワーク

私たちがそれを行う方法の小さな例。この図は、世界最速と認められているストレージシステムの1つを示しています。ここに示されているのは、x86またはARMベースのサーバーであり、非常に要求の厳しいクライアントの期待に応えるパフォーマンスを提供します。データセンターでは、これらのソリューションに基づいて、0.1ミリ秒以下のエンドツーエンドの遅延を達成することができます。新しいアプリケーションテクノロジーを使用することで、そのような結果を得ることができます。

ストレージで使用される従来のテクノロジは、特にSASバスによって引き起こされるかなり高い遅延によって制限されていました。 NVMeなどの新しいプロトコルに移行すると、このパラメーターが大幅に改善され、同時に、ネットワーク自体がパフォーマンスの制限要因になりました。

同じ例の中で、追加のライセンスされたアルゴリズムを備えたネットワークの使用を検討してください。これらは、エンドツーエンドの遅延を最適化し、ネットワークスループットを劇的に向上させ、単位時間あたりのI / O操作を向上させます。このアプローチは、必要なパフォーマンスパラメータを達成するために必要な場合がある「二重購入」を回避するのに役立ち、新しいネットワークを導入するときの合計節約量（TCOの観点から）は、使用する機器に応じて18〜40％に達します。

これらのすごいアルゴリズムは何ですか？

従来のテクノロジーは、キューの静的なしきい値で機能するため、通常の問題をもたらしました。このしきい値は、すべてのアプリケーションの速度と待ち時間の間に基本的な関係があることを意味しました。手動制御モードでは、ネットワークパラメータを動的に調整できませんでした。

スイッチで追加の機械学習チップセットを使用することにより、パケット損失なしでインテリジェントなデータセンターネットワークを構築できるモードで動作するようにネットワークに教えました（これをiDCNと呼びます）。

スマート最適化はどのように達成されますか？ニューラルネットワークに従事している人は、図上でおなじみの要素とトレーニング/推論メカニズムを簡単に見つけることができます。当社のソリューションは、組み込みモデルと特定のネットワークで学習する機能を組み合わせたものです。

AIシステムは、ネットワークに関する一定量の知識を蓄積し、それを概算して、ネットワークの動的構成で使用します。独自のハードウェアソリューションに基づくデバイスは、特別なAIチップを使用します。アメリカのメーカーからライセンスを受けたチップセットで構築されたモデルは、アドオンモジュールとソフトウェアバスを使用します。

使用モデルについて。強化学習モデルに依存するアプローチを使用します。システムは、ネットワークデバイスを通過するデータを100％分析し、ベースラインを選択します。たとえば、特定のアプリケーションにとって重要な帯域幅と遅延がわかっている場合、ベースラインを決定することは難しくありません。多数のアプリケーションでは、「中央値」の計算を実行し、自動モードで調整を行うことができるため、パフォーマンスが大幅に向上します。

この図は、プロセスをより詳細に示しています。ネットワーク最適化の開始時に、最小値と最大値の両方のしきい値を計算します。次は、畳み込み神経ネットワークです（CNN）。したがって、各アプリケーションの帯域幅と遅延率を等しくするだけでなく、ネットワークサービス内での合計の「重み」を決定することもできます。この階層化されたアプローチを使用して、いくつかの非常に興味深い洞察を得ることができます。

アプリケーションが不明な場合、ヒューリスティック検索アルゴリズムが「ステートマシン」と組み合わせて使用されます。その助けを借りて、上記のブロック図に沿って反時計回りに移動し始め、しきい値を特定してモデルを構築します。これは、必要に応じて操作できる自動プロセスです。これが必要ない場合は、スイッチとそのサービスに依存する方が簡単です。

理論から実践へ

このようなアルゴリズムを適用し、個々のスライスではなくネットワーク全体のレベルで作業することにより、すべての主要なパフォーマンスの問題を解決します。銀行部門におけるそのような技術の実装と使用の興味深い事例はすでにあります。これらのメカニズムは、他の業界、たとえば通信事業者の間でも需要があります。

オープンテストの結果を見てみましょう。Tolly Groupの独立したラボは、当社のソリューションをテストし、他のメーカーのイーサネットおよびIBソリューションと比較しました。テストによると、Huaweiの製品性能はIBと同等であり、他の主要メーカーのイーサネット製品よりも27％優れています。

無損失のデータセンターネットワークは、次のようないくつかのシナリオで最大の効率を示します。

AIトレーニング;
一元化されたストレージ。
分散ストレージ;
高性能GPUコンピューティング。

結論として、インテリジェントデータセンターネットワークを使用するためのシナリオの1つを検討します。多くのお客様が分散ストレージシステム（SDS）を使用しています。当社のソリューションを利用してさまざまなメーカーのソフトウェアストレージシステムを統合することにより、それがない場合よりも40％高いパフォーマンスを達成できます。これは、SDSに必要なパフォーマンスレベルがわかっている場合、40％少ないサーバーを使用してそれを達成できることを意味します。

***

ちなみに、ロシア語圏だけでなく、グローバルレベルでも開催されている数多くのウェビナーをお忘れなく。12月のウェビナーのリストはこちらから入手できます。

データセンターネットワークの人工知能：Huawei Experience

データセンターの変革

変革のあらゆる段階に対応するHuaweiソリューション

次世代データセンターネットワーク

これらのすごいアルゴリズムは何ですか？

理論から実践へ

***

More articles: