条件付きロスレスネットワークの分野で何が起こっているのか
何年にもわたって、データ伝送メディアが急速な発展を遂げたとき、エンジニアは、イーサネットでのストレージネットワークと高性能コンピューティングクラスターの実装の成功を妨げる多くの現象に遭遇しました。損失、保証されていない情報配信、デッドロック、マイクロバースト、その他の不快なことです。
その結果、特定のシナリオ用の参照専用ネットワークを構築することが正しいと見なされました。
- 高負荷コンピューティングのクラスター用のIB。
- 従来のストレージネットワーク用のFC。
- サービスタスク用のイーサネット。
汎用性を実現するための試みは、図のように見えました。
一部のタスクでは、ベクトルが一致する可能性があり(白鳥とクレイフィッシュのベクトルと同様)、高度に専門化されたシナリオを選択する場合よりも効率は低くなりますが、状況の多様性が達成されました。
今日、Huaweiはマルチタスクコンバージドファクトリの将来を見据え、一方では損失なしにネットワークパフォーマンスを向上させるシナリオ(2020年にはサーバーポートあたり最大200 Gbps)向けに、他方ではパフォーマンスを向上させるために設計されたAIファブリックソリューションを顧客に提供しています。アプリケーション(RoCEv2への移行)。
ちなみに、AIファブリックの技術コンポーネントについては別の詳細な投稿がありました。
最適化が必要なもの
アルゴリズムについて話す前に、それらが改善するように設計されているものを正確に明確にすることは理にかなっています。
静的ECNは、単一の受信者を持つ送信サーバーの数が増えると、次善のトラフィックパターンが発生するという事実につながります(簡単に言えば、いわゆる多対1のインキャストモデルを扱っています)。
従来のイーサネットでは、ネットワークでの損失の可能性とネットワーク自体のパフォーマンスの低下のバランスを手動で調整する必要があります。一定の調整なしで実装する場合
、PFC / ECNバンドルを使用する場合にも同じ前提条件が表示されます(下の図を参照)。
説明されている問題を解決するために、AI ECNアルゴリズムを使用します。その本質は、ECNしきい値をタイムリーに変更することです。下の図にその外観を示します。
以前は、Broadcomチップセット+ Ascend 310 AIプロセッサバンドルを使用した場合、これらのパラメータを調整するためのオプションの数が限られていました。
ロジックは別のチップで実行され、すでに商用チップセットに「スピル」されているため、このようなバリアントソフトウェアAIECNを条件付きで呼び出すことができます。Huawei P5チップセットを搭載したモデルは、これに必要な機能のかなりの部分を実装しているため、(特に最新リリースでは)はるかに幅広い「AI機能」を備えています。
アルゴリズムの使用方法
Ascend 310(またはPカードの組み込みモジュール)を使用して、トラフィックの分析を開始し、既知のアプリケーションのベンチマークと比較します。
既知のアプリケーションの場合、トラフィックメトリックはオンザフライで最適化されます。未知のアプリケーションの場合、次のステップへの移行が行われます。
キーポイント:
- DDQN強化の学習、調査、多数のベースライン構成の蓄積、および最良のECNコンプライアンス戦略の調査が実行されます。
- CNN分類子はシナリオを識別し、推奨されるDDQNしきい値が信頼できるかどうかを判断します。
- 推奨されるDDQNしきい値が信頼できない場合は、ヒューリスティックな方法を使用してそれを修正し、ソリューションが一般化されていることを確認します。
このアプローチにより、未知のアプリケーションを操作するためのメカニズムを調整できます。本当に必要な場合は、NorthboundAPIを使用してアプリケーションのモデルをスイッチ管理システムに設定できます。
キーポイント:
- DDQNは、多数のベースライン構成メモリサンプルを蓄積し、ポリシー学習のためにネットワーク状態とベースライン構成調整ロジックを詳細に調べます。
- CNNニューラルネットワーク分類子は、未知のシナリオで信頼性の低いECN構成が推奨される場合に発生する可能性のあるリスクを回避するために、シナリオを識別します。
何が得られますか
このような適応と追加のネットワークしきい値と設定の変更のサイクルの後、いくつかのタイプの問題を一度に取り除くことが可能になります。
- パフォーマンスの問題:低帯域幅、長い遅延、パケット損失、ジッタ。

- PFCの問題:PFCデッドロック、HOL、ストームなど。PFCテクノロジは、多くのシステムレベルの問題を引き起こします。

- RDMAアプリケーションの課題:AI /高性能コンピューティング、分散ストレージおよび組み合わせ。RDMAアプリケーションは、ネットワークパフォーマンスに敏感です。

概要
最終的に、追加の機械学習アルゴリズムは、「応答しない」イーサネットネットワーク環境の古典的な問題を解決するのに役立ちます。したがって、私たちは、一連の異なるテクノロジーや製品とは対照的に、透過的で便利なエンドツーエンドのネットワークサービスのエコシステムに一歩近づいています。
***
Huaweiソリューションは引き続きオンラインライブラリに表示されます。この投稿で取り上げたトピックを含みます(たとえば、「スマート」データセンターのさまざまなシナリオ向けのフルサイズのAIソリューションを構築する前)。今後数週間のウェビナーのリストはこちらにあります。