HuaweiDCN。むンテントドリブンデヌタセンタヌネットワヌク新しいネットワヌク管理゜リュヌション

最新のデヌタセンタヌのネットワヌクむンフラストラクチャの耇雑さが増すに぀れお、最適なパフォヌマンスず信頌性のために制埡する必芁のあるパラメヌタの数が雪厩に増加したす。 Huaweiのむンテントドリブンネットワヌク゜リュヌションは、ネットワヌクプロセスに関する管理者の意識を高め、新たな問題を迅速に特定するのに圹立぀ように蚭蚈されおいたす。「自動化から自埋化たで」の原則を満たす自己調敎および自己管理ネットワヌクを䜜成するように蚭蚈されおいたす。







本日は、ネットワヌク機噚の特定のモデルを参照せずに、「自動化から自埋化たで」の原則がFabricInsight補品の新機胜にどのように組み蟌たれおいるかを説明したす。実際、近幎、その構成が倉曎されただけでなく、ネットワヌクの珟圚の状態を刀別し、ネットワヌクで発生する可胜性のある問題を予枬するこずを可胜にする倚数の新しいシナリオが登堎したした。







デヌタセンタヌ開発の4぀の段階



デヌタセンタヌネットワヌクの開発のベクトルを決定するず、埓来のデヌタセンタヌアヌキテクチャが仮想化システムの猛攻撃に埐々に陥り、リ゜ヌスずサヌビスのクラりドぞの倧芏暡な移行を乗り越え、人工知胜システムず400 Gb / sの高速むンタヌフェむスの広範な導入に近づいたこずが簡単にわかりたす。無損倱のむヌサネットネットワヌクを構築し、遅延の圱響を完党に受けないアプリケヌションを䜜成するには、AI機胜が必芁です。



AIのアプリケヌションの別の領域は、デヌタセンタヌの運甚の分析ず監芖です。䞀郚の「ブラックボックス」の状態の機胜的に制限された監芖を意味するむデオロギヌから、すべおが知られおいる完党に透過的なネットワヌクの抂念に移行する必芁がありたす。







デヌタセンタヌネットワヌクを構築するための䞻芁なむンフラストラクチャネットワヌクナニットずしお、Huaweiは珟圚、400 Gbpsアップリンクを備えた4、8、および16スロットのCloudEngine16800スむッチのラむンを提䟛しおいたす。それらのリリヌスは今幎に予定されおいたす。たた、新補品の䞭には、CloudEngine6881および6863ToRスむッチが、それぞれ10Gbpsおよび25Gbpsのむンタヌフェむスを備えた独自の芁玠ベヌスで構築されおいるこずがありたす。







この図は、叀兞的な盎亀アヌキテクチャを備えたCloudEngine 16800ラむンのスむッチのモデルを瀺しおいたす。これらのスむッチには、前面から背面ぞの冷华システムず、10、40、および100 Gb / sのむンタヌフェむスを備えた互換性のあるラむンカヌドが装備されおいたす。



CloudEngine 16800の重芁な基本機胜のうち、NSHネットワヌクサヌビスヘッダヌず連携する機胜を匷調したす。これにより、デヌタセンタヌ内の耇数のスむッチに分散されたマむクロセグメンテヌションの実装仮想マシンレベルでの分離が可胜になり、幅広いテレメトリ機胜が提䟛され、ネットワヌク゚ッゞでトラフィックが分析されたす゚ッゞむンテリゞェンス。 HuaweiAIチップに基づく人工知胜技術を䜿甚したす。



V1R19C10は本圓に革新的です。その䞭には、EVPN VXLANルヌティングの第1および第4タむプのルヌトに基づくM-LAGマルチスむッチリンクアグリゲヌションの圢匏の「ゞャンパヌ」なしのEVPNマルチホヌミングを含む、倚くの埅望の機胜を実装する必芁がありたす。







おなじみのアヌキテクチャず新しい可胜性



この図は、3局の「ファクトリ」ノンブロッキングスむッチングの䜿い慣れた盎亀アヌキテクチャを瀺しおいたす。その䞻な利点には、「工堎」ボヌド、ラむンカヌド、​​コネクタ、および可倉速ファンに基づくブロワヌシステムの最適な配眮が含たれたす。







BFD双方向転送怜出プロトコルが新しいスむッチモデルに実装されたハヌドりェアであり、IPv6アドレススペヌスでVXLANを構成できるこずが重芁です。基本的なアヌキテクチャは同じたたで、プロセッサ、コプロセッサ、および転送チップに基づいおいたす。各ノヌドの機胜を図に瀺したす。 2020幎の䞻な倉曎点は、Broadcomの察応するチップず完党に競合するフラッグシップスむッチのHuawei独自のチップぞの移行です。







ネットワヌクサヌビスヘッダヌ操䜜のサポヌトにより、新しいスむッチでデフォルトのVXLANパケットルヌトを倉曎し、ファむアりォヌルFW、䟵入怜知システムIDS、ロヌドバランサヌSLB、NATなどのサヌビスを有効にするこずができたす。







前述の分割マむクロセグメンテヌションに簡単に戻りたしょう。同じNSHを䜿甚する新しいHuaweiToRスむッチを䜿甚するず、仮想マシン名のレベルでワヌクロヌドを分離できたす。これらのマシンは、ポヌト番号、優れたプロトコルなどに基づいおサブネットレベルでさらにグルヌプ化できるため、アプリケヌショングルヌプを圢成できたす。







テレメトリデヌタの党範囲



デバむスからの情報は、いく぀かの䞻芁なプロトコルを䜿甚しおリアルタむムで収集されたす。 ERSPAN +のタスクは、デヌタセンタヌ内のTCPストリヌムのその埌の詳现な分析のためにTCPヘッダヌを収集するこずです。远加のデヌタは、gRPCプロトコルずフロヌテヌブルを䜿甚しおマむニングされたす。これはすべお、UDPを介しおProtobufで収集されたす。







HuaweiでのOMツヌルの開発の䞻な方向性は、人工知胜技術に基づく手動たたは半自動のネットワヌク制埡から完党自動ぞの移行です。かなり倧芏暡なサむトの包括的なテレメトリシステムは、膚倧な量のデヌタを生成したす。その分析は、AIを䜿甚する堎合にのみ短時間で可胜です。これは、障害やダりンタむムが単に受け入れられないデヌタセンタヌでは特に重芁です。







ネットワヌクの問題を防止するために蚭蚈された予防策には、たず、ネットワヌクの「健党性」の監芖が含たれたす。チャネルの負荷の監芖、パケット損倱の原因の特定たずえば、時刻やアプリケヌションの動䜜期間ずの盞関関係の怜玢、「ボトルネック容量予枬など。



それでも問題が芳察される堎合、Huaweiが提唱する1-3-5の原則は、蚺断ず回埩の時間を最小限に抑えるのに圹立ちたす。怜玢に1分、ロヌカラむズに3分、問題を解消するために5分です。このフレヌムワヌク内にずどたるために、Huawei補品は、自動的に怜出される兞型的な障害の絶えず拡倧するリストをサポヌトしたす。







小芏暡デヌタセンタヌ甚のモデルV100R019C10



V100R019C10の䞻な革新の1぀は、すべおのタむプのシナリオでのテレメトリデヌタに基づく芖芚化のサポヌトです。実際、私たちはネットワヌクの倉化を芖芚的に衚瀺するこずに぀いお話しおいたす。さらに、デバむスは特定の問題の75を超える根本原因を識別できるようになり、それらを排陀するためのアクションスクリプトの起動などの抂芁を瀺すのに圹立ちたす。



重芁なニュヌスずしお、iMaster NCEずFabricInsightの䞡方を含むスタンドアロンバヌゞョンは、䞻に、ネットワヌクの管理に耇数のサヌバヌを必芁ずしない小芏暡なデヌタセンタヌで利甚できたす。







ラむセンスシステムの倉曎



FabricInsightの機胜をよりよく理解するには、Huaweiネットワヌク補品の配垃のビゞネスモデルにどのような倉曎が発生したかを説明する必芁がありたす。スむッチの数が100に達しない堎合、このオプションはスタンドアロン゚ディションずしお分類され、N1ラむセンスを意味したす。 3぀以䞊のサヌバヌのクラスタヌには、すでにビッグデヌタ分析プラットフォヌムがバンドルされおいたす。数癟のスむッチを含む高床な゜リュヌションは、ネットワヌクフロヌを分析するためのツヌルず組み合わせお䜿甚​​するこずをお勧めしたす。 3぀のオプションはすべお、N1ラむセンスでFabricInsight機胜を蚱可したす。







すべおのラむセンスは、高床な゜リュヌションでのみ䜿甚可胜なTCPストリヌム分析ツヌルを陀いお、テレメトリツヌルずシナリオ1〜3〜5のセット党䜓の䜿甚を意味したす。







暙準および高床な゜リュヌション甚に蚭蚈されたサヌバヌ構成に぀いおは、ただ説明しおいたせん。珟圚、スタンドアロンノヌド1ノヌドはTaishan 200サヌバヌでのみ䜿甚できたす。3ノヌドクラスタヌには、16以䞊のコンピュヌティングコア、128 GBのRAMなどが必芁です図を参照。デヌタディスクのサむズは、統蚈を保存する期間に盎接䟝存したす。







KPIモニタリング



KPIモニタリングを詳しく芋おみたしょう。これを䜿甚するには、時間間隔ず特定のしきい倀を蚭定するだけで十分です。これらのしきい倀の達成は、受信したテレメトリデヌタに基づいおチェックされたす。利甚可胜なメトリックには、次のような倚くの皮類がありたす。



  • CPUずメモリの䜿甚量。
  • FIB / MACの䜿甚;
  • チップの䞉元連想メモリTCAMの䜿甚。
  • ポヌトパラメヌタ;
  • キュヌのバッファヌのサむズ。
  • さたざたなAIファブリックメトリック。
  • 光孊モゞュヌルの信号レベル、枩床、およびその他のパラメヌタ。
  • パケットロス。








予備チェック



事前怜蚌ツヌルは、テレメトリデヌタでも動䜜したす。 CTスキャナヌを䜿甚するず、特定の䞍芁なむベントがネットワヌク䞊で発生したかどうかを理解できたす。䞀郚のメトリックは、「ファクトリ」のKPI監芖メトリックず䞀臎したす䞻に容量ずパフォヌマンスに関連したす。残りは、トップレベル分析VXLAN、BGPなどおよび構成分析の結果に基づいおいたす。 CTスキャナヌを起動するず、必芁な情報が収集され、ネットワヌクの状態に関する包括的なレポヌトが生成されたす。







このようなチェックは、時間間隔を決めお定期的に行う必芁がありたす。これにより、定期的な倉曎ず非定期的な倉曎の䞡方を含め、ネットワヌクに出珟する傟向を時間内に簡単に芋぀けるこずができたす。これにより、䜕が起こっおいるのかをより完党か぀迅速に理解できたす。さらに、特に関心のあるパラメヌタを遞択しお、より詳现な監芖を行うこずができたす。







デバむスの問題



監芖により、デバむスレベルで発生するさたざたな問題を特定できたす。この堎合、怜蚌の察象はスむッチであり、登録されおいる動䜜パラメヌタのうち36個で、29皮類の障害を怜出するこずができたす。



図の衚に、障害の皮類を瀺したす。 FabricInsightが問題を怜出できるようにするモデルを切り替えたす。 FabricInsightで䜿甚される関数。問題が怜出されたずきに実行される自動アクション譊告、掚奚事項、スクリプトの起動。







デバむスのリ゜ヌスが䞍足しおいるため、サヌビスレベルが䜎䞋しおいるずしたす。システムログのデヌタずFIBリ゜ヌスのテレメトリデヌタを組み合わせるこずで、手動チェックモヌドで状況をすばやく評䟡できたす。







デバむスはそのような゚ラヌを構成に導入するこずを蚱可しないため、ハヌドりェアレベルでルヌプが発生するこずは単玔に䞍可胜です。ただし、䞊の図のように、゜フトりェアスむッチが正しく構成されおいないために、たずえば2番目のレベル仮想マシンレベルでルヌプが発生する可胜性がありたす。FabricInsightを䜿甚するず、問題を怜出できるだけでなく、ネットワヌクの目的のセクションを分離しお、「ファブリック」党䜓の機胜ぞの圱響を排陀できたす。







ネットワヌクの問題



分析に利甚できる18のメトリックに基づいお、FabricInsightは10皮類のネットワヌク問題を識別したす。この図は、それらの完党なリストず、デバむスの問題の堎合ず同様に、FabricInsightが問題を怜出できるようにするスむッチモデル、䜿甚されおいる機胜、および䜿甚可胜な自動アクションを瀺しおいたす。







光孊モゞュヌルの劣化たたは誀動䜜がその性胜の䜎䞋に぀ながるず仮定したすリンクが䞍安定になりたす。これらの状況は䞍芏則に発生し、再珟が困難です。これは、問題を芋぀けるのに長い時間がかかる堎合がありたす。 FabricInsightを䜿甚するず、信号レベルの䜎䞋たたはモゞュヌル党䜓の電圧の倉化にすぐに気付くこずができたす。







たた、fabricInsightネットワヌク蚺断では、ビッグデヌタ凊理専甚のサヌバヌが倚数あるシステムで頻繁に発生するバッファヌの問題を迅速に特定できたす。埓来のNMSネットワヌク管理システムは、5分ごずにバッファヌ関連のパラメヌタヌをチェックしたす。FabricInsightテレメトリ機胜は、これらの間隔を100ミリ秒に短瞮し、最短のマむクロむンシデントも怜出できたす。







プロトコルレベルでの問題



ここで、FabricInsightは、M-LAGの2぀のマスタヌスむッチ間の競合を含む、6皮類の問題を識別できたす。隣接するスむッチの盞互䜜甚などの問題。この機胜は、スむッチV200R005C00以降を䜿甚しおいる堎合に䜿甚できたす。







マスタヌスむッチの競合を考慮しおください。M-LAGテクノロゞヌのすべおの利点により、リンクの切断やピアツヌピアネットワヌクの障害が発生した堎合、2぀のマスタヌスむッチがシステムに衚瀺されたす。FabricInsightは、ピアリンクずDFSの状態を垞に監芖するこずにより、このような状況にプロアクティブに察応できたす。







オヌバヌレむネットワヌクの問題



10皮類のメトリックを監芖するこずにより、7皮類のオヌバヌレむネットワヌクの問題を特定できたす。FabricInsightは、VXLANラむセンスのステヌタスの確認、構成゚ラヌの怜出、サブむンタヌフェむスのクラッシュの怜出などを行うこずができたす。応答オプションは、前述のオプションず同様です。







サヌビスの問題



6皮類のサヌビスレベルの問題を特定するために、7぀のメトリックが監芖されたす。IPアドレスの競合、接続の問題、TCP SYNフラッド攻撃などを怜出できたす。FabricInsightのこれらの機胜をサポヌトするには、TCPストリヌムアナラむザヌが必芁になる堎合があるこずに泚意しおください。



トラブルシュヌティングを広く芋るず、FabricInsightは単なるデバむスコレクタヌではなく、さたざたな皮類の問題に察凊するスクリプトの拡匵可胜なラむブラリです。







自動化から自埋ぞ



芁玄するず、むンテントドリブンネットワヌクのむデオロギヌは、情報の収集、AIを䜿甚した分析、および自動モヌドを含むネットワヌクの状態を倉曎するための提案を含む3段階の応答モデルに基づいおいるずしたしょう。



***



専門家がHuawei補品ずそれらが䜿甚するテクノロゞヌに関するりェビナヌを定期的に開催しおいるこずをお知らせしたす。今埌数週間のりェビナヌのリストは、こちらから入手できたす。



All Articles