大企業向けのサービスとしてのネットワーク:非標準のケース



大企業で生産を停止せずにネットワーク機器をアップグレードするにはどうすればよいですか?Linxdatacenterプロジェクト管理マネージャーのOlegFedorovが、「開心術」モードでの大規模プロジェクトについて話します。 



過去数年間で、ITインフラストラクチャのネットワークコンポーネントに関連するサービスに対する顧客からの需要が高まっています。 ITシステム、サービス、アプリケーション、監視タスク、およびほぼすべての分野でのビジネスの運用管理の接続性の必要性により、今日の企業はネットワークにますます注意を払う必要があります。  



要求の範囲-ネットワークの復元力の提供から、IPアドレスのブロックの取得によるクライアント自律システムの作成と管理、組織のポリシーに従ったルーティングプロトコルとトラフィック管理の構成まで。



また、ネットワークインフラストラクチャがゼロから作成されているか、道徳的に時代遅れであり、深刻な変更が必要な顧客から、ネットワークインフラストラクチャの構築と保守のための統合ソリューションに対する需要も高まっています。 



この傾向は、Linxdatacenter独自のネットワークインフラストラクチャの開発と複雑化と一致していました。リモートサイトに接続することでヨーロッパでのプレゼンスの地理を拡大し、その結果、ネットワークインフラストラクチャの改善が必要になりました。 



同社は、お客様向けの新しいサービスであるNetwork-as-a-Serviceを開始しました。お客様のすべてのネットワークタスクを処理し、お客様がコアビジネスに集中できるようにします。



2020年の夏に、この方向での最初の大規模プロジェクトが完了しました。これについてお話ししたいと思います。 



開始時 



大規模な工業団地は、その企業の1つでインフラストラクチャのネットワーク部分の近代化を求めました。ネットワークコアを含め、古い機器を新しい機器に交換する必要がありました。



企業の機器の最後の近代化は約10年前に行われました。企業の新しい経営陣は、最も基本的な物理レベルでのインフラストラクチャのアップグレードから始めて、接続性を改善することを決定しました。 



プロジェクトは、サーバーパークとネットワーク機器のアップグレードの2つの部分に分けられました。第二部は私たちが担当しました。 



作業の基本的な要件には、作業の実行中の企業の生産ラインのダウンタイムを最小限に抑えることが含まれていました(一部の領域では、ダウンタイムを完全に排除しました)。あらゆる停止-クライアントの直接的な経済的損失。これはいかなる状況でも発生してはなりません。施設の24時間365日の運用モードに関連して、また企業の実務において計画されたダウンタイムの期間が完全にないことを考慮に入れて、実際、私たちは開心術を実行するように任務を負いました。これがプロジェクトの主な特徴となりました。



行く



作業は、コアから離れたネットワークのノードからより近いノードへの移動、および生産ラインの運用に影響を与えないノードからこの作業に直接影響を与えるノードへの移動の原則に従って計画されました。 



たとえば、営業部門のネットワークノードを使用する場合、この部門での作業の結果として通信が中断しても、本番環境にはまったく影響しません。同時に、そのようなインシデントは、請負業者として、そのようなノードで作業するために選択されたアプローチの正しさを確認し、アクションを調整した後、プロジェクトの次の段階で作業するのに役立ちます。 



ネットワーク内のノードとワイヤを交換するだけでなく、ソリューション全体が正しく動作するようにすべてのコンポーネントを正しく構成する必要があります。この方法でテストされたのは構成でした。カーネルから離れた場所から作業を開始し、企業の運営にとって重要な領域を危険にさらすことなく、「間違いを犯す権利」を自分たちに与えました。 



生産プロセスに影響を与えない領域と、重要な領域(ワークショップ、ロードおよびアンロードブロック、倉庫など)を特定しました。主要な領域で、クライアントはネットワークの各ノードの許容ダウンタイムについて個別に合意しました:1〜15分..。個々のネットワークノードの切断を完全に回避することは不可能でした。ケーブルを古い機器から新しい機器に物理的に切り替える必要があり、切り替えの過程で、適切な注意を払わずに数年間の運用中に形成されたワイヤーの「ひげ」を解く必要もあります(アウトソーシング作業の結果の1つ)。ケーブルラインの設置について)。



作業はいくつかの段階に分けられました。



ステージ1- 監査。作業計画へのアプローチの準備と承認、およびチーム(クライアント、インストールを実行する請負業者、および当社のチーム)の準備状況の評価。



ステージ2-詳細な分析と計画を伴う、作業を実行するためのフォーマットの開発。ポートごとにパッチコードを切り替える順序まで、アクションの順序と順序を正確に示すチェックリスト形式を選択しました。



ステージ3-生産に影響を与えないキャビネットで作業を実行します。作業の後続の段階でのダウンタイムの見積もりと調整。



ステージ4-生産に直接影響するキャビネットでの作業の実行。作業の最終段階でのダウンタイムの見積もりと調整。



ステージ5-サーバールームで作業を行い、残りの機器を切り替えます。新しいカーネルでルーティングを実行しています。



ステージ6-システムコンプレックス全体(VLAN、ルーティングなど)をスムーズに移行するために、システムコアを古いネットワーク構成から新しいネットワーク構成に順次切り替えます。この段階で、すべてのユーザーを接続し、すべてのサービスを新しい機器に転送し、接続の正当性を確認し、エンタープライズサービスが停止していないことを確認し、問題が発生した場合にカーネルに直接接続することを確認しました。これにより、可能性のある排除が容易になりました。トラブルシューティングと最終設定。 



ひげの髪型



初期条件が厳しいため、プロジェクトも困難でした。 



第一に、それはネットワークの膨大な数のノードとセクションであり、複雑なトポロジーと目的に応じたワイヤーの分類があります。そのような「ひげ」はクローゼットから取り出され、どこからどこからどのワイヤーがつながるかを理解するために、丹念に「コーミング」されなければなりませんでした。 



次のようになりました。





そう:





またはこのように: 





第二に、そのようなタスクごとに、プロセスを説明するファイルを準備する必要がありました。 「古い機器のポート1からワイヤーXを取り出し、新しい機器のポート18に接続します。」簡単に聞こえますが、初期データに48個の完全に詰まったポートがあり、アイドルオプションがない場合(24x7x365について覚えています)、唯一の方法はブロックで作業することです。一度に古い機器から引き抜くことができるワイヤの数が多いほど、それらをコーミングして新しいネットワークハードウェアに挿入する速度が速くなり、ネットワークの中断やダウンタイムを回避できます。 



したがって、準備段階で、ネットワークをブロックに分割しました。各ブロックは特定のVLANに属していました。古い機器の各ポート(またはそれらのサブセット)は、新しいネットワークトポロジのVLANの1つです。これらを次のようにグループ化しました。スイッチの最初のポートはユーザーネットワークにあり、中央には本番ネットワークがあり、最後にはアクセスポイントとアップリンクがあります。 



このアプローチにより、古い機器から1本のワイヤーではなく、一度に10〜15本のワイヤーを引き出してコーミングすることが可能になりました。これにより、ワークフローが数回加速されました。  



ちなみに、コーミング後のクローゼット内のワイヤーは次のようになります。 





または、たとえば、次のようになります。 





第2段階の完了後、エラーとプロジェクトのダイナミクスを分析するために休憩しました。たとえば、提供されたネットワークダイアグラムの不正確さが原因で、小さな欠陥がすぐに発生しました(ダイアグラム上のコネクタが正しくない場合は、購入したパッチコードが正しくないため、交換する必要があります)。 



サーバーから直接作業する場合、プロセスの小さな障害でも受け入れられないため、一時停止が必要でした。ネットワークセクションのダウンタイムを5分以内にすることが目標である場合、それを超えることはできません。スケジュールから逸脱する可能性がある場合は、クライアントと合意する必要がありました。 



ただし、事前の計画とプロジェクトのブロックへの分割により、すべての領域で計画されたダウンタイムに対応することが可能になり、ほとんどの場合、それなしで実行できました。 



時間の課題-COVIDの下でのプロジェクト 



ただし、いくつかの追加の問題がありました。もちろん、コロナウイルスは障害の1つでした。 



パンデミックが始まったという事実によって作業は複雑になり、プロセスに関与するすべての専門家がクライアントのサイトでの作業中に立ち会うことは不可能でした。設置スタッフのみが現場に立ち入り、ズームの部屋を介して制御が行われました。プロジェクトマネージャーとしてLinxdatacenterのネットワークエンジニア、作業の作成を担当するクライアント側のネットワークエンジニア、および設置作業を行うチームがいました。



作業中に原因不明の問題が発生し、その場で調整する必要がありました。そのため、人的要因の影響(スキームのエラー、インターフェースアクティビティのステータスの判別エラーなど)を迅速に防ぐことができました。



プロジェクトの当初は遠隔作業形式は珍しいように見えましたが、私たちはすぐに新しい条件に適応し、作業の最終段階に到達しました。 



スムーズな移行を確実にするために、一時的なネットワーク構成構成を実行して、古いネットワークコアと新しいネットワークコアの2つのネットワークコアを並行して実行しました。ただし、新しいカーネルの構成ファイルから1行余分に削除されておらず、遷移が発生しなかったことが判明しました。これにより、問題を探すのに時間を費やすことができました。 



メイントラフィックは正しく送信され、制御トラフィックは新しいコアを介してノードに到達しなかったことが判明しました。プロジェクトが段階に明確に分割されているため、問題が発生したネットワークセクションをすばやく特定し、問題を特定して修正することができました。 



結果として



プロジェクトの技術的成果 



まず、新しいエンタープライズネットワークの新しいコアが作成され、そのために物理的/論理的なリングが構築されました。これは、ネットワーク内の各スイッチが「セカンドショルダー」を持つように行われます。古いネットワークでは、多くのスイッチが1つのルート、1つのショルダー(アップリンク)を介してコアに接続されていました。破れた場合、スイッチに完全にアクセスできなくなりました。また、1つのアップリンクを介して複数のスイッチが接続されている場合、事故により企業の部門または生産ライン全体が機能しなくなります。 



新しいネットワークでは、かなり深刻なネットワークインシデントであっても、シナリオがない場合でも、ネットワーク全体またはその重要なセクションを「強制終了」することができます。 



すべてのネットワーク機器の90%が更新され、メディアコンバーター(信号伝搬メディアコンバーター)が廃止され、電力がイーサネットワイヤーを介して供給されるPoEスイッチに接続することにより、機器に電力を供給する専用の電力線が不要になりました。 



また、サーバールームとフィールドのキャビネット内のすべての光接続は、すべての主要な通信センターでマークされています。これにより、現在の実際の状態を反映した、ネットワーク内の機器と接続のトポロジ図を作成することが可能になりました。 



ネットワーク図



技術的な観点から最も重要な結果は、企業の運営に干渉を生じさせることなく、また従業員にはほとんど見えない、かなり大規模なインフラストラクチャ作業が迅速に実行されたことです。 



プロジェクトの業績



私の意見では、このプロジェクトは主に技術的な観点からではなく、組織的な観点から興味深いものです。困難は主に、プロジェクトタスクを実装するためのステップを計画および検討することでした。 



プロジェクトの成功により、Linxdatacenterサービスポートフォリオ内でネットワークの方向性を開発するという私たちのイニシアチブは、会社の発展のためのベクトルの正しい選択であると言えます。プロジェクト管理への責任あるアプローチ、有能な戦略、明確な計画により、適切なレベルで作業を実行することができました。 



仕事の質の確認-ロシアの他のサイトでネットワーク近代化サービスの提供を継続するようにというクライアントからの要求。



All Articles