「私はそれを自分で壊します、私はそれを自分で直します」-私がどのように叙事詩がセールの間違った場所をクリックしたか

こんにちは、Habr!



罪のない天国の人々だけがすべてのインテグレーターで働いているので、そのような誤りについて話すことは通常習慣的ではありません。ご存知のように、DNAレベルでは、間違っている、または間違っている可能性はありません。



しかし、私はそれを危険にさらします。私の経験が誰かに役立つことを願っています。シスコのACIファクトリを完全にサポートする、オンライン小売という主要な顧客が1社あります。同社には、このシステムに対応する独自の管理者がいません。ネットワークファブリックは、単一のコントロールセンターを持つスイッチのグループです。さらに、メーカーが非常に誇りに思っている便利な機能がたくさんありますが、最終的には、すべてを削除するには、数十人ではなく1人の管理者が必要です。そして、数十台のコンソールではなく、1つのコントロールセンター。



ストーリーは次のように始まります。顧客は、ネットワーク全体のコアをこのスイッチのグループに転送したいと考えています。この決定は、このグループのスイッチが「収集」されるACIアーキテクチャが非常にフォールトトレラントであるという事実によるものです。これは一般的ではなく一般的ですが、どのデータセンターのファクトリも他のネットワークのトランジットネットワークとして使用されず、エンドロード(スタブネットワーク)を接続するためだけに機能します。しかし、そのようなアプローチは非常に可能であるため、顧客は望んでいます-私たちはそれを行います。



その後、平凡なことが起こりました。ポリシーの削除とネットワークのフラグメントの構成の削除という2つのボタンを混同しました。



画像



それでは、古典によれば、崩壊したネットワークの一部を再構築する必要がありました。



順番に



顧客の要求は次のように聞こえました。この工場に直接機器を転送するために、個別のポートグループを構築する必要がありました。

同僚の方は、ポートLeaf 1-1101とLeaf1-2 102、ポート43と44の設定をLeaf 1-3103とLeaf1-4 104、ポート43と44に転送してください。Leafのポート43と44に1- 1および1-2、3650スタックは接続されていますが、まだ動作していません。ポート設定はいつでも転送できます。


つまり、サーバークラスターを転送したかったのです。サーバー環境用に新しい仮想ポートグループを構成する必要がありました。実際、これは日常的なタスクです。通常、このようなタスクにはサービスのダウンタイムはありません。本質的に、APIC用語のポートグループは、異なるスイッチに物理的に配置されているポートからアセンブルされたVPCです。



問題は、ファクトリでは、これらのポートグループの設定が別のエンティティに関連付けられていることです(これは、ファクトリがコントローラから制御されているために発生します)。このオブジェクトはポートポリシーと呼ばれます。つまり、追加するポートのグループに、これらのポートを管理するエンティティとして、上からの一般的なポリシーも適用する必要があります。



つまり、ノード103〜104で同様の構成をアセンブルするために、ノード101および102のポート43および44で使用されているEPGを分析する必要がありました。必要な変更を分析した後、ノード103〜104の構成を開始しました。ノード103および104の既存のインターフェイスポリシーで新しいVPCを設定するには、インターフェイス43および44を取り込むポリシーを作成する必要



がありました。GUIには1つのニュアンスがあります。私はこのポリシーを作成し、構成プロセス中に小さな間違いを犯したことに気付きました。顧客の習慣とは異なる名前を付けました。これは重要ではありません。ポリシーは新しく、何にも影響を与えないためです。また、このポリシーは変更できなくなったため(名前は変更されません)、このポリシーを削除する必要がありました。ポリシーを削除して再作成することしかできません。



問題は、GUIにインターフェイスポリシーを参照する削除アイコンがあり、スイッチポリシーを参照するアイコンがあることです。視覚的には、ほとんど同じです。そして、作成したポリシーを削除する代わりに、スイッチ103〜104のインターフェイスのすべての構成を



画像



削除しました。1つのグループを削除する代わりに、実際にはノード設定からすべてのVPCを削除し、trashbinの代わりにdeleteを使用しました。



これらのリンクには、ビジネスに依存するVLANがありました。実際、構成を削除した後、グリッドの一部を無効にしました。さらに、ファクトリはカーネルを介して制御されていないため、これはすぐにはわかりませんでしたが、個別の管理インターフェイスがあります。私はすぐに捨てられませんでした、管理者によって行動がとられたので工場でエラーはありませんでした。そして、インターフェースは考えます-ええと、あなたが削除すると言ったなら、そうあるべきです。エラーの兆候はありませんでした。ソフトウェアは、ある種の再構成が進行中であると判断しました。管理者がリーフプロファイルを削除すると、ファクトリの場合は存在しなくなり、機能しないことを示すエラーは書き込まれません。意図的に削除されたため、機能しません。ソフトウェアでは機能しないはずです。



そのため、ソフトウェアは私がチャック・ノリスであると判断し、私が何をしているかを正確に知っていました。すべてが管理されています。管理者は間違いではありません、そして彼が自分自身を足で撃ったとしても、これは狡猾な計画の一部です。



しかし、約10分後、私はVPNから追い出されました。これは、最初はAPIC構成に関連付けられていませんでした。しかし、これは少なくとも疑わしいものであり、私は顧客に連絡して何が起こっているのかを明らかにしました。そして次の数分間、問題は技術的な作業、突然の掘削機、または停電であると思いましたが、工場出荷時の構成ではありませんでした。



顧客のネットワークは複雑です。私たちのアクセスによって、私たちは環境の一部しか見ることができません。イベントを復元すると、すべてがトラフィックのリバランスが開始されたように見えます。その後、数秒後、残りのシステムの動的ルーティングが実行されませんでした。

私が使用していたVPNは管理VPNでした。普通の従業員はもう一方に座り、すべてが彼らのために働き続けました。



一般に、問題がまだ私の構成にあることを理解するために、さらに数分の交渉が必要でした。このような状況での戦闘の最初のアクションは、過去の構成にロールバックし、ログを読み取ることです。これは製品であるためです。



工場修復



工場を復元するのに30分かかりました-すべての呼び出しを含み、関係するすべての人を集めました。



通過できる別のVPNが見つかり(これにはセキュリティガードとの合意が必要でした)、工場出荷時の設定をロールバックしました。CiscoACIでは、これは2回のクリックで実行されます。複雑なことは何もありません。復元ポイントを選択するだけです。10〜15秒かかります。つまり、リカバリ自体に15秒かかりました。残りの時間は、リモコンの入手方法を理解するために費やされました。



画像



事件後



別の日、ログを解析し、一連のイベントを復元しました。それから彼らは顧客との電話を集め、事件の本質と原因を冷静に述べ、そのような状況と人的要因のリスクを最小限に抑えるためのいくつかの対策を提案しました。



工場の構成に触れるのは、就業時間外の夜間と夕方のみであることに同意しました。重複したリモート接続を使用して作業を実行します(VPNチャネルが機能しており、バックアップチャネルがあります)。お客様は当社から警告を受け、この時点でサービスを監視しています。



エンジニア(つまり私)はプロジェクトで同じままでした。事件前よりも信頼感が高まったと言えますが、それは、迅速に対応し、パニックの波がお客様を覆い隠さなかったからだと思います。主なことは、彼らが関節を隠そうとしなかったということです。実際には、この状況ではベンダーへの切り替えを試みるのが最も簡単であることを私は知っています。



他のアウトソーシングされた顧客にも同様のネットワークポリシーを適用しました。顧客にとっては困難です(追加のVPNチャネル、営業時間外の追加の管理者変更)が、多くの人がこれが必要な理由を理解していました。



また、Cisco Network Assurance Engine(NAE)ソフトウェアについても深く掘り下げました。そこでは、ACIファクトリで2つの単純ですが、非常に重要なことを行う機会が見つかりました。



  • まず、NAEを使用すると、計画された変更を工場に展開してすべてを自分で撮影する前でも分析し、変更が既存の構成にどのようにプラスまたはマイナスの影響を与えるかを予測できます。
  • 次に、NAEを使用すると、変更後、工場の全体的な温度を測定し、この変更が最終的に工場の状態にどのように影響したかを確認できます。


詳細に興味がある場合は、明日 、テクニカルサポートの内部キッチンに関するウェビナーを開催します。すべてが当社およびベンダーとどのように連携するかを説明します。エラーも分析します)



All Articles