私たちがそれのために何も持っていないようにそれを分解しましょう-私たちはこの恥辱のために賞賛されるだけではありません。そして、すべてを再構築します。これにより、1桁優れた、より耐障害性のある、より高速なものになります。
そして、私たちは再びそれを壊します。
これは、私たちのすべての天文学の中で最も秘密の楽器であるビッグロシアスペースハンマーの使用をめぐる競争だと思いますか?
いいえ、これはオンラインのSREを多用します。すべてのSlurmSREコースがたまたま起こった前のものとは違って決してそして何のためにも。毎秒数千人のユーザーが接続し、オーディエンス自体が数百万人である巨大で複雑なシステムでは、SREエンジニアの職務シフトのムードを台無しにするために、落ちたり、壊れたり、鈍くなったり、グリッチが発生したりする可能性があります。
12月には、別のSREインテンシブを開催します。
小さな回顧展をアレンジしましょう。ほんの数年前、HRが社内でより多くのDevOpsエンジニアを見つけるためにどのように競争を行ったかを考えてみてください。賞金が変わりました。現在、彼らは追跡システム「Pantsir-C1」のように、SREエンジニアを探して周囲の空間を検査しています。私は記事で「EugeneVaravva、Googleの開発者。 Googleを5語で説明する方法」、SREエンジニアがGoogleでどのように生活しているか、そのような企業でさえSREスペシャリストの不足をどのように経験しているか。
12月のオンライン集中SlurmSREでは、10:00から19:00までの3日間で、限られたリソースの条件下でサイトの速度、障害耐性、可用性を確保し、ITインシデントを排除し、問題が再発しないように報告を行う方法を学びます。
コーススピーカー:
IvanKruglov。 Databricksのスタッフソフトウェアエンジニア。分散配信とメッセージ処理、BigDataとWebスタック、検索、内部クラウド構築、サービスメッシュの企業での経験があります。
PavelSelivanov。 Mail.ru CloudSolutionsのシニアDevOpsエンジニア。数十の構築されたインフラストラクチャと数百の書き込まれたCI / CDパイプラインのため。認定Kubernetes管理者。 KubernetesとDevOpsに関するいくつかのコースの著者。ロシアおよび国際的なIT会議で定期的に講演。
すべてがタフで、予測不可能で、実際になります。ビルド、破損、修復を行います。場合によっては、さまざまな順序で行います。
ビルド:複数のマイクロサービスで構成されるサイトのSLO、SLI、SLAインジケーターを作成する必要があります。それらをサポートするアーキテクチャとインフラストラクチャを開発します。サイトの構築、テスト、および展開。監視とアラートを構成します。
休憩: SLO劣化の内部および外部要因(開発者エラー、インフラストラクチャ障害、訪問者の流入、DoS攻撃)を検討します。復元力、エラーバジェット、テストプラクティス、割り込み管理、および運用負荷を理解する方法を学びます。
修正:緊急対応チームの作業を最短時間で迅速かつ効率的に整理するようにトレーニングされます。同僚を接続し、利害関係者に通知し、優先順位を設定します。
調査:SREの観点からサイトへのアプローチを解析できるようになります。インシデントを分析します。将来的にそれらを回避する方法を決定します:監視の改善、アーキテクチャの変更、開発と運用へのアプローチ、規制。プロセスを自動化します。
オンラインSREインテンシブは、実際の状態をシミュレートします。サービスのパフォーマンスを復元する時間は非常に限られています。実生活のように、実際の仕事の状況のように。
SREコースの条件を確認したり、プログラム全体をここで学習したりできます。
オンラインインテンシブは2020年12月に予定されています。事前に参加費をお支払いいただいた方には、割引をご用意しております。
激しいトレーニング、挑戦的な挑戦、突然の事故の準備はできていますか?
それはしません。専門家としての成長があります。