「SREの目標は信頼できるシステムです。」基本的なSREメトリックの概要

サイト信頼性エンジニアリング(SRE)は、DevOps実装の一形態です。SREアプローチは、Googleで始まり、2016年に同名の本が出版された後、食料品IT企業の間で人気を博しました。



この記事では、SREアプローチがDevOpsにどのように関連しているか、SREエンジニアが解決するタスク、および彼が処理するメトリックについて説明します。





DevOpsからSREへ



多くのIT企業では、さまざまなチームがさまざまな目標を持って開発と運用に関与しています。開発チームの目標は、新機能を展開することです。運用チームの目標は、新旧の機能を本番環境で機能させ続けることです。開発者は可能な限り多くのコードを提供するよう努め、システム管理者はシステムの信頼性を維持するよう努めます。



チームの目標は互いに矛盾しています。これらの矛盾を解決するために、DevOps手法が作成されました。これには、サイロの削減、エラーの受け入れ、自動化およびその他の原則への依存が含まれます。



, , DevOps . « DevOps?». , , .



2016 , Google «Site Reliability Engineering». DevOps. SRE-, IT-.



DevOps — . SRE — . DevOps — , SRE — , DevOps.



SRE-



SRE , DevOps .



, , SRE . , - . , SRE .



SRE — . , , — .



, SRE , , . - : « — ». , . SRE . , , . , .



. , , . , .



SRE . , SRE : «OK, , , ». , , , .



  • — , .
  • — , . , .


SRE , -, . SRE ( , ).



SRE , - .



, SRE . , -. — .



: SLA, SLI, SLO



. — , .



SRE , . , (, . .) , .



- — Service-Level Objective (SLO). , .



SRE , . « , . , , SLO», Google. — , , .



, — Service Level Indicator (SLI). , , , — .



SLO SLI — , . Service Level Agreement (SLA). .



SLA: 99,95% ; 99 ; 85% 1,5 .



100%



SRE , . , .



, «»:



  • — 99%,
  • — 99,9%,
  • — 99,99%,
  • — 99,999%.


— 5 , — 3,5 .





, 100%, . - ROI — .



, . ! 47 . . .



. 99,99% 99,999%, 99%. , 10 8 . , .



— MTBF MTTR



, SRE : MTBF MTTR.



MTBF (Mean Time Between Failures) — .



MTBF . SRE «!». , SRE - , , .



MTTR (Mean Time To Recovery)— ( ).



MTTR SLO. SRE . , SLO 99,99% , , 13 3 . 13 , «» , SLO .



13 — , . 7-8 , — . MTTR , .



SRE , MTTR, SLO , , .



, . , , :



, SRE. , SRE , , , , . , , .





, 100% , , , — , - «» .



SLO. SLO (Error budget).





SRE.



43 , 40 , : SLO, . , -.



, . SRE Error budget :



  • , ,
  • ,
  • ,
  • .


, Error budget . .





«» : SRE, . , , . SRE .



— SRE . Netflix Chaos Engineering.



Netflix Chaos Engineering: Chaos Monkey CI/CD ; Chaos Gorilla AWS. , SRE , — , . , .



Chaos Engineering :



  1. , , ( ).
  2. , . — : , .
  3. , , , CI/CD- .


Post mortem



SRE blameless postmortem, , .



, 13 , 15. ? SRE, ; -, ; , , SLA . , , - . .





, , SLO. SRE — . , , .



:



  • — (« !»);
  • — (« - , , »);
  • — , («, , , »).


SRE , , , , . .



(Observability). , , , .



: , , . : , - Kubernetes, , .



Observability MTTR. Observability , , , MTTR.



SRE



SRE , , , . SRE , . , . , .



SRE , , . . — (, ). , , , .



SRE : SLO, SLI, SLA . , SLA SLO. . , , .



, , — , . Error budget, , .





SRE. , .



SRE Google:

Site Reliability Engineering

The Site Reliability Workbook

Building Secure & Reliable Systems



:

SRE

SLA, SLI, SLO

Chaos Engineering Chaos Community Netflix

200 SRE



SRE ():

Keys to SRE

SRE

SRE

SRE





, — . , - SRE . 11–13 2020.



SLO, SLI, SLA, , , .



SLO: , , , DoS-. , Error budget, , .






All Articles