マイクロサービスアーキテクチャの異常の特定-DevOpsとSREツールの概要

こんにちは。今日は、マイクロサービス環境での異常の検出について説明します。この投稿は、DevOps Live 2020オンライン会議で行った40分間のレポートの短い要約です。長い間書かないように、マイクロサービスの監視を自動化するためのメトリック値の分布の異常を検出するためのツールの概要に焦点を当てることにしました。これは、どのチームでもすぐに使用できます。 ..。







SREおよびDevOpsのマイクロサービスへの移行に伴い、アラートを意味のある信号に変換し、MTTDを削減し、分散環境の監視におけるアラートの構成を簡素化することに関連するタスクの優先度が大幅に向上したため、異常検出のトピックは現在非常に重要です。













, , , .

"" .







, , .







?

?







, :







  • latency ;
  • ;
  • .


"" , - , .







, :







  • ;
  • , ;
  • «» , .


, , , ?







:







  • c ;
  • APM ;
  • as a Service.


.









, Python R.







Prometheus , time series .

recording rules, , .







, , , ( " ").







, , z- (z-score) — , , .







http_requests_total, :







#    
- record: job:http_requests:rate5m
  expr: sum by (app) (rate(http_requests_total[5m]))

      
      





:







# average -   
- record: job:http_requests:rate5m:avg_over_time_1w
expr: avg_over_time(job:http_requests:rate5m[1w])

# stddev -  
- record: job:http_requests:rate5m:stddev_over_time_1w
expr: stddev_over_time(job:http_requests:rate5m[1w])

# z-
(job:http_requests:rate5m - job:http_requests:rate5m:avg_over_time_1w
) /  job:http_requests:rate5m:stddev_over_time_1w
      
      





単純な異常







( , latency) — , , .







— .







, .







.







, — z-.







季節予測







recording rules Prometheus .







Prometheus — PAD



Prometheus Anomaly Detector (PAD), Red Hat, , .







PAD Prometeheus , PAD recording rules, , , Prophet, .







PADアーキテクチャ







PAD Grafana .







PADアーキテクチャ







, proof of concept.







APM



(Application Performance Monitoring) AIOps — , , .







, .







New Relic



New Relic baseline ( ) — , EUM, .







— baseline, ( , , ).

, , , , baseline.







, .







新しい遺物-ベースラインからの逸脱に関するアラートのポリシーを設定する







2020 — New Relic Applied Intelligence (AI).







New Relic AI KPI .







/ .







新しいRelicAppliedIntelligence-複数のアプリケーションにわたるメトリックの異常の検出







AppDynamics



AppDynamics APM baseline KPI- .







baseline , , (, ) , baseline.







AppDynamics-ベースライン設定







, , health rule .







, baseline health rule.







AppDynamics-ベースラインからの逸脱に関するアラートのポリシーを設定する







Dynatrace



Dynatrace " " , .







Dynatrace-トラフィック減少のシグナル







:







  • KPI


.







Dynatrace-セットアップ







Dynatrace-セットアップ







Instana



Instana " " 230 "" , KPI .







latecy, error rate, traffic ( ).







Instana-EDMアルゴリズムを使用して異常を検出するルールのリスト







E-Divisive with Medians (EDM).







Instana-ルールがメトリックの異常を検出しました







, , baseline.

"" "" , .







baseline — .







EUM.







Instana-EUMベースラインメトリックに基づくアラートポリシーコンストラクター







as a Service



APM , Prometheus , , SaaS .







Azure Metric Advisor



Microsoft — Azure Metric Advisor .







, , e-commerce.

(SQL Server, ElasticSearch, InfluxDB, MongoDB, MySQL, PostgreSQL ), Prometheus .







Azure MetricAdvisorインターフェース







Anodot



— Prometheues -.







-, SRE .







e-commerce, gaming .







アノドット







AnomalyIO



, , , , InfluxDB.







, InfluxDB, , .







アノドット









  • .
  • – , .
  • Prometheus — .
  • APM AIOps, .


.








All Articles