SYSTEM-7-1

クライテリア

SLI/SLO/エラーバジェットがビジネスオーナーとエンジニアが協議して合意の上設定され、計測されているか。

タイプ

システムモニタリング

観点

メトリクスの計測

用語解説

SLI

システムの信頼性/安定稼働というものををどう計測するかの指標です。

SLO

SLIの数値をモニタリングして、何をもってシステムの信頼性が高いと言えるか、安定稼働しているといえるかの基準値です。

エラーバジェット

損失可能なシステムの信頼性、許容できる可用性低下の妥協点です。

参考資料

システムのスピードと品質を両立する為のエラーバジェットとSLI/SLOという考え方 - Qiita

システムの可用性と機能のイテレーションスピードや市場投入までの時間はトレードオフ (GoogleのGCPは機能のイテレーションスピードや市場投入までの時間を重要視している) 機能のイテレーションスピードを最大化した上で、システム可用性を担保する為にどうすれば良いか? その最適解の1つがエラーバジェットという考え方 エラー予算 損失可能なシステムの信頼性 許容できる可用性低下の妥協点とも言えます。 開発チームはこのエラーバジェットが基準値を下回ったタイミングでイテレーションは停止して以下を行います。 システム信頼性の獲得 エラーバジェットの消費状況の分析/原因特定/対処を行います。 システム信頼性はどう計測し、基準値はどうすれば良いか? これがSLI/SLOです。 システムの信頼性/安定稼働というものををどう計測するかの指標です。 例えば、リクエスト成功率、レイテンシなどを選定します。 シンプルに以下の様な感覚です。 エラーがたくさん出たら安定稼働できていない レスポンスタイム低下していたら安定稼働できていない SLIの数値をモニタリングして、何をもってシステムの信頼性が高いと言えるか、安定稼働しているといえるかの基準値がSLOです。 QA環境や試験セットを改善し、本番環境への移行前に多くのリリースエラーを見つけ出す。 ロールアウトの自動化 モニタリング改善 不具合のあるリリースをより迅速に発見しロールバックする方法を開発する。 この結果、リリースの頻度が減ったり、リリースごとの変更点が減少してエラーバジェットへの影響が小さくなったりすることもあります。 しかし、一時的にリリースのスピードを落とす事は、将来的に元のスピードで安全にリリースできるようにするためです。 freelance software developer/rails contributor https://contributors.rubyonrails.org/contributors/soartec-lab/commits Why not register and get more from Qiita?

システムのスピードと品質を両立する為のエラーバジェットとSLI/SLOという考え方 - Qiita