DX Criteria (v202104)/企業のデジタル化とソフトウェア活用のためのガイドライン
/
✅
クライテリア
/
SYSTEM-7-1
SYSTEM-7-1
2021/1/20
7:03
2022/11/15
12:39
クライテリア
SLI/SLO/エラーバジェットがビジネスオーナーとエンジニアが協議して合意の上設定され、計測されているか。
タイプ
システムモニタリング
観点
メトリクスの計測
用語解説
SLI
システムの信頼性/安定稼働というものををどう計測するかの指標です。
SLO
SLIの数値をモニタリングして、何をもってシステムの信頼性が高いと言えるか、安定稼働しているといえるかの基準値です。
エラーバジェット
損失可能なシステムの信頼性、許容できる可用性低下の妥協点です。
参考資料
システムのスピードと品質を両立する為のエラーバジェットとSLI/SLOという考え方 - Qiita
システムの可用性と機能のイテレーションスピードや市場投入までの時間はトレードオフ (GoogleのGCPは機能のイテレーションスピードや市場投入までの時間を重要視している) 機能のイテレーションスピードを最大化した上で、システム可用性を担保する為にどうすれば良いか? その最適解の1つがエラーバジェットという考え方 エラー予算 損失可能なシステムの信頼性 許容できる可用性低下の妥協点とも言えます。 開発チームはこのエラーバジェットが基準値を下回ったタイミングでイテレーションは停止して以下を行います。 システム信頼性の獲得 エラーバジェットの消費状況の分析/原因特定/対処を行います。 システム信頼性はどう計測し、基準値はどうすれば良いか? これがSLI/SLOです。 システムの信頼性/安定稼働というものををどう計測するかの指標です。 例えば、リクエスト成功率、レイテンシなどを選定します。 シンプルに以下の様な感覚です。 エラーがたくさん出たら安定稼働できていない レスポンスタイム低下していたら安定稼働できていない SLIの数値をモニタリングして、何をもってシステムの信頼性が高いと言えるか、安定稼働しているといえるかの基準値がSLOです。 QA環境や試験セットを改善し、本番環境への移行前に多くのリリースエラーを見つけ出す。 ロールアウトの自動化 モニタリング改善 不具合のあるリリースをより迅速に発見しロールバックする方法を開発する。 この結果、リリースの頻度が減ったり、リリースごとの変更点が減少してエラーバジェットへの影響が小さくなったりすることもあります。 しかし、一時的にリリースのスピードを落とす事は、将来的に元のスピードで安全にリリースできるようにするためです。 freelance software developer/rails contributor https://contributors.rubyonrails.org/contributors/soartec-lab/commits Why not register and get more from Qiita?
https://qiita.com/SoarTec-lab/items/992b9ddfe7838932c3b1