shaikhsalman
/

devsecops-platform

+# =============================================================================
+# Service Level Objectives — Platform SLOs
+# =============================================================================
+# SLOs define reliability targets. Error budgets = 100% - SLO.
+# Burn rate alerts fire when error budget is consumed too fast.
+# =============================================================================
+# --- API Availability SLO: 99.95% (21.9 min/month error budget) ---
+apiVersion: monitoring.coreos.com/v1
+kind: PrometheusRule
+metadata:
+  name: slo-api-availability
+  namespace: monitoring
+  labels:
+    release: kube-prometheus-stack
+    slo: "true"
+spec:
+  groups:
+    - name: slo.api.availability
+      rules:
+        # SLO metric: 5m success rate
+        - record: slo:api_availability:rate5m
+          expr: |
+            sum(rate(http_requests_total{code!~"5.."}[5m]))
+            /
+            sum(rate(http_requests_total[5m]))
+        # 1h error budget burn rate (14.4x = consume 30d budget in 2d)
+        - alert: SLOAPIAvailabilityBurnRateHigh
+          expr: |
+            (
+              (1 - slo:api_availability:rate5m) > (14.4 * 0.001)
+            )
+          for: 5m
+          labels:
+            severity: critical
+            slo: api-availability
+          annotations:
+            summary: "API availability SLO budget burning too fast"
+            runbook: "https://runbook.platform.internal/slo-api-burn"
+    - name: slo.api.latency
+      rules:
+        # Latency SLO: P99 < 2s, 99.9% of requests
+        - record: slo:api_latency_p99:rate5m
+          expr: |
+            histogram_quantile(0.99, sum(rate(http_request_duration_seconds_bucket[5m])) by (le))
+        - alert: SLOAPILatencyBurnRateHigh
+          expr: |
+            slo:api_latency_p99:rate5m > 2
+          for: 10m
+          labels:
+            severity: warning
+            slo: api-latency
+          annotations:
+            summary: "API P99 latency exceeding 2s SLO"
+    - name: slo.error_budget
+      rules:
+        # Remaining error budget (percentage)
+        - record: slo:error_budget_remaining:ratio
+          expr: |
+            1 - (
+              (1 - slo:api_availability:rate5m)
+              /
+              0.0005
+            )