Spaces:

A-R-F
/

Agentic-Reliability-Framework-API

Running

App Files Files Community

petter2025 commited on Nov 24, 2025

Commit

9186179

verified ·

1 Parent(s): 3e50ac5

Update healing_policies.py

Browse files

Files changed (1) hide show

healing_policies.py +16 -9

healing_policies.py CHANGED Viewed

@@ -1,4 +1,4 @@
-import datetime  # ← ADD THIS IMPORT
 from models import HealingPolicy, HealingAction, EventSeverity
 from typing import Dict, List
@@ -8,8 +8,7 @@ DEFAULT_HEALING_POLICIES = [
         name="high_latency_restart",
         conditions={
             "latency_p99": {"operator": ">", "value": 300},
-            "error_rate": {"operator": "<", "value": 0.05},
-            "severity": {"operator": "in", "value": [EventSeverity.MEDIUM, EventSeverity.HIGH]}
         },
         actions=[HealingAction.RESTART_CONTAINER],
         priority=2
@@ -17,8 +16,7 @@ DEFAULT_HEALING_POLICIES = [
     HealingPolicy(
         name="cascading_failure",
         conditions={
-            "error_rate": {"operator": ">", "value": 0.3},
-            "upstream_deps": {"operator": "not_empty", "value": True}
         },
         actions=[HealingAction.CIRCUIT_BREAKER, HealingAction.ALERT_TEAM],
         priority=1
@@ -26,8 +24,8 @@ DEFAULT_HEALING_POLICIES = [
     HealingPolicy(
         name="resource_exhaustion",
         conditions={
-            "cpu_util": {"operator": ">", "value": 0.9},
-            "memory_util": {"operator": ">", "value": 0.9}
         },
         actions=[HealingAction.SCALE_OUT, HealingAction.ALERT_TEAM],
         priority=1
@@ -36,10 +34,19 @@ DEFAULT_HEALING_POLICIES = [
         name="moderate_performance_issue",
         conditions={
             "latency_p99": {"operator": ">", "value": 200},
-            "error_rate": {"operator": ">", "value": 0.1}
         },
         actions=[HealingAction.TRAFFIC_SHIFT],
         priority=3
     )
 ]
@@ -58,7 +65,7 @@ class PolicyEngine:
             # Check cooldown
             policy_key = f"{policy.name}_{event.component}"
-            current_time = datetime.datetime.now().timestamp()  # ← THIS NEEDS datetime IMPORT
             last_exec = self.last_execution.get(policy_key, 0)
             if current_time - last_exec < policy.cool_down_seconds:

+import datetime
 from models import HealingPolicy, HealingAction, EventSeverity
 from typing import Dict, List
         name="high_latency_restart",
         conditions={
             "latency_p99": {"operator": ">", "value": 300},
+            "error_rate": {"operator": "<", "value": 0.1},
         },
         actions=[HealingAction.RESTART_CONTAINER],
         priority=2
     HealingPolicy(
         name="cascading_failure",
         conditions={
+            "error_rate": {"operator": ">", "value": 0.15},
         },
         actions=[HealingAction.CIRCUIT_BREAKER, HealingAction.ALERT_TEAM],
         priority=1
     HealingPolicy(
         name="resource_exhaustion",
         conditions={
+            "cpu_util": {"operator": ">", "value": 0.85},
+            "memory_util": {"operator": ">", "value": 0.85}
         },
         actions=[HealingAction.SCALE_OUT, HealingAction.ALERT_TEAM],
         priority=1
         name="moderate_performance_issue",
         conditions={
             "latency_p99": {"operator": ">", "value": 200},
+            "error_rate": {"operator": ">", "value": 0.05}
         },
         actions=[HealingAction.TRAFFIC_SHIFT],
         priority=3
+    ),
+    HealingPolicy(
+        name="critical_failure",
+        conditions={
+            "latency_p99": {"operator": ">", "value": 500},
+            "error_rate": {"operator": ">", "value": 0.1}
+        },
+        actions=[HealingAction.RESTART_CONTAINER, HealingAction.ALERT_TEAM, HealingAction.TRAFFIC_SHIFT],
+        priority=1
     )
 ]
             # Check cooldown
             policy_key = f"{policy.name}_{event.component}"
+            current_time = datetime.datetime.now().timestamp()
             last_exec = self.last_execution.get(policy_key, 0)
             if current_time - last_exec < policy.cool_down_seconds: