Spaces:

samrat-rm
/

WhyDidItFail

Sleeping

App Files Files Community

samrat-rm commited on 12 days ago

Commit

1288c52

1 Parent(s): c6888af

feat: max step limit

Browse files

Files changed (2) hide show

server/WhyDidItFail_environment.py +21 -0
server/graders.py +5 -1

server/WhyDidItFail_environment.py CHANGED Viewed

@@ -27,6 +27,7 @@ class WhyDidItFailEnvironment(Environment):
         self._state = State(episode_id=str(uuid4()), step_count=0)
         self.scenario: dict | None = None
         self.inspection_order: list[str] = []  # first-visit order; doubles as membership check
     @property
     def state(self) -> State:
@@ -37,12 +38,17 @@ class WhyDidItFailEnvironment(Environment):
         self.inspection_order = []
         scenario_key = kwargs.get("scenario_key")
         if scenario_key and scenario_key in SCENARIOS:
             self.scenario = SCENARIOS[scenario_key]
         else:
             if seed is not None:
                 random.seed(seed)
             self.scenario = random.choice(list(SCENARIOS.values()))
         return WhyDidItFailObservation(
             task_description=(
                 "A training run has failed. Diagnose the root cause.\n"
@@ -62,6 +68,21 @@ class WhyDidItFailEnvironment(Environment):
             raise RuntimeError("Environment must be reset before calling step.")
         self._state.step_count += 1
         required: list[str] = self.scenario.get("required_sources", ["logs"])
         if action.action_type == "inspect_logs":

         self._state = State(episode_id=str(uuid4()), step_count=0)
         self.scenario: dict | None = None
         self.inspection_order: list[str] = []  # first-visit order; doubles as membership check
+        self.max_steps: int = 0
     @property
     def state(self) -> State:
         self.inspection_order = []
         scenario_key = kwargs.get("scenario_key")
         if scenario_key and scenario_key in SCENARIOS:
             self.scenario = SCENARIOS[scenario_key]
         else:
             if seed is not None:
                 random.seed(seed)
             self.scenario = random.choice(list(SCENARIOS.values()))
+        required_sources = self.scenario.get("required_sources", ["logs"])
+        self.max_steps = len(required_sources) * 3 + 2
         return WhyDidItFailObservation(
             task_description=(
                 "A training run has failed. Diagnose the root cause.\n"
             raise RuntimeError("Environment must be reset before calling step.")
         self._state.step_count += 1
+        # Hard step limit — terminate immediately, grade() will return 0.0.
+        if self._state.step_count > self.max_steps and action.action_type != "submit_diagnosis":
+            return WhyDidItFailObservation(
+                task_description="Step limit reached. Episode terminated.",
+                visible_data={},
+                available_actions=[],
+                steps_taken=self._state.step_count,
+                reward=0.0,
+                done=True,
+                feedback=(
+                    f"Step limit ({self.max_steps}) reached without a diagnosis. "
+                    f"Score: 0.00. Actual failure: '{self.scenario['correct_diagnosis']}'."
+                ),
+            )
         required: list[str] = self.scenario.get("required_sources", ["logs"])
         if action.action_type == "inspect_logs":

server/graders.py CHANGED Viewed

@@ -206,7 +206,11 @@ def grade(
     inspection_order = inspection_order or []
     required_sources = scenario.get("required_sources", ["logs"])   # ordered list
     required         = set(required_sources)                        # set for membership checks
-    min_steps        = len(required) + 1   # inspect all required sources + submit
     d_score  = _diagnosis_score(diagnosis, scenario)
     ed_penalty = _evidence_diagnosis_penalty(diagnosis, scenario, inspection_order)

     inspection_order = inspection_order or []
     required_sources = scenario.get("required_sources", ["logs"])   # ordered list
     required         = set(required_sources)                        # set for membership checks
+    min_steps        = len(required) + 1          # inspect all required sources + submit
+    max_steps        = len(required) * 3 + 2      # hard ceiling; exceeding it = total failure
+    if steps_taken > max_steps:
+        return 0.0
     d_score  = _diagnosis_score(diagnosis, scenario)
     ed_penalty = _evidence_diagnosis_penalty(diagnosis, scenario, inspection_order)