final fix

Files changed (6) hide show

env/__pycache__/environment.cpython-313.pyc CHANGED Viewed

Binary files a/env/__pycache__/environment.cpython-313.pyc and b/env/__pycache__/environment.cpython-313.pyc differ

env/environment.py CHANGED Viewed

@@ -280,6 +280,15 @@ class CICDDebuggerEnvironment:
             expected_config=self._state.task.expected_config,
             metadata=self._state.task.metadata,
         )
         reward_model = Reward(value=float(reward), components={"total": float(reward)})
         info["reward_model"] = reward_model.model_dump()

             expected_config=self._state.task.expected_config,
             metadata=self._state.task.metadata,
         )
+      # 🔥 CRITICAL FIX FOR SCALER (FINAL OVERRIDE)
+        if tool in ["validate_fix", "submit_solution"]:
+            is_correct = bool(result.get("is_valid"))
+            if is_correct:
+                reward = 1.0
+                self._state.done = True
+            else:
+                reward = 0.0
         reward_model = Reward(value=float(reward), components={"total": float(reward)})
         info["reward_model"] = reward_model.model_dump()

env/graders/__pycache__/deterministic.cpython-313.pyc CHANGED Viewed

Binary files a/env/graders/__pycache__/deterministic.cpython-313.pyc and b/env/graders/__pycache__/deterministic.cpython-313.pyc differ

env/graders/deterministic.py CHANGED Viewed

@@ -27,8 +27,22 @@ class DeterministicGrader:
         r"\bpip\s+isntall\b",
         r"\bgo\s+tset\b",
     )
-    def grade(self, current_config: str, expected_config: str, metadata: dict[str, Any] | None = None) -> float:
         metadata = metadata or {}
         current_config = current_config or ""
         expected_config = expected_config or ""

         r"\bpip\s+isntall\b",
         r"\bgo\s+tset\b",
     )
+    def grade(self, current_config, expected_config, metadata=None):
+        metadata = metadata or {}
+        score = self._compute_score(current_config, expected_config, metadata)
+        is_valid = (
+             current_config.strip() == expected_config.strip()
+        )
+        return {
+            "reward": float(score),
+            "is_valid": bool(is_valid),
+    }
+    def _compute_score(self, current_config, expected_config, metadata=None):
         metadata = metadata or {}
         current_config = current_config or ""
         expected_config = expected_config or ""

openenv.yaml CHANGED Viewed

@@ -27,28 +27,46 @@ action_space:
 tasks:
   - id: "easy-command-typo"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "easy-missing-checkout"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "easy-yaml-indentation"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "medium-python-version"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "medium-cache-key"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "medium-artifact-permissions"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "hard-matrix-logic"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "hard-conditional-deploy"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "hard-needs-order"
     grader: "env.graders.deterministic:DeterministicGrader"

 tasks:
   - id: "easy-command-typo"
+    difficulty: "easy"
+    failure_stage: "test"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "easy-missing-checkout"
+    difficulty: "easy"
+    failure_stage: "build"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "easy-yaml-indentation"
+    difficulty: "easy"
+    failure_stage: "build"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "medium-python-version"
+    difficulty: "medium"
+    failure_stage: "build"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "medium-cache-key"
+    difficulty: "medium"
+    failure_stage: "test"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "medium-artifact-permissions"
+    difficulty: "medium"
+    failure_stage: "deploy"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "hard-matrix-logic"
+    difficulty: "hard"
+    failure_stage: "test"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "hard-conditional-deploy"
+    difficulty: "hard"
+    failure_stage: "deploy"
     grader: "env.graders.deterministic:DeterministicGrader"
   - id: "hard-needs-order"
+    difficulty: "hard"
+    failure_stage: "deploy"
     grader: "env.graders.deterministic:DeterministicGrader"

test_grader.py ADDED Viewed

+import asyncio
+from env.environment import CICDDebuggerEnvironment
+async def test():
+    env = CICDDebuggerEnvironment()
+    obs = await env.reset()
+    # 🔥 APPLY CORRECT FIX
+    env._state.current_config = env._state.task.expected_config
+    obs, reward, done, _ = await env.step({
+        "action_type": "submit_solution",
+        "payload": {}
+    })
+    print("Reward:", reward)
+    print("Done:", done)
+asyncio.run(test())