Spaces:

Spirit-26
/

code-review-environment

Sleeping

ashishbaberwal commited on Apr 8

Commit

71d64d0

1 Parent(s): e225fd7

Final Changes

Files changed (2) hide show

environment/graders.py CHANGED Viewed

@@ -11,6 +11,14 @@ class TaskGrader:
     def _normalize(text: str) -> str:
         return text.lower().strip()
     def _match_issue(self, expected: Dict[str, Any], comment: Comment) -> bool:
         expected_line = expected.get("line")
         expected_type = self._normalize(expected.get("type", ""))
@@ -156,7 +164,8 @@ class TaskGrader:
         efficiency_bonus = self.grade_efficiency(steps_taken, max_steps)
         raw_score = (detection_score * 0.4) + (suggestion_score * 0.3) + (decision_score * 0.3)
-        final_score = max(0.0, min(1.0, raw_score - false_positive_penalty + efficiency_bonus))
         return {
             "expected_issue_count": expected_count,

     def _normalize(text: str) -> str:
         return text.lower().strip()
+    @staticmethod
+    def _to_open_interval(score: float, epsilon: float = 1e-4) -> float:
+        if score <= 0.0:
+            return epsilon
+        if score >= 1.0:
+            return 1.0 - epsilon
+        return score
     def _match_issue(self, expected: Dict[str, Any], comment: Comment) -> bool:
         expected_line = expected.get("line")
         expected_type = self._normalize(expected.get("type", ""))
         efficiency_bonus = self.grade_efficiency(steps_taken, max_steps)
         raw_score = (detection_score * 0.4) + (suggestion_score * 0.3) + (decision_score * 0.3)
+        bounded_score = max(0.0, min(1.0, raw_score - false_positive_penalty + efficiency_bonus))
+        final_score = self._to_open_interval(bounded_score)
         return {
             "expected_issue_count": expected_count,

tests/test_env.py CHANGED Viewed

@@ -222,7 +222,8 @@ class TestCodeReviewEnv(unittest.TestCase):
         self.assertTrue(done)
         self.assertEqual(obs["final_decision_made"], "approved")
-        self.assertEqual(info["task_score"], 1.0)
         self.assertIn("diagnostics", info)
         self.assertEqual(info["diagnostics"]["false_positive_count"], 0)
@@ -363,7 +364,8 @@ class TestCodeReviewEnv(unittest.TestCase):
         obs, _, done, info = self.env.step(action.model_dump())
         self.assertTrue(done)
         self.assertEqual(obs["final_decision_made"], "approved")
-        self.assertEqual(info["task_score"], 1.0)
     def test_new_task_categories_registered(self):
         task_ids = {t["task_id"] for t in TaskDefinitions.get_all_tasks()}

         self.assertTrue(done)
         self.assertEqual(obs["final_decision_made"], "approved")
+        self.assertGreater(info["task_score"], 0.0)
+        self.assertLess(info["task_score"], 1.0)
         self.assertIn("diagnostics", info)
         self.assertEqual(info["diagnostics"]["false_positive_count"], 0)
         obs, _, done, info = self.env.step(action.model_dump())
         self.assertTrue(done)
         self.assertEqual(obs["final_decision_made"], "approved")
+        self.assertGreater(info["task_score"], 0.0)
+        self.assertLess(info["task_score"], 1.0)
     def test_new_task_categories_registered(self):
         task_ids = {t["task_id"] for t in TaskDefinitions.get_all_tasks()}