Spaces:

ceoavinash
/

codearena-rl

Sleeping

adityanaikhpt commited on Apr 8

Commit

b53855f

1 Parent(s): 78b7e6b

Add normalize_reward(); enforce strict (0,1) on all paths

Files changed (2) hide show

server/app.py CHANGED Viewed

@@ -155,7 +155,7 @@ def api_step(action: CodeArenaAction):
                 "test_results": "",
                 "previous_attempts": [],
             },
-            "reward": 0.0,
             "done": True,
             "info": {},
         }

                 "test_results": "",
                 "previous_attempts": [],
             },
+            "reward": 0.1,
             "done": True,
             "info": {},
         }

server/grader.py CHANGED Viewed

@@ -1,18 +1,25 @@
 from .models import ExecutionResult, TaskInfo
-def calculate_reward(exec_result: ExecutionResult, task_info: TaskInfo) -> float:
-    passed_tests = exec_result.test_passed
-    total_tests = exec_result.test_total
-    if total_tests > 0:
-        reward = passed_tests / total_tests
-    else:
-        reward = 0.0
-    # enforce valid range
     if reward <= 0:
-        reward = 0.1
     elif reward >= 1:
-        reward = 0.9
-    return reward

 from .models import ExecutionResult, TaskInfo
+def normalize_reward(passed: int, total: int) -> float:
+    """
+    Compute a reward strictly within the open interval (0, 1).
+    Never returns exactly 0.0 or 1.0.
+    """
+    if total == 0:
+        return 0.5
+    reward = passed / total
     if reward <= 0:
+        return 0.1
     elif reward >= 1:
+        return 0.9
+    return float(reward)
+def calculate_reward(exec_result: ExecutionResult, task_info: TaskInfo) -> float:
+    """
+    Single entry-point used by env.py and app.py.
+    Delegates entirely to normalize_reward so every task
+    always produces a score in (0, 1).
+    """
+    return normalize_reward(exec_result.test_passed, exec_result.test_total)