Spaces:

PrakashCider
/

teamforge

Sleeping

Your Name commited on Apr 11

Commit

368d425

1 Parent(s): 0786522

fix(OpenEnv): final scour of zero/one values from rewards and state to ensure absolute compliance

Files changed (2) hide show

environment.py CHANGED Viewed

@@ -64,7 +64,7 @@ class TeamForgeEnv:
         # Episode state
         self._step_number = 0
-        self._cumulative_reward = 0.0
         self._plan: List[PlanStep] = []
         self._reviews: List[ReviewArtifact] = []
         self._reflections: List[ReflectionArtifact] = []
@@ -106,7 +106,7 @@ class TeamForgeEnv:
         # Reset episode state
         self._step_number = 0
-        self._cumulative_reward = 0.0
         self._plan = []
         self._reviews = []
         self._reflections = []

         # Episode state
         self._step_number = 0
+        self._cumulative_reward = 0.01
         self._plan: List[PlanStep] = []
         self._reviews: List[ReviewArtifact] = []
         self._reflections: List[ReflectionArtifact] = []
         # Reset episode state
         self._step_number = 0
+        self._cumulative_reward = 0.01
         self._plan = []
         self._reviews = []
         self._reflections = []

reward.py CHANGED Viewed

@@ -95,7 +95,7 @@ class RewardCalculator:
             "run_tests":        0.02,
             "run_lint":         0.02,
             "request_iteration": 0.02,
-        }.get(action_type, 0.0)
         # ── Test progress bonus ──
         if tests_passed is not None:

             "run_tests":        0.02,
             "run_lint":         0.02,
             "request_iteration": 0.02,
+        }.get(action_type, 0.01)
         # ── Test progress bonus ──
         if tests_passed is not None: