Spaces:

vikashsaravanan
/

openenv-support-triage

Sleeping

vikashsaravanann commited on Apr 12

Commit

8fbdaab

1 Parent(s): ad96a6e

fix: enforce strict (0, 1) range for task scores and rewards

Files changed (2) hide show

app/environment.py CHANGED Viewed

@@ -48,7 +48,7 @@ class SupportTriageEnv:
             step=0,
             current_ticket=ticket,
             actions_taken=[],
-            cumulative_reward=0.0,
             done=False,
         )
         return self._make_observation()

             step=0,
             current_ticket=ticket,
             actions_taken=[],
+            cumulative_reward=0.01,
             done=False,
         )
         return self._make_observation()

inference.py CHANGED Viewed

@@ -115,9 +115,9 @@ def run_episode(task_id, max_steps):
             except Exception as e:
                 error_msg = str(e).replace('\n', ' ')
-                print(f"[STEP] step={step_n} action={action_str} reward=0.00 done=true error={error_msg}", flush=True)
                 done = True
-                rewards.append("0.00")
                 break
         final = float(cumulative)
@@ -128,12 +128,12 @@ def run_episode(task_id, max_steps):
         success = final >= 0.5
         rewards_joined = ",".join(rewards)
-        print(f"[END] success={str(success).lower()} steps={len(rewards)} rewards={rewards_joined}", flush=True)
         return round(final, 4)
     except Exception as e:
         error_msg = str(e).replace('\n', ' ')
-        print(f"[STEP] step=1 action={{}} reward=0.00 done=true error={error_msg}", flush=True)
-        print(f"[END] success=false steps=1 rewards=0.00", flush=True)
         return 0.01
 def main():

             except Exception as e:
                 error_msg = str(e).replace('\n', ' ')
+                print(f"[STEP] step={step_n} action={action_str} reward=0.01 done=true error={error_msg}", flush=True)
                 done = True
+                rewards.append("0.01")
                 break
         final = float(cumulative)
         success = final >= 0.5
         rewards_joined = ",".join(rewards)
+        print(f"[END] success={str(success).lower()} steps={len(rewards)} score={final:.2f} rewards={rewards_joined}", flush=True)
         return round(final, 4)
     except Exception as e:
         error_msg = str(e).replace('\n', ' ')
+        print(f"[STEP] step=1 action={{}} reward=0.01 done=true error={error_msg}", flush=True)
+        print(f"[END] success=false steps=1 score=0.01 rewards=0.01", flush=True)
         return 0.01
 def main():