Spaces:

Cooked4riyal
/

EntropyEnv

Running

immortalindeed commited on Apr 10

Commit

fe9aa5c

1 Parent(s): 3dfb5fe

Fix score aggregation: use max(rewards) for discriminative multi-turn scoring

Files changed (2) hide show

inference.py CHANGED Viewed

@@ -301,9 +301,9 @@ def run_task(client: OpenAI, task_id: str) -> float:
         if done:
             break
-    # Clamped sum — accumulate multi-turn rewards, cap at 0.99
-    total_reward = sum(rewards) if rewards else 0.01
-    score = round(min(max(total_reward, 0.01), 0.99), 4)
     success = score > 0.0
     rewards_str = ",".join(f"{r:.2f}" for r in rewards)

         if done:
             break
+    # Best single-step reward — discriminative for multi-turn tasks
+    best_reward = max(rewards) if rewards else 0.01
+    score = round(min(max(best_reward, 0.01), 0.99), 4)
     success = score > 0.0
     rewards_str = ",".join(f"{r:.2f}" for r in rewards)

server/app.py CHANGED Viewed

@@ -528,9 +528,9 @@ def _run_single_task_inline(task_id, api_base, api_key, model_id, system_prompt)
         logs.append(msg)
         yield {'type': 'log', 'level': 'info', 'msg': msg}
-    # Clamped sum — same logic as inference.py
-    total_reward = sum(rewards) if rewards else 0.01
-    score = round(min(max(total_reward, 0.01), 0.99), 4)
     success = score > 0.0
     rewards_str = ','.join(f'{r:.2f}' for r in rewards)

         logs.append(msg)
         yield {'type': 'log', 'level': 'info', 'msg': msg}
+    # Best single-step reward — same logic as inference.py
+    best_reward = max(rewards) if rewards else 0.01
+    score = round(min(max(best_reward, 0.01), 0.99), 4)
     success = score > 0.0
     rewards_str = ','.join(f'{r:.2f}' for r in rewards)