Spaces:

sam25kat
/

securereview

Sleeping

sameerkatte Claude Opus 4.6 (1M context) commited on Apr 9

Commit

6dbb8cf

1 Parent(s): 8d618ab

Add [START]/[STEP]/[END] structured output markers to inference.py

The validator parses stdout for these markers to extract per-task scores.
Previously inference.py only printed freeform text, so the Output Parsing
check failed with "No [START]/[STEP]/[END] in stdout".

Changes:
- Import sys/functools and wrap print() with flush=True so all output
is flushed immediately (no buffering inside the validator harness)
- run_episode() emits [START] task=NAME on entry
- Each step emits [STEP] step=N reward=VALUE
- Episode end emits [END] task=NAME score=VALUE steps=N

Verified locally against the live HF Space: all 3 tasks emit the
full marker set even when the LLM call fails (fallback to mark_complete).

Co-Authored-By: Claude Opus 4.6 (1M context) <noreply@anthropic.com>

Files changed (1) hide show

inference.py +22 -4

inference.py CHANGED Viewed

@@ -12,11 +12,17 @@ MANDATORY environment variables:
 import os
 import re
 import json
 import time
 import requests as http_requests
 from openai import OpenAI
 # === Configuration ===
 API_BASE_URL = os.getenv("API_BASE_URL", "https://router.huggingface.co/v1")
 MODEL_NAME = os.getenv("MODEL_NAME", "meta-llama/Llama-3.1-8B-Instruct")
@@ -221,7 +227,14 @@ def parse_action(text: str) -> dict:
 def run_episode(task_id: str, scenario_id: str = None) -> float:
-    """Run a single episode and return the final score."""
     reset_body = {"task_id": task_id}
     if scenario_id:
         reset_body["scenario_id"] = scenario_id
@@ -266,8 +279,10 @@ def run_episode(task_id: str, scenario_id: str = None) -> float:
         observation = step_data["observation"]
         done = step_data["done"]
         step_count += 1
         if done:
-            final_score = step_data["reward"]
             break
     # Main agent loop
@@ -310,13 +325,16 @@ def run_episode(task_id: str, scenario_id: str = None) -> float:
         observation = step_data["observation"]
         done = step_data["done"]
-        final_score = step_data["reward"]
         step_count += 1
         # Small delay to avoid rate limiting
         time.sleep(0.3)
-    print(f"    Steps: {step_count}, Score: {final_score}")
     return final_score

 import os
 import re
+import sys
 import json
 import time
+import functools
 import requests as http_requests
 from openai import OpenAI
+# All print calls flush stdout immediately so the validator can parse
+# [START]/[STEP]/[END] markers in real time.
+print = functools.partial(print, flush=True)
 # === Configuration ===
 API_BASE_URL = os.getenv("API_BASE_URL", "https://router.huggingface.co/v1")
 MODEL_NAME = os.getenv("MODEL_NAME", "meta-llama/Llama-3.1-8B-Instruct")
 def run_episode(task_id: str, scenario_id: str = None) -> float:
+    """Run a single episode and return the final score.
+    Emits ``[START]``, ``[STEP]``, and ``[END]`` markers on stdout for
+    the validator to parse.
+    """
+    # === [START] marker ===
+    print(f"[START] task={task_id}")
     reset_body = {"task_id": task_id}
     if scenario_id:
         reset_body["scenario_id"] = scenario_id
         observation = step_data["observation"]
         done = step_data["done"]
         step_count += 1
+        reward_val = step_data.get("reward", 0.0) or 0.0
+        final_score = reward_val
+        print(f"[STEP] step={step_count} reward={reward_val}")
         if done:
             break
     # Main agent loop
         observation = step_data["observation"]
         done = step_data["done"]
+        reward_val = step_data.get("reward", 0.0) or 0.0
+        final_score = reward_val
         step_count += 1
+        print(f"[STEP] step={step_count} reward={reward_val}")
         # Small delay to avoid rate limiting
         time.sleep(0.3)
+    # === [END] marker ===
+    print(f"[END] task={task_id} score={final_score} steps={step_count}")
     return final_score