Spaces:

voldemort6996
/

rl-bus-optimizer

Running

App Files Files Community

voldemort6996 commited on 14 days ago

Commit

30bf3bb

1 Parent(s): 61203a1

fix: move info prints to stderr and use comma-separated rewards in [END] tag for validator compliance

Browse files

Files changed (1) hide show

inference.py +19 -13

inference.py CHANGED Viewed

@@ -79,8 +79,9 @@ def log_end(**kwargs):
     """Emit [END] log with key-value pairs."""
     payload = []
     for k, v in kwargs.items():
-        if isinstance(v, (list, np.ndarray)):
-            v_str = json.dumps(list(v))
         else:
             v_str = str(v)
         payload.append(f"{k}={v_str}")
@@ -97,7 +98,7 @@ def _start_watchdog(timeout_seconds: int) -> None:
     def _watchdog():
         time.sleep(timeout_seconds)
         print(f"\n[TIMEOUT] Global timeout of {timeout_seconds}s reached. Exiting.", flush=True)
-        log_end(success=False, steps=0, score=0.0, rewards=[0, 0, 0], reason="global_timeout")
         os._exit(1)
     t = threading.Thread(target=_watchdog, daemon=True)
@@ -243,20 +244,26 @@ def run_inference(mode: str, model_path: Optional[str], episodes: int) -> Dict:
     agent = build_agent(mode, model_path)
-    print(f"\n{'=' * 60}", flush=True)
-    print("  OpenEnv Bus Routing - Inference", flush=True)
-    print(f"{'=' * 60}", flush=True)
-    print(f"  Mode     : {mode}", flush=True)
-    print(f"  Episodes : {episodes}", flush=True)
-    print(f"  Timeout  : {GLOBAL_TIMEOUT}s", flush=True)
-    print(f"{'=' * 60}\n", flush=True)
     t0 = time.time()
     all_rewards = []
     total_steps = 0
     results = {}
-    task_keys = [("task_1", "easy"), ("task_2", "medium"), ("task_3", "hard"), ("task_4", "medium"), ("task_5", "hard")]
     # Use try...finally to guarantee [END] log
     try:
@@ -318,8 +325,7 @@ def run_inference(mode: str, model_path: Optional[str], episodes: int) -> Dict:
         log_end(
             success="true" if success else "false",
             steps=total_steps,
-            score=f"{final_score:.4f}",
-            rewards=f"{sum(all_rewards):.2f}"
         )
     elapsed = time.time() - t0

     """Emit [END] log with key-value pairs."""
     payload = []
     for k, v in kwargs.items():
+        if isinstance(v, (list, np.ndarray, tuple)):
+            # Format as comma-separated list WITHOUT brackets/quotes for the validator
+            v_str = ",".join(f"{x:.2f}" if isinstance(x, (float, np.float32)) else str(x) for x in v)
         else:
             v_str = str(v)
         payload.append(f"{k}={v_str}")
     def _watchdog():
         time.sleep(timeout_seconds)
         print(f"\n[TIMEOUT] Global timeout of {timeout_seconds}s reached. Exiting.", flush=True)
+        log_end(success="false", steps=0, rewards=[0.0], reason="global_timeout")
         os._exit(1)
     t = threading.Thread(target=_watchdog, daemon=True)
     agent = build_agent(mode, model_path)
+    dprint(f"\n{'=' * 60}")
+    dprint("  OpenEnv Bus Routing - Inference")
+    dprint(f"{'=' * 60}")
+    dprint(f"  Mode     : {mode}")
+    dprint(f"  Episodes : {episodes}")
+    dprint(f"  Timeout  : {GLOBAL_TIMEOUT}s")
+    dprint(f"{'=' * 60}\n")
     t0 = time.time()
     all_rewards = []
     total_steps = 0
     results = {}
+    task_keys = [
+        ("task_1", "easy"),
+        ("task_2", "medium"),
+        ("task_3", "hard"),
+        ("task_4", "medium"),
+        ("task_5", "hard")
+    ]
     # Use try...finally to guarantee [END] log
     try:
         log_end(
             success="true" if success else "false",
             steps=total_steps,
+            rewards=all_rewards
         )
     elapsed = time.time() - t0