Spaces:

Rockerleo
/

mlops-openenv

Sleeping

Rockerleo commited on Apr 11

Commit

69c75cc

verified ·

1 Parent(s): 459e79a

Upload folder using huggingface_hub

Files changed (3) hide show

server/inference.py CHANGED Viewed

@@ -188,10 +188,12 @@ def log_step(
 def log_end(
-    success: bool, steps: int, score: float = 0.0, rewards: List[float] = None
 ) -> None:
     if rewards is None:
         rewards = []
     rewards_str = ",".join(f"{r:.2f}" for r in rewards)
     print(
         f"[END] success={str(success).lower()} steps={steps} score={score:.4f} rewards={rewards_str}",
@@ -284,11 +286,11 @@ def _update_openenv_state(
     OPENENV_STATE.seed = seed
     OPENENV_STATE.step_count = step_count
     OPENENV_STATE.max_steps = max_steps
-    OPENENV_STATE.end_score = end_score
     OPENENV_STATE.rewards = rewards
     OPENENV_STATE.artifacts_read = artifacts_read
     OPENENV_STATE.timestamp = ts
-    OPENENV_STATE.scores[task_id] = end_score
 def call_llm(messages: List[Dict], model_name: Optional[str] = None) -> str:
@@ -572,6 +574,8 @@ def run_task(task_id: str, seed: int = 42) -> float:
     except Exception as e:
         print(f"  [ERROR] Task {task_id} failed: {e}", flush=True, file=sys.stderr)
     finally:
         success = final_score >= SUCCESS_THRESHOLD
         log_end(success=success, steps=step_num, score=final_score, rewards=rewards)

 def log_end(
+    success: bool, steps: int, score: float = 0.01, rewards: List[float] = None
 ) -> None:
     if rewards is None:
         rewards = []
+    # Ensure score is strictly between 0 and 1
+    score = max(0.01, min(0.99, score))
     rewards_str = ",".join(f"{r:.2f}" for r in rewards)
     print(
         f"[END] success={str(success).lower()} steps={steps} score={score:.4f} rewards={rewards_str}",
     OPENENV_STATE.seed = seed
     OPENENV_STATE.step_count = step_count
     OPENENV_STATE.max_steps = max_steps
+    OPENENV_STATE.end_score = max(0.01, min(0.99, end_score))
     OPENENV_STATE.rewards = rewards
     OPENENV_STATE.artifacts_read = artifacts_read
     OPENENV_STATE.timestamp = ts
+    OPENENV_STATE.scores[task_id] = max(0.01, min(0.99, end_score))
 def call_llm(messages: List[Dict], model_name: Optional[str] = None) -> str:
     except Exception as e:
         print(f"  [ERROR] Task {task_id} failed: {e}", flush=True, file=sys.stderr)
     finally:
+        # Validator requires scores strictly between 0 and 1
+        final_score = max(0.01, min(0.99, final_score))
         success = final_score >= SUCCESS_THRESHOLD
         log_end(success=success, steps=step_num, score=final_score, rewards=rewards)

server/mlops_environment.py CHANGED Viewed

@@ -144,7 +144,7 @@ class MLOpsEnvironment:
         self._last_read_filters: Dict[str, str] = {}
         self._sanity_checks_run: List[str] = []
         self._duplicate_queries = 0
-        self._current_score = 0.0
         self._messages: List[str] = []
     # ── OpenEnv API ───────────────────────────────────────────────────────────

         self._last_read_filters: Dict[str, str] = {}
         self._sanity_checks_run: List[str] = []
         self._duplicate_queries = 0
+        self._current_score = 0.01
         self._messages: List[str] = []
     # ── OpenEnv API ───────────────────────────────────────────────────────────

server/openenv_state.py CHANGED Viewed

@@ -26,8 +26,8 @@ OPENENV_STATE: OpenEnvState = OpenEnvState(
     seed=0,
     step_count=0,
     max_steps=30,
-    scores={"easy": 0.0, "medium": 0.0, "hard": 0.0},
-    end_score=0.0,
     rewards=[],
     artifacts_read=[],
     timestamp=datetime.utcnow().isoformat(),

     seed=0,
     step_count=0,
     max_steps=30,
+    scores={"easy": 0.01, "medium": 0.01, "hard": 0.01},
+    end_score=0.01,
     rewards=[],
     artifacts_read=[],
     timestamp=datetime.utcnow().isoformat(),