Spaces:

SolusOps
/

tracefix_rl

Sleeping

App Files Files Community

databoysu commited on Apr 9

Commit

49d9b3d

1 Parent(s): dcdd52f

clamp logic fix

Browse files

Files changed (13) hide show

.dockerignore +3 -1
.gitignore +3 -1
.hfignore +3 -0
Dockerfile +1 -1
README.md +2 -2
backend/__init__.py +0 -5
backend/app.py +0 -57
backend/tracefix_rl_environment.py +0 -67
core/environment.py +3 -3
inference.py +2 -2
openenv.yaml +1 -1
pyproject.toml +4 -4
vision_ui.py +1 -1

.dockerignore CHANGED Viewed

@@ -29,4 +29,6 @@ outputs/
 CLAUDE.md
 package.json
-package-lock.json

 CLAUDE.md
 package.json
+package-lock.json
+openenv_tracefix_rl.egg-info/
+test_redirect.py

.gitignore CHANGED Viewed

@@ -12,4 +12,6 @@ package-lock.json
 .agent/
 **/__pycache__/
 **/.venv/
-**/node_modules/

 .agent/
 **/__pycache__/
 **/.venv/
+**/node_modules/
+openenv_tracefix_rl.egg-info/
+test_redirect.py

.hfignore CHANGED Viewed

@@ -33,3 +33,6 @@ build/
 outputs/
 *.log
 .github/

 outputs/
 *.log
 .github/
+openenv_tracefix_rl.egg-info/
+test_redirect.py

Dockerfile CHANGED Viewed

@@ -52,4 +52,4 @@ WORKDIR /app/env
 USER appuser
-CMD ["uvicorn", "backend.app:app", "--host", "0.0.0.0", "--port", "7860"]


52
53	USER appuser
54
55	+ CMD ["uvicorn", "server.app:app", "--host", "0.0.0.0", "--port", "7860"]

README.md CHANGED Viewed

@@ -54,7 +54,7 @@ Every task contains: `name`, `description`, `difficulty`, `bug_type`, `code` (bu
 This environment enforces strict typing and uses standard modern tooling:
 - **`uv`:** Handles dependency management (see `pyproject.toml`).
-- **FastAPI:** Provides the `backend.app` integration layer for OpenEnv compliance.
 - **Pydantic (v2):** Provides strong validation layers for `models.py` (e.g., `CodeAction`, `CodeObservation`).
 - **OpenEnv Config:** See `openenv.yaml` which specifies `tracefix_rl` to run the FastAPI app on port `7860`.
@@ -63,7 +63,7 @@ This environment enforces strict typing and uses standard modern tooling:
 - `tasks.py`: Task metadata definitions.
 - `sandbox.py`: Subprocess runtime and output tracking.
 - `environment.py`: Reset/step/reward core RL loop logic (`TraceFixRLGym`).
-- `backend/tracefix_rl_environment.py` / `backend/app.py`: Maps the OpenAI/OpenEnv network interface to the core environment.
 - `inference.py`: Baseline OpenAI-client inference script to evaluate agents.
 ## Local Development

 This environment enforces strict typing and uses standard modern tooling:
 - **`uv`:** Handles dependency management (see `pyproject.toml`).
+- **FastAPI:** Provides the `server.app` integration layer for OpenEnv compliance.
 - **Pydantic (v2):** Provides strong validation layers for `models.py` (e.g., `CodeAction`, `CodeObservation`).
 - **OpenEnv Config:** See `openenv.yaml` which specifies `tracefix_rl` to run the FastAPI app on port `7860`.
 - `tasks.py`: Task metadata definitions.
 - `sandbox.py`: Subprocess runtime and output tracking.
 - `environment.py`: Reset/step/reward core RL loop logic (`TraceFixRLGym`).
+- `server/tracefix_rl_environment.py` / `server/app.py`: Maps the OpenAI/OpenEnv network interface to the core environment.
 - `inference.py`: Baseline OpenAI-client inference script to evaluate agents.
 ## Local Development

backend/__init__.py DELETED Viewed

@@ -1,5 +0,0 @@
-"""TraceFix-RL backend components."""
-from .tracefix_rl_environment import TraceFixRLEnvironment
-__all__ = ["TraceFixRLEnvironment"]

backend/app.py DELETED Viewed

@@ -1,57 +0,0 @@
-"""FastAPI entry point for TraceFix-RL."""
-import gradio as gr
-from vision_ui import demo
-try:
-    from openenv.core.env_server.http_server import create_app
-except Exception as e:  # pragma: no cover
-    raise ImportError(
-        "openenv is required for the web interface. Install dependencies with '\n    uv sync\n'"
-    ) from e
-try:
-    from core.models import CodeAction, CodeObservation
-    from backend.tracefix_rl_environment import TraceFixRLEnvironment
-except ImportError:
-    import sys
-    from pathlib import Path
-    sys.path.insert(0, str(Path(__file__).resolve().parents[1]))
-    from core.models import CodeAction, CodeObservation
-    from backend.tracefix_rl_environment import TraceFixRLEnvironment
-app = create_app(
-    TraceFixRLEnvironment,
-    CodeAction,
-    CodeObservation,
-    env_name="tracefix_rl",
-    max_concurrent_envs=1,
-)
-from fastapi.responses import RedirectResponse
-@app.get("/", include_in_schema=False)
-async def root_redirect():
-    return RedirectResponse(url="/web/")
-@app.get("/web", include_in_schema=False)
-async def web_no_slash_redirect():
-    return RedirectResponse(url="/web/")
-app = gr.mount_gradio_app(app, demo, path="/web")
-def main() -> None:
-    """Entry point for local and container execution."""
-    import os
-    import uvicorn
-    host = os.environ.get("HOST", "0.0.0.0")
-    port = int(os.environ.get("PORT", "7860"))
-    uvicorn.run(app, host=host, port=port)
-if __name__ == "__main__":
-    main()

backend/tracefix_rl_environment.py DELETED Viewed

@@ -1,67 +0,0 @@
-"""OpenEnv adapter around the TraceFix-RL core environment."""
-from openenv.core.env_server.interfaces import Environment
-from openenv.core.env_server.types import State
-try:
-    from core.environment import TraceFixRLGym
-    from core.models import CodeAction, CodeObservation
-except ImportError:
-    from core.environment import TraceFixRLGym
-    from core.models import CodeAction, CodeObservation
-class TraceFixRLEnvironment(Environment):
-    """Environment implementation compatible with OpenEnv's server interface."""
-    SUPPORTS_CONCURRENT_SESSIONS: bool = True
-    def __init__(self):
-        self._gym = TraceFixRLGym()
-        self._state = State(episode_id="", step_count=0)
-    def reset(self, difficulty: str | None = None, task_name: str | None = None) -> CodeObservation:
-        if difficulty == "easy":
-            self._gym.training_step = 1
-        elif difficulty == "medium":
-            self._gym.training_step = 2000
-        elif difficulty == "hard":
-            self._gym.training_step = 6000
-        task_dict = None
-        if task_name and task_name != "tracefix_rl":
-            try:
-                from tasks.tasks import ALL_TASKS
-                for t in ALL_TASKS:
-                    if t.get("name") == task_name:
-                        task_dict = t
-                        break
-            except ImportError:
-                pass
-        obs, system_prompt = self._gym.reset(task_index=task_dict)
-        self._state = State(
-            episode_id=obs.info.get("episode_id", ""),
-            step_count=obs.step_count,
-        )
-        metadata = dict(obs.metadata or {})
-        metadata["system_prompt"] = system_prompt
-        obs.metadata = metadata
-        return obs
-    def step(self, action: CodeAction) -> CodeObservation:  # type: ignore[override]
-        obs, reward, done, info = self._gym.step(action)
-        obs.reward = reward
-        obs.done = done
-        metadata = dict(obs.metadata or {})
-        metadata.update(info)
-        obs.metadata = metadata
-        self._state = State(
-            episode_id=obs.info.get("episode_id", ""),
-            step_count=obs.step_count,
-        )
-        return obs
-    @property
-    def state(self) -> State:
-        return self._state

core/environment.py CHANGED Viewed

@@ -298,7 +298,7 @@ class TraceFixRLGym:
             total  = len(results)
             passes = 0 if syntax_err else sum(1 for t in results if t.passed)
             raw    = (passes / total if total > 0 else 0.0) - self._accumulated_step_costs
-            reward = max(0.0, min(1.0, raw))
             self._last_output += (
                 f"\n⚠ Max steps ({MAX_STEPS}) reached. "
                 f"Auto-evaluated: {passes}/{total} tests passing. "
@@ -314,7 +314,7 @@ class TraceFixRLGym:
             "step":              self._step_count,
         }
         if self._done:
-            info["final_score"] = max(0.0, min(1.0, round(reward, 4)))
         return obs, round(reward, 4), self._done, info
@@ -467,7 +467,7 @@ class TraceFixRLGym:
         proportion  = passes / total if total > 0 else 0.0
         raw_score   = proportion - self._accumulated_step_costs
-        final_score = max(0.0, min(1.0, raw_score))
         if not syntax_err:
             if passes == total:

             total  = len(results)
             passes = 0 if syntax_err else sum(1 for t in results if t.passed)
             raw    = (passes / total if total > 0 else 0.0) - self._accumulated_step_costs
+            reward = max(0.01, min(0.99, raw))
             self._last_output += (
                 f"\n⚠ Max steps ({MAX_STEPS}) reached. "
                 f"Auto-evaluated: {passes}/{total} tests passing. "
             "step":              self._step_count,
         }
         if self._done:
+            info["final_score"] = max(0.01, min(0.99, round(reward, 4)))
         return obs, round(reward, 4), self._done, info
         proportion  = passes / total if total > 0 else 0.0
         raw_score   = proportion - self._accumulated_step_costs
+        final_score = max(0.01, min(0.99, raw_score))
         if not syntax_err:
             if passes == total:

inference.py CHANGED Viewed

@@ -46,7 +46,7 @@ ENV_BASE_URL = os.getenv("ENV_BASE_URL", "http://127.0.0.1:7860")
 TASK_NAME = os.getenv("TASK_NAME", "tracefix_rl")
 BENCHMARK = os.getenv("BENCHMARK", "tracefix_rl")
 MAX_STEPS = int(os.getenv("MAX_STEPS", "50"))
-SUCCESS_SCORE_THRESHOLD = float(os.getenv("SUCCESS_SCORE_THRESHOLD", "0.99"))
 SYSTEM_PROMPT = """\
 You are a deterministic debugging policy agent.
@@ -296,7 +296,7 @@ def _compute_score(step_result: Any, rewards: list[float]) -> float:
         raw = info.get("final_score")
     if raw is None:
         raw = sum(rewards)
-    return max(0.0, min(1.0, float(raw)))
 async def run(difficulty: Optional[str] = None, show_thought: bool = False) -> None:

 TASK_NAME = os.getenv("TASK_NAME", "tracefix_rl")
 BENCHMARK = os.getenv("BENCHMARK", "tracefix_rl")
 MAX_STEPS = int(os.getenv("MAX_STEPS", "50"))
+SUCCESS_SCORE_THRESHOLD = float(os.getenv("SUCCESS_SCORE_THRESHOLD", "0.98"))
 SYSTEM_PROMPT = """\
 You are a deterministic debugging policy agent.
         raw = info.get("final_score")
     if raw is None:
         raw = sum(rewards)
+    return max(0.01, min(0.99, float(raw)))
 async def run(difficulty: Optional[str] = None, show_thought: bool = False) -> None:

openenv.yaml CHANGED Viewed

@@ -2,5 +2,5 @@ spec_version: 1
 name: tracefix_rl
 type: space
 runtime: fastapi
-app: backend.app:app
 port: 7860

 name: tracefix_rl
 type: space
 runtime: fastapi
+app: server.app:app
 port: 7860

pyproject.toml CHANGED Viewed

@@ -38,10 +38,10 @@ dev = [
 [project.scripts]
 # Server entry point - enables running via: uv run --project . server
-# or: python -m tracefix_rl.backend.app
-server = "tracefix_rl.backend.app:main"
 [tool.setuptools]
 include-package-data = true
-packages = ["tracefix_rl", "tracefix_rl.backend", "tracefix_rl.core", "tracefix_rl.tasks"]
-package-dir = { "tracefix_rl" = ".", "tracefix_rl.backend" = "backend", "tracefix_rl.core" = "core", "tracefix_rl.tasks" = "tasks" }

 [project.scripts]
 # Server entry point - enables running via: uv run --project . server
+# or: python -m tracefix_rl.server.app
+server = "tracefix_rl.server.app:main"
 [tool.setuptools]
 include-package-data = true
+packages = ["tracefix_rl", "tracefix_rl.server", "tracefix_rl.core", "tracefix_rl.tasks"]
+package-dir = { "tracefix_rl" = ".", "tracefix_rl.server" = "server", "tracefix_rl.core" = "core", "tracefix_rl.tasks" = "tasks" }

vision_ui.py CHANGED Viewed

@@ -512,7 +512,7 @@ with gr.Blocks(title="TraceFix-RL") as demo:
             max_steps = gr.Number(label="Max Steps", value=int(os.getenv("MAX_STEPS", "50")), precision=0)
             success_score_threshold = gr.Number(
                 label="Success Score Threshold",
-                value=float(os.getenv("SUCCESS_SCORE_THRESHOLD", "0.99")),
                 precision=2,
             )
             show_thought = gr.Checkbox(label="Stream Thought Trace", value=False)

             max_steps = gr.Number(label="Max Steps", value=int(os.getenv("MAX_STEPS", "50")), precision=0)
             success_score_threshold = gr.Number(
                 label="Success Score Threshold",
+                value=float(os.getenv("SUCCESS_SCORE_THRESHOLD", "0.98")),
                 precision=2,
             )
             show_thought = gr.Checkbox(label="Stream Thought Trace", value=False)