Spaces:

Spirit-26
/

code-review-environment

Sleeping

App Files Files Community

ashishbaberwal commited on Apr 10

Commit

491c280

1 Parent(s): 27f6fe4

Stabilize reset API startup path

Browse files

Files changed (2) hide show

app.py +140 -130
tests/test_server_api.py +21 -0

app.py CHANGED Viewed

@@ -3,12 +3,12 @@
 from __future__ import annotations
 import json
 from collections import Counter
 from pathlib import Path
 from threading import Lock
 from typing import Any, Dict
-import gradio as gr
 from fastapi import FastAPI
 from fastapi.responses import RedirectResponse
@@ -21,6 +21,16 @@ if str(PROJECT_ROOT) not in sys.path:
 from environment.env import CodeReviewEnv
 from environment.tasks import TaskDefinitions
 app = FastAPI(title="code-review-agent-env")
 _env = CodeReviewEnv()
@@ -502,99 +512,98 @@ body, .gradio-container {
 """
-task_choices = [t["task_id"] for t in TaskDefinitions.get_all_tasks()]
-with gr.Blocks(title="Code Review Agent Environment") as demo:
-    gr.HTML(f"<style>{CUSTOM_CSS}</style>")
-    with gr.Column(elem_classes=["app-shell"]):
-        gr.HTML(
-            """
-            <section class=\"hero\">
-              <h1>Code Review Mission Control</h1>
-              <p>High-clarity operator UI for environment resets, action stepping, and live scoring telemetry.</p>
-              <span class=\"chip mono\">UI: /ui</span>
-              <span class=\"chip mono\">API: /reset /step /state /score /tasks</span>
-              <span class=\"chip mono\">Validation: 3+ graded tasks</span>
-            </section>
-            """
-        )
-        with gr.Tabs():
-            with gr.Tab("README"):
-                with gr.Column(elem_id="telemetry-panel"):
-                    gr.Markdown(_readme_markdown())
-                    gr.Markdown(_validation_markdown())
-            with gr.Tab("Playground"):
-                with gr.Column(elem_id="control-panel"):
-                    with gr.Row():
-                        task_id_input = gr.Dropdown(choices=task_choices, value=task_choices[0], label="Task ID")
-                        reset_btn = gr.Button("Reset Task", variant="primary")
-                        score_btn = gr.Button("Get Score")
-                        state_btn = gr.Button("Get State")
-                    with gr.Row():
-                        score_card = gr.HTML("<div class='metric'><div class='metric-label'>Current Score</div><div class='metric-value'>0.00</div></div>")
-                        step_card = gr.HTML("<div class='metric'><div class='metric-label'>Step</div><div class='metric-value'>0</div></div>")
-                        status_card = gr.HTML("<div class='metric'><div class='metric-label'>Status</div><div class='metric-value'>idle</div></div>")
-                    action_input = gr.Textbox(
-                        label="Action JSON",
-                        lines=10,
-                        value=_starter_action_json(task_choices[0]),
-                        elem_classes=["mono"],
-                    )
-                    with gr.Row():
-                        step_btn = gr.Button("Execute Step", variant="primary")
-                        starter_btn = gr.Button("Run Starter Step")
-                        report_btn = gr.Button("Export Episode Report")
-                    gr.Markdown("If you are new, click **Run Starter Step**. It resets the selected task and submits a safe example action.")
-                    output = gr.Code(label="API Response", language="json")
-                    report_out = gr.Code(label="Episode Report", language="json")
-            with gr.Tab("Traces"):
-                with gr.Column(elem_id="atlas-panel"):
-                    models, trace_tasks = _trace_choices()
-                    gr.Markdown("### Recorded Traces")
-                    with gr.Row():
-                        trace_model = gr.Dropdown(choices=models, value=models[0], label="Model")
-                        trace_task = gr.Dropdown(choices=trace_tasks, value=trace_tasks[0], label="Task")
-                        trace_refresh = gr.Button("Load Trace")
-                    trace_out = gr.Code(label="Trace Payload", language="json")
-            with gr.Tab("Leaderboard"):
-                with gr.Column(elem_id="atlas-panel"):
-                    summary = _benchmark_summary()
-                    gr.Markdown("### Benchmark Leaderboard")
-                    leaderboard_summary = gr.Markdown(f"**Average Task Score:** {summary.get('average_task_score', 0):.3f}  |  **Average Reward:** {summary.get('average_total_reward', 0):.3f}")
-                    leaderboard = gr.Dataframe(
-                        headers=["Rank", "Task", "Task Score", "Total Reward", "Steps", "Model"],
-                        value=_leaderboard_rows(),
-                        interactive=False,
-                        wrap=True,
-                    )
-                    leaderboard_refresh = gr.Button("Refresh Leaderboard")
-            with gr.Tab("Tasks"):
-                with gr.Column(elem_id="atlas-panel"):
-                    gr.Markdown("### Task Catalogue")
-                    diff_summary = gr.Textbox(
-                        label="Difficulty Split",
-                        value=_difficulty_summary(),
-                        interactive=False,
-                        elem_classes=["mono"],
-                    )
-                    task_grid = gr.Dataframe(
-                        headers=["Task ID", "Difficulty", "Language", "Name"],
-                        value=_task_table(),
-                        interactive=False,
-                        wrap=True,
-                    )
-                    refresh_tasks_btn = gr.Button("Refresh Task Atlas")
-                    task_cards = []
-                    for task in TaskDefinitions.get_all_tasks():
-                        task_cards.append(
                             gr.Markdown(
                                 f"""
 <div class='task-row'>
@@ -606,45 +615,46 @@ with gr.Blocks(title="Code Review Agent Environment") as demo:
 </div>
                                 """
                             )
-                        )
-    def _update_playground_metrics(payload: Dict[str, Any]) -> tuple[str, str, str]:
-        score_value = payload.get("task_score", 0.0)
-        step_value = payload.get("current_step", 0)
-        status_value = "complete" if payload.get("is_complete") else "active"
-        return (
-            f"<div class='metric'><div class='metric-label'>Current Score</div><div class='metric-value'>{float(score_value):.2f}</div></div>",
-            f"<div class='metric'><div class='metric-label'>Step</div><div class='metric-value'>{step_value}</div></div>",
-            f"<div class='metric'><div class='metric-label'>Status</div><div class='metric-value'>{status_value}</div></div>",
-        )
-    def _refresh_leaderboard() -> tuple[list[list[str]], str]:
-        summary_data = _benchmark_summary()
-        avg_score = float(summary_data.get("average_task_score", 0.0)) if isinstance(summary_data, dict) else 0.0
-        avg_reward = float(summary_data.get("average_total_reward", 0.0)) if isinstance(summary_data, dict) else 0.0
-        return _leaderboard_rows(), f"### Benchmark Leaderboard\n\n**Average Task Score:** {avg_score:.3f}  |  **Average Reward:** {avg_reward:.3f}"
-    def _load_trace(model_name: str, task_id: str) -> str:
-        return _trace_lookup(model_name, task_id)
-    reset_btn.click(fn=_ui_reset, inputs=[task_id_input], outputs=[output])
-    step_btn.click(fn=_ui_step, inputs=[action_input], outputs=[output])
-    starter_btn.click(fn=_ui_run_starter_step, inputs=[task_id_input], outputs=[output])
-    state_btn.click(fn=_ui_state, inputs=None, outputs=[output])
-    score_btn.click(fn=_ui_score, inputs=None, outputs=[output])
-    report_btn.click(fn=_episode_report, inputs=None, outputs=[report_out])
-    score_btn.click(fn=lambda: _update_playground_metrics(score()), inputs=None, outputs=[score_card, step_card, status_card])
-    trace_refresh.click(fn=_load_trace, inputs=[trace_model, trace_task], outputs=[trace_out])
-    leaderboard_refresh.click(fn=_refresh_leaderboard, inputs=None, outputs=[leaderboard, leaderboard_summary])
-    refresh_tasks_btn.click(fn=_difficulty_summary, inputs=None, outputs=[diff_summary])
-    refresh_tasks_btn.click(fn=_task_table, inputs=None, outputs=[task_grid])
 @app.get("/ui")
 def ui_alias() -> Any:
-    return RedirectResponse(url="/", status_code=307)
-app = gr.mount_gradio_app(app, demo, path="/")

 from __future__ import annotations
 import json
+import os
 from collections import Counter
 from pathlib import Path
 from threading import Lock
 from typing import Any, Dict
 from fastapi import FastAPI
 from fastapi.responses import RedirectResponse
 from environment.env import CodeReviewEnv
 from environment.tasks import TaskDefinitions
+ENABLE_GRADIO_UI = os.getenv("ENABLE_GRADIO_UI", "").strip().lower() in {"1", "true", "yes"}
+if ENABLE_GRADIO_UI:
+    try:
+        import gradio as gr
+    except Exception:
+        gr = None
+        ENABLE_GRADIO_UI = False
+else:
+    gr = None
 app = FastAPI(title="code-review-agent-env")
 _env = CodeReviewEnv()
 """
+def _build_demo():
+    task_choices = [t["task_id"] for t in TaskDefinitions.get_all_tasks()]
+    with gr.Blocks(title="Code Review Agent Environment") as demo:
+        gr.HTML(f"<style>{CUSTOM_CSS}</style>")
+        with gr.Column(elem_classes=["app-shell"]):
+            gr.HTML(
+                """
+                <section class=\"hero\">
+                  <h1>Code Review Mission Control</h1>
+                  <p>High-clarity operator UI for environment resets, action stepping, and live scoring telemetry.</p>
+                  <span class=\"chip mono\">UI: /ui</span>
+                  <span class=\"chip mono\">API: /reset /step /state /score /tasks</span>
+                  <span class=\"chip mono\">Validation: 3+ graded tasks</span>
+                </section>
+                """
+            )
+            with gr.Tabs():
+                with gr.Tab("README"):
+                    with gr.Column(elem_id="telemetry-panel"):
+                        gr.Markdown(_readme_markdown())
+                        gr.Markdown(_validation_markdown())
+                with gr.Tab("Playground"):
+                    with gr.Column(elem_id="control-panel"):
+                        with gr.Row():
+                            task_id_input = gr.Dropdown(choices=task_choices, value=task_choices[0], label="Task ID")
+                            reset_btn = gr.Button("Reset Task", variant="primary")
+                            score_btn = gr.Button("Get Score")
+                            state_btn = gr.Button("Get State")
+                        with gr.Row():
+                            score_card = gr.HTML("<div class='metric'><div class='metric-label'>Current Score</div><div class='metric-value'>0.00</div></div>")
+                            step_card = gr.HTML("<div class='metric'><div class='metric-label'>Step</div><div class='metric-value'>0</div></div>")
+                            status_card = gr.HTML("<div class='metric'><div class='metric-label'>Status</div><div class='metric-value'>idle</div></div>")
+                        action_input = gr.Textbox(
+                            label="Action JSON",
+                            lines=10,
+                            value=_starter_action_json(task_choices[0]),
+                            elem_classes=["mono"],
+                        )
+                        with gr.Row():
+                            step_btn = gr.Button("Execute Step", variant="primary")
+                            starter_btn = gr.Button("Run Starter Step")
+                            report_btn = gr.Button("Export Episode Report")
+                        gr.Markdown("If you are new, click **Run Starter Step**. It resets the selected task and submits a safe example action.")
+                        output = gr.Code(label="API Response", language="json")
+                        report_out = gr.Code(label="Episode Report", language="json")
+                with gr.Tab("Traces"):
+                    with gr.Column(elem_id="atlas-panel"):
+                        models, trace_tasks = _trace_choices()
+                        gr.Markdown("### Recorded Traces")
+                        with gr.Row():
+                            trace_model = gr.Dropdown(choices=models, value=models[0], label="Model")
+                            trace_task = gr.Dropdown(choices=trace_tasks, value=trace_tasks[0], label="Task")
+                            trace_refresh = gr.Button("Load Trace")
+                        trace_out = gr.Code(label="Trace Payload", language="json")
+                with gr.Tab("Leaderboard"):
+                    with gr.Column(elem_id="atlas-panel"):
+                        summary = _benchmark_summary()
+                        gr.Markdown("### Benchmark Leaderboard")
+                        leaderboard_summary = gr.Markdown(f"**Average Task Score:** {summary.get('average_task_score', 0):.3f}  |  **Average Reward:** {summary.get('average_total_reward', 0):.3f}")
+                        leaderboard = gr.Dataframe(
+                            headers=["Rank", "Task", "Task Score", "Total Reward", "Steps", "Model"],
+                            value=_leaderboard_rows(),
+                            interactive=False,
+                            wrap=True,
+                        )
+                        leaderboard_refresh = gr.Button("Refresh Leaderboard")
+                with gr.Tab("Tasks"):
+                    with gr.Column(elem_id="atlas-panel"):
+                        gr.Markdown("### Task Catalogue")
+                        diff_summary = gr.Textbox(
+                            label="Difficulty Split",
+                            value=_difficulty_summary(),
+                            interactive=False,
+                            elem_classes=["mono"],
+                        )
+                        task_grid = gr.Dataframe(
+                            headers=["Task ID", "Difficulty", "Language", "Name"],
+                            value=_task_table(),
+                            interactive=False,
+                            wrap=True,
+                        )
+                        refresh_tasks_btn = gr.Button("Refresh Task Atlas")
+                        for task in TaskDefinitions.get_all_tasks():
                             gr.Markdown(
                                 f"""
 <div class='task-row'>
 </div>
                                 """
                             )
+        def _update_playground_metrics(payload: Dict[str, Any]) -> tuple[str, str, str]:
+            score_value = payload.get("task_score", 0.0)
+            step_value = payload.get("current_step", 0)
+            status_value = "complete" if payload.get("is_complete") else "active"
+            return (
+                f"<div class='metric'><div class='metric-label'>Current Score</div><div class='metric-value'>{float(score_value):.2f}</div></div>",
+                f"<div class='metric'><div class='metric-label'>Step</div><div class='metric-value'>{step_value}</div></div>",
+                f"<div class='metric'><div class='metric-label'>Status</div><div class='metric-value'>{status_value}</div></div>",
+            )
+        def _refresh_leaderboard() -> tuple[list[list[str]], str]:
+            summary_data = _benchmark_summary()
+            avg_score = float(summary_data.get("average_task_score", 0.0)) if isinstance(summary_data, dict) else 0.0
+            avg_reward = float(summary_data.get("average_total_reward", 0.0)) if isinstance(summary_data, dict) else 0.0
+            return _leaderboard_rows(), f"### Benchmark Leaderboard\n\n**Average Task Score:** {avg_score:.3f}  |  **Average Reward:** {avg_reward:.3f}"
+        def _load_trace(model_name: str, task_id: str) -> str:
+            return _trace_lookup(model_name, task_id)
+        reset_btn.click(fn=_ui_reset, inputs=[task_id_input], outputs=[output])
+        step_btn.click(fn=_ui_step, inputs=[action_input], outputs=[output])
+        starter_btn.click(fn=_ui_run_starter_step, inputs=[task_id_input], outputs=[output])
+        state_btn.click(fn=_ui_state, inputs=None, outputs=[output])
+        score_btn.click(fn=_ui_score, inputs=None, outputs=[output])
+        report_btn.click(fn=_episode_report, inputs=None, outputs=[report_out])
+        score_btn.click(fn=lambda: _update_playground_metrics(score()), inputs=None, outputs=[score_card, step_card, status_card])
+        trace_refresh.click(fn=_load_trace, inputs=[trace_model, trace_task], outputs=[trace_out])
+        leaderboard_refresh.click(fn=_refresh_leaderboard, inputs=None, outputs=[leaderboard, leaderboard_summary])
+        refresh_tasks_btn.click(fn=_difficulty_summary, inputs=None, outputs=[diff_summary])
+        refresh_tasks_btn.click(fn=_task_table, inputs=None, outputs=[task_grid])
+    return demo
 @app.get("/ui")
 def ui_alias() -> Any:
+    if ENABLE_GRADIO_UI and gr is not None:
+        return RedirectResponse(url="/", status_code=307)
+    return RedirectResponse(url="/docs", status_code=307)
+if ENABLE_GRADIO_UI and gr is not None:
+    app = gr.mount_gradio_app(app, _build_demo(), path="/")

tests/test_server_api.py CHANGED Viewed

@@ -1,5 +1,8 @@
 import unittest
 from server.app import app
@@ -33,5 +36,23 @@ class TestServerAPI(unittest.TestCase):
         self.assertIn("task_id", payload)
 if __name__ == "__main__":
     unittest.main()

 import unittest
+from fastapi.testclient import TestClient
+from app import app as fastapi_app
 from server.app import app
         self.assertIn("task_id", payload)
+class TestFastAPIReset(unittest.TestCase):
+    def setUp(self):
+        self.client = TestClient(fastapi_app)
+    def test_post_reset_without_body(self):
+        response = self.client.post("/reset")
+        self.assertEqual(response.status_code, 200)
+        payload = response.json()
+        self.assertIn("observation", payload)
+        self.assertIn("task_description", payload["observation"])
+    def test_post_reset_with_task_id_body(self):
+        response = self.client.post("/reset", json={"task_id": "bug_detection_easy_1"})
+        self.assertEqual(response.status_code, 200)
+        payload = response.json()
+        self.assertEqual(payload["observation"]["task_difficulty"], "easy")
 if __name__ == "__main__":
     unittest.main()