Spaces:

UtkarshSatav
/

sql-env

Sleeping

App Files Files Community

UtkarshSatav commited on Apr 7

Commit

54a5bf9

verified ·

1 Parent(s): 33fd157

Upload folder using huggingface_hub

Browse files

Files changed (4) hide show

inference.py +1 -1
server/graders.py +11 -3
server/gradio_ui.py +6 -8
server/sql_env_environment.py +4 -4

inference.py CHANGED Viewed

@@ -235,7 +235,7 @@ def run_task(client: OpenAI, task_name: str) -> None:
         max_possible = obs.total_questions  # 5 questions, max 1.0 each
         if max_possible > 0:
             score = sum(rewards) / max_possible
-        score = min(max(score, 0.0), 1.0)
         success = score >= SUCCESS_SCORE_THRESHOLD
     except Exception as exc:

         max_possible = obs.total_questions  # 5 questions, max 1.0 each
         if max_possible > 0:
             score = sum(rewards) / max_possible
+        score = min(max(score, 0.001), 0.999)
         success = score >= SUCCESS_SCORE_THRESHOLD
     except Exception as exc:

server/graders.py CHANGED Viewed

@@ -7,13 +7,21 @@ Scores agent queries against ground truth with partial credit:
   - row_score     (0.3): Fraction of expected rows matching
   - exact_score   (0.4): Full result set matches ground truth exactly
-Total reward per question is in [0.0, 1.0].
 """
 from typing import Any, List, Optional, Tuple
 from .database import Database, QueryResult
 def _normalize_value(val: Any) -> Any:
     """Normalize a value for comparison (handle float/int equivalence, None)."""
@@ -76,7 +84,7 @@ def grade_query(
     # --- Syntax Score ---
     if not result.success:
         return {
-            "reward": 0.0,
             "syntax_score": 0.0,
             "column_score": 0.0,
             "row_score": 0.0,
@@ -145,7 +153,7 @@ def grade_query(
         + W_ROW * row_score
         + W_EXACT * exact_score
     )
-    reward = round(min(max(reward, 0.0), 1.0), 4)
     # --- Feedback ---
     feedback_parts = []

   - row_score     (0.3): Fraction of expected rows matching
   - exact_score   (0.4): Full result set matches ground truth exactly
+Total reward per question is in (0.0, 1.0) — strictly between 0 and 1.
 """
 from typing import Any, List, Optional, Tuple
 from .database import Database, QueryResult
+# Epsilon to ensure scores are strictly between 0 and 1 (never exactly 0.0 or 1.0)
+_EPS = 0.001
+def _clamp_reward(reward: float) -> float:
+    """Clamp reward to be strictly within (0, 1)."""
+    return min(max(reward, _EPS), 1.0 - _EPS)
 def _normalize_value(val: Any) -> Any:
     """Normalize a value for comparison (handle float/int equivalence, None)."""
     # --- Syntax Score ---
     if not result.success:
         return {
+            "reward": _clamp_reward(0.0),
             "syntax_score": 0.0,
             "column_score": 0.0,
             "row_score": 0.0,
         + W_ROW * row_score
         + W_EXACT * exact_score
     )
+    reward = round(_clamp_reward(reward), 4)
     # --- Feedback ---
     feedback_parts = []

server/gradio_ui.py CHANGED Viewed

@@ -70,20 +70,18 @@ def create_gradio_app() -> gr.Blocks:
         obs = env.step(SQLAction(query=query))
         feedback = obs.metadata.get("feedback", "")
-        reward_display = f"{obs.reward:.2f}"
         # Color the reward
-        if obs.reward >= 0.9:
             reward_html = f'<span style="color:#22c55e;font-size:2em;font-weight:bold">{reward_display}</span>'
-        elif obs.reward >= 0.5:
-            reward_html = f'<span style="color:#eab308;font-size:2em;font-weight:bold">{reward_display}</span>'
         else:
             reward_html = f'<span style="color:#ef4444;font-size:2em;font-weight:bold">{reward_display}</span>'
         if obs.done:
             rewards = obs.metadata.get("rewards", [])
             total = obs.metadata.get("total_reward", sum(rewards))
-            status = f"**Episode Complete!**  |  **Total Reward:** {total:.2f}  |  **Steps:** {len(rewards)}"
             next_question = "All questions answered! Click 'Start Task' to try again."
             progress = _build_progress_html(len(rewards), obs.total_questions, rewards)
         else:
@@ -116,10 +114,10 @@ def create_gradio_app() -> gr.Blocks:
         results = []
         for q in task["questions"]:
             obs = env.step(SQLAction(query=q["ground_truth_sql"]))
-            results.append(f"**Q{len(results)+1}:** {q['question'][:80]}...\n- SQL: `{q['ground_truth_sql'][:100]}...`\n- Reward: **{obs.reward:.2f}**\n")
         total = sum(env._rewards)
-        results.append(f"\n---\n**Total: {total:.2f} / {len(task['questions']):.1f}**")
         return "\n".join(results)
     def preview_schema():
@@ -142,7 +140,7 @@ def create_gradio_app() -> gr.Blocks:
                     color = "#eab308"
                 else:
                     color = "#ef4444"
-                bars.append(f'<div style="display:inline-block;width:18%;height:30px;background:{color};margin:1%;border-radius:4px;text-align:center;line-height:30px;color:white;font-weight:bold">Q{i+1}: {r:.2f}</div>')
             elif i == len(rewards):
                 bars.append(f'<div style="display:inline-block;width:18%;height:30px;background:#3b82f6;margin:1%;border-radius:4px;text-align:center;line-height:30px;color:white;font-weight:bold">Q{i+1} ▶</div>')
             else:

         obs = env.step(SQLAction(query=query))
         feedback = obs.metadata.get("feedback", "")
+        reward_display = round(obs.reward)  # show 0 or 1
         # Color the reward
+        if reward_display == 1:
             reward_html = f'<span style="color:#22c55e;font-size:2em;font-weight:bold">{reward_display}</span>'
         else:
             reward_html = f'<span style="color:#ef4444;font-size:2em;font-weight:bold">{reward_display}</span>'
         if obs.done:
             rewards = obs.metadata.get("rewards", [])
             total = obs.metadata.get("total_reward", sum(rewards))
+            status = f"**Episode Complete!**  |  **Total Reward:** {round(total)}  |  **Steps:** {len(rewards)}"
             next_question = "All questions answered! Click 'Start Task' to try again."
             progress = _build_progress_html(len(rewards), obs.total_questions, rewards)
         else:
         results = []
         for q in task["questions"]:
             obs = env.step(SQLAction(query=q["ground_truth_sql"]))
+            results.append(f"**Q{len(results)+1}:** {q['question'][:80]}...\n- SQL: `{q['ground_truth_sql'][:100]}...`\n- Reward: **{round(obs.reward)}**\n")
         total = sum(env._rewards)
+        results.append(f"\n---\n**Total: {round(total)} / {len(task['questions'])}**")
         return "\n".join(results)
     def preview_schema():
                     color = "#eab308"
                 else:
                     color = "#ef4444"
+                bars.append(f'<div style="display:inline-block;width:18%;height:30px;background:{color};margin:1%;border-radius:4px;text-align:center;line-height:30px;color:white;font-weight:bold">Q{i+1}: {round(r)}</div>')
             elif i == len(rewards):
                 bars.append(f'<div style="display:inline-block;width:18%;height:30px;background:#3b82f6;margin:1%;border-radius:4px;text-align:center;line-height:30px;color:white;font-weight:bold">Q{i+1} ▶</div>')
             else:

server/sql_env_environment.py CHANGED Viewed

@@ -20,7 +20,7 @@ except ImportError:
     from models import SQLAction, SQLObservation
 from .database import Database
-from .graders import grade_query
 TASKS_DIR = Path(__file__).resolve().parent.parent / "data" / "tasks"
@@ -92,7 +92,7 @@ class SQLEnvironment(Environment):
         self._schema_cache = self._db.get_schema_description()
         return self._make_observation(
-            reward=0.0,
             query_result="",
             error="",
         )
@@ -108,7 +108,7 @@ class SQLEnvironment(Environment):
         if self._done or self._current_q_index >= len(self._questions):
             self._done = True
             return self._make_observation(
-                reward=0.0,
                 query_result="Episode is over. Call reset() to start a new episode.",
                 error="",
             )
@@ -133,7 +133,7 @@ class SQLEnvironment(Environment):
         # Apply step penalty (not on first attempt)
         penalty = STEP_PENALTY * (self._q_steps_used - 1)
-        reward = max(raw_reward - penalty, 0.0)
         reward = round(reward, 4)
         self._rewards.append(reward)

     from models import SQLAction, SQLObservation
 from .database import Database
+from .graders import grade_query, _clamp_reward
 TASKS_DIR = Path(__file__).resolve().parent.parent / "data" / "tasks"
         self._schema_cache = self._db.get_schema_description()
         return self._make_observation(
+            reward=_clamp_reward(0.0),
             query_result="",
             error="",
         )
         if self._done or self._current_q_index >= len(self._questions):
             self._done = True
             return self._make_observation(
+                reward=_clamp_reward(0.0),
                 query_result="Episode is over. Call reset() to start a new episode.",
                 error="",
             )
         # Apply step penalty (not on first attempt)
         penalty = STEP_PENALTY * (self._q_steps_used - 1)
+        reward = _clamp_reward(raw_reward - penalty)
         reward = round(reward, 4)
         self._rewards.append(reward)