Spaces:

melikakheirieh
/

nl2sql-copilot

Sleeping

App Files Files Community

github-actions[bot] commited on Dec 20, 2025

Commit

8e8639a

1 Parent(s): 0c2c0f1

Sync from GitHub main @ e5ca708f9310108380db0252e29edc2f832428bf

Browse files

Files changed (9) hide show

adapters/llm/openai_provider.py +2 -2
nl2sql/context_engineering/budgeter.py +43 -0
nl2sql/context_engineering/engineer.py +52 -0
nl2sql/context_engineering/parse.py +29 -0
nl2sql/context_engineering/render.py +14 -0
nl2sql/context_engineering/schema_pack.py +29 -0
nl2sql/context_engineering/types.py +37 -0
nl2sql/pipeline.py +43 -9
nl2sql/pipeline_factory.py +11 -0

adapters/llm/openai_provider.py CHANGED Viewed

@@ -134,7 +134,7 @@ Create a step-by-step plan to answer this question with SQL."""
             user_query: The user's natural language question
             schema_preview: Database schema information
             plan_text: Query execution plan
-            clarify_answers: Optional additional context
         Returns:
             Tuple of (sql, rationale, prompt_tokens, completion_tokens, cost)
@@ -183,7 +183,7 @@ Wrong: {{"sql": "SELECT COUNT(singer.singer_id) AS total_singers FROM singer", "
 Now generate the SQL for the given question:"""
         if clarify_answers:
-            user_prompt += f"\n\nAdditional context: {clarify_answers}"
         completion = self._create_chat_completion(
             model=self.model,

             user_query: The user's natural language question
             schema_preview: Database schema information
             plan_text: Query execution plan
+            clarify_answers: Optional additional context_engineering
         Returns:
             Tuple of (sql, rationale, prompt_tokens, completion_tokens, cost)
 Now generate the SQL for the given question:"""
         if clarify_answers:
+            user_prompt += f"\n\nAdditional context_engineering: {clarify_answers}"
         completion = self._create_chat_completion(
             model=self.model,

nl2sql/context_engineering/budgeter.py ADDED Viewed

	@@ -0,0 +1,43 @@

+from __future__ import annotations
+from typing import Optional, Tuple
+from .types import SchemaPack, SchemaTable, ContextBudget
+def apply_budget(
+    pack: SchemaPack, budget: ContextBudget
+) -> Tuple[SchemaPack, Optional[str]]:
+    reason: Optional[str] = None
+    table_names = sorted(pack.tables.keys())
+    if len(table_names) > budget.max_tables:
+        reason = f"tables_pruned_to_{budget.max_tables}"
+        table_names = table_names[: budget.max_tables]
+    new_tables = {}
+    for t in table_names:
+        tab = pack.tables[t]
+        cols = tab.columns[: budget.max_columns_per_table]
+        if len(tab.columns) > budget.max_columns_per_table:
+            reason = reason or "columns_trimmed_per_table"
+        new_tables[t] = SchemaTable(columns=cols, fks=tab.fks)
+    new_pack = SchemaPack(tables=new_tables, version=pack.version)
+    total_cols = sum(len(t.columns) for t in new_pack.tables.values())
+    if total_cols > budget.max_total_columns:
+        reason = reason or "columns_trimmed_total_cap"
+        remaining = budget.max_total_columns
+        capped = {}
+        for t in sorted(new_pack.tables.keys()):
+            tab = new_pack.tables[t]
+            if remaining <= 0:
+                capped[t] = SchemaTable(columns=[], fks=tab.fks)
+                continue
+            keep_n = min(len(tab.columns), remaining)
+            keep = tab.columns[:keep_n]
+            remaining -= len(keep)
+            capped[t] = SchemaTable(columns=keep, fks=tab.fks)
+        new_pack = SchemaPack(tables=capped, version=new_pack.version)
+    return new_pack, reason

nl2sql/context_engineering/engineer.py ADDED Viewed

	@@ -0,0 +1,52 @@

+from __future__ import annotations
+from .types import ContextBudget, ContextPacket, SchemaPack, SchemaTable
+from .parse import parse_sqlite_schema_preview
+from .budgeter import apply_budget
+DEFAULT_CONSTRAINTS = [
+    "SELECT_ONLY",
+    "NO_DDL_DML",
+    "NO_ATTACH_PRAGMA",
+    "SINGLE_STATEMENT",
+    "LIMIT_REQUIRED_IF_MISSING",
+]
+class ContextEngineer:
+    def __init__(
+        self,
+        *,
+        budget: ContextBudget,
+        constraints: list[str] | None = None,
+    ) -> None:
+        self.budget = budget
+        self.constraints = constraints or DEFAULT_CONSTRAINTS
+    def build(self, *, schema_preview: str) -> ContextPacket:
+        raw_tables = parse_sqlite_schema_preview(schema_preview)
+        tables_sorted = sorted(raw_tables.keys())
+        tables = {t: SchemaTable(columns=raw_tables[t], fks={}) for t in tables_sorted}
+        pack = SchemaPack(tables=tables, version="v1")
+        tables_before = len(pack.tables)
+        columns_before = sum(len(t.columns) for t in pack.tables.values())
+        packed, reason = apply_budget(pack, self.budget)
+        tables_after = len(packed.tables)
+        columns_after = sum(len(t.columns) for t in packed.tables.values())
+        return ContextPacket(
+            schema_pack=packed,
+            constraints=self.constraints,
+            db_hints=None,
+            budget=self.budget,
+            tables_before=tables_before,
+            columns_before=columns_before,
+            tables_after=tables_after,
+            columns_after=columns_after,
+            budget_reason=reason,
+        )

nl2sql/context_engineering/parse.py ADDED Viewed

	@@ -0,0 +1,29 @@

+from __future__ import annotations
+from typing import Dict, List
+import re
+_LINE_RE = re.compile(r"^\s*([A-Za-z_][A-Za-z0-9_]*)\s*\((.*)\)\s*$")
+def parse_sqlite_schema_preview(schema_preview: str) -> Dict[str, List[str]]:
+    raw_tables: Dict[str, List[str]] = {}
+    for line in (schema_preview or "").splitlines():
+        line = line.strip()
+        if not line:
+            continue
+        m = _LINE_RE.match(line)
+        if not m:
+            # ignore unknown line formats (future-proof)
+            continue
+        table = m.group(1)
+        cols_blob = m.group(2).strip()
+        cols = [c.strip() for c in cols_blob.split(",") if c.strip()]
+        # stable order: keep what service produced but also de-dup deterministically
+        cols = sorted(set(cols))
+        raw_tables[table] = cols
+    # stable order: sort keys by caller later
+    return raw_tables

nl2sql/context_engineering/render.py ADDED Viewed

	@@ -0,0 +1,14 @@

+from __future__ import annotations
+from .types import SchemaPack
+def render_schema_pack(pack: SchemaPack) -> str:
+    lines: list[str] = []
+    for table in sorted(pack.tables.keys()):
+        cols = pack.tables[table].columns
+        if cols:
+            lines.append(f"{table}({', '.join(cols)})")
+        else:
+            lines.append(f"{table}()")
+    return "\n".join(lines)

nl2sql/context_engineering/schema_pack.py ADDED Viewed

	@@ -0,0 +1,29 @@

+from __future__ import annotations
+from typing import Dict, List, Tuple
+from .types import SchemaPack, SchemaTable
+def build_schema_pack(
+    raw_tables: Dict[str, List[str]],
+    raw_fks: Dict[str, List[Tuple[str, str]]],
+    version: str = "v1",
+) -> SchemaPack:
+    """
+    raw_tables: {"orders": ["id", "user_id", ...], ...}
+    raw_fks: {"orders": [("user_id", "users.id"), ...], ...}
+    """
+    tables_sorted = sorted(raw_tables.keys())
+    tables: Dict[str, SchemaTable] = {}
+    for t in tables_sorted:
+        cols = sorted(set(raw_tables.get(t, [])))
+        fks_list = raw_fks.get(t, [])
+        fks = {src: dst for (src, dst) in sorted(fks_list, key=lambda x: (x[0], x[1]))}
+        tables[t] = SchemaTable(columns=cols, fks=fks)
+    return SchemaPack(tables=tables, version=version)
+def count_columns(pack: SchemaPack) -> int:
+    return sum(len(t.columns) for t in pack.tables.values())

nl2sql/context_engineering/types.py ADDED Viewed

	@@ -0,0 +1,37 @@

+from __future__ import annotations
+from dataclasses import dataclass
+from typing import Dict, List, Optional
+@dataclass(frozen=True)
+class SchemaTable:
+    columns: List[str]
+    fks: Dict[str, str]  # kept for future; sqlite preview has none
+@dataclass(frozen=True)
+class SchemaPack:
+    tables: Dict[str, SchemaTable]
+    version: str = "v1"
+@dataclass(frozen=True)
+class ContextBudget:
+    max_tables: int
+    max_columns_per_table: int
+    max_total_columns: int
+@dataclass(frozen=True)
+class ContextPacket:
+    schema_pack: SchemaPack
+    constraints: List[str]
+    db_hints: Optional[dict]
+    budget: ContextBudget
+    tables_before: int
+    columns_before: int
+    tables_after: int
+    columns_after: int
+    budget_reason: Optional[str]

nl2sql/pipeline.py CHANGED Viewed

@@ -1,4 +1,5 @@
 from __future__ import annotations
 import traceback
 from dataclasses import dataclass
 from typing import Dict, Any, Optional, List
@@ -16,6 +17,8 @@ from nl2sql.repair import Repair
 from nl2sql.stubs import NoOpExecutor, NoOpRepair, NoOpVerifier
 from nl2sql.metrics import stage_duration_ms, pipeline_runs_total, repair_attempts_total
 from nl2sql.errors.codes import ErrorCode
 @dataclass(frozen=True)
@@ -54,6 +57,7 @@ class Pipeline:
         executor: Optional[Executor] = None,
         verifier: Optional[Verifier] = None,
         repair: Optional[Repair] = None,
     ):
         self.detector = detector
         self.planner = planner
@@ -64,6 +68,7 @@ class Pipeline:
         self.repair = repair or NoOpRepair()
         # If the verifier explicitly requires verification, enforce it in finalize.
         self.require_verification = bool(getattr(self.verifier, "required", False))
     # ---------------------------- helpers ----------------------------
     @staticmethod
@@ -283,6 +288,13 @@ class Pipeline:
         schema_preview = schema_preview or ""
         clarify_answers = clarify_answers or {}
         try:
             # --- 1) detector ---
             t0 = time.perf_counter()
@@ -314,14 +326,24 @@ class Pipeline:
             # --- 2) planner ---
             t0 = time.perf_counter()
             r_plan = self._run_with_repair(
                 "planner",
                 self.planner.run,
                 repair_input_builder=self._planner_repair_input_builder,
                 max_attempts=1,
-                user_query=user_query,
-                traces=traces,
-                schema_preview=schema_preview,
             )
             dt = (time.perf_counter() - t0) * 1000.0
             stage_duration_ms.labels("planner").observe(dt)
@@ -345,16 +367,26 @@ class Pipeline:
             # --- 3) generator ---
             t0 = time.perf_counter()
             r_gen = self._run_with_repair(
                 "generator",
                 self.generator.run,
                 repair_input_builder=self._generator_repair_input_builder,
                 max_attempts=1,
-                user_query=user_query,
-                schema_preview=schema_preview,
-                plan_text=(r_plan.data or {}).get("plan"),
-                clarify_answers=clarify_answers,
-                traces=traces,
             )
             dt = (time.perf_counter() - t0) * 1000.0
             stage_duration_ms.labels("generator").observe(dt)
@@ -447,7 +479,9 @@ class Pipeline:
             if not getattr(r_exec, "trace", None):
                 _fallback_trace("executor", dt, r_exec.ok)
             if not r_exec.ok and r_exec.error:
-                details.extend(r_exec.error)  # soft: keep for repair/verifier context
             if r_exec.ok and isinstance(r_exec.data, dict):
                 exec_result = dict(r_exec.data)

 from __future__ import annotations
 import traceback
 from dataclasses import dataclass
 from typing import Dict, Any, Optional, List
 from nl2sql.stubs import NoOpExecutor, NoOpRepair, NoOpVerifier
 from nl2sql.metrics import stage_duration_ms, pipeline_runs_total, repair_attempts_total
 from nl2sql.errors.codes import ErrorCode
+from nl2sql.context_engineering.render import render_schema_pack
+from nl2sql.context_engineering.engineer import ContextEngineer
 @dataclass(frozen=True)
         executor: Optional[Executor] = None,
         verifier: Optional[Verifier] = None,
         repair: Optional[Repair] = None,
+        context_engineer: ContextEngineer | None = None,
     ):
         self.detector = detector
         self.planner = planner
         self.repair = repair or NoOpRepair()
         # If the verifier explicitly requires verification, enforce it in finalize.
         self.require_verification = bool(getattr(self.verifier, "required", False))
+        self.context_engineer = context_engineer
     # ---------------------------- helpers ----------------------------
     @staticmethod
         schema_preview = schema_preview or ""
         clarify_answers = clarify_answers or {}
+        # --- Context Engineering
+        schema_for_llm = schema_preview
+        if self.context_engineer is not None:
+            packet = self.context_engineer.build(schema_preview=schema_preview)
+            schema_for_llm = render_schema_pack(packet.schema_pack)
         try:
             # --- 1) detector ---
             t0 = time.perf_counter()
             # --- 2) planner ---
             t0 = time.perf_counter()
+            planner_kwargs: Dict[str, Any] = {
+                "user_query": user_query,
+                "schema_preview": schema_for_llm,
+                "traces": traces,
+            }
+            try:
+                if "schema_pack" in inspect.signature(self.planner.run).parameters:
+                    planner_kwargs["schema_pack"] = schema_for_llm
+            except (TypeError, ValueError):
+                pass
             r_plan = self._run_with_repair(
                 "planner",
                 self.planner.run,
                 repair_input_builder=self._planner_repair_input_builder,
                 max_attempts=1,
+                **planner_kwargs,
             )
             dt = (time.perf_counter() - t0) * 1000.0
             stage_duration_ms.labels("planner").observe(dt)
             # --- 3) generator ---
             t0 = time.perf_counter()
+            gen_kwargs: Dict[str, Any] = {
+                "user_query": user_query,
+                "schema_preview": schema_for_llm,
+                "plan_text": (r_plan.data or {}).get("plan"),
+                "clarify_answers": clarify_answers,
+                "traces": traces,
+            }
+            try:
+                if "schema_pack" in inspect.signature(self.generator.run).parameters:
+                    gen_kwargs["schema_pack"] = schema_for_llm
+            except (TypeError, ValueError):
+                pass
             r_gen = self._run_with_repair(
                 "generator",
                 self.generator.run,
                 repair_input_builder=self._generator_repair_input_builder,
                 max_attempts=1,
+                **gen_kwargs,
             )
             dt = (time.perf_counter() - t0) * 1000.0
             stage_duration_ms.labels("generator").observe(dt)
             if not getattr(r_exec, "trace", None):
                 _fallback_trace("executor", dt, r_exec.ok)
             if not r_exec.ok and r_exec.error:
+                details.extend(
+                    r_exec.error
+                )  # soft: keep for repair/verifier context_engineering
             if r_exec.ok and isinstance(r_exec.data, dict):
                 exec_result = dict(r_exec.data)

nl2sql/pipeline_factory.py CHANGED Viewed

@@ -29,6 +29,8 @@ from nl2sql.generator import Generator
 from nl2sql.executor import Executor
 from nl2sql.verifier import Verifier
 from nl2sql.repair import Repair
 from adapters.db.base import DBAdapter
 from adapters.db.sqlite_adapter import SQLiteAdapter
@@ -195,6 +197,14 @@ def pipeline_from_config(path: str) -> Pipeline:
         verifier = VERIFIERS[cfg.get("verifier", "basic")]()
         repair = REPAIRS[cfg.get("repair", "default")](llm=llm)
     return Pipeline(
         detector=detector,
         planner=planner,
@@ -203,6 +213,7 @@ def pipeline_from_config(path: str) -> Pipeline:
         executor=executor,
         verifier=verifier,
         repair=repair,
     )

 from nl2sql.executor import Executor
 from nl2sql.verifier import Verifier
 from nl2sql.repair import Repair
+from nl2sql.context_engineering.engineer import ContextEngineer
+from nl2sql.context_engineering.types import ContextBudget
 from adapters.db.base import DBAdapter
 from adapters.db.sqlite_adapter import SQLiteAdapter
         verifier = VERIFIERS[cfg.get("verifier", "basic")]()
         repair = REPAIRS[cfg.get("repair", "default")](llm=llm)
+    context_engineer = ContextEngineer(
+        budget=ContextBudget(
+            max_tables=25,
+            max_columns_per_table=25,
+            max_total_columns=400,
+        )
+    )
     return Pipeline(
         detector=detector,
         planner=planner,
         executor=executor,
         verifier=verifier,
         repair=repair,
+        context_engineer=context_engineer,
     )