Spaces:

orachamp1981
/

oracle-llm

Sleeping

orachamp1981 commited on Jun 26, 2025

Commit

0bfab9f

verified ·

1 Parent(s): 4a09457

Upload 2 files

Files changed (2) hide show

data_loader.py CHANGED Viewed

@@ -2,6 +2,17 @@
 import os
 def load_rules(file_path="data/train_data.txt"):
     data = {}
     if os.path.exists(file_path):
@@ -9,7 +20,7 @@ def load_rules(file_path="data/train_data.txt"):
             for line in file:
                 if "=" in line:
                     key, value = line.strip().split("=", 1)
-                    data[key.strip().lower()] = value.strip()
     return data
 def detect_domain(prompt):

 import os
+def clean_sql_output(raw_text):
+    return (
+        raw_text.strip()
+                .replace("\\n", "\n")       # Handle escaped newlines
+                .replace(";\n", ";\n")      # Normalize semicolon-linebreak
+                .replace(";", ";\n")        # Add line breaks after semicolons
+                .replace("\n\n", "\n")      # Remove double line breaks
+                .replace(";\\n", ".;\\n")      # Remove double line breaks
+                .strip()
+    )
 def load_rules(file_path="data/train_data.txt"):
     data = {}
     if os.path.exists(file_path):
             for line in file:
                 if "=" in line:
                     key, value = line.strip().split("=", 1)
+                    data[key.strip().lower()] = clean_sql_output(value)
     return data
 def detect_domain(prompt):

model.py CHANGED Viewed

@@ -4,6 +4,10 @@ from data_loader import load_rules, load_rules_by_domain, detect_domain
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 # 🔍 Load semantic model
 model = SentenceTransformer("sentence-transformers/paraphrase-MiniLM-L6-v2")
@@ -32,8 +36,7 @@ def oracle_sql_suggester(prompt):
     # ✅ Step 1: Exact match in domain-specific rules
     domain_match = load_rules_by_domain(prompt_clean)
     if domain_match:
-        #return domain_match
-        return domain_match.replace("\\n", "\n")
     # ✅ Step 2: Check hardcoded greeting or conflict response
     for greet_key, greet_reply in greeting_templates.items():
@@ -67,7 +70,7 @@ def oracle_sql_suggester(prompt):
         if top_score >= 0.7:
             matched_prompt = train_prompts[top_match_index]
-            return global_rules[matched_prompt].replace("\\n", "\n")  # ⬅️ Support multiline
     # ✅ Step 5: LLM Fallback
     try:

 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
+# 🔧 Clean up response formatting
+def clean_response(text):
+    return text.replace("\\n", "\n").replace(";;", ";")
 # 🔍 Load semantic model
 model = SentenceTransformer("sentence-transformers/paraphrase-MiniLM-L6-v2")
     # ✅ Step 1: Exact match in domain-specific rules
     domain_match = load_rules_by_domain(prompt_clean)
     if domain_match:
+        return clean_response(domain_match)
     # ✅ Step 2: Check hardcoded greeting or conflict response
     for greet_key, greet_reply in greeting_templates.items():
         if top_score >= 0.7:
             matched_prompt = train_prompts[top_match_index]
+            return clean_response(global_rules[matched_prompt])
     # ✅ Step 5: LLM Fallback
     try: