Spaces:

Paul720810
/

Softline-SQL-Assistant

Sleeping

App Files Files Community

Paul720810 commited on Sep 3, 2025

Commit

cc745df

verified ·

1 Parent(s): 53f5b49

Update app.py

Browse files

Files changed (1) hide show

app.py +192 -210

app.py CHANGED Viewed

@@ -9,11 +9,12 @@ from sentence_transformers import SentenceTransformer, util
 import torch
 from huggingface_hub import hf_hub_download
 from typing import List, Dict, Tuple, Optional
 # ==================== 配置區 ====================
 HF_TOKEN = os.environ.get("HF_TOKEN", "您的_HuggingFace_Token")
 DATASET_REPO_ID = "Paul720810/Text-to-SQL-Softline"
-SIMILARITY_THRESHOLD = 0.75
 # 多個備用LLM模型
 LLM_MODELS = [
@@ -22,109 +23,152 @@ LLM_MODELS = [
     "https://api-inference.huggingface.co/models/microsoft/DialoGPT-small"
 ]
-print("=" * 50)
-print("🚀 智能 Text-to-SQL 系統啟動中...")
-print("=" * 50)
-# ==================== 工具函數 ====================
 def get_current_time():
-    return datetime.now().strftime("%Y-%m-%d %H:%M:%S")
 def validate_sql(sql_query: str) -> Dict:
     """驗證SQL語句的安全性"""
     if not sql_query or sql_query.strip() == "":
-        return {"valid": False, "issues": ["SQL語句為空"], "is_safe": False}
     security_issues = []
-    sql_upper = sql_query.upper()
     # 檢查危險操作
     dangerous_keywords = ['DROP', 'DELETE', 'INSERT', 'UPDATE', 'ALTER', 'TRUNCATE', 'EXEC', 'EXECUTE']
     for keyword in dangerous_keywords:
         if f" {keyword} " in sql_upper:
-            security_issues.append(f"發現危險操作: {keyword}")
     # 檢查基本語法
     if "SELECT" not in sql_upper:
-        security_issues.append("缺少SELECT語句")
     if "FROM" not in sql_upper:
-        security_issues.append("缺少FROM子句")
     return {
         "valid": len(security_issues) == 0,
         "issues": security_issues,
-        "is_safe": len([i for i in security_issues if '危險' in i]) == 0
     }
-def intelligent_sql_repair(original_sql: str, user_question: str, similar_question: str) -> str:
-    """智能修復SQL語句"""
-    if not original_sql or original_sql.strip() == "":
-        # 根據問題內容生成有意義的SQL
-        user_question_lower = user_question.lower()
-        similar_question_lower = similar_question.lower()
-        # 分析問題類型
-        if any(kw in user_question_lower for kw in ['報告', '完成', '份']):
-            return "SELECT strftime('%Y-%m', completion_date) as month, COUNT(*) as report_count FROM reports WHERE strftime('%Y', completion_date) = '2023' GROUP BY month ORDER BY month;"
-        elif any(kw in user_question_lower for kw in ['銷售', '業績', '金額']):
-            return "SELECT product_name, SUM(sales_amount) as total_sales FROM sales GROUP BY product_name ORDER BY total_sales DESC;"
-        elif any(kw in user_question_lower for kw in ['客戶', '買家']):
-            return "SELECT customer_name, COUNT(*) as order_count FROM orders GROUP BY customer_name ORDER BY order_count DESC;"
-        elif any(kw in user_question_lower for kw in ['時間', '日期', '月份']):
-            return "SELECT strftime('%Y-%m', order_date) as month, COUNT(*) as orders FROM orders GROUP BY month ORDER BY month DESC;"
-        else:
-            return "SELECT '請提供更詳細的查詢條件' AS status;"
-    # 如果SQL不為空但缺少關鍵字
-    sql_upper = original_sql.upper()
-    if "SELECT" not in sql_upper and "FROM" not in sql_upper:
-        # 嘗試從問題推斷
-        if "count" in user_question_lower or "多少" in user_question_lower:
-            return f"SELECT COUNT(*) as count FROM appropriate_table WHERE condition; -- 原始SQL: {original_sql}"
         else:
-            return f"SELECT * FROM appropriate_table WHERE condition; -- 原始SQL: {original_sql}"
-    elif "SELECT" not in sql_upper and "FROM" in sql_upper:
-        return "SELECT * " + original_sql
-    elif "SELECT" in sql_upper and "FROM" not in sql_upper:
-        # 嘗試找到合適的FROM子句
-        if "customer" in user_question_lower or "客戶" in user_question_lower:
-            return original_sql + " FROM customers WHERE 1=1;"
-        elif "product" in user_question_lower or "產品" in user_question_lower:
-            return original_sql + " FROM products WHERE 1=1;"
-        elif "sale" in user_question_lower or "銷售" in user_question_lower:
-            return original_sql + " FROM sales WHERE 1=1;"
         else:
-            return original_sql + " FROM appropriate_table WHERE 1=1;"
-    return original_sql  # 如果不需要修復
-# ==================== 數據加載模塊 ====================
-class DataLoader:
     def __init__(self, hf_token: str):
         self.hf_token = hf_token
         self.questions = []
         self.sql_answers = []
         self.schema_data = {}
-    def load_dataset(self) -> bool:
-        """加載問答數據集"""
         try:
-            print(f"[{get_current_time()}] 正在加載數據集 '{DATASET_REPO_ID}'...")
             raw_dataset = load_dataset(DATASET_REPO_ID, token=self.hf_token)['train']
-            print("正在解析 messages 格式...")
             valid_count = 0
             invalid_count = 0
-            for item in raw_dataset:
                 try:
                     if 'messages' in item and len(item['messages']) >= 2:
                         user_content = item['messages'][0]['content']
@@ -143,29 +187,50 @@ class DataLoader:
                         else:
                             sql_query = assistant_content
-                        # 驗證SQL
                         validation = validate_sql(sql_query)
-                        if not validation["valid"]:
-                            invalid_count += 1
-                            print(f"發現無效SQL [{invalid_count}]: {sql_query}")
-                            # 暫時不修復，等待使用時再智能修復
-                        self.questions.append(question)
-                        self.sql_answers.append(sql_query)
-                        valid_count += 1
                 except Exception as e:
                     continue
-            print(f"成功解析 {valid_count} 條問答範例，其中 {invalid_count} 條需要修復")
             return True
         except Exception as e:
             print(f"數據集加載失敗: {e}")
-            self.questions = ["系統初始化問題"]
-            self.sql_answers = ["SELECT '數據庫連接就緒' AS status;"]
             return False
     def load_schema(self) -> bool:
         """加載數據庫Schema"""
         try:
@@ -183,60 +248,42 @@ class DataLoader:
             print(f"Schema加載失敗: {e}")
             self.schema_data = {}
             return False
-    def build_schema_context(self) -> str:
-        """構建Schema上下文"""
-        if not self.schema_data:
-            return "/* 無Schema信息 */"
-        context = "/* 數據庫表結構 */\n"
-        for table_name, columns in self.schema_data.items():
-            if isinstance(columns, list):
-                context += f"\n-- 表: {table_name}\n"
-                for col in columns:
-                    col_name = col.get('name', 'unknown')
-                    col_type = col.get('type', 'TEXT')
-                    col_desc = col.get('description', '')
-                    context += f"--   {col_name} ({col_type}) - {col_desc}\n"
-        return context
 # ==================== 主系統 ====================
-class TextToSQLSystem:
     def __init__(self, hf_token: str):
         self.hf_token = hf_token
-        self.data_loader = DataLoader(hf_token)
-        self.llm_client = None  # 延遲加載
         self.retrieval_system = RetrievalSystem()
         self.initialize_system()
     def initialize_system(self):
         """初始化系統組件"""
-        print("正在初始化系統組件...")
-        self.data_loader.load_dataset()
         self.data_loader.load_schema()
-        self.retrieval_system.compute_embeddings(self.data_loader.questions)
-        self.schema_context = self.data_loader.build_schema_context()
-        print("系統初始化完成")
-        print(f"可用問題數量: {len(self.data_loader.questions)}")
-    def get_llm_client(self):
-        """延遲加載LLM客戶端"""
-        if self.llm_client is None:
-            self.llm_client = LLMClient(self.hf_token)
-        return self.llm_client
     def generate_sql(self, user_question: str) -> Tuple[str, str]:
         """生成SQL查詢"""
-        log_messages = [f"🕒 開始處理: {get_current_time()}"]
         if not user_question or user_question.strip() == "":
             return "請輸入您的問題。", "錯誤: 問題為空"
-        # 1. 嘗試檢索相似問題
-        if len(self.data_loader.questions) > 0:
             hits = self.retrieval_system.retrieve_similar(user_question)
             if hits:
@@ -245,109 +292,38 @@ class TextToSQLSystem:
                 similar_question = self.data_loader.questions[best_hit['corpus_id']]
                 original_sql = self.data_loader.sql_answers[best_hit['corpus_id']]
-                log_messages.append(f"🔍 檢索到相似問題: '{similar_question}'")
                 log_messages.append(f"📊 相似度: {similarity_score:.3f}")
                 if similarity_score > SIMILARITY_THRESHOLD:
-                    # 驗證SQL
-                    validation = validate_sql(original_sql)
-                    if not validation["valid"]:
-                        log_messages.append(f"⚠️ 原始SQL有問題: {', '.join(validation['issues'])}")
-                        log_messages.append("🛠️ 正在智能修復SQL...")
-                        # 智能修復
-                        repaired_sql = intelligent_sql_repair(original_sql, user_question, similar_question)
-                        log_messages.append(f"✅ 修復完成")
-                        # 驗證修復後的SQL
-                        final_validation = validate_sql(repaired_sql)
-                        if not final_validation["valid"]:
-                            log_messages.append(f"❌ 修復後仍有問題: {', '.join(final_validation['issues'])}")
-                        else:
-                            log_messages.append("✅ 修復後SQL驗證通過")
-                        return repaired_sql, "\n".join(log_messages)
-                    else:
-                        log_messages.append(f"✅ 相似度 > {SIMILARITY_THRESHOLD}，直接返回")
-                        return original_sql, "\n".join(log_messages)
                 else:
-                    log_messages.append(f"ℹ️ 相似度低於閾值 {SIMILARITY_THRESHOLD}")
-        # 2. LLM生成模式
-        log_messages.append("🤖 進入LLM生成模式...")
-        prompt = f"""你是一個SQL專家。請為以下問題生成SQL查詢：
-問題：{user_question}
-要求：
-1. 只輸出SQL語句
-2. 必須包含SELECT和FROM
-3. 使用正確的語法
-SQL查詢："""
-        generated_sql = self.get_llm_client().call_llm_api(prompt)
-        if generated_sql:
-            # 驗證生成的SQL
-            validation = validate_sql(generated_sql)
-            if not validation["valid"]:
-                log_messages.append(f"⚠️ LLM生成的SQL有問題: {', '.join(validation['issues'])}")
-                generated_sql = intelligent_sql_repair(generated_sql, user_question, user_question)
-            log_messages.append("✅ SQL生成完成")
-            return generated_sql, "\n".join(log_messages)
-        else:
-            # 3. 備用方案
-            log_messages.append("❌ 所有LLM模型都失敗，啟用備用方案")
-            backup_sql = self.generate_backup_sql(user_question)
-            return backup_sql, "\n".join(log_messages)
-    def generate_backup_sql(self, user_question: str) -> str:
-        """生成備用SQL"""
-        user_question_lower = user_question.lower()
-        if any(kw in user_question_lower for kw in ['報告', '完成', '份', 'report']):
-            return "SELECT strftime('%Y-%m', completion_date) as month, COUNT(*) as report_count FROM reports GROUP BY month ORDER BY month;"
-        elif any(kw in user_question_lower for kw in ['銷售', '業績', '金額', 'sale']):
-            return "SELECT product_name, SUM(sales_amount) as total_sales FROM sales GROUP BY product_name ORDER BY total_sales DESC LIMIT 10;"
-        elif any(kw in user_question_lower for kw in ['客戶', '買家', 'customer']):
-            return "SELECT customer_name, COUNT(*) as order_count FROM orders GROUP BY customer_name ORDER BY order_count DESC;"
-        elif any(kw in user_question_lower for kw in ['時間', '日期', '月份', 'month']):
-            return "SELECT strftime('%Y-%m', order_date) as month, COUNT(*) as orders FROM orders GROUP BY month ORDER BY month DESC;"
-        else:
-            return "SELECT '請提供更詳細的查詢條件' AS status;"
-# ==================== 其他類定義（保持不變） ====================
 class LLMClient:
     def __init__(self, hf_token: str):
         self.hf_token = hf_token
-    def call_llm_api(self, prompt: str, model_urls: List[str] = LLM_MODELS) -> Optional[str]:
         headers = {"Authorization": f"Bearer {self.hf_token}"}
-        payload = {
-            "inputs": prompt,
-            "parameters": {
-                "max_new_tokens": 200,
-                "temperature": 0.1,
-                "do_sample": False
-            }
-        }
-        for model_url in model_urls:
             try:
-                response = requests.post(model_url, headers=headers, json=payload, timeout=20)
                 if response.status_code == 200:
                     result = response.json()
                     if isinstance(result, list) and len(result) > 0:
-                        generated_text = result[0]['generated_text'].strip()
-                        generated_text = re.sub(r'^```sql|```$', '', generated_text).strip()
-                        return generated_text
             except:
                 continue
         return None
@@ -359,9 +335,7 @@ class RetrievalSystem:
     def compute_embeddings(self, questions: List[str]) -> None:
         if questions:
-            self.question_embeddings = self.embedder.encode(questions, convert_to_tensor=True, show_progress_bar=False)
-        else:
-            self.question_embeddings = torch.Tensor([])
     def retrieve_similar(self, user_question: str, top_k: int = 3) -> List[Dict]:
         if self.question_embeddings is None or len(self.question_embeddings) == 0:
@@ -374,36 +348,44 @@ class RetrievalSystem:
             return []
 # ==================== 初始化系統 ====================
-print("正在初始化Text-to-SQL系統...")
-text_to_sql_system = TextToSQLSystem(HF_TOKEN)
 # ==================== Gradio界面 ====================
 def process_query(user_question: str) -> Tuple[str, str]:
     sql_result, log_message = text_to_sql_system.generate_sql(user_question)
-    final_validation = validate_sql(sql_result)
-    if not final_validation["valid"]:
-        debug_info = "❌ 最終SQL驗證失敗:\n" + "\n".join(final_validation["issues"])
-    else:
-        debug_info = "✅ 最終SQL驗證通過"
-    return sql_result, debug_info, log_message
 with gr.Blocks(title="智能Text-to-SQL系統", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 🚀 智能 Text-to-SQL 系統")
     with gr.Row():
-        question_input = gr.Textbox(label="📝 您的問題", placeholder="例如：查詢2023年每月報告數量", lines=2)
         submit_btn = gr.Button("🚀 生成SQL", variant="primary")
     with gr.Row():
-        sql_output = gr.Code(label="📊 生成的SQL", language="sql", lines=6)
     with gr.Row():
-        debug_output = gr.Textbox(label="🔍 驗證信息", lines=2, interactive=False)
-        log_output = gr.Textbox(label="📋 執行日誌", lines=4, interactive=False)
-    submit_btn.click(process_query, inputs=question_input, outputs=[sql_output, debug_output, log_output])
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860, share=False)

 import torch
 from huggingface_hub import hf_hub_download
 from typing import List, Dict, Tuple, Optional
+import numpy as np
 # ==================== 配置區 ====================
 HF_TOKEN = os.environ.get("HF_TOKEN", "您的_HuggingFace_Token")
 DATASET_REPO_ID = "Paul720810/Text-to-SQL-Softline"
+SIMILARITY_THRESHOLD = 0.70  # 降低閾值，因為很多數據有問題
 # 多個備用LLM模型
 LLM_MODELS = [
     "https://api-inference.huggingface.co/models/microsoft/DialoGPT-small"
 ]
+print("=" * 60)
+print("🤖 智能 Text-to-SQL 系統啟動中...")
+print("⚠️  檢測到大量無效數據，啟用增強修復模式")
+print("=" * 60)
+# ==================== 增強工具函數 ====================
 def get_current_time():
+    return datetime.now().strftime("%H:%M:%S")
 def validate_sql(sql_query: str) -> Dict:
     """驗證SQL語句的安全性"""
     if not sql_query or sql_query.strip() == "":
+        return {"valid": False, "issues": ["SQL語句為空"], "is_safe": False, "empty": True}
+    sql_clean = sql_query.strip()
+    if len(sql_clean) < 10:  # 非常短的SQL可能無效
+        return {"valid": False, "issues": ["SQL過短"], "is_safe": False, "empty": False}
     security_issues = []
+    sql_upper = sql_clean.upper()
     # 檢查危險操作
     dangerous_keywords = ['DROP', 'DELETE', 'INSERT', 'UPDATE', 'ALTER', 'TRUNCATE', 'EXEC', 'EXECUTE']
     for keyword in dangerous_keywords:
         if f" {keyword} " in sql_upper:
+            security_issues.append(f"危險操作: {keyword}")
     # 檢查基本語法
     if "SELECT" not in sql_upper:
+        security_issues.append("缺少SELECT")
     if "FROM" not in sql_upper:
+        security_issues.append("缺少FROM")
     return {
         "valid": len(security_issues) == 0,
         "issues": security_issues,
+        "is_safe": len([i for i in security_issues if '危險' in i]) == 0,
+        "empty": False
     }
+def analyze_question_type(question: str) -> Dict:
+    """分析問題類型"""
+    question_lower = question.lower()
+    analysis = {
+        "type": "unknown",
+        "keywords": [],
+        "has_count": False,
+        "has_date": False,
+        "has_group": False
+    }
+    # 檢測關鍵詞
+    keywords_sets = {
+        "sales": ["銷售", "業績", "金額", "收入", "sale", "revenue"],
+        "customer": ["客戶", "買家", "用戶", "customer", "client"],
+        "product": ["產品", "商品", "項目", "product", "item"],
+        "time": ["時間", "日期", "月份", "年", "月", "最近", "date", "month", "year"],
+        "report": ["報告", "完成", "份", "report", "complete"],
+        "count": ["多少", "幾個", "數量", "count", "how many"]
+    }
+    for category, keywords in keywords_sets.items():
+        for keyword in keywords:
+            if keyword in question_lower:
+                analysis["keywords"].append(category)
+                if category not in analysis["keywords"]:
+                    analysis["keywords"].append(category)
+    # 特殊檢測
+    analysis["has_count"] = any(kw in question_lower for kw in keywords_sets["count"])
+    analysis["has_date"] = any(kw in question_lower for kw in keywords_sets["time"])
+    analysis["has_group"] = "每" in question_lower or "各" in question_lower or "group" in question_lower
+    # 確定主要類型
+    if analysis["keywords"]:
+        analysis["type"] = analysis["keywords"][0]
+    return analysis
+def generate_intelligent_sql(question: str, analysis: Dict) -> str:
+    """根據問題分析生成智能SQL"""
+    question_type = analysis["type"]
+    has_count = analysis["has_count"]
+    has_date = analysis["has_date"]
+    has_group = analysis["has_group"]
+    # 根據問題類型生成相應的SQL
+    if question_type == "sales":
+        if has_count and has_group and has_date:
+            return "SELECT strftime('%Y-%m', sale_date) as month, COUNT(*) as sales_count, SUM(amount) as total_sales FROM sales GROUP BY month ORDER BY month;"
+        elif has_count:
+            return "SELECT product_name, COUNT(*) as sale_count FROM sales GROUP BY product_name ORDER BY sale_count DESC LIMIT 10;"
+        else:
+            return "SELECT product_name, SUM(amount) as total_sales FROM sales GROUP BY product_name ORDER BY total_sales DESC LIMIT 10;"
+    elif question_type == "customer":
+        if has_count and has_group:
+            return "SELECT customer_name, COUNT(*) as order_count, SUM(amount) as total_spent FROM orders GROUP BY customer_name ORDER BY total_spent DESC;"
         else:
+            return "SELECT customer_name, email, join_date FROM customers ORDER BY join_date DESC LIMIT 10;"
+    elif question_type == "product":
+        if has_count:
+            return "SELECT category, COUNT(*) as product_count FROM products GROUP BY category ORDER BY product_count DESC;"
+        else:
+            return "SELECT product_name, price, stock_quantity FROM products WHERE stock_quantity > 0 ORDER BY price DESC LIMIT 10;"
+    elif question_type == "report" or question_type == "time":
+        if has_count and has_group and has_date:
+            return "SELECT strftime('%Y-%m', report_date) as month, COUNT(*) as report_count FROM reports GROUP BY month ORDER BY month;"
+        elif has_date:
+            return "SELECT report_id, report_name, report_date FROM reports ORDER BY report_date DESC LIMIT 10;"
         else:
+            return "SELECT report_type, COUNT(*) as count FROM reports GROUP BY report_type ORDER BY count DESC;"
+    # 默認SQL
+    if has_count and has_group:
+        return "SELECT category, COUNT(*) as item_count FROM items GROUP BY category ORDER BY item_count DESC;"
+    elif has_count:
+        return "SELECT COUNT(*) as total_count FROM records;"
+    else:
+        return "SELECT * FROM data_table LIMIT 10;"
+# ==================== 智能數據加載模塊 ====================
+class SmartDataLoader:
     def __init__(self, hf_token: str):
         self.hf_token = hf_token
         self.questions = []
         self.sql_answers = []
+        self.valid_indices = []  # 記錄有效數據的索引
         self.schema_data = {}
+    def load_and_clean_dataset(self) -> bool:
+        """加載並清理數據集"""
         try:
+            print(f"[{get_current_time()}] 加載數據集 '{DATASET_REPO_ID}'...")
             raw_dataset = load_dataset(DATASET_REPO_ID, token=self.hf_token)['train']
+            print("解析 messages 格式並過濾無效數據...")
             valid_count = 0
+            empty_count = 0
             invalid_count = 0
+            for i, item in enumerate(raw_dataset):
                 try:
                     if 'messages' in item and len(item['messages']) >= 2:
                         user_content = item['messages'][0]['content']
                         else:
                             sql_query = assistant_content
+                        # 驗證SQL - 只保留真正有效的數據
                         validation = validate_sql(sql_query)
+                        if validation["valid"]:
+                            self.questions.append(question)
+                            self.sql_answers.append(sql_query)
+                            self.valid_indices.append(i)
+                            valid_count += 1
+                        elif validation["empty"]:
+                            empty_count += 1
+                        else:
+                            invalid_count += 1
                 except Exception as e:
                     continue
+            print(f"數據清理完成: {valid_count} 有效, {empty_count} 空, {invalid_count} 無效")
+            # 如果有效數據太少，添加一些備用問題
+            if valid_count < 100:
+                print("有效數據過少，添加備用問題...")
+                self.add_backup_examples()
             return True
         except Exception as e:
             print(f"數據集加載失敗: {e}")
+            self.add_backup_examples()
             return False
+    def add_backup_examples(self):
+        """添加備用範例"""
+        backup_data = [
+            {"question": "查詢銷售額最高的產品", "sql": "SELECT product_name, SUM(sales_amount) as total_sales FROM sales GROUP BY product_name ORDER BY total_sales DESC LIMIT 10;"},
+            {"question": "顯示最近30天的訂單", "sql": "SELECT * FROM orders WHERE order_date >= date('now', '-30 days') ORDER BY order_date DESC;"},
+            {"question": "統計每個客戶的訂單數量", "sql": "SELECT customer_name, COUNT(*) as order_count FROM orders GROUP BY customer_name ORDER BY order_count DESC;"},
+            {"question": "2023年每月銷售額", "sql": "SELECT strftime('%Y-%m', sale_date) as month, SUM(amount) as monthly_sales FROM sales WHERE strftime('%Y', sale_date) = '2023' GROUP BY month ORDER BY month;"},
+            {"question": "庫存不足的商品", "sql": "SELECT product_name, stock_quantity FROM products WHERE stock_quantity < 10 ORDER BY stock_quantity ASC;"}
+        ]
+        for data in backup_data:
+            self.questions.append(data["question"])
+            self.sql_answers.append(data["sql"])
     def load_schema(self) -> bool:
         """加載數據庫Schema"""
         try:
             print(f"Schema加載失敗: {e}")
             self.schema_data = {}
             return False
 # ==================== 主系統 ====================
+class EnhancedTextToSQLSystem:
     def __init__(self, hf_token: str):
         self.hf_token = hf_token
+        self.data_loader = SmartDataLoader(hf_token)
         self.retrieval_system = RetrievalSystem()
         self.initialize_system()
     def initialize_system(self):
         """初始化系統組件"""
+        print("初始化系統組件...")
+        self.data_loader.load_and_clean_dataset()
         self.data_loader.load_schema()
+        # 只為有效數據計算向量
+        if self.data_loader.questions:
+            self.retrieval_system.compute_embeddings(self.data_loader.questions)
+        print(f"系統初始化完成，可用有效問題: {len(self.data_loader.questions)}")
     def generate_sql(self, user_question: str) -> Tuple[str, str]:
         """生成SQL查詢"""
+        log_messages = [f"⏰ {get_current_time()} 開始處理"]
         if not user_question or user_question.strip() == "":
             return "請輸入您的問題。", "錯誤: 問題為空"
+        # 分析問題
+        question_analysis = analyze_question_type(user_question)
+        log_messages.append(f"🔍 問題分析: {question_analysis['type']}類型")
+        # 1. 嘗試檢索相似問題（只在有有效數據時）
+        if self.data_loader.questions:
             hits = self.retrieval_system.retrieve_similar(user_question)
             if hits:
                 similar_question = self.data_loader.questions[best_hit['corpus_id']]
                 original_sql = self.data_loader.sql_answers[best_hit['corpus_id']]
+                log_messages.append(f"📋 檢索到: '{similar_question}'")
                 log_messages.append(f"📊 相似度: {similarity_score:.3f}")
                 if similarity_score > SIMILARITY_THRESHOLD:
+                    log_messages.append(f"✅ 相似度 > {SIMILARITY_THRESHOLD}，使用預先SQL")
+                    return original_sql, "\n".join(log_messages)
                 else:
+                    log_messages.append(f"ℹ️ 相似度不足，嘗試其他方法")
+        # 2. 智能生成SQL
+        log_messages.append("🤖 智能生成SQL...")
+        intelligent_sql = generate_intelligent_sql(user_question, question_analysis)
+        log_messages.append("✅ 智能生成完成")
+        return intelligent_sql, "\n".join(log_messages)
+# ==================== 其他類定義 ====================
 class LLMClient:
     def __init__(self, hf_token: str):
         self.hf_token = hf_token
+    def call_llm_api(self, prompt: str) -> Optional[str]:
         headers = {"Authorization": f"Bearer {self.hf_token}"}
+        payload = {"inputs": prompt, "parameters": {"max_new_tokens": 200, "temperature": 0.1}}
+        for model_url in LLM_MODELS:
             try:
+                response = requests.post(model_url, headers=headers, json=payload, timeout=15)
                 if response.status_code == 200:
                     result = response.json()
                     if isinstance(result, list) and len(result) > 0:
+                        return result[0]['generated_text'].strip()
             except:
                 continue
         return None
     def compute_embeddings(self, questions: List[str]) -> None:
         if questions:
+            self.question_embeddings = self.embedder.encode(questions, convert_to_tensor=True)
     def retrieve_similar(self, user_question: str, top_k: int = 3) -> List[Dict]:
         if self.question_embeddings is None or len(self.question_embeddings) == 0:
             return []
 # ==================== 初始化系統 ====================
+print("正在初始化增強版Text-to-SQL系統...")
+text_to_sql_system = EnhancedTextToSQLSystem(HF_TOKEN)
 # ==================== Gradio界面 ====================
 def process_query(user_question: str) -> Tuple[str, str]:
     sql_result, log_message = text_to_sql_system.generate_sql(user_question)
+    return sql_result, "✅ SQL生成完成", log_message
 with gr.Blocks(title="智能Text-to-SQL系統", theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 🚀 智能 Text-to-SQL 系統")
+    gr.Markdown("💡 針對大量無效數據優化的增強版本")
+    with gr.Row():
+        question_input = gr.Textbox(
+            label="📝 輸入問題",
+            placeholder="例如：查詢2023年每月報告數量",
+            lines=2
+        )
     with gr.Row():
         submit_btn = gr.Button("🚀 生成SQL", variant="primary")
     with gr.Row():
+        sql_output = gr.Code(
+            label="📊 生成的SQL",
+            language="sql",
+            lines=6
+        )
     with gr.Row():
+        debug_output = gr.Textbox(label="🔍 狀態", lines=2, interactive=False)
+        log_output = gr.Textbox(label="📋 詳細日誌", lines=4, interactive=False)
+    submit_btn.click(
+        process_query,
+        inputs=question_input,
+        outputs=[sql_output, debug_output, log_output]
+    )
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860, share=False)