Spaces:

Paul720810
/

Softline-SQL-Assistant

Sleeping

Paul720810 commited on Sep 10, 2025

Commit

04ae5ea

verified ·

1 Parent(s): 2b8ddf5

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -108,7 +108,7 @@ class TextToSQLSystem:
         try:
             dataset = load_dataset(DATASET_REPO_ID, data_files="training_data.jsonl", split="train")
             dataset = dataset.filter(lambda ex: isinstance(ex.get("messages"), list) and len(ex["messages"]) >= 2)
-            corpus = [item['messages']['content'] for item in dataset]
             self._log(f"正在編碼 {len(corpus)} 個問題...")
             all_embeddings = torch.cat([self._encode_texts(corpus[i:i+32]) for i in range(0, len(corpus), 32)], dim=0).numpy()
             index = faiss.IndexFlatIP(all_embeddings.shape)
@@ -153,8 +153,8 @@ class TextToSQLSystem:
                 if idx >= len(self.dataset): continue
                 item = self.dataset[idx]
                 if not (isinstance(item.get('messages'), list) and len(item['messages']) >= 2): continue
-                q_content = (item['messages'].get('content') or '').strip()
-                a_content = (item['messages'].get('content') or '').strip()
                 if not q_content or not a_content: continue
                 clean_q = re.sub(r"以下是一個SQL查詢任務：\s*指令:\s*", "", q_content).strip()
                 if clean_q in seen_questions: continue

         try:
             dataset = load_dataset(DATASET_REPO_ID, data_files="training_data.jsonl", split="train")
             dataset = dataset.filter(lambda ex: isinstance(ex.get("messages"), list) and len(ex["messages"]) >= 2)
+            corpus = [item['messages'][0]['content'] for item in dataset]
             self._log(f"正在編碼 {len(corpus)} 個問題...")
             all_embeddings = torch.cat([self._encode_texts(corpus[i:i+32]) for i in range(0, len(corpus), 32)], dim=0).numpy()
             index = faiss.IndexFlatIP(all_embeddings.shape)
                 if idx >= len(self.dataset): continue
                 item = self.dataset[idx]
                 if not (isinstance(item.get('messages'), list) and len(item['messages']) >= 2): continue
+                q_content = (item['messages'][0].get('content') or '').strip()
+                a_content = (item['messages'][1].get('content') or '').strip()
                 if not q_content or not a_content: continue
                 clean_q = re.sub(r"以下是一個SQL查詢任務：\s*指令:\s*", "", q_content).strip()
                 if clean_q in seen_questions: continue