Spaces:

adamtobegreat
/

Mega_QA

Sleeping

App Files Files Community

adamtobegreat commited on Nov 1

Commit

2c81513

verified ·

1 Parent(s): 8987e9e

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -61

app.py CHANGED Viewed

@@ -1,41 +1,22 @@
-import os, re, requests, base64
 from langchain_core.documents import Document
 from langchain_chroma import Chroma
 from openai import OpenAI
 from langchain.embeddings.base import Embeddings
 from langchain_google_genai import ChatGoogleGenerativeAI
-import chromadb
 import gradio as gr
-# === 記憶模組相容多版本 ===
-try:
-    from langchain_memory import ConversationBufferMemory
-except ImportError:
-    try:
-        from langchain.memory import ConversationBufferMemory
-    except ImportError:
-        from langchain_community.memory import ConversationBufferMemory
 # =============================================
-# 1️⃣ 自訂 LM Studio Embedding 類別
 # =============================================
-class LmStudioEmbeddings(Embeddings):
-    def __init__(self, model_name, url):
-        self.model_name = model_name
-        self.client = OpenAI(base_url=url, api_key="lm-studio")
-    def embed_query(self, text: str):
-        res = self.client.embeddings.create(input=text, model=self.model_name)
-        return res.data[0].embedding
-    def embed_documents(self, texts: list[str]):
-        res = self.client.embeddings.create(input=texts, model=self.model_name)
-        return [x.embedding for x in res.data]
 # =============================================
-# 2️⃣ 載入 QA 檔案並分類（相對路徑）
 # =============================================
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 path = os.path.join(BASE_DIR, "QA_v2.txt")
@@ -58,38 +39,17 @@ for qa in qas:
     elif "複委託" in qa:
         qa_docs["複委託"].append(Document(page_content=qa.strip(), metadata={"source": path}))
-print("✅ 已成功讀取 QA 並完成分類：")
-for k, v in qa_docs.items():
-    print(f"　{k}：{len(v)} 筆")
 # =============================================
-# 3️⃣ 建立向量資料庫
 # =============================================
-embedding = LmStudioEmbeddings(
-    model_name="text-embedding-bge-large-zh-v1.5",
-    url="http://127.0.0.1:1234/v1"
-)
-client = chromadb.PersistentClient(path="./chroma_db")
-collection_names = {"證券": "stocks", "期貨": "futures", "複委託": "overseas"}
 vectordbs = {}
-for cat, docs in qa_docs.items():
-    eng_name = collection_names[cat]
-    vectordbs[cat] = Chroma(
-        client=client,
-        collection_name=eng_name,
-        embedding_function=embedding
-    )
-    if len(vectordbs[cat].get()["documents"]) == 0:
-        vectordbs[cat].add_documents(docs)
-print("✅ 各類別向量資料庫建立完成")
 # =============================================
-# 4️⃣ 初始化 Gemini LLM（從 Secret 讀取）
 # =============================================
 API_KEY = os.getenv("GOOGLE_API_KEY")
 if not API_KEY:
@@ -98,9 +58,8 @@ if not API_KEY:
 llm = ChatGoogleGenerativeAI(model='gemini-2.5-flash', google_api_key=API_KEY)
 memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
 # =============================================
-# 5️⃣ 對話主邏輯
 # =============================================
 def auto_detect_category(text):
     if any(k in text for k in ["股票", "證券", "開戶", "下單", "交割", "現股"]):
@@ -112,13 +71,7 @@ def auto_detect_category(text):
     else:
         return "證券"
 def chat_fn(message, history):
-    print(f"[DEBUG] 問題：{message}")
-    if "午餐吃什麼" in message:
-        return "還在盤中交易無法離開，還是我們約下午茶如何？"
     category = auto_detect_category(message)
     vectordb = vectordbs.get(category)
     if not vectordb:
@@ -143,7 +96,6 @@ def chat_fn(message, history):
     return reply or "請洽營業員"
 # =============================================
 # 6️⃣ Gradio 介面
 # =============================================

+import os, re, base64
 from langchain_core.documents import Document
 from langchain_chroma import Chroma
 from openai import OpenAI
 from langchain.embeddings.base import Embeddings
 from langchain_google_genai import ChatGoogleGenerativeAI
+from langchain_community.vectorstores import FAISS
 import gradio as gr
+from langchain.memory import ConversationBufferMemory
 # =============================================
+# 1️⃣ 內建 Embedding：使用 Gemini embedding API
 # =============================================
+from langchain_google_genai import GoogleGenerativeAIEmbeddings
+embedding = GoogleGenerativeAIEmbeddings(model="models/embedding-001", google_api_key=os.getenv("GOOGLE_API_KEY"))
 # =============================================
+# 2️⃣ 載入 QA 檔案並分類
 # =============================================
 BASE_DIR = os.path.dirname(os.path.abspath(__file__))
 path = os.path.join(BASE_DIR, "QA_v2.txt")
     elif "複委託" in qa:
         qa_docs["複委託"].append(Document(page_content=qa.strip(), metadata={"source": path}))
+print("✅ 已成功讀取 QA 並完成分類：", {k: len(v) for k, v in qa_docs.items()})
 # =============================================
+# 3️⃣ 建立向量資料庫（使用 FAISS，記憶體型）
 # =============================================
 vectordbs = {}
+for k, docs in qa_docs.items():
+    vectordbs[k] = FAISS.from_documents(docs, embedding)
 # =============================================
+# 4️⃣ 初始化 Gemini LLM
 # =============================================
 API_KEY = os.getenv("GOOGLE_API_KEY")
 if not API_KEY:
 llm = ChatGoogleGenerativeAI(model='gemini-2.5-flash', google_api_key=API_KEY)
 memory = ConversationBufferMemory(memory_key="chat_history", return_messages=True)
 # =============================================
+# 5️⃣ 對話邏輯
 # =============================================
 def auto_detect_category(text):
     if any(k in text for k in ["股票", "證券", "開戶", "下單", "交割", "現股"]):
     else:
         return "證券"
 def chat_fn(message, history):
     category = auto_detect_category(message)
     vectordb = vectordbs.get(category)
     if not vectordb:
     return reply or "請洽營業員"
 # =============================================
 # 6️⃣ Gradio 介面
 # =============================================