Spaces:

pcreem
/

aBot

Running

App Files Files Community

Song commited on 20 days ago

Commit

fde8226

1 Parent(s): f2f2687

openrouter

Browse files

Files changed (2) hide show

.DS_Store +0 -0
app.py +76 -34

.DS_Store ADDED Viewed

Binary file (6.15 kB). View file

app.py CHANGED Viewed

@@ -19,7 +19,7 @@ from linebot.v3.messaging import (
 from linebot.v3.webhook import WebhookParser
 from linebot.v3.exceptions import InvalidSignatureError
-from openai import AsyncOpenAI
 from tavily import TavilyClient
 from sentence_transformers import SentenceTransformer, util
 from tenacity import retry, stop_after_attempt, wait_exponential
@@ -34,14 +34,25 @@ def _require_env(var: str) -> str:
 CHANNEL_SECRET = _require_env("CHANNEL_SECRET")
 CHANNEL_ACCESS_TOKEN = _require_env("CHANNEL_ACCESS_TOKEN")
 TAVILY_API_KEY = _require_env("TAVILY_API_KEY")
-LLM_API_CONFIG = {
-    "base_url": os.getenv("LLM_BASE_URL", "https://litellm-ekkks8gsocw.dgx-coolify.apmic.ai/"),
-    "api_key": _require_env("OPENROUTER_API_KEY"),
-}
 LLM_MODEL_CONFIG = {
-    "model": os.getenv("LLM_MODEL", "gemini-3-pro"),
     "max_tokens": int(os.getenv("MAX_TOKENS", 4000)),
     "temperature": float(os.getenv("TEMPERATURE", 0.3)),
     "seed": int(os.getenv("LLM_SEED", 42)),
@@ -127,32 +138,61 @@ class ChatPipeline:
     def __init__(self):
         self.embedder = SentenceTransformer('all-MiniLM-L6-v2')
         self.llm_client = AsyncOpenAI(
-            api_key=LLM_API_CONFIG["api_key"],
-            base_url=LLM_API_CONFIG["base_url"],
             default_headers={
                 "HTTP-Referer": os.getenv("SITE_URL", "https://your-line-bot.example.com"),
                 "X-Title": os.getenv("SITE_NAME", "My LINE Bot"),
             }
         )
-    @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=10))
-    async def _llm_call(self, messages: List[Dict[str, str]], max_tokens: int = None) -> str:
-        token_est = estimate_tokens(messages)
-        if token_est > 50000:
-            raise ValueError("輸入過長")
-        response = await self.llm_client.chat.completions.create(
-            model=LLM_MODEL_CONFIG["model"],
-            messages=messages,
-            max_tokens=max_tokens or LLM_MODEL_CONFIG["max_tokens"],
-            temperature=LLM_MODEL_CONFIG["temperature"],
-            seed=LLM_MODEL_CONFIG["seed"],
-            timeout=120.0,
-        )
-        return response.choices[0].message.content or ""
     async def _needs_search(self, user_text: str, history: List[Dict[str, str]]) -> bool:
-        """輕量判斷是否需要網路搜尋"""
         router_prompt = [
             {"role": "system", "content": "你只需要判斷用戶問題是否需要最新的網路資訊來回答。"
                                         "如果是永恆知識（如聖經、數學原理、哲學、歷史經典等），回答 no。"
@@ -162,7 +202,9 @@ class ChatPipeline:
             {"role": "user", "content": user_text}
         ]
         try:
-            decision = (await self._llm_call(router_prompt, max_tokens=10)).strip().lower()
             print(f"搜尋需求判斷：{decision}（問題：{user_text}）")
             return decision == "yes"
         except Exception as e:
@@ -186,15 +228,13 @@ class ChatPipeline:
         history = self.get_conversation_history(user_id)
-        # ---- 新增：判斷是否需要搜尋 ----
         needs_search = await self._needs_search(user_text, history)
         search_results = None
         if needs_search:
-            # search is sync, but fast. Consider wrapping in to_thread if blocking is an issue.
             search_results = await asyncio.to_thread(perform_web_search, user_text)
-        # ---- 建構最終 prompt ----
         messages = [{"role": "system", "content": SYSTEM_PROMPT}]
         messages.extend(history)
         messages.append({"role": "user", "content": user_text})
@@ -202,10 +242,10 @@ class ChatPipeline:
         if search_results and "沒有找到" not in search_results and "錯誤" not in search_results:
             messages.append({"role": "system", "content": f"網路搜尋結果（僅在高度相關時使用）：{search_results}"})
-        response = await self._llm_call(messages)
         response = response.replace('*', '')
-        # 更新歷史（包含最終回應）
         history.append({"role": "user", "content": user_text})
         history.append({"role": "assistant", "content": response})
         self.update_conversation_history(user_id, history)
@@ -217,8 +257,12 @@ class ChatPipeline:
                 {"role": "system", "content": "請將以下內容生成一個簡潔但完整的中文摘要，保留關鍵事實和細節，長度控制在2000字元內。"},
                 {"role": "user", "content": response}
             ]
-            summary = (await self._llm_call(summary_prompt)).replace('*', '')
-            return summary + "\n\n(完整回應過長，已提供摘要。如需細節，請分次詢問或回覆「繼續」)"
         return response
@@ -259,7 +303,6 @@ async def line_webhook(request: Request):
             continue
         try:
-            # 處理「繼續」
             if user_text.lower() == "繼續" and user_id in pending_chunks:
                 remaining = pending_chunks[user_id]
                 if not remaining:
@@ -278,7 +321,6 @@ async def line_webhook(request: Request):
                     await line_bot_api.reply_message(ReplyMessageRequest(reply_token=reply_token, messages=messages_to_send))
                     continue
-            # 正常回應
             ai_response = await chat_pipeline.answer_question(user_id, user_text)
             chunks = split_text_for_line(ai_response)

 from linebot.v3.webhook import WebhookParser
 from linebot.v3.exceptions import InvalidSignatureError
+from openai import AsyncOpenAI, OpenAIError
 from tavily import TavilyClient
 from sentence_transformers import SentenceTransformer, util
 from tenacity import retry, stop_after_attempt, wait_exponential
 CHANNEL_SECRET = _require_env("CHANNEL_SECRET")
 CHANNEL_ACCESS_TOKEN = _require_env("CHANNEL_ACCESS_TOKEN")
 TAVILY_API_KEY = _require_env("TAVILY_API_KEY")
+OPENROUTER_API_KEY = _require_env("OPENROUTER_API_KEY")
+# OpenRouter 官方 endpoint
+LLM_BASE_URL = "https://openrouter.ai/api/v1"
+# 模型 fallback 順序（免費模型優先）
+FALLBACK_MODELS = [
+    "nvidia/nemotron-3-nano-30b-a3b:free",
+    "tngtech/tng-r1t-chimera:free",
+    "openai/gpt-oss-120b:free",
+    "meta-llama/llama-3.3-70b-instruct:free",
+    "tngtech/deepseek-r1t2-chimera:free",
+    "arcee-ai/trinity-large-preview:free",
+    "z-ai/glm-4.5-air:free",
+    "tngtech/deepseek-r1t-chimera:free",
+    "deepseek/deepseek-r1-0528:free",
+]
 LLM_MODEL_CONFIG = {
     "max_tokens": int(os.getenv("MAX_TOKENS", 4000)),
     "temperature": float(os.getenv("TEMPERATURE", 0.3)),
     "seed": int(os.getenv("LLM_SEED", 42)),
     def __init__(self):
         self.embedder = SentenceTransformer('all-MiniLM-L6-v2')
         self.llm_client = AsyncOpenAI(
+            api_key=OPENROUTER_API_KEY,
+            base_url=LLM_BASE_URL,
             default_headers={
                 "HTTP-Referer": os.getenv("SITE_URL", "https://your-line-bot.example.com"),
                 "X-Title": os.getenv("SITE_NAME", "My LINE Bot"),
             }
         )
+    async def _try_model(self, model: str, messages: List[Dict[str, str]], max_tokens: int = None) -> str:
+        """嘗試單一模型呼叫"""
+        try:
+            token_est = estimate_tokens(messages)
+            if token_est > 50000:
+                raise ValueError("輸入過長")
+            response = await self.llm_client.chat.completions.create(
+                model=model,
+                messages=messages,
+                max_tokens=max_tokens or LLM_MODEL_CONFIG["max_tokens"],
+                temperature=LLM_MODEL_CONFIG["temperature"],
+                seed=LLM_MODEL_CONFIG["seed"],
+                timeout=120.0,
+            )
+            content = response.choices[0].message.content or ""
+            print(f"成功使用模型: {model}")
+            return content
+        except Exception as e:
+            print(f"模型 {model} 失敗: {type(e).__name__} - {str(e)}")
+            raise  # 讓外層 retry 或 fallback 處理
+    @retry(stop=stop_after_attempt(3), wait=wait_exponential(multiplier=1, min=4, max=15))
+    async def _llm_call_with_fallback(self, messages: List[Dict[str, str]], max_tokens: int = None) -> str:
+        last_exception = None
+        for idx, model in enumerate(FALLBACK_MODELS, 1):
+            print(f"嘗試模型 {idx}/{len(FALLBACK_MODELS)}: {model}")
+            try:
+                return await self._try_model(model, messages, max_tokens)
+            except OpenAIError as e:
+                last_exception = e
+                if "rate limit" in str(e).lower() or "429" in str(e):
+                    print("遇到 rate limit，等待後重試同一模型...")
+                    continue  # rate limit 時重試同一模型
+                # 其他錯誤（例如 400, 401, 403, 404 等）→ 換下一個模型
+                continue
+            except Exception as e:
+                last_exception = e
+                continue
+        # 全部模型都失敗
+        error_msg = f"所有模型皆失敗，最後錯誤：{type(last_exception).__name__} - {str(last_exception)}"
+        print(error_msg)
+        return f"抱歉，目前無法連接到 AI 模型，請稍後再試。\n（錯誤：{error_msg[:200]}）"
     async def _needs_search(self, user_text: str, history: List[Dict[str, str]]) -> bool:
         router_prompt = [
             {"role": "system", "content": "你只需要判斷用戶問題是否需要最新的網路資訊來回答。"
                                         "如果是永恆知識（如聖經、數學原理、哲學、歷史經典等），回答 no。"
             {"role": "user", "content": user_text}
         ]
         try:
+            # 這裡用最輕量的模型來判斷是否需要搜尋
+            decision = await self._try_model(FALLBACK_MODELS[0], router_prompt, max_tokens=10)
+            decision = decision.strip().lower()
             print(f"搜尋需求判斷：{decision}（問題：{user_text}）")
             return decision == "yes"
         except Exception as e:
         history = self.get_conversation_history(user_id)
         needs_search = await self._needs_search(user_text, history)
         search_results = None
         if needs_search:
             search_results = await asyncio.to_thread(perform_web_search, user_text)
+        # 建構最終 prompt
         messages = [{"role": "system", "content": SYSTEM_PROMPT}]
         messages.extend(history)
         messages.append({"role": "user", "content": user_text})
         if search_results and "沒有找到" not in search_results and "錯誤" not in search_results:
             messages.append({"role": "system", "content": f"網路搜尋結果（僅在高度相關時使用）：{search_results}"})
+        response = await self._llm_call_with_fallback(messages)
         response = response.replace('*', '')
+        # 更新歷史
         history.append({"role": "user", "content": user_text})
         history.append({"role": "assistant", "content": response})
         self.update_conversation_history(user_id, history)
                 {"role": "system", "content": "請將以下內容生成一個簡潔但完整的中文摘要，保留關鍵事實和細節，長度控制在2000字元內。"},
                 {"role": "user", "content": response}
             ]
+            try:
+                summary = await self._llm_call_with_fallback(summary_prompt)
+                summary = summary.replace('*', '')
+                return summary + "\n\n(完整回應過長，已提供摘要。如需細節，請分次詢問或回覆「繼續」)"
+            except:
+                return response  # 摘要失敗就直接給完整內容
         return response
             continue
         try:
             if user_text.lower() == "繼續" and user_id in pending_chunks:
                 remaining = pending_chunks[user_id]
                 if not remaining:
                     await line_bot_api.reply_message(ReplyMessageRequest(reply_token=reply_token, messages=messages_to_send))
                     continue
             ai_response = await chat_pipeline.answer_question(user_id, user_text)
             chunks = split_text_for_line(ai_response)