Spaces:

cntalk
/

hermes

Sleeping

App Files Files Community

cntalk commited on 23 days ago

Commit

bb3d2f3

verified ·

1 Parent(s): 57e1d20

Update: Switch to OpenRouter API with free models

Browse files

Files changed (1) hide show

app.py +158 -128

app.py CHANGED Viewed

@@ -1,132 +1,159 @@
 """
-Hermes HF Space - Multi-Model AI Hub
-多模型对比助手：同时调用多个开源模型，对比回答质量
 """
 import gradio as gr
 import os
-from typing import Optional
 import time
-# HF Inference API (免费 tier)
-HF_TOKEN = os.getenv("HF_TOKEN", "")
-if not HF_TOKEN:
-    # 尝试从环境变量读取，token 在 secrets 中配置
-    pass
-def call_hf_inference(model_id: str, prompt: str, max_tokens: int = 256) -> str:
-    """调用 HF Inference API"""
-    import requests
-    headers = {"Authorization": f"Bearer {HF_TOKEN}"} if HF_TOKEN else {}
-    # 不同模型的 API 格式
-    if "mistral" in model_id.lower() or "llama" in model_id.lower() or "qwen" in model_id.lower():
-        # Chat models
-        api_url = f"https://router.huggingface.co/hf-inference/models/{model_id}"
-        payload = {
-            "inputs": prompt,
-            "parameters": {"max_new_tokens": max_tokens, "return_full_text": False}
-        }
-    else:
-        # Text generation models
-        api_url = f"https://router.huggingface.co/hf-inference/models/{model_id}"
-        payload = {
-            "inputs": prompt,
-            "parameters": {"max_new_tokens": max_tokens}
-        }
-    try:
-        resp = requests.post(api_url, json=payload, headers=headers, timeout=60)
-        if resp.status_code == 200:
-            result = resp.json()
-            if isinstance(result, list) and len(result) > 0:
-                return result[0].get("generated_text", str(result[0]))
-            return str(result)
-        elif resp.status_code == 429:
-            return "⚠️ Rate limit exceeded. Please wait a moment."
-        elif resp.status_code == 403:
-            return "⚠️ Model requires additional permissions. Visit the model page to accept terms."
-        else:
-            return f"⚠️ Error {resp.status_code}: {resp.text[:200]}"
-    except Exception as e:
-        return f"⚠️ Request failed: {str(e)[:100]}"
-def chat_with_model(model_id: str, prompt: str, system: str = "") -> str:
-    """带系统提示的对话"""
-    full_prompt = f"{system}\n\nUser: {prompt}\n\nAssistant:" if system else prompt
-    return call_hf_inference(model_id, full_prompt, max_tokens=384)
-# 预设模型列表（免费 tier 可用的优质小模型）
 MODELS = {
-    "🦙 Llama 3.2-3B (Instruct)": "meta-llama/Llama-3.2-3B-Instruct",
-    "🔮 Qwen2.5-7B (Instruct)": "Qwen/Qwen2.5-7B-Instruct",
-    "🤖 Gemma 2-2B (Instruct)": "google/gemma-2-2b-it",
-    "⚡ Mistral-7B (Instruct)": "mistralai/Mistral-7B-Instruct-v0.3",
-    "🌟 StarCoder2-3B": "bigcode/starcoder2-3b",
-    "💬 ChatGLM3-6B": "THUDM/chatglm3-6b",
 }
 SYSTEM_PROMPTS = {
     "Default": "",
     "Code Assistant": "You are an expert programmer. Write clean, efficient code with brief explanations.",
-    " 中文助手": "你是一个有帮助的中文AI助手，用简洁清晰的语言回答。",
     "Summarizer": "You are a text summarization expert. Provide concise, accurate summaries.",
     "Creative Writer": "You are a creative writer. Write engaging, imaginative content.",
 }
-def format_response(model_name: str, response: str, elapsed: float) -> str:
     emoji = "✅" if not response.startswith("⚠️") else "⚠️"
-    return f"{emoji} **{model_name}** ({elapsed:.1f}s)\n{response}\n"
 def compare_models(user_input: str, model_keys: list, system_key: str = "Default"):
     """对比多个模型的回答"""
     if not user_input.strip():
         return "⚠️ Please enter a message."
     system = SYSTEM_PROMPTS.get(system_key, "")
     results = []
     for key in model_keys:
-        model_id = MODELS.get(key)
-        if not model_id:
             continue
-        start = time.time()
-        response = chat_with_model(model_id, user_input, system)
-        elapsed = time.time() - start
-        results.append(format_response(key, response, elapsed))
     if not results:
         return "⚠️ Please select at least one model."
     return "\n---\n".join(results)
 def single_chat(model_key: str, user_input: str, system_key: str, history: list):
     """单模型对话（带历史）"""
     if not user_input.strip():
         return history, ""
-    model_id = MODELS.get(model_key, "")
     system = SYSTEM_PROMPTS.get(system_key, "")
-    start = time.time()
-    response = chat_with_model(model_id, user_input, system)
-    elapsed = time.time() - start
-    history.append((user_input, f"{response}\n\n⏱️ Response time: {elapsed:.1f}s"))
     return history, ""
 # Gradio UI
-with gr.Blocks(title="Hermes HF Hub", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
-    # 🐠 Hermes HF Hub
     ### 多模型 AI 助手 — 同时对比多个开源模型的回答
-    支持模型: Llama 3.2 / Qwen2.5 / Gemma 2 / Mistral 7B / StarCoder2 / ChatGLM3
     """)
     with gr.Tabs():
         with gr.TabItem("🔍 模型对比"):
             with gr.Row():
@@ -134,51 +161,52 @@ with gr.Blocks(title="Hermes HF Hub", theme=gr.themes.Soft()) as demo:
                     user_input = gr.Textbox(
                         label="✏️ 输入问题",
                         placeholder="例如: 解释一下什么是transformer架构",
-                        lines=4
                     )
                     with gr.Row():
                         system_dropdown = gr.Dropdown(
                             choices=list(SYSTEM_PROMPTS.keys()),
                             value="Default",
-                            label="系统提示"
                         )
-                        compare_btn = gr.Button("🚀 对比所有模型", variant="primary")
                     gr.Markdown("**选择要对比的模型：**")
                     model_checkboxes = gr.CheckboxGroup(
-                        choices=list(MODELS.keys()),
-                        value=[list(MODELS.keys())[0], list(MODELS.keys())[1]],
-                        interactive=True
                     )
                 with gr.Column(scale=3):
                     output = gr.Markdown("""
-                    *选择模型后点击「对比所有模型」开始分析*
                     每个模型独立回答，可对比：
                     - 回答质量与风格
                     - 响应速度
-                    - 对中文/英文/代码的处理能力
                     """)
             compare_btn.click(
                 fn=compare_models,
                 inputs=[user_input, model_checkboxes, system_dropdown],
-                outputs=output
             )
         with gr.TabItem("💬 单模型对话"):
             with gr.Row():
                 with gr.Column(scale=1):
                     model_select = gr.Dropdown(
-                        choices=list(MODELS.keys()),
-                        value=list(MODELS.keys())[0],
-                        label="选择模型"
                     )
                     system_s = gr.Dropdown(
                         choices=list(SYSTEM_PROMPTS.keys()),
                         value="Default",
-                        label="系统提示"
                     )
                 with gr.Column(scale=3):
                     chat_history = gr.Chatbot(label="对话历史", height=400)
@@ -186,38 +214,40 @@ with gr.Blocks(title="Hermes HF Hub", theme=gr.themes.Soft()) as demo:
                         msg_input = gr.Textbox(
                             placeholder="输入消息...",
                             scale=4,
-                            lines=2
                         )
                         send_btn = gr.Button("发送", variant="primary", scale=1)
             def on_send(msg, history):
                 return single_chat(model_select.value, msg, system_s.value, history)
-            send_btn.click(fn=on_send, inputs=[msg_input, chat_history], outputs=[chat_history, msg_input])
-            msg_input.submit(fn=on_send, inputs=[msg_input, chat_history], outputs=[chat_history, msg_input])
         with gr.TabItem("ℹ️ 关于"):
             gr.Markdown("""
-            ## 🐠 Hermes HF Hub
             **功能：**
-            - 🔍 多模型对比：一次提问，同时获得 6 个模型的回答
             - 💬 单模型对话：深入对话某一特定模型
-            - 🌐 中英文支持：多语言模型覆盖
-            **支持的模型：**
-            | 模型 | 参数量 | 特点 |
-            |------|--------|------|
-            | Llama 3.2 | 3B | 高质量对话，资源友好 |
-            | Qwen2.5 | 7B | 中文强项，知识面广 |
-            | Gemma 2 | 2B | 轻量快速 |
-            | Mistral 7B | 7B | 欧洲劲旅，效果出色 |
-            | StarCoder2 | 3B | 代码专用 |
-            | ChatGLM3 | 6B | 中文原生，推理快 |
-            **限制：** 免费 tier 有速率限制，高频使用请考虑升级。
-            Powered by [Hugging Face Inference API](https://huggingface.co/inference-endpoints)
             """)
 # 启动

 """
+Hermes HF Space - Multi-Model AI Hub (OpenRouter Edition)
+多模型对比助手：使用 OpenRouter 免费模型
 """
 import gradio as gr
 import os
 import time
+import requests
+# OpenRouter 配置
+OPENROUTER_API_KEY = os.environ.get("OPENROUTER_API_KEY", "")
+OPENROUTER_BASE_URL = "https://openrouter.ai/api/v1/chat/completions"
+# 预设模型列表（OpenRouter 免费模型）
 MODELS = {
+    "🦙 Llama 3.3 70B (free)": {
+        "id": "meta-llama/llama-3.3-70b-instruct:free",
+        "name": "🦙 Llama 3.3 70B",
+        "context": "66K",
+    },
+    "🤖 NVIDIA Nemotron 120B (free)": {
+        "id": "nvidia/nemotron-3-super-120b-a12b:free",
+        "name": "🤖 NVIDIA Nemotron 120B",
+        "context": "1M",
+    },
+    "🧠 Nous Hermes 3 405B (free)": {
+        "id": "nousresearch/hermes-3-llama-3.1-405b:free",
+        "name": "🧠 Nous Hermes 3 405B",
+        "context": "128K",
+    },
+    "🔧 CoBuddy Code (free)": {
+        "id": "baidu/cobuddy:free",
+        "name": "🔧 CoBuddy (百度代码模型)",
+        "context": "131K",
+    },
 }
 SYSTEM_PROMPTS = {
     "Default": "",
     "Code Assistant": "You are an expert programmer. Write clean, efficient code with brief explanations.",
+    "中文助手": "你是一个有帮助的中文AI助手，用简洁清晰的语言回答。",
     "Summarizer": "You are a text summarization expert. Provide concise, accurate summaries.",
     "Creative Writer": "You are a creative writer. Write engaging, imaginative content.",
 }
+def call_openrouter(model_id: str, prompt: str, max_tokens: int = 384, system: str = "") -> tuple[str, float]:
+    """调用 OpenRouter API"""
+    if not OPENROUTER_API_KEY:
+        return "⚠️ API key not configured. Please set OPENROUTER_API_KEY in Space secrets.", 0.0
+    headers = {
+        "Authorization": f"Bearer {OPENROUTER_API_KEY}",
+        "Content-Type": "application/json",
+        "HTTP-Referer": "https://cntalk-hermes.hf.space",
+        "X-Title": "Hermes OpenRouter Hub",
+    }
+    messages = []
+    if system:
+        messages.append({"role": "system", "content": system})
+    messages.append({"role": "user", "content": prompt})
+    payload = {
+        "model": model_id,
+        "messages": messages,
+        "max_tokens": max_tokens,
+        "temperature": 0.7,
+    }
+    try:
+        start = time.time()
+        resp = requests.post(
+            OPENROUTER_BASE_URL,
+            headers=headers,
+            json=payload,
+            timeout=90,
+        )
+        elapsed = time.time() - start
+        if resp.status_code == 200:
+            result = resp.json()
+            content = result["choices"][0]["message"]["content"]
+            return content, elapsed
+        elif resp.status_code == 429:
+            return "⚠️ Rate limit exceeded. Please wait a moment or try a different model.", elapsed
+        else:
+            error_msg = resp.json().get("error", {}).get("message", resp.text[:150])
+            return f"⚠️ Error {resp.status_code}: {error_msg}", elapsed
+    except Exception as e:
+        return f"⚠️ Request failed: {str(e)[:100]}", 0.0
+def format_response(model_name: str, context: str, response: str, elapsed: float) -> str:
     emoji = "✅" if not response.startswith("⚠️") else "⚠️"
+    return f"{emoji} **{model_name}** [ctx:{context}] ({elapsed:.1f}s)\n{response}\n"
 def compare_models(user_input: str, model_keys: list, system_key: str = "Default"):
     """对比多个模型的回答"""
     if not user_input.strip():
         return "⚠️ Please enter a message."
     system = SYSTEM_PROMPTS.get(system_key, "")
     results = []
     for key in model_keys:
+        model = MODELS.get(key)
+        if not model:
             continue
+        model_id = model["id"]
+        model_name = model["name"]
+        model_context = model["context"]
+        response, elapsed = call_openrouter(model_id, user_input, system=system)
+        results.append(format_response(model_name, model_context, response, elapsed))
     if not results:
         return "⚠️ Please select at least one model."
     return "\n---\n".join(results)
 def single_chat(model_key: str, user_input: str, system_key: str, history: list):
     """单模型对话（带历史）"""
     if not user_input.strip():
         return history, ""
+    model = MODELS.get(model_key, {})
+    model_id = model.get("id", "")
     system = SYSTEM_PROMPTS.get(system_key, "")
+    # 构建带历史的 prompt
+    prompt = ""
+    for h_user, h_bot in history:
+        prompt += f"User: {h_user}\nAssistant: {h_bot}\n"
+    prompt += f"User: {user_input}"
+    response, elapsed = call_openrouter(model_id, prompt, system=system)
+    history.append((user_input, f"{response}\n\n⏱️ {elapsed:.1f}s"))
     return history, ""
 # Gradio UI
+with gr.Blocks(title="Hermes OpenRouter Hub", theme=gr.themes.Soft()) as demo:
     gr.Markdown("""
+    # 🐠 Hermes OpenRouter Hub
     ### 多模型 AI 助手 — 同时对比多个开源模型的回答
+    基于 OpenRouter API，支持 Llama 3.3 / Nemotron / Hermes 3 等免费模型
+    ⚠️ 免费模型有速率限制，如遇报错稍后重试即可
     """)
     with gr.Tabs():
         with gr.TabItem("🔍 模型对比"):
             with gr.Row():
                     user_input = gr.Textbox(
                         label="✏️ 输入问题",
                         placeholder="例如: 解释一下什么是transformer架构",
+                        lines=4,
                     )
                     with gr.Row():
                         system_dropdown = gr.Dropdown(
                             choices=list(SYSTEM_PROMPTS.keys()),
                             value="Default",
+                            label="系统提示",
                         )
+                        compare_btn = gr.Button("🚀 对比模型", variant="primary")
                     gr.Markdown("**选择要对比的模型：**")
                     model_checkboxes = gr.CheckboxGroup(
+                        choices=[(v["name"], k) for k, v in MODELS.items()],
+                        value=["🦙 Llama 3.3 70B (free)", "🤖 NVIDIA Nemotron 120B (free)"],
+                        interactive=True,
                     )
                 with gr.Column(scale=3):
                     output = gr.Markdown("""
+                    *选择模型后点击「对比模型」开始分析*
                     每个模型独立回答，可对比：
                     - 回答质量与风格
                     - 响应速度
+                    - Context 长度差异
+                    💡 免费模型有并发限制，高频使用建议错峰
                     """)
             compare_btn.click(
                 fn=compare_models,
                 inputs=[user_input, model_checkboxes, system_dropdown],
+                outputs=output,
             )
         with gr.TabItem("💬 单模型对话"):
             with gr.Row():
                 with gr.Column(scale=1):
                     model_select = gr.Dropdown(
+                        choices=[(v["name"], k) for k, v in MODELS.items()],
+                        value="🦙 Llama 3.3 70B (free)",
+                        label="选择模型",
                     )
                     system_s = gr.Dropdown(
                         choices=list(SYSTEM_PROMPTS.keys()),
                         value="Default",
+                        label="系统提示",
                     )
                 with gr.Column(scale=3):
                     chat_history = gr.Chatbot(label="对话历史", height=400)
                         msg_input = gr.Textbox(
                             placeholder="输入消息...",
                             scale=4,
+                            lines=2,
                         )
                         send_btn = gr.Button("发送", variant="primary", scale=1)
             def on_send(msg, history):
                 return single_chat(model_select.value, msg, system_s.value, history)
+            send_btn.click(
+                fn=on_send, inputs=[msg_input, chat_history], outputs=[chat_history, msg_input]
+            )
+            msg_input.submit(
+                fn=on_send, inputs=[msg_input, chat_history], outputs=[chat_history, msg_input]
+            )
         with gr.TabItem("ℹ️ 关于"):
             gr.Markdown("""
+            ## 🐠 Hermes OpenRouter Hub
             **功能：**
+            - 🔍 多模型对比：一次提问，同时获得多个模型的回答
             - 💬 单模型对话：深入对话某一特定模型
+            - 🌐 中英文支持
+            **支持的免费模型：**
+            | 模型 | 参数量 | Context | 特点 |
+            |------|--------|---------|------|
+            | Llama 3.3 70B | 70B | 66K | 高质量多语言 |
+            | NVIDIA Nemotron 120B | 120B MoE | 1M | 超长上下文 |
+            | Nous Hermes 3 405B | 405B | 128K | 超大模型 |
+            | CoBuddy | 1.44B | 131K | 代码专用，百度 |
+            **限制：** 免费 tier 有速率限制，高频使用请考虑升级或自备 key。
+            Powered by [OpenRouter](https://openrouter.ai)
             """)
 # 启动