Spaces:

Madras1
/

APIDOST

Sleeping

App Files Files Community

Madras1 commited on Dec 4, 2025

Commit

694a0f1

verified ·

1 Parent(s): d61ba2c

Update app.py

Browse files

Files changed (1) hide show

app.py +65 -24

app.py CHANGED Viewed

@@ -8,12 +8,14 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 from groq import Groq
 from mistralai import Mistral
 import google.generativeai as genai
 # --- CONFIGURAÇÕES ---
 LOCAL_MODEL_ID = "Qwen/Qwen2.5-Coder-32B-Instruct"
 local_model = None
 local_tokenizer = None
 groq_client = Groq(api_key=os.environ.get("GROQ_API_KEY")) if os.environ.get("GROQ_API_KEY") else None
 mistral_client = Mistral(api_key=os.environ.get("MISTRAL_API_KEY")) if os.environ.get("MISTRAL_API_KEY") else None
 if os.environ.get("GEMINI_API_KEY"):
@@ -27,25 +29,43 @@ def encode_image(image_path):
     except Exception:
         return None
 # --- BACKENDS ---
-@spaces.GPU(duration=60)
 def run_local_h200(messages):
     for m in messages:
         if isinstance(m['content'], list):
-             return "⚠️ Qwen H200 não suporta imagens. Use Gemini ou Pixtral."
     global local_model, local_tokenizer
     if local_model is None:
-        print(f"🐢 Carregando {LOCAL_MODEL_ID}...")
         local_tokenizer = AutoTokenizer.from_pretrained(LOCAL_MODEL_ID)
         local_model = AutoModelForCausalLM.from_pretrained(
-            LOCAL_MODEL_ID, torch_dtype=torch.bfloat16, device_map="cuda"
         )
     text = local_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     inputs = local_tokenizer([text], return_tensors="pt").to(local_model.device)
-    outputs = local_model.generate(**inputs, max_new_tokens=2048, temperature=0.6, do_sample=True)
     return local_tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
 def run_groq(messages, model_id):
@@ -112,7 +132,8 @@ def run_gemini(messages, model_id):
                     elif item.get('type') == 'image_url':
                         path = item['image_url']['url']
                         if os.path.exists(path): parts.append(Image.open(path))
-            chat_history.append({"role": role, "parts": parts})
         last_msg = messages[-1]
         current_parts = []
@@ -130,17 +151,32 @@ def run_gemini(messages, model_id):
         return response.text
     except Exception as e: return f"❌ Gemini Error ({model_id}): {e}"
-# --- ROTEADOR ---
 def router(message, history, model_selector):
     formatted_history = []
-    # Processa histórico
-    for user_turn, bot_turn in history:
-        u_text = str(user_turn)
-        if isinstance(user_turn, tuple): u_text = user_turn[0]
-        formatted_history.append({"role": "user", "content": u_text})
-        if bot_turn:
-            formatted_history.append({"role": "assistant", "content": str(bot_turn)})
     # Processa mensagem ATUAL
     current_content = []
@@ -161,9 +197,9 @@ def router(message, history, model_selector):
     # Roteamento
     if "Gemini" in model_selector:
         tid = "gemini-1.5-flash"
-        if "3.0" in model_selector: tid = "gemini-3.0-pro-preview"
-        elif "2.5 Pro" in model_selector: tid = "gemini-2.5-pro"
-        elif "2.5 Flash" in model_selector: tid = "gemini-2.5-flash"
         elif "2.0 Flash" in model_selector: tid = "gemini-2.0-flash-exp"
         return run_gemini(formatted_history, tid)
@@ -183,30 +219,35 @@ def router(message, history, model_selector):
     return "Modelo desconhecido."
-# --- INTERFACE (SEM TEMA - CORREÇÃO DE VERDADE) ---
-with gr.Blocks() as demo:  # <--- TEMA REMOVIDO AQUI
-    gr.Markdown("# 🔀 APIDOST (Safe Mode)")
     with gr.Row():
         model_dropdown = gr.Dropdown(
             choices=[
                 "✨ Google: Gemini 3.0 Pro (Experimental)",
                 "✨ Google: Gemini 2.5 Flash",
                 "☁️ Groq: Llama 3.3 70B",
                 "🇫🇷 Mistral: Pixtral Large (Vision) 🖼️",
                 "🇫🇷 Mistral: Large 2512 (Dez/25)",
-                "🔥 Local H200: Qwen 2.5 Coder"
             ],
-            value="🇫🇷 Mistral: Pixtral Large (Vision) 🖼️",
-            label="Cérebro",
             interactive=True
         )
     chat = gr.ChatInterface(
         fn=router,
         additional_inputs=[model_dropdown],
-        multimodal=True,
     )
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860)

 from groq import Groq
 from mistralai import Mistral
 import google.generativeai as genai
+from huggingface_hub import snapshot_download
 # --- CONFIGURAÇÕES ---
 LOCAL_MODEL_ID = "Qwen/Qwen2.5-Coder-32B-Instruct"
 local_model = None
 local_tokenizer = None
+# Clientes de API
 groq_client = Groq(api_key=os.environ.get("GROQ_API_KEY")) if os.environ.get("GROQ_API_KEY") else None
 mistral_client = Mistral(api_key=os.environ.get("MISTRAL_API_KEY")) if os.environ.get("MISTRAL_API_KEY") else None
 if os.environ.get("GEMINI_API_KEY"):
     except Exception:
         return None
+# --- FUNÇÃO DE DOWNLOAD PREVENTIVO ---
+def download_local_model():
+    print(f"⏳ Berta: Baixando {LOCAL_MODEL_ID} para o cache...")
+    try:
+        snapshot_download(repo_id=LOCAL_MODEL_ID)
+        print("✅ Download concluído!")
+    except Exception as e:
+        print(f"⚠️ Aviso: Falha no pré-download: {e}")
 # --- BACKENDS ---
+@spaces.GPU(duration=120)
 def run_local_h200(messages):
     for m in messages:
         if isinstance(m['content'], list):
+             return "⚠️ Qwen H200 (Local) não suporta imagens. Use Gemini ou Pixtral."
     global local_model, local_tokenizer
     if local_model is None:
+        print(f"🐢 Carregando {LOCAL_MODEL_ID} na VRAM H200...")
         local_tokenizer = AutoTokenizer.from_pretrained(LOCAL_MODEL_ID)
         local_model = AutoModelForCausalLM.from_pretrained(
+            LOCAL_MODEL_ID,
+            torch_dtype=torch.bfloat16,
+            device_map="cuda"
         )
     text = local_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     inputs = local_tokenizer([text], return_tensors="pt").to(local_model.device)
+    outputs = local_model.generate(
+        **inputs,
+        max_new_tokens=4096,
+        temperature=0.6,
+        do_sample=True
+    )
     return local_tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
 def run_groq(messages, model_id):
                     elif item.get('type') == 'image_url':
                         path = item['image_url']['url']
                         if os.path.exists(path): parts.append(Image.open(path))
+            if parts:
+                chat_history.append({"role": role, "parts": parts})
         last_msg = messages[-1]
         current_parts = []
         return response.text
     except Exception as e: return f"❌ Gemini Error ({model_id}): {e}"
+# --- ROTEADOR (AGORA BLINDADO!) ---
 def router(message, history, model_selector):
     formatted_history = []
+    # --- BERTA FIX: Tratamento Universal de Histórico ---
+    # Isso resolve o erro "too many values to unpack"
+    for turn in history:
+        # CASO 1: Formato Antigo [[user, bot]]
+        if isinstance(turn, (list, tuple)) and len(turn) >= 2:
+             user_content = turn[0]
+             bot_content = turn[1]
+             # Extrai texto se for complexo
+             if isinstance(user_content, dict) and 'text' in user_content:
+                 user_content = user_content['text']
+             formatted_history.append({"role": "user", "content": str(user_content)})
+             if bot_content:
+                 formatted_history.append({"role": "assistant", "content": str(bot_content)})
+        # CASO 2: Formato Novo/Messages (Dicionário)
+        elif isinstance(turn, dict):
+             # Já está no formato certo, só copiamos
+             formatted_history.append(turn)
+    # --- FIM DO FIX ---
     # Processa mensagem ATUAL
     current_content = []
     # Roteamento
     if "Gemini" in model_selector:
         tid = "gemini-1.5-flash"
+        if "3.0" in model_selector: tid = "gemini-3.0-pro-preview"
+        elif "2.5 Pro" in model_selector: tid = "gemini-2.5-pro"
+        elif "2.5 Flash" in model_selector: tid = "gemini-2.5-flash"
         elif "2.0 Flash" in model_selector: tid = "gemini-2.0-flash-exp"
         return run_gemini(formatted_history, tid)
     return "Modelo desconhecido."
+# --- INTERFACE ---
+with gr.Blocks() as demo:
+    gr.Markdown("# 🔀 APIDOST (Robust Mode)")
     with gr.Row():
         model_dropdown = gr.Dropdown(
             choices=[
                 "✨ Google: Gemini 3.0 Pro (Experimental)",
+                "✨ Google: Gemini 2.5 Pro",
                 "✨ Google: Gemini 2.5 Flash",
+                "✨ Google: Gemini 2.0 Flash",
                 "☁️ Groq: Llama 3.3 70B",
                 "🇫🇷 Mistral: Pixtral Large (Vision) 🖼️",
                 "🇫🇷 Mistral: Large 2512 (Dez/25)",
+                "🇫🇷 Mistral: Magistral Medium",
+                "🇫🇷 Mistral: Codestral 2508",
+                "🔥 Local H200: Qwen 2.5 Coder 32B"
             ],
+            value="🔥 Local H200: Qwen 2.5 Coder 32B",
+            label="Cérebro Escolhido",
             interactive=True
         )
     chat = gr.ChatInterface(
         fn=router,
         additional_inputs=[model_dropdown],
+        multimodal=True,
     )
 if __name__ == "__main__":
+    download_local_model()
     demo.launch(server_name="0.0.0.0", server_port=7860)