Spaces:

Madras1
/

APIDOST

Sleeping

App Files Files Community

Madras1 commited on Dec 2, 2025

Commit

7c69d42

verified ·

1 Parent(s): 3d6a4cc

Update app.py

Browse files

Files changed (1) hide show

app.py +36 -20

app.py CHANGED Viewed

@@ -10,16 +10,15 @@ LOCAL_MODEL_ID = "Qwen/Qwen2.5-Coder-32B-Instruct"
 local_model = None
 local_tokenizer = None
-# Cliente Groq (LPU Nuvem)
 api_key = os.environ.get("GROQ_API_KEY")
 groq_client = Groq(api_key=api_key) if api_key else None
-# --- FUNÇÃO 1: H200 (ZeroGPU) ---
 @spaces.GPU(duration=60)
 def run_local_h200(messages):
     global local_model, local_tokenizer
-    # Se a cota acabou, isso aqui vai dar erro "GPU task aborted"
     if local_model is None:
         print(f"🐢 Cold Start: Carregando {LOCAL_MODEL_ID}...")
         local_tokenizer = AutoTokenizer.from_pretrained(LOCAL_MODEL_ID)
@@ -31,14 +30,20 @@ def run_local_h200(messages):
     text = local_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     inputs = local_tokenizer([text], return_tensors="pt").to(local_model.device)
-    outputs = local_model.generate(**inputs, max_new_tokens=2048, temperature=0.6, do_sample=True)
     return local_tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
-# --- FUNÇÃO 2: GROQ (Nuvem - SALVA VIDAS) ---
 def run_groq(messages, model_id):
     if not groq_client:
-        return "❌ Erro: Chave GROQ_API_KEY não configurada. Adicione nos Secrets."
     try:
         completion = groq_client.chat.completions.create(
             model=model_id,
@@ -51,42 +56,53 @@ def run_groq(messages, model_id):
         )
         return completion.choices[0].message.content
     except Exception as e:
-        return f"❌ Erro no Groq: {str(e)}"
 # --- ROTEADOR ---
 def router(message, history, model_selector):
     messages = []
     for user_msg, bot_msg in history:
         if user_msg: messages.append({"role": "user", "content": user_msg})
         if bot_msg: messages.append({"role": "assistant", "content": bot_msg})
     messages.append({"role": "user", "content": message})
     if "H200" in model_selector:
         return run_local_h200(messages)
-    elif "openai/gpt-oss-120b" in model_selector:
-        return run_groq(messages, "openai/gpt-oss-120b")
     elif "Llama 3.1 8B" in model_selector:
         return run_groq(messages, "llama-3.1-8b-instant")
-    elif "openai/gpt-oss-20b" in model_selector:
-        return run_groq(messages, "openai/gpt-oss-20b")
     else:
-        return "⚠️ Modelo não reconhecido."
 # --- INTERFACE ---
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
-    gr.Markdown("# 🔀 APIDOST Router")
     with gr.Row():
         model_dropdown = gr.Dropdown(
             choices=[
-                "☁️ Groq: Llama 3.1 70B (Rápido)",
-                "☁️ Groq: Llama 3.1 8B (Flash)",
                 "🔥 Local H200: Qwen 2.5 Coder 32B (Gasta Cota!)"
             ],
-            value="☁️ Groq: Llama 3.1 70B (Rápido)",
-            label="Escolha o Cérebro"
         )
-    chat = gr.ChatInterface(fn=router, additional_inputs=[model_dropdown])
 if __name__ == "__main__":
-    # SEM ARGUMENTOS EXTRAS! Deixa o HF lidar com o CORS.
     demo.launch()

 local_model = None
 local_tokenizer = None
+# Cliente Groq
 api_key = os.environ.get("GROQ_API_KEY")
 groq_client = Groq(api_key=api_key) if api_key else None
+# --- FUNÇÃO 1: H200 (ZeroGPU - Cota Limitada) ---
 @spaces.GPU(duration=60)
 def run_local_h200(messages):
     global local_model, local_tokenizer
     if local_model is None:
         print(f"🐢 Cold Start: Carregando {LOCAL_MODEL_ID}...")
         local_tokenizer = AutoTokenizer.from_pretrained(LOCAL_MODEL_ID)
     text = local_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
     inputs = local_tokenizer([text], return_tensors="pt").to(local_model.device)
+    outputs = local_model.generate(
+        **inputs,
+        max_new_tokens=2048,
+        temperature=0.6,
+        do_sample=True
+    )
     return local_tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
+# --- FUNÇÃO 2: GROQ (Nuvem - Rápido e Grátis) ---
 def run_groq(messages, model_id):
     if not groq_client:
+        return "❌ Erro: Chave GROQ_API_KEY não configurada nos Secrets."
     try:
         completion = groq_client.chat.completions.create(
             model=model_id,
         )
         return completion.choices[0].message.content
     except Exception as e:
+        return f"❌ Erro na Groq: {str(e)}"
 # --- ROTEADOR ---
 def router(message, history, model_selector):
+    # Converte histórico
     messages = []
     for user_msg, bot_msg in history:
         if user_msg: messages.append({"role": "user", "content": user_msg})
         if bot_msg: messages.append({"role": "assistant", "content": bot_msg})
     messages.append({"role": "user", "content": message})
+    # Lógica baseada no SEU PRINT da Groq
     if "H200" in model_selector:
         return run_local_h200(messages)
+    # ATUALIZADO PARA LLAMA 3.3 (O novo do seu print)
+    elif "Llama 3.3 70B" in model_selector:
+        return run_groq(messages, "llama-3.3-70b-versatile")
     elif "Llama 3.1 8B" in model_selector:
         return run_groq(messages, "llama-3.1-8b-instant")
     else:
+        return "⚠️ Modelo não reconhecido. Verifique o dropdown."
 # --- INTERFACE ---
 with gr.Blocks(theme=gr.themes.Soft()) as demo:
+    gr.Markdown("# 🔀 APIDOST Router V2")
     with gr.Row():
         model_dropdown = gr.Dropdown(
             choices=[
+                "☁️ Groq: Llama 3.3 70B (Novo & Versátil)",
+                "☁️ Groq: Llama 3.1 8B (Flash - Instantâneo)",
                 "🔥 Local H200: Qwen 2.5 Coder 32B (Gasta Cota!)"
             ],
+            value="☁️ Groq: Llama 3.3 70B (Novo & Versátil)",
+            label="Escolha o Cérebro",
+            interactive=True
         )
+    # Isso cria automaticamente o endpoint /chat
+    chat = gr.ChatInterface(
+        fn=router,
+        additional_inputs=[model_dropdown]
+    )
 if __name__ == "__main__":
+    # SEM parâmetros extras. Isso corrige o erro de inicialização.
     demo.launch()