Spaces:

Madras1
/

APISMALL

Running on Zero

App Files Files Community

Madras1 commited on Dec 3, 2025

Commit

d5dac55

verified ·

1 Parent(s): d6f2e7c

Update app.py

Browse files

Files changed (1) hide show

app.py +9 -17

app.py CHANGED Viewed

@@ -4,20 +4,17 @@ import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
 # --- CONFIGURAÇÃO DOS MODELOS ---
-# IDs Oficiais do Hugging Face
 MODELS = {
-    "deepseek": "deepseek-ai/deepseek-math-7b-instruct",
-    "llama3": "meta-llama/Meta-Llama-3-8B-Instruct",
-    "gemma2": "google/gemma-2-9b-it"
 }
 # --- VARIÁVEIS GLOBAIS (CACHE NA VRAM) ---
-# Vamos guardar tudo na memória da H200
 loaded_models = {}
 loaded_tokenizers = {}
 def get_model_and_tokenizer(model_key):
-    """Carrega o modelo na VRAM apenas se ainda não estiver lá."""
     global loaded_models, loaded_tokenizers
     if model_key not in loaded_models:
@@ -27,7 +24,7 @@ def get_model_and_tokenizer(model_key):
         tokenizer = AutoTokenizer.from_pretrained(model_id)
         model = AutoModelForCausalLM.from_pretrained(
             model_id,
-            torch_dtype=torch.bfloat16, # BF16 economiza memória e é rápido na H200
             device_map="cuda"
         )
@@ -38,9 +35,8 @@ def get_model_and_tokenizer(model_key):
     return loaded_models[model_key], loaded_tokenizers[model_key]
 # --- FUNÇÃO DE GERAÇÃO (ZEROGPU) ---
-@spaces.GPU(duration=120) # 2 min é seguro para respostas longas de matemática
 def generate(message, history, model_selector):
-    # Identifica qual modelo o usuário quer
     if "DeepSeek" in model_selector:
         key = "deepseek"
     elif "Llama" in model_selector:
@@ -48,19 +44,16 @@ def generate(message, history, model_selector):
     elif "Gemma" in model_selector:
         key = "gemma2"
     else:
-        key = "deepseek" # Padrão
     model, tokenizer = get_model_and_tokenizer(key)
-    # Formata o prompt (Cada modelo tem seu jeito, mas o tokenizer resolve)
-    # Convertendo histórico para formato de lista de dicts
     messages = []
     for user_msg, bot_msg in history:
         if user_msg: messages.append({"role": "user", "content": user_msg})
         if bot_msg: messages.append({"role": "assistant", "content": bot_msg})
     messages.append({"role": "user", "content": message})
-    # Aplica o template de chat correto para o modelo
     text = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
@@ -69,8 +62,6 @@ def generate(message, history, model_selector):
     inputs = tokenizer([text], return_tensors="pt").to(model.device)
-    # Gera a resposta
-    # Max tokens alto pq matemática exige passo-a-passo
     outputs = model.generate(
         **inputs,
         max_new_tokens=2048,
@@ -81,8 +72,9 @@ def generate(message, history, model_selector):
     response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
     return response
-# --- INTERFACE GRADIO ---
-with gr.Blocks(theme=gr.themes.Soft()) as demo:
     gr.Markdown("# 🧮 Módulo Matemático & Lógico (H200)")
     with gr.Row():

 from transformers import AutoModelForCausalLM, AutoTokenizer
 # --- CONFIGURAÇÃO DOS MODELOS ---
 MODELS = {
+    "deepseek": "deepseek-ai/deepseek-math-7b-instruct",
+    "llama3": "meta-llama/Meta-Llama-3-8B-Instruct",
+    "gemma2": "google/gemma-2-9b-it"
 }
 # --- VARIÁVEIS GLOBAIS (CACHE NA VRAM) ---
 loaded_models = {}
 loaded_tokenizers = {}
 def get_model_and_tokenizer(model_key):
     global loaded_models, loaded_tokenizers
     if model_key not in loaded_models:
         tokenizer = AutoTokenizer.from_pretrained(model_id)
         model = AutoModelForCausalLM.from_pretrained(
             model_id,
+            torch_dtype=torch.bfloat16,
             device_map="cuda"
         )
     return loaded_models[model_key], loaded_tokenizers[model_key]
 # --- FUNÇÃO DE GERAÇÃO (ZEROGPU) ---
+@spaces.GPU(duration=120)
 def generate(message, history, model_selector):
     if "DeepSeek" in model_selector:
         key = "deepseek"
     elif "Llama" in model_selector:
     elif "Gemma" in model_selector:
         key = "gemma2"
     else:
+        key = "deepseek"
     model, tokenizer = get_model_and_tokenizer(key)
     messages = []
     for user_msg, bot_msg in history:
         if user_msg: messages.append({"role": "user", "content": user_msg})
         if bot_msg: messages.append({"role": "assistant", "content": bot_msg})
     messages.append({"role": "user", "content": message})
     text = tokenizer.apply_chat_template(
         messages,
         tokenize=False,
     inputs = tokenizer([text], return_tensors="pt").to(model.device)
     outputs = model.generate(
         **inputs,
         max_new_tokens=2048,
     response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
     return response
+# --- INTERFACE GRADIO (SEM TEMA PARA NÃO DAR ERRO) ---
+# Mudei aqui: Tirei o theme=gr.themes.Soft()
+with gr.Blocks() as demo:
     gr.Markdown("# 🧮 Módulo Matemático & Lógico (H200)")
     with gr.Row():