Spaces:

plvictor
/

Phi3Mini

Sleeping

App Files Files Community

plvictor commited on Aug 4, 2025

Commit

a350083

verified ·

1 Parent(s): ea3162a

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -60

app.py CHANGED Viewed

@@ -1,12 +1,15 @@
 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
-# TinyLlama - apenas 2.2GB, muito rápido no free tier
 MODEL_NAME = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
 print("Carregando TinyLlama 1.1B...")
-print("Este modelo é muito mais eficiente para o plano gratuito!")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
@@ -20,23 +23,24 @@ model = AutoModelForCausalLM.from_pretrained(
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
-print("Modelo carregado com sucesso!")
-def generate_response(message, max_tokens=300, temperature=0.8):
     try:
-        # Template específico do TinyLlama
-        prompt = f"<|system|>\nVocê é um assistente útil e amigável. Responda em português quando possível.<|user|>\n{message}<|assistant|>\n"
         # Tokenizar
         inputs = tokenizer(
             prompt,
             return_tensors="pt",
             truncation=True,
-            max_length=1500,
             padding=False
         )
-        # Gerar resposta
         with torch.no_grad():
             outputs = model.generate(
                 inputs.input_ids,
@@ -47,72 +51,63 @@ def generate_response(message, max_tokens=300, temperature=0.8):
                 top_p=0.9,
                 repetition_penalty=1.1,
                 pad_token_id=tokenizer.eos_token_id,
-                eos_token_id=tokenizer.eos_token_id,
-                early_stopping=True
             )
-        # Decodificar apenas a parte nova
         new_tokens = outputs[0][len(inputs.input_ids[0]):]
         response = tokenizer.decode(new_tokens, skip_special_tokens=True)
         # Limpar resposta
-        response = response.split("<|user|>")[0].strip()
-        response = response.split("<|system|>")[0].strip()
-        return response if response else "Desculpe, não consegui gerar uma resposta adequada."
     except Exception as e:
-        return f"Erro na geração: {str(e)}"
-# Interface Gradio SIMPLES (mais estável)
-def create_interface():
-    iface = gr.Interface(
-        fn=generate_response,
-        inputs=[
-            gr.Textbox(
-                label="💬 Sua pergunta",
-                placeholder="Digite aqui...",
-                lines=3
-            ),
-            gr.Slider(
-                minimum=50,
-                maximum=500,
-                value=300,
-                label="Max Tokens"
-            ),
-            gr.Slider(
-                minimum=0.1,
-                maximum=1.5,
-                value=0.8,
-                label="Temperature"
-            )
-        ],
-        outputs=gr.Textbox(
-            label="🤖 Resposta",
-            lines=6
         ),
-        title="🦙 TinyLlama Chat API",
-        description="Modelo leve (2.2GB) otimizado para HF Spaces Free",
-        examples=[
-            ["Olá! Como você está?", 300, 0.8],
-            ["Explique o que é inteligência artificial", 400, 0.7],
-            ["Conte uma curiosidade interessante", 250, 0.9]
-        ],
-        theme="default"
-    )
-    return iface
 if __name__ == "__main__":
-    print("Iniciando interface web...")
-    # Criar interface
-    iface = create_interface()
-    # Lançar com configurações estáveis
-    iface.launch(
         server_name="0.0.0.0",
         server_port=7860,
         share=False,
-        show_error=False,
-        quiet=True
     )

 import gradio as gr
 from transformers import AutoTokenizer, AutoModelForCausalLM
 import torch
+import os
+# Reduzir verbosidade dos warnings
+os.environ["TRANSFORMERS_VERBOSITY"] = "error"
+# TinyLlama - modelo leve e eficiente
 MODEL_NAME = "TinyLlama/TinyLlama-1.1B-Chat-v1.0"
 print("Carregando TinyLlama 1.1B...")
 tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
 model = AutoModelForCausalLM.from_pretrained(
 if tokenizer.pad_token is None:
     tokenizer.pad_token = tokenizer.eos_token
+print("✅ Modelo carregado! Interface iniciando...")
+def chat_response(message, max_tokens, temperature):
+    """Função principal de chat"""
     try:
+        # Template do TinyLlama
+        prompt = f"<|system|>\nVocê é um assistente útil. Responda de forma clara e concisa.<|user|>\n{message}<|assistant|>\n"
         # Tokenizar
         inputs = tokenizer(
             prompt,
             return_tensors="pt",
             truncation=True,
+            max_length=1200,
             padding=False
         )
+        # Gerar resposta (sem early_stopping para evitar warning)
         with torch.no_grad():
             outputs = model.generate(
                 inputs.input_ids,
                 top_p=0.9,
                 repetition_penalty=1.1,
                 pad_token_id=tokenizer.eos_token_id,
+                eos_token_id=tokenizer.eos_token_id
             )
+        # Extrair resposta
         new_tokens = outputs[0][len(inputs.input_ids[0]):]
         response = tokenizer.decode(new_tokens, skip_special_tokens=True)
         # Limpar resposta
+        response = response.split("<|user|>")[0]
+        response = response.split("<|system|>")[0]
+        response = response.strip()
+        return response if response else "Não consegui gerar uma resposta. Tente reformular sua pergunta."
     except Exception as e:
+        return f"Erro: {str(e)}"
+# Interface Gradio simples e funcional
+interface = gr.Interface(
+    fn=chat_response,
+    inputs=[
+        gr.Textbox(
+            label="💬 Sua pergunta",
+            placeholder="Digite sua pergunta aqui...",
+            lines=2
+        ),
+        gr.Slider(
+            minimum=50,
+            maximum=400,
+            value=200,
+            step=10,
+            label="🔢 Tokens máximos"
         ),
+        gr.Slider(
+            minimum=0.1,
+            maximum=1.2,
+            value=0.7,
+            step=0.1,
+            label="🌡️ Criatividade"
+        )
+    ],
+    outputs=gr.Textbox(
+        label="🤖 Resposta do TinyLlama",
+        lines=5
+    ),
+    title="🦙 TinyLlama Chat API",
+    description="Modelo de IA leve (2.2GB) otimizado para Hugging Face Spaces gratuito",
+    theme="default",
+    # Sem examples para evitar cache/erros
+    allow_flagging="never"
+)
 if __name__ == "__main__":
+    print("🚀 Iniciando servidor...")
+    interface.launch(
         server_name="0.0.0.0",
         server_port=7860,
         share=False,
+        show_error=False
     )