Spaces:

albertoo85
/

modelo

Sleeping

App Files Files Community

albertoo85 commited on Mar 16

Commit

8ca33f7

verified ·

1 Parent(s): e31f1df

Update app.py

Browse files

Files changed (1) hide show

app.py +40 -17

app.py CHANGED Viewed

@@ -1,26 +1,49 @@
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer
-import torch
-# Usamos la versión de 0.5B o 1.5B si el Space es gratuito,
-# ya que el de 7B con 'transformers' superará los 16GB de RAM y colapsará.
-model_id = "Qwen/Qwen2.5-1.5B-Instruct"
-print("Cargando tokenizer y modelo...")
-tokenizer = AutoTokenizer.from_pretrained(model_id)
-model = AutoModelForCausalLM.from_pretrained(
-    model_id,
-    torch_dtype="auto",
-    device_map="cpu" # Forzamos CPU
 )
-def chat(message, history):
-    inputs = tokenizer(message, return_tensors="pt")
-    outputs = model.generate(**inputs, max_new_tokens=512)
-    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    return response
-demo = gr.ChatInterface(fn=chat, type="messages")
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860)

 import gradio as gr
+from llama_cpp import Llama
+from huggingface_hub import hf_hub_download
+import psutil
+import os
+# Monitor de RAM
+def get_ram():
+    return f"RAM usada: {psutil.Process(os.getpid()).memory_info().rss / (1024 * 1024):.2f} MB"
+# 1. Descarga del modelo GGUF (Eficiente para CPU)
+print("Descargando modelo GGUF...")
+model_path = hf_hub_download(
+    repo_id="Qwen/Qwen2.5-7B-Instruct-GGUF",
+    filename="qwen2.5-7b-instruct-q4_k_m.gguf"
 )
+# 2. Carga del modelo
+print("Cargando modelo en memoria...")
+llm = Llama(model_path=model_path, n_ctx=2048, n_threads=2)
+def predict(message, system_prompt="Responde en español."):
+    # Formato de prompt ChatML
+    prompt = f"<|im_start|>system\n{system_prompt} ({get_ram()})<|im_end|>\n<|im_start|>user\n{message}<|im_end|>\n<|im_start|>assistant\n"
+    output = llm(
+        prompt,
+        max_tokens=1024,
+        stop=["<|im_end|>", "<|im_start|>"],
+        echo=False
+    )
+    return output['choices'][0]['text']
+# 3. Interfaz compatible y limpia
+with gr.Blocks() as demo:
+    gr.Markdown("# Nodo API Qwen2.5-7B")
+    with gr.Row():
+        with gr.Column():
+            input_text = gr.Textbox(label="Mensaje", placeholder="Escribe aquí...")
+            sys_text = gr.Textbox(label="System Prompt", value="Eres un asistente útil.")
+            btn = gr.Button("Enviar", variant="primary")
+        with gr.Column():
+            output_text = gr.Textbox(label="Respuesta")
+    # Este es el nombre que usará tu otra VM
+    btn.click(predict, inputs=[input_text, sys_text], outputs=output_text, api_name="query")
 if __name__ == "__main__":
     demo.launch(server_name="0.0.0.0", server_port=7860)