Spaces:

LuminLabs
/

Nano

Sleeping

App Files Files Community

nova commited on 22 days ago

Commit

e8e7d25

verified ·

1 Parent(s): 5dd1fc5

Upload app.py with huggingface_hub

Browse files

Files changed (1) hide show

app.py +75 -0

app.py ADDED Viewed

	@@ -0,0 +1,75 @@

+import gradio as gr
+import torch
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextIteratorStreamer
+from threading import Thread
+import os
+model_path = "."
+token = os.environ.get("HF_TOKEN")
+print("Cargando Lumin Nano 2.1...")
+tokenizer = AutoTokenizer.from_pretrained(model_path, token=token, trust_remote_code=True)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model = AutoModelForCausalLM.from_pretrained(
+    model_path,
+    token=token,
+    torch_dtype=torch.float16 if device == "cuda" else torch.float32,
+    low_cpu_mem_usage=True,
+    trust_remote_code=True
+).to(device)
+def parse_thought(text):
+    if "<think>" in text:
+        if "</think>" in text:
+            parts = text.split("</think>")
+            return f"Pensamiento: {parts[0].replace('<think>', '').strip()}\n\nRespuesta: {parts[1].strip()}"
+        else:
+            return f"Pensamiento: {text.replace('<think>', '').strip()}"
+    return text
+def chat_stream(message, history, system_message, max_tokens, temperature, top_p):
+    messages = [{"role": "system", "content": system_message}]
+    for h in history:
+        if h[0]: messages.append({"role": "user", "content": h[0]})
+        if h[1]: messages.append({"role": "assistant", "content": h[1]})
+    messages.append({"role": "user", "content": message})
+    text = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
+    inputs = tokenizer([text], return_tensors="pt").to(model.device)
+    streamer = TextIteratorStreamer(tokenizer, timeout=20.0, skip_prompt=True, skip_special_tokens=True)
+    generate_kwargs = dict(
+        **inputs,
+        streamer=streamer,
+        max_new_tokens=max_tokens,
+        temperature=temperature,
+        top_p=top_p,
+        pad_token_id=tokenizer.eos_token_id,
+    )
+    t = Thread(target=model.generate, kwargs=generate_kwargs)
+    t.start()
+    partial_text = ""
+    for new_text in streamer:
+        partial_text += new_text
+        yield parse_thought(partial_text)
+with gr.Blocks(title="Lumin Nano 2.1") as demo:
+    gr.Markdown("Lumin Nano 2.1")
+    gr.ChatInterface(
+        chat_stream,
+        additional_inputs=[
+            gr.Textbox(value="Eres Lumin Nano 2.1. Responde de forma muy concisa y directa. No uses emojis.", label="System Message"),
+            gr.Slider(1, 1024, 128, label="Max Tokens"),
+            gr.Slider(0.1, 1.0, 0.2, label="Temperature"),
+            gr.Slider(0.1, 1.0, 0.9, label="Top-p"),
+        ],
+    )
+if __name__ == "__main__":
+    demo.launch()