Spaces:

codey-lab
/

SmolLM2-360M-Instruct

Sleeping

Alibrown commited on Mar 13

Commit

3e47970

verified ·

1 Parent(s): 1d87149

Create app.py

Files changed (1) hide show

app.py ADDED Viewed

+import spaces  # nur importieren wenn ZeroGPU verfügbar
+import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer
+import torch
+MODEL = "HuggingFaceTB/SmolLM2-135M-Instruct"
+tokenizer = AutoTokenizer.from_pretrained(MODEL)
+# Fallback: versuche CUDA, sonst CPU
+device = "cuda" if torch.cuda.is_available() else "cpu"
+model = AutoModelForCausalLM.from_pretrained(MODEL).to(device)
+@spaces.GPU(duration=30)  # ZeroGPU decorator — wird ignoriert wenn kein GPU da
+def generate(prompt, max_new_tokens=200):
+    messages = [{"role": "user", "content": prompt}]
+    text = tokenizer.apply_chat_template(messages, tokenize=False)
+    inputs = tokenizer.encode(text, return_tensors="pt").to(device)
+    with torch.no_grad():
+        outputs = model.generate(
+            inputs,
+            max_new_tokens=max_new_tokens,
+            temperature=0.2,
+            top_p=0.9,
+            do_sample=True,
+        )
+    # nur neue tokens zurückgeben
+    new_tokens = outputs[0][inputs.shape[-1]:]
+    return tokenizer.decode(new_tokens, skip_special_tokens=True)
+demo = gr.Interface(fn=generate, inputs="text", outputs="text")
+demo.launch()