SinglishTest

Sleeping

yuhueng commited on Dec 4, 2025

Commit

693f9ea

verified ·

1 Parent(s): 9c16eb5

Updated parameters to model/tokenizer

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,6 +1,6 @@
 import spaces
 import gradio as gr
-from transformers import AutoModelForCausalLM, AutoTokenizer
 import torch
 MODEL_ID = "yuhueng/qwen3-4b-singlish-base"  # replace with your model
@@ -11,16 +11,21 @@ model = AutoModelForCausalLM.from_pretrained(
     torch_dtype=torch.float16,
 )
 @spaces.GPU(duration=120)
 def inference(prompt: str, max_tokens: int = 256) -> str:
     model.to("cuda")  # Move to GPU inside decorated function
     inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
     outputs = model.generate(
-        **inputs,
-        max_new_tokens=max_tokens,
-        do_sample=True,
-        temperature=0.8,
-        pad_token_id=tokenizer.eos_token_id
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)

 import spaces
 import gradio as gr
+from transformers import AutoModelForCausalLM, AutoTokenizer, TextStreamer
 import torch
 MODEL_ID = "yuhueng/qwen3-4b-singlish-base"  # replace with your model
     torch_dtype=torch.float16,
 )
+text = tokenizer.apply_chat_template(
+    messages,
+    tokenize = False,
+    add_generation_prompt = True, # Must add for generation
+)
 @spaces.GPU(duration=120)
 def inference(prompt: str, max_tokens: int = 256) -> str:
     model.to("cuda")  # Move to GPU inside decorated function
     inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
     outputs = model.generate(
+        **tokenizer(text, return_tensors = "pt").to("cuda"),
+        max_new_tokens = 100, # Increase for longer outputs!
+        temperature = 0.7, top_p = 0.8, top_k = 20, # For non thinking
+        streamer = TextStreamer(tokenizer, skip_prompt = True),
     )
     return tokenizer.decode(outputs[0], skip_special_tokens=True)