Spaces:

nambn0321
/

LLM_run

Sleeping

nambn0321 commited on Aug 18, 2025

Commit

a1fc422

verified ·

1 Parent(s): 30b2444

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -34,9 +34,9 @@ tokenizer = AutoTokenizer.from_pretrained(model_repo, use_fast=False)
 def generate_response(prompt, max_tokens=128, temperature=0.7, top_p=0.9):
     try:
         chat = [{"role": "user", "content": prompt}]
-        prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
-        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
         with torch.no_grad():
             outputs = model.generate(

 def generate_response(prompt, max_tokens=128, temperature=0.7, top_p=0.9):
     try:
         chat = [{"role": "user", "content": prompt}]
+        formatted_prompt = tokenizer.apply_chat_template(chat, tokenize=False, add_generation_prompt=True)
+        inputs = tokenizer(formatted_prompt, return_tensors="pt").to(model.device)
         with torch.no_grad():
             outputs = model.generate(