Spaces:

nambn0321
/

LLM_run

Sleeping

nambn0321 commited on Aug 18, 2025

Commit

0274745

verified ·

1 Parent(s): c6dbe87

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -27,15 +27,19 @@ tokenizer = AutoTokenizer.from_pretrained(model_repo, use_fast=False)
 def generate_response(prompt, max_tokens=128, temperature=0.7, top_p=0.9):
     try:
-        inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
-        outputs = model.generate(
-            **inputs,
             max_new_tokens=max_tokens,
             temperature=temperature,
             top_p=top_p,
-            do_sample=True
         )
-        return tokenizer.decode(outputs[0], skip_special_tokens=True)
     except Exception as e:
         return f"Error: {str(e)}"

 def generate_response(prompt, max_tokens=128, temperature=0.7, top_p=0.9):
     try:
+        input_ids = tokenizer(prompt, return_tensors="pt").input_ids.to(model.device)
+        output_ids = model.generate(
+            input_ids,
             max_new_tokens=max_tokens,
             temperature=temperature,
             top_p=top_p,
+            do_sample=True,
+            use_cache=False
         )
+        output = tokenizer.decode(output_ids[0], skip_special_tokens=True)
+        return output
     except Exception as e:
         return f"Error: {str(e)}"