Spaces:

Abdalkaderdev
/

ORA

Sleeping

Abdalkaderdev commited on 8 days ago

Commit

d2505af

1 Parent(s): c45eea2

Reduce tokens for faster CPU inference

Files changed (1) hide show

app/ora_server.py CHANGED Viewed

@@ -98,7 +98,7 @@ async def chat_endpoint(req: ChatRequest):
     outputs = model.generate(
         input_ids,
-        max_new_tokens=256,
         eos_token_id=terminators,
         do_sample=True,
         temperature=0.7,

     outputs = model.generate(
         input_ids,
+        max_new_tokens=128,  # Reduced for faster CPU inference
         eos_token_id=terminators,
         do_sample=True,
         temperature=0.7,