Spaces:

CrazyMonkey0
/

APi_English

Sleeping

CrazyMonkey0 commited on Dec 12, 2025

Commit

d5d8ff1

1 Parent(s): 137ea47

feat(nlp): optimize NLP model for CPU

Files changed (1) hide show

app/routes/nlp.py CHANGED Viewed

@@ -15,9 +15,10 @@ def load_model_nlp():
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForCausalLM.from_pretrained(
         model_name,
-        torch_dtype=torch.float32,   # CPU-friendly
     )
-    model.to("cpu")                 # Wymuszenie CPU
     model.eval()
     return model, tokenizer
@@ -43,12 +44,17 @@ async def chat(request: Request, message: ChatRequest):
     model_inputs = tokenizer([text_input], return_tensors="pt")
     # generate response
-    with torch.no_grad():
         generated_ids = model.generate(
             **model_inputs,
-            max_new_tokens=512,
         )
     # extract only the newly generated tokens
     new_tokens = [
         out_ids[len(in_ids):] for in_ids, out_ids in zip(

     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModelForCausalLM.from_pretrained(
         model_name,
+        torch_dtype=torch.float32,     # CPU-friendly
+        low_cpu_mem_usage=True          # low memory usage
     )
+    model.to("cpu")
     model.eval()
     return model, tokenizer
     model_inputs = tokenizer([text_input], return_tensors="pt")
     # generate response
+    with torch.inference_mode():
         generated_ids = model.generate(
             **model_inputs,
+            max_new_tokens=128,   # CPU + RAM
+            do_sample=True,
+            temperature=0.7,
+            top_p=0.9,
+            top_k=50,
         )
     # extract only the newly generated tokens
     new_tokens = [
         out_ids[len(in_ids):] for in_ids, out_ids in zip(