future-html

Sleeping

aadya1762 commited on Mar 17, 2025

Commit

28295c6

1 Parent(s): b709bb5

handle batched response for inference

Files changed (1) hide show

gemmademo/_model.py CHANGED Viewed

@@ -101,6 +101,7 @@ class LlamaCppGemmaModel:
             n_threads=os.cpu_count(),
             n_ctx=n_ctx,
             n_gpu_layers=n_gpu_layers,
         )
         return self

             n_threads=os.cpu_count(),
             n_ctx=n_ctx,
             n_gpu_layers=n_gpu_layers,
+            n_batch=8,
         )
         return self