Spaces:

devray11
/

Aevis-Medical-API

Sleeping

devray11 commited on Mar 30

Commit

4d7f8c5

verified ·

1 Parent(s): 0dd1fb3

Update main.py

Files changed (1) hide show

main.py CHANGED Viewed

@@ -32,9 +32,9 @@ def load_model():
         llm = Llama(
             model_path=model_path,
-            n_ctx=512,          # Reduced for low RAM
             n_threads=2,        # HF free CPU = 2 cores
-            n_batch=128,
             use_mmap=True,
             use_mlock=False
         )
@@ -64,7 +64,7 @@ async def generate(query: Query):
     try:
         output = llm(
             f"### Instruction:\n{query.prompt}\n\n### Response:\n",
-            max_tokens=128,     # Reduced for speed
             stop=["###"],
             echo=False
         )

         llm = Llama(
             model_path=model_path,
+            n_ctx=128,          # Reduced for low RAM
             n_threads=2,        # HF free CPU = 2 cores
+            n_batch=16,
             use_mmap=True,
             use_mlock=False
         )
     try:
         output = llm(
             f"### Instruction:\n{query.prompt}\n\n### Response:\n",
+            max_tokens=64,     # Reduced for speed
             stop=["###"],
             echo=False
         )