Spaces:

ResearchEngineering
/

AGI

Running

Dmitry Beresnev commited on 16 days ago

Commit

62a5a49

1 Parent(s): e1e4b82

fix context window size

Files changed (1) hide show

app.py CHANGED Viewed

@@ -112,6 +112,7 @@ WEB_SEARCH_CACHE_TTL = int(os.getenv("WEB_SEARCH_CACHE_TTL", "3600"))  # 1 hour
 REQUEST_TIMEOUT = int(os.getenv("REQUEST_TIMEOUT", "300"))  # 5 minutes
 LOG_REQUEST_BODY = os.getenv("LOG_REQUEST_BODY", "1") == "1"
 LOG_REQUEST_BODY_MAX_CHARS = int(os.getenv("LOG_REQUEST_BODY_MAX_CHARS", "2000"))
 @dataclass
@@ -594,7 +595,7 @@ async def start_llama_server(model_id: str, port: int) -> tuple[subprocess.Popen
         "-hf", model_id,
         "--host", "0.0.0.0",
         "--port", str(port),
-        "-c", "2048",           # Context size
         "-t", "4",              # CPU threads
         "-ngl", "0",            # GPU layers (0 for CPU-only)
         "--cont-batching",      # Enable continuous batching
@@ -925,6 +926,9 @@ async def chat_completions(request: ChatCompletionRequest, raw_request: Request)
         metrics.record_request(current_model, request_latency)
         return result
     except aiohttp.ClientError as e:
         logger.exception(f"request_id={request_id} llama-server error")
         raise HTTPException(status_code=500, detail=f"llama-server error: {str(e)}")

 REQUEST_TIMEOUT = int(os.getenv("REQUEST_TIMEOUT", "300"))  # 5 minutes
 LOG_REQUEST_BODY = os.getenv("LOG_REQUEST_BODY", "1") == "1"
 LOG_REQUEST_BODY_MAX_CHARS = int(os.getenv("LOG_REQUEST_BODY_MAX_CHARS", "2000"))
+CONTEXT_SIZE = int(os.getenv("CONTEXT_SIZE", "2048"))
 @dataclass
         "-hf", model_id,
         "--host", "0.0.0.0",
         "--port", str(port),
+        "-c", str(CONTEXT_SIZE),  # Context size
         "-t", "4",              # CPU threads
         "-ngl", "0",            # GPU layers (0 for CPU-only)
         "--cont-batching",      # Enable continuous batching
         metrics.record_request(current_model, request_latency)
         return result
+    except aiohttp.ClientResponseError as e:
+        logger.exception(f"request_id={request_id} llama-server error")
+        raise HTTPException(status_code=e.status, detail=f"llama-server error: {e.message}")
     except aiohttp.ClientError as e:
         logger.exception(f"request_id={request_id} llama-server error")
         raise HTTPException(status_code=500, detail=f"llama-server error: {str(e)}")