Spaces:

CharlieBonito
/

ClarityGuardAgent

Sleeping

CharlieBonito commited on Apr 27

Commit

4521963

verified ·

1 Parent(s): ff04f16

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -26,6 +26,8 @@ LOG_FILE = os.getenv("LOG_FILE", os.path.join(APP_DIR, "startup.log"))
 CPU_THREADS = int(os.getenv("CPU_THREADS", "8"))
 LLAMA_CTX = int(os.getenv("LLAMA_CTX", "12288"))
 LLAMA_MAX_TOKENS = int(os.getenv("LLAMA_MAX_TOKENS", "8192"))
 JINA_API_KEY = os.getenv("JINA_API_KEY", "")
 JINA_EMBED_MODEL = os.getenv("JINA_EMBED_MODEL", "jina-embeddings-v3")
 RAG_INDEX_FILE = os.getenv("RAG_INDEX_FILE", os.path.join(APP_DIR, "rag_index.json"))
@@ -225,7 +227,12 @@ def log(msg):
 def start_server():
     global multimodal_ready
     os.makedirs(MODEL_DIR, exist_ok=True)
-    log(f"Configuración: CPU_THREADS={CPU_THREADS}, LLAMA_CTX={LLAMA_CTX}, LLAMA_MAX_TOKENS={LLAMA_MAX_TOKENS}")
     log("Descargando modelo para inferencia CPU-only...")
     try:
         m_path = hf_hub_download(repo_id=MODEL_REPO, filename=MODEL_FILE, local_dir=MODEL_DIR)
@@ -262,8 +269,8 @@ def start_server():
         "-t", str(CPU_THREADS),
         "-tb", str(CPU_THREADS),
         "-np", "1",
-        "-b", "512",
-        "-ub", "128",
         "--threads-http", "2",
         "--fit", "off",
         "--no-mmap",

 CPU_THREADS = int(os.getenv("CPU_THREADS", "8"))
 LLAMA_CTX = int(os.getenv("LLAMA_CTX", "12288"))
 LLAMA_MAX_TOKENS = int(os.getenv("LLAMA_MAX_TOKENS", "8192"))
+LLAMA_BATCH = int(os.getenv("LLAMA_BATCH", "512"))
+LLAMA_UBATCH = int(os.getenv("LLAMA_UBATCH", "512"))
 JINA_API_KEY = os.getenv("JINA_API_KEY", "")
 JINA_EMBED_MODEL = os.getenv("JINA_EMBED_MODEL", "jina-embeddings-v3")
 RAG_INDEX_FILE = os.getenv("RAG_INDEX_FILE", os.path.join(APP_DIR, "rag_index.json"))
 def start_server():
     global multimodal_ready
     os.makedirs(MODEL_DIR, exist_ok=True)
+    log(
+        "Configuración: "
+        f"CPU_THREADS={CPU_THREADS}, LLAMA_CTX={LLAMA_CTX}, "
+        f"LLAMA_MAX_TOKENS={LLAMA_MAX_TOKENS}, LLAMA_BATCH={LLAMA_BATCH}, "
+        f"LLAMA_UBATCH={LLAMA_UBATCH}"
+    )
     log("Descargando modelo para inferencia CPU-only...")
     try:
         m_path = hf_hub_download(repo_id=MODEL_REPO, filename=MODEL_FILE, local_dir=MODEL_DIR)
         "-t", str(CPU_THREADS),
         "-tb", str(CPU_THREADS),
         "-np", "1",
+        "-b", str(LLAMA_BATCH),
+        "-ub", str(LLAMA_UBATCH),
         "--threads-http", "2",
         "--fit", "off",
         "--no-mmap",