Spaces:

msradam
/

riprap

Running

msradam commited on 21 days ago

Commit

51e6b76

verified ·

1 Parent(s): daf3545

fix(vllm): reduce num_predict 512→350 to stay under max_model_len=2352

Files changed (1) hide show

app/mellea_validator.py CHANGED Viewed

@@ -357,14 +357,15 @@ def reconcile_strict_streaming(
         {"role": "system", "content": system_prompt},
         {"role": "user", "content": user_prompt},
     ]
-    # num_predict 512 lets the 4-section briefing complete in one pass.
-    # Reconciler prompts run ~1200 tokens (after trim_docs_to_plan),
-    # so 1200+512=1712 comfortably under the vLLM max_model_len=2352.
     # Override with RIPRAP_MELLEA_NUM_PREDICT if needed.
     # num_ctx (Ollama only) is forwarded via extra_body; vLLM ignores it.
     base_opts = {"temperature": 0,
                  "num_ctx": int(os.environ.get("RIPRAP_MELLEA_NUM_CTX", "4096")),
-                 "num_predict": int(os.environ.get("RIPRAP_MELLEA_NUM_PREDICT", "512")),
                  **(ollama_options or {})}
     paragraph = ""

         {"role": "system", "content": system_prompt},
         {"role": "user", "content": user_prompt},
     ]
+    # num_predict 350 for the 4-section briefing (typically 250-350 tokens).
+    # Lower ceiling (was 512) frees ~160 tokens of input budget, keeping the
+    # full prompt (documents + system prompt + 350 output) under
+    # max_model_len=2352 for the RunPod vLLM deployment.
     # Override with RIPRAP_MELLEA_NUM_PREDICT if needed.
     # num_ctx (Ollama only) is forwarded via extra_body; vLLM ignores it.
     base_opts = {"temperature": 0,
                  "num_ctx": int(os.environ.get("RIPRAP_MELLEA_NUM_CTX", "4096")),
+                 "num_predict": int(os.environ.get("RIPRAP_MELLEA_NUM_PREDICT", "350")),
                  **(ollama_options or {})}
     paragraph = ""