Spaces:

umyunsang
/

govon-runtime

Paused

umyunsang commited on 17 days ago

Commit

b15e72a

verified ·

1 Parent(s): 201e800

fix: draft max_tokens 512→2048 (thought 블록이 토큰 소진하여 빈 초안 문제)

Files changed (1) hide show

src/inference/api_server.py CHANGED Viewed

@@ -1043,7 +1043,7 @@ class vLLMEngineManager:
             gen_request = GenerateCivilResponseRequest(
                 prompt=working_query,
-                max_tokens=512,
                 temperature=0.7,
                 use_rag=False,
             )

             gen_request = GenerateCivilResponseRequest(
                 prompt=working_query,
+                max_tokens=2048,
                 temperature=0.7,
                 use_rag=False,
             )