Spaces:

Mist-ic
/

sevzero

Sleeping

Mist-ic commited on Mar 30

Commit

ff0696e

1 Parent(s): 14cf714

Increase max_tokens to 4000 for thinking model compatibility

Thinking models (Gemini 3.1 Pro, o3-mini) consume tokens internally
for reasoning before generating output. max_tokens=200 caused content=None.
4000 ensures both thought budget and response fit within the limit.

Files changed (1) hide show

inference.py +3 -1

inference.py CHANGED Viewed

@@ -111,8 +111,10 @@ def _call_llm(
                 model=provider["model"],
                 messages=messages,
                 temperature=0.2,
-                max_tokens=200,
             )
             return completion.choices[0].message.content or ""
         except Exception as e:
             last_err = e

                 model=provider["model"],
                 messages=messages,
                 temperature=0.2,
+                max_tokens=4000,  # Thinking models (Gemini 3.1 Pro, o3) use tokens for reasoning
             )
+            # content can be None for thinking models if limit was too low;
+            # 4000 ensures thinking budget + response both fit
             return completion.choices[0].message.content or ""
         except Exception as e:
             last_err = e