Spaces:

visualisable-ai
/

api

Sleeping

gary-boon Claude Opus 4.5 commited on Dec 24, 2025

Commit

bb689ce

1 Parent(s): d1d37a8

feat: add auto_complete parameter for token generation

- Add auto_complete parameter to streaming and non-streaming endpoints
- Cap max_tokens at 128 when auto_complete is enabled
- Existing EOS early-stop logic handles completion detection

🤖 Generated with [Claude Code](https://claude.com/claude-code)

Co-Authored-By: Claude Opus 4.5 <noreply@anthropic.com>

Files changed (1) hide show

backend/model_service.py +12 -2

backend/model_service.py CHANGED Viewed

@@ -1573,9 +1573,14 @@ async def analyze_research_attention(request: Dict[str, Any], authenticated: boo
         # Get parameters
         prompt = request.get("prompt", "def quicksort(arr):")
         max_tokens = request.get("max_tokens", 8)
         temperature = request.get("temperature", 0.7)
-        logger.info(f"Research attention analysis: prompt_len={len(prompt)}, max_tokens={max_tokens}")
         # Get model config for prompt formatting
         from .model_config import get_model_config
@@ -2092,9 +2097,14 @@ async def analyze_research_attention_stream(request: Dict[str, Any], authenticat
             # Get parameters
             prompt = request.get("prompt", "def quicksort(arr):")
             max_tokens = request.get("max_tokens", 8)
             temperature = request.get("temperature", 0.7)
-            logger.info(f"[SSE] Research attention analysis: prompt_len={len(prompt)}, max_tokens={max_tokens}, request_id={request_id}")
             # === STAGE 1: TOKENIZING ===
             yield sse_event('tokenizing', stage=1, totalStages=5, progress=2,

         # Get parameters
         prompt = request.get("prompt", "def quicksort(arr):")
         max_tokens = request.get("max_tokens", 8)
+        auto_complete = request.get("auto_complete", False)
         temperature = request.get("temperature", 0.7)
+        # If auto_complete mode, ensure we have a reasonable upper limit
+        if auto_complete:
+            max_tokens = min(max_tokens, 128)
+        logger.info(f"Research attention analysis: prompt_len={len(prompt)}, max_tokens={max_tokens}, auto_complete={auto_complete}")
         # Get model config for prompt formatting
         from .model_config import get_model_config
             # Get parameters
             prompt = request.get("prompt", "def quicksort(arr):")
             max_tokens = request.get("max_tokens", 8)
+            auto_complete = request.get("auto_complete", False)
             temperature = request.get("temperature", 0.7)
+            # If auto_complete mode, ensure we have a reasonable upper limit
+            if auto_complete:
+                max_tokens = min(max_tokens, 128)
+            logger.info(f"[SSE] Research attention analysis: prompt_len={len(prompt)}, max_tokens={max_tokens}, auto_complete={auto_complete}, request_id={request_id}")
             # === STAGE 1: TOKENIZING ===
             yield sse_event('tokenizing', stage=1, totalStages=5, progress=2,