Spaces:

jeanbaptdzd
/

open-finance-llm-8b

Paused

jeanbaptdzd commited on 18 days ago

Commit

b91238a

1 Parent(s): 9566d4f

Enable tool calling in vLLM server

- Add --enable-auto-tool-choice flag
- Add --tool-call-parser json for JSON-based tool call parsing
- Update startup logging to show tool calling is enabled
- This enables OpenAI-compatible tool calling API support

Files changed (1) hide show

start-vllm.sh +5 -1

start-vllm.sh CHANGED Viewed

@@ -22,10 +22,12 @@ echo "Model: $MODEL"
 echo "Port: $PORT"
 echo "Max Model Len: $MAX_MODEL_LEN"
 echo "GPU Memory Utilization: $GPU_MEMORY_UTILIZATION"
 echo "HF Token: ${HF_TOKEN:+set (${#HF_TOKEN} chars)}"
 echo "=========================================="
 # Execute vLLM server (use python3, not python)
 exec python3 -m vllm.entrypoints.openai.api_server \
     --model "$MODEL" \
     --trust-remote-code \
@@ -33,4 +35,6 @@ exec python3 -m vllm.entrypoints.openai.api_server \
     --max-model-len "$MAX_MODEL_LEN" \
     --gpu-memory-utilization "$GPU_MEMORY_UTILIZATION" \
     --port "$PORT" \
-    --host 0.0.0.0

 echo "Port: $PORT"
 echo "Max Model Len: $MAX_MODEL_LEN"
 echo "GPU Memory Utilization: $GPU_MEMORY_UTILIZATION"
+echo "Tool Calling: ENABLED (auto-tool-choice, json parser)"
 echo "HF Token: ${HF_TOKEN:+set (${#HF_TOKEN} chars)}"
 echo "=========================================="
 # Execute vLLM server (use python3, not python)
+# Enable tool calling support for OpenAI-compatible API
 exec python3 -m vllm.entrypoints.openai.api_server \
     --model "$MODEL" \
     --trust-remote-code \
     --max-model-len "$MAX_MODEL_LEN" \
     --gpu-memory-utilization "$GPU_MEMORY_UTILIZATION" \
     --port "$PORT" \
+    --host 0.0.0.0 \
+    --enable-auto-tool-choice \
+    --tool-call-parser json