Hyper-AI
/

gemma-4-31B-it-fp8

Image-Text-to-Text

compressed-tensors

Model card Files Files and versions

Hyper-AI commited on 24 days ago

Commit

10dc55d

·

verified ·

1 Parent(s): 38a7581

Update README.md

Files changed (1) hide show

README.md +15 -1

README.md CHANGED Viewed

@@ -16,8 +16,22 @@ tags:
   **59G -> 32G memory decrease**
   **speedup 30%**
-  **vllm serve can run**
 <div align="center">
   <img src=https://ai.google.dev/gemma/images/gemma4_banner.png>

   **59G -> 32G memory decrease**
   **speedup 30%**
+  **Start the vLLM server**
+  vllm serve Hyper-AI/gemma-4-31B-it-fp8 --max-model-len 32768
+  **To enable thinking/reasoning and tool calling:**
+  vllm serve Hyper-AI/gemma-4-31B-it-fp8 \
+    --max-model-len 32768 \
+    --reasoning-parser gemma4 \
+    --tool-call-parser gemma4 \
+    --enable-auto-tool-choice
 <div align="center">
   <img src=https://ai.google.dev/gemma/images/gemma4_banner.png>