Instructions to use onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration with Transformers:

# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("image-text-to-text", model="onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
pipe(text=messages)

# Load model directly
from transformers import AutoProcessor, AutoModelForImageTextToText

processor = AutoProcessor.from_pretrained("onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration")
model = AutoModelForImageTextToText.from_pretrained("onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration")
messages = [
    {
        "role": "user",
        "content": [
            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/p-blog/candy.JPG"},
            {"type": "text", "text": "What animal is on the candy?"}
        ]
    },
]
inputs = processor.apply_chat_template(
	messages,
	add_generation_prompt=True,
	tokenize=True,
	return_dict=True,
	return_tensors="pt",
).to(model.device)

outputs = model.generate(**inputs, max_new_tokens=40)
print(processor.decode(outputs[0][inputs["input_ids"].shape[-1]:]))

Notebooks
Google Colab
Kaggle
Local Apps

vLLM

How to use onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration with vLLM:

Install from pip and serve model

# Install vLLM from pip:
pip install vllm
# Start the vLLM server:
vllm serve "onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration"
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:8000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration",
		"messages": [
			{
				"role": "user",
				"content": [
					{
						"type": "text",
						"text": "Describe this image in one sentence."
					},
					{
						"type": "image_url",
						"image_url": {
							"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
						}
					}
				]
			}
		]
	}'

Use Docker

docker model run hf.co/onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration

SGLang

How to use onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration with SGLang:

Install from pip and serve model

# Install SGLang from pip:
pip install sglang
# Start the SGLang server:
python3 -m sglang.launch_server \
    --model-path "onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration" \
    --host 0.0.0.0 \
    --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration",
		"messages": [
			{
				"role": "user",
				"content": [
					{
						"type": "text",
						"text": "Describe this image in one sentence."
					},
					{
						"type": "image_url",
						"image_url": {
							"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
						}
					}
				]
			}
		]
	}'

Use Docker images

docker run --gpus all \
    --shm-size 32g \
    -p 30000:30000 \
    -v ~/.cache/huggingface:/root/.cache/huggingface \
    --env "HF_TOKEN=<secret>" \
    --ipc=host \
    lmsysorg/sglang:latest \
    python3 -m sglang.launch_server \
        --model-path "onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration" \
        --host 0.0.0.0 \
        --port 30000
# Call the server using curl (OpenAI-compatible API):
curl -X POST "http://localhost:30000/v1/chat/completions" \
	-H "Content-Type: application/json" \
	--data '{
		"model": "onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration",
		"messages": [
			{
				"role": "user",
				"content": [
					{
						"type": "text",
						"text": "Describe this image in one sentence."
					},
					{
						"type": "image_url",
						"image_url": {
							"url": "https://cdn.britannica.com/61/93061-050-99147DCE/Statue-of-Liberty-Island-New-York-Bay.jpg"
						}
					}
				]
			}
		]
	}'

Docker Model Runner
How to use onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration with Docker Model Runner:
```
docker model run hf.co/onnx-internal-testing/tiny-random-Gemma3ForConditionalGeneration
```

Xenova HF Staff commited on Mar 19

Commit

5410886

verified ·

1 Parent(s): 76eb3a9

Upload optimized ONNX model

Browse files

Files changed (16) hide show

.gitattributes +6 -0
config.json +17 -1
onnx/decoder_model_merged.onnx +3 -0
onnx/decoder_model_merged.onnx_data +3 -0
onnx/decoder_model_merged_fp16.onnx +3 -0
onnx/decoder_model_merged_fp16.onnx_data +3 -0
onnx/embed_tokens.onnx +3 -0
onnx/embed_tokens.onnx_data +3 -0
onnx/embed_tokens_fp16.onnx +3 -0
onnx/embed_tokens_fp16.onnx_data +3 -0
onnx/vision_encoder.onnx +3 -0
onnx/vision_encoder.onnx_data +3 -0
onnx/vision_encoder_fp16.onnx +3 -0
onnx/vision_encoder_fp16.onnx_data +3 -0
tokenizer.json +2 -2
tokenizer_config.json +3 -2

.gitattributes CHANGED Viewed

@@ -34,3 +34,9 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text

 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
 tokenizer.json filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_fp16.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/embed_tokens.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/embed_tokens_fp16.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/vision_encoder.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/vision_encoder_fp16.onnx_data filter=lfs diff=lfs merge=lfs -text

config.json CHANGED Viewed

@@ -44,6 +44,8 @@
         "rope_theta": 1000000.0,
         "rope_type": "linear"
       },
       "sliding_attention": {
         "rope_theta": 10000.0,
         "rope_type": "default"
@@ -70,5 +72,19 @@
     "num_hidden_layers": 2,
     "patch_size": 14,
     "vision_use_head": false
   }
-}

         "rope_theta": 1000000.0,
         "rope_type": "linear"
       },
+      "rope_theta": null,
+      "rope_type": "default",
       "sliding_attention": {
         "rope_theta": 10000.0,
         "rope_type": "default"
     "num_hidden_layers": 2,
     "patch_size": 14,
     "vision_use_head": false
+  },
+  "transformers.js_config": {
+    "use_external_data_format": {
+      "vision_encoder.onnx": 1,
+      "decoder_model_merged.onnx": 1,
+      "embed_tokens.onnx": 1,
+      "vision_encoder_fp16.onnx": 1,
+      "decoder_model_merged_fp16.onnx": 1,
+      "embed_tokens_fp16.onnx": 1
+    },
+    "kv_cache_dtype": {
+      "q4f16": "float16",
+      "fp16": "float16"
+    }
   }
+}

onnx/decoder_model_merged.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f8773406e8e47a9c42ce80381950f9312ebd8250a964ac94e955c240de6b402b
+size 29675

onnx/decoder_model_merged.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f1c61df01ffd7dfb4ce4133fa3274339b3315ec4073bf729a6b709ceca7e03b7
+size 75661312

onnx/decoder_model_merged_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c5631035a783afa72b237252bca9f20728261cf26a0e6478f49a79e6d88c9834
+size 39173

onnx/decoder_model_merged_fp16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4fc6bf2a8135e41e673abdbae3aae54c90e08326d350fb2be43d208d88f32f7a
+size 37830656

onnx/embed_tokens.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8bf0b4ab46771d3a553b9033087ce7ed4fd44d698bc261b68049e4d264578d40
+size 430

onnx/embed_tokens.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:acb8c75db211c85d7f46e468546ddb83024980d986de642cead93eda75cb595b
+size 67125248

onnx/embed_tokens_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:205a64e0dd69dbe3a76addc817a839f2d24ffc97d58c78cf12c6cd09eee3a7d5
+size 632

onnx/embed_tokens_fp16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8351ef124676206587b890cdb3c3ec9a121c094e595d3d1c39f9056d070f8397
+size 33562624

onnx/vision_encoder.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:20d2a8cc3ee7fc4ef81b4e2eab3df6240afff4e2b5804fe20f491d56c59641b1
+size 25003

onnx/vision_encoder.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0f1866b0b229ef93c4c45c175662f5c8e3971cdfc304f547d4bce8fabc6e1efc
+size 331776

onnx/vision_encoder_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8e310de97411105f2b34c7678143238c0f46feecd10f8b47cc2bb30187190b8
+size 24052

onnx/vision_encoder_fp16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d022b963fd92dc9979fc510ff7aa26b7bedaa80bb2c9f4100f77b5ce1ca56f67
+size 165376

tokenizer.json CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:daab2354f8a74e70d70b4d1f804939b68a8c9624dd06cb7858e52dd8970e9726
-size 33384567

 version https://git-lfs.github.com/spec/v1
+oid sha256:b472c7c2d1a2ac607daa53c794575e59504c06b39579a0f2399bb95cea6a4949
+size 20323105

tokenizer_config.json CHANGED Viewed

@@ -20,5 +20,6 @@
   "spaces_between_special_tokens": false,
   "tokenizer_class": "GemmaTokenizer",
   "unk_token": "<unk>",
-  "use_default_system_prompt": false
-}

   "spaces_between_special_tokens": false,
   "tokenizer_class": "GemmaTokenizer",
   "unk_token": "<unk>",
+  "use_default_system_prompt": false,
+  "chat_template": "{{ bos_token }}\n{%- if messages[0]['role'] == 'system' -%}\n    {%- if messages[0]['content'] is string -%}\n        {%- set first_user_prefix = messages[0]['content'] + '\n\n' -%}\n    {%- else -%}\n        {%- set first_user_prefix = messages[0]['content'][0]['text'] + '\n\n' -%}\n    {%- endif -%}\n    {%- set loop_messages = messages[1:] -%}\n{%- else -%}\n    {%- set first_user_prefix = \"\" -%}\n    {%- set loop_messages = messages -%}\n{%- endif -%}\n{%- for message in loop_messages -%}\n    {%- if (message['role'] == 'user') != (loop.index0 % 2 == 0) -%}\n        {{ raise_exception(\"Conversation roles must alternate user/assistant/user/assistant/...\") }}\n    {%- endif -%}\n    {%- if (message['role'] == 'assistant') -%}\n        {%- set role = \"model\" -%}\n    {%- else -%}\n        {%- set role = message['role'] -%}\n    {%- endif -%}\n    {{ '<start_of_turn>' + role + '\n' + (first_user_prefix if loop.first else \"\") }}\n    {%- if message['content'] is string -%}\n        {{ message['content'] | trim }}\n    {%- elif message['content'] is iterable -%}\n        {%- for item in message['content'] -%}\n            {%- if item['type'] == 'image' -%}\n                {{ '<start_of_image>' }}\n            {%- elif item['type'] == 'text' -%}\n                {{ item['text'] | trim }}\n            {%- endif -%}\n        {%- endfor -%}\n    {%- else -%}\n        {{ raise_exception(\"Invalid content type\") }}\n    {%- endif -%}\n    {{ '<end_of_turn>\n' }}\n{%- endfor -%}\n{%- if add_generation_prompt -%}\n    {{'<start_of_turn>model\n'}}\n{%- endif -%}\n"
+}