shubeydoo commited on 10 days ago

Commit

fbd0ab5

verified ·

1 Parent(s): a3eb814

Upload folder using huggingface_hub

Browse files

Files changed (28) hide show

.gitattributes +9 -0
README.md +380 -0
chat_template.jinja +92 -0
config.json +104 -0
generation_config.json +7 -0
onnx/decoder_model_merged.onnx +3 -0
onnx/decoder_model_merged.onnx_data +3 -0
onnx/decoder_model_merged_fp16.onnx +3 -0
onnx/decoder_model_merged_fp16.onnx_data +3 -0
onnx/decoder_model_merged_q4.onnx +3 -0
onnx/decoder_model_merged_q4.onnx_data +3 -0
onnx/decoder_model_merged_q8.onnx +3 -0
onnx/decoder_model_merged_q8.onnx_data +3 -0
onnx/embed_tokens.onnx +3 -0
onnx/embed_tokens_fp16.onnx +3 -0
onnx/embed_tokens_fp16.onnx_data +3 -0
onnx/vision_encoder.onnx +3 -0
onnx/vision_encoder.onnx_data +3 -0
onnx/vision_encoder_fp16.onnx +3 -0
onnx/vision_encoder_fp16.onnx_data +3 -0
onnx/vision_encoder_q4.onnx +3 -0
onnx/vision_encoder_q4.onnx_data +3 -0
onnx/vision_encoder_q8.onnx +3 -0
onnx/vision_encoder_q8.onnx_data +3 -0
preprocessor_config.json +37 -0
processor_config.json +39 -0
tokenizer.json +0 -0
tokenizer_config.json +28 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,12 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_fp16.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_q4.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/decoder_model_merged_q8.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/embed_tokens_fp16.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/vision_encoder.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/vision_encoder_fp16.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/vision_encoder_q4.onnx_data filter=lfs diff=lfs merge=lfs -text
+onnx/vision_encoder_q8.onnx_data filter=lfs diff=lfs merge=lfs -text

README.md ADDED Viewed

	@@ -0,0 +1,380 @@

+---
+license: other
+license_name: lfm1.0
+license_link: LICENSE
+language:
+- en
+- ja
+- ko
+- fr
+- es
+- de
+- it
+- pt
+- ar
+- zh
+pipeline_tag: image-text-to-text
+tags:
+- liquid
+- edge
+- lfm2.5-vl
+- lfm2.5
+- onnx
+- onnxruntime
+- webgpu
+base_model:
+- LiquidAI/LFM2.5-VL-450M
+---
+<div align="center">
+  <img
+    src="https://cdn-uploads.huggingface.co/production/uploads/61b8e2ba285851687028d395/2b08LKpev0DNEk6DlnWkY.png"
+    alt="Liquid AI"
+    style="width: 100%; max-width: 100%; height: auto; display: inline-block; margin-bottom: 0.5em; margin-top: 0.5em;"
+  />
+  <div style="display: flex; justify-content: center; gap: 0.5em; margin-bottom: 1em;">
+    <a href="https://playground.liquid.ai/chat?model=lfm2.5-vl-450m"><strong>Try LFM</strong></a> •
+    <a href="https://docs.liquid.ai/lfm"><strong>Documentation</strong></a> •
+    <a href="https://leap.liquid.ai/"><strong>LEAP</strong></a> •
+    <a href="https://discord.com/invite/liquid-ai"><strong>Discord</strong></a>
+  </div>
+</div>
+# LFM2.5-VL-450M-ONNX
+ONNX export of [LFM2.5-VL-450M](https://huggingface.co/LiquidAI/LFM2.5-VL-450M) for cross-platform inference.
+## Recommended Variants
+| Encoder | Decoder | Size | Platform | Use Case |
+|---------|---------|------|----------|----------|
+| FP16 | Q4 | ~770MB | WebGPU, Server | Recommended for most uses |
+| FP16 | FP16 | ~1.0GB | Server | Higher quality |
+- **WebGPU**: Use FP16 encoder + Q4 decoder (Q8 not supported on WebGPU)
+- **Server**: FP16+Q4 for efficiency, FP16+FP16 for quality
+## Model Files
+```
+onnx/
+├── embed_tokens.onnx               # Token embeddings (FP32, 256MB)
+├── embed_tokens_fp16.onnx          # Token embeddings (FP16, 128MB)
+├── embed_tokens_fp16.onnx_data
+├── vision_encoder.onnx             # Vision encoder (FP32, 359MB)
+├── vision_encoder.onnx_data
+├── vision_encoder_fp16.onnx        # Vision encoder (FP16, 180MB)
+├── vision_encoder_fp16.onnx_data
+├── vision_encoder_q4.onnx          # Vision encoder (Q4, 57MB)
+├── vision_encoder_q4.onnx_data
+├── vision_encoder_q8.onnx          # Vision encoder (Q8, 105MB)
+├── vision_encoder_q8.onnx_data
+├── decoder_model_merged.onnx       # Language decoder (FP32, 1.4GB)
+├── decoder_model_merged.onnx_data
+├── decoder_model_merged_fp16.onnx  # Language decoder (FP16, 692MB)
+├── decoder_model_merged_fp16.onnx_data
+├── decoder_model_merged_q4.onnx    # Language decoder (Q4, 459MB)
+├── decoder_model_merged_q4.onnx_data
+├── decoder_model_merged_q8.onnx    # Language decoder (Q8, 604MB)
+└── decoder_model_merged_q8.onnx_data
+```
+## Python
+### Installation
+```bash
+pip install onnxruntime transformers pillow torch huggingface_hub
+# or with GPU support:
+pip install onnxruntime-gpu transformers pillow torch huggingface_hub
+```
+### Inference
+```python
+import numpy as np
+import onnxruntime as ort
+from huggingface_hub import hf_hub_download
+from transformers import AutoProcessor
+from PIL import Image
+# Download model files (fp16 encoder + q4 decoder recommended)
+model_id = "LiquidAI/LFM2.5-VL-450M-ONNX"
+embed_tokens_path = hf_hub_download(model_id, "onnx/embed_tokens_fp16.onnx")
+vision_encoder_path = hf_hub_download(model_id, "onnx/vision_encoder_fp16.onnx")
+decoder_path = hf_hub_download(model_id, "onnx/decoder_model_merged_q4.onnx")
+# Download all data files
+from huggingface_hub import list_repo_files
+for f in list_repo_files(model_id):
+    if any(f.startswith(f"onnx/{name}") for name in [
+        "embed_tokens_fp16.onnx_data",
+        "vision_encoder_fp16.onnx_data",
+        "decoder_model_merged_q4.onnx_data"
+    ]):
+        hf_hub_download(model_id, f)
+# Load ONNX sessions
+embed_tokens = ort.InferenceSession(embed_tokens_path)
+vision_encoder = ort.InferenceSession(vision_encoder_path)
+decoder = ort.InferenceSession(decoder_path)
+# Load processor
+processor = AutoProcessor.from_pretrained("LiquidAI/LFM2.5-VL-450M", trust_remote_code=True)
+# Prepare input
+image = Image.open("photo.jpg")
+messages = [{"role": "user", "content": [
+    {"type": "image"},
+    {"type": "text", "text": "What is in this image?"}
+]}]
+# Process inputs
+prompt = processor.apply_chat_template(messages, add_generation_prompt=True)
+inputs = processor(images=[image], text=prompt, return_tensors="pt")
+# Convert to numpy with correct dtypes
+pixel_values = inputs["pixel_values"].numpy().astype(np.float32)
+pixel_attention_mask = inputs["pixel_attention_mask"].numpy().astype(np.int64)
+spatial_shapes = inputs["spatial_shapes"].numpy().astype(np.int64)
+input_ids = inputs["input_ids"].numpy().astype(np.int64)
+# Get image embeddings
+image_outputs = vision_encoder.run(None, {
+    "pixel_values": pixel_values,
+    "pixel_attention_mask": pixel_attention_mask,
+    "spatial_shapes": spatial_shapes,
+})
+image_embeds = image_outputs[0]
+# Get token embeddings
+token_outputs = embed_tokens.run(None, {"input_ids": input_ids})
+token_embeds = token_outputs[0]
+# Replace <image> tokens with image embeddings
+image_token_id = processor.tokenizer.convert_tokens_to_ids("<image>")
+image_positions = np.where(input_ids[0] == image_token_id)[0]
+for i, pos in enumerate(image_positions):
+    if i < len(image_embeds):
+        token_embeds[0, pos] = image_embeds[i]
+# Initialize KV cache for stateful decoding
+ONNX_DTYPE = {"tensor(float)": np.float32, "tensor(float16)": np.float16, "tensor(int64)": np.int64}
+cache = {}
+for inp in decoder.get_inputs():
+    if inp.name in {"inputs_embeds", "attention_mask", "position_ids"}:
+        continue
+    shape = [d if isinstance(d, int) else 1 for d in inp.shape]
+    for i, d in enumerate(inp.shape):
+        if isinstance(d, str) and "sequence" in d.lower():
+            shape[i] = 0
+    cache[inp.name] = np.zeros(shape, dtype=ONNX_DTYPE.get(inp.type, np.float32))
+# Generate tokens
+seq_len = token_embeds.shape[1]
+generated_tokens = []
+for step in range(100):  # max tokens
+    if step == 0:
+        embeds = token_embeds.astype(np.float32)
+    else:
+        last_token = np.array([[generated_tokens[-1]]], dtype=np.int64)
+        embeds = embed_tokens.run(None, {"input_ids": last_token})[0].astype(np.float32)
+    attn_mask = np.ones((1, seq_len + len(generated_tokens)), dtype=np.int64)
+    feed = {"inputs_embeds": embeds, "attention_mask": attn_mask, **cache}
+    outputs = decoder.run(None, feed)
+    next_token = int(np.argmax(outputs[0][0, -1]))
+    generated_tokens.append(next_token)
+    # Update cache
+    for i, out in enumerate(decoder.get_outputs()[1:], 1):
+        name = out.name.replace("present_conv", "past_conv").replace("present.", "past_key_values.")
+        if name in cache:
+            cache[name] = outputs[i]
+    if next_token == processor.tokenizer.eos_token_id:
+        break
+print(processor.tokenizer.decode(generated_tokens, skip_special_tokens=True))
+```
+## WebGPU (Browser)
+### Installation
+```bash
+npm install onnxruntime-web @huggingface/transformers
+```
+### Enable WebGPU
+WebGPU is required for browser inference. To enable:
+1. **Chrome/Edge**: Navigate to `chrome://flags/#enable-unsafe-webgpu`, enable, and restart
+2. **Verify**: Check `chrome://gpu` for "WebGPU" status
+3. **Test**: Run `navigator.gpu.requestAdapter()` in DevTools console
+### Inference
+```javascript
+import * as ort from "onnxruntime-web/webgpu";
+import { AutoTokenizer } from "@huggingface/transformers";
+// Check WebGPU availability
+if (!navigator.gpu) {
+  throw new Error("WebGPU not available. Enable at chrome://flags/#enable-unsafe-webgpu");
+}
+const adapter = await navigator.gpu.requestAdapter();
+if (!adapter) {
+  throw new Error("WebGPU adapter not found. Check chrome://gpu for status.");
+}
+ort.env.wasm.numThreads = 1;
+const modelId = "LiquidAI/LFM2.5-VL-450M-ONNX";
+const modelBase = `https://huggingface.co/${modelId}/resolve/main`;
+// Load tokenizer
+const tokenizer = await AutoTokenizer.from_pretrained(modelId);
+// Load ONNX sessions with external data
+async function loadSession(name) {
+  const onnxPath = `${modelBase}/onnx/${name}.onnx`;
+  const fileName = `${name}.onnx_data`;
+  return ort.InferenceSession.create(onnxPath, {
+    executionProviders: ["webgpu"],
+    externalData: [{ path: fileName, data: `${modelBase}/onnx/${fileName}` }],
+  });
+}
+const embedTokens = await loadSession("embed_tokens_fp16");
+const visionEncoder = await loadSession("vision_encoder_fp16");
+const decoder = await loadSession("decoder_model_merged_q4");
+// Model config
+const hiddenSize = 1024;
+const numKVHeads = 8;
+const headDim = 64;
+// Get text embeddings helper
+async function getTextEmbeddings(ids) {
+  const tensor = new ort.Tensor("int64", new BigInt64Array(ids.map(BigInt)), [1, ids.length]);
+  const out = await embedTokens.run({ input_ids: tensor });
+  return out.inputs_embeds;
+}
+// Initialize KV cache
+function initCache() {
+  const cache = {};
+  for (const name of decoder.inputNames) {
+    if (name.startsWith("past_conv")) {
+      cache[name] = new ort.Tensor("float32", new Float32Array(hiddenSize * 3), [1, hiddenSize, 3]);
+    } else if (name.startsWith("past_key_values")) {
+      cache[name] = new ort.Tensor("float32", new Float32Array(0), [1, numKVHeads, 0, headDim]);
+    }
+  }
+  return cache;
+}
+// Update cache from outputs
+function updateCache(cache, outputs) {
+  for (const [name, tensor] of Object.entries(outputs)) {
+    if (name.startsWith("present_conv")) {
+      cache[name.replace("present_conv", "past_conv")] = tensor;
+    } else if (name.startsWith("present.")) {
+      cache[name.replace("present.", "past_key_values.")] = tensor;
+    }
+  }
+}
+// Build prompt and tokenize
+const prompt = tokenizer.apply_chat_template(messages, { add_generation_prompt: true, tokenize: false });
+const inputIds = tokenizer.encode(prompt);
+// Get embeddings (for VL: merge image embeddings at <image> token positions)
+let inputsEmbeds = await getTextEmbeddings(inputIds);
+// Generation loop
+const cache = initCache();
+const eosTokenId = tokenizer.eos_token_id;
+const generatedTokens = [];
+let curLen = inputsEmbeds.dims[1];
+let embeds = inputsEmbeds;
+for (let step = 0; step < 256; step++) {
+  const attentionMask = new ort.Tensor("int64", new BigInt64Array(curLen).fill(1n), [1, curLen]);
+  const outputs = await decoder.run({ inputs_embeds: embeds, attention_mask: attentionMask, ...cache });
+  // Greedy decode: argmax of last token logits
+  const logits = outputs.logits;
+  const vocabSize = logits.dims[2];
+  const lastLogits = logits.data.slice((logits.dims[1] - 1) * vocabSize);
+  const nextToken = lastLogits.indexOf(Math.max(...lastLogits));
+  generatedTokens.push(nextToken);
+  if (nextToken === eosTokenId) break;
+  updateCache(cache, outputs);
+  embeds = await getTextEmbeddings([nextToken]);
+  curLen++;
+}
+console.log(tokenizer.decode(generatedTokens, { skip_special_tokens: true }));
+```
+### WebGPU Notes
+- Recommended: `vision_encoder_fp16.onnx` + `decoder_model_merged_q4.onnx`
+- For higher quality: `vision_encoder_fp16.onnx` + `decoder_model_merged_fp16.onnx`
+- Image preprocessing requires tiling (512x512), patch extraction (16x16), and normalization
+- int64 tensors require `BigInt64Array`
+## transformers.js
+This model is compatible with [transformers.js](https://huggingface.co/docs/transformers.js) v4.0+ for browser-based inference with WebGPU:
+```javascript
+import { AutoModelForImageTextToText, AutoProcessor, RawImage } from "@huggingface/transformers";
+const model = await AutoModelForImageTextToText.from_pretrained(
+  "LiquidAI/LFM2.5-VL-450M-ONNX",
+  {
+    device: "webgpu",
+    dtype: {
+      vision_encoder: "fp16",
+      embed_tokens: "fp16",
+      decoder_model_merged: "q4",
+    },
+  }
+);
+const processor = await AutoProcessor.from_pretrained("LiquidAI/LFM2.5-VL-450M-ONNX");
+const image = await RawImage.fromURL("https://example.com/photo.jpg");
+const messages = [
+  { role: "user", content: [{ type: "image" }, { type: "text", text: "What is in this image?" }] },
+];
+const chatPrompt = processor.apply_chat_template(messages, { add_generation_prompt: true });
+const inputs = await processor(image, chatPrompt, { add_special_tokens: false });
+const outputs = await model.generate({
+  ...inputs,
+  do_sample: false,
+  max_new_tokens: 128,
+});
+const inputLength = inputs.input_ids.dims.at(-1);
+const generated = outputs.slice(null, [inputLength, null]);
+console.log(processor.batch_decode(generated, { skip_special_tokens: true })[0]);
+```
+See our [WebGPU demo](https://huggingface.co/spaces/LiquidAI/LFM2.5-VL-450M-WebGPU) for a full real-time video captioning and object detection application.
+## License
+This model is released under the [LFM 1.0 License](LICENSE).

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,92 @@

+{{- bos_token -}}
+{%- set keep_past_thinking = keep_past_thinking | default(false) -%}
+{%- macro format_arg_value(arg_value) -%}
+    {%- if arg_value is string -%}
+        {{- '"' + arg_value + '"' -}}
+    {%- elif arg_value is mapping -%}
+        {{- arg_value | tojson -}}
+    {%- else -%}
+        {{- arg_value | string -}}
+    {%- endif -%}
+{%- endmacro -%}
+{%- macro parse_content(content) -%}
+    {%- if content is string -%}
+        {{- content -}}
+    {%- else -%}
+        {%- set _ns = namespace(result="") -%}
+        {%- for item in content -%}
+            {%- if item.type == "image" -%}
+                {%- set _ns.result = _ns.result + "<image>" -%}
+            {%- elif item.type == "text" -%}
+                {%- set _ns.result = _ns.result + item.text -%}
+            {%- else -%}
+                {%- set _ns.result = _ns.result + item | tojson -%}
+            {%- endif -%}
+        {%- endfor -%}
+        {{- _ns.result -}}
+    {%- endif -%}
+{%- endmacro -%}
+{%- macro render_tool_calls(tool_calls) -%}
+    {%- set tool_calls_ns = namespace(tool_calls=[]) -%}
+    {%- for tool_call in tool_calls -%}
+        {%- set func_name = tool_call.function.name -%}
+        {%- set func_args = tool_call.function.arguments -%}
+        {%- set args_ns = namespace(arg_strings=[]) -%}
+        {%- for arg_name, arg_value in func_args.items() -%}
+            {%- set args_ns.arg_strings = args_ns.arg_strings + [arg_name + "=" + format_arg_value(arg_value)] -%}
+        {%- endfor -%}
+        {%- set tool_calls_ns.tool_calls = tool_calls_ns.tool_calls + [func_name + "(" + (args_ns.arg_strings | join(", ")) + ")"] -%}
+    {%- endfor -%}
+    {{- "<|tool_call_start|>[" + (tool_calls_ns.tool_calls | join(", ")) + "]<|tool_call_end|>" -}}
+{%- endmacro -%}
+{%- set ns = namespace(system_prompt="", last_assistant_index=-1) -%}
+{%- if messages[0].role == "system" -%}
+    {%- if messages[0].content is defined -%}
+        {%- set ns.system_prompt = parse_content(messages[0].content) -%}
+    {%- endif -%}
+    {%- set messages = messages[1:] -%}
+{%- endif -%}
+{%- if tools -%}
+    {%- set ns.system_prompt = ns.system_prompt + ("\n\n" if ns.system_prompt else "") + "Today's date: " + strftime_now("%Y-%m-%d") + "\n\nList of tools: " + (tools | tojson) -%}
+{%- endif -%}
+{%- if ns.system_prompt -%}
+    {{- "<|im_start|>system\n" + ns.system_prompt + "<|im_end|>\n" -}}
+{%- endif -%}
+{%- for message in messages -%}
+    {%- if message.role == "assistant" -%}
+        {%- set ns.last_assistant_index = loop.index0 -%}
+    {%- endif -%}
+{%- endfor -%}
+{%- for message in messages -%}
+    {{- "<|im_start|>" + message.role + "\n" -}}
+    {%- if message.role == "assistant" -%}
+        {%- generation -%}
+        {%- if message.thinking is defined and (keep_past_thinking or loop.index0 == ns.last_assistant_index) -%}
+            {{- "<think>" + message.thinking + "</think>" -}}
+        {%- endif -%}
+        {%- if message.tool_calls is defined -%}
+            {{- render_tool_calls(message.tool_calls) -}}
+        {%- endif -%}
+        {%- if message.content is defined -%}
+            {%- set content = parse_content(message.content) -%}
+            {%- if not keep_past_thinking and loop.index0 != ns.last_assistant_index -%}
+                {%- if "</think>" in content -%}
+                    {%- set content = content.split("</think>")[-1] | trim -%}
+                {%- endif -%}
+            {%- endif -%}
+            {{- content + ("" if (continue_final_message and loop.last) else "<|im_end|>\n") -}}
+        {%- endif -%}
+        {%- endgeneration -%}
+    {%- else %}
+        {%- if message.content is defined -%}
+            {{- parse_content(message.content) + "<|im_end|>\n" -}}
+        {%- endif -%}
+    {%- endif %}
+{%- endfor -%}
+{%- if add_generation_prompt -%}
+    {{- "<|im_start|>assistant\n" -}}
+{%- endif -%}

config.json ADDED Viewed

	@@ -0,0 +1,104 @@

+{
+  "architectures": [
+    "Lfm2VlForConditionalGeneration"
+  ],
+  "do_image_splitting": true,
+  "downsample_factor": 2,
+  "dtype": "bfloat16",
+  "encoder_patch_size": 16,
+  "image_token_id": 396,
+  "max_image_tokens": 256,
+  "max_pixels_tolerance": 2.0,
+  "max_tiles": 10,
+  "min_image_tokens": 64,
+  "min_tiles": 2,
+  "model_type": "lfm2_vl",
+  "projector_bias": true,
+  "projector_hidden_act": "gelu",
+  "projector_hidden_size": 2048,
+  "projector_use_layernorm": false,
+  "text_config": {
+    "_name_or_path": "LiquidAI/LFM2-350M",
+    "architectures": [
+      "Lfm2ForCausalLM"
+    ],
+    "block_auto_adjust_ff_dim": true,
+    "block_dim": 1024,
+    "block_ff_dim": 6656,
+    "block_ffn_dim_multiplier": 1.0,
+    "block_mlp_init_scale": 1.0,
+    "block_multiple_of": 256,
+    "block_norm_eps": 1e-05,
+    "block_out_init_scale": 1.0,
+    "block_use_swiglu": true,
+    "block_use_xavier_init": true,
+    "conv_L_cache": 3,
+    "conv_bias": false,
+    "conv_dim": 1024,
+    "conv_dim_out": 1024,
+    "conv_use_xavier_init": true,
+    "dtype": "bfloat16",
+    "eos_token_id": 7,
+    "hidden_size": 1024,
+    "initializer_range": 0.02,
+    "intermediate_size": 6656,
+    "layer_types": [
+      "conv",
+      "conv",
+      "full_attention",
+      "conv",
+      "conv",
+      "full_attention",
+      "conv",
+      "conv",
+      "full_attention",
+      "conv",
+      "full_attention",
+      "conv",
+      "full_attention",
+      "conv",
+      "full_attention",
+      "conv"
+    ],
+    "max_position_embeddings": 128000,
+    "model_type": "lfm2",
+    "norm_eps": 1e-05,
+    "num_attention_heads": 16,
+    "num_heads": 16,
+    "num_hidden_layers": 16,
+    "num_key_value_heads": 8,
+    "rope_parameters": {
+      "rope_theta": 1000000.0,
+      "rope_type": "default"
+    },
+    "use_cache": true,
+    "use_pos_enc": true,
+    "vocab_size": 65536
+  },
+  "tile_size": 512,
+  "transformers_version": "5.0.0.dev0",
+  "use_image_special_tokens": true,
+  "use_thumbnail": true,
+  "vision_config": {
+    "attention_dropout": 0.0,
+    "dtype": "bfloat16",
+    "hidden_act": "gelu_pytorch_tanh",
+    "hidden_size": 768,
+    "intermediate_size": 3072,
+    "layer_norm_eps": 1e-06,
+    "model_type": "siglip2_vision_model",
+    "num_attention_heads": 12,
+    "num_channels": 3,
+    "num_hidden_layers": 12,
+    "num_patches": 256,
+    "patch_size": 16,
+    "vision_use_head": false
+  },
+  "transformers.js_config": {
+    "use_external_data_format": {
+      "vision_encoder": true,
+      "embed_tokens": true,
+      "decoder_model_merged": true
+    }
+  }
+}

generation_config.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "_from_model_config": true,
+  "bos_token_id": 1,
+  "eos_token_id": 7,
+  "pad_token_id": 0,
+  "transformers_version": "4.57.0"
+}

onnx/decoder_model_merged.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bb0e0195c934b3a038e88fb737ee49d1e3c677348d30bc410f9b61a8b91e9cd8
+size 143084

onnx/decoder_model_merged.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:674b818194156e6333ce002d04c92da07049b59c946975f94a796e35103a6aed
+size 1450700800

onnx/decoder_model_merged_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4128700047fb544477d3d385384cd9e9ef429706d4f23522c0c1b99525f0ef00
+size 148963

onnx/decoder_model_merged_fp16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:25dbf3241518138ca3be478bb7d66051ea88e1b2a1b2b6db0a81b75705efe869
+size 725350400

onnx/decoder_model_merged_q4.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:26600302bd9db0ef26d1a98fba0aae22dac99468e2195ce6d9b9bc7308c18f68
+size 171898

onnx/decoder_model_merged_q4.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b930a8ec51f6326c1b5e09e38fd0162fc69840b2f9b926025948a58a4e962c7d
+size 481030144

onnx/decoder_model_merged_q8.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5d24e6b5dcdaacf665b1c1d5eba40b361d52439ac2b477b3ede65545a05c8e6a
+size 188896

onnx/decoder_model_merged_q8.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:88cb87b11d43c646d88e92c036577c519ed6347a86d493a252b80d1f17b0d544
+size 633663488

onnx/embed_tokens.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3fcae1b697f9e35d181c119d41f06a3d9153bf09b19280ef154b5f77fd64f29c
+size 268435815

onnx/embed_tokens_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:291d72b491d3187f3cafbb0ec35c5f889360a044d7db815510eff0fabb2af371
+size 573

onnx/embed_tokens_fp16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6936dd14d4e0fa29f4046159dfa5738363f020216ed39a2ed14d276d8d473aa6
+size 134217728

onnx/vision_encoder.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0170bb7f54d5dbb1b9a35b51f4b60b99feac3bb0753c3b8740fa2176c2763d1e
+size 123527

onnx/vision_encoder.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c70c17750012c329b4d445c0b8de2c4ec851a4e4374af9bc32af9708e9d48cb
+size 376939520

onnx/vision_encoder_fp16.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d6c020610d1619939e98e0d355558dbc3a86f4e4f447747fabffb9fe77d8b7fb
+size 124811

onnx/vision_encoder_fp16.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7cae41cd55168b324a7d4e773203189e3aa40471389cba977a20416d0a721998
+size 188469760

onnx/vision_encoder_q4.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ca4861376b1c409486a38237676754d0286d13b00e561bd113acebaaaddc56af
+size 146157

onnx/vision_encoder_q4.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0c46c194ac38dc7050c5729296d2ac80c25848d0f3895bf29e0e05b481b8a731
+size 59982848

onnx/vision_encoder_q8.onnx ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a4ff9d2db7622261ece3661c4d1ef923ac8353b6cea27d4090e340cb21e534ff
+size 159147

onnx/vision_encoder_q8.onnx_data ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b1f664b195ba188ba5d2c8a5103338465a728050e11c6f7fffea079bfc65b2ef
+size 109874176

preprocessor_config.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "data_format": "channels_first",
+  "do_image_splitting": true,
+  "do_normalize": true,
+  "do_pad": true,
+  "do_rescale": true,
+  "do_resize": true,
+  "downsample_factor": 2,
+  "encoder_patch_size": 16,
+  "image_mean": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "image_processor_type": "Lfm2VlImageProcessorFast",
+  "image_std": [
+    0.5,
+    0.5,
+    0.5
+  ],
+  "max_image_tokens": 256,
+  "max_num_patches": 1024,
+  "max_pixels_tolerance": 2.0,
+  "max_tiles": 10,
+  "min_image_tokens": 64,
+  "min_tiles": 2,
+  "resample": 2,
+  "rescale_factor": 0.00392156862745098,
+  "return_row_col_info": true,
+  "size": {
+    "height": 512,
+    "width": 512
+  },
+  "tile_size": 512,
+  "use_thumbnail": true,
+  "processor_class": "Lfm2VlProcessor"
+}

processor_config.json ADDED Viewed

	@@ -0,0 +1,39 @@

+{
+  "image_processor": {
+    "data_format": "channels_first",
+    "do_image_splitting": true,
+    "do_normalize": true,
+    "do_pad": true,
+    "do_rescale": true,
+    "do_resize": true,
+    "downsample_factor": 2,
+    "encoder_patch_size": 16,
+    "image_mean": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "image_processor_type": "Lfm2VlImageProcessorFast",
+    "image_std": [
+      0.5,
+      0.5,
+      0.5
+    ],
+    "max_image_tokens": 256,
+    "max_num_patches": 1024,
+    "max_pixels_tolerance": 2.0,
+    "max_tiles": 10,
+    "min_image_tokens": 64,
+    "min_tiles": 2,
+    "resample": 2,
+    "rescale_factor": 0.00392156862745098,
+    "return_row_col_info": true,
+    "size": {
+      "height": 512,
+      "width": 512
+    },
+    "tile_size": 512,
+    "use_thumbnail": true
+  },
+  "processor_class": "Lfm2VlProcessor"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,28 @@

+{
+  "backend": "tokenizers",
+  "bos_token": "<|startoftext|>",
+  "clean_up_tokenization_spaces": true,
+  "eos_token": "<|im_end|>",
+  "extra_special_tokens": [],
+  "image_end_token": "<|image_end|>",
+  "image_start_token": "<|image_start|>",
+  "image_thumbnail": "<|img_thumbnail|>",
+  "image_token": "<image>",
+  "is_local": false,
+  "legacy": false,
+  "model_max_length": 1000000000000000019884624838656,
+  "model_specific_special_tokens": {
+    "image_end_token": "<|image_end|>",
+    "image_start_token": "<|image_start|>",
+    "image_token": "<image>"
+  },
+  "pad_token": "<|pad|>",
+  "processor_class": "Lfm2VlProcessor",
+  "return_token_type_ids": false,
+  "sp_model_kwargs": {},
+  "spaces_between_special_tokens": false,
+  "tokenizer_class": "TokenizersBackend",
+  "use_default_system_prompt": false,
+  "use_fast": true,
+  "chat_template": "{{- bos_token -}}\n{%- set keep_past_thinking = keep_past_thinking | default(false) -%}\n\n{%- macro format_arg_value(arg_value) -%}\n    {%- if arg_value is string -%}\n        {{- '\"' + arg_value + '\"' -}}\n    {%- elif arg_value is mapping -%}\n        {{- arg_value | tojson -}}\n    {%- else -%}\n        {{- arg_value | string -}}\n    {%- endif -%}\n{%- endmacro -%}\n\n{%- macro parse_content(content) -%}\n    {%- if content is string -%}\n        {{- content -}}\n    {%- else -%}\n        {%- set _ns = namespace(result=\"\") -%}\n        {%- for item in content -%}\n            {%- if item.type == \"image\" -%}\n                {%- set _ns.result = _ns.result + \"<image>\" -%}\n            {%- elif item.type == \"text\" -%}\n                {%- set _ns.result = _ns.result + item.text -%}\n            {%- else -%}\n                {%- set _ns.result = _ns.result + item | tojson -%}\n            {%- endif -%}\n        {%- endfor -%}\n        {{- _ns.result -}}\n    {%- endif -%}\n{%- endmacro -%}\n\n{%- macro render_tool_calls(tool_calls) -%}\n    {%- set tool_calls_ns = namespace(tool_calls=[]) -%}\n    {%- for tool_call in tool_calls -%}\n        {%- set func_name = tool_call.function.name -%}\n        {%- set func_args = tool_call.function.arguments -%}\n        {%- set args_ns = namespace(arg_strings=[]) -%}\n        {%- for arg_name, arg_value in func_args.items() -%}\n            {%- set args_ns.arg_strings = args_ns.arg_strings + [arg_name + \"=\" + format_arg_value(arg_value)] -%}\n        {%- endfor -%}\n        {%- set tool_calls_ns.tool_calls = tool_calls_ns.tool_calls + [func_name + \"(\" + (args_ns.arg_strings | join(\", \")) + \")\"] -%}\n    {%- endfor -%}\n    {{- \"<|tool_call_start|>[\" + (tool_calls_ns.tool_calls | join(\", \")) + \"]<|tool_call_end|>\" -}}\n{%- endmacro -%}\n\n{%- set ns = namespace(system_prompt=\"\", last_assistant_index=-1) -%}\n{%- if messages[0].role == \"system\" -%}\n    {%- if messages[0].content is defined -%}\n        {%- set ns.system_prompt = parse_content(messages[0].content) -%}\n    {%- endif -%}\n    {%- set messages = messages[1:] -%}\n{%- endif -%}\n{%- if tools -%}\n    {%- set ns.system_prompt = ns.system_prompt + (\"\\n\\n\" if ns.system_prompt else \"\") + \"Today's date: \" + strftime_now(\"%Y-%m-%d\") + \"\\n\\nList of tools: \" + (tools | tojson) -%}\n{%- endif -%}\n{%- if ns.system_prompt -%}\n    {{- \"<|im_start|>system\\n\" + ns.system_prompt + \"<|im_end|>\\n\" -}}\n{%- endif -%}\n{%- for message in messages -%}\n    {%- if message.role == \"assistant\" -%}\n        {%- set ns.last_assistant_index = loop.index0 -%}\n    {%- endif -%}\n{%- endfor -%}\n{%- for message in messages -%}\n    {{- \"<|im_start|>\" + message.role + \"\\n\" -}}\n    {%- if message.role == \"assistant\" -%}\n        \n        {%- if message.thinking is defined and (keep_past_thinking or loop.index0 == ns.last_assistant_index) -%}\n            {{- \"<think>\" + message.thinking + \"</think>\" -}}\n        {%- endif -%}\n        {%- if message.tool_calls is defined -%}\n            {{- render_tool_calls(message.tool_calls) -}}\n        {%- endif -%}\n        {%- if message.content is defined -%}\n            {%- set content = parse_content(message.content) -%}\n            {%- if not keep_past_thinking and loop.index0 != ns.last_assistant_index -%}\n                {%- if \"</think>\" in content -%}\n                    {%- set content = content.split(\"</think>\")[-1] | trim -%}\n                {%- endif -%}\n            {%- endif -%}\n            {{- content + (\"\" if (continue_final_message and loop.last) else \"<|im_end|>\\n\") -}}\n        {%- endif -%}\n        \n    {%- else %}\n        {%- if message.content is defined -%}\n            {{- parse_content(message.content) + \"<|im_end|>\\n\" -}}\n        {%- endif -%}\n    {%- endif %}\n{%- endfor -%}\n{%- if add_generation_prompt -%}\n    {{- \"<|im_start|>assistant\\n\" -}}\n{%- endif -%}"
+}