add files

Files changed (12) hide show

README.md +326 -3
added_tokens.json +51 -0
chat_template.jinja +81 -0
config.json +805 -0
configuration_step_vl.py +76 -0
generation_config.json +10 -0
modeling_step_vl.py +557 -0
processing_step3.py +464 -0
processor_config.json +6 -0
special_tokens_map.json +270 -0
tokenizer_config.json +446 -0
vision_encoder.py +451 -0

README.md CHANGED Viewed

@@ -1,3 +1,326 @@
----
-license: apache-2.0
----

+---
+license: apache-2.0
+base_model:
+  - stepfun-ai/Step3-VL-10B-Base
+tags:
+  - quantization
+  - fp8
+pipeline_tag: image-text-to-text
+---
+<div align="center">
+<div align="center" style="display: flex; justify-content: center; align-items: center;">
+  <img src="figures/stepfun.svg" width="25" style="margin-right: 10px;"/>
+  <h1 style="margin: 0; border-bottom: none;">STEP3-VL-10B</h1>
+</div>
+[![Hugging Face](https://img.shields.io/badge/%F0%9F%A4%97%20HF-StepFun/STEP3--VL--10B-blue)](https://huggingface.co/collections/stepfun-ai/step3-vl-10b)
+[![ModelScope](https://img.shields.io/badge/ModelScope-StepFun/STEP3--VL--10B-624aff)](https://modelscope.cn/collections/stepfun-ai/Step3-VL-10B)
+[![Paper](https://img.shields.io/badge/Paper-Arxiv-red)](https://arxiv.org/abs/2601.09668)
+[![License](https://img.shields.io/badge/License-Apache%202.0-green)]()
+</div>
+## 📢 News & Updates
+- 🚀 **Online Demo**: Explore Step3-VL-10B on [Hugging Face Spaces](https://huggingface.co/spaces/stepfun-ai/Step3-VL-10B) !
+- 📢 **[Notice] vLLM Support:** vLLM integration is now officially supported! (PR [#32329](https://github.com/vllm-project/vllm/pull/32329))
+- ✅ **[Fixed] HF Inference:** Resolved the `eos_token_id` misconfiguration in `config.json` that caused infinite generation loops. (PR [#abdf3](https://huggingface.co/stepfun-ai/Step3-VL-10B/commit/abdf3618e914a9e3de0ad74efacc8b7a10f06c10))
+- ✅ **[Fixing] Metric Correction:** We sincerely apologize for inaccuracies in the Qwen3VL-8B benchmarks (e.g., AIME, HMMT, LCB). The errors were caused by an incorrect max_tokens setting (mistakenly set to 32k) during our large-scale evaluation process. We are re-running the tests and will provide corrected numbers in the next version of technical report.
+## 🚀 Introduction
+**STEP3-VL-10B** is a lightweight open-source foundation model designed to redefine the trade-off between compact efficiency and frontier-level multimodal intelligence. Despite its compact **10B parameter footprint**, STEP3-VL-10B excels in **visual perception**, **complex reasoning**, and **human-centric alignment**. It consistently outperforms models under the 10B scale and rivals or surpasses significantly larger open-weights models (**10×–20× its size**), such as GLM-4.6V (106B-A12B), Qwen3-VL-Thinking (235B-A22B), and top-tier proprietary flagships like Gemini 2.5 Pro and Seed-1.5-VL.
+<div align="center">
+<img src="figures/performance.png" alt="Performance Comparison" width="800"/>
+<p><i>Figure 1: Performance comparison of STEP3-VL-10B against SOTA multimodal foundation models. SeRe: Sequential Reasoning; PaCoRe: Parallel Coordinated Reasoning.</i></p>
+</div>
+The success of STEP3-VL-10B is driven by two key strategic designs:
+1.  **Unified Pre-training on High-Quality Multimodal Corpus:** A single-stage, fully unfrozen training strategy on a 1.2T token multimodal corpus, focusing on two foundational capabilities: **reasoning** (e.g., general knowledge and education-centric tasks) and **perception** (e.g., grounding, counting, OCR, and GUI interactions). By jointly optimizing the Perception Encoder and the Qwen3-8B decoder, STEP3-VL-10B establishes intrinsic vision-language synergy.
+2.  **Scaled Multimodal Reinforcement Learning and Parallel Reasoning:** Frontier capabilities are unlocked through a rigorous post-training pipeline comprising two-stage supervised finetuning (SFT) and **over 1,400 iterations of RL** with both verifiable rewards (RLVR) and human feedback (RLHF). Beyond sequential reasoning, we adopt **Parallel Coordinated Reasoning (PaCoRe)**, which allocates test-time compute to aggregate evidence from parallel visual exploration.
+## 📥 Model Zoo
+| Model Name            | Type |                            Hugging Face                            |                                ModelScope                                |
+| :-------------------- | :--- | :----------------------------------------------------------------: | :----------------------------------------------------------------------: |
+| **STEP3-VL-10B-Base** | Base | [🤗 Download](https://huggingface.co/stepfun-ai/Step3-VL-10B-Base) | [🤖 Download](https://modelscope.cn/models/stepfun-ai/Step3-VL-10B-Base) |
+| **STEP3-VL-10B**      | Chat |   [🤗 Download](https://huggingface.co/stepfun-ai/Step3-VL-10B)    |   [🤖 Download](https://modelscope.cn/models/stepfun-ai/Step3-VL-10B)    |
+## 📊 Performance
+STEP3-VL-10B delivers best-in-class performance across major multimodal benchmarks, establishing a new performance standard for compact models. The results demonstrate that STEP3-VL-10B is the **most powerful open-source model in the 10B parameter class**.
+### Comparison with Larger Models (10×–20× Larger)
+| Benchmark         | STEP3-VL-10B (SeRe) | STEP3-VL-10B (PaCoRe) | GLM-4.6V (106B-A12B) | Qwen3-VL (235B-A22B) | Gemini-2.5-Pro | Seed-1.5-VL |
+| :---------------- | :-----------------: | :-------------------: | :------------------: | :------------------: | :------------: | :---------: |
+| **MMMU**          |        78.11        |         80.11         |        75.20         |        78.70         |   **83.89**    |    79.11    |
+| **MathVista**     |        83.97        |         85.50         |        83.51         |        85.10         |     83.88      |  **85.60**  |
+| **MathVision**    |        70.81        |       **75.95**       |        63.50         |        72.10         |     73.30      |    68.70    |
+| **MMBench (EN)**  |        92.05        |         92.38         |        92.75         |        92.70         |   **93.19**    |    92.11    |
+| **MMStar**        |        77.48        |         77.64         |        75.30         |        76.80         |   **79.18**    |    77.91    |
+| **OCRBench**      |        86.75        |       **89.00**       |        86.20         |        87.30         |     85.90      |    85.20    |
+| **AIME 2025**     |        87.66        |       **94.43**       |        71.88         |        83.59         |     83.96      |    64.06    |
+| **HMMT 2025**     |        78.18        |       **92.14**       |        57.29         |        67.71         |     65.68      |    51.30    |
+| **LiveCodeBench** |        75.77        |       **76.43**       |        48.71         |        69.45         |     72.01      |    57.10    |
+<!-- > **Note:** **SeRe** (Sequential Reasoning) uses a max length of 64K tokens; **PaCoRe** (Parallel Coordinated Reasoning) synthesizes 16 SeRe rollouts with a max length of 128K tokens. -->
+> **Note on Inference Modes:**
+>
+> **SeRe (Sequential Reasoning):** The standard inference mode using sequential generation (Chain-of-Thought) with a max length of 64K tokens.
+>
+> **PaCoRe (Parallel Coordinated Reasoning):** An advanced mode that scales test-time compute. It aggregates evidence from **16 parallel rollouts** to synthesize a final answer, utilizing a max context length of 128K tokens.
+>
+> _Unless otherwise stated, scores below refer to the standard SeRe mode. Higher scores achieved via PaCoRe are explicitly marked._
+### Comparison with Open-Source Models (7B–10B)
+| Category           | Benchmark        | STEP3-VL-10B | GLM-4.6V-Flash (9B) | Qwen3-VL-Thinking (8B) | InternVL-3.5 (8B) | MiMo-VL-RL-2508 (7B) |
+| :----------------- | :--------------- | :----------: | :-----------------: | :--------------------: | :---------------: | :------------------: |
+| **STEM Reasoning** | MMMU             |  **78.11**   |        71.17        |         73.53          |       71.69       |        71.14         |
+|                    | MathVision       |  **70.81**   |        54.05        |         59.60          |       52.05       |        59.65         |
+|                    | MathVista        |  **83.97**   |        82.85        |         78.50          |       76.78       |        79.86         |
+|                    | PhyX             |  **59.45**   |        52.28        |         57.67          |       50.51       |        56.00         |
+| **Recognition**    | MMBench (EN)     |  **92.05**   |        91.04        |         90.55          |       88.20       |        89.91         |
+|                    | MMStar           |  **77.48**   |        74.26        |         73.58          |       69.83       |        72.93         |
+|                    | ReMI             |  **67.29**   |        60.75        |         57.17          |       52.65       |        63.13         |
+| **OCR & Document** | OCRBench         |  **86.75**   |        85.97        |         82.85          |       83.70       |        85.40         |
+|                    | AI2D             |  **89.35**   |        88.93        |         83.32          |       82.34       |        84.96         |
+| **GUI Grounding**  | ScreenSpot-V2    |    92.61     |        92.14        |       **93.60**        |       84.02       |        90.82         |
+|                    | ScreenSpot-Pro   |  **51.55**   |        45.68        |         46.60          |       15.39       |        34.84         |
+|                    | OSWorld-G        |  **59.02**   |        54.71        |         56.70          |       31.91       |        50.54         |
+| **Spatial**        | BLINK            |  **66.79**   |        64.90        |         62.78          |       55.40       |        62.57         |
+|                    | All-Angles-Bench |  **57.21**   |        53.24        |         45.88          |       45.29       |        51.62         |
+| **Code**           | HumanEval-V      |  **66.05**   |        29.26        |         26.94          |       24.31       |        31.96         |
+### Key Capabilities
+- **STEM Reasoning:** Achieves **94.43%** on AIME 2025 and **75.95%** on MathVision (with PaCoRe), demonstrating exceptional complex reasoning capabilities that outperform models 10×–20× larger.
+- **Visual Perception:** Records **92.05%** on MMBench and **80.11%** on MMMU, establishing strong general visual understanding and multimodal reasoning.
+- **GUI & OCR:** Delivers state-of-the-art performance on ScreenSpot-V2 (**92.61%**), ScreenSpot-Pro (**51.55%**), and OCRBench (**86.75%**), optimized for agentic and document understanding tasks.
+- **Spatial Understanding:** Demonstrates emergent spatial awareness with **66.79%** on BLINK and **57.21%** on All-Angles-Bench, establishing strong potential for embodied intelligence applications.
+## 🏗️ Architecture & Training
+### Architecture
+- **Visual Encoder:** PE-lang (Language-Optimized Perception Encoder), 1.8B parameters.
+- **Decoder:** Qwen3-8B.
+- **Projector:** Two consecutive stride-2 layers (resulting in 16× spatial downsampling).
+- **Resolution:** Multi-crop strategy consisting of a 728×728 global view and multiple 504×504 local crops.
+### Training Pipeline
+- **Pre-training:** Single-stage, fully unfrozen strategy using AdamW optimizer (Total: 1.2T tokens, 370K iterations).
+  - Phase 1: 900B tokens.
+  - Phase 2: 300B tokens.
+- **Supervised Finetuning (SFT):** Two-stage approach (Total: ~226B tokens).
+  - Stage 1: 9:1 text-to-multimodal ratio (~190B tokens).
+  - Stage 2: 1:1 text-to-multimodal ratio (~36B tokens).
+- **Reinforcement Learning:** Total >1,400 iterations.
+  - **RLVR:** 600 iterations (Tasks: mathematics, geometry, physics, perception, grounding).
+  - **RLHF:** 300 iterations (Task: open-ended generation).
+  - **PaCoRe Training:** 500 iterations (Context length: 64K max sequence).
+## 🛠️ Quick Start
+**Deployment Resource Specifications**
+- Model Weights: 14 GB
+- Runtime Overhead: ~4 GB
+- Minimum VRAM Required: 24 GB (e.g., RTX 4090 or A100)
+### Inference with Hugging Face Transformers
+We introduce how to use our model at inference stage using transformers library. It is recommended to use python=3.10, torch>=2.1.0, and transformers=4.57.0 as the development environment.We currently only support bf16 inference, and multi-patch for image preprocessing is supported by default. This behavior is aligned with vllm.
+**Note:** If you experience infinite generation issues, please check [Discussion #9](https://huggingface.co/stepfun-ai/Step3-VL-10B/discussions/9) for the fix.
+```python
+from transformers import AutoProcessor, AutoModelForCausalLM
+key_mapping = {
+    "^vision_model": "model.vision_model",
+    r"^model(?!\.(language_model|vision_model))": "model.language_model",
+    "vit_large_projector": "model.vit_large_projector",
+}
+model_path = "stepfun-ai/Step3-VL-10B"
+processor = AutoProcessor.from_pretrained(model_path, trust_remote_code=True)
+messages = [
+    {
+        "role": "user",
+        "content": [
+            {"type": "image", "url": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
+            {"type": "text", "text": "What's in this picture?"}
+        ]
+    },
+]
+model = AutoModelForCausalLM.from_pretrained(
+    model_path,
+    trust_remote_code=True,
+    device_map="auto",
+    torch_dtype="auto",
+    key_mapping=key_mapping).eval()
+inputs = processor.apply_chat_template(
+    messages, add_generation_prompt=True, tokenize=True,
+    return_dict=True, return_tensors="pt"
+).to(model.device)
+generate_ids = model.generate(**inputs, max_new_tokens=1024, do_sample=False)
+decoded = processor.decode(generate_ids[0, inputs["input_ids"].shape[-1] :], skip_special_tokens=True)
+print(decoded)
+```
+## 🚀 Deployment with vLLM (OpenAI-compatible API)
+For deployment, you can use vllm to create an OpenAI-compatible API endpoint.
+1. Install vLLM nightly (choose one):
+   - **Python / pip**
+     ```bash
+     pip install vllm --pre --extra-index-url https://wheels.vllm.ai/nightly
+     ```
+     Python ≥3.10 is required. Please ensure vLLM version >= 0.14.0rc2.dev143+gc0a350ca7.
+   - **Docker (nightly image)**
+     ```bash
+     docker pull vllm/vllm-openai:nightly-963dc0b865a3b6011fde7e0d938f86245dccbfac
+     ```
+     The tag above pins the nightly build we validated; update to the latest nightly tag if needed.
+2. Launch the server:
+   ```bash
+   vllm serve --model stepfun-ai/Step3-VL-10B -tp 1 --reasoning-parser deepseek_r1 --enable-auto-tool-choice --tool-call-parser hermes --trust-remote-code
+   ```
+   **Crucial Step:**
+   You must append the --trust-remote-code flag to your deployment command. This is mandatory for models that utilize custom code for their architecture.
+3. Call the endpoint using any OpenAI-compatible SDK (example in Python):
+   ```python
+   from openai import OpenAI
+   client = OpenAI(base_url="http://localhost:8000/v1", api_key="dummy")
+   resp = client.chat.completions.create(
+       model="stepfun-ai/Step3-VL-10B",
+       messages=[{
+           "role":
+           "user",
+           "content": [{
+               "type": "image_url",
+               "image_url": {
+                   "url":
+                   "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"
+               }
+           }, {
+               "type": "text",
+               "text": "what's in this picture?"
+           }]
+       }])
+   print(resp.choices[0].message.content)
+   ```
+## 🚀 Deployment with SGLang (OpenAI-compatible API)
+1.  Install SGLang latest main (choose one):
+- **Python / pip**
+  ```bash
+  pip install "sglang @ git+https://github.com/sgl-project/sglang.git#subdirectory=python"
+  pip install nvidia-cudnn-cu12==9.16.0.29
+  ```
+- **Docker**
+  ```bash
+   docker run --gpus all \
+   --shm-size 32g \
+   -p 30000:30000 \
+   -v ~/.cache/huggingface:/root/.cache/huggingface \
+   --ipc=host \
+   lmsysorg/sglang:latest \
+   python3 -m sglang.launch_server --model-path stepfun-ai/Step3-VL-10B-FP8 --host 0.0.0.0 --port 30000
+  ```
+2. Launch the server:
+   ```
+   sglang serve --model-path stepfun-ai/Step3-VL-10B-FP8 --trust-remote-code --port 2345 --reasoning-parser deepseek-r1 --tool-call-parser hermes
+   ```
+3. Call the endpoint using any OpenAI-compatible SDK (example in Python):
+   ```
+   from openai import OpenAI
+   port = 30000
+   client = OpenAI(base_url=f"http://localhost:{port}/v1", api_key="None")
+   response = client.chat.completions.create(
+       model="stepfun-ai/Step3-VL-10B-FP8",
+       messages=[
+           {
+               "role": "user",
+               "content": [
+                   {
+                       "type": "text",
+                       "text": "What is in this image?",
+                   },
+                   {
+                       "type": "image_url",
+                       "image_url": {
+                           "url": "https://github.com/sgl-project/sglang/blob/main/examples/assets/example_image.png?raw=true"
+                       },
+                   },
+               ],
+           }
+       ],
+   )
+   print(response.choices[0].message.content)
+   ```
+## 📜 Citation
+If you find this project useful in your research, please cite our technical report:
+```tex
+@misc{huang2026step3vl10btechnicalreport,
+      title={STEP3-VL-10B Technical Report},
+      author={Ailin Huang and Chengyuan Yao and Chunrui Han and Fanqi Wan and Hangyu Guo and Haoran Lv and Hongyu Zhou and Jia Wang and Jian Zhou and Jianjian Sun and Jingcheng Hu and Kangheng Lin and Liang Zhao and Mitt Huang and Song Yuan and Wenwen Qu and Xiangfeng Wang and Yanlin Lai and Yingxiu Zhao and Yinmin Zhang and Yukang Shi and Yuyang Chen and Zejia Weng and Ziyang Meng and Ang Li and Aobo Kong and Bo Dong and Changyi Wan and David Wang and Di Qi and Dingming Li and En Yu and Guopeng Li and Haiquan Yin and Han Zhou and Hanshan Zhang and Haolong Yan and Hebin Zhou and Hongbo Peng and Jiaran Zhang and Jiashu Lv and Jiayi Fu and Jie Cheng and Jie Zhou and Jisheng Yin and Jingjing Xie and Jingwei Wu and Jun Zhang and Junfeng Liu and Kaijun Tan and Kaiwen Yan and Liangyu Chen and Lina Chen and Mingliang Li and Qian Zhao and Quan Sun and Shaoliang Pang and Shengjie Fan and Shijie Shang and Siyuan Zhang and Tianhao You and Wei Ji and Wuxun Xie and Xiaobo Yang and Xiaojie Hou and Xiaoran Jiao and Xiaoxiao Ren and Xiangwen Kong and Xin Huang and Xin Wu and Xing Chen and Xinran Wang and Xuelin Zhang and Yana Wei and Yang Li and Yanming Xu and Yeqing Shen and Yuang Peng and Yue Peng and Yu Zhou and Yusheng Li and Yuxiang Yang and Yuyang Zhang and Zhe Xie and Zhewei Huang and Zhenyi Lu and Zhimin Fan and Zihui Cheng and Daxin Jiang and Qi Han and Xiangyu Zhang and Yibo Zhu and Zheng Ge},
+      year={2026},
+      eprint={2601.09668},
+      archivePrefix={arXiv},
+      primaryClass={cs.CV},
+      url={https://arxiv.org/abs/2601.09668},
+}
+```
+## 📄 License
+This project is open-sourced under the [Apache 2.0 License](https://www.google.com/search?q=LICENSE).

added_tokens.json ADDED Viewed

	@@ -0,0 +1,51 @@

+{
+  "</think>": 151668,
+  "</tool_call>": 151658,
+  "</tool_calls>": 151670,
+  "</tool_response>": 151666,
+  "<dream>": 151682,
+  "<dream_end>": 151684,
+  "<dream_start>": 151683,
+  "<im_end>": 151681,
+  "<im_patch>": 151679,
+  "<im_start>": 151680,
+  "<patch_end>": 151690,
+  "<patch_newline>": 151691,
+  "<patch_start>": 151689,
+  "<think>": 151667,
+  "<tool_call>": 151657,
+  "<tool_calls>": 151669,
+  "<tool_response>": 151665,
+  "<video_end>": 151688,
+  "<video_start>": 151687,
+  "<|BOT|>": 151672,
+  "<|CALL_END|>": 151674,
+  "<|CALL_START|>": 151673,
+  "<|EOT|>": 151671,
+  "<|IMG_END|>": 151678,
+  "<|IMG_START|>": 151677,
+  "<|MASK_1e69f|>": 151685,
+  "<|THINK_END|>": 151676,
+  "<|THINK_START|>": 151675,
+  "<|UNMASK_1e69f|>": 151686,
+  "<|box_end|>": 151649,
+  "<|box_start|>": 151648,
+  "<|endoftext|>": 151643,
+  "<|file_sep|>": 151664,
+  "<|fim_middle|>": 151660,
+  "<|fim_pad|>": 151662,
+  "<|fim_prefix|>": 151659,
+  "<|fim_suffix|>": 151661,
+  "<|im_end|>": 151645,
+  "<|im_start|>": 151644,
+  "<|image_pad|>": 151655,
+  "<|object_ref_end|>": 151647,
+  "<|object_ref_start|>": 151646,
+  "<|quad_end|>": 151651,
+  "<|quad_start|>": 151650,
+  "<|repo_name|>": 151663,
+  "<|video_pad|>": 151656,
+  "<|vision_end|>": 151653,
+  "<|vision_pad|>": 151654,
+  "<|vision_start|>": 151652
+}

chat_template.jinja ADDED Viewed

	@@ -0,0 +1,81 @@

+{% macro render_content(content) %}{% if content is none %}{{- '' }}{% elif content is string %}{{- content }}{% elif content is mapping %}{{- content['value'] if 'value' in content else content['text'] }}{% elif content is iterable %}{% for item in content %}{% if item.type == 'text' %}{{- item['value'] if 'value' in item else item['text'] }}{% elif item.type == 'image' %}<im_patch>{% endif %}{% endfor %}{% endif %}{% endmacro %}
+{%- if tools %}
+    {{- '<|im_start|>system\n' }}
+    {%- if messages[0].role == 'system' %}
+        {{- render_content(messages[0].content) + '\n\n' }}
+    {%- endif %}
+    {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
+    {%- for tool in tools %}
+        {{- "\n" }}
+        {{- tool | tojson }}
+    {%- endfor %}
+    {{- "\n</tools>\n\nAlways adhere to this exact format for tool use:\n<tool_calls>\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call>\n{additional_tool_calls}</tool_calls>\n\nNote:\n- For each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags.\n- `<function-name>` must be an exact match to one of the available tools.\n- `<args-json-object>` must be valid JSON that strictly follows the tool's parameters schema.<|im_end|>\n" }}
+{%- else %}
+    {%- if messages[0].role == 'system' %}
+        {{- '<|im_start|>system\n' + render_content(messages[0].content) + '<|im_end|>\n' }}
+    {%- endif %}
+{%- endif %}
+{%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
+{%- for message in messages[::-1] %}
+    {%- set index = (messages|length - 1) - loop.index0 %}
+    {%- if ns.multi_step_tool and message.role == "user" and render_content(message.content) is string and not(render_content(message.content).startswith('<tool_response>') and render_content(message.content).endswith('</tool_response>')) %}
+        {%- set ns.multi_step_tool = false %}
+        {%- set ns.last_query_index = index %}
+    {%- endif %}
+{%- endfor %}
+{%- for message in messages %}
+    {%- set content = render_content(message.content) %}
+    {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
+        {%- set role_name = 'observation' if (message.role == "system" and not loop.first and message.name == 'observation') else message.role %}
+        {{- '<|im_start|>' + role_name + '\n' + content + '<|im_end|>' + '\n' }}
+    {%- elif message.role == "assistant" %}
+        {%- if message.reasoning_content is string %}
+            {%- set reasoning_content = render_content(message.reasoning_content) %}
+        {%- else %}
+            {%- if '</think>' in content %}
+                {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
+                {%- set content = content.split('</think>')[-1].lstrip('\n') %}
+            {%- else %}
+                {%- set reasoning_content = '' %}
+            {%- endif %}
+        {%- endif %}
+        {%- if loop.index0 > ns.last_query_index %}
+            {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content + '\n</think>\n' + content }}
+        {%- else %}
+            {{- '<|im_start|>' + message.role + '\n' + content }}
+        {%- endif %}
+        {%- if message.tool_calls %}
+            {{- '\n<tool_calls>' }}
+            {%- for tool_call in message.tool_calls %}
+                {{- '\n' }}
+                {%- if tool_call.function %}
+                    {%- set tool_call = tool_call.function %}
+                {%- endif %}
+                {{- '<tool_call>\n{"name": "' }}
+                {{- tool_call.name }}
+                {{- '", "arguments": ' }}
+                {%- if tool_call.arguments is string %}
+                    {{- tool_call.arguments }}
+                {%- else %}
+                    {{- tool_call.arguments | tojson }}
+                {%- endif %}
+                {{- '}\n</tool_call>' }}
+            {%- endfor %}
+            {{- '\n</tool_calls>' }}
+        {%- endif %}
+        {{- '<|im_end|>\n' }}
+    {%- elif message.role == "tool" %}
+        {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
+            {{- '<|im_start|>tool_response' }}
+        {%- endif %}
+        {{- '\n<tool_response>\n' }}
+        {{- content }}
+        {{- '\n</tool_response>' }}
+        {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
+            {{- '<|im_end|>\n' }}
+        {%- endif %}
+    {%- endif %}
+{%- endfor %}
+{%- if add_generation_prompt %}
+    {{- '<|im_start|>assistant\n<think>\n' }}
+{%- endif %}

config.json ADDED Viewed

	@@ -0,0 +1,805 @@

+{
+  "architectures": [
+    "StepVLForConditionalGeneration"
+  ],
+  "auto_map": {
+    "AutoConfig": "configuration_step_vl.StepRoboticsConfig",
+    "AutoModelForCausalLM": "modeling_step_vl.Step3VL10BForCausalLM"
+  },
+  "model_type": "step_robotics",
+  "im_end_token": "<im_end>",
+  "im_patch_token": "<im_patch>",
+  "im_start_token": "<im_start>",
+  "image_token_len": 169,
+  "patch_token_len": 81,
+  "image_token_id": 151679,
+  "understand_projector_stride": 2,
+  "use_im_start_end": "true",
+  "vision_select_layer": -1,
+  "projector_bias": false,
+  "vision_config": {
+    "image_size": 728,
+    "patch_size": 14,
+    "width": 1536,
+    "layers": 47,
+    "heads": 16,
+    "pool_type": "none",
+    "output_dim": null,
+    "use_cls_token": false,
+    "ls_init_value": 0.1,
+    "use_ln_post": false,
+    "hidden_act": "quick_gelu"
+  },
+  "text_config": {
+    "architectures": [
+      "Qwen3ForCausalLM"
+    ],
+    "attention_bias": false,
+    "attention_dropout": 0.0,
+    "bos_token_id": 151643,
+    "eos_token_id": [
+      151643,
+      151679
+    ],
+    "head_dim": 128,
+    "hidden_act": "silu",
+    "hidden_size": 4096,
+    "initializer_range": 0.02,
+    "intermediate_size": 12288,
+    "max_position_embeddings": 65536,
+    "max_window_layers": 36,
+    "model_type": "qwen3",
+    "num_attention_heads": 32,
+    "num_hidden_layers": 36,
+    "num_key_value_heads": 8,
+    "rms_norm_eps": 1e-06,
+    "rope_scaling": null,
+    "rope_theta": 1000000,
+    "sliding_window": null,
+    "tie_word_embeddings": false,
+    "torch_dtype": "bfloat16",
+    "transformers_version": "4.51.0",
+    "use_cache": true,
+    "use_sliding_window": false,
+    "vocab_size": 151936
+  },
+  "quantization_config": {
+    "quant_method": "fp8",
+    "activation_scheme": "dynamic",
+    "fmt": "e4m3",
+    "weight_block_size": [
+      128,
+      128
+    ],
+    "modules_to_not_convert": [
+      "lm_head",
+      "model.visual"
+    ],
+    "ignored_layers": [
+      "lm_head",
+      "model.layers.0.mlp.down_proj",
+      "model.layers.0.mlp.gate_proj",
+      "model.layers.0.mlp.up_proj",
+      "model.layers.0.self_attn.k_proj",
+      "model.layers.0.self_attn.o_proj",
+      "model.layers.0.self_attn.q_proj",
+      "model.layers.0.self_attn.v_proj",
+      "model.layers.1.self_attn.k_proj",
+      "model.layers.1.self_attn.o_proj",
+      "model.layers.1.self_attn.q_proj",
+      "model.layers.1.self_attn.v_proj",
+      "model.layers.10.self_attn.k_proj",
+      "model.layers.10.self_attn.o_proj",
+      "model.layers.10.self_attn.q_proj",
+      "model.layers.10.self_attn.v_proj",
+      "model.layers.11.self_attn.k_proj",
+      "model.layers.11.self_attn.o_proj",
+      "model.layers.11.self_attn.q_proj",
+      "model.layers.11.self_attn.v_proj",
+      "model.layers.12.self_attn.k_proj",
+      "model.layers.12.self_attn.o_proj",
+      "model.layers.12.self_attn.q_proj",
+      "model.layers.12.self_attn.v_proj",
+      "model.layers.13.self_attn.k_proj",
+      "model.layers.13.self_attn.o_proj",
+      "model.layers.13.self_attn.q_proj",
+      "model.layers.13.self_attn.v_proj",
+      "model.layers.14.self_attn.k_proj",
+      "model.layers.14.self_attn.o_proj",
+      "model.layers.14.self_attn.q_proj",
+      "model.layers.14.self_attn.v_proj",
+      "model.layers.15.self_attn.k_proj",
+      "model.layers.15.self_attn.o_proj",
+      "model.layers.15.self_attn.q_proj",
+      "model.layers.15.self_attn.v_proj",
+      "model.layers.16.self_attn.k_proj",
+      "model.layers.16.self_attn.o_proj",
+      "model.layers.16.self_attn.q_proj",
+      "model.layers.16.self_attn.v_proj",
+      "model.layers.17.self_attn.k_proj",
+      "model.layers.17.self_attn.o_proj",
+      "model.layers.17.self_attn.q_proj",
+      "model.layers.17.self_attn.v_proj",
+      "model.layers.18.self_attn.k_proj",
+      "model.layers.18.self_attn.o_proj",
+      "model.layers.18.self_attn.q_proj",
+      "model.layers.18.self_attn.v_proj",
+      "model.layers.19.self_attn.k_proj",
+      "model.layers.19.self_attn.o_proj",
+      "model.layers.19.self_attn.q_proj",
+      "model.layers.19.self_attn.v_proj",
+      "model.layers.2.self_attn.k_proj",
+      "model.layers.2.self_attn.o_proj",
+      "model.layers.2.self_attn.q_proj",
+      "model.layers.2.self_attn.v_proj",
+      "model.layers.20.self_attn.k_proj",
+      "model.layers.20.self_attn.o_proj",
+      "model.layers.20.self_attn.q_proj",
+      "model.layers.20.self_attn.v_proj",
+      "model.layers.21.self_attn.k_proj",
+      "model.layers.21.self_attn.o_proj",
+      "model.layers.21.self_attn.q_proj",
+      "model.layers.21.self_attn.v_proj",
+      "model.layers.22.self_attn.k_proj",
+      "model.layers.22.self_attn.o_proj",
+      "model.layers.22.self_attn.q_proj",
+      "model.layers.22.self_attn.v_proj",
+      "model.layers.23.self_attn.k_proj",
+      "model.layers.23.self_attn.o_proj",
+      "model.layers.23.self_attn.q_proj",
+      "model.layers.23.self_attn.v_proj",
+      "model.layers.24.self_attn.k_proj",
+      "model.layers.24.self_attn.o_proj",
+      "model.layers.24.self_attn.q_proj",
+      "model.layers.24.self_attn.v_proj",
+      "model.layers.25.self_attn.k_proj",
+      "model.layers.25.self_attn.o_proj",
+      "model.layers.25.self_attn.q_proj",
+      "model.layers.25.self_attn.v_proj",
+      "model.layers.26.self_attn.k_proj",
+      "model.layers.26.self_attn.o_proj",
+      "model.layers.26.self_attn.q_proj",
+      "model.layers.26.self_attn.v_proj",
+      "model.layers.27.self_attn.k_proj",
+      "model.layers.27.self_attn.o_proj",
+      "model.layers.27.self_attn.q_proj",
+      "model.layers.27.self_attn.v_proj",
+      "model.layers.28.self_attn.k_proj",
+      "model.layers.28.self_attn.o_proj",
+      "model.layers.28.self_attn.q_proj",
+      "model.layers.28.self_attn.v_proj",
+      "model.layers.29.self_attn.k_proj",
+      "model.layers.29.self_attn.o_proj",
+      "model.layers.29.self_attn.q_proj",
+      "model.layers.29.self_attn.v_proj",
+      "model.layers.3.self_attn.k_proj",
+      "model.layers.3.self_attn.o_proj",
+      "model.layers.3.self_attn.q_proj",
+      "model.layers.3.self_attn.v_proj",
+      "model.layers.30.self_attn.k_proj",
+      "model.layers.30.self_attn.o_proj",
+      "model.layers.30.self_attn.q_proj",
+      "model.layers.30.self_attn.v_proj",
+      "model.layers.31.self_attn.k_proj",
+      "model.layers.31.self_attn.o_proj",
+      "model.layers.31.self_attn.q_proj",
+      "model.layers.31.self_attn.v_proj",
+      "model.layers.32.self_attn.k_proj",
+      "model.layers.32.self_attn.o_proj",
+      "model.layers.32.self_attn.q_proj",
+      "model.layers.32.self_attn.v_proj",
+      "model.layers.33.self_attn.k_proj",
+      "model.layers.33.self_attn.o_proj",
+      "model.layers.33.self_attn.q_proj",
+      "model.layers.33.self_attn.v_proj",
+      "model.layers.34.self_attn.k_proj",
+      "model.layers.34.self_attn.o_proj",
+      "model.layers.34.self_attn.q_proj",
+      "model.layers.34.self_attn.v_proj",
+      "model.layers.35.self_attn.k_proj",
+      "model.layers.35.self_attn.o_proj",
+      "model.layers.35.self_attn.q_proj",
+      "model.layers.35.self_attn.v_proj",
+      "model.layers.4.self_attn.k_proj",
+      "model.layers.4.self_attn.o_proj",
+      "model.layers.4.self_attn.q_proj",
+      "model.layers.4.self_attn.v_proj",
+      "model.layers.5.self_attn.k_proj",
+      "model.layers.5.self_attn.o_proj",
+      "model.layers.5.self_attn.q_proj",
+      "model.layers.5.self_attn.v_proj",
+      "model.layers.6.self_attn.k_proj",
+      "model.layers.6.self_attn.o_proj",
+      "model.layers.6.self_attn.q_proj",
+      "model.layers.6.self_attn.v_proj",
+      "model.layers.7.self_attn.k_proj",
+      "model.layers.7.self_attn.o_proj",
+      "model.layers.7.self_attn.q_proj",
+      "model.layers.7.self_attn.v_proj",
+      "model.layers.8.self_attn.k_proj",
+      "model.layers.8.self_attn.o_proj",
+      "model.layers.8.self_attn.q_proj",
+      "model.layers.8.self_attn.v_proj",
+      "model.layers.9.self_attn.k_proj",
+      "model.layers.9.self_attn.o_proj",
+      "model.layers.9.self_attn.q_proj",
+      "model.layers.9.self_attn.v_proj",
+      "model.vision_model",
+      "model.vision_model.conv1",
+      "model.vision_model.ln_pre",
+      "model.vision_model.transformer.resblocks.0.attn.out_proj",
+      "model.vision_model.transformer.resblocks.0.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.0.ln_1",
+      "model.vision_model.transformer.resblocks.0.ln_2",
+      "model.vision_model.transformer.resblocks.0.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.0.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.1.attn.out_proj",
+      "model.vision_model.transformer.resblocks.1.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.1.ln_1",
+      "model.vision_model.transformer.resblocks.1.ln_2",
+      "model.vision_model.transformer.resblocks.1.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.1.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.10.attn.out_proj",
+      "model.vision_model.transformer.resblocks.10.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.10.ln_1",
+      "model.vision_model.transformer.resblocks.10.ln_2",
+      "model.vision_model.transformer.resblocks.10.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.10.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.11.attn.out_proj",
+      "model.vision_model.transformer.resblocks.11.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.11.ln_1",
+      "model.vision_model.transformer.resblocks.11.ln_2",
+      "model.vision_model.transformer.resblocks.11.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.11.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.12.attn.out_proj",
+      "model.vision_model.transformer.resblocks.12.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.12.ln_1",
+      "model.vision_model.transformer.resblocks.12.ln_2",
+      "model.vision_model.transformer.resblocks.12.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.12.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.13.attn.out_proj",
+      "model.vision_model.transformer.resblocks.13.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.13.ln_1",
+      "model.vision_model.transformer.resblocks.13.ln_2",
+      "model.vision_model.transformer.resblocks.13.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.13.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.14.attn.out_proj",
+      "model.vision_model.transformer.resblocks.14.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.14.ln_1",
+      "model.vision_model.transformer.resblocks.14.ln_2",
+      "model.vision_model.transformer.resblocks.14.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.14.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.15.attn.out_proj",
+      "model.vision_model.transformer.resblocks.15.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.15.ln_1",
+      "model.vision_model.transformer.resblocks.15.ln_2",
+      "model.vision_model.transformer.resblocks.15.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.15.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.16.attn.out_proj",
+      "model.vision_model.transformer.resblocks.16.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.16.ln_1",
+      "model.vision_model.transformer.resblocks.16.ln_2",
+      "model.vision_model.transformer.resblocks.16.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.16.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.17.attn.out_proj",
+      "model.vision_model.transformer.resblocks.17.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.17.ln_1",
+      "model.vision_model.transformer.resblocks.17.ln_2",
+      "model.vision_model.transformer.resblocks.17.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.17.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.18.attn.out_proj",
+      "model.vision_model.transformer.resblocks.18.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.18.ln_1",
+      "model.vision_model.transformer.resblocks.18.ln_2",
+      "model.vision_model.transformer.resblocks.18.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.18.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.19.attn.out_proj",
+      "model.vision_model.transformer.resblocks.19.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.19.ln_1",
+      "model.vision_model.transformer.resblocks.19.ln_2",
+      "model.vision_model.transformer.resblocks.19.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.19.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.2.attn.out_proj",
+      "model.vision_model.transformer.resblocks.2.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.2.ln_1",
+      "model.vision_model.transformer.resblocks.2.ln_2",
+      "model.vision_model.transformer.resblocks.2.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.2.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.20.attn.out_proj",
+      "model.vision_model.transformer.resblocks.20.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.20.ln_1",
+      "model.vision_model.transformer.resblocks.20.ln_2",
+      "model.vision_model.transformer.resblocks.20.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.20.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.21.attn.out_proj",
+      "model.vision_model.transformer.resblocks.21.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.21.ln_1",
+      "model.vision_model.transformer.resblocks.21.ln_2",
+      "model.vision_model.transformer.resblocks.21.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.21.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.22.attn.out_proj",
+      "model.vision_model.transformer.resblocks.22.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.22.ln_1",
+      "model.vision_model.transformer.resblocks.22.ln_2",
+      "model.vision_model.transformer.resblocks.22.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.22.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.23.attn.out_proj",
+      "model.vision_model.transformer.resblocks.23.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.23.ln_1",
+      "model.vision_model.transformer.resblocks.23.ln_2",
+      "model.vision_model.transformer.resblocks.23.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.23.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.24.attn.out_proj",
+      "model.vision_model.transformer.resblocks.24.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.24.ln_1",
+      "model.vision_model.transformer.resblocks.24.ln_2",
+      "model.vision_model.transformer.resblocks.24.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.24.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.25.attn.out_proj",
+      "model.vision_model.transformer.resblocks.25.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.25.ln_1",
+      "model.vision_model.transformer.resblocks.25.ln_2",
+      "model.vision_model.transformer.resblocks.25.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.25.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.26.attn.out_proj",
+      "model.vision_model.transformer.resblocks.26.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.26.ln_1",
+      "model.vision_model.transformer.resblocks.26.ln_2",
+      "model.vision_model.transformer.resblocks.26.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.26.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.27.attn.out_proj",
+      "model.vision_model.transformer.resblocks.27.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.27.ln_1",
+      "model.vision_model.transformer.resblocks.27.ln_2",
+      "model.vision_model.transformer.resblocks.27.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.27.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.28.attn.out_proj",
+      "model.vision_model.transformer.resblocks.28.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.28.ln_1",
+      "model.vision_model.transformer.resblocks.28.ln_2",
+      "model.vision_model.transformer.resblocks.28.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.28.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.29.attn.out_proj",
+      "model.vision_model.transformer.resblocks.29.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.29.ln_1",
+      "model.vision_model.transformer.resblocks.29.ln_2",
+      "model.vision_model.transformer.resblocks.29.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.29.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.3.attn.out_proj",
+      "model.vision_model.transformer.resblocks.3.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.3.ln_1",
+      "model.vision_model.transformer.resblocks.3.ln_2",
+      "model.vision_model.transformer.resblocks.3.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.3.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.30.attn.out_proj",
+      "model.vision_model.transformer.resblocks.30.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.30.ln_1",
+      "model.vision_model.transformer.resblocks.30.ln_2",
+      "model.vision_model.transformer.resblocks.30.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.30.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.31.attn.out_proj",
+      "model.vision_model.transformer.resblocks.31.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.31.ln_1",
+      "model.vision_model.transformer.resblocks.31.ln_2",
+      "model.vision_model.transformer.resblocks.31.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.31.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.32.attn.out_proj",
+      "model.vision_model.transformer.resblocks.32.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.32.ln_1",
+      "model.vision_model.transformer.resblocks.32.ln_2",
+      "model.vision_model.transformer.resblocks.32.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.32.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.33.attn.out_proj",
+      "model.vision_model.transformer.resblocks.33.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.33.ln_1",
+      "model.vision_model.transformer.resblocks.33.ln_2",
+      "model.vision_model.transformer.resblocks.33.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.33.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.34.attn.out_proj",
+      "model.vision_model.transformer.resblocks.34.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.34.ln_1",
+      "model.vision_model.transformer.resblocks.34.ln_2",
+      "model.vision_model.transformer.resblocks.34.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.34.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.35.attn.out_proj",
+      "model.vision_model.transformer.resblocks.35.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.35.ln_1",
+      "model.vision_model.transformer.resblocks.35.ln_2",
+      "model.vision_model.transformer.resblocks.35.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.35.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.36.attn.out_proj",
+      "model.vision_model.transformer.resblocks.36.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.36.ln_1",
+      "model.vision_model.transformer.resblocks.36.ln_2",
+      "model.vision_model.transformer.resblocks.36.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.36.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.37.attn.out_proj",
+      "model.vision_model.transformer.resblocks.37.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.37.ln_1",
+      "model.vision_model.transformer.resblocks.37.ln_2",
+      "model.vision_model.transformer.resblocks.37.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.37.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.38.attn.out_proj",
+      "model.vision_model.transformer.resblocks.38.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.38.ln_1",
+      "model.vision_model.transformer.resblocks.38.ln_2",
+      "model.vision_model.transformer.resblocks.38.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.38.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.39.attn.out_proj",
+      "model.vision_model.transformer.resblocks.39.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.39.ln_1",
+      "model.vision_model.transformer.resblocks.39.ln_2",
+      "model.vision_model.transformer.resblocks.39.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.39.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.4.attn.out_proj",
+      "model.vision_model.transformer.resblocks.4.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.4.ln_1",
+      "model.vision_model.transformer.resblocks.4.ln_2",
+      "model.vision_model.transformer.resblocks.4.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.4.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.40.attn.out_proj",
+      "model.vision_model.transformer.resblocks.40.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.40.ln_1",
+      "model.vision_model.transformer.resblocks.40.ln_2",
+      "model.vision_model.transformer.resblocks.40.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.40.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.41.attn.out_proj",
+      "model.vision_model.transformer.resblocks.41.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.41.ln_1",
+      "model.vision_model.transformer.resblocks.41.ln_2",
+      "model.vision_model.transformer.resblocks.41.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.41.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.42.attn.out_proj",
+      "model.vision_model.transformer.resblocks.42.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.42.ln_1",
+      "model.vision_model.transformer.resblocks.42.ln_2",
+      "model.vision_model.transformer.resblocks.42.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.42.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.43.attn.out_proj",
+      "model.vision_model.transformer.resblocks.43.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.43.ln_1",
+      "model.vision_model.transformer.resblocks.43.ln_2",
+      "model.vision_model.transformer.resblocks.43.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.43.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.44.attn.out_proj",
+      "model.vision_model.transformer.resblocks.44.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.44.ln_1",
+      "model.vision_model.transformer.resblocks.44.ln_2",
+      "model.vision_model.transformer.resblocks.44.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.44.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.45.attn.out_proj",
+      "model.vision_model.transformer.resblocks.45.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.45.ln_1",
+      "model.vision_model.transformer.resblocks.45.ln_2",
+      "model.vision_model.transformer.resblocks.45.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.45.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.46.attn.out_proj",
+      "model.vision_model.transformer.resblocks.46.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.46.ln_1",
+      "model.vision_model.transformer.resblocks.46.ln_2",
+      "model.vision_model.transformer.resblocks.46.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.46.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.5.attn.out_proj",
+      "model.vision_model.transformer.resblocks.5.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.5.ln_1",
+      "model.vision_model.transformer.resblocks.5.ln_2",
+      "model.vision_model.transformer.resblocks.5.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.5.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.6.attn.out_proj",
+      "model.vision_model.transformer.resblocks.6.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.6.ln_1",
+      "model.vision_model.transformer.resblocks.6.ln_2",
+      "model.vision_model.transformer.resblocks.6.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.6.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.7.attn.out_proj",
+      "model.vision_model.transformer.resblocks.7.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.7.ln_1",
+      "model.vision_model.transformer.resblocks.7.ln_2",
+      "model.vision_model.transformer.resblocks.7.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.7.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.8.attn.out_proj",
+      "model.vision_model.transformer.resblocks.8.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.8.ln_1",
+      "model.vision_model.transformer.resblocks.8.ln_2",
+      "model.vision_model.transformer.resblocks.8.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.8.mlp.c_proj",
+      "model.vision_model.transformer.resblocks.9.attn.out_proj",
+      "model.vision_model.transformer.resblocks.9.attn.qkv_proj",
+      "model.vision_model.transformer.resblocks.9.ln_1",
+      "model.vision_model.transformer.resblocks.9.ln_2",
+      "model.vision_model.transformer.resblocks.9.mlp.c_fc",
+      "model.vision_model.transformer.resblocks.9.mlp.c_proj",
+      "model.vision_model.vit_downsampler1",
+      "model.vision_model.vit_downsampler2",
+      "model.vit_large_projector",
+      "vision_model",
+      "vision_model.conv1",
+      "vision_model.ln_pre",
+      "vision_model.transformer.resblocks.0.attn.out_proj",
+      "vision_model.transformer.resblocks.0.attn.qkv_proj",
+      "vision_model.transformer.resblocks.0.ln_1",
+      "vision_model.transformer.resblocks.0.ln_2",
+      "vision_model.transformer.resblocks.0.mlp.c_fc",
+      "vision_model.transformer.resblocks.0.mlp.c_proj",
+      "vision_model.transformer.resblocks.1.attn.out_proj",
+      "vision_model.transformer.resblocks.1.attn.qkv_proj",
+      "vision_model.transformer.resblocks.1.ln_1",
+      "vision_model.transformer.resblocks.1.ln_2",
+      "vision_model.transformer.resblocks.1.mlp.c_fc",
+      "vision_model.transformer.resblocks.1.mlp.c_proj",
+      "vision_model.transformer.resblocks.10.attn.out_proj",
+      "vision_model.transformer.resblocks.10.attn.qkv_proj",
+      "vision_model.transformer.resblocks.10.ln_1",
+      "vision_model.transformer.resblocks.10.ln_2",
+      "vision_model.transformer.resblocks.10.mlp.c_fc",
+      "vision_model.transformer.resblocks.10.mlp.c_proj",
+      "vision_model.transformer.resblocks.11.attn.out_proj",
+      "vision_model.transformer.resblocks.11.attn.qkv_proj",
+      "vision_model.transformer.resblocks.11.ln_1",
+      "vision_model.transformer.resblocks.11.ln_2",
+      "vision_model.transformer.resblocks.11.mlp.c_fc",
+      "vision_model.transformer.resblocks.11.mlp.c_proj",
+      "vision_model.transformer.resblocks.12.attn.out_proj",
+      "vision_model.transformer.resblocks.12.attn.qkv_proj",
+      "vision_model.transformer.resblocks.12.ln_1",
+      "vision_model.transformer.resblocks.12.ln_2",
+      "vision_model.transformer.resblocks.12.mlp.c_fc",
+      "vision_model.transformer.resblocks.12.mlp.c_proj",
+      "vision_model.transformer.resblocks.13.attn.out_proj",
+      "vision_model.transformer.resblocks.13.attn.qkv_proj",
+      "vision_model.transformer.resblocks.13.ln_1",
+      "vision_model.transformer.resblocks.13.ln_2",
+      "vision_model.transformer.resblocks.13.mlp.c_fc",
+      "vision_model.transformer.resblocks.13.mlp.c_proj",
+      "vision_model.transformer.resblocks.14.attn.out_proj",
+      "vision_model.transformer.resblocks.14.attn.qkv_proj",
+      "vision_model.transformer.resblocks.14.ln_1",
+      "vision_model.transformer.resblocks.14.ln_2",
+      "vision_model.transformer.resblocks.14.mlp.c_fc",
+      "vision_model.transformer.resblocks.14.mlp.c_proj",
+      "vision_model.transformer.resblocks.15.attn.out_proj",
+      "vision_model.transformer.resblocks.15.attn.qkv_proj",
+      "vision_model.transformer.resblocks.15.ln_1",
+      "vision_model.transformer.resblocks.15.ln_2",
+      "vision_model.transformer.resblocks.15.mlp.c_fc",
+      "vision_model.transformer.resblocks.15.mlp.c_proj",
+      "vision_model.transformer.resblocks.16.attn.out_proj",
+      "vision_model.transformer.resblocks.16.attn.qkv_proj",
+      "vision_model.transformer.resblocks.16.ln_1",
+      "vision_model.transformer.resblocks.16.ln_2",
+      "vision_model.transformer.resblocks.16.mlp.c_fc",
+      "vision_model.transformer.resblocks.16.mlp.c_proj",
+      "vision_model.transformer.resblocks.17.attn.out_proj",
+      "vision_model.transformer.resblocks.17.attn.qkv_proj",
+      "vision_model.transformer.resblocks.17.ln_1",
+      "vision_model.transformer.resblocks.17.ln_2",
+      "vision_model.transformer.resblocks.17.mlp.c_fc",
+      "vision_model.transformer.resblocks.17.mlp.c_proj",
+      "vision_model.transformer.resblocks.18.attn.out_proj",
+      "vision_model.transformer.resblocks.18.attn.qkv_proj",
+      "vision_model.transformer.resblocks.18.ln_1",
+      "vision_model.transformer.resblocks.18.ln_2",
+      "vision_model.transformer.resblocks.18.mlp.c_fc",
+      "vision_model.transformer.resblocks.18.mlp.c_proj",
+      "vision_model.transformer.resblocks.19.attn.out_proj",
+      "vision_model.transformer.resblocks.19.attn.qkv_proj",
+      "vision_model.transformer.resblocks.19.ln_1",
+      "vision_model.transformer.resblocks.19.ln_2",
+      "vision_model.transformer.resblocks.19.mlp.c_fc",
+      "vision_model.transformer.resblocks.19.mlp.c_proj",
+      "vision_model.transformer.resblocks.2.attn.out_proj",
+      "vision_model.transformer.resblocks.2.attn.qkv_proj",
+      "vision_model.transformer.resblocks.2.ln_1",
+      "vision_model.transformer.resblocks.2.ln_2",
+      "vision_model.transformer.resblocks.2.mlp.c_fc",
+      "vision_model.transformer.resblocks.2.mlp.c_proj",
+      "vision_model.transformer.resblocks.20.attn.out_proj",
+      "vision_model.transformer.resblocks.20.attn.qkv_proj",
+      "vision_model.transformer.resblocks.20.ln_1",
+      "vision_model.transformer.resblocks.20.ln_2",
+      "vision_model.transformer.resblocks.20.mlp.c_fc",
+      "vision_model.transformer.resblocks.20.mlp.c_proj",
+      "vision_model.transformer.resblocks.21.attn.out_proj",
+      "vision_model.transformer.resblocks.21.attn.qkv_proj",
+      "vision_model.transformer.resblocks.21.ln_1",
+      "vision_model.transformer.resblocks.21.ln_2",
+      "vision_model.transformer.resblocks.21.mlp.c_fc",
+      "vision_model.transformer.resblocks.21.mlp.c_proj",
+      "vision_model.transformer.resblocks.22.attn.out_proj",
+      "vision_model.transformer.resblocks.22.attn.qkv_proj",
+      "vision_model.transformer.resblocks.22.ln_1",
+      "vision_model.transformer.resblocks.22.ln_2",
+      "vision_model.transformer.resblocks.22.mlp.c_fc",
+      "vision_model.transformer.resblocks.22.mlp.c_proj",
+      "vision_model.transformer.resblocks.23.attn.out_proj",
+      "vision_model.transformer.resblocks.23.attn.qkv_proj",
+      "vision_model.transformer.resblocks.23.ln_1",
+      "vision_model.transformer.resblocks.23.ln_2",
+      "vision_model.transformer.resblocks.23.mlp.c_fc",
+      "vision_model.transformer.resblocks.23.mlp.c_proj",
+      "vision_model.transformer.resblocks.24.attn.out_proj",
+      "vision_model.transformer.resblocks.24.attn.qkv_proj",
+      "vision_model.transformer.resblocks.24.ln_1",
+      "vision_model.transformer.resblocks.24.ln_2",
+      "vision_model.transformer.resblocks.24.mlp.c_fc",
+      "vision_model.transformer.resblocks.24.mlp.c_proj",
+      "vision_model.transformer.resblocks.25.attn.out_proj",
+      "vision_model.transformer.resblocks.25.attn.qkv_proj",
+      "vision_model.transformer.resblocks.25.ln_1",
+      "vision_model.transformer.resblocks.25.ln_2",
+      "vision_model.transformer.resblocks.25.mlp.c_fc",
+      "vision_model.transformer.resblocks.25.mlp.c_proj",
+      "vision_model.transformer.resblocks.26.attn.out_proj",
+      "vision_model.transformer.resblocks.26.attn.qkv_proj",
+      "vision_model.transformer.resblocks.26.ln_1",
+      "vision_model.transformer.resblocks.26.ln_2",
+      "vision_model.transformer.resblocks.26.mlp.c_fc",
+      "vision_model.transformer.resblocks.26.mlp.c_proj",
+      "vision_model.transformer.resblocks.27.attn.out_proj",
+      "vision_model.transformer.resblocks.27.attn.qkv_proj",
+      "vision_model.transformer.resblocks.27.ln_1",
+      "vision_model.transformer.resblocks.27.ln_2",
+      "vision_model.transformer.resblocks.27.mlp.c_fc",
+      "vision_model.transformer.resblocks.27.mlp.c_proj",
+      "vision_model.transformer.resblocks.28.attn.out_proj",
+      "vision_model.transformer.resblocks.28.attn.qkv_proj",
+      "vision_model.transformer.resblocks.28.ln_1",
+      "vision_model.transformer.resblocks.28.ln_2",
+      "vision_model.transformer.resblocks.28.mlp.c_fc",
+      "vision_model.transformer.resblocks.28.mlp.c_proj",
+      "vision_model.transformer.resblocks.29.attn.out_proj",
+      "vision_model.transformer.resblocks.29.attn.qkv_proj",
+      "vision_model.transformer.resblocks.29.ln_1",
+      "vision_model.transformer.resblocks.29.ln_2",
+      "vision_model.transformer.resblocks.29.mlp.c_fc",
+      "vision_model.transformer.resblocks.29.mlp.c_proj",
+      "vision_model.transformer.resblocks.3.attn.out_proj",
+      "vision_model.transformer.resblocks.3.attn.qkv_proj",
+      "vision_model.transformer.resblocks.3.ln_1",
+      "vision_model.transformer.resblocks.3.ln_2",
+      "vision_model.transformer.resblocks.3.mlp.c_fc",
+      "vision_model.transformer.resblocks.3.mlp.c_proj",
+      "vision_model.transformer.resblocks.30.attn.out_proj",
+      "vision_model.transformer.resblocks.30.attn.qkv_proj",
+      "vision_model.transformer.resblocks.30.ln_1",
+      "vision_model.transformer.resblocks.30.ln_2",
+      "vision_model.transformer.resblocks.30.mlp.c_fc",
+      "vision_model.transformer.resblocks.30.mlp.c_proj",
+      "vision_model.transformer.resblocks.31.attn.out_proj",
+      "vision_model.transformer.resblocks.31.attn.qkv_proj",
+      "vision_model.transformer.resblocks.31.ln_1",
+      "vision_model.transformer.resblocks.31.ln_2",
+      "vision_model.transformer.resblocks.31.mlp.c_fc",
+      "vision_model.transformer.resblocks.31.mlp.c_proj",
+      "vision_model.transformer.resblocks.32.attn.out_proj",
+      "vision_model.transformer.resblocks.32.attn.qkv_proj",
+      "vision_model.transformer.resblocks.32.ln_1",
+      "vision_model.transformer.resblocks.32.ln_2",
+      "vision_model.transformer.resblocks.32.mlp.c_fc",
+      "vision_model.transformer.resblocks.32.mlp.c_proj",
+      "vision_model.transformer.resblocks.33.attn.out_proj",
+      "vision_model.transformer.resblocks.33.attn.qkv_proj",
+      "vision_model.transformer.resblocks.33.ln_1",
+      "vision_model.transformer.resblocks.33.ln_2",
+      "vision_model.transformer.resblocks.33.mlp.c_fc",
+      "vision_model.transformer.resblocks.33.mlp.c_proj",
+      "vision_model.transformer.resblocks.34.attn.out_proj",
+      "vision_model.transformer.resblocks.34.attn.qkv_proj",
+      "vision_model.transformer.resblocks.34.ln_1",
+      "vision_model.transformer.resblocks.34.ln_2",
+      "vision_model.transformer.resblocks.34.mlp.c_fc",
+      "vision_model.transformer.resblocks.34.mlp.c_proj",
+      "vision_model.transformer.resblocks.35.attn.out_proj",
+      "vision_model.transformer.resblocks.35.attn.qkv_proj",
+      "vision_model.transformer.resblocks.35.ln_1",
+      "vision_model.transformer.resblocks.35.ln_2",
+      "vision_model.transformer.resblocks.35.mlp.c_fc",
+      "vision_model.transformer.resblocks.35.mlp.c_proj",
+      "vision_model.transformer.resblocks.36.attn.out_proj",
+      "vision_model.transformer.resblocks.36.attn.qkv_proj",
+      "vision_model.transformer.resblocks.36.ln_1",
+      "vision_model.transformer.resblocks.36.ln_2",
+      "vision_model.transformer.resblocks.36.mlp.c_fc",
+      "vision_model.transformer.resblocks.36.mlp.c_proj",
+      "vision_model.transformer.resblocks.37.attn.out_proj",
+      "vision_model.transformer.resblocks.37.attn.qkv_proj",
+      "vision_model.transformer.resblocks.37.ln_1",
+      "vision_model.transformer.resblocks.37.ln_2",
+      "vision_model.transformer.resblocks.37.mlp.c_fc",
+      "vision_model.transformer.resblocks.37.mlp.c_proj",
+      "vision_model.transformer.resblocks.38.attn.out_proj",
+      "vision_model.transformer.resblocks.38.attn.qkv_proj",
+      "vision_model.transformer.resblocks.38.ln_1",
+      "vision_model.transformer.resblocks.38.ln_2",
+      "vision_model.transformer.resblocks.38.mlp.c_fc",
+      "vision_model.transformer.resblocks.38.mlp.c_proj",
+      "vision_model.transformer.resblocks.39.attn.out_proj",
+      "vision_model.transformer.resblocks.39.attn.qkv_proj",
+      "vision_model.transformer.resblocks.39.ln_1",
+      "vision_model.transformer.resblocks.39.ln_2",
+      "vision_model.transformer.resblocks.39.mlp.c_fc",
+      "vision_model.transformer.resblocks.39.mlp.c_proj",
+      "vision_model.transformer.resblocks.4.attn.out_proj",
+      "vision_model.transformer.resblocks.4.attn.qkv_proj",
+      "vision_model.transformer.resblocks.4.ln_1",
+      "vision_model.transformer.resblocks.4.ln_2",
+      "vision_model.transformer.resblocks.4.mlp.c_fc",
+      "vision_model.transformer.resblocks.4.mlp.c_proj",
+      "vision_model.transformer.resblocks.40.attn.out_proj",
+      "vision_model.transformer.resblocks.40.attn.qkv_proj",
+      "vision_model.transformer.resblocks.40.ln_1",
+      "vision_model.transformer.resblocks.40.ln_2",
+      "vision_model.transformer.resblocks.40.mlp.c_fc",
+      "vision_model.transformer.resblocks.40.mlp.c_proj",
+      "vision_model.transformer.resblocks.41.attn.out_proj",
+      "vision_model.transformer.resblocks.41.attn.qkv_proj",
+      "vision_model.transformer.resblocks.41.ln_1",
+      "vision_model.transformer.resblocks.41.ln_2",
+      "vision_model.transformer.resblocks.41.mlp.c_fc",
+      "vision_model.transformer.resblocks.41.mlp.c_proj",
+      "vision_model.transformer.resblocks.42.attn.out_proj",
+      "vision_model.transformer.resblocks.42.attn.qkv_proj",
+      "vision_model.transformer.resblocks.42.ln_1",
+      "vision_model.transformer.resblocks.42.ln_2",
+      "vision_model.transformer.resblocks.42.mlp.c_fc",
+      "vision_model.transformer.resblocks.42.mlp.c_proj",
+      "vision_model.transformer.resblocks.43.attn.out_proj",
+      "vision_model.transformer.resblocks.43.attn.qkv_proj",
+      "vision_model.transformer.resblocks.43.ln_1",
+      "vision_model.transformer.resblocks.43.ln_2",
+      "vision_model.transformer.resblocks.43.mlp.c_fc",
+      "vision_model.transformer.resblocks.43.mlp.c_proj",
+      "vision_model.transformer.resblocks.44.attn.out_proj",
+      "vision_model.transformer.resblocks.44.attn.qkv_proj",
+      "vision_model.transformer.resblocks.44.ln_1",
+      "vision_model.transformer.resblocks.44.ln_2",
+      "vision_model.transformer.resblocks.44.mlp.c_fc",
+      "vision_model.transformer.resblocks.44.mlp.c_proj",
+      "vision_model.transformer.resblocks.45.attn.out_proj",
+      "vision_model.transformer.resblocks.45.attn.qkv_proj",
+      "vision_model.transformer.resblocks.45.ln_1",
+      "vision_model.transformer.resblocks.45.ln_2",
+      "vision_model.transformer.resblocks.45.mlp.c_fc",
+      "vision_model.transformer.resblocks.45.mlp.c_proj",
+      "vision_model.transformer.resblocks.46.attn.out_proj",
+      "vision_model.transformer.resblocks.46.attn.qkv_proj",
+      "vision_model.transformer.resblocks.46.ln_1",
+      "vision_model.transformer.resblocks.46.ln_2",
+      "vision_model.transformer.resblocks.46.mlp.c_fc",
+      "vision_model.transformer.resblocks.46.mlp.c_proj",
+      "vision_model.transformer.resblocks.5.attn.out_proj",
+      "vision_model.transformer.resblocks.5.attn.qkv_proj",
+      "vision_model.transformer.resblocks.5.ln_1",
+      "vision_model.transformer.resblocks.5.ln_2",
+      "vision_model.transformer.resblocks.5.mlp.c_fc",
+      "vision_model.transformer.resblocks.5.mlp.c_proj",
+      "vision_model.transformer.resblocks.6.attn.out_proj",
+      "vision_model.transformer.resblocks.6.attn.qkv_proj",
+      "vision_model.transformer.resblocks.6.ln_1",
+      "vision_model.transformer.resblocks.6.ln_2",
+      "vision_model.transformer.resblocks.6.mlp.c_fc",
+      "vision_model.transformer.resblocks.6.mlp.c_proj",
+      "vision_model.transformer.resblocks.7.attn.out_proj",
+      "vision_model.transformer.resblocks.7.attn.qkv_proj",
+      "vision_model.transformer.resblocks.7.ln_1",
+      "vision_model.transformer.resblocks.7.ln_2",
+      "vision_model.transformer.resblocks.7.mlp.c_fc",
+      "vision_model.transformer.resblocks.7.mlp.c_proj",
+      "vision_model.transformer.resblocks.8.attn.out_proj",
+      "vision_model.transformer.resblocks.8.attn.qkv_proj",
+      "vision_model.transformer.resblocks.8.ln_1",
+      "vision_model.transformer.resblocks.8.ln_2",
+      "vision_model.transformer.resblocks.8.mlp.c_fc",
+      "vision_model.transformer.resblocks.8.mlp.c_proj",
+      "vision_model.transformer.resblocks.9.attn.out_proj",
+      "vision_model.transformer.resblocks.9.attn.qkv_proj",
+      "vision_model.transformer.resblocks.9.ln_1",
+      "vision_model.transformer.resblocks.9.ln_2",
+      "vision_model.transformer.resblocks.9.mlp.c_fc",
+      "vision_model.transformer.resblocks.9.mlp.c_proj",
+      "vision_model.vit_downsampler1",
+      "vision_model.vit_downsampler2",
+      "vit_large_projector"
+    ]
+  }
+}

configuration_step_vl.py ADDED Viewed

	@@ -0,0 +1,76 @@

+from typing import Any, Optional, Union
+from transformers.configuration_utils import PretrainedConfig
+from transformers import Qwen3Config
+class StepRoboticsVisionEncoderConfig(PretrainedConfig):
+    def __init__(
+        self,
+        width=1536,
+        layers=47,
+        heads=16,
+        num_channels=3,
+        image_size=728,
+        mlp_ratio = 8960/1536,
+        patch_size=14,
+        hidden_act="quick_gelu",
+        layer_norm_eps=1e-5,
+        ues_cls_token=False,
+        use_ln_pre=True,
+        use_ln_post=False,
+        use_abs_posemb=True,
+        use_rope2d=True,
+        ls_init_value=0.1,
+        **kwargs,
+    ):
+        self.width = width
+        self.layers = layers
+        self.heads = heads
+        self.num_channels = num_channels
+        self.patch_size = patch_size
+        self.image_size = image_size
+        self.mlp_ratio = mlp_ratio
+        self.layer_norm_eps = layer_norm_eps
+        self.hidden_act = hidden_act
+        self.ues_cls_token = ues_cls_token
+        self.use_ln_pre = use_ln_pre
+        self.ls_init_value = ls_init_value
+        self.use_ln_post = use_ln_post
+        self.use_abs_posemb = use_abs_posemb
+        self.use_rope2d = use_rope2d
+        super().__init__(**kwargs)
+class StepRoboticsConfig(PretrainedConfig):
+    model_type = "step_robotics"
+    architectures = ["StepVLForConditionalGeneration"]
+    def __init__(
+        self,
+        vision_config: Optional[Union[dict, StepRoboticsVisionEncoderConfig]] = None,
+        text_config: Optional[Union[dict, Qwen3Config]] = None,
+        understand_projector_stride: int = 2,
+        projector_bias: bool = False,
+        image_token_id: int = 151679,
+        **kwargs,
+    ) -> None:
+        if vision_config is None:
+            vision_config = StepRoboticsVisionEncoderConfig()
+        elif isinstance(vision_config, dict):
+            vision_config = StepRoboticsVisionEncoderConfig(**vision_config)
+        self.vision_config = vision_config
+        if text_config is None:
+            text_config = Qwen3Config()
+        elif isinstance(text_config, dict):
+            text_config = Qwen3Config(**text_config)
+        self.text_config = text_config
+        self.understand_projector_stride = understand_projector_stride
+        self.projector_bias = projector_bias
+        self.hidden_size = text_config.hidden_size
+        self.image_token_id = image_token_id
+        # Help Auto classes find the correct implementation when saving/loading.
+        super().__init__(**kwargs)

generation_config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+	"temperature": 1.0,
+	"top_p": 1.0,
+	"top_k": 0,
+	"eos_token_id":[
+	    151643,
+            151645,
+            151679
+        ]
+}

modeling_step_vl.py ADDED Viewed

	@@ -0,0 +1,557 @@

+# Copyright 2025 The STEPFUN and HuggingFace Inc. team. All rights reserved.
+#
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+from dataclasses import dataclass
+from typing import Callable, Optional, Tuple, Union
+from PIL import Image
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from transformers import Qwen3Model
+from transformers.cache_utils import Cache, DynamicCache
+from transformers.generation import GenerationMixin
+from transformers.modeling_outputs import BaseModelOutputWithPast, ModelOutput
+from transformers.modeling_utils import PreTrainedModel
+from transformers.processing_utils import Unpack
+from transformers.utils import TransformersKwargs, can_return_tuple, logging
+from typing import Any, Literal, Optional, TypedDict, Union
+from .configuration_step_vl import StepRoboticsConfig
+from .vision_encoder import StepRoboticsVisionEncoder
+logger = logging.get_logger(__name__)
+class StepVLImagePixelInputs(TypedDict):
+    type: Literal["pixel_values"]
+    pixel_values: torch.Tensor
+    patch_pixel_values: Optional[torch.Tensor]
+    num_patches: list[int]
+class StepVLImageEmbeddingInputs(TypedDict):
+    type: Literal["image_embeds"]
+    image_embeds: torch.Tensor
+StepVLImageInputs = Union[StepVLImagePixelInputs,
+                           StepVLImageEmbeddingInputs]
+@dataclass
+class StepVLCausalLMOutputWithPast(ModelOutput):
+    r"""
+    loss (`torch.FloatTensor` of shape `(1,)`, *optional*, returned when `labels` is provided):
+        Language modeling loss (for next-token prediction).
+    logits (`torch.FloatTensor` of shape `(batch_size, sequence_length, config.vocab_size)`):
+        Prediction scores of the language modeling head (scores for each vocabulary token before SoftMax).
+    past_key_values (`Cache`, *optional*, returned when `use_cache=True` is passed or when `config.use_cache=True`):
+        Tuple of `tuple(torch.FloatTensor)` of length `config.n_layers`, with each tuple having 2 tensors of shape
+        `(batch_size, num_heads, sequence_length, embed_size_per_head)`)
+        Contains pre-computed hidden-states (key and values in the self-attention blocks) that can be used (see
+        `past_key_values` input) to speed up sequential decoding.
+    """
+    loss: Optional[torch.FloatTensor] = None
+    last_hidden_state: Optional[torch.FloatTensor] = None
+    logits: torch.FloatTensor = None
+    past_key_values: Optional[list[torch.FloatTensor]] = None
+    hidden_states: Optional[tuple[torch.FloatTensor]] = None
+    attentions: Optional[tuple[torch.FloatTensor]] = None
+    image_hidden_states: Optional[torch.FloatTensor] = None
+def _flatten_embeddings(embeddings) -> torch.Tensor:
+    """
+    Recursively flattens and concatenates NestedTensors on all but the last
+    dimension.
+    """
+    if isinstance(embeddings, torch.Tensor):
+        # Flatten all but the last dimension.
+        return embeddings.flatten(0, -2)
+    return torch.cat(tuple(_flatten_embeddings(t) for t in embeddings))
+def _embedding_count_expression(embeddings) -> str:
+    """
+    Constructs a debugging representation of the number of embeddings in the
+    NestedTensors.
+    """
+    if isinstance(embeddings, torch.Tensor):
+        return " x ".join([str(dim) for dim in embeddings.shape[:-1]])
+    return " + ".join(
+        _embedding_count_expression(inner) for inner in embeddings)
+def _merge_multimodal_embeddings(
+    inputs_embeds: torch.Tensor,
+    is_multimodal: torch.Tensor,
+    multimodal_embeddings,
+) -> torch.Tensor:
+    """
+    Merge ``multimodal_embeddings`` into ``inputs_embeds`` by overwriting the
+    positions in ``inputs_embeds`` corresponding to placeholder tokens in
+    ``input_ids``.
+    Note:
+        This updates ``inputs_embeds`` in place.
+    """
+    num_expected_tokens = is_multimodal.sum().item()
+    assert isinstance(num_expected_tokens, int)
+    flattened = _flatten_embeddings(multimodal_embeddings)
+    if flattened.shape[0] != num_expected_tokens:
+        expr = _embedding_count_expression(multimodal_embeddings)
+        raise ValueError(
+            f"Attempted to assign {expr} = {flattened.shape[0]} "
+            f"multimodal tokens to {num_expected_tokens} placeholders")
+    is_multimodal = is_multimodal.to(inputs_embeds.device)
+    flattened = flattened.to(inputs_embeds.device)
+    inputs_embeds[is_multimodal] = flattened
+    return inputs_embeds
+def merge_multimodal_embeddings(
+    input_ids: torch.Tensor,
+    inputs_embeds: torch.Tensor,
+    multimodal_embeddings,
+    placeholder_token_id: Union[int, list[int]],
+) -> torch.Tensor:
+    """
+    Merge ``multimodal_embeddings`` into ``inputs_embeds`` by overwriting the
+    positions in ``inputs_embeds`` corresponding to placeholder tokens in
+    ``input_ids``.
+    ``placeholder_token_id`` can be a list of token ids (e.g, token ids
+    of img_start, img_break, and img_end tokens) when needed: This means
+    the order of these tokens in the ``input_ids`` MUST MATCH the order of
+    their embeddings in ``multimodal_embeddings`` since we need to
+    slice-merge instead of individually scattering.
+    For example, if input_ids is "TTTTTSIIIBIIIBIIIETTT", where
+    - T is text token
+    - S is image start token
+    - I is image embedding token
+    - B is image break token
+    - E is image end token.
+    Then the image embeddings (that correspond to I's) from vision encoder
+    must be padded with embeddings of S, B, and E in the same order of
+    input_ids for a correct embedding merge.
+    Note:
+        This updates ``inputs_embeds`` in place.
+    """
+    if isinstance(placeholder_token_id, list):
+        placeholder_token_id = torch.tensor(placeholder_token_id,
+                                            device=input_ids.device)
+        return _merge_multimodal_embeddings(
+            inputs_embeds,
+            torch.isin(input_ids, placeholder_token_id),
+            multimodal_embeddings,
+        )
+    return _merge_multimodal_embeddings(
+        inputs_embeds,
+        (input_ids == placeholder_token_id),
+        multimodal_embeddings,
+    )
+class StepRoboticsPreTrainedModel(PreTrainedModel):
+    # Link this model family to its configuration class so PreTrainedModel.from_pretrained
+    # can load the config instead of failing with a NoneType error.
+    config_class = StepRoboticsConfig
+    supports_gradient_checkpointing = True
+    _skip_keys_device_placement = ["past_key_values"]
+    _supports_flash_attn = False
+    _supports_sdpa = True
+    _supports_flex_attn = True
+    _supports_static_cache = True
+    _supports_attention_backend = True
+class StepRoboticsModel(StepRoboticsPreTrainedModel, GenerationMixin):
+    config: StepRoboticsConfig
+    base_model_prefix = ""
+    def __init__(self, config: StepRoboticsConfig):
+        super().__init__(config)
+        self.vision_model = StepRoboticsVisionEncoder(config.vision_config)
+        self.language_model = Qwen3Model(config.text_config)
+        self.vocab_size = config.text_config.vocab_size
+        self.vit_large_projector = nn.Linear(
+                config.vision_config.width * 4,
+                config.text_config.hidden_size,
+                bias=config.projector_bias)
+        self.image_placeholder_token_id = config.image_token_id
+        # Initialize weights and apply final processing
+        self.post_init()
+    def get_input_embeddings(
+        self,
+        input_ids: torch.Tensor,
+        multimodal_embeddings  = None,
+    ) -> torch.Tensor:
+        input_ids = input_ids.squeeze(0)
+        if multimodal_embeddings is None:
+            inputs_embeds = self.language_model.embed_tokens(input_ids)
+        else:
+            is_text = input_ids != self.config.image_token_id
+            text_ids = input_ids[is_text]
+            text_embeds = self.language_model.embed_tokens(text_ids)
+            inputs_embeds = torch.empty(input_ids.shape[0],
+                                        text_embeds.shape[-1],
+                                        dtype=text_embeds.dtype,
+                                        device=text_embeds.device)
+            inputs_embeds[is_text] = text_embeds
+            inputs_embeds = merge_multimodal_embeddings(
+                input_ids, inputs_embeds, multimodal_embeddings,
+                self.config.image_token_id)
+        inputs_embeds = inputs_embeds.unsqueeze(0)
+        return inputs_embeds
+    def set_input_embeddings(self, value):
+        return self.language_model.set_input_embeddings(value)
+    def set_decoder(self, decoder):
+        self.language_model = decoder
+    def get_decoder(self):
+        return self.language_model
+    def _parse_and_validate_image_input(
+            self, **kwargs: object) -> Optional[StepVLImageInputs]:
+        pixel_values = kwargs.pop("pixel_values", None)
+        patch_pixel_values = kwargs.pop("patch_pixel_values", None)
+        num_patches = kwargs.pop("num_patches", None)
+        image_embeds = kwargs.pop("image_embeds", None)
+        if pixel_values is None and image_embeds is None:
+            return None
+        if pixel_values is not None:
+            # pixel_values = flatten_bn(pixel_values, concat=True)
+            if pixel_values.dim() >= 3:
+                pixel_values = pixel_values.view(-1, *pixel_values.shape[-3:])
+            if patch_pixel_values is not None:
+                # patch_pixel_values = flatten_bn(patch_pixel_values,
+                #                                 concat=True)
+                patch_pixel_values = patch_pixel_values.view(
+                    -1, *patch_pixel_values.shape[-3:])
+                # Handle empty patch_pixel_values by setting to None
+                if patch_pixel_values.shape[0] == 0:
+                    patch_pixel_values = None
+            return StepVLImagePixelInputs(
+                type="pixel_values",
+                pixel_values=pixel_values.to(self.dtype).to(self.device),
+                patch_pixel_values=patch_pixel_values.to(self.dtype).to(
+                    self.device) if patch_pixel_values is not None else None,
+                num_patches=num_patches,
+            )
+        if image_embeds is not None:
+            if image_embeds.dim() == 2 or image_embeds.dim() >= 3:
+                image_embeds = image_embeds.view(-1, image_embeds.shape[-1])
+            else:
+                raise ValueError(
+                    f"Unexpected shape for image_embeds: {image_embeds.shape}")
+            return StepVLImageEmbeddingInputs(
+                type="image_embeds",
+                image_embeds=image_embeds.to(self.dtype).to(self.device),
+            )
+        return None
+    def _process_image_features(self,
+                                image_features: torch.Tensor) -> torch.Tensor:
+        B, P = image_features.shape[:2]
+        HW = int(P ** 0.5)
+        image_features = image_features.permute(0, 2, 1).view(B, -1, HW, HW)
+        image_features = self.vision_model.vit_downsampler1(image_features)
+        image_features = self.vision_model.vit_downsampler2(image_features)
+        B, C, HW, HW = image_features.shape
+        image_features = image_features.view(B, -1, HW * HW).permute(0, 2, 1)
+        image_features = self.vit_large_projector(image_features)
+        return image_features
+    def _get_vision_model_output(self,
+                                 input_tensor: torch.Tensor) -> torch.Tensor:
+        return self.vision_model(input_tensor)
+    def _process_image_input(
+            self, image_input: StepVLImageInputs) -> tuple[torch.Tensor, ...]:
+        if image_input["type"] == "image_embeds":
+            image_features = image_input["image_embeds"]
+        else:
+            image_features = self._get_vision_model_output(
+                image_input["pixel_values"])
+            patch_image_features = self._get_vision_model_output(
+                image_input["patch_pixel_values"]
+            ) if image_input["patch_pixel_values"] is not None else None
+            num_patches = image_input["num_patches"]
+        image_features = self._process_image_features(image_features)
+        patch_image_features = self._process_image_features(
+            patch_image_features) if patch_image_features is not None else None
+        merged_image_features = []
+        cur_patch_idx = 0
+        for i, num_patch in enumerate(num_patches):
+            cur_feature = []
+            if num_patch > 0:
+                patch_slice = patch_image_features[
+                    cur_patch_idx:cur_patch_idx + num_patch]
+                cur_feature.append(patch_slice.view(-1, patch_slice.shape[-1]))
+            cur_feature.append(image_features[i].view(
+                -1, image_features.shape[-1]))
+            cur_patch_idx += num_patch
+            merged_image_features.append(
+                torch.cat(cur_feature) if len(cur_feature) >
+                1 else cur_feature[0])
+        return merged_image_features
+    def get_multimodal_embeddings(self, **kwargs):
+        image_input = self._parse_and_validate_image_input(**kwargs)
+        if image_input is None:
+            return None
+        vision_embeddings = self._process_image_input(image_input)
+        return vision_embeddings
+    @can_return_tuple
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[Union[Cache, list[torch.FloatTensor]]] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        cache_position: Optional[torch.LongTensor] = None,
+        logits_to_keep: Union[int, torch.Tensor] = 0,
+        images: Optional[list[Image.Image]] = None,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> Union[tuple, StepVLCausalLMOutputWithPast]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
+            config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
+            (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
+        Example:
+        ```python
+        >>> from transformers import AutoTokenizer, Llama4ForCausalLM
+        >>> model = Llama4ForCausalLM.from_pretrained("meta-llama4/Llama4-2-7b-hf")
+        >>> tokenizer = AutoTokenizer.from_pretrained("meta-llama4/Llama4-2-7b-hf")
+        >>> prompt = "Hey, are you conscious? Can you talk to me?"
+        >>> inputs = tokenizer(prompt, return_tensors="pt")
+        >>> # Generate
+        >>> generate_ids = model.generate(inputs.input_ids, max_length=30)
+        >>> tokenizer.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+        "Hey, are you conscious? Can you talk to me?\nI'm not conscious, but I can talk to you."
+        ```"""
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        return_dict = return_dict if return_dict is not None else self.config.use_return_dict
+        if inputs_embeds is None:
+            input_ids = input_ids
+            vision_embeddings = self.get_multimodal_embeddings(**kwargs)
+            inputs_embeds = self.get_input_embeddings(input_ids,
+                                                      vision_embeddings)
+            input_ids = None
+        # decoder outputs consists of (dec_features, layer_state, dec_hidden, dec_attn)
+        outputs = self.language_model(
+            input_ids=None,
+            position_ids=position_ids,
+            attention_mask=attention_mask,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=True,
+            cache_position=cache_position,
+            **kwargs,
+        )
+        output = StepVLCausalLMOutputWithPast(
+            last_hidden_state=outputs.last_hidden_state,
+            past_key_values=outputs.past_key_values,
+            attentions=outputs.attentions,
+        )
+        return output if return_dict else output.to_tuple()
+class Step3VL10BForCausalLM(StepRoboticsPreTrainedModel, GenerationMixin):
+    _checkpoint_conversion_mapping = {
+        "^vision_model": "model.vision_model",
+        r"^model(?!\.(language_model|vision_model))": "model.language_model",
+        "^vit_large_projector": "model.vit_large_projector"
+        }
+    _tied_weights_keys = ["lm_head.weight"]
+    config: StepRoboticsConfig
+    def __init__(self, config: StepRoboticsConfig):
+        super().__init__(config)
+        self.model = StepRoboticsModel(config)
+        self.lm_head = nn.Linear(config.hidden_size, config.text_config.vocab_size, bias=False)
+        self.post_init()
+    def get_input_embeddings(self):
+        return self.model.get_input_embeddings()
+    def set_input_embeddings(self, value):
+        self.model.set_input_embeddings(value)
+    def get_output_embeddings(self):
+        return self.model.get_output_embeddings()
+    def set_output_embeddings(self, new_embeddings):
+        self.model.set_output_embeddings(new_embeddings)
+    def set_decoder(self, decoder):
+        self.model.set_decoder(decoder)
+    def get_decoder(self):
+        return self.model.get_decoder()
+    @property
+    def language_model(self):
+        return self.model.language_model
+    @property
+    def visual(self):
+        return self.model.visual
+    def forward(
+        self,
+        input_ids: torch.LongTensor = None,
+        num_patches = None,
+        patch_pixel_values = None,
+        patch_newline_mask = None,
+        attention_mask: Optional[torch.Tensor] = None,
+        position_ids: Optional[torch.LongTensor] = None,
+        past_key_values: Optional[Cache] = None,
+        inputs_embeds: Optional[torch.FloatTensor] = None,
+        labels: Optional[torch.LongTensor] = None,
+        use_cache: Optional[bool] = None,
+        output_attentions: Optional[bool] = None,
+        output_hidden_states: Optional[bool] = None,
+        return_dict: Optional[bool] = None,
+        cache_position: Optional[torch.LongTensor] = None,
+        **kwargs: Unpack[TransformersKwargs],
+    ) -> Union[tuple, StepVLCausalLMOutputWithPast]:
+        r"""
+        labels (`torch.LongTensor` of shape `(batch_size, sequence_length)`, *optional*):
+            Labels for computing the masked language modeling loss. Indices should either be in `[0, ...,
+            config.vocab_size]` or -100 (see `input_ids` docstring). Tokens with indices set to `-100` are ignored
+            (masked), the loss is only computed for the tokens with labels in `[0, ..., config.vocab_size]`.
+        Example:
+        ```python
+        >>> from PIL import Image
+        >>> import requests
+        >>> from transformers import AutoProcessor, LlavaForConditionalGeneration
+        >>> model = LlavaForConditionalGeneration.from_pretrained("llava-hf/llava-1.5-7b-hf")
+        >>> processor = AutoProcessor.from_pretrained("llava-hf/llava-1.5-7b-hf")
+        >>> prompt = "USER: <image>\nWhat's the content of the image? ASSISTANT:"
+        >>> url = "https://www.ilankelman.org/stopsigns/australia.jpg"
+        >>> image = Image.open(requests.get(url, stream=True).raw)
+        >>> inputs = processor(images=image, text=prompt, return_tensors="pt")
+        >>> # Generate
+        >>> generate_ids = model.generate(**inputs, max_new_tokens=15)
+        >>> processor.batch_decode(generate_ids, skip_special_tokens=True, clean_up_tokenization_spaces=False)[0]
+        "USER:  \nWhat's the content of the image? ASSISTANT: The image features a busy city street with a stop sign prominently displayed"
+        ```"""
+        output_attentions = output_attentions if output_attentions is not None else self.config.output_attentions
+        output_hidden_states = (
+            output_hidden_states if output_hidden_states is not None else self.config.output_hidden_states
+        )
+        outputs = self.model(
+            input_ids=input_ids,
+            num_patches = num_patches,
+            patch_pixel_values = patch_pixel_values,
+            patch_newline_mask=patch_newline_mask,
+            position_ids=position_ids,
+            attention_mask=attention_mask,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            use_cache=use_cache,
+            output_attentions=output_attentions,
+            output_hidden_states=output_hidden_states,
+            return_dict=return_dict,
+            cache_position=cache_position,
+            **kwargs,
+        )
+        hidden_states = outputs.last_hidden_state
+        logits = self.lm_head(hidden_states)
+        los = None
+        if labels is not None:
+            loss = self.loss_function(logits=logits, labels=labels, vocab_size=self.config.vocab_size)
+        return StepVLCausalLMOutputWithPast(
+            logits=logits,
+        )
+    def prepare_inputs_for_generation(
+        self,
+        input_ids,
+        past_key_values=None,
+        inputs_embeds=None,
+        pixel_values=None,
+        attention_mask=None,
+        cache_position=None,
+        logits_to_keep=None,
+        **kwargs,
+    ):
+        # Overwritten -- in specific circumstances we don't want to forward image inputs to the model
+        model_inputs = super().prepare_inputs_for_generation(
+            input_ids,
+            past_key_values=past_key_values,
+            inputs_embeds=inputs_embeds,
+            attention_mask=attention_mask,
+            cache_position=cache_position,
+            logits_to_keep=logits_to_keep,
+            **kwargs,
+        )
+        if cache_position[0] == 0:
+            # If we're in cached decoding stage, pixel values should be None because input ids do not contain special image token anymore
+            # Otherwise we need pixel values to be passed to model
+            model_inputs["pixel_values"] = pixel_values
+        return model_inputs
+    def _fix_state_dict_key_on_load(self, key: str) -> tuple[str, bool]:
+        if key.startswith("language_model."):
+            return key[len("language_model."):], True
+        return key, False

processing_step3.py ADDED Viewed

	@@ -0,0 +1,464 @@

+from transformers import BaseImageProcessor, ImageProcessingMixin
+from transformers.processing_utils import ImagesKwargs, MultiModalData, ProcessingKwargs, ProcessorMixin, Unpack, VideosKwargs
+import math
+from typing import Iterable, Optional, Tuple, List, TypedDict, Literal, Union, overload
+from PIL import Image
+import torch
+import numpy as np
+import torchvision
+from torch import nn
+from torch.nn import functional as F, LayerNorm
+from torchvision.transforms.functional import InterpolationMode
+from transformers.activations import ACT2FN
+from torchvision import transforms
+from torchvision.transforms.functional import InterpolationMode
+from transformers.feature_extraction_utils import BatchFeature, TensorType
+from transformers.image_utils import ImageInput
+from transformers.processing_utils import ProcessingKwargs, ProcessorMixin, Unpack
+from math import ceil
+from itertools import product
+MAX_IMAGE_SIZE: int = 3024
+class Step3VLImagePixelInputs(TypedDict):
+    type: Literal["pixel_values"]
+    pixel_values: torch.Tensor
+    patch_pixel_values: Optional[torch.Tensor]
+    num_patches: list[int]
+class Step3VLImageEmbeddingInputs(TypedDict):
+    type: Literal["image_embeds"]
+    image_embeds: torch.Tensor
+ImageWithPatches = tuple[Image.Image, list[Image.Image], list[int] | None]
+class GPUToTensor(torch.nn.Module):
+    def forward(self, raw_image: Union[np.ndarray,
+                                       Image.Image]) -> torch.Tensor:
+        if isinstance(raw_image, Image.Image):
+            return transforms.ToTensor()(raw_image)
+        if raw_image.ndim == 2:
+            raw_image = raw_image[:, :, None].repeat(3, -1)
+        if torch.cuda.is_available():
+            device = torch.device("cuda")
+        else:
+            device = torch.device("cpu")
+        image_tensor = torch.from_numpy(raw_image).to(device)
+        image_tensor = torch.permute(image_tensor, (2, 0, 1)).contiguous()
+        if image_tensor.dtype == torch.uint8:
+            image_tensor = image_tensor.to(torch.float32).div(255)
+        return image_tensor
+class Step3VisionProcessor(BaseImageProcessor):
+    def __init__(self, size, interpolation_mode="bicubic", patch_size=None):
+        mean = [0.48145466, 0.4578275, 0.40821073]
+        std = [0.26862954, 0.26130258, 0.27577711]
+        patch_size = patch_size if patch_size is not None else size
+        self.transform = transforms.Compose([
+            GPUToTensor(),
+            transforms.Normalize(mean, std),
+            transforms.Resize(
+                (size, size),
+                interpolation=InterpolationMode.BICUBIC if interpolation_mode
+                == "bicubic" else InterpolationMode.BILINEAR,
+                antialias=True),
+        ])
+        self.patch_transform = transforms.Compose([
+            GPUToTensor(),
+            transforms.Normalize(mean, std),
+            transforms.Resize(
+                (patch_size, patch_size),
+                interpolation=InterpolationMode.BICUBIC if interpolation_mode
+                == "bicubic" else InterpolationMode.BILINEAR,
+                antialias=True),
+        ]) if patch_size is not None else None
+    def __call__(self, image, is_patch=False):
+        if is_patch:
+            return {"pixel_values": self.patch_transform(image).unsqueeze(0)}
+        else:
+            return {"pixel_values": self.transform(image).unsqueeze(0)}
+class ImagePatcher:
+    def determine_window_size(self, long: int, short: int) -> int:
+        if long <= 728:
+            return short if long / short > 1.5 else 0
+        return min(short, 504) if long / short > 4 else 504
+    def slide_window(
+        self,
+        width: int,
+        height: int,
+        sizes: list[tuple[int, int]],
+        steps: list[tuple[int, int]],
+        img_rate_thr: float = 0.6,
+    ) -> tuple[list[tuple[int, int, int, int]], tuple[int, int]]:
+        assert 1 >= img_rate_thr >= 0, "The `in_rate_thr` should lie in 0~1"
+        windows = []
+        # Sliding windows.
+        for size, step in zip(sizes, steps):
+            size_w, size_h = size
+            step_w, step_h = step
+            x_num = 1 if width <= size_w else ceil((width - size_w) / step_w +
+                                                   1)
+            x_start = [step_w * i for i in range(x_num)]
+            if len(x_start) > 1 and x_start[-1] + size_w > width:
+                x_start[-1] = width - size_w
+            y_num = 1 if height <= size_h else ceil((height - size_h) /
+                                                    step_h + 1)
+            y_start = [step_h * i for i in range(y_num)]
+            if len(y_start) > 1 and y_start[-1] + size_h > height:
+                y_start[-1] = height - size_h
+            start = np.array(list(product(y_start, x_start)), dtype=int)
+            start[:, [0, 1]] = start[:, [1, 0]]
+            windows.append(np.concatenate([start, start + size], axis=1))
+        windows = np.concatenate(windows, axis=0)
+        return [(int(box[0]), int(box[1]), int(box[2] - box[0]),
+                 int(box[3] - box[1])) for box in windows], (x_num, y_num)
+    def square_pad(self, img: Image.Image) -> Image.Image:
+        w, h = img.size
+        if w == h:
+            return img
+        size = max(w, h)
+        padded = Image.new(img.mode, (size, size), 0)
+        padded.paste(img, (0, 0))
+        return padded
+    def get_image_size_for_padding(self, img_width: int,
+                                   img_height: int) -> tuple[int, int]:
+        ratio = img_width / img_height
+        if min(img_height, img_width) < 32 and (ratio > 4 or ratio < 1 / 4):
+            new_size = max(img_height, img_width)
+            return new_size, new_size
+        return img_width, img_height
+    def get_image_size_for_preprocess(self, img_width: int,
+                                      img_height: int) -> tuple[int, int]:
+        if max(img_height, img_width) > MAX_IMAGE_SIZE:
+            scale_factor = MAX_IMAGE_SIZE / max(img_height, img_width)
+            img_width = int(img_width * scale_factor)
+            img_height = int(img_height * scale_factor)
+        return img_width, img_height
+    def get_image_size_for_crop(self, img_width: int, img_height: int,
+                                window_size: int):
+        w_ratio = img_width / window_size
+        h_ratio = img_height / window_size
+        if w_ratio < 1:
+            width_new = img_width
+        else:
+            decimal_w = w_ratio - img_width // window_size
+            w_ratio = int(w_ratio) + 1 if decimal_w > 0.2 else int(w_ratio)
+            width_new = window_size * w_ratio
+        if h_ratio < 1:
+            height_new = img_height
+        else:
+            decimal_h = h_ratio - img_height // window_size
+            h_ratio = int(h_ratio) + 1 if decimal_h > 0.2 else int(h_ratio)
+            height_new = window_size * h_ratio
+        return int(width_new), int(height_new)
+    def patch_crop(self, img: Image.Image, i: int, j: int, th: int, tw: int):
+        target = img.crop((j, i, j + tw, i + th))
+        return target
+    def get_num_patches(self, img_width: int,
+                        img_height: int) -> tuple[int, int]:
+        img_width, img_height = self.get_image_size_for_padding(
+            img_width, img_height)
+        img_width, img_height = self.get_image_size_for_preprocess(
+            img_width, img_height)
+        window_size = self.determine_window_size(max(img_height, img_width),
+                                                 min(img_height, img_width))
+        if window_size == 0:
+            return 0, 0
+        else:
+            img_width, img_height = self.get_image_size_for_crop(
+                img_width, img_height, window_size)
+            center_list, (x_num, y_num) = self.slide_window(
+                img_width, img_height, [(window_size, window_size)],
+                [(window_size, window_size)])
+            full_rows = (len(center_list) - 1) // x_num + 1
+            if len(center_list) > 0 and len(center_list) % x_num == 0:
+                full_rows -= 1
+            return len(center_list), full_rows
+    def __call__(
+        self, img: Image.Image
+    ) -> tuple[Image.Image, list[Image.Image], list[bool] | None]:
+        img_width, img_height = img.size
+        new_img_width, new_img_height = self.get_image_size_for_padding(
+            img_width, img_height)
+        if new_img_width != img_width or new_img_height != img_height:
+            img = self.square_pad(img)
+            img_width, img_height = img.size
+        new_img_width, new_img_height = self.get_image_size_for_preprocess(
+            img_width, img_height)
+        img = img.resize((new_img_width, new_img_height),
+                         Image.Resampling.BILINEAR)
+        window_size = self.determine_window_size(
+            max(new_img_height, new_img_width),
+            min(new_img_height, new_img_width))
+        if window_size == 0:
+            return img, [], None
+        else:
+            new_img_width, new_img_height = self.get_image_size_for_crop(
+                new_img_width, new_img_height, window_size)
+            if (new_img_width, new_img_height) != (img_width, img_height):
+                img_for_crop = img.resize((new_img_width, new_img_height),
+                                          Image.Resampling.BILINEAR)
+            else:
+                img_for_crop = img
+            patches = []
+            newlines = []
+            center_list, (x_num, y_num) = self.slide_window(
+                new_img_width, new_img_height, [(window_size, window_size)],
+                [(window_size, window_size)])
+            for patch_id, center_lf_point in enumerate(center_list):
+                x, y, patch_w, patch_h = center_lf_point
+                big_patch = self.patch_crop(img_for_crop, y, x, patch_h,
+                                            patch_w)
+                patches.append(big_patch)
+                if (patch_id + 1) % x_num == 0:
+                    newlines.append(patch_id)
+            if newlines and newlines[-1] == len(patches) - 1:
+                newlines.pop()
+            return img, patches, [i in newlines for i in range(len(patches))] if len(patches) > 0 else None
+class Step3VLProcessor(ProcessorMixin):
+    # Align ProcessorMixin with our custom components.
+    # We only have an image processor (not a feature extractor) plus a tokenizer.
+    attributes = ["tokenizer"]
+    tokenizer_class = "AutoTokenizer"
+    def __init__(
+        self,
+        tokenizer=None,
+        chat_template=None,
+        **kwargs
+    ) -> None:
+        self.image_size = 728
+        self.patch_size = 504
+        self.image_preprocessor = Step3VisionProcessor(self.image_size,
+                                                       "bilinear",
+                                                       self.patch_size)
+        self.num_image_feature_size = 169
+        self.num_patch_feature_size = 81
+        self.image_token = "<im_patch>"
+        self.image_feature_placeholder = (self.image_token *
+                                          self.num_image_feature_size)
+        self.patch_feature_placeholder = (self.image_token *
+                                          self.num_patch_feature_size)
+        super().__init__(tokenizer=tokenizer, chat_template=chat_template, **kwargs)
+        self.patcher = ImagePatcher()
+    @property
+    def image_token_id(self) -> int:
+        return self.tokenizer.get_vocab()[self.image_token]
+    def get_num_image_tokens(self, img_width: int, img_height: int) -> int:
+        num_patches, num_newlines = self.patcher.get_num_patches(
+            img_width, img_height)
+        return num_patches * (
+            self.num_patch_feature_size +
+            2) + self.num_image_feature_size + 2 + num_newlines
+    def _split_images(self,
+                      images: list[Image.Image]) -> list[ImageWithPatches]:
+        result = []
+        for img in images:
+            result.append(self.patcher(img))
+        return result
+    def _convert_images_to_pixel_values(
+        self,
+        images: list[Image.Image],
+        is_patch: bool = False,
+    ) -> list[torch.Tensor]:
+        return [
+            self.image_preprocessor(img, is_patch=is_patch)["pixel_values"]
+            for img in images
+        ]
+    def _get_patch_repl(
+        self,
+        num_patches: int,
+        patch_newline_mask: list[bool] | None,
+    ) -> tuple[str, list[int]]:
+        text = ""
+        token_ids = []
+        for i in range(num_patches):
+            assert len(patch_newline_mask) == num_patches
+            text += f"<patch_start>{self.patch_feature_placeholder}<patch_end>"
+            token_ids.extend(
+                [self.tokenizer.convert_tokens_to_ids("<patch_start>")] +
+                [self.image_token_id] * self.num_patch_feature_size +
+                [self.tokenizer.convert_tokens_to_ids("<patch_end>")])
+            if patch_newline_mask and patch_newline_mask[i]:
+                text += "<patch_newline>"
+                token_ids.append(
+                    self.tokenizer.convert_tokens_to_ids("<patch_newline>"))
+        return text, token_ids
+    def _get_image_repl(
+        self,
+        num_images: int,
+    ) -> tuple[str, list[int]]:
+        text = f"<im_start>{self.image_feature_placeholder}<im_end>"
+        token_ids = [
+            self.tokenizer.convert_tokens_to_ids("<im_start>")
+        ] + [self.image_token_id] * self.num_image_feature_size + [
+            self.tokenizer.convert_tokens_to_ids("<im_end>")
+        ]
+        return text * num_images, token_ids * num_images
+    def _get_image_repl_features(
+        self,
+        num_images: int,
+        num_patches: int,
+        patch_new_line_idx: Optional[list[bool]],
+    ) -> tuple[str, list[int]]:
+        if num_patches > 0:
+            patch_repl, patch_repl_ids = self._get_patch_repl(
+                num_patches, patch_new_line_idx)
+        else:
+            patch_repl = ""
+            patch_repl_ids = []
+        image_repl, image_repl_ids = self._get_image_repl(num_images)
+        return patch_repl + image_repl, patch_repl_ids + image_repl_ids
+    def replace_placeholder(self, text: str, placeholder: str,
+                            repls: list[str]) -> str:
+        parts = text.split(placeholder)
+        if len(parts) - 1 != len(repls):
+            raise ValueError(
+                "The number of placeholders does not match the number of replacements."  # noqa: E501
+            )
+        result = [parts[0]]
+        for i, repl in enumerate(repls):
+            result.append(repl)
+            result.append(parts[i + 1])
+        return "".join(result)
+    def __call__(
+        self,
+        text: Optional[Union[str, list[str]]] = None,
+        images: ImageInput | None = None,
+        return_tensors: Optional[Union[str, TensorType]] = None,
+        **kwargs,
+    ) -> BatchFeature:
+        if images is not None:
+            images = self.image_preprocessor.fetch_images(images)
+        if text is None:
+            text = []
+        if not isinstance(text, list):
+            text = [text]
+        if images is None:
+            images = []
+        elif not isinstance(images, list):
+            images = [images]
+        elif isinstance(images[0], list):
+            images = images[0]
+        if len(images) == 0:
+            image_inputs = {}
+            text_inputs = self.tokenizer(text)
+        else:
+            splitted_images_data = self._split_images(images)
+            pixel_values_lst = []
+            patch_pixel_values_lst = []
+            patch_newline_mask_lst = []
+            image_repl_str_lst = []
+            image_repl_ids_lst = []
+            num_patches = []
+            for raw_img, img_patches, patch_newline_mask in splitted_images_data:  # noqa: E501
+                pixel_values_lst.extend(
+                    self._convert_images_to_pixel_values([raw_img]))
+                if len(img_patches) > 0:
+                    patch_pixel_values_lst.extend(
+                        self._convert_images_to_pixel_values(img_patches,
+                                                             is_patch=True))
+                num_patches.append(len(img_patches))
+                image_repl_str, image_repl_ids = self._get_image_repl_features(
+                    1, len(img_patches), patch_newline_mask)
+                image_repl_str_lst.append(image_repl_str)
+                image_repl_ids_lst.extend(image_repl_ids)
+                if patch_newline_mask is not None:
+                    patch_newline_mask_lst.extend(patch_newline_mask)
+            image_inputs = {
+                "pixel_values": torch.cat(pixel_values_lst),
+                "num_patches": num_patches,
+            }
+            if patch_pixel_values_lst:
+                image_inputs["patch_pixel_values"] = torch.cat(
+                    patch_pixel_values_lst)
+            if patch_newline_mask_lst:
+                image_inputs["patch_newline_mask"] = torch.tensor(
+                    patch_newline_mask_lst, dtype=torch.bool)
+            text = [
+                self.replace_placeholder(t, self.image_token,
+                                         image_repl_str_lst) for t in text
+            ]
+            text_inputs = self.tokenizer(text)
+        return BatchFeature(
+            {
+                **text_inputs,
+                **image_inputs,
+            },
+            tensor_type=return_tensors,
+        )
+    # Copied from transformers.models.clip.processing_clip.CLIPProcessor.batch_decode with CLIP->Gemma
+    def batch_decode(self, *args, **kwargs):
+        """
+        This method forwards all its arguments to GemmaTokenizerFast's [`~PreTrainedTokenizer.batch_decode`]. Please
+        refer to the docstring of this method for more information.
+        """
+        return self.tokenizer.batch_decode(*args, **kwargs)
+    # Copied from transformers.models.clip.processing_clip.CLIPProcessor.decode with CLIP->Gemma
+    def decode(self, *args, **kwargs):
+        """
+        This method forwards all its arguments to GemmaTokenizerFast's [`~PreTrainedTokenizer.decode`]. Please refer to
+        the docstring of this method for more information.
+        """
+        return self.tokenizer.decode(*args, **kwargs)
+__all__ = ["Step3VLProcessor"]

processor_config.json ADDED Viewed

	@@ -0,0 +1,6 @@

+{
+  "auto_map": {
+    "AutoProcessor": "processing_step3.Step3VLProcessor"
+  }
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,270 @@

+{
+  "additional_special_tokens": [
+    {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<tool_calls>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "</tool_calls>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|BOT|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|CALL_START|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|CALL_END|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|THINK_START|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|THINK_END|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|IMG_START|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|IMG_END|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<im_patch>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<im_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<im_end>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<dream>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<dream_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<dream_end>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|MASK_1e69f|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<|UNMASK_1e69f|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<video_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<video_end>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<patch_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<patch_end>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    },
+    {
+      "content": "<patch_newline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false
+    }
+  ],
+  "eos_token": {
+    "content": "<|im_end|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "<|endoftext|>",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,446 @@

+{
+  "add_bos_token": false,
+  "add_prefix_space": false,
+  "added_tokens_decoder": {
+    "151643": {
+      "content": "<|endoftext|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151644": {
+      "content": "<|im_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151645": {
+      "content": "<|im_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151646": {
+      "content": "<|object_ref_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151647": {
+      "content": "<|object_ref_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151648": {
+      "content": "<|box_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151649": {
+      "content": "<|box_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151650": {
+      "content": "<|quad_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151651": {
+      "content": "<|quad_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151652": {
+      "content": "<|vision_start|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151653": {
+      "content": "<|vision_end|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151654": {
+      "content": "<|vision_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151655": {
+      "content": "<|image_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151656": {
+      "content": "<|video_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151657": {
+      "content": "<tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151658": {
+      "content": "</tool_call>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151659": {
+      "content": "<|fim_prefix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151660": {
+      "content": "<|fim_middle|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151661": {
+      "content": "<|fim_suffix|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151662": {
+      "content": "<|fim_pad|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151663": {
+      "content": "<|repo_name|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151664": {
+      "content": "<|file_sep|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151665": {
+      "content": "<tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151666": {
+      "content": "</tool_response>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151667": {
+      "content": "<think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151668": {
+      "content": "</think>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": false
+    },
+    "151669": {
+      "content": "<tool_calls>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151670": {
+      "content": "</tool_calls>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151671": {
+      "content": "<|EOT|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151672": {
+      "content": "<|BOT|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151673": {
+      "content": "<|CALL_START|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151674": {
+      "content": "<|CALL_END|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151675": {
+      "content": "<|THINK_START|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151676": {
+      "content": "<|THINK_END|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151677": {
+      "content": "<|IMG_START|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151678": {
+      "content": "<|IMG_END|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151679": {
+      "content": "<im_patch>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151680": {
+      "content": "<im_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151681": {
+      "content": "<im_end>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151682": {
+      "content": "<dream>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151683": {
+      "content": "<dream_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151684": {
+      "content": "<dream_end>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151685": {
+      "content": "<|MASK_1e69f|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151686": {
+      "content": "<|UNMASK_1e69f|>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151687": {
+      "content": "<video_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151688": {
+      "content": "<video_end>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151689": {
+      "content": "<patch_start>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151690": {
+      "content": "<patch_end>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "151691": {
+      "content": "<patch_newline>",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "additional_special_tokens": [
+    "<|im_start|>",
+    "<|im_end|>",
+    "<|object_ref_start|>",
+    "<|object_ref_end|>",
+    "<|box_start|>",
+    "<|box_end|>",
+    "<|quad_start|>",
+    "<|quad_end|>",
+    "<|vision_start|>",
+    "<|vision_end|>",
+    "<|vision_pad|>",
+    "<|image_pad|>",
+    "<|video_pad|>",
+    "<tool_calls>",
+    "</tool_calls>",
+    "<|EOT|>",
+    "<|BOT|>",
+    "<|CALL_START|>",
+    "<|CALL_END|>",
+    "<|THINK_START|>",
+    "<|THINK_END|>",
+    "<|IMG_START|>",
+    "<|IMG_END|>",
+    "<im_patch>",
+    "<im_start>",
+    "<im_end>",
+    "<dream>",
+    "<dream_start>",
+    "<dream_end>",
+    "<|MASK_1e69f|>",
+    "<|UNMASK_1e69f|>",
+    "<video_start>",
+    "<video_end>",
+    "<patch_start>",
+    "<patch_end>",
+    "<patch_newline>"
+  ],
+  "bos_token": null,
+  "clean_up_tokenization_spaces": false,
+  "eos_token": "<|im_end|>",
+  "errors": "replace",
+  "extra_special_tokens": {},
+  "model_max_length": 131072,
+  "pad_token": "<|endoftext|>",
+  "split_special_tokens": false,
+  "tokenizer_class": "Qwen2Tokenizer",
+  "unk_token": null
+}

vision_encoder.py ADDED Viewed

	@@ -0,0 +1,451 @@

+from typing import Literal, Optional, Tuple, Union
+import torch
+import torch.nn as nn
+import torch.nn.functional as F
+from einops import rearrange, repeat
+from transformers.activations import ACT2FN
+from configuration_step_vl import StepRoboticsVisionEncoderConfig
+def rotate_half(x: torch.Tensor) -> torch.Tensor:
+    """Rotate last dimension halves (used by RoPE)."""
+    x = rearrange(x, "... (d r) -> ... d r", r=2)
+    x1, x2 = x.unbind(dim=-1)
+    x = torch.stack((-x2, x1), dim=-1)
+    return rearrange(x, "... d r -> ... (d r)")
+def apply_rotary_emb(freqs: torch.Tensor,
+                     t: torch.Tensor,
+                     start_index: int = 0,
+                     scale: float = 1.0,
+                     seq_dim: int = -2) -> torch.Tensor:
+    """Apply 2D rotary embeddings to queries / keys."""
+    dtype = t.dtype
+    if t.ndim == 3:
+        seq_len = t.shape[seq_dim]
+        freqs = freqs[-seq_len:]
+    rot_dim = freqs.shape[-1]
+    end_index = start_index + rot_dim
+    assert rot_dim <= t.shape[-1], (
+        f"feature dimension {t.shape[-1]} is too small for rot_dim {rot_dim}")
+    t_left, t, t_right = (
+        t[..., :start_index],
+        t[..., start_index:end_index],
+        t[..., end_index:],
+    )
+    t = (t * freqs.cos() * scale) + (rotate_half(t) * freqs.sin() * scale)
+    out = torch.cat((t_left, t, t_right), dim=-1)
+    return out.type(dtype)
+class EncoderRope2D(nn.Module):
+    """Cacheable 2D rotary positional embedding."""
+    def __init__(
+        self,
+        dim: int,
+        max_grid_height: int,
+        max_grid_width: int,
+        use_cls_token: bool = False,
+        theta: Union[int, float] = 10000,
+        max_freq: int = 10,
+        num_freqs: int = 1,
+        theta_rescale_factor: float = 1.0,
+    ):
+        super().__init__()
+        self.dim = dim
+        self.max_grid_height = max_grid_height
+        self.max_grid_width = max_grid_width
+        self.use_cls_token = use_cls_token
+        self.theta = theta * theta_rescale_factor**(dim / (dim - 2))
+        self.max_freq = max_freq
+        self.num_freqs = num_freqs
+        cache = self._compute_2d_freqs()
+        self.register_buffer("freqs_cache", cache, persistent=False)
+    def _compute_inv_freq(self, base: Union[int, float],
+                          dim: int) -> torch.Tensor:
+        freqs = 1.0 / (base**(
+            torch.arange(0, dim, 2)[:(dim // 2)].float() / dim))
+        return freqs
+    def _compute_freqs(self, t: torch.Tensor, inv_freq: torch.Tensor):
+        freqs = torch.einsum("..., f -> ... f", t.type(inv_freq.dtype),
+                             inv_freq)
+        freqs = repeat(freqs, "... n -> ... (n r)", r=2)
+        return freqs
+    def _compute_2d_freqs(self) -> torch.Tensor:
+        grid_h_range = torch.arange(self.max_grid_height, dtype=torch.float)
+        grid_w_range = torch.arange(self.max_grid_width, dtype=torch.float)
+        if self.use_cls_token:
+            grid_h_range += 1
+            grid_w_range += 1
+        inv_freq = self._compute_inv_freq(self.theta, self.dim // 2)
+        freqs_h = self._compute_freqs(grid_h_range, inv_freq)[:, None].expand(
+            self.max_grid_height, self.max_grid_width, -1)
+        freqs_w = self._compute_freqs(grid_w_range, inv_freq)[None, :].expand(
+            self.max_grid_height, self.max_grid_width, -1)
+        freqs = torch.cat([freqs_w, freqs_h], dim=-1).reshape(
+            self.max_grid_height * self.max_grid_width, -1)
+        if self.use_cls_token:
+            freqs = torch.cat([torch.zeros(1, freqs.shape[-1]), freqs], dim=0)
+        freqs = freqs[None, None, ...]
+        return freqs
+    def forward(self, q: torch.Tensor, k: torch.Tensor,
+                grid_hw: tuple[int, int]):
+        # If grid matches cached shape we reuse directly to avoid recomputation.
+        if grid_hw[0] != self.max_grid_height or grid_hw[1] != self.max_grid_width:
+            rows = torch.arange(grid_hw[0], device=q.device).view(-1, 1)
+            cols = torch.arange(grid_hw[1], device=q.device).view(1, -1)
+            positions = (rows * self.max_grid_width + cols).reshape(-1).to(
+                torch.long)
+            if self.use_cls_token:
+                positions = torch.cat(
+                    [torch.zeros(1, device=q.device), positions + 1], dim=0)
+            freqs = self.freqs_cache.index_select(2, positions)
+        else:
+            freqs = self.freqs_cache
+        q = apply_rotary_emb(freqs, q)
+        k = apply_rotary_emb(freqs, k)
+        return q, k
+class EncoderLayerScale(nn.Module):
+    """Per-channel residual scaling used when ls_init_value is set."""
+    def __init__(self, dim: int, init_values: float):
+        super().__init__()
+        self.gamma = nn.Parameter(torch.full((dim,), init_values))
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:  # (B, L, D)
+        return hidden_states * self.gamma
+class EncoderMLP(nn.Module):
+    """Feed-forward network used inside each transformer block."""
+    def __init__(self, hidden_size: int, intermediate_size: int,
+                 hidden_act: str):
+        super().__init__()
+        self.c_fc = nn.Linear(hidden_size, intermediate_size, bias=True)
+        self.act_fn = ACT2FN[hidden_act]
+        self.c_proj = nn.Linear(intermediate_size, hidden_size, bias=True)
+    def forward(self, hidden_states: torch.Tensor) -> torch.Tensor:
+        hidden_states = self.c_proj(self.act_fn(self.c_fc(hidden_states)))
+        return hidden_states
+class EncoderVisionAttention(nn.Module):
+    """Multi-head self attention with optional 2D RoPE."""
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        max_grid_height: int,
+        max_grid_width: int,
+        use_cls_token: bool = False,
+        use_rope2d: bool = True,
+        rope_theta: Union[int, float] = 10000,
+        rope_max_freq: int = 10,
+        rope_num_freqs: int = 1,
+        rope_theta_rescale_factor: float = 1.0,
+        rope_freqs_for: Literal["lang", "pixel", "constant"] = "lang",
+    ):
+        super().__init__()
+        if hidden_size % num_heads != 0:
+            raise ValueError(
+                f"hidden_size ({hidden_size}) must be divisible by num_heads ({num_heads})."
+            )
+        self.num_heads = num_heads
+        self.head_dim = hidden_size // num_heads
+        self.scale = self.head_dim**-0.5
+        self.in_proj_weight = nn.Parameter(torch.zeros(hidden_size * 3, hidden_size))
+        self.in_proj_bias = nn.Parameter(torch.zeros(hidden_size * 3))
+        self.out_proj = nn.Linear(hidden_size, hidden_size, bias=True)
+        self.rope = None
+        if use_rope2d:
+            self.rope = EncoderRope2D(
+                dim=self.head_dim,
+                max_grid_height=max_grid_height,
+                max_grid_width=max_grid_width,
+                use_cls_token=use_cls_token,
+                theta=rope_theta,
+                max_freq=rope_max_freq,
+                num_freqs=rope_num_freqs,
+                theta_rescale_factor=rope_theta_rescale_factor,
+            )
+    def forward(self, hidden_states: torch.Tensor, grid_hw: tuple[int, int]) -> torch.Tensor:
+        bsz, seq_len, _ = hidden_states.shape
+        qkv = F.linear(
+            hidden_states,
+            self.in_proj_weight,
+            self.in_proj_bias,
+        )
+        q, k, v = qkv.chunk(3, dim=-1)
+        q = q.view(bsz, seq_len, self.num_heads,
+                   self.head_dim).transpose(1, 2)
+        k = k.view(bsz, seq_len, self.num_heads,
+                   self.head_dim).transpose(1, 2)
+        if self.rope is not None:
+            q, k = self.rope(q, k, grid_hw=grid_hw)
+        v = v.view(bsz, seq_len, self.num_heads,
+                   self.head_dim).transpose(1, 2)
+        attn_output = F.scaled_dot_product_attention(
+            q, k, v, is_causal=False, scale=self.scale)
+        attn_output = attn_output.transpose(1, 2).reshape(
+            bsz, seq_len, self.num_heads * self.head_dim)
+        return self.out_proj(attn_output)
+class EncoderVisionBlock(nn.Module):
+    """A single Vision Transformer block (self-attention + MLP)."""
+    def __init__(
+        self,
+        hidden_size: int,
+        num_heads: int,
+        mlp_ratio: float,
+        hidden_act: str,
+        layer_norm_eps: float,
+        ls_init_value: Optional[float] = None,
+        max_grid_height: Optional[int] = None,
+        max_grid_width: Optional[int] = None,
+        use_cls_token: bool = False,
+        use_rope2d: bool = True,
+        rope_kwargs: Optional[dict] = None,
+    ):
+        super().__init__()
+        rope_kwargs = rope_kwargs or {}
+        self.attn = EncoderVisionAttention(
+            hidden_size,
+            num_heads,
+            max_grid_height=max_grid_height,
+            max_grid_width=max_grid_width,
+            use_cls_token=use_cls_token,
+            use_rope2d=use_rope2d,
+            **rope_kwargs,
+        )
+        self.ln_1 = nn.LayerNorm(hidden_size, eps=layer_norm_eps)
+        self.ln_2 = nn.LayerNorm(hidden_size, eps=layer_norm_eps)
+        intermediate = int(hidden_size * mlp_ratio)
+        self.mlp = EncoderMLP(hidden_size, intermediate, hidden_act)
+        self.ls_1 = EncoderLayerScale(hidden_size, ls_init_value)
+        self.ls_2 = EncoderLayerScale(hidden_size, ls_init_value)
+    def forward(self, hidden_states: torch.Tensor,
+                grid_hw: tuple[int, int]) -> torch.Tensor:
+        # breakpoint()
+        residual = hidden_states
+        hidden_states = self.ln_1(hidden_states)
+        hidden_states = self.attn(hidden_states, grid_hw=grid_hw)
+        hidden_states = residual + self.ls_1(hidden_states)
+        residual = hidden_states
+        hidden_states = self.ln_2(hidden_states)
+        hidden_states = self.mlp(hidden_states)
+        hidden_states = residual + self.ls_2(hidden_states)
+        return hidden_states
+class EncoderVisionTransformer(nn.Module):
+    """Stack of encoder blocks parameterised by Step35VisionEncoderConfig."""
+    def __init__(
+        self,
+        embed_dim: int,
+        depth: int,
+        num_heads: int,
+        mlp_ratio: float,
+        hidden_act: str,
+        layer_norm_eps: float,
+        ls_init_value: Optional[float] = None,
+        max_grid_height: Optional[int] = None,
+        max_grid_width: Optional[int] = None,
+        use_cls_token: bool = False,
+        use_rope2d: bool = True,
+        rope_kwargs: Optional[dict] = None,
+    ):
+        super().__init__()
+        self.layers = depth
+        rope_kwargs = rope_kwargs or {}
+        self.resblocks = nn.ModuleList([
+            EncoderVisionBlock(embed_dim, num_heads, mlp_ratio, hidden_act,
+                               layer_norm_eps,
+                               max_grid_height=max_grid_height,
+                               max_grid_width=max_grid_width,
+                               use_cls_token=use_cls_token,
+                               use_rope2d=use_rope2d,
+                               ls_init_value=ls_init_value,
+                               rope_kwargs=rope_kwargs)
+            for _ in range(depth)
+        ])
+    def forward(self,
+                hidden_states: torch.Tensor,
+                grid_hw: tuple[int, int]) -> torch.Tensor:
+        for block in self.resblocks:
+            hidden_states = block(hidden_states, grid_hw=grid_hw)
+        return hidden_states
+class StepRoboticsVisionEncoder(nn.Module):
+    """
+    Vision encoder built from StepRoboticsVisionEncoderConfig.
+    The encoder performs patch embedding followed by a stack of transformer
+    blocks. Only the config fields defined in StepRoboticsVisionEncoderConfig (and
+    StepRoboticVLConfig.vision_config) are expected.
+    """
+    def __init__(self, config: StepRoboticsVisionEncoderConfig):
+        super().__init__()
+        self.config = config
+        # Align commonly used attributes so downstream code (e.g. StepRoboticVL)
+        # can access them without extra renaming.
+        self.hidden_size = config.width
+        self.num_heads = config.heads
+        self.num_hidden_layers = config.layers
+        self.patch_size = config.patch_size
+        self.image_size = config.image_size
+        self.use_cls_token = getattr(config, "use_cls_token", False)
+        self.use_rope2d = getattr(config, "use_rope2d", True)
+        self.use_abs_posemb = getattr(config, "use_abs_posemb", True)
+        self.layer_norm_eps = config.layer_norm_eps
+        self.mlp_ratio = getattr(config, "mlp_ratio", 8960 / 1536)
+        self.ls_init_value = getattr(config, "ls_init_value", None)
+        self.hidden_act = config.hidden_act
+        self.use_ln_pre = getattr(config, "use_ln_pre", False)
+        self.use_ln_post = getattr(config, "use_ln_post", True)
+        # Patch embedding.
+        self.conv1 = nn.Conv2d(in_channels=config.num_channels,
+                               out_channels=self.hidden_size,
+                               kernel_size=self.patch_size,
+                               stride=self.patch_size,
+                               bias=False)
+        self.ln_pre = nn.LayerNorm(self.hidden_size, eps=self.layer_norm_eps) if self.use_ln_pre else nn.Identity()
+        self.ln_post =  nn.LayerNorm(self.hidden_size, eps=self.layer_norm_eps) if self.use_ln_post else nn.Identity()
+        grid_size = self.image_size // self.patch_size
+        self.base_grid = (grid_size, grid_size)
+        if self.use_cls_token:
+            self.class_embedding = nn.Parameter(
+                torch.randn(self.hidden_size) * (self.hidden_size**-0.5))
+        else:
+            self.class_embedding = None
+        if self.use_abs_posemb:
+            self.posemb_grid_size = self.image_size // self.patch_size
+            self.positional_embedding = nn.Parameter(
+                (self.hidden_size**-0.5) * torch.randn(
+                    int(self.use_cls_token) + self.posemb_grid_size**2,
+                    self.hidden_size,
+                ))
+        self.transformer = EncoderVisionTransformer(
+            embed_dim=self.hidden_size,
+            depth=self.num_hidden_layers,
+            num_heads=self.num_heads,
+            mlp_ratio=self.mlp_ratio,
+            hidden_act=self.hidden_act,
+            layer_norm_eps=self.layer_norm_eps,
+            ls_init_value=self.ls_init_value,
+            max_grid_height=self.base_grid[0],
+            max_grid_width=self.base_grid[1],
+            use_cls_token=self.use_cls_token,
+            use_rope2d=self.use_rope2d,
+            rope_kwargs={
+                "rope_theta": getattr(config, "rope_theta", 10000),
+                "rope_max_freq": getattr(config, "rope_max_freq", 10),
+                "rope_num_freqs": getattr(config, "rope_num_freqs", 1),
+                "rope_theta_rescale_factor":
+                getattr(config, "rope_theta_rescale_factor", 1.0),
+                "rope_freqs_for": getattr(config, "rope_freqs_for", "lang"),
+            },
+        )
+        self.vit_downsampler1 = nn.Conv2d(self.hidden_size,
+                                          self.hidden_size * 2,
+                                          kernel_size=3,
+                                          stride=2,
+                                          padding=1)
+        self.vit_downsampler2 = nn.Conv2d(self.hidden_size * 2,
+                                          self.hidden_size * 4,
+                                          kernel_size=3,
+                                          stride=2,
+                                          padding=1)
+    def sample_abs_posemb(self, grid_h: int, grid_w: int):
+        if self.posemb_grid_size == grid_h and self.posemb_grid_size == grid_w:
+            return self.positional_embedding[None, ...]
+        pos_embed = self.positional_embedding
+        if self.use_cls_token:
+            cls_token_embed, pos_embed = pos_embed[:1], pos_embed[1:]
+        pos_embed = (pos_embed.reshape(1, self.posemb_grid_size,
+                                       self.posemb_grid_size,
+                                       -1).permute(0, 3, 1, 2).contiguous())
+        pos_embed = F.interpolate(pos_embed,
+                                  size=(grid_h, grid_w),
+                                  mode="bilinear",
+                                  align_corners=False)
+        pos_embed = pos_embed.permute(0, 2, 3, 1).reshape(-1, self.hidden_size)
+        if self.use_cls_token:
+            pos_embed = torch.cat([cls_token_embed, pos_embed], dim=0)
+        return pos_embed[None, ...]
+    def forward(self, pixel_values: torch.Tensor) -> torch.Tensor:
+        """
+        Args:
+            pixel_values: Image tensor of shape (B, C, H, W).
+            layer_idx: Negative indices stop after a given block (e.g., -1 uses all blocks).
+            strip_cls_token: If True and cls token is used, remove it from output.
+        """
+        bsz, _, height, width = pixel_values.shape
+        grid_h, grid_w = height // self.patch_size, width // self.patch_size
+        hidden_state = self.conv1(pixel_values)  # (B, D, Gh, Gw)
+        hidden_state = hidden_state.flatten(2).transpose(1, 2)  # (B, Gh*Gw, D)
+        if self.use_cls_token:
+            cls_token = self.class_embedding.view(1, 1,
+                                                  -1).expand(bsz, -1, -1)
+            hidden_state = torch.cat([cls_token, hidden_state], dim=1)
+        if self.use_abs_posemb:
+            pos_emb = self.sample_abs_posemb(grid_h, grid_w)
+            hidden_state = hidden_state + pos_emb
+        hidden_state = self.ln_pre(hidden_state)
+        hidden_state = self.transformer(hidden_state, grid_hw=(grid_h, grid_w))
+        if self.use_ln_post:
+            hidden_state = self.ln_post(hidden_state)
+        if self.use_cls_token:
+            hidden_state = hidden_state[:, 1:, :]
+        return hidden_state