BAAI
/

Emu3.5-VisionTokenizer

@@ -1,12 +1,14 @@
 ---
 license: apache-2.0
 ---
 <div align='center'>
 <h1>Emu3.5: Native Multimodal Models are World Learners</h1>
 Emu3.5 Team, BAAI
-[Project Page](https://emu.world/) | [🤗HF Models](https://huggingface.co/collections/BAAI/emu35) | [Paper](https://arxiv.org/pdf/2510.26583)
 </div>
@@ -49,6 +51,9 @@ Emu3.5 Team, BAAI
 | Emu3.5-Image                | [🤗 HF link](https://huggingface.co/BAAI/Emu3.5-Image/tree/main) |
 | Emu3.5-VisionTokenizer     | [🤗 HF link](https://huggingface.co/BAAI/Emu3.5-VisionTokenizer/tree/main) |
 ## 2. Quick Start
 ### Environment Setup
@@ -64,7 +69,8 @@ pip install flash_attn==2.8.3 --no-build-isolation
 Edit `configs/config.py` to set:
 - Paths: `model_path`, `vq_path`
-- Task template: `task_type in {t2i, x2i, howto, story, explore, vla}`, `use_image` controls `<|IMAGE|>` usage (set to true when reference images are provided)
 - Sampling: `sampling_params` (classifier_free_guidance, temperature, top_k/top_p, etc.)
 ### Run Inference
@@ -85,9 +91,9 @@ python src/utils/vis_proto.py --input <input_proto_file> --output <output_dir>
 ## 3. Schedule
-- [x] Inference Code
 - [ ] Advanced Image Decoder
-- [ ] Discrete Diffusion Adaptation(DiDA)
 ## 4. Citation
@@ -102,5 +108,4 @@ python src/utils/vis_proto.py --input <input_proto_file> --output <output_dir>
       primaryClass={cs.CV},
       url={https://arxiv.org/abs/2510.26583},
 }
-```

 ---
 license: apache-2.0
+pipeline_tag: image-feature-extraction
 ---
 <div align='center'>
 <h1>Emu3.5: Native Multimodal Models are World Learners</h1>
 Emu3.5 Team, BAAI
+[Project Page](https://emu.world/) | [🤗HF Models](https://huggingface.co/collections/BAAI/emu35) | [Paper](https://arxiv.org/pdf/2510.26583) | [Code](https://github.com/baaivision/Emu3.5)
 </div>
 | Emu3.5-Image                | [🤗 HF link](https://huggingface.co/BAAI/Emu3.5-Image/tree/main) |
 | Emu3.5-VisionTokenizer     | [🤗 HF link](https://huggingface.co/BAAI/Emu3.5-VisionTokenizer/tree/main) |
+**Emu3.5** handles general tasks(including interleaved generation and image generation/editing), while **Emu3.5-Image** focuses on high-quality image generation/editing.
 ## 2. Quick Start
 ### Environment Setup
 Edit `configs/config.py` to set:
 - Paths: `model_path`, `vq_path`
+- Task template: `task_type in {t2i, x2i, howto, story, explore, vla}`
+- Input image: `use_image` (True to provide reference images, controls <|IMAGE|> token); set `reference_image` in each prompt to specify the image path.
 - Sampling: `sampling_params` (classifier_free_guidance, temperature, top_k/top_p, etc.)
 ### Run Inference
 ## 3. Schedule
+- [x] Inference Code(auto-regressive version)
 - [ ] Advanced Image Decoder
+- [ ] Discrete Diffusion Adaptation(DiDA) Inference & Weights
 ## 4. Citation
       primaryClass={cs.CV},
       url={https://arxiv.org/abs/2510.26583},
 }
+```