Update model card metadata and add links to paper/code

This PR improves the model card for **Innovator-VL-8B-Thinking** by:
1. Updating the `pipeline_tag` to `image-text-to-text` for better categorization.
2. Adding `library_name: transformers` to enable automated code snippets on the Hub.
3. Adding explicit links to the paper, project page, and GitHub repository.
4. Ensuring the model card provides a clear overview of the model's architecture and training stages as described in the technical report.

Files changed (1) hide show

README.md +26 -18

README.md CHANGED Viewed

@@ -1,13 +1,16 @@
 ---
-license: mit
 language:
 - en
 - zh
-pipeline_tag: text-generation
 ---
 # Innovator-VL-8B-Thinking
 ## Introduction
 **Innovator-VL-8B-Thinking** is a multimodal reasoning-oriented large
@@ -41,16 +44,18 @@ for reasoning-intensive multimodal scenarios.
 ### Explicit Multimodal Reasoning
 Innovator-VL-8B-Thinking is trained to explicitly generate structured
-reasoning traces, enabling the model to: - Perform multi-step logical
-deduction grounded in visual evidence - Solve complex mathematical and
-scientific problems - Maintain reasoning consistency across long
-contexts
 ### Reinforcement Learning for Long-Horizon Reasoning
 The model is further optimized using reinforcement learning to
-improve: - Reasoning correctness - Output consistency - Token efficiency
-in long chain-of-thought generation
 Sequence-level optimization enables strong accuracy while significantly
 reducing unnecessary reasoning tokens.
@@ -58,15 +63,16 @@ reducing unnecessary reasoning tokens.
 ### Scientific Reasoning Performance
 Compared to instruction-only models, Innovator-VL-8B-Thinking
-demonstrates substantial gains on: - Multimodal mathematical reasoning
-benchmarks - Scientific reasoning and domain-specific QA - Tasks
-requiring precise step-by-step analysis
 ------------------------------------------------------------------------
 ## Model Architecture
-<img src="assets/innovator_vl_architecture.png" width="600"/>
 -   **Vision Encoder**: RICE-ViT (region-aware visual representation)
 -   **Projector**: PatchMerger for visual token compression
@@ -103,12 +109,12 @@ stage.
 ## Usage Recommendations
-This model is recommended for: - Multimodal mathematical reasoning -
-Scientific problem solving requiring explicit reasoning - Evaluation
-settings emphasizing chain-of-thought quality
-For general instruction-following or latency-sensitive applications, the
-Instruct version is recommended.
 ------------------------------------------------------------------------
@@ -154,7 +160,9 @@ messages = [
                 "type": "image",
                 "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
             },
-            {"type": "text", "text": f"{THINKING_PROMPT}\n\n{question}"},
         ],
     }
 ]

 ---
 language:
 - en
 - zh
+license: mit
+pipeline_tag: image-text-to-text
+library_name: transformers
 ---
 # Innovator-VL-8B-Thinking
+[[Paper](https://huggingface.co/papers/2601.19325)] [[Project Page](https://innovatorlm.github.io/Innovator-VL)] [[GitHub](https://github.com/InnovatorLM/Innovator-VL)] [[Demo](https://huggingface.co/spaces/InnovatorLab/Innovator-VL)]
 ## Introduction
 **Innovator-VL-8B-Thinking** is a multimodal reasoning-oriented large
 ### Explicit Multimodal Reasoning
 Innovator-VL-8B-Thinking is trained to explicitly generate structured
+reasoning traces, enabling the model to:
+- Perform multi-step logical deduction grounded in visual evidence
+- Solve complex mathematical and scientific problems
+- Maintain reasoning consistency across long contexts
 ### Reinforcement Learning for Long-Horizon Reasoning
 The model is further optimized using reinforcement learning to
+improve:
+- Reasoning correctness
+- Output consistency
+- Token efficiency in long chain-of-thought generation
 Sequence-level optimization enables strong accuracy while significantly
 reducing unnecessary reasoning tokens.
 ### Scientific Reasoning Performance
 Compared to instruction-only models, Innovator-VL-8B-Thinking
+demonstrates substantial gains on:
+- Multimodal mathematical reasoning benchmarks
+- Scientific reasoning and domain-specific QA
+- Tasks requiring precise step-by-step analysis
 ------------------------------------------------------------------------
 ## Model Architecture
+<img src="https://huggingface.co/InnovatorLab/Innovator-VL-8B-Thinking/resolve/main/assets/innovator_vl_architecture.png" width="600"/>
 -   **Vision Encoder**: RICE-ViT (region-aware visual representation)
 -   **Projector**: PatchMerger for visual token compression
 ## Usage Recommendations
+This model is recommended for:
+- Multimodal mathematical reasoning
+- Scientific problem solving requiring explicit reasoning
+- Evaluation settings emphasizing chain-of-thought quality
+For general instruction-following or latency-sensitive applications, the Instruct version is recommended.
 ------------------------------------------------------------------------
                 "type": "image",
                 "image": "https://qianwen-res.oss-cn-beijing.aliyuncs.com/Qwen-VL/assets/demo.jpeg",
             },
+            {"type": "text", "text": f"{THINKING_PROMPT}
+{question}"},
         ],
     }
 ]