UCSC-VLAA
/

openvision2-vit-large-patch14-224-vision-only

Model card Files Files and versions

Add model card for OpenVision 2

#1

by nielsr HF Staff - opened Sep 4, 2025

base: refs/heads/main

←

from: refs/pr/1

Discussion Files changed

Files changed (1) hide show

README.md +13 -0

README.md ADDED Viewed

	@@ -0,0 +1,13 @@

+---
+pipeline_tag: image-text-to-text
+---
+# OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning
+This repository hosts the OpenVision 2 model, a family of generative pretrained visual encoders for multimodal learning. As described in the paper [OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning](https://huggingface.co/papers/2509.01644), OpenVision 2 simplifies its predecessor's architecture by removing the text encoder and contrastive loss, relying solely on a captioning loss for a purely generative training signal.
+This simplification significantly enhances training efficiency, reducing both training time and memory consumption, while maintaining competitive performance across a broad range of multimodal benchmarks. The improved efficiency allows for scaling to vision encoders exceeding 1 billion parameters, advocating for a lightweight, generative-only approach in multimodal foundation models.
+- **Paper:** [OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning](https://huggingface.co/papers/2509.01644)
+- **Project Page:** [https://ucsc-vlaa.github.io/OpenVision2/](https://ucsc-vlaa.github.io/OpenVision2/)
+- **GitHub Repository:** [https://github.com/UCSC-VLAA/OpenVision/blob/main/src/main_openvision2.py](https://github.com/UCSC-VLAA/OpenVision/blob/main/src/main_openvision2.py)