Ambarella
/

LLaVA-OneVision

cooper_robot commited on Dec 25, 2025

Commit

48eeeff

1 Parent(s): fd151db

Add release note for v1.1.0

Files changed (1) hide show

README.md CHANGED Viewed

@@ -8,7 +8,7 @@ LLaVA-OneVision is a multimodal vision-language model that integrates a pretrain
 Original paper: [LLaVA-OneVision: Easy Visual Task Transfer](https://arxiv.org/abs/2408.03326)
-#LLaVA-OneVision-Qwen2-7B
 This model uses LLaVA-OneVision with Qwen-2 as the language backbone, allowing rich multimodal reasoning and generation capabilities. It is well suited for applications such as image-grounded question answering, multimodal dialogue, and tasks requiring aligned understanding of visual and textual information.

 Original paper: [LLaVA-OneVision: Easy Visual Task Transfer](https://arxiv.org/abs/2408.03326)
+# LLaVA-OneVision-Qwen2-7B
 This model uses LLaVA-OneVision with Qwen-2 as the language backbone, allowing rich multimodal reasoning and generation capabilities. It is well suited for applications such as image-grounded question answering, multimodal dialogue, and tasks requiring aligned understanding of visual and textual information.