utter-project
/

TowerVideo-2B

Video-Text-to-Text

llava_onevision

image-text-to-text

Model card Files Files and versions

Guilherme Viveiros commited on Oct 21, 2025

Commit

06c15b1

·

verified ·

1 Parent(s): 7e676ed

Update README.md

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -33,7 +33,7 @@ license: cc-by-nc-sa-4.0
 # Model Card for TowerVideo
 <p align="left">
-<img src="Tower.png" alt="TowerVision Logo" width="300">
 </p>
 TowerVision is a family of open-source multilingual vision-language models with strong capabilities optimized for a variety of vision-language use cases, including image captioning, visual understanding, summarization, question answering, and more. **TowerVision excels particularly in multimodal multilingual translation benchmarks and culturally-aware tasks**, demonstrating exceptional performance across **20 languages and dialects**.

 # Model Card for TowerVideo
 <p align="left">
+<img src="Tower.png" alt="TowerVision Logo" width="200">
 </p>
 TowerVision is a family of open-source multilingual vision-language models with strong capabilities optimized for a variety of vision-language use cases, including image captioning, visual understanding, summarization, question answering, and more. **TowerVision excels particularly in multimodal multilingual translation benchmarks and culturally-aware tasks**, demonstrating exceptional performance across **20 languages and dialects**.