OpenMOSS-Team
/

moss-video-preview-sft

Video-Text-to-Text

text-generation

vision-language

text-generation-inference

Model card Files Files and versions

findcard12138 commited on 26 days ago

Commit

8e0065c

·

verified ·

1 Parent(s): 8a2c43f

Upload moss-video-sft

Files changed (1) hide show

README.md +1 -1

README.md CHANGED Viewed

@@ -30,7 +30,7 @@ This checkpoint is intended for:
 #### Model Architecture
-MOSS-Video-Preview is built on a **Llama-3.2-Vision** backbone, featuring a **Pioneering Image-Video Isomorphic Cross-Attention Architecture**:
 - **Native Unified Design**: Unlike traditional projection methods, our architecture provides native, unified support for both image and video understanding, ensuring seamless temporal consistency.
 - **Deep Multimodal Fusion**: Leveraging specialized Cross-Attention mechanisms to achieve high-fidelity alignment between visual temporal features and linguistic context.

 #### Model Architecture
+MOSS-Video-Preview is built on a **Llama-3.2-Vision** backbone, featuring a **Pioneering Image-Video Unified Cross-Attention Architecture**:
 - **Native Unified Design**: Unlike traditional projection methods, our architecture provides native, unified support for both image and video understanding, ensuring seamless temporal consistency.
 - **Deep Multimodal Fusion**: Leveraging specialized Cross-Attention mechanisms to achieve high-fidelity alignment between visual temporal features and linguistic context.