🎥 ViBT: Vision Bridge Transformer at Scale

This repository introduces Vision Bridge Transformer (ViBT), a large-scale instantiation of Brownian Bridge Models designed for efficient conditional generation. ViBT directly models the trajectory between inputs and outputs, creating an efficient data-to-data translation paradigm. The models demonstrate effectiveness for various image and video translation tasks, including instruction-based image editing and complex video translation.

Downloads last month: 148

Inference Providers NEW

Any-to-Any

This model isn't deployed by any Inference Provider. 🙋 1 Ask for provider support

Space using Yuanshi/ViBT 1

Collection including Yuanshi/ViBT

ViBT

Collection

3 items • Updated Dec 13, 2025 • 2

Paper for Yuanshi/ViBT

Vision Bridge Transformer at Scale

Paper • 2511.23199 • Published Nov 28, 2025 • 47