VISIONx @ NYU

university

https://www.sainingxie.com/

AI & ML interests

None defined yet.

Recent Activity

xcpan authored a paper about 20 hours ago

RepFusion: Leveraging Multimodal Priors for Denoising in Representation Space

sihyun-yu authored a paper 3 days ago

Video Probabilistic Diffusion Models in Projected Latent Space

sihyun-yu authored a paper 3 days ago

Controllable Human Image Generation with Personalized Multi-Garments

View all activity

Papers

Benchmarking Visual State Tracking in Multimodal Video Understanding

PaintBench: Deterministic Evaluation of Precise Visual Editing

View all Papers

nyu-visionx 's papers 7

Submitted by

Pinzhi Huang

Benchmarking Visual State Tracking in Multimodal Video Understanding

nyu-visionx

Submitted by

Ellis Brown

PaintBench: Deterministic Evaluation of Precise Visual Editing

nyu-visionx

Submitted by

taesiri

Solaris: Building a Multiplayer Video World Model in Minecraft

nyu-visionx

Submitted by

BoYang Zheng

Scaling Text-to-Image Diffusion Transformers with Representation Autoencoders

nyu-visionx

Submitted by

Ellis Brown

SIMS-V: Simulated Instruction-Tuning for Spatial Video Understanding

nyu-visionx

Submitted by

Jihan Yang

Benchmark Designers Should "Train on the Test Set" to Expose Exploitable Non-Visual Shortcuts

nyu-visionx

2

Submitted by

Peter Tong

Diffusion Transformers with Representation Autoencoders

nyu-visionx