🤝 Open to Collab

Md Selim Sarowar

selim-sarowar

5 3

·

AI & ML interests

Vision Language Action Models, World Models, 5D Robot Manipulation, 3D Computer Vision

Recent Activity

upvoted a paper about 1 month ago

Robots Need More than VLA and World Models

published a dataset about 2 months ago

selim-sarowar/SO-101

liked a dataset 3 months ago

RajatDandekar/so101_box_to_bowl_v2

View all activity

Organizations

None yet

upvoted a paper about 1 month ago

Robots Need More than VLA and World Models

Paper • 2606.06556 • Published Jun 4 • 30

upvoted 4 papers 4 months ago

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Paper • 2603.09079 • Published Mar 10 • 1

Unified Vision-Language-Action Model

Paper • 2506.19850 • Published Jun 24, 2025 • 28

Fast-ThinkAct: Efficient Vision-Language-Action Reasoning via Verbalizable Latent Planning

Paper • 2601.09708 • Published Jan 14 • 56

VLA-JEPA: Enhancing Vision-Language-Action Model with Latent World Model

Paper • 2602.10098 • Published Feb 10 • 22