🤝 Open to Collab

Muhammad Umair

umair894

7 196 311

AI & ML interests

Multimodal Reidentification | Feature Upscaling | Cross-modal alignment | robust generalization | PhD UESTC

Recent Activity

upvoted a paper about 7 hours ago

Scenes as Objects, Not Primitives: Instance-Structured 3D Tokenization from Unposed Views

upvoted a paper 2 days ago

In-Context World Modeling for Robotic Control

liked a Space 2 days ago

baidu/Unlimited-OCR

View all activity

Organizations

upvoted a paper about 7 hours ago

Scenes as Objects, Not Primitives: Instance-Structured 3D Tokenization from Unposed Views

Paper • 2606.29513 • Published 4 days ago • 31

upvoted a paper 2 days ago

In-Context World Modeling for Robotic Control

Paper • 2606.26025 • Published 7 days ago • 61

upvoted a paper 7 days ago

Wan-Streamer v0.1: End-to-end Real-time Interactive Foundation Models

Paper • 2606.25041 • Published 9 days ago • 109

upvoted a paper 9 days ago

PerceptionDLM: Parallel Region Perception with Multimodal Diffusion Language Models

Paper • 2606.19534 • Published 15 days ago • 64

upvoted a paper 12 days ago

DF3DV-1K: A Large-Scale Dataset and Benchmark for Distractor-Free Novel View Synthesis

Paper • 2604.13416 • Published 14 days ago • 33

upvoted a paper 13 days ago

Guava: An Effective and Universal Harness for Embodied Manipulation

Paper • 2606.18363 • Published 16 days ago • 28

upvoted a paper 16 days ago

Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

Paper • 2606.06036 • Published 28 days ago • 75

upvoted a paper 19 days ago

MiniMax Sparse Attention

Paper • 2606.13392 • Published 21 days ago • 148

upvoted a paper 20 days ago

Toward Generalist Autonomous Research via Hypothesis-Tree Refinement

Paper • 2606.11926 • Published 22 days ago • 126

upvoted 3 papers 21 days ago

Your UnEmbedding Matrix is Secretly a Feature Lens for Text Embeddings

Paper • 2606.07502 • Published 27 days ago • 99

SCAIL-2: Unifying Controlled Character Animation with End-to-end In-Context Conditioning

Paper • 2606.10804 • Published 23 days ago • 51

ABot-Earth 0.5: Generative 3D Earth Model

Paper • 2606.09967 • Published 24 days ago • 486

upvoted a paper 27 days ago

Evaluating Large Language Models in Dynamic Clinical Decision-Making with Standardized Patient Cases

Paper • 2606.05112 • Published 29 days ago • 3

upvoted 4 papers 29 days ago

Multi-Agent Computer Use

Paper • 2606.01533 • Published about 1 month ago • 7

Where to Look: Can Foundation Models Reach a Target Viewpoint Through Active Exploration?

Paper • 2606.01247 • Published May 31 • 31

Which Pretraining Paradigm Better Serves Spatial Intelligence? An Empirical Comparison of Vision-Language and Video Generation Models

Paper • 2605.28132 • Published May 27 • 25

On the Scaling of PEFT: Towards Million Personal Models of Trillion Parameters

Paper • 2606.02437 • Published about 1 month ago • 236

upvoted 3 papers about 1 month ago

Learning A Unified Risk Map for Autonomous Driving in Partially Observable Environments

Paper • 2605.22189 • Published May 21 • 8

WorldMemArena: Evaluating Multimodal Agent Memory Through Action-World Interaction

Paper • 2605.29341 • Published May 28 • 18

Why Far Looks Up: Probing Spatial Representation in Vision-Language Models

Paper • 2605.30161 • Published May 28 • 60

Muhammad Umair

AI & ML interests

Recent Activity

Organizations

umair894's activity