agent - a KN33SOXXX Collection

KN33SOXXX 's Collections

mutilmodal reasoning

agent

updated 5 days ago

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Paper • 2601.22060 • Published Jan 29 • 155
Vision-DeepResearch Benchmark: Rethinking Visual and Textual Search for Multimodal Large Language Models

Paper • 2602.02185 • Published Feb 2 • 118
SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning

Paper • 2603.23483 • Published Mar 24 • 63
WorldAgents: Can Foundation Image Models be Agents for 3D World Models?

Paper • 2603.19708 • Published Mar 20 • 13
GameplayQA: A Benchmarking Framework for Decision-Dense POV-Synced Multi-Video Understanding of 3D Virtual Agents

Paper • 2603.24329 • Published Mar 25 • 28
GEMS: Agent-Native Multimodal Generation with Memory and Skills

Paper • 2603.28088 • Published Mar 30 • 87
Unify-Agent: A Unified Multimodal Agent for World-Grounded Image Synthesis

Paper • 2603.29620 • Published Mar 31 • 49
Story2Proposal: A Scaffold for Structured Scientific Paper Writing

Paper • 2603.27065 • Published Mar 28 • 22
Learning to Retrieve from Agent Trajectories

Paper • 2604.04949 • Published Mar 30 • 72
GBQA: A Game Benchmark for Evaluating LLMs as Quality Assurance Engineers

Paper • 2604.02648 • Published Apr 3 • 48
Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence?

Paper • 2604.03016 • Published Apr 3 • 37
Experience Transfer for Multimodal LLM Agents in Minecraft Game

Paper • 2604.05533 • Published Apr 7 • 16
GameWorld: Towards Standardized and Verifiable Evaluation of Multimodal Game Agents

Paper • 2604.07429 • Published Apr 8 • 123
Memory is Reconstructed, Not Retrieved: Graph Memory for LLM Agents

Paper • 2606.06036 • Published 23 days ago • 75
OPD-Evolver: Cultivating Holistic Agent Evolver via On-Policy Distillation

Paper • 2606.17628 • Published 11 days ago • 27
Smaller Models are Natural Explorers for Policy-Level Diversity in GRPO

Paper • 2605.30789 • Published 25 days ago • 26
Data Journalist Agent: Transforming Data into Verifiable Multimodal Stories

Paper • 2606.11176 • Published 18 days ago • 127