Jinyang Wu's picture

Jinyang Wu

Jinyang23

·

https://orcid.org/my-orcid?orcid=0009-0006-0220-616X

jinyangwu

AI & ML interests

large language models, reasoning, agentic rl

Recent Activity

updated a model 1 day ago

Jinyang23/OPID-ALFWorld-1.7B

published a model 1 day ago

Jinyang23/OPID-ALFWorld-1.7B

upvoted a paper 1 day ago

OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

View all activity

Organizations

None yet

upvoted a paper 1 day ago

OPID: On-Policy Skill Distillation for Agentic Reinforcement Learning

Paper • 2606.26790 • Published 2 days ago • 38

upvoted a paper 3 days ago

Qwen-AgentWorld: Language World Models for General Agents

Paper • 2606.24597 • Published 4 days ago • 131

upvoted a paper 12 days ago

Orchestra-o1: Omnimodal Agent Orchestration

Paper • 2606.13707 • Published 17 days ago • 48

upvoted 2 papers 17 days ago

RobotEQ: Transitioning from Passive Intelligence to Active Intelligence in Embodied AI

Paper • 2605.06234 • Published May 7 • 4

Late-Layer Fusion is Enough: Dual-Path Vision Token Routing for Multimodal Large Language Models under Visual Saturation

Paper • 2606.09131 • Published 19 days ago • 3

upvoted 2 papers about 1 month ago

Maestro: Reinforcement Learning to Orchestrate Hierarchical Model-Skill Ensembles

Paper • 2605.22177 • Published May 21 • 21

Self-Distilled Agentic Reinforcement Learning

Paper • 2605.15155 • Published May 14 • 115

upvoted a paper about 2 months ago

From Skill Text to Skill Structure: The Scheduling-Structural-Logical Representation for Agent Skills

Paper • 2604.24026 • Published Apr 27 • 22

upvoted 3 papers 3 months ago

KnowU-Bench: Towards Interactive, Proactive, and Personalized Mobile Agent Evaluation

Paper • 2604.08455 • Published Apr 9 • 48

SKILL0: In-Context Agentic Reinforcement Learning for Skill Internalization

Paper • 2604.02268 • Published Apr 2 • 102

HomeSafe-Bench: Evaluating Vision-Language Models on Unsafe Action Detection for Embodied Agents in Household Scenarios

Paper • 2603.11975 • Published Mar 12 • 12

upvoted 2 papers 4 months ago

CodeScaler: Scaling Code LLM Training and Test-Time Inference via Execution-Free Reward Models

Paper • 2602.17684 • Published Feb 4 • 22

Query as Anchor: Scenario-Adaptive User Representation via Large Language Model

Paper • 2602.14492 • Published Feb 16 • 18

upvoted 7 papers 5 months ago

MOVA: Towards Scalable and Synchronized Video-Audio Generation

Paper • 2602.08794 • Published Feb 9 • 159

OdysseyArena: Benchmarking Large Language Models For Long-Horizon, Active and Inductive Interactions

Paper • 2602.05843 • Published Feb 5 • 61

HER: Human-like Reasoning and Reinforcement Learning for LLM Role-playing

Paper • 2601.21459 • Published Jan 29 • 10

TIDE: Trajectory-based Diagnostic Evaluation of Test-Time Improvement in LLM Agents

Paper • 2602.02196 • Published Feb 2 • 35

SafeGround: Know When to Trust GUI Grounding Models via Uncertainty Calibration

Paper • 2602.02419 • Published Feb 2 • 4

Vision-DeepResearch: Incentivizing DeepResearch Capability in Multimodal Large Language Models

Paper • 2601.22060 • Published Jan 29 • 155

Kimi K2.5: Visual Agentic Intelligence

Paper • 2602.02276 • Published Feb 2 • 275