1 12 5

张康宁

zhuiguang-ning

AI & ML interests

None yet

Recent Activity

upvoted a paper about 1 month ago

Your Group-Relative Advantage Is Biased

liked a dataset about 1 month ago

zwhe99/DeepMath-103K

upvoted a paper about 1 month ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

View all activity

Organizations

None yet

upvoted a paper about 1 month ago

Your Group-Relative Advantage Is Biased

Paper • 2601.08521 • Published Jan 13 • 154

liked a dataset about 1 month ago

zwhe99/DeepMath-103K

Viewer • Updated May 29, 2025 • 103k • 8.58k • 351

upvoted a paper about 1 month ago

GDPO: Group reward-Decoupled Normalization Policy Optimization for Multi-reward RL Optimization

Paper • 2601.05242 • Published Jan 8 • 227

upvoted a paper 2 months ago

MMR1: Enhancing Multimodal Reasoning with Variance-Aware Sampling and Open Resources

Paper • 2509.21268 • Published Sep 25, 2025 • 104

upvoted a collection 2 months ago

Qwen3-Coder

Collection

5 items • Updated Dec 31, 2025 • 166

updated 2 models 2 months ago

zhuiguang-ning/LoopTool-32B

33B • Updated Dec 10, 2025 • 67 • 1

zhuiguang-ning/LoopTool-8B

8B • Updated Dec 10, 2025 • 216 • 1

upvoted a paper 2 months ago

CodeApex: A Bilingual Programming Evaluation Benchmark for Large Language Models

Paper • 2309.01940 • Published Sep 5, 2023 • 2

published a model 2 months ago

zhuiguang-ning/LoopTool-32B

33B • Updated Dec 10, 2025 • 67 • 1

upvoted a paper 2 months ago

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Paper • 2511.09148 • Published Nov 12, 2025 • 18

updated a dataset 2 months ago

zhuiguang-ning/LoopTool-23k

Viewer • Updated Dec 10, 2025 • 23k • 18 • 2

liked a dataset 2 months ago

zhuiguang-ning/LoopTool-23k

Viewer • Updated Dec 10, 2025 • 23k • 18 • 2

published a dataset 3 months ago

zhuiguang-ning/LoopTool-23k

Viewer • Updated Dec 10, 2025 • 23k • 18 • 2

upvoted a collection 3 months ago

Qwen3-VL

Collection

37 items • Updated Dec 31, 2025 • 635

published a model 3 months ago

zhuiguang-ning/LoopTool-8B

8B • Updated Dec 10, 2025 • 216 • 1

upvoted a paper 3 months ago

3D Diffusion Policy

Paper • 2403.03954 • Published Mar 6, 2024 • 13

commented a paper 3 months ago

LoopTool: Closing the Data-Training Loop for Robust LLM Tool Calls

Paper • 2511.09148 • Published Nov 12, 2025 • 18 •

upvoted 3 papers 4 months ago

VerlTool: Towards Holistic Agentic Reinforcement Learning with Tool Use

Paper • 2509.01055 • Published Sep 1, 2025 • 78

Video-Thinker: Sparking "Thinking with Videos" via Reinforcement Learning

Paper • 2510.23473 • Published Oct 27, 2025 • 85

QeRL: Beyond Efficiency -- Quantization-enhanced Reinforcement Learning for LLMs

Paper • 2510.11696 • Published Oct 13, 2025 • 181

张康宁

AI & ML interests

Recent Activity

Organizations

zhuiguang-ning's activity