SEGAgentRL

non-profit

AI & ML interests

We target improved agent reinforcement learning in terms of stability (S), efficiency (E), and generalization (G).

submitted a paper to Daily Papers 2 months ago

Directional Alignment Mitigates Reward Hacking in Reinforcement Learning for Language Models

Paper • 2605.25189 • Published May 24 • 4

submitted a paper to Daily Papers 3 months ago

For-Value: Efficient Forward-Only Data Valuation for finetuning LLMs and VLMs

Paper • 2508.10180 • Published Apr 25 • 19

authored a paper 5 months ago

Spend Less, Reason Better: Budget-Aware Value Tree Search for LLM Agents

Paper • 2603.12634 • Published Mar 13 • 16

authored 4 papers 6 months ago

DARE the Extreme: Revisiting Delta-Parameter Pruning For Fine-Tuned Models

Paper • 2410.09344 • Published Oct 12, 2024 • 1

MedReason: Eliciting Factual Medical Reasoning Steps in LLMs via Knowledge Graphs

Paper • 2504.00993 • Published Apr 1, 2025 • 3

Token Hidden Reward: Steering Exploration-Exploitation in Group Relative Deep Reinforcement Learning

Paper • 2510.03669 • Published Oct 4, 2025 • 2

When RAG Hurts: Diagnosing and Mitigating Attention Distraction in Retrieval-Augmented LVLMs

Paper • 2602.00344 • Published Jan 30 • 3

updated a collection 7 months ago

LLDS-Search

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral • 12 items • Updated Jan 17

updated a model 7 months ago

SEGAgentRL/LLDS-A-GRPO-Llama3.2-3B-Base-MA

Reinforcement Learning • 4B • Updated Jan 16 • 4

published a model 7 months ago

SEGAgentRL/LLDS-A-GRPO-Llama3.2-3B-Base-MA

Reinforcement Learning • 4B • Updated Jan 16 • 4

updated a collection 7 months ago

LLDS-Search

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral • 12 items • Updated Jan 17