LLDS-Search - a SEGAgentRL Collection

SEGAgentRL 's Collections

LLDS-Search

updated Jan 17

On GRPO Collapse in Search-R1: The Lazy Likelihood-Displacement Death Spiral

SEGAgentRL/LLDS-A-GRPO-Qwen2.5-7B-Base

Reinforcement Learning • 8B • Updated Jan 15 • 5 • 2
SEGAgentRL/LLDS-A-GRPO-Qwen2.5-7B-Ins

Reinforcement Learning • 8B • Updated Jan 15 • 2 • 2
SEGAgentRL/LLDS-A-GRPO-Qwen2.5-3B-Base-MA

Reinforcement Learning • 3B • Updated Jan 15 • 6 • 1
SEGAgentRL/LLDS-R-GSPO-Qwen2.5-3B-Ins

Reinforcement Learning • 3B • Updated Jan 15 • 6 • 1
SEGAgentRL/LLDS-R-GRPO-Qwen2.5-3B-Ins

Reinforcement Learning • 3B • Updated Jan 15 • 3 • 1
SEGAgentRL/LLDS-A-GSPO-Qwen2.5-3B-Ins

Reinforcement Learning • 3B • Updated Jan 15 • 2 • 1
SEGAgentRL/LLDS-A-GRPO-Qwen2.5-3B-Base

Reinforcement Learning • 3B • Updated Jan 15 • 1
SEGAgentRL/LLDS-R-GRPO-Qwen2.5-3B-Base

Reinforcement Learning • 3B • Updated Jan 15 • 1 • 1
SEGAgentRL/LLDS-A-GRPO-Qwen2.5-3B-Ins

Reinforcement Learning • 3B • Updated Jan 15 • 4
SEGAgentRL/LLDS-A-GRPO-Llama3.2-3B-Base-MA

Reinforcement Learning • 4B • Updated Jan 16 • 2
mradermacher/LLDS-A-GRPO-Qwen2.5-7B-Ins-i1-GGUF

8B • Updated Jan 16 • 1.26k • 1
mradermacher/LLDS-A-GRPO-Qwen2.5-7B-Base-i1-GGUF

8B • Updated Jan 15 • 207 • 2