Reasoning Work - a dumbequation Collection

dumbequation 's Collections

Reasoning Work

updated May 1, 2025

Models I've trained to think like DeepSeek R1 using online learning - Group Relative Policy Optimization (GRPO) introduced by DeepSeekMath

dumbequation/Qwen2.5-3B-reasoning-medical-symptoms-GRPO-quant

3B • Updated Mar 4, 2025 • 11
dumbequation/Qwen2.5-7B-GRPO-1M-Context-Medical-Reasoning-f16-GGUF-v2

8B • Updated Mar 4, 2025 • 26
dumbequation/Qwen2.5-3B-reasoning-medical-symptoms-GRPO-f16-GGUF

3B • Updated Feb 19, 2025 • 8
dumbequation/Qwen2.5-7B-GRPO-1M-Context-Medical-Reasoning-f16-GGUF

8B • Updated Mar 4, 2025 • 21
dumbequation/Qwen2.5-3B-reasoning-medical-symptoms-GRPO-f16

Text Generation • Updated Feb 19, 2025 • 4
dumbequation/Qwen2.5-7B-GRPO-1M-Context-Medical-Reasoning-f16

Text Generation • 8B • Updated Mar 4, 2025 • 10 • 1