Algorithmic SFT vs Distillation - a reasoning-degeneration-dev Collection

reasoning-degeneration-dev 's Collections

updated Apr 1

10 LoRA adapters + 6 datasets. Algo template SFT vs QwQ distillation on Qwen2.5-1.5B-Instruct across 4 reasoning domains.

Upvote

reasoning-degeneration-dev/algo-sft-formal-logic-bottom-up

Updated Apr 1 • 2 • 1

Note Formal Logic: Bottom-Up (algo) — 100% test, 92.6% OOD
reasoning-degeneration-dev/algo-sft-formal-logic-truth-table

Updated Apr 1 • 1

Note Formal Logic: Truth Table (algo) — 100% test, 90.2% OOD
reasoning-degeneration-dev/algo-sft-formal-logic-distill-qwq

Updated Apr 1 • 1

Note Formal Logic: QwQ Distill — 87.4% test, 71.2% OOD
reasoning-degeneration-dev/algo-sft-conlang-morphology-ordered-rules-d5d7

Updated Apr 1 • 2

Note Conlang: Ordered Rules (algo) — 98.6% test, 94.2% OOD
reasoning-degeneration-dev/algo-sft-conlang-morphology-distill-qwq

Updated Apr 1 • 1

Note Conlang: QwQ Distill — 40.4% test, 38.4% OOD
reasoning-degeneration-dev/algo-sft-cellular-automata-step-simulation-d5

Updated Apr 1 • 1

Note CA: Step Sim d5 (algo) — 94.6% test, 72.0% OOD
reasoning-degeneration-dev/algo-sft-cellular-automata-distill-qwq

Updated Apr 1 • 1

Note CA: QwQ Distill — 40.4% test, 22.4% OOD
reasoning-degeneration-dev/algo-sft-long-arithmetic-standard

Updated Apr 1 • 2

Note Long Arith: Standard (algo) — 92.6% test, 0% OOD
reasoning-degeneration-dev/algo-sft-long-arithmetic-chunked

Updated Apr 1 • 2

Note Long Arith: Chunked (algo) — 86.2% test, 0% OOD
reasoning-degeneration-dev/algo-sft-long-arithmetic-distill-qwq

Updated Apr 1 • 2

Note Long Arith: QwQ Distill — 90.6% test, 6.8% OOD
reasoning-degeneration-dev/algorithmic-sft-full-eval-v3

Viewer • Updated Apr 1 • 50 • 26

Note Aggregate eval results (v3)
reasoning-degeneration-dev/algorithmic-sft-training-data-v1

Viewer • Updated Mar 23 • 63k • 20

Note Algo template training data (63K)
reasoning-degeneration-dev/algorithmic-sft-distillation-training-data-v1

Viewer • Updated Mar 21 • 24.1k • 20

Note QwQ distillation training data (24K)
reasoning-degeneration-dev/algorithmic-sft-sharegpt-training-v1

Viewer • Updated Mar 23 • 82.9k • 24 • 1

Note ShareGPT training data as-trained (83K)
reasoning-degeneration-dev/algorithmic-sft-eval-sets-v1

Viewer • Updated Mar 23 • 11k • 19

Note Eval questions (11K)
reasoning-degeneration-dev/algorithmic-sft-training-configs-v1

Viewer • Updated Mar 23 • 17 • 25

Note Training configs (17 YAMLs)

Upvote