LLParallax

LLParallax

AI & ML interests

Reinforcement Learning, Continual Learning

Organizations

None yet

spaces 1

Apple Retrieval

models 5

LLParallax/gemma-3-12b-it-sft-math-lora

Text Generation • Updated Apr 8 • 7

LLParallax/reasoning-crafter

Updated May 12, 2025

LLParallax/sf_Ant

Reinforcement Learning • Updated Apr 25, 2024

LLParallax/sf_finetuning_forgetting_human_monk

Reinforcement Learning • Updated Apr 7, 2024

LLParallax/sample_factory_human_monk

Reinforcement Learning • Updated Jan 5, 2024

datasets 16

LLParallax/collect-Omni-MATH-filtered-no_feedback-gemma-12b-tok

Viewer • Updated Apr 2 • 238k • 18

LLParallax/collect-Omni-MATH-filtered-gemma-12b-tok

Viewer • Updated Apr 2 • 238k • 51

LLParallax/Omni-MATH-filtered

Viewer • Updated Apr 2 • 3.27k • 31

LLParallax/collect-Omni-MATH-filtered-gemma-12b

Viewer • Updated Apr 1 • 238k • 10

LLParallax/Omni-MATH-gemma-feedback

Viewer • Updated Mar 15 • 28.7k • 7

LLParallax/DAPO-Math-17k-gemma-feedback

Viewer • Updated Mar 15 • 99k • 7

LLParallax/nle-gpt-oss-120b-obs_dump-test

Viewer • Updated Jan 14 • 567 • 8

LLParallax/nle-gpt-5-test

Viewer • Updated Dec 23, 2025 • 15.5k • 9

LLParallax/nle-kimi-k2-thinking-test

Viewer • Updated Dec 23, 2025 • 1.55k • 11

LLParallax/crafter-trajectories2

Viewer • Updated Jul 23, 2025 • 687k • 8

View 16 datasets