Models

3,196

Full-text search

Active filters: ppo

lulu-2/ppo-LunarLander-v3

Reinforcement Learning • Updated Aug 10, 2025

traision/ppo-LunarLander-U8

Reinforcement Learning • Updated Aug 11, 2025

traision/LunarLander-U8

Reinforcement Learning • Updated Aug 11, 2025

ntraore/dbenv-week2-HW2-ppo

Text Generation • 0.1B • Updated Aug 14, 2025

ajjyy/Qwen2-0.5B-PPO-Curiosity-gsm8k-attempt4

Updated Aug 13, 2025

ajjyy/Qwen2-0.5B-PPO-gsm8k-attempt5

Updated Aug 13, 2025

Quangvuisme/LunarLander-v2-PPO

Reinforcement Learning • Updated Aug 14, 2025

ajagota71/SmolLM-135M-detox-checkpoint-epoch-20

Reinforcement Learning • 0.1B • Updated Aug 14, 2025

ajagota71/SmolLM-135M-detox-checkpoint-epoch-40

Reinforcement Learning • 0.1B • Updated Aug 14, 2025

ajagota71/SmolLM-360M-detox-checkpoint-epoch-20

Reinforcement Learning • 0.4B • Updated Aug 14, 2025

ajagota71/SmolLM-360M-detox-checkpoint-epoch-40

Reinforcement Learning • 0.4B • Updated Aug 14, 2025

ajagota71/SmolLM-135M-detox-checkpoint-epoch-60

Reinforcement Learning • 0.1B • Updated Aug 14, 2025

ajagota71/SmolLM-360M-detox-checkpoint-epoch-60

Reinforcement Learning • 0.4B • Updated Aug 14, 2025

ajagota71/SmolLM-135M-detox-checkpoint-epoch-80

Reinforcement Learning • 0.1B • Updated Aug 14, 2025

ajagota71/SmolLM-360M-detox-checkpoint-epoch-80

Reinforcement Learning • 0.4B • Updated Aug 14, 2025 • 1

ajagota71/SmolLM-135M-detox-checkpoint-epoch-100

Reinforcement Learning • 0.1B • Updated Aug 14, 2025 • 1

ajagota71/SmolLM-135M-detox

Reinforcement Learning • 0.1B • Updated Aug 14, 2025

ajagota71/SmolLM-360M-detox-checkpoint-epoch-100

Reinforcement Learning • 0.4B • Updated Aug 15, 2025

ajagota71/SmolLM-360M-detox

Reinforcement Learning • 0.4B • Updated Aug 15, 2025

ajagota71/SmolLM2-135M-detox-checkpoint-epoch-20

Reinforcement Learning • 0.1B • Updated Aug 15, 2025

ajagota71/SmolLM2-360M-detox-checkpoint-epoch-20

Reinforcement Learning • 0.4B • Updated Aug 15, 2025 • 2

ajagota71/SmolLM2-135M-detox-checkpoint-epoch-40

Reinforcement Learning • 0.1B • Updated Aug 15, 2025 • 1

ajagota71/SmolLM2-360M-detox-checkpoint-epoch-40

Reinforcement Learning • 0.4B • Updated Aug 15, 2025 • 1

ajagota71/SmolLM2-135M-detox-checkpoint-epoch-60

Reinforcement Learning • 0.1B • Updated Aug 15, 2025 • 1

ajagota71/SmolLM2-360M-detox-checkpoint-epoch-60

Reinforcement Learning • 0.4B • Updated Aug 15, 2025 • 2

ajagota71/SmolLM2-135M-detox-checkpoint-epoch-80

Reinforcement Learning • 0.1B • Updated Aug 15, 2025 • 2

ajagota71/SmolLM2-135M-detox-checkpoint-epoch-100

Reinforcement Learning • 0.1B • Updated Aug 15, 2025 • 2

ajagota71/SmolLM2-360M-detox-checkpoint-epoch-80

Reinforcement Learning • 0.4B • Updated Aug 15, 2025 • 2

ajagota71/SmolLM2-135M-detox

Reinforcement Learning • 0.1B • Updated Aug 15, 2025 • 2

ajagota71/SmolLM2-360M-detox-checkpoint-epoch-100

Reinforcement Learning • 0.4B • Updated Aug 15, 2025 • 2