Edit Models filters

Models

3,285

Base only

Active filters: ppo

naveen1divakar/ppo-LunarLander-v2_unit8

Reinforcement Learning • Updated Jul 30, 2025

danceone/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 31, 2025

ArthurSchwan/ppo-LunarLander-v2-unit8-part1

Reinforcement Learning • Updated Aug 1, 2025 • 1

TayJen/lunar_lander_from_scratch

Reinforcement Learning • Updated Aug 1, 2025

aymleung/ppo-LunarLander-v2

Reinforcement Learning • Updated Aug 7, 2025 • 2

debisoft/ppo-LunarLander-v2

Reinforcement Learning • Updated Oct 24, 2025 • 1

Brain33/ppo-LunarLander-v2_Unit8

Reinforcement Learning • Updated Aug 2, 2025

AMZ2004/ppo-LunarLander-v2-AMZ

Reinforcement Learning • Updated Aug 3, 2025

AMZ2004/SnowballTarget-2025-08-03

Reinforcement Learning • Updated Aug 3, 2025

mahdisf/ppo-CartPole-v1

Reinforcement Learning • Updated Aug 4, 2025

alphadl/ppo-gsm8k-0.5b

Text Generation • 0.6B • Updated Aug 4, 2025 • 75 • • 2

Hale-Sage/ppo-CartPole-v1

Reinforcement Learning • Updated Aug 5, 2025

winkin119/PPO-DDP-ReacherV5

Reinforcement Learning • Updated Aug 7, 2025 • 1

winkin119/PPO-Reacher-v5

Reinforcement Learning • Updated Aug 7, 2025 • 1

winkin119/PPO-DDP-MountainCarContinuousV0

Reinforcement Learning • Updated Aug 7, 2025 • 3

winkin119/PPO-DDP-PusherV2

Reinforcement Learning • Updated Aug 7, 2025 • 1

sunxysun/LunarLander-v2-unit8

Reinforcement Learning • Updated Aug 8, 2025

LakshGupta/LunarLander-v2

Reinforcement Learning • Updated Aug 9, 2025

gnscc/deep-rl-hf-course-8.1

Reinforcement Learning • Updated Aug 9, 2025

Fdex/LunarLander-v3

Reinforcement Learning • Updated Aug 9, 2025

Fdex/PPO-LunarLander-v2

Reinforcement Learning • Updated Aug 10, 2025

lulu-2/ppo-LunarLander-v3

Reinforcement Learning • Updated Aug 10, 2025

traision/ppo-LunarLander-U8

Reinforcement Learning • Updated Aug 11, 2025

traision/LunarLander-U8

Reinforcement Learning • Updated Aug 11, 2025

ntraore/dbenv-week2-HW2-ppo

Text Generation • 0.1B • Updated Aug 14, 2025 • 4

ajjyy/Qwen2-0.5B-PPO-Curiosity-gsm8k-attempt4

Updated Aug 13, 2025

ajjyy/Qwen2-0.5B-PPO-gsm8k-attempt5

Updated Aug 13, 2025

Quangvuisme/LunarLander-v2-PPO

Reinforcement Learning • Updated Aug 14, 2025

ajagota71/SmolLM-135M-detox-checkpoint-epoch-20

Reinforcement Learning • 0.1B • Updated Aug 14, 2025 • 1

ajagota71/SmolLM-135M-detox-checkpoint-epoch-40

Reinforcement Learning • 0.1B • Updated Aug 14, 2025 • 1