Models

3,200

Full-text search

Active filters: ppo

Juu24/Lunar_PPO

Reinforcement Learning • Updated Oct 10, 2024

nguyennhusonars/LunarLander-v2-II

Reinforcement Learning • Updated Oct 11, 2024

pableitorr/LunarLander-v2-UNIT8

Reinforcement Learning • Updated Oct 11, 2024

mohitpg/ppoll

Reinforcement Learning • Updated Oct 12, 2024

MartinVanBuren/ppo-unit-8-1

Reinforcement Learning • Updated Oct 13, 2024

sjkwon/sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 22, 2024

sjkwon/sft-mdo-diverse-train-nllb-200-600M-step200

Reinforcement Learning • 0.6B • Updated Oct 15, 2024

SwordAndTea/ppo-LunarLander-v2-scratch

Reinforcement Learning • Updated Oct 18, 2024

jerryvc/ppo-self-LunarLander-v2

Reinforcement Learning • Updated Oct 19, 2024

pkalkman/ppo-PongNoFrameskip-v4

Reinforcement Learning • Updated Oct 20, 2024 • 22

pkalkman/ppo-BreakoutNoFrameskip-v4

Reinforcement Learning • Updated Oct 20, 2024 • 13

Qingqing358/ppo-CartPole-v1

Reinforcement Learning • Updated Oct 21, 2024

erdody/ppo-CartPole-v1

Reinforcement Learning • Updated Oct 23, 2024

erdody/CartPole-v1

Reinforcement Learning • Updated Oct 23, 2024

sjkwon/4942_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 25, 2024 • 1

sjkwon/3999_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 25, 2024

jiaqihe/ppo-cleanrl-CartPole-v1

Reinforcement Learning • Updated Oct 26, 2024

neaven77/ppo-CartPole-v1

Reinforcement Learning • Updated Oct 27, 2024

neaven77/ppo-LunarLander-v2.1

Reinforcement Learning • Updated Oct 27, 2024

hanslab37/ppo-LunarLander-v2

Reinforcement Learning • Updated Jun 22, 2025 • 1

SeanLMH/myppo-LunarLander-v2

Reinforcement Learning • Updated Oct 29, 2024

sjkwon/7826_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 30, 2024

sjkwon/9260_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 30, 2024 • 1

stvnl/msc_ppo_en

Reinforcement Learning • Updated Oct 31, 2024

stvnl/msc_ppo_zh

Reinforcement Learning • Updated Oct 31, 2024 • 1

sjkwon/6750_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Oct 31, 2024

atharv-16/LunarLander-v2

Reinforcement Learning • Updated Oct 31, 2024

sjkwon/5e-6_6528_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Nov 1, 2024 • 1

sjkwon/2e-5_2184_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Nov 1, 2024

sjkwon/1e-5_2000_sft-mdo-diverse-train-nllb-200-600M

Reinforcement Learning • 0.6B • Updated Nov 1, 2024