Edit Models filters

Models

3,289

Base only

Active filters: ppo

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 2

zukanoob/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 6, 2025

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 2

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 2

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 2

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 2

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 2

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 3

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 1

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Jul 6, 2025

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Jul 6, 2025

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Jul 6, 2025

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6

Reinforcement Learning • 1B • Updated Jul 6, 2025

Sandf1sh/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 7, 2025

Johnsonin/DeepRL-PPO-LunarLander-v2

Reinforcement Learning • Updated Jul 8, 2025

mikebernico/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 22, 2025 • 1

niratpatel/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 11, 2025

IgnacioCorrecher/CustomPPO-LunarLander-v2

Reinforcement Learning • Updated Jul 11, 2025

MoBnJlal/LunarLander-v2

Reinforcement Learning • Updated Jul 12, 2025

lokeessshhhh/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 13, 2025

lokeessshhhh/ppo-LunarLandar-v2

Reinforcement Learning • Updated Jul 13, 2025

Devyaansh123/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 13, 2025

Devyaansh123/my-awesome-model

Reinforcement Learning • Updated Jul 13, 2025

IntelliGrow/LunarLander-v2

Reinforcement Learning • Updated Jul 13, 2025

MoadJ/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 13, 2025

galaholic/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 17, 2025 • 1

sajelian/ppo-self_impl-LunarLander-v2

Reinforcement Learning • Updated Jul 14, 2025

WNihar/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 14, 2025

drl-robo/ppo-fromscratch-DRLunit8-part1-LunarLander-v2

Reinforcement Learning • Updated Jul 15, 2025

Metaseeker348/ppo-actor-critic

Reinforcement Learning • Updated Jul 17, 2025