Models

3,198

Full-text search

Active filters: ppo

ajagota71/pythia-1b-s-nlp-detox-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Jul 5, 2025 • 1

ajagota71/pythia-1b-s-nlp-detox

Reinforcement Learning • 1B • Updated Jul 5, 2025 • 4

ajagota71/llama-3-2-1b-s-nlp-detox-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Jul 5, 2025 • 1

ajagota71/llama-3-2-1b-s-nlp-detox-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Jul 5, 2025

ajagota71/llama-3-2-1b-s-nlp-detox-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Jul 5, 2025 • 1

ajagota71/llama-3-2-1b-s-nlp-detox-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Jul 5, 2025

Will-est/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 5, 2025

Will-est/ppo-LunarLander-v2-scratch

Reinforcement Learning • Updated Jul 6, 2025

duydl/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 6, 2025

duydl/ppo-LunearLander-v2-8PI

Reinforcement Learning • Updated Jul 6, 2025

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Jul 6, 2025

zukanoob/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 6, 2025

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 1

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 1

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 2

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 1

ajagota71/llama-3-2-1b-rlhf-kl-p4-target-3

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 1

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 1

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 2

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 3

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Jul 6, 2025 • 1

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Jul 6, 2025

ajagota71/llama-3-2-1b-rlhf-kl-p5-target-2p5-lr-3e-6

Reinforcement Learning • 1B • Updated Jul 6, 2025

Sandf1sh/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 7, 2025

Johnsonin/DeepRL-PPO-LunarLander-v2

Reinforcement Learning • Updated Jul 8, 2025

mikebernico/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 22, 2025

niratpatel/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 11, 2025

IgnacioCorrecher/CustomPPO-LunarLander-v2

Reinforcement Learning • Updated Jul 11, 2025

MoBnJlal/LunarLander-v2

Reinforcement Learning • Updated Jul 12, 2025

lokeessshhhh/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 13, 2025