Edit Models filters

Models

3,289

Base only

Active filters: ppo

Yuhan123/reading-level-pairwise-reward-chosen-preschool-rejected-gradschool-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 5

Yuhan123/reading-level-pairwise-reward-chosen-12th-grade-rejected-gradschool-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 4

Yuhan123/reading-level-pairwise-reward-chosen-gradschool-rejected-preschool-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 4

Yuhan123/reading-level-pairwise-reward-chosen-7th-grade-rejected-preschool-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 4

Yuhan123/reading-level-pairwise-reward-chosen-7th-grade-rejected-gradschool-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 5

Yuhan123/reading-level-pairwise-reward-chosen-gradschool-rejected-12th-grade-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 4

Yuhan123/reading-level-pairwise-reward-chosen-preschool-rejected-7th-grade-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 4

Yuhan123/reading-level-pairwise-reward-chosen-7th-grade-rejected-12th-grade-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 4

Yuhan123/reading-level-pairwise-reward-chosen-12th-grade-rejected-7th-grade-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 4

Yuhan123/reading-level-pairwise-reward-chosen-preschool-rejected-12th-grade-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 5

Yuhan123/reading-level-pairwise-reward-chosen-gradschool-rejected-7th-grade-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 5

Yuhan123/reading-level-pairwise-reward-chosen-12th-grade-rejected-preschool-1-steps-1000

Text Generation • 1B • Updated Jul 17, 2025 • 4

maximrud/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 18, 2025

hosseinkamyab/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 20, 2025

jajostrains/Lunar-Lander-v2

Reinforcement Learning • Updated Jul 19, 2025 • 1

hosseinkamyab/ppo-CartPole-v1-unit8

Reinforcement Learning • Updated Jul 20, 2025

hosseinkamyab/ppo-LunarLander-v2-from-scratch

Reinforcement Learning • Updated Jul 20, 2025

josearaiza/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 20, 2025

Nikhil058/LunarLandar-PPOV2

Reinforcement Learning • Updated Jul 20, 2025

eperezj/mistral-ppo

Text Generation • 84.5M • Updated Jul 20, 2025 • 3

luijait/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 20, 2025

hosseinkamyab/LunarLander-v2-unit8

Reinforcement Learning • Updated Jul 21, 2025

DeepNuc/LunarLander-ppo

Reinforcement Learning • Updated Jul 22, 2025

mikebernico/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 22, 2025

mikebernico/ppo-LunarLander-v3

Reinforcement Learning • Updated Jul 22, 2025

sam522/ppo-SnowballTarget

Reinforcement Learning • Updated Sep 4, 2025 • 2

sam522/ppo-Pyramids

Reinforcement Learning • Updated Sep 5, 2025

ct685/ppo

Reinforcement Learning • Updated Aug 3, 2025

loke-07/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 28, 2025

prathamchintamani/ppo-lunarlander-cleanrl

Reinforcement Learning • Updated Jul 29, 2025