Models

3,196

Full-text search

Active filters: ppo

rashidi1saeed/ppo-LunarLander-v2-cleanRL

Reinforcement Learning • Updated Jan 2

kostas-c/LunarLander-v2

Reinforcement Learning • Updated Jan 2

bhxvxsh/recipeai-ultra-performance

Reinforcement Learning • Updated Jan 2 • 40

johnx4321/LLV2

Reinforcement Learning • Updated Jan 2

mmichiels13/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 3

mmichiels13/ppo-scratch-LunarLander-v2

Reinforcement Learning • Updated Jan 3

LeonardoMdSA/PPO-CleanRL-LunarLander-v2

Reinforcement Learning • Updated Jan 3

katharsis/carv1-ppo

Reinforcement Learning • Updated Jan 4

ostap-khm/LunarLanderPPO

Reinforcement Learning • Updated Jan 5

mykor/mmBERT-base-GGUF

0.3B • Updated Jan 6 • 84

mykor/mmBERT-small-GGUF

0.1B • Updated Jan 6 • 79

anonymousML123/llama3-8b-pku-PPO-NoInstruct-SFT-NoInstruct

anonymousML123/llama3-8b-pku-PPO-Instruct-SFT-Instruct

joshkaura/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 7

joshkaura/ppo-LunarLanding2-v2

Reinforcement Learning • Updated Jan 7

waanney/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 8

thisusernameisnotavailablehee/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 9 • 1

thisusernameisnotavailablehee/ppo-LunarLander-v3

Reinforcement Learning • Updated Jan 9

shiptoday101/beastybar-ppo

Reinforcement Learning • Updated Jan 14

guardion/ModernGuard-1

0.3B • Updated about 1 month ago • 306 • 1

Adi070204/ppo-Lunar-Lander-v2

Reinforcement Learning • Updated Jan 13

acwkim/ppo-helpful

Reinforcement Learning • Updated Jan 17

acwkim/ppo-harmless

Reinforcement Learning • Updated Jan 17

acwkim/ppo-humor

Reinforcement Learning • Updated Jan 17

Irisaka/ppo-cleanrl-LunarLander-v2

Reinforcement Learning • Updated Jan 15

payelb/aligned_tinyllama_ultrafeedback_fixed1k_noaug

payelb/aligned_tinyllama_ultrafeedback_fixed1k_won

payelb/aligned_tinyllama_ultrafeedback_fixed1k_baseline

payelb/aligned_tinyllama_ultrafeedback_fixed1k_mars

jalaneunos/LunarLander-v3-ppo-1

Reinforcement Learning • Updated Jan 16