Edit Models filters

Models

3,281

Base only

Active filters: ppo

katharsis/carv1-ppo

Reinforcement Learning • Updated Jan 4

ostap-khm/LunarLanderPPO

Reinforcement Learning • Updated Jan 5

mykor/mmBERT-base-GGUF

0.3B • Updated Jan 6 • 245

mykor/mmBERT-small-GGUF

0.1B • Updated Jan 6 • 215

anonymousML123/llama3-8b-pku-PPO-NoInstruct-SFT-NoInstruct

anonymousML123/llama3-8b-pku-PPO-Instruct-SFT-Instruct

joshkaura/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 7

joshkaura/ppo-LunarLanding2-v2

Reinforcement Learning • Updated Jan 7

waanney/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 8

thisusernameisnotavailablehee/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 9 • 2

thisusernameisnotavailablehee/ppo-LunarLander-v3

Reinforcement Learning • Updated Jan 9

shiptoday101/beastybar-ppo

Reinforcement Learning • Updated Jan 14

guardion/ModernGuard-1

0.3B • Updated Apr 23 • 312 • 3

Adi070204/ppo-Lunar-Lander-v2

Reinforcement Learning • Updated Jan 13

acwkim/ppo-helpful

Reinforcement Learning • Updated Jan 17 • 3

acwkim/ppo-harmless

Reinforcement Learning • Updated Jan 17 • 2

acwkim/ppo-humor

Reinforcement Learning • Updated Jan 17 • 2

Irisaka/ppo-cleanrl-LunarLander-v2

Reinforcement Learning • Updated Jan 15

payelb/aligned_tinyllama_ultrafeedback_fixed1k_noaug

payelb/aligned_tinyllama_ultrafeedback_fixed1k_won

payelb/aligned_tinyllama_ultrafeedback_fixed1k_baseline

payelb/aligned_tinyllama_ultrafeedback_fixed1k_mars

jalaneunos/LunarLander-v3-ppo-1

Reinforcement Learning • Updated Jan 16

Kolosok/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 16

Kolosok/ppo-LunarLander-v2_2

Reinforcement Learning • Updated Jan 16

BrennanDrake/ppo-LunarLander-v2-1

Reinforcement Learning • Updated Jan 18

GavinChan1105/Llama-3-8B-ppo-lora

Reinforcement Learning • Updated Jan 20 • 1 • 1

ianyang02/ppo_model_qwen3-4b_aita_h200_one_ex

jinn33/kanana-1.5-8b-rlhf

nhankins/ppo-LunarLander-v3

Reinforcement Learning • Updated Jan 21