Edit Models filters

Models

3,301

Base only

Active filters: ppo

jvelja/gemma-2-2b-it-logOdds_5

Reinforcement Learning • Updated Aug 24, 2024 • 1

Leon-Zsl/ppo-CartPole-v1

Reinforcement Learning • Updated Aug 25, 2024

jroblesgomez/ppo-LunarLander-v2-8

Reinforcement Learning • Updated Aug 25, 2024

jroblesgomez/ppo-LunarLander-v2-8-500k

Reinforcement Learning • Updated Aug 25, 2024

jvelja/llama-3.1-8b-it-logOdds_0

Reinforcement Learning • Updated Aug 26, 2024

jvelja/llama-3.1-8b-it-logOdds_2bit_logOdds_0

Reinforcement Learning • Updated Aug 26, 2024 • 1

NatalieCheong/ppo-CleanRL

Reinforcement Learning • Updated Aug 27, 2024

SimaFarazi/mistral-ppo

Reinforcement Learning • 84.5M • Updated Aug 28, 2024

jvelja/poop_0

Reinforcement Learning • 0.1B • Updated Aug 29, 2024 • 3

jvelja/poop_1

Reinforcement Learning • 0.1B • Updated Aug 29, 2024 • 3

taku-yoshioka/rlhf-line-marcja-0828

Reinforcement Learning • Updated Aug 30, 2024

taku-yoshioka/rlhf-llm-custom-rm-0828

Reinforcement Learning • Updated Aug 31, 2024

bwalser/lunarlander-ppo-v2

Reinforcement Learning • Updated Aug 29, 2024

jvelja/poop_2

Reinforcement Learning • 0.1B • Updated Aug 29, 2024

drbeane/ll_ppo_01

Reinforcement Learning • Updated Aug 29, 2024

jvelja/gemma2b-instrumentalEmergence-strongerOversight_0

Reinforcement Learning • Updated Aug 30, 2024

rajveer43/LunarLander-v2_81

Reinforcement Learning • Updated Aug 29, 2024

rajveer43/LunarLander-v2_811

Reinforcement Learning • Updated Aug 29, 2024

rajveer43/LunarLander-v2_updated

Reinforcement Learning • Updated Aug 29, 2024

jvelja/gemma2b-instrumentalEmergence-strongerOversight_1

Reinforcement Learning • Updated Aug 29, 2024

jvelja/gemma2b-instrumentalEmergence-strongerOversight_2

Reinforcement Learning • Updated Aug 29, 2024

LouisSanna/hw2-ppo

Reinforcement Learning • 0.1B • Updated Aug 29, 2024 • 4

Re-Re/ppo-LunarLander-v2-self

Reinforcement Learning • Updated Aug 30, 2024

jarski/myppo-LunarLander-v2

Reinforcement Learning • Updated Aug 30, 2024

Cryxim/ppo-LunarLanderV2

Reinforcement Learning • Updated Aug 31, 2024

monti-python/ppo-custom-LunarLander-v2

Reinforcement Learning • Updated Aug 31, 2024

bachephysicdun/HW2-ppo

Reinforcement Learning • 0.1B • Updated Sep 1, 2024 • 1

claudiubarbu/ppo

Reinforcement Learning • 0.1B • Updated Sep 12, 2024 • 3

SimaFarazi/gpt2-ppo

Reinforcement Learning • 0.1B • Updated Sep 1, 2024

mertgulexe/HW2-ppo

Reinforcement Learning • 0.1B • Updated Sep 1, 2024