Models

3,202

Full-text search

Active filters: ppo

jvelja/gemma-2-2b-it-logOdds_2bit_logOdds_0

Reinforcement Learning • Updated Aug 24, 2024 • 1

jvelja/gemma-2-2b-it-logOdds_1

Reinforcement Learning • Updated Aug 24, 2024 • 1

jvelja/gemma-2-2b-it-logOdds_2bit_logOdds_1

Reinforcement Learning • Updated Aug 24, 2024 • 2

jvelja/gemma-2-2b-it-logOdds_2

Reinforcement Learning • Updated Aug 24, 2024 • 1

jvelja/gemma-2-2b-it-logOdds_3

Reinforcement Learning • Updated Aug 24, 2024 • 2

jvelja/gemma-2-2b-it-logOdds_2bit_logOdds_2

Reinforcement Learning • Updated Aug 24, 2024 • 1

jvelja/gemma-2-2b-it-logOdds_4

Reinforcement Learning • Updated Aug 24, 2024 • 1

jvelja/gemma-2-2b-it-logOdds_2bit_logOdds_3

Reinforcement Learning • Updated Aug 24, 2024 • 3

jvelja/gemma-2-2b-it-logOdds_5

Reinforcement Learning • Updated Aug 24, 2024 • 1

Leon-Zsl/ppo-CartPole-v1

Reinforcement Learning • Updated Aug 25, 2024

jroblesgomez/ppo-LunarLander-v2-8

Reinforcement Learning • Updated Aug 25, 2024

jroblesgomez/ppo-LunarLander-v2-8-500k

Reinforcement Learning • Updated Aug 25, 2024

jvelja/llama-3.1-8b-it-logOdds_0

Reinforcement Learning • Updated Aug 26, 2024 • 2

jvelja/llama-3.1-8b-it-logOdds_2bit_logOdds_0

Reinforcement Learning • Updated Aug 26, 2024 • 1

NatalieCheong/ppo-CleanRL

Reinforcement Learning • Updated Aug 27, 2024

SimaFarazi/mistral-ppo

Reinforcement Learning • 84.5M • Updated Aug 28, 2024 • 1

jvelja/poop_0

Reinforcement Learning • 0.1B • Updated Aug 29, 2024 • 1

jvelja/poop_1

Reinforcement Learning • 0.1B • Updated Aug 29, 2024 • 1

taku-yoshioka/rlhf-line-marcja-0828

Reinforcement Learning • Updated Aug 30, 2024 • 6

taku-yoshioka/rlhf-llm-custom-rm-0828

Reinforcement Learning • Updated Aug 31, 2024 • 2

bwalser/lunarlander-ppo-v2

Reinforcement Learning • Updated Aug 29, 2024

jvelja/poop_2

Reinforcement Learning • 0.1B • Updated Aug 29, 2024 • 2

drbeane/ll_ppo_01

Reinforcement Learning • Updated Aug 29, 2024

jvelja/gemma2b-instrumentalEmergence-strongerOversight_0

Reinforcement Learning • Updated Aug 30, 2024 • 1

rajveer43/LunarLander-v2_81

Reinforcement Learning • Updated Aug 29, 2024

rajveer43/LunarLander-v2_811

Reinforcement Learning • Updated Aug 29, 2024

rajveer43/LunarLander-v2_updated

Reinforcement Learning • Updated Aug 29, 2024

jvelja/gemma2b-instrumentalEmergence-strongerOversight_1

Reinforcement Learning • Updated Aug 29, 2024 • 1

jvelja/gemma2b-instrumentalEmergence-strongerOversight_2

Reinforcement Learning • Updated Aug 29, 2024 • 1

LouisSanna/hw2-ppo

Reinforcement Learning • 0.1B • Updated Aug 29, 2024 • 2