Edit Models filters

Models

3,294

Base only

Active filters: ppo

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_2nd

Reinforcement Learning • Updated Feb 28, 2025 • 2

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav

Reinforcement Learning • 5B • Updated Mar 1, 2025 • 4

Jennny/llama3_samsum_marl_wo_comm

Reinforcement Learning • 8B • Updated Mar 2, 2025 • 1

Jennny/llama3_dialogsum_marl_wo_comm

Reinforcement Learning • 8B • Updated Mar 1, 2025

lucas-palmiro/ppo-LunarLander-v3

Reinforcement Learning • Updated Feb 28, 2025

lucas-palmiro/ppo-early-stopping-LunarLander-v3

Reinforcement Learning • Updated Feb 28, 2025

sighmon/ppo-cleanrl-LunarLander-v2

Reinforcement Learning • Updated Mar 1, 2025

mrinaldi86/ppo-CartPole-v1

Reinforcement Learning • Updated Mar 1, 2025

mrinaldi86/ppo-LunarLander-v3

Reinforcement Learning • Updated Mar 1, 2025

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav_2nd

Reinforcement Learning • 5B • Updated Mar 1, 2025 • 3

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_3rd

Reinforcement Learning • Updated Mar 2, 2025 • 5

nasnoussi/ppo-Pixelcopter-v1

Reinforcement Learning • Updated Mar 1, 2025

dragovoid/ppo-LunarLander-v2-u8

Reinforcement Learning • Updated Mar 2, 2025

amostof/ppoScratchTest-LunarLander-v2

Reinforcement Learning • Updated Mar 3, 2025

fangyima/cleanrl-ppo-LunarLander-v2

Reinforcement Learning • Updated Mar 3, 2025

faelwen/ppo-LunarLander-v2-scratch

Reinforcement Learning • Updated Mar 6, 2025

taha454/ppo-CartPole

Reinforcement Learning • Updated Mar 6, 2025

taha454/LunarPPO

Reinforcement Learning • Updated Mar 6, 2025

Subarashi/PPO_unit8

Reinforcement Learning • Updated Mar 6, 2025

Khushal31/ppo-Unit8-LunarLander-v2

Reinforcement Learning • Updated Mar 6, 2025

suneater175/CleanRL-LunarLander-v2

Reinforcement Learning • Updated Mar 8, 2025

zhangtemplar/LunarLander-v2-newppo

Reinforcement Learning • Updated Mar 10, 2025

guife33/ppo-CartPole-v1

Reinforcement Learning • Updated Mar 10, 2025

guife33/LunarLander-v2

Reinforcement Learning • Updated Mar 10, 2025

so7en/Lunar_Lander_unit8

Reinforcement Learning • Updated Mar 12, 2025

pdimas/helpfulpharmacyllm_js-rlhf-01

Reinforcement Learning • 1B • Updated Mar 11, 2025

pdimas/helpfulpharmacyllm_mb-rlhf-01

Reinforcement Learning • 1B • Updated Mar 11, 2025 • 1