Models

3,200

Full-text search

Active filters: ppo

vinhdq842/ppo-LunarLander-v2-scratch

Reinforcement Learning • Updated Feb 25, 2025

Jennny/llama3_samsum_rl_marshal

Reinforcement Learning • 8B • Updated Feb 26, 2025

Jennny/llama3_dialogsum_rl_marshal

Reinforcement Learning • 8B • Updated Feb 26, 2025 • 1

francescosabbarese/ppo-CartPole-v1

Reinforcement Learning • Updated Feb 26, 2025

francescosabbarese/ppo-LunarLander-v2-unit8-pt1

Reinforcement Learning • Updated Feb 26, 2025

nasnoussi/ppo-CartPole-v1

Reinforcement Learning • Updated Mar 1, 2025

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_test

Reinforcement Learning • Updated Feb 28, 2025 • 1

baronase/ppo-cleanrl-CartPole-v1

Reinforcement Learning • Updated Feb 27, 2025

baronase/ppo-cleanrl-CartPole-v1_2

Reinforcement Learning • Updated Feb 27, 2025

baronase/ppo-cleanrl-LunarLander-v2_1

Reinforcement Learning • Updated Feb 27, 2025

baronase/ppo-cleanrl-LunarLander-v2_200k

Reinforcement Learning • Updated Feb 27, 2025

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_2nd

Reinforcement Learning • Updated Feb 28, 2025

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav

Reinforcement Learning • 5B • Updated Mar 1, 2025

Jennny/llama3_samsum_marl_wo_comm

Reinforcement Learning • 8B • Updated Mar 2, 2025 • 1

Jennny/llama3_dialogsum_marl_wo_comm

Reinforcement Learning • 8B • Updated Mar 1, 2025

lucas-palmiro/ppo-LunarLander-v3

Reinforcement Learning • Updated Feb 28, 2025

lucas-palmiro/ppo-early-stopping-LunarLander-v3

Reinforcement Learning • Updated Feb 28, 2025

sighmon/ppo-cleanrl-LunarLander-v2

Reinforcement Learning • Updated Mar 1, 2025

mrinaldi86/ppo-CartPole-v1

Reinforcement Learning • Updated Mar 1, 2025

mrinaldi86/ppo-LunarLander-v3

Reinforcement Learning • Updated Mar 1, 2025

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_offline_nav_2nd

Reinforcement Learning • 5B • Updated Mar 1, 2025

takedakoji00/Llama-3.1-8B-Instruct-custom-qg-full_20250219-7th_random_pad_is_eos_ppo_3rd

Reinforcement Learning • Updated Mar 2, 2025 • 1

nasnoussi/ppo-Pixelcopter-v1

Reinforcement Learning • Updated Mar 1, 2025

dragovoid/ppo-LunarLander-v2-u8

Reinforcement Learning • Updated Mar 2, 2025

amostof/ppoScratchTest-LunarLander-v2

Reinforcement Learning • Updated Mar 3, 2025

fangyima/cleanrl-ppo-LunarLander-v2

Reinforcement Learning • Updated Mar 3, 2025

faelwen/ppo-LunarLander-v2-scratch

Reinforcement Learning • Updated Mar 6, 2025

taha454/ppo-CartPole

Reinforcement Learning • Updated Mar 6, 2025

taha454/LunarPPO

Reinforcement Learning • Updated Mar 6, 2025

Subarashi/PPO_unit8

Reinforcement Learning • Updated Mar 6, 2025