Models

3,194

Full-text search

Active filters: ppo

bhxvxsh/recipe-ai-hrm

Reinforcement Learning • Updated Dec 16, 2025 • 2

StevenHuo/StevenHuo-gpt2-squad-rl

Text Generation • 0.1B • Updated Dec 17, 2025

HuggingMachines/ppo-LunarLander-v2

Reinforcement Learning • Updated Dec 28, 2025

DmytroKhitro/ppo-LunarLander-Unit8-v2

Reinforcement Learning • Updated Dec 18, 2025

beachcities/ppo-LunarLander-v3-A100-SOTA

Reinforcement Learning • Updated Dec 18, 2025 • 7

kavindumit/LunarLander-v2-8

Reinforcement Learning • Updated Dec 18, 2025

seynath/LunarLander-v2-unit-8

Reinforcement Learning • Updated Dec 18, 2025

bawani/LunarLander-v2-unit-8

Reinforcement Learning • Updated Dec 31, 2025

ishadyaAP/LunarLander-v2-8

Reinforcement Learning • Updated Dec 18, 2025

beachcities/ppo-BipedalWalker-v3-A100-SOTA

Reinforcement Learning • Updated Dec 19, 2025 • 2

dimgalli/ppo-LunarLander

Reinforcement Learning • Updated Dec 19, 2025

DhruvJalan/ppo-LunarLander-v2

Reinforcement Learning • Updated Dec 19, 2025

mahir05/ppo-LunarLander-v2-unit8

Reinforcement Learning • Updated Dec 20, 2025

JonusNattapong/Reinforcement-Learning-for-Gold-Trading-Model

Reinforcement Learning • Updated Dec 23, 2025 • 8 • 5

kapilw25/llama3-8b-pku-PPO-NoInstruct-SFT-NoInstruct

Updated Dec 20, 2025

kapilw25/llama3-8b-pku-PPO-Instruct-SFT-Instruct

Updated Dec 21, 2025

elusivephantasm/ppo-cr-LunarLander-v2

Reinforcement Learning • Updated Dec 21, 2025

elusivephantasm/ppo-cr-LunarLander-v2-unit8_part1

Reinforcement Learning • Updated Dec 21, 2025

aryannzzz/ppo-lunarlander-scratch

Reinforcement Learning • Updated Dec 21, 2025

Michellemingxuan/ppo-scratch-LunarLander-v3

Reinforcement Learning • Updated Dec 22, 2025

KnoY/LunarLander-v2-ppo

Reinforcement Learning • Updated Dec 23, 2025

thisusernameisnotavailablehee/ppo-huggy

Reinforcement Learning • Updated Dec 25, 2025 • 3

Tasfiya025/Neuroscience_EEG_Epilepsy_Tagger

Reinforcement Learning • Updated Dec 26, 2025

Haxxsh/micppo-LunarLander-v2-unit8-part1

Reinforcement Learning • Updated Dec 27, 2025

Emptier8126/ppo-LunarLander-v3

Reinforcement Learning • Updated Dec 30, 2025

ketencrypt10n/ppo-lunar-lander

Reinforcement Learning • Updated Dec 31, 2025 • 2

seynath/LunarLander-v2

Reinforcement Learning • Updated Jan 1

phuongntc/llama32_1b_ppo_noSFT_multievalsumviet2_penalty

Reinforcement Learning • Updated Jan 1

HumanPlane/LACUNA

Reinforcement Learning • 38.8k • Updated Jan 1 • 17 • 7

TensorAeroSpace/ppo-b747-step-response

Reinforcement Learning • Updated Jan 2 • 2