Edit Models filters

Models

3,281

Base only

Active filters: ppo

Umang-Bansal/ppo-LunarLander-v2

Reinforcement Learning • Updated Oct 15, 2025

changyuwen06/PPO-scratch-LunarLander-v2

Reinforcement Learning • Updated Oct 17, 2025

Tyraex/ppo-CartPole-v1

Reinforcement Learning • Updated Oct 21, 2025

samhitha2601/llama3.2-3b-ppo

Reinforcement Learning • Updated Oct 23, 2025 • 1

samhitha2601/llama3.2-3b-ppo-critic

Reinforcement Learning • Updated Oct 23, 2025

debisoft/ppo-CartPole-v1

Reinforcement Learning • Updated Oct 24, 2025

debisoft/ppo-CartPole-v2

Reinforcement Learning • Updated Oct 24, 2025

ARG-NCTU/hrl-ppo-usv

Reinforcement Learning • Updated Oct 29, 2025

romolocaponera/LunarLander-v3-Unit8

Reinforcement Learning • Updated Oct 26, 2025

romolocaponera/LunarLander-v2-Unit8

Reinforcement Learning • Updated Oct 26, 2025

MMattaparthy/ppo_model_final

Text Generation • 2B • Updated Oct 29, 2025 • 2

Nao233/ppo-CartPole-v1

Reinforcement Learning • Updated Oct 30, 2025

MishkaMushka/ppo-LunarLander-v2_3M-Tuned

Reinforcement Learning • Updated Oct 31, 2025

LucasBlock/ppo-pytorch-LunarLander-v2

Reinforcement Learning • Updated Oct 31, 2025

zikangzheng/ppo-LunarLander-v2-u8

Reinforcement Learning • Updated Nov 5, 2025

giansimone/PPO-LunarLander

Reinforcement Learning • Updated Nov 6, 2025 • 5

giansimone/PPO-MuJoCo-HalfCheetah-v5

Reinforcement Learning • Updated Nov 10, 2025 • 4

sodeniZz/llm-course-hw2-ppo

Text Generation • 0.1B • Updated Nov 15, 2025 • 21

GustavoDLRA/ppo-CartPole-v1

Reinforcement Learning • Updated Nov 11, 2025

GustavoDLRA/ppo-LunarLanderv2-U8P1

Reinforcement Learning • Updated Nov 11, 2025

CharithAnupama/ppo-LunarLander-v2

Reinforcement Learning • Updated Dec 18, 2025 • 1

slavin-lisa/trainer_output

Text Generation • 0.1B • Updated Nov 17, 2025 • 3

huodongzhuchirentonghua/LunarLander-v2

Reinforcement Learning • Updated Nov 14, 2025

thortywell/ppo-LunarLander-v3

Reinforcement Learning • Updated Nov 15, 2025

thortywell/ppo-CartPole-v1

Reinforcement Learning • Updated Nov 15, 2025

thortywell/Lunar

Reinforcement Learning • Updated Nov 15, 2025

khanhrill/HistoryGPT

4B • Updated Dec 12, 2025 • 2

Amir337/ppo-smollm2-135m-humanllm

Text Generation • 0.1B • Updated Nov 22, 2025 • 2

ianyang02/ppo_model_qwen3-4b_aita_h200

Updated Nov 19, 2025

mradermacher/HistoryGPT-GGUF

4B • Updated Dec 15, 2025 • 10