Models

3,194

Full-text search

Active filters: ppo

huodongzhuchirentonghua/LunarLander-v2

Reinforcement Learning • Updated Nov 14, 2025

thortywell/ppo-LunarLander-v3

Reinforcement Learning • Updated Nov 15, 2025

thortywell/ppo-CartPole-v1

Reinforcement Learning • Updated Nov 15, 2025

thortywell/Lunar

Reinforcement Learning • Updated Nov 15, 2025

khanhrill/HistoryGPT

4B • Updated Dec 12, 2025

Amir337/ppo-smollm2-135m-humanllm

Text Generation • 0.1B • Updated Nov 22, 2025 • 2

ianyang02/ppo_model_qwen3-4b_aita_h200

Updated Nov 19, 2025

mradermacher/HistoryGPT-GGUF

4B • Updated Dec 15, 2025 • 14

goforit123/custom-ppo-LunarLander-v2

Reinforcement Learning • Updated Nov 20, 2025

liajun/ppo-LunarLander-v2-U8

Reinforcement Learning • Updated Nov 28, 2025

MattBou00/SingleRound1B-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/SingleRound1B-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/SingleRound1B-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/ROUND5RETRYRUNNINGCODE-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/ROUND5ACTUALRETRYRUNNINGCODE-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/ROUND5ACTUALRETRYRUNNINGCODE-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/ROUND5ACTUALRETRYRUNNINGCODE-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/ROUND5ACTUALRETRYRUNNINGCODE-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/ROUND5ACTUALRETRYRUNNINGCODE-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/ROUND5ACTUALRETRYRUNNINGCODE

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/SingleLR001-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/SingleLR001-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/SingleLR001-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/SingleLR001-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/SingleLR001-checkpoint-epoch-100

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/SingleLR001

Reinforcement Learning • 1B • Updated Nov 21, 2025

MattBou00/SingleLR00001_2000samples-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 22, 2025 • 1

MattBou00/SequentialLR00001_2000samples-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 22, 2025

MattBou00/SequentialLR001_2000samples-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Nov 22, 2025

MattBou00/SequentialLR001_2000samples-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Nov 22, 2025