Models

3,197

Full-text search

Active filters: ppo

carlkaziboni/ppo-CartPole-v1

Reinforcement Learning • Updated Jun 28, 2025

abkimc/LunarLander-v3

Reinforcement Learning • Updated Jun 29, 2025

abkimc/LunarLander-v2

Reinforcement Learning • Updated Jun 29, 2025

zhngq/ppo-shulte-2

Reinforcement Learning • Updated Jul 1, 2025

chudp/LunarLander-v2

Reinforcement Learning • Updated Jul 1, 2025

LichengLiu03/Qwen2.5-3B-UFO

Text Generation • 3B • Updated Jul 23, 2025 • 2 • • 2

rllapin28/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 1, 2025

carolinacon/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 2, 2025

LichengLiu03/Qwen2.5-3B-UFO-1turn

Text Generation • 3B • Updated Jul 10, 2025 • 1 • 2

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-20

Reinforcement Learning • 70.4M • Updated Jul 2, 2025

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-40

Reinforcement Learning • 70.4M • Updated Jul 2, 2025 • 1

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-60

Reinforcement Learning • 70.4M • Updated Jul 2, 2025 • 1

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-80

Reinforcement Learning • 70.4M • Updated Jul 2, 2025 • 1

ajagota71/pythia-70m-s-nlp-detox-checkpoint-epoch-100

Reinforcement Learning • 70.4M • Updated Jul 2, 2025

ajagota71/pythia-70m-s-nlp-detox

Reinforcement Learning • 70.4M • Updated Jul 2, 2025

JulioSnchezD/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 3, 2025

jofrank/LunarLander-v2

Reinforcement Learning • Updated Jul 3, 2025

mradermacher/Qwen2.5-3B-UFO-GGUF

3B • Updated Jul 4, 2025 • 54 • 1

mradermacher/Qwen2.5-3B-UFO-1turn-GGUF

3B • Updated Jul 4, 2025 • 65 • 1

Adilbai/stock-trading-rl-agent

Reinforcement Learning • Updated Jan 8 • 364 • 144

ajagota71/pythia-410m-s-nlp-detox-checkpoint-epoch-20

Reinforcement Learning • 0.4B • Updated Jul 5, 2025

ajagota71/pythia-410m-s-nlp-detox-checkpoint-epoch-40

Reinforcement Learning • 0.4B • Updated Jul 5, 2025

ajagota71/pythia-410m-s-nlp-detox-checkpoint-epoch-60

Reinforcement Learning • 0.4B • Updated Jul 5, 2025 • 3

ajagota71/pythia-410m-s-nlp-detox-checkpoint-epoch-80

Reinforcement Learning • 0.4B • Updated Jul 5, 2025 • 2

ajagota71/pythia-410m-s-nlp-detox-checkpoint-epoch-100

Reinforcement Learning • 0.4B • Updated Jul 5, 2025

ajagota71/pythia-410m-s-nlp-detox

Reinforcement Learning • 0.4B • Updated Jul 5, 2025

ajagota71/pythia-1b-s-nlp-detox-checkpoint-epoch-20

Reinforcement Learning • 1B • Updated Jul 5, 2025 • 1

ajagota71/pythia-1b-s-nlp-detox-checkpoint-epoch-40

Reinforcement Learning • 1B • Updated Jul 5, 2025 • 1

ajagota71/pythia-1b-s-nlp-detox-checkpoint-epoch-60

Reinforcement Learning • 1B • Updated Jul 5, 2025

ajagota71/pythia-1b-s-nlp-detox-checkpoint-epoch-80

Reinforcement Learning • 1B • Updated Jul 5, 2025