Models

3,197

Full-text search

Active filters: ppo

Nack34/ppo-from-scratch-LunarLander-v2

Reinforcement Learning • Updated May 4, 2025

fedorl/unit8

Reinforcement Learning • Updated May 4, 2025

Ari8/ppo-LunarLander-v2_unit8

Reinforcement Learning • Updated May 7, 2025

AndreiVoicuT/ppo-LunarLander-v2-C8

Reinforcement Learning • Updated Jun 12, 2025 • 1

alejandroajhr/ppo-LunarLander-v2-unit8

Reinforcement Learning • Updated May 7, 2025

ajagota71/pythia-70m-detox-irl-rlhf-test

Reinforcement Learning • 70.4M • Updated May 7, 2025 • 1

rusuanjun/ppo-selfimplement-LunarLander-v2

Reinforcement Learning • Updated May 8, 2025

SpriteLi/LunarLander

Reinforcement Learning • Updated May 8, 2025

aalva/ppo-cleanrl-LunarLander-v2

Reinforcement Learning • Updated May 10, 2025

ajagota71/pythia-70m-detox-irl-rlhf-test-facebook-filter

Reinforcement Learning • 70.4M • Updated May 11, 2025

ajagota71/pythia-70m-detox-irl-rlhf-test2

Reinforcement Learning • 70.4M • Updated May 11, 2025 • 1

ajagota71/pythia-70m-detox-raw-logits-test2

Reinforcement Learning • 70.4M • Updated May 11, 2025 • 1

ajagota71/pythia-160m-detox-raw-logits-test2

Reinforcement Learning • 0.2B • Updated May 11, 2025

ajagota71/pythia-70m-detox-irl-rlhf-seed-42

Reinforcement Learning • 70.4M • Updated May 11, 2025 • 1

ajagota71/pythia-70m-detox-irl-rlhf-seed-200

Reinforcement Learning • 70.4M • Updated May 11, 2025

DeepMostInnovations/sales-conversion-model-reinf-learning

Reinforcement Learning • Updated May 26, 2025 • 6 • 33

fedorl/unit8part2

Reinforcement Learning • Updated May 11, 2025

ajagota71/pythia-410m-detox-irl-rlhf-seed-42

Reinforcement Learning • 0.4B • Updated May 11, 2025

ajagota71/pythia-410m-detox-irl-rlhf-seed-100

Reinforcement Learning • 0.4B • Updated May 11, 2025 • 2

ajagota71/pythia-410m-detox-irl-rlhf-seed-200

Reinforcement Learning • 0.4B • Updated May 11, 2025

ajagota71/pythia-410m-detox-irl-rlhf-seed-300

Reinforcement Learning • 0.4B • Updated May 12, 2025

ajagota71/pythia-410m-detox-irl-rlhf-seed-400

Reinforcement Learning • 0.4B • Updated May 12, 2025

S-Chaves/ppo-from-scratch-LunarLander-v2

Reinforcement Learning • Updated May 13, 2025

Arrebol-yzq/RLP_llm_inductive_model

Reinforcement Learning • Updated May 14, 2025

jcorblaz/LunarLander2

Reinforcement Learning • Updated May 14, 2025

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-20

Reinforcement Learning • 70.4M • Updated May 16, 2025

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-40

Reinforcement Learning • 70.4M • Updated May 16, 2025

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-60

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 1

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-80

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 1

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-100

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 1