Edit Models filters

Models

3,291

Base only

Active filters: ppo

ajagota71/pythia-70m-detox-irl-rlhf-test2

Reinforcement Learning • 70.4M • Updated May 11, 2025 • 2

ajagota71/pythia-70m-detox-raw-logits-test2

Reinforcement Learning • 70.4M • Updated May 11, 2025 • 3

ajagota71/pythia-160m-detox-raw-logits-test2

Reinforcement Learning • 0.2B • Updated May 11, 2025 • 1

ajagota71/pythia-70m-detox-irl-rlhf-seed-42

Reinforcement Learning • 70.4M • Updated May 11, 2025 • 1

ajagota71/pythia-70m-detox-irl-rlhf-seed-200

Reinforcement Learning • 70.4M • Updated May 11, 2025 • 2

DeepMostInnovations/sales-conversion-model-reinf-learning

Reinforcement Learning • Updated May 26, 2025 • 4 • 33

fedorl/unit8part2

Reinforcement Learning • Updated May 11, 2025

ajagota71/pythia-410m-detox-irl-rlhf-seed-42

Reinforcement Learning • 0.4B • Updated May 11, 2025

ajagota71/pythia-410m-detox-irl-rlhf-seed-100

Reinforcement Learning • 0.4B • Updated May 11, 2025 • 1

ajagota71/pythia-410m-detox-irl-rlhf-seed-200

Reinforcement Learning • 0.4B • Updated May 11, 2025 • 2

ajagota71/pythia-410m-detox-irl-rlhf-seed-300

Reinforcement Learning • 0.4B • Updated May 12, 2025

ajagota71/pythia-410m-detox-irl-rlhf-seed-400

Reinforcement Learning • 0.4B • Updated May 12, 2025 • 1

S-Chaves/ppo-from-scratch-LunarLander-v2

Reinforcement Learning • Updated May 13, 2025

Arrebol-yzq/RLP_llm_inductive_model

Reinforcement Learning • Updated May 14, 2025 • 2

jcorblaz/LunarLander2

Reinforcement Learning • Updated May 14, 2025

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-20

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 2

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-40

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 2

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-60

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 2

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-80

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 2

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-100

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 4

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-120

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 2

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-140

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 1

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-160

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 2

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-180

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 1

ajagota71/pythia-70m-fb-detox-checkpoint-epoch-200

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 1

ajagota71/pythia-70m-fb-detox

Reinforcement Learning • 70.4M • Updated May 16, 2025 • 1

ajagota71/pythia-160m-fb-detox-checkpoint-epoch-20

Reinforcement Learning • 0.2B • Updated May 16, 2025 • 2

ajagota71/pythia-160m-fb-detox-checkpoint-epoch-60

Reinforcement Learning • 0.2B • Updated May 16, 2025 • 1

ajagota71/pythia-160m-fb-detox-checkpoint-epoch-80

Reinforcement Learning • 0.2B • Updated May 16, 2025 • 1

ajagota71/pythia-160m-fb-detox-checkpoint-epoch-100

Reinforcement Learning • 0.2B • Updated May 16, 2025 • 1