Edit Models filters

Models

3,301

Base only

Active filters: ppo

bnurpek/gpt2-256t-nr1wr-pos-15

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 1

bnurpek/gpt2-256t-nr1wr-pos-20

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 1

bnurpek/gpt2-256t-nr1wr-pos-30

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 2

bnurpek/new-mgpt-pos-0

Reinforcement Learning • Updated Jan 8, 2024

bnurpek/new-mgpt-pos-1

Reinforcement Learning • Updated Jan 8, 2024

bnurpek/new-mgpt-pos-2

Reinforcement Learning • Updated Jan 8, 2024

Cloud1989/ppo-LunarLander-v2-unit8-1

Reinforcement Learning • Updated Jan 8, 2024

LoicSteve/new-ppo-LunarLander-V2

Reinforcement Learning • Updated Jan 8, 2024

AdoubleLen/trl

Reinforcement Learning • Updated Jan 11, 2024

sekinat/ppo-CartPole-v1-wanb

Reinforcement Learning • Updated Jan 11, 2024

Rafaelfr87/ppo-LunarLander-v2-CleanRL

Reinforcement Learning • Updated Jan 11, 2024

sekinat/LunarLander-v2_wanb_1e-05

Reinforcement Learning • Updated Jan 12, 2024

yangzhou301/ppo-LunarLander-v2-unit8

Reinforcement Learning • Updated Jan 13, 2024

mus-shd/ppo-unit8-LunarLander-v2

Reinforcement Learning • Updated Jan 13, 2024

JDB03/PPO-Self-LunarLanderV2

Reinforcement Learning • Updated Jan 15, 2024

isotnek/ppo-LunarLander-v2

Reinforcement Learning • Updated Jan 15, 2024

socks22/ppo-lunarlandar-my-own

Reinforcement Learning • Updated Jan 17, 2024

samwell/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 18, 2024

taku-yoshioka/rlhf_llm_custom_rm

Reinforcement Learning • Updated Mar 3, 2024 • 1

ib1368/ppo-CartPole-v1-scratch

Reinforcement Learning • Updated Jan 19, 2024

krishnadasar-sudheer-kumar/ppo-CleanRL-Unit8-LunarLander-V2

Reinforcement Learning • Updated Jan 20, 2024

kar-saaragh/ppo-cml-LunarLander

Reinforcement Learning • Updated Jan 20, 2024

kar-saaragh/ppo-cml-LunarLander-v2

Reinforcement Learning • Updated Jan 20, 2024

kar-saaragh/ppo-cml-LunarLander-v3

Reinforcement Learning • Updated Jan 20, 2024

kar-saaragh/ppo-cml-LunarLander-v4

Reinforcement Learning • Updated Jan 20, 2024

beibeif/ppo-lunar-v1

Reinforcement Learning • Updated Jan 20, 2024

satcos/LunarLander-v2.1

Reinforcement Learning • Updated Jan 22, 2024

TitanTec/ppo-LunaInvader-T2

Reinforcement Learning • Updated Jan 24, 2024

Ivan0831/DRL

Reinforcement Learning • Updated Jan 24, 2024

Ivan0831/PPO-LunarLander-Default

Reinforcement Learning • Updated Jan 24, 2024