Models

3,202

Full-text search

Active filters: ppo

ymath/ppo-gemma-2-2b-it-epoch-1000

Reinforcement Learning • Updated Aug 15, 2024 • 1

nguyenduchuyiu/ppo-CartPole-v1-from-scratch

Reinforcement Learning • Updated Aug 15, 2024

jvelja/ppo-gpt2-epoch-777778

Reinforcement Learning • 0.1B • Updated Aug 15, 2024 • 3

jimjiang203/ppo-LunarLander-v2

Reinforcement Learning • Updated Aug 16, 2024

knight9114/ppo-LunarLander-v2-unit8.1

Reinforcement Learning • Updated Aug 16, 2024

jvelja/ppo-gemma-2-2b-it-epoch-1.01

Reinforcement Learning • Updated Aug 16, 2024 • 4

GeorgeImmanuel/ppo_practice

Reinforcement Learning • Updated Aug 16, 2024

davidgaofc/revision_PPO0.5

Reinforcement Learning • 60.5M • Updated Aug 17, 2024 • 2

davidgaofc/revision_PPO0.4

Reinforcement Learning • 60.5M • Updated Aug 17, 2024 • 1

jvelja/ppo-gemma-2-2b-it_fullyUnseeded

Reinforcement Learning • Updated Aug 17, 2024 • 4

jvelja/ppo-gemma-2-2b-it_fullyUnseeded_v2

Reinforcement Learning • Updated Aug 17, 2024 • 3

martomor/ppo-LunarLander-v2

Reinforcement Learning • Updated Nov 1, 2024 • 2

gubhaalimpu/ppo-CartPole-v1

Reinforcement Learning • Updated Aug 18, 2024

jvelja/ppo-gemma-2-2b-it_fullyUnseeded_MULTIBIT

Reinforcement Learning • Updated Aug 19, 2024 • 4

oookayamaswallow/ppo-CartPole-v1

Reinforcement Learning • Updated Aug 20, 2024

jvelja/ppo-self.llama-3-8b-Instruct_fullyUnseeded_MULTIBIT_0

Reinforcement Learning • Updated Aug 21, 2024 • 5

Adripro01/ppo-Lunarlander-v2_2

Reinforcement Learning • Updated Aug 21, 2024

jvelja/ppo-gemma-2-2b-it-unseeded_0

Reinforcement Learning • Updated Aug 21, 2024 • 6

jvelja/gemma-2-2b-it_imdb_seeded_0

Reinforcement Learning • Updated Aug 21, 2024 • 2

jvelja/gemma-2-2b-it_imdb_0

Reinforcement Learning • Updated Aug 21, 2024 • 2

jvelja/gemma-2-2b-it_imdb_2bit_0

Reinforcement Learning • Updated Aug 22, 2024 • 6

jvelja/gemma-2-2b-it_imdb_1

Reinforcement Learning • Updated Aug 21, 2024 • 1

jvelja/gemma-2-2b-it_imdb_2bit_1

Reinforcement Learning • Updated Aug 22, 2024 • 1

jvelja/gemma-2-2b-it_imdb_2

Reinforcement Learning • Updated Aug 21, 2024 • 1

jvelja/gemma-2-2b-it_imdb_2bit_2

Reinforcement Learning • Updated Aug 22, 2024 • 2

jvelja/ppo-gemma-2-2b-it-unseeded_1

Reinforcement Learning • Updated Aug 21, 2024 • 1

jvelja/ppo-gemma-2-2b-it-unseeded_2

Reinforcement Learning • Updated Aug 21, 2024 • 1

anacg/ppo-LunarLander-v2

Reinforcement Learning • Updated Sep 2, 2024 • 3

jvelja/gemma-2-2b-it_imdb_2bit_3

Reinforcement Learning • Updated Aug 22, 2024 • 1

jvelja/gemma-2-2b-it_imdb_2bit_4

Reinforcement Learning • Updated Aug 22, 2024 • 1