Models

3,201

Full-text search

Active filters: ppo

Re-Re/ppo-LunarLander-v2-self

Reinforcement Learning • Updated Aug 30, 2024

jarski/myppo-LunarLander-v2

Reinforcement Learning • Updated Aug 30, 2024

Cryxim/ppo-LunarLanderV2

Reinforcement Learning • Updated Aug 31, 2024

monti-python/ppo-custom-LunarLander-v2

Reinforcement Learning • Updated Aug 31, 2024

bachephysicdun/HW2-ppo

Reinforcement Learning • 0.1B • Updated Sep 1, 2024 • 2

claudiubarbu/ppo

Reinforcement Learning • 0.1B • Updated Sep 12, 2024 • 1

SimaFarazi/gpt2-ppo

Reinforcement Learning • 0.1B • Updated Sep 1, 2024 • 2

mertgulexe/HW2-ppo

Reinforcement Learning • 0.1B • Updated Sep 1, 2024 • 1

chbenchi/mistral-ppo

Reinforcement Learning • 84.5M • Updated Sep 9, 2024 • 1

neeldevenshah/ppo-CartPole-v1

Reinforcement Learning • Updated Sep 3, 2024

wilt8/ppo-CartPole-v1

Reinforcement Learning • Updated Sep 4, 2024

wilt8/ppo-CleanRL-LunarLander-v2

Reinforcement Learning • Updated Sep 4, 2024

jvelja/gemma2b-sanity-vllm_0

Reinforcement Learning • Updated Sep 4, 2024 • 2

jvelja/gemma-strongOversight-vllm_0

Reinforcement Learning • Updated Sep 5, 2024 • 3

jvelja/gemma-strongOversight-vllm_1

Reinforcement Learning • Updated Sep 5, 2024 • 1

jvelja/gemma-strongOversight-vllm_2

Reinforcement Learning • Updated Sep 5, 2024 • 1

TomTom42/custom-PPO-LunarLander-v2

Reinforcement Learning • Updated Sep 5, 2024

KoNqUeRoR3891/HW2-ppo

Reinforcement Learning • 0.1B • Updated Sep 6, 2024 • 1

yuansui/TinyLLama-v0-PPO-tuned

Reinforcement Learning • Updated Sep 6, 2024 • 1

jvelja/gemma2b-sanity-multivllm_0

Reinforcement Learning • Updated Sep 6, 2024 • 1

jvelja/gemma2b-multivllm-NodropSus_0

Reinforcement Learning • Updated Sep 6, 2024 • 1

jvelja/gemma2b-multivllm-dropSus_0

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_1

Reinforcement Learning • Updated Sep 6, 2024 • 1

yuansui/Meta-Llama-3.1-8B-Instruct-PPO-tuned

Reinforcement Learning • Updated Sep 6, 2024 • 1

jvelja/gemma2b-multivllm-NodropSus_2

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_3

Reinforcement Learning • Updated Sep 6, 2024 • 1

jvelja/gemma2b-multivllm-NodropSus_4

Reinforcement Learning • Updated Sep 6, 2024 • 1

jvelja/gemma2b-multivllm-NodropSus_5

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_6

Reinforcement Learning • Updated Sep 6, 2024 • 3

jvelja/gemma2b-multivllm-NodropSus_7

Reinforcement Learning • Updated Sep 6, 2024 • 1