Edit Models filters

Models

3,301

Base only

Active filters: ppo

chbenchi/mistral-ppo

Reinforcement Learning • 84.5M • Updated Sep 9, 2024

neeldevenshah/ppo-CartPole-v1

Reinforcement Learning • Updated Sep 3, 2024

wilt8/ppo-CartPole-v1

Reinforcement Learning • Updated Sep 4, 2024

wilt8/ppo-CleanRL-LunarLander-v2

Reinforcement Learning • Updated Sep 4, 2024

jvelja/gemma2b-sanity-vllm_0

Reinforcement Learning • Updated Sep 4, 2024 • 1

jvelja/gemma-strongOversight-vllm_0

Reinforcement Learning • Updated Sep 5, 2024 • 1

jvelja/gemma-strongOversight-vllm_1

Reinforcement Learning • Updated Sep 5, 2024

jvelja/gemma-strongOversight-vllm_2

Reinforcement Learning • Updated Sep 5, 2024 • 1

TomTom42/custom-PPO-LunarLander-v2

Reinforcement Learning • Updated Sep 5, 2024

KoNqUeRoR3891/HW2-ppo

Reinforcement Learning • 0.1B • Updated Sep 6, 2024 • 2

yuansui/TinyLLama-v0-PPO-tuned

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-sanity-multivllm_0

Reinforcement Learning • Updated Sep 6, 2024

jvelja/gemma2b-multivllm-NodropSus_0

Reinforcement Learning • Updated Sep 6, 2024

jvelja/gemma2b-multivllm-dropSus_0

Reinforcement Learning • Updated Sep 6, 2024 • 2

jvelja/gemma2b-multivllm-NodropSus_1

Reinforcement Learning • Updated Sep 6, 2024

yuansui/Meta-Llama-3.1-8B-Instruct-PPO-tuned

Reinforcement Learning • Updated Sep 6, 2024 • 1

jvelja/gemma2b-multivllm-NodropSus_2

Reinforcement Learning • Updated Sep 6, 2024 • 1

jvelja/gemma2b-multivllm-NodropSus_3

Reinforcement Learning • Updated Sep 6, 2024

jvelja/gemma2b-multivllm-NodropSus_4

Reinforcement Learning • Updated Sep 6, 2024 • 1

jvelja/gemma2b-multivllm-NodropSus_5

Reinforcement Learning • Updated Sep 6, 2024 • 1

jvelja/gemma2b-multivllm-NodropSus_6

Reinforcement Learning • Updated Sep 6, 2024

jvelja/gemma2b-multivllm-NodropSus_7

Reinforcement Learning • Updated Sep 6, 2024

jvelja/gemma2b-multivllm-NodropSus_8

Reinforcement Learning • Updated Sep 7, 2024

jvelja/gemma2b-multivllm-NodropSus_9

Reinforcement Learning • Updated Sep 7, 2024

jvelja/gemma2b-multivllm-NodropSus_10

Reinforcement Learning • Updated Sep 7, 2024 • 1

jvelja/gemma2b-multivllm-NodropSus_11

Reinforcement Learning • Updated Sep 7, 2024

jvelja/gemma2b-multivllm-NodropSus_12

Reinforcement Learning • Updated Sep 7, 2024

khadivi-ah/LunarLander-v2-2

Reinforcement Learning • Updated Sep 7, 2024

powep/ppo_LunarLander-v2

Reinforcement Learning • Updated Sep 8, 2024

jvelja/gemma2b-NodropSus_0

Reinforcement Learning • Updated Sep 8, 2024 • 1