Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

3,202

Base only

Active filters: ppo

IvanKhoma/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 22, 2024 • 4

Haru4me/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 7, 2024

Haru4me/ppo-LunarLander-v2-unit-8

Reinforcement Learning • Updated Jul 7, 2024

mattiaskro/LunarLanderPPO

Reinforcement Learning • Updated Jul 9, 2024

bee-eater78/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 13, 2024

bee-eater78/ppo-scratch-LunarLander-v1

Reinforcement Learning • Updated Jul 13, 2024

RAWsi-18/LunarLander-v2

Reinforcement Learning • Updated Jul 16, 2024 • 1

eseskay/ppo-LunarLander-v2-unit8-p1

Reinforcement Learning • Updated Jul 17, 2024

Milad-R/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 18, 2024

Soorya1998/ppo-CartPole-v3

Reinforcement Learning • Updated Jul 18, 2024

lockylocks/PPO_LunarLander-v2

Reinforcement Learning • Updated Jul 18, 2024

Yash-Shindey/ppo-CartPole-v1

Reinforcement Learning • Updated Jul 20, 2024

Yash-Shindey/ppo-LunarLander

Reinforcement Learning • Updated Jul 20, 2024

Adignite/llama2_ppo_lawrl_epoch1

Reinforcement Learning • 7B • Updated Jul 22, 2024 • 1

thomaspalomares/unit8-ppo

Reinforcement Learning • Updated Jul 24, 2024

colinrgodsey/rl_course_vizdoom_health_gathering_supreme

Reinforcement Learning • Updated Aug 3, 2024

rishisim/ppo-LunarLander-v2-unit8-p1

Reinforcement Learning • Updated Jul 25, 2024

gabrielloiseau/TAROT-PPO

Text Generation • 0.4B • Updated Sep 5, 2024 • 3 • 1

jvelja/ppo-gemma-2b-epoch-1

Reinforcement Learning • Updated Jul 25, 2024 • 3

jvelja/ppo-gemma-2b-epoch-11

Reinforcement Learning • Updated Jul 25, 2024 • 1

jvelja/ppo-gemma-2b-epoch-21

Reinforcement Learning • Updated Jul 25, 2024 • 2

jvelja/ppo-gemma-2b-epoch-41

Reinforcement Learning • Updated Jul 25, 2024 • 1

jvelja/ppo-gemma-2b-epoch-51

Reinforcement Learning • Updated Jul 25, 2024 • 1

jvelja/ppo-gemma-2b-epoch-61

Reinforcement Learning • Updated Jul 25, 2024 • 1

jvelja/ppo-gemma-2b-epoch-71

Reinforcement Learning • Updated Jul 25, 2024 • 1

jvelja/ppo-gemma-2b-epoch-81

Reinforcement Learning • Updated Jul 25, 2024 • 1

jvelja/ppo-distilbert-base-uncased-epoch-0

Reinforcement Learning • Updated Jul 26, 2024 • 4

jvelja/ppo-distilbert-base-uncased-epoch-10

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-distilbert-base-uncased-epoch-20

Reinforcement Learning • Updated Jul 26, 2024 • 2

jvelja/ppo-distilbert-base-uncased-epoch-30

Reinforcement Learning • Updated Jul 26, 2024 • 1