Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

3,205

Base only

Active filters: ppo

baek26/all_9929_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 20, 2024 • 2

izaznov/ppo_torch_LunarLander-v2

Reinforcement Learning • Updated May 21, 2024

baek26/all_4293_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 21, 2024 • 2

baek26/all_8929_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 21, 2024 • 3

baek26/all_9529_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 21, 2024 • 2

joosma/ppo-v1

Reinforcement Learning • Updated May 21, 2024

joosma/ppo-v2

Reinforcement Learning • Updated May 21, 2024

joosma/ppo-v3

Reinforcement Learning • Updated May 21, 2024

baek26/all_5356_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 22, 2024 • 1

baek26/all_7360_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 22, 2024 • 1

baek26/all_5137_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 22, 2024 • 1

baek26/all_4156_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 23, 2024 • 4

baek26/all_4517_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 23, 2024 • 1

ra9hu/ppo-LunarLander-v2

Reinforcement Learning • Updated Jul 1, 2024 • 3

baek26/all_7266_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 23, 2024 • 1

devjwsong/ppo-CartPole-v1

Reinforcement Learning • Updated May 23, 2024

AlikS/ppo-CartPole-v1

Reinforcement Learning • Updated May 24, 2024

AlikS/LunarLander-v2

Reinforcement Learning • Updated May 24, 2024

devjwsong/ppo-a2c-LunarLander-v2

Reinforcement Learning • Updated May 25, 2024

lctzz540/gemppo

Reinforcement Learning • Updated May 26, 2024 • 1

pkbiswas/Llama-2-7b-Detoxified-PPO-QLoRa

Reinforcement Learning • Updated May 27, 2024 • 1

baek26/all_6489_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 1

baek26/all_7795_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 1

baek26/all_9899_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 1

baek26/all_8847_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 1

baek26/all_3790_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 1

johnnyf/lunar2

Reinforcement Learning • Updated May 27, 2024

minindu-liya99/LunarLander-v2

Reinforcement Learning • Updated May 27, 2024

baek26/all_9746_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 1

baek26/all_3510_bart-all_rl

Reinforcement Learning • 0.1B • Updated May 27, 2024 • 1