Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

3,206

Base only

Active filters: ppo

AmrSheta/ppo-LunarLander-v2

Reinforcement Learning • Updated Mar 22, 2024

n1kolAI/lunarlandar-ppo

Reinforcement Learning • Updated Mar 22, 2024

TikhonRadkevich/ppo_v2_LunarLander-v2

Reinforcement Learning • Updated Mar 22, 2024

Statos6/ppo-cleanRL-LunarLander-v2

Reinforcement Learning • Updated Mar 23, 2024

MuntasirHossain/flan-t5-large-samsum-qlora-ppo

Reinforcement Learning • Updated Mar 26, 2024

tung491/Lunar_Landing_v2_unit8

Reinforcement Learning • Updated Mar 27, 2024

linuxhunter/LunarLander-v2

Reinforcement Learning • Updated Mar 27, 2024

dattienle2573/ppo-LunarLander-v2-fs

Reinforcement Learning • Updated Mar 27, 2024

EchineF/LunarLander-v2_PPO-from-scratch

Reinforcement Learning • Updated Mar 28, 2024

N0de/ppo-LunarLander-v2_1

Reinforcement Learning • Updated Mar 28, 2024

gael1130/ppo-CartPole-v1-from-scratch

Reinforcement Learning • Updated Mar 28, 2024

gael1130/ppo-LunarLander-v2-from-scratch-1

Reinforcement Learning • Updated Mar 28, 2024

gael1130/ppo-LunarLander-v2-from-scratch-2

Reinforcement Learning • Updated Mar 28, 2024

deepaknh/falcon7B_rlhf_v1

Reinforcement Learning • Updated Mar 29, 2024 • 1

ninja21/ppo-LunarLander-v1

Reinforcement Learning • Updated Mar 30, 2024

PaulTbbr/ppo-LunarLander-v2-u8

Reinforcement Learning • Updated Mar 31, 2024

sdidier-dev/ppo-CartPole-v1

Reinforcement Learning • Updated Mar 31, 2024

Farbum/REINFORCE_Pixelcopter

Reinforcement Learning • Updated Apr 2, 2024

baek26/billsum_2052_bart-base

Reinforcement Learning • 0.1B • Updated Apr 1, 2024 • 2

lisagrace/Lunar-v2-PPO

Reinforcement Learning • Updated Apr 1, 2024

geoartop/better-LunarLander-v2

Reinforcement Learning • Updated Apr 1, 2024

Farbum/AC_PandaReachv3

Reinforcement Learning • Updated Apr 2, 2024

baek26/wiki_asp-animal_8989_bart-base

Reinforcement Learning • 0.1B • Updated Apr 2, 2024 • 2

baek26/wiki_asp-animal_9617_bart-base

Reinforcement Learning • 0.1B • Updated Apr 2, 2024 • 2

WokeEngineer/Custom-PPO-CartPole-v1

Reinforcement Learning • Updated Apr 3, 2024

WokeEngineer/Custom-PPO-LunarLander-v2

Reinforcement Learning • Updated Apr 3, 2024

bunnyTech/LunarLander-v2-ppo-unit8p1

Reinforcement Learning • Updated Apr 3, 2024

baek26/wiki_asp-educational_institution_6506_bart-base

Reinforcement Learning • 0.1B • Updated Apr 3, 2024 • 3

zrvicc/ppo-LunarLander-v2-Unit8

Reinforcement Learning • Updated Apr 3, 2024

baek26/wiki_asp-educational_institution_3034_bart-base

Reinforcement Learning • 0.1B • Updated Apr 3, 2024 • 1