Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

3,206

Base only

Active filters: ppo

baek26/all_5286_all_6417_bart-base_rl

Reinforcement Learning • 0.1B • Updated Apr 29, 2024 • 1

Epoching/ppo-scratch-LunarLander-v2

Reinforcement Learning • Updated Apr 29, 2024

baek26/all_8113_all_6417_bart-base_rl

Reinforcement Learning • 0.1B • Updated Apr 29, 2024 • 4

baek26/all_4814_all_6417_bart-base_rl

Reinforcement Learning • 0.1B • Updated Apr 29, 2024 • 2

aw-infoprojekt/ppo-CartPole-v1-scratch

Reinforcement Learning • Updated Apr 30, 2024

AlkQ/ppo-LunarLander-v2.1

Reinforcement Learning • Updated May 20, 2024 • 2

pdejong/cleanrl-LunarLander-v2

Reinforcement Learning • Updated Apr 30, 2024

rahil1206/test

Reinforcement Learning • Updated May 1, 2024

Joalbom14/ppo-CartPole-v1

Reinforcement Learning • Updated May 1, 2024

rahil1206/ppo-tutorial-LunarLander-v2

Reinforcement Learning • Updated May 1, 2024

Joalbom14/ppo-LunarLander-v2-CleanRL

Reinforcement Learning • Updated May 2, 2024

pkbiswas/Phi-3-Detoxified-PPO-LoRa

Reinforcement Learning • Updated May 18, 2024 • 2

stvnl/ppo_model_en

Reinforcement Learning • Updated May 2, 2024 • 4

hanyinwang/layer-project-diagnostic-mistral

Reinforcement Learning • Updated May 3, 2024 • 1

archbold/ppo-CartPole-v1

Reinforcement Learning • Updated May 4, 2024

archbold/ppo-LunarLander-v2_unit8

Reinforcement Learning • Updated May 4, 2024

Megalino111/LunarLander-v2

Reinforcement Learning • Updated May 5, 2024

BWangila/ppo-CartPole-v1

Reinforcement Learning • Updated May 5, 2024

BWangila/ppo-LunarLander-v2

Reinforcement Learning • Updated May 6, 2024

pietroorlandi/ppo-CartPole-from-scratch

Reinforcement Learning • Updated May 6, 2024

elisamammi/ppo-CartPole-v1

Reinforcement Learning • Updated May 6, 2024

pietroorlandi/ppo-LunarLander-from-scratch

Reinforcement Learning • Updated May 6, 2024

elisamammi/ppo-LunarLander_v2

Reinforcement Learning • Updated May 6, 2024

APLunch/ppo-LunarLanderV2-cleanRL

Reinforcement Learning • Updated May 7, 2024

baek26/all_6618_all_6417_bart-base_rl

Reinforcement Learning • 0.1B • Updated May 7, 2024 • 1

baek26/all_8243_all_6417_bart-base_rl

Reinforcement Learning • 0.1B • Updated May 7, 2024 • 1

baek26/all_6959_all_6417_bart-base_rl

Reinforcement Learning • 0.1B • Updated May 7, 2024 • 1

baek26/all_2022_all_6417_bart-base_rl

Reinforcement Learning • 0.1B • Updated May 7, 2024 • 1

baek26/Ours-crossrl2

Reinforcement Learning • 0.1B • Updated May 7, 2024 • 1

baek26/all_1445_all_6417_bart-base_rl

Reinforcement Learning • 0.1B • Updated May 7, 2024 • 2