Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

3,206

Base only

Active filters: ppo

bnurpek/kl0.9-gpt2-256T-neg-7

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 3

bnurpek/kl0.9-gpt2-256T-neg-10

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 3

bnurpek/kl0.9-gpt2-256T-neg-15

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 3

bnurpek/kl0.9-gpt2-256T-neg-20

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 4

bnurpek/kl0.03-mse-gpt2-256T-neg-0

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 4

bnurpek/kl0.03-mse-gpt2-256T-neg-1

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 1

bnurpek/kl0.03-mse-gpt2-256T-neg-2

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 3

bnurpek/kl0.03-mse-gpt2-256T-neg-3

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 3

bnurpek/kl0.03-mse-gpt2-256T-neg-5

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 3

bnurpek/kl0.03-mse-gpt2-256T-neg-7

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 3

bnurpek/kl0.03-mse-gpt2-256T-neg-10

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 3

bnurpek/kl0.03-mse-gpt2-256T-neg-15

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 3

bnurpek/kl0.03-mse-gpt2-256T-neg-20

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 4

bnurpek/kl0.03-mse-gpt2-256T-neg-30

Reinforcement Learning • 0.1B • Updated Jan 2, 2024 • 3

toddwilson147/LunarLander-v2-scratch-ppo

Reinforcement Learning • Updated Jan 2, 2024

bnurpek/noref-mgpt-neg-0

Reinforcement Learning • Updated Jan 2, 2024

bnurpek/gpt2-256t-pos-0

Reinforcement Learning • 0.1B • Updated Jan 3, 2024 • 4

bnurpek/gpt2-256t-pos-1

Reinforcement Learning • 0.1B • Updated Jan 3, 2024 • 4

bnurpek/gpt2-256t-pos-2

Reinforcement Learning • 0.1B • Updated Jan 3, 2024 • 4

bnurpek/gpt2-256t-pos-3

Reinforcement Learning • 0.1B • Updated Jan 3, 2024 • 5

bnurpek/gpt2-256t-pos-5

Reinforcement Learning • 0.1B • Updated Jan 3, 2024 • 4

bnurpek/gpt2-256t-pos-7

Reinforcement Learning • 0.1B • Updated Jan 3, 2024 • 4

bnurpek/gpt2-256t-pos-10

Reinforcement Learning • 0.1B • Updated Jan 3, 2024 • 5

taku-yoshioka/test4

Reinforcement Learning • Updated Jan 3, 2024

ramathuzen/ppo-CartPole-v2

Reinforcement Learning • Updated Jan 3, 2024

bnurpek/gpt2-256t-pos-15

Reinforcement Learning • 0.1B • Updated Jan 3, 2024 • 5

Anant58/ppo-LunarLander-v2

Reinforcement Learning • Updated Jan 3, 2024

bnurpek/gpt2-256t-pos-20

Reinforcement Learning • 0.1B • Updated Jan 3, 2024 • 3

bnurpek/gpt2-256t-pos-30

Reinforcement Learning • 0.1B • Updated Jan 3, 2024 • 3

crispisu/LunarLanderv2_Unit8_1

Reinforcement Learning • Updated Jan 3, 2024