Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

3,206

Base only

Active filters: ppo

bnurpek/gpt2-256t-nr1wr-pos-5

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 2

bnurpek/gpt2-256t-nr1wr-pos-7

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-10

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-15

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-20

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 3

bnurpek/gpt2-256t-nr1wr-pos-30

Reinforcement Learning • 0.1B • Updated Jan 8, 2024 • 4

bnurpek/new-mgpt-pos-0

Reinforcement Learning • Updated Jan 8, 2024

bnurpek/new-mgpt-pos-1

Reinforcement Learning • Updated Jan 8, 2024

bnurpek/new-mgpt-pos-2

Reinforcement Learning • Updated Jan 8, 2024

Cloud1989/ppo-LunarLander-v2-unit8-1

Reinforcement Learning • Updated Jan 8, 2024

LoicSteve/new-ppo-LunarLander-V2

Reinforcement Learning • Updated Jan 8, 2024

AdoubleLen/trl

Reinforcement Learning • Updated Jan 11, 2024

sekinat/ppo-CartPole-v1-wanb

Reinforcement Learning • Updated Jan 11, 2024

Rafaelfr87/ppo-LunarLander-v2-CleanRL

Reinforcement Learning • Updated Jan 11, 2024

sekinat/LunarLander-v2_wanb_1e-05

Reinforcement Learning • Updated Jan 12, 2024

yangzhou301/ppo-LunarLander-v2-unit8

Reinforcement Learning • Updated Jan 13, 2024

mus-shd/ppo-unit8-LunarLander-v2

Reinforcement Learning • Updated Jan 13, 2024

JDB03/PPO-Self-LunarLanderV2

Reinforcement Learning • Updated Jan 15, 2024

isotnek/ppo-LunarLander-v2

Reinforcement Learning • Updated Jan 15, 2024

socks22/ppo-lunarlandar-my-own

Reinforcement Learning • Updated Jan 17, 2024

samwell/ppo-CartPole-v1

Reinforcement Learning • Updated Jan 18, 2024

asudeekiz/gpt2-256t-human_reward-pos-20

Reinforcement Learning • 0.1B • Updated Jan 18, 2024 • 4

asudeekiz/gpt2-256t-human_reward-pos-25

Reinforcement Learning • 0.1B • Updated Jan 18, 2024 • 4

taku-yoshioka/rlhf_llm_custom_rm

Reinforcement Learning • Updated Mar 3, 2024 • 1

asudeekiz/gpt2-256t-human_reward-neg-10

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 3

asudeekiz/gpt2-256t-human_reward-neg-15

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 5

asudeekiz/gpt2-256t-human_reward-neg-20

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 3

asudeekiz/gpt2-256t-human_reward-neg-25

Reinforcement Learning • 0.1B • Updated Jan 19, 2024 • 4

ib1368/ppo-CartPole-v1-scratch

Reinforcement Learning • Updated Jan 19, 2024

krishnadasar-sudheer-kumar/ppo-CleanRL-Unit8-LunarLander-V2

Reinforcement Learning • Updated Jan 20, 2024