Edit Models filters

Model Tree

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

Inference Endpoints

text-generation-inference

Eval Results (legacy)

text-embeddings-inference

4-bit precision

8-bit precision

Mixture of Experts

Carbon Emissions

Models

480

Base only

Active filters: rl

anakin87/LFM2-2.6B-mr-tictactoe

Text Generation • 3B • Updated Apr 5 • 9 • 1

Klingspor/StarPO-4B

Text Generation • 4B • Updated Feb 13 • 23 • • 2

Klingspor/StarPO-1.7B

Text Generation • 2B • Updated Feb 13 • 16 •

mradermacher/Omni-R1-Zero-GGUF

7B • Updated Jan 16 • 381

mradermacher/Omni-R1-GGUF

7B • Updated Jan 16 • 207

mradermacher/Omni-R1-Zero-i1-GGUF

7B • Updated Jan 16 • 380

mradermacher/Omni-R1-i1-GGUF

7B • Updated Jan 16 • 219

sdan/jokegen2-1t-rl

Updated Jan 27 • 9

kabuizuchi-trading/gdpo-qwen-structured-merged

Text Generation • 4B • Updated Feb 12 • 1

mradermacher/Clado-BrowserOS-Action-GGUF

Reinforcement Learning • 4B • Updated Feb 14 • 163 • 2

mradermacher/Clado-BrowserOS-Action-i1-GGUF

Reinforcement Learning • 4B • Updated Feb 19 • 255 • 2

mradermacher/StarPO-1.7B-GGUF

Reinforcement Learning • 2B • Updated Feb 15 • 89

mradermacher/StarPO-4B-GGUF

Reinforcement Learning • 4B • Updated Feb 15 • 135 • 1

jangwon-kim-cocel/BPQL

Reinforcement Learning • Updated Feb 15 • 1

jangwon-kim-cocel/Bayesian-Policy-Distillation

Reinforcement Learning • Updated Feb 15 • 1

jangwon-kim-cocel/UD7

Reinforcement Learning • Updated Feb 15 • 1

mradermacher/StarPO-1.7B-i1-GGUF

Reinforcement Learning • 2B • Updated Feb 15 • 318

mradermacher/StarPO-4B-i1-GGUF

Reinforcement Learning • 4B • Updated Feb 15 • 109 • 1

webbigdata/Qwen3-0.6B_WBD

Text Generation • 0.6B • Updated Feb 22 • 190

camgeodesic/reward_hacker_v1

ihaveadog/qwen25-vl-7b-browser-agent-v6-rl

8B • Updated Feb 27

YongkangZOU/evoxtral-lora

Automatic Speech Recognition • Updated Mar 1 • 8 • 3

YongkangZOU/evoxtral-rl

Automatic Speech Recognition • Updated Mar 1 • 21 • 2

mistral-hackaton-2026/evoxtral

Automatic Speech Recognition • Updated Mar 1 • 3 • 2

Phonsiri/gemma-2-2b-Distillation-gemma-2-27b-it

Text Generation • 3B • Updated Mar 3 • 16 •

Meddies/meddies-pii

Text Generation • 0.4B • Updated Apr 23 • 309 • 3

giannisdaras/ddpo-brisque-checkpoints

laion/Qwen3-32B-R2EGYM-256-3epochs

Text Generation • 33B • Updated Mar 6 • 8

Indelwin/Qwen3-30B-A3B-ToolAgent-GRPO

Text Generation • Updated Mar 8 • 11 • 2

glowsenior/s-pp

Text Generation • 33B • Updated Mar 9 • 2