Edit Models filters

Apps

Docker Model Runner

Inference Providers

OVHcloud AI Endpoints

HF Inference API

Misc

compressed-tensors

Inference Endpoints

text-generation-inference

4-bit precision

8-bit precision

text-embeddings-inference

Mixture of Experts

Carbon Emissions

Models

3,574

Full-text search

Active filters: compressed-tensors

nm-testing/TinyLlama-1.1B-Chat-v1.0-sparse2of4_fp8_dynamic-e2e

0.7B • Updated 10 days ago • 21

nm-testing/TinyLlama-1.1B-Chat-v1.0-sparse2of4_only-e2e

0.7B • Updated 10 days ago • 22

nm-testing/TinyLlama-1.1B-Chat-v1.0-W4A16_2of4_channel-e2e

0.3B • Updated 10 days ago • 23

nm-testing/TinyLlama-1.1B-Chat-v1.0-W4A16_2of4-e2e

0.3B • Updated 10 days ago • 23

nm-testing/TinyLlama-1.1B-Chat-v1.0-actorder-group-e2e

0.3B • Updated 10 days ago • 77

nm-testing/TinyLlama-1.1B-Chat-v1.0-actorder-weight-e2e

0.3B • Updated 10 days ago • 21

nm-testing/TinyLlama-1.1B-Chat-v1.0-W4A16_channel-e2e

0.3B • Updated 10 days ago • 23

nm-testing/TinyLlama-1.1B-Chat-v1.0-W4A16-e2e

0.3B • Updated 10 days ago • 20

nm-testing/TinyLlama-1.1B-Chat-v1.0-w4a16-asym-awq-e2e

0.3B • Updated 10 days ago • 157

nm-testing/TinyLlama-1.1B-Chat-v1.0-w4a16-sym-awq-e2e

0.3B • Updated 10 days ago • 16

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A16_channel-e2e

0.4B • Updated 10 days ago • 17

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A16-e2e

0.4B • Updated 10 days ago • 19

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A8-Dynamic-Asym-e2e

1B • Updated 10 days ago • 16

nm-testing/TinyLlama-1.1B-Chat-v1.0-W8A8-Static-Asym-e2e

1B • Updated 1 day ago • 35

taint-technica/DeepSeek-R1-0528-GPU

106B • Updated Oct 27 • 4

Firworks/Magistral-Small-2509-Text-Only-nvfp4

14B • Updated Oct 28 • 11

Firworks/Magistral-Small-2509-36B-Text-Only-nvfp4

20B • Updated Oct 28 • 9

maywell/Qwen3-Embedding-8B-FP8-Dynamic

8B • Updated Oct 28 • 232

thanhh12/aya-expanse-8b-q4-vllm

3B • Updated Oct 28 • 123

ig1/Qwen3-VL-30B-A3B-Instruct-NVFP4

Image-Text-to-Text • 18B • Updated Oct 28 • 1.81k • 2

cyankiwi/GLM-4.6-AWQ-4bit

Text Generation • 59B • Updated Oct 31 • 438 • 1

chieunq/Qwen3-4B-GPTQ-W8A8_gsm8k2048

4B • Updated Oct 28 • 7

chieunq/Qwen3-4B-W4A16-all_gsm8k2048

3B • Updated Oct 28 • 6

chieunq/Qwen3-4B-GPTQ-W4A16_gsm8k2048

1B • Updated Oct 28 • 6

chieunq/Qwen3-4B-GPTQ-W4A16_ultrachat_200k2048

1B • Updated Oct 28 • 6

chieunq/Qwen3-4B-AWQ-W4A16_ASYM_gsm8k2048

1B • Updated Oct 28 • 6

chieunq/Qwen3-4B-AWQ-W4A16_ASYM_ultrachat_200k2048

1B • Updated Oct 28 • 5

chieunq/Qwen3-1.7B-AWQ-W4A16_ASYM_gsm8k1024

0.8B • Updated Oct 28 • 8

chieunq/Qwen3-1.7B-GPTQ-W4A16_ultrachat_200k2048

0.8B • Updated Oct 28 • 6

chieunq/Qwen3-1.7B-GPTQ-W4A16_gsm8k2048

0.8B • Updated Oct 28 • 7