Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

ChibuUkachi updated a model about 7 hours ago

RedHatAI/MiniMax-M2.5-quantized.w8a8

ChibuUkachi updated a model about 7 hours ago

RedHatAI/MiniMax-M2.5-NVFP4

ChibuUkachi updated a model about 7 hours ago

RedHatAI/MiniMax-M2.5-quantized.w4a16

View all activity

inference-optimization 's models 305

inference-optimization/Qwen3-8B_5.5_bits_mode_heuristic

6B • Updated Mar 12 • 7

inference-optimization/Qwen3-8B_5.5_bits_mode_noise

6B • Updated Mar 12 • 9

inference-optimization/Qwen3-8B_5.5_bits_mode_hybrid

6B • Updated Mar 12 • 8

inference-optimization/Qwen3-8B_5_bits_mode_heuristic

6B • Updated Mar 12 • 8

inference-optimization/Qwen3-8B_5_bits_mode_noise

6B • Updated Mar 12 • 8

inference-optimization/Qwen3-8B_5_bits_mode_hybrid

6B • Updated Mar 12 • 8

inference-optimization/Llama-3.1-8B-Instruct_7_bits_mode_heuristic

7B • Updated Mar 12 • 8

inference-optimization/Llama-3.1-8B-Instruct_7_bits_mode_noise

7B • Updated Mar 12 • 6

inference-optimization/Llama-3.1-8B-Instruct_7_bits_mode_hybrid

7B • Updated Mar 12 • 8

inference-optimization/Llama-3.1-8B-Instruct_6.5_bits_mode_heuristic

7B • Updated Mar 12 • 13

inference-optimization/Llama-3.1-8B-Instruct_6.5_bits_mode_noise

7B • Updated Mar 12 • 7

inference-optimization/Llama-3.1-8B-Instruct_6.5_bits_mode_hybrid

7B • Updated Mar 12 • 6

inference-optimization/Llama-3.1-8B-Instruct_6_bits_mode_heuristic

6B • Updated Mar 12 • 7

inference-optimization/Llama-3.1-8B-Instruct_6_bits_mode_noise

6B • Updated Mar 12 • 9

inference-optimization/Llama-3.1-8B-Instruct_6_bits_mode_hybrid

6B • Updated Mar 12 • 9

inference-optimization/Llama-3.1-8B-Instruct_5.5_bits_mode_heuristic

6B • Updated Mar 12 • 6

inference-optimization/Llama-3.1-8B-Instruct_5.5_bits_mode_noise

6B • Updated Mar 12 • 8

inference-optimization/Llama-3.1-8B-Instruct_5.5_bits_mode_hybrid

6B • Updated Mar 12 • 9

inference-optimization/Llama-3.1-8B-Instruct_5_bits_mode_heuristic

6B • Updated Mar 12 • 9

inference-optimization/Llama-3.1-8B-Instruct_5_bits_mode_noise

6B • Updated Mar 12 • 8

inference-optimization/Llama-3.1-8B-Instruct_5_bits_mode_hybrid

6B • Updated Mar 12 • 10

inference-optimization/sarvam-105b-FP8-Dynamic

Text Generation • 106B • Updated Mar 9 • 3

inference-optimization/sarvam-30b-FP8-Dynamic

Text Generation • 32B • Updated Mar 9 • 55 • 1

inference-optimization/sarvam-30b-NVFP4

Text Generation • 19B • Updated Mar 9 • 14 • 1

inference-optimization/sarvam-105b-NVFP4

61B • Updated Mar 9 • 4 • 1

inference-optimization/Qwen3.5-35B-A3B-FP8-Dynamic

35B • Updated Mar 6 • 3

inference-optimization/Kimi-K2-Instruct-0905-BF16-FP8-BLOCK

Text Generation • 1T • Updated Mar 6 • 6

inference-optimization/gpt-oss-20b-FP8-Dynamic

21B • Updated Mar 5 • 7 • 1

inference-optimization/Qwen3-30B-A3B-Instruct-2507-NVFP4

17B • Updated Mar 4 • 62

inference-optimization/Qwen3-30B-A3B-Instruct-2507-FP8-Dynamic

31B • Updated Mar 4 • 63