Inference Optimization

community

AI & ML interests

None defined yet.

Recent Activity

ChibuUkachi updated a model about 12 hours ago

RedHatAI/MiniMax-M2.5-quantized.w8a8

ChibuUkachi updated a model about 12 hours ago

RedHatAI/MiniMax-M2.5-NVFP4

ChibuUkachi updated a model about 12 hours ago

RedHatAI/MiniMax-M2.5-quantized.w4a16

View all activity

inference-optimization 's models 305

inference-optimization/Llama-3.2-1B-Instruct-6.5-bits-mode-heuristic-per-tensor

1B • Updated 14 days ago • 35

inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-noise-per-tensor

1B • Updated 14 days ago • 40

inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-hybrid-per-tensor

1B • Updated 14 days ago • 34

inference-optimization/Llama-3.2-1B-Instruct-6-bits-mode-heuristic-per-tensor

1B • Updated 14 days ago • 35

inference-optimization/Llama-3.2-1B-Instruct-5.5-bits-mode-noise-per-tensor

1B • Updated 14 days ago • 35

inference-optimization/Llama-3.2-1B-Instruct-5.5-bits-mode-hybrid-per-tensor

1B • Updated 14 days ago • 35

inference-optimization/Llama-3.2-1B-Instruct-5.5-bits-mode-heuristic-per-tensor

1B • Updated 14 days ago • 37

inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-noise-per-tensor

1B • Updated 14 days ago • 35

inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-hybrid-per-tensor

1B • Updated 14 days ago • 38

inference-optimization/Llama-3.2-1B-Instruct-5-bits-mode-heuristic-per-tensor

1B • Updated 14 days ago • 34

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-w4a16-gptq

2B • Updated 15 days ago • 73

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-w4a16-qmod

2B • Updated 15 days ago • 18

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-nvfp4-qmod

5B • Updated 15 days ago • 21

inference-optimization/Meta-Llama-3-8B-Instruct-spinquantR1R2R4-nvfp4-gptq

5B • Updated 15 days ago • 22

inference-optimization/Llama-3.1-8B-Instruct-quip-w4a16-gptq

2B • Updated 15 days ago • 20

inference-optimization/Llama-3.1-8B-Instruct-quip-w4a16-qmod

2B • Updated 15 days ago • 21

inference-optimization/Llama-3.1-8B-Instruct-quip-nvfp4-qmod

5B • Updated 15 days ago • 17

inference-optimization/Llama-3.1-8B-Instruct-quip-nvfp4-gptq

5B • Updated 15 days ago • 17

inference-optimization/Meta-Llama-3-8B-Instruct-W4A16_actorder_group

2B • Updated 16 days ago • 20

inference-optimization/llama3-8b-sharegpt-5k-gen

Updated 23 days ago

inference-optimization/Llama-3.2-3B-Instruct-NVFP4

2B • Updated about 1 month ago • 308

inference-optimization/Llama-3.2-3B-Instruct-FP8-Dynamic

3B • Updated about 1 month ago • 40

inference-optimization/Llama-3.2-3B-Instruct-FP8-Block

3B • Updated about 1 month ago • 19

inference-optimization/Llama-3.2-1B-Instruct-NVFP4

0.8B • Updated about 1 month ago • 65

inference-optimization/Llama-3.2-1B-Instruct-FP8-Dynamic

1B • Updated about 1 month ago • 47

inference-optimization/Llama-3.2-1B-Instruct-FP8-Block

1B • Updated about 1 month ago • 17

inference-optimization/Qwen3-30B-A3B_5.5_bits_mode_heuristic

22B • Updated Apr 2 • 24

inference-optimization/Qwen3-30B-A3B_7.0_bits_mode_heuristic

27B • Updated Apr 2 • 27

inference-optimization/Qwen3-30B-A3B_7.0_bits_mode_noise

27B • Updated Apr 2 • 23

inference-optimization/Qwen3-30B-A3B_7.0_bits_mode_hybrid

25B • Updated Apr 2 • 25