AINovice2005
/

quantized-Phi-4-reasoning

Text Generation

text-generation-inference

Model card Files Files and versions

AINovice2005 commited on Jul 17, 2025

Commit

142c814

·

verified ·

1 Parent(s): 03e8bac

Update README.md

Files changed (1) hide show

README.md +39 -1

README.md CHANGED Viewed

@@ -4,4 +4,42 @@ base_model:
 - microsoft/Phi-4-reasoning
 pipeline_tag: text-generation
 library_name: transformers
----

 - microsoft/Phi-4-reasoning
 pipeline_tag: text-generation
 library_name: transformers
+---
+## Phi-4 Reasoning •Int8 Quantized
+---
+### **🚀 Model Description**
+This is an **int8 quantized version** of **Phi-4 Reasoning**, optimized using **torchao** for reduced memory footprint and accelerated inference. The quantization applies **int8 weights with dynamic int8 activations**, maintaining high task performance while enabling efficient deployment on consumer and edge hardware.
+---
+### **Quantization Details**
+* **Method:** torchao quantization
+* **Weight Precision:** int8
+* **Activation Precision:** int8 dynamic
+* **Technique:** Symmetric mapping
+* **Impact:** Significant reduction in model size with minimal loss in reasoning, coding, and general instruction-following capabilities.
+---
+### **🎯 Intended Use**
+* Fast inference in **production environments with limited VRAM**
+* Research on **int8 quantization deployment performance**
+* Tasks: general reasoning, chain-of-thought, code generation, and long-context tasks.
+---
+### **⚠️ Limitations**
+* Slight degradation in performance compared to full-precision (bfloat16) models
+* English-centric training data; may underperform in other languages or nuanced tasks
+* Further finetuning or quantization-aware calibration can enhance task-specific performance.
+---