TevunahAi
/

NextCoder-7B-FP8

Text Generation

text-generation-inference

compressed-tensors

Model card Files Files and versions

rockylynnstein commited on Dec 8, 2025

Commit

a8611c9

·

verified ·

1 Parent(s): 56930c8

Update README.md

Files changed (1) hide show

README.md +0 -7

README.md CHANGED Viewed

@@ -137,7 +137,6 @@ pip install torch>=2.1.0 transformers>=4.40.0 accelerate compressed-tensors
 | **Base Model** | [microsoft/NextCoder-7B](https://huggingface.co/microsoft/NextCoder-7B) |
 | **Quantization Method** | FP8 E4M3 weight-only |
 | **Framework** | llm-compressor + compressed_tensors |
-| **Calibration Samples** | 2048 (8x industry standard) |
 | **Storage Size** | ~7GB (3 sharded safetensors) |
 | **VRAM (vLLM)** | ~7GB |
 | **VRAM (Transformers)** | ~14GB (decompressed to BF16) |
@@ -177,12 +176,6 @@ This model is sharded into 3 safetensors files (all required for inference):
 - `model-00002-of-00003.safetensors`
 - `model-00003-of-00003.safetensors`
-## 🔬 Quality Assurance
-- **High-quality calibration:** 2048 diverse code samples (8x industry standard of 256)
-- **Validation:** Tested on code generation benchmarks
-- **Format:** Standard compressed_tensors for broad compatibility
 ## 📚 Original Model
 This quantization is based on [microsoft/NextCoder-7B](https://huggingface.co/microsoft/NextCoder-7B) by Microsoft.

 | **Base Model** | [microsoft/NextCoder-7B](https://huggingface.co/microsoft/NextCoder-7B) |
 | **Quantization Method** | FP8 E4M3 weight-only |
 | **Framework** | llm-compressor + compressed_tensors |
 | **Storage Size** | ~7GB (3 sharded safetensors) |
 | **VRAM (vLLM)** | ~7GB |
 | **VRAM (Transformers)** | ~14GB (decompressed to BF16) |
 - `model-00002-of-00003.safetensors`
 - `model-00003-of-00003.safetensors`
 ## 📚 Original Model
 This quantization is based on [microsoft/NextCoder-7B](https://huggingface.co/microsoft/NextCoder-7B) by Microsoft.