gemma-4-e4b-turboquant-tql-3b (TurboQuant INT4 Professional)
Este repositorio contiene una versi贸n optimizada de Jonatan-1987-xtv/gemma-4-e4b-turboquant-tql-3b utilizando la t茅cnica TurboQuant (Hadamard Rotation). Dise帽ado para ofrecer m谩xima fidelidad en formato de 4 bits.
馃殌 Innovaci贸n: TurboQuant
A diferencia de la cuantizaci贸n Round-to-Nearest est谩ndar, TurboQuant aplica una Transformada R谩pida de Hadamard a los pesos antes de cuantizar. Esto distribuye la energ铆a de los outliers, permitiendo que el formato INT4 mantenga una precisi贸n casi id茅ntica al modelo original de 16 bits.
- Fidelidad INT4 (Similitud Coseno): 0.0000
- Fidelidad PLE (Embeddings): 0.0000
- Configuraci贸n: 3-bit Weights / 8-bit Per-Layer Embeddings
馃搳 Benchmarks Reales (RTX 5080 / Blackwell)
| Formato | Throughput (tok/s) | Peak VRAM (GB) | Mejora Speed |
|---|---|---|---|
| Original (FP16) | 15.3 | 15.9 | 1.0x |
| TurboQuant (INT4) | 16.2 | 17.2 | 1.06x |
| ONNX OGA (q4) | ~19.4 | ~13.8 | 1.27x |
馃洜 Gu铆a de Uso Multimodal
Este modelo es trimodal (Texto, Imagen y Audio). Para su uso, se requiere el procesador de Gemma 4.
1. Uso con ONNX Runtime GenAI (Recomendado)
Ideal para aplicaciones .NET MAUI o Python de alta velocidad. Los archivos est谩n en la carpeta /onnx.
import onnxruntime_genai as ogai
# Cargar modelo desde la subcarpeta onnx
model = ogai.Model("path/to/repo/onnx")
tokenizer = ogai.Tokenizer(model)
# Inferencia Multimodal
params = ogai.GeneratorParams(model)
prompt = "<image>\nDescribe esta imagen."
input_tokens = tokenizer.encode(prompt)
params.input_ids = input_tokens
# Generar
generator = ogai.Generator(model, params)
while not generator.is_done():
generator.compute_next_token()
print(tokenizer.decode(generator.get_next_tokens()), end="")
2. Uso para Audio (Tokens nativos)
# El modelo acepta tokens <audio> directamente en el prompt
prompt = "<audio>\nTranscribe y resume este clip de audio."
馃搧 Estructura del Repositorio
model.safetensors: Pesos empaquetados TurboQuant (INT4)./onnx: Bundle completo para ONNX Runtime GenAI (incluye vision y audio encoders).config.json: Configuraci贸n de arquitectura Gemma 4.
鈿栵笍 Licencia
Released under Gemma Terms of Use. Base weights by Google DeepMind. Optimized with TurboQuant Professional Toolkit.
- Downloads last month
- 494