gemma-4-e4b-turboquant-tql-3b (TurboQuant INT4 Professional)

Este repositorio contiene una versi贸n optimizada de Jonatan-1987-xtv/gemma-4-e4b-turboquant-tql-3b utilizando la t茅cnica TurboQuant (Hadamard Rotation). Dise帽ado para ofrecer m谩xima fidelidad en formato de 4 bits.

馃殌 Innovaci贸n: TurboQuant

A diferencia de la cuantizaci贸n Round-to-Nearest est谩ndar, TurboQuant aplica una Transformada R谩pida de Hadamard a los pesos antes de cuantizar. Esto distribuye la energ铆a de los outliers, permitiendo que el formato INT4 mantenga una precisi贸n casi id茅ntica al modelo original de 16 bits.

  • Fidelidad INT4 (Similitud Coseno): 0.0000
  • Fidelidad PLE (Embeddings): 0.0000
  • Configuraci贸n: 3-bit Weights / 8-bit Per-Layer Embeddings

馃搳 Benchmarks Reales (RTX 5080 / Blackwell)

Formato Throughput (tok/s) Peak VRAM (GB) Mejora Speed
Original (FP16) 15.3 15.9 1.0x
TurboQuant (INT4) 16.2 17.2 1.06x
ONNX OGA (q4) ~19.4 ~13.8 1.27x

馃洜 Gu铆a de Uso Multimodal

Este modelo es trimodal (Texto, Imagen y Audio). Para su uso, se requiere el procesador de Gemma 4.

1. Uso con ONNX Runtime GenAI (Recomendado)

Ideal para aplicaciones .NET MAUI o Python de alta velocidad. Los archivos est谩n en la carpeta /onnx.

import onnxruntime_genai as ogai

# Cargar modelo desde la subcarpeta onnx
model = ogai.Model("path/to/repo/onnx")
tokenizer = ogai.Tokenizer(model)

# Inferencia Multimodal
params = ogai.GeneratorParams(model)
prompt = "<image>\nDescribe esta imagen."
input_tokens = tokenizer.encode(prompt)
params.input_ids = input_tokens

# Generar
generator = ogai.Generator(model, params)
while not generator.is_done():
    generator.compute_next_token()
    print(tokenizer.decode(generator.get_next_tokens()), end="")

2. Uso para Audio (Tokens nativos)

# El modelo acepta tokens <audio> directamente en el prompt
prompt = "<audio>\nTranscribe y resume este clip de audio."

馃搧 Estructura del Repositorio

  • model.safetensors: Pesos empaquetados TurboQuant (INT4).
  • /onnx: Bundle completo para ONNX Runtime GenAI (incluye vision y audio encoders).
  • config.json: Configuraci贸n de arquitectura Gemma 4.

鈿栵笍 Licencia

Released under Gemma Terms of Use. Base weights by Google DeepMind. Optimized with TurboQuant Professional Toolkit.

Downloads last month
494
Inference Providers NEW
This model isn't deployed by any Inference Provider. 馃檵 Ask for provider support