gemma-4-e4b-it-assistant-mlx

Drafter Multi-Token Prediction (MTP) Gemma 4 au format MLX (bf16), pour le décodage spéculatif du modèle cible. Converti depuis google/gemma-4-E4B-it-assistant (architecture gemma4_assistant, 4 couches), via la conversion MLX de mlx-community.

Ce petit modèle ne s'utilise pas seul : il propose des tokens candidats que le modèle cible vérifie, pour accélérer la génération au prix d'un peu de RAM supplémentaire.

Résumé

  • Rôle : draft model (décodage spéculatif MTP)
  • Base model : google/gemma-4-E4B-it-assistant
  • Repo id conseillé : NeoRoth/gemma-4-e4b-it-assistant-mlx
  • Précision : bfloat16
  • Taille des poids : 0.16 GB

Modèle cible associé

Ce drafter accompagne les variantes Oriloq du même palier, quelle que soit leur quantification (il est neutre vis-à-vis de la quant du modèle cible) :

  • QAT Q4_0 : NeoRoth/gemma-4-e4b-it-qat-q4_0-mlx
  • MXFP4 : NeoRoth/gemma-4-e4b-it-mxfp4-mlx

Téléchargement

from huggingface_hub import snapshot_download
local_path = snapshot_download("NeoRoth/gemma-4-e4b-it-assistant-mlx")
print(local_path)

Licence et conditions d'utilisation

Ce checkpoint est un dérivé de Gemma (modèle de base google/gemma-4-E4B-it-assistant) et reste soumis aux Gemma Terms of Use. Il n'est pas sous licence Apache 2.0.

Gemma is provided under and subject to the Gemma Terms of Use found at ai.google.dev/gemma/terms

Le fichier LICENSE de ce dépôt rappelle l'avis Gemma à transmettre aux utilisateurs downstream.

Downloads last month
79
Safetensors
Model size
78.8M params
Tensor type
I64
·
BF16
·
MLX
Hardware compatibility
Log In to add your hardware

Quantized

Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for NeoRoth/gemma-4-e4b-it-assistant-mlx

Finetuned
(5)
this model