gilbert-whisper-onnx

Version ONNX optimisée du modèle Whisper pour la transcription française, optimisée pour l'inférence en production.

🚀 Améliorations

  • 2-3x plus rapide que la version PyTorch
  • 💾 50% plus léger (0.74 GB vs 1.51 GB)
  • 🔧 Optimisé pour ONNX Runtime (CPU/GPU/TPU)
  • 📦 Format standardisé compatible avec TensorRT, OpenVINO, etc.

🎯 Cas d'usage

  • Déploiement en production (APIs, services)
  • Edge computing / devices embarqués
  • Réduction des coûts d'inférence
  • Intégration avec frameworks ONNX

💡 Utilisation

from optimum.onnxruntime import ORTModelForSpeechSeq2Seq
from transformers import AutoProcessor
import torch

# Charger le modèle et le processeur
model = ORTModelForSpeechSeq2Seq.from_pretrained("gilbert-whisper-onnx")
processor = AutoProcessor.from_pretrained("gilbert-whisper-onnx")

# Transcrire de l'audio
audio = [...]  # Audio en numpy array (16kHz)
inputs = processor(audio, sampling_rate=16000, return_tensors="pt")

# Génération
with torch.no_grad():
    generated_ids = model.generate(**inputs, language="fr")

# Décodage
transcription = processor.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(transcription)

📊 Spécifications

  • Taille : 0.74 GB (FP16)
  • Format : ONNX (optimisé)
  • Vitesse : ~2-3x plus rapide que PyTorch
  • Base model : bofenghuang/whisper-large-v3-distil-fr-v0.2
  • Compatibilité : ONNX Runtime (CPU/GPU/TPU)

📈 Benchmarks

Métrique Valeur
Taille modèle 0.74 GB
Réduction vs original ~50%
Accélération inférence 2-3x
Format ONNX Runtime

🔗 Références

⚖️ License

MIT License - Voir LICENSE pour plus de détails.

🤝 Citation

Si vous utilisez ce modèle, citez :

@misc{gilbert_whisper_onnx,
  title={Version ONNX optimisée de Whisper pour le français},
  author={Gilbert Models},
  year={2025},
  howpublished={\url{https://huggingface.co/gilbert-whisper-onnx}}
}
Downloads last month
12
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support