eglantinefonrose's picture
Upload folder using huggingface_hub
87f0304 verified
# Documentation des Modèles de Détection de Chroniques
Ce dossier contient les modèles entraînés pour identifier les segments de chroniques dans les transcriptions radio.
## Modèle Transformer (DistilCamemBERT)
C'est le modèle principal généré par `train.py`. Nous avons opté pour une version distillée afin d'accélérer les cycles d'expérimentation tout en conservant d'excellentes performances.
- **Type de modèle** : Transformer (Architecture BERT), utilisant `cmarkea/distilcamembert-base`.
- **Nombre de paramètres** : **~68 millions** (au lieu de 110M pour la version base).
- **Méthode d'apprentissage** : **Fine-tuning** sur des segments de transcriptions.
- **Optimisations** :
- **Modèle Distillé** : Utilise une version compressée de CamemBERT qui conserve environ 95% des performances tout en étant beaucoup plus légère.
- **Fenêtre Contextuelle** : `max_length` de 128 tokens pour un équilibre optimal entre contexte et temps de calcul.
- **Efficacité** : Le modèle est suffisamment léger pour être ultra-rapide en Python standard, sans nécessiter de formats de quantification complexes comme GGUF.
### Pourquoi DistilCamemBERT ?
C'est le compromis idéal : il comprend parfaitement les nuances du français mais s'entraîne et s'exécute beaucoup plus vite que le modèle standard.
## Utilisation
Le script `train.py` entraîne ce modèle. Pour utiliser ce modèle en prédiction, le script `predict.py` doit pointer vers le dossier `models/camembert_chronicle`.
## Fichiers de sortie
- `camembert_chronicle/` : Dossier contenant les poids du modèle, la configuration et le tokenizer au format Hugging Face.
## Méthode d'entraînement
L'entraînement est effectué sur l'intégralité des données disponibles (transcriptions Whisper couplées à des timecodes de référence) pour maximiser la capacité de détection sémantique des segments de chroniques.