# Documentation des Modèles de Détection de Chroniques

Ce dossier contient les modèles entraînés pour identifier les segments de chroniques dans les transcriptions radio.

## Modèle Transformer (DistilCamemBERT)

C'est le modèle principal généré par `train.py`. Nous avons opté pour une version distillée afin d'accélérer les cycles d'expérimentation tout en conservant d'excellentes performances.

- **Type de modèle** : Transformer (Architecture BERT), utilisant `cmarkea/distilcamembert-base`.
- **Nombre de paramètres** : **~68 millions** (au lieu de 110M pour la version base).
- **Méthode d'apprentissage** : **Fine-tuning** sur des segments de transcriptions.
- **Optimisations** :
    - **Modèle Distillé** : Utilise une version compressée de CamemBERT qui conserve environ 95% des performances tout en étant beaucoup plus légère.
    - **Fenêtre Contextuelle** : `max_length` de 128 tokens pour un équilibre optimal entre contexte et temps de calcul.
    - **Efficacité** : Le modèle est suffisamment léger pour être ultra-rapide en Python standard, sans nécessiter de formats de quantification complexes comme GGUF.

### Pourquoi DistilCamemBERT ?
C'est le compromis idéal : il comprend parfaitement les nuances du français mais s'entraîne et s'exécute beaucoup plus vite que le modèle standard.

## Utilisation

Le script `train.py` entraîne ce modèle. Pour utiliser ce modèle en prédiction, le script `predict.py` doit pointer vers le dossier `models/camembert_chronicle`.

## Fichiers de sortie
- `camembert_chronicle/` : Dossier contenant les poids du modèle, la configuration et le tokenizer au format Hugging Face.

## Méthode d'entraînement
L'entraînement est effectué sur l'intégralité des données disponibles (transcriptions Whisper couplées à des timecodes de référence) pour maximiser la capacité de détection sémantique des segments de chroniques.