# Documentation des Modèles de Détection de Chroniques Ce dossier contient les modèles entraînés pour identifier les segments de chroniques dans les transcriptions radio. ## Modèle Transformer (DistilCamemBERT) C'est le modèle principal généré par `train.py`. Nous avons opté pour une version distillée afin d'accélérer les cycles d'expérimentation tout en conservant d'excellentes performances. - **Type de modèle** : Transformer (Architecture BERT), utilisant `cmarkea/distilcamembert-base`. - **Nombre de paramètres** : **~68 millions** (au lieu de 110M pour la version base). - **Méthode d'apprentissage** : **Fine-tuning** sur des segments de transcriptions. - **Optimisations** : - **Modèle Distillé** : Utilise une version compressée de CamemBERT qui conserve environ 95% des performances tout en étant beaucoup plus légère. - **Fenêtre Contextuelle** : `max_length` de 128 tokens pour un équilibre optimal entre contexte et temps de calcul. - **Efficacité** : Le modèle est suffisamment léger pour être ultra-rapide en Python standard, sans nécessiter de formats de quantification complexes comme GGUF. ### Pourquoi DistilCamemBERT ? C'est le compromis idéal : il comprend parfaitement les nuances du français mais s'entraîne et s'exécute beaucoup plus vite que le modèle standard. ## Utilisation Le script `train.py` entraîne ce modèle. Pour utiliser ce modèle en prédiction, le script `predict.py` doit pointer vers le dossier `models/camembert_chronicle`. ## Fichiers de sortie - `camembert_chronicle/` : Dossier contenant les poids du modèle, la configuration et le tokenizer au format Hugging Face. ## Méthode d'entraînement L'entraînement est effectué sur l'intégralité des données disponibles (transcriptions Whisper couplées à des timecodes de référence) pour maximiser la capacité de détection sémantique des segments de chroniques.