eglantinefonrose
/

rlac-audiotranscript-segmenter-chroniques-bert

Model card Files Files and versions

rlac-audiotranscript-segmenter-chroniques-bert / README.md

eglantinefonrose's picture

eglantinefonrose

Upload folder using huggingface_hub

87f0304 verified about 2 months ago

|

history blame contribute delete

1.93 kB

	# Documentation des Modèles de Détection de Chroniques

	Ce dossier contient les modèles entraînés pour identifier les segments de chroniques dans les transcriptions radio.

	## Modèle Transformer (DistilCamemBERT)

	C'est le modèle principal généré par `train.py`. Nous avons opté pour une version distillée afin d'accélérer les cycles d'expérimentation tout en conservant d'excellentes performances.

	- Type de modèle : Transformer (Architecture BERT), utilisant `cmarkea/distilcamembert-base`.
	- Nombre de paramètres : ~68 millions (au lieu de 110M pour la version base).
	- Méthode d'apprentissage : Fine-tuning sur des segments de transcriptions.
	- Optimisations :
	- Modèle Distillé : Utilise une version compressée de CamemBERT qui conserve environ 95% des performances tout en étant beaucoup plus légère.
	- Fenêtre Contextuelle : `max_length` de 128 tokens pour un équilibre optimal entre contexte et temps de calcul.
	- Efficacité : Le modèle est suffisamment léger pour être ultra-rapide en Python standard, sans nécessiter de formats de quantification complexes comme GGUF.

	### Pourquoi DistilCamemBERT ?
	C'est le compromis idéal : il comprend parfaitement les nuances du français mais s'entraîne et s'exécute beaucoup plus vite que le modèle standard.

	## Utilisation

	Le script `train.py` entraîne ce modèle. Pour utiliser ce modèle en prédiction, le script `predict.py` doit pointer vers le dossier `models/camembert_chronicle`.

	## Fichiers de sortie
	- `camembert_chronicle/` : Dossier contenant les poids du modèle, la configuration et le tokenizer au format Hugging Face.

	## Méthode d'entraînement
	L'entraînement est effectué sur l'intégralité des données disponibles (transcriptions Whisper couplées à des timecodes de référence) pour maximiser la capacité de détection sémantique des segments de chroniques.