Upload folder using huggingface_hub

Browse files

Files changed (7) hide show

README.md +19 -27
camembert_chronicle/config.json +30 -0
camembert_chronicle/model.safetensors +3 -0
camembert_chronicle/tokenizer.json +0 -0
camembert_chronicle/tokenizer_config.json +19 -0
pro_chronicle_model.joblib +2 -2
rf_metrics.json +45 -0

README.md CHANGED Viewed

@@ -1,36 +1,28 @@
-# Documentation du Modèle de Détection de Chroniques
-Ce dossier contient le modèle entraîné permettant d'identifier les segments de chroniques dans les transcriptions radio de France Inter.
-## Architecture du Modèle
-Le modèle utilise une approche **hybride (Texte + Structure)** basée sur un algorithme de **Random Forest** (Forêt d'arbres décisionnels). Contrairement à un modèle de langue pur qui ne lirait que le texte, ce modèle prend ses décisions en croisant trois types de signaux :
-### 1. Analyse Textuelle (NLP)
-Nous utilisons une vectorisation **TF-IDF** sur des séquences de 1 à 3 mots (trigrammes).
-- **Contexte élargi** : Le modèle ne regarde pas seulement le segment actuel, mais fusionne le texte des 2 segments précédents et des 2 segments suivants (fenêtre de 5 segments).
-- **Signaux détectés** : Vocabulaire spécifique aux lancements ("Bonjour", "notre invité", "7h50") et thématiques récurrentes.
-### 2. Caractéristiques Structurelles (Feature Engineering)
-Le modèle reçoit des indicateurs numériques stratégiques extraits par `src/utils.py` :
-- **Position Relative (`rel_pos`)** : La progression dans l'émission (0.0 à 1.0). Les chroniques ont des horaires théoriques fixes.
-- **Détection de Jingle (`has_jingle_now/prev`)** : Présence du tag `[JINGLE]`. C'est le prédicteur le plus fort pour marquer le début ou la fin d'une séquence.
-- **Rythmique (`duration`, `is_very_short`)** : La durée du segment. Les lancements sont souvent courts et denses, les chroniques sont des blocs de texte longs et continus.
-- **Mots-clés discriminants** : Présence de termes comme "METEO", "JOURNAL", "REDACTION" qui servent de balises structurelles.
-### 3. Stratégie d'Apprentissage
-- **Équilibrage (`class_weight='balanced'`)** : Comme les chroniques ne représentent qu'environ 15% du temps total d'une matinale, le modèle est forcé mathématiquement à accorder plus d'importance aux exemples de chroniques pour ne pas les ignorer au profit du "silence/bruit".
-- **Lissage Temporel (Post-processing)** : Le script de prédiction applique un filtre après le passage du modèle pour combler les trous de détection de moins de 10s et supprimer les détections "fantômes" trop courtes pour être de vraies chroniques.
-## Fichiers de sortie
-- `pro_chronicle_model.joblib` : Le fichier binaire contenant la pipeline complète (Vectoriseur + Forêt d'arbres).
-## Limites connues
-Le modèle dépend de la qualité des tags `[JINGLE]` dans la transcription Whisper. Si Whisper manque un jingle, le modèle devra se reposer uniquement sur le texte et l'heure, ce qui peut légèrement décaler le début ou la fin de la chronique de quelques secondes.
-## Publier le modèle
-Le modèle est publié sur HuggingFace via
-```
-hf upload eglantinefonrose/rlac-audiotranscript-segmenter-chroniques-bert ./models .
-```
-Il est disponible à

+# Documentation des Modèles de Détection de Chroniques
+Ce dossier contient les modèles entraînés pour identifier les segments de chroniques dans les transcriptions radio.
+## Modèle Transformer (DistilCamemBERT)
+C'est le modèle principal généré par `train.py`. Nous avons opté pour une version distillée afin d'accélérer les cycles d'expérimentation tout en conservant d'excellentes performances.
+- **Type de modèle** : Transformer (Architecture BERT), utilisant `cmarkea/distilcamembert-base`.
+- **Nombre de paramètres** : **~68 millions** (au lieu de 110M pour la version base).
+- **Méthode d'apprentissage** : **Fine-tuning** sur des segments de transcriptions.
+- **Optimisations** :
+    - **Modèle Distillé** : Utilise une version compressée de CamemBERT qui conserve environ 95% des performances tout en étant beaucoup plus légère.
+    - **Fenêtre Contextuelle** : `max_length` de 128 tokens pour un équilibre optimal entre contexte et temps de calcul.
+    - **Efficacité** : Le modèle est suffisamment léger pour être ultra-rapide en Python standard, sans nécessiter de formats de quantification complexes comme GGUF.
+### Pourquoi DistilCamemBERT ?
+C'est le compromis idéal : il comprend parfaitement les nuances du français mais s'entraîne et s'exécute beaucoup plus vite que le modèle standard.
+## Utilisation
+Le script `train.py` entraîne ce modèle. Pour utiliser ce modèle en prédiction, le script `predict.py` doit pointer vers le dossier `models/camembert_chronicle`.
+## Fichiers de sortie
+- `camembert_chronicle/` : Dossier contenant les poids du modèle, la configuration et le tokenizer au format Hugging Face.
+## Méthode d'entraînement
+L'entraînement est effectué sur l'intégralité des données disponibles (transcriptions Whisper couplées à des timecodes de référence) pour maximiser la capacité de détection sémantique des segments de chroniques.

camembert_chronicle/config.json ADDED Viewed

	@@ -0,0 +1,30 @@

+{
+  "add_cross_attention": false,
+  "architectures": [
+    "CamembertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 5,
+  "classifier_dropout": null,
+  "dtype": "float32",
+  "eos_token_id": 6,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "is_decoder": false,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "camembert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "output_past": true,
+  "pad_token_id": 1,
+  "problem_type": "single_label_classification",
+  "tie_word_embeddings": true,
+  "transformers_version": "5.5.4",
+  "type_vocab_size": 1,
+  "use_cache": false,
+  "vocab_size": 32005
+}

camembert_chronicle/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b78a4b8b81b005fbd4708d3abd54d58a6964f28cc9e25aac1f3c6b7af8d19586
+size 442518080

camembert_chronicle/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

camembert_chronicle/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,19 @@

+{
+  "add_prefix_space": true,
+  "backend": "tokenizers",
+  "bos_token": "<s>",
+  "cls_token": "<s>",
+  "eos_token": "</s>",
+  "extra_special_tokens": [
+    "<s>NOTUSED",
+    "</s>NOTUSED",
+    "<unk>NOTUSED"
+  ],
+  "is_local": false,
+  "mask_token": "<mask>",
+  "model_max_length": 512,
+  "pad_token": "<pad>",
+  "sep_token": "</s>",
+  "tokenizer_class": "CamembertTokenizer",
+  "unk_token": "<unk>"
+}

pro_chronicle_model.joblib CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8672997ae77bb90ed04b4310ee7843fc6a423fb8a2c95ad22a97ac5eca278d30
-size 112941730

 version https://git-lfs.github.com/spec/v1
+oid sha256:f10df7f096bf8d01377b70577ad6e6002029240d74fb3710ad14d9e96f19b562
+size 65502658

rf_metrics.json ADDED Viewed

	@@ -0,0 +1,45 @@

+{
+    "best_params": {
+        "clf__max_depth": null,
+        "clf__n_estimators": 100,
+        "preprocessor__txt__max_features": 5000
+    },
+    "cv_f1_mean": 0.9771736061326074,
+    "test_report": {
+        "0": {
+            "precision": 0.9441176470588235,
+            "recall": 0.7109634551495017,
+            "f1-score": 0.8111181301326595,
+            "support": 903.0
+        },
+        "1": {
+            "precision": 0.9855257320319432,
+            "recall": 0.9978662474029985,
+            "f1-score": 0.9916575988393181,
+            "support": 17809.0
+        },
+        "accuracy": 0.9840209491235571,
+        "macro avg": {
+            "precision": 0.9648216895453834,
+            "recall": 0.85441485127625,
+            "f1-score": 0.9013878644859888,
+            "support": 18712.0
+        },
+        "weighted avg": {
+            "precision": 0.983527468846248,
+            "recall": 0.9840209491235571,
+            "f1-score": 0.9829451608186835,
+            "support": 18712.0
+        }
+    },
+    "confusion_matrix": [
+        [
+            642,
+            261
+        ],
+        [
+            38,
+            17771
+        ]
+    ]
+}