BercyHub
/

CamemBERT_classification_discussions

@@ -14,33 +14,21 @@ base-model:
 ---
 # Model Card for Model ID
-<!-- Provide a quick summary of what the model is/does. -->
-This modelcard aims to be a base template for new models. It has been generated using [this raw template](https://github.com/huggingface/huggingface_hub/blob/main/src/huggingface_hub/templates/modelcard_template.md?plain=1).
 ## Model Details
 ### Model Description
-<!-- Provide a longer summary of what this model is. -->
-- **Developed by:** [More Information Needed]
-- **Funded by [optional]:** [More Information Needed]
-- **Shared by [optional]:** [More Information Needed]
-- **Model type:** [More Information Needed]
-- **Language(s) (NLP):** [More Information Needed]
-- **License:** [More Information Needed]
-- **Finetuned from model [optional]:** [More Information Needed]
 ### Model Sources [optional]
 <!-- Provide the basic links for the model. -->
 - **Repository:** [More Information Needed]
-- **Paper [optional]:** [More Information Needed]
-- **Demo [optional]:** [More Information Needed]
 ## Uses
@@ -48,10 +36,7 @@ This modelcard aims to be a base template for new models. It has been generated
 ### Direct Use
-<!-- This section is for the model use without fine-tuning or plugging into a larger ecosystem/app. -->
-[More Information Needed]
 ### Recommendations
@@ -61,15 +46,18 @@ Users (both direct and downstream) should be made aware of the risks, biases and
 ## How to Get Started with the Model
-Use the code below to get started with the model.
-[More Information Needed]
 ## Training Details
 ### Training Data
-Jeu de données annoté par Datactivist, disponible sur data.gouv.fr : https://www.data.gouv.fr/fr/datasets/annotation-des-discussions-publiees-sur-data-gouv-fr/#/resources
 (voir fichier : "discussions-annotations-public-.csv")
 ### Training Procedure
@@ -78,12 +66,23 @@ Jeu de données annoté par Datactivist, disponible sur data.gouv.fr : https://w
 #### Preprocessing [optional]
-[More Information Needed]
 #### Training Hyperparameters
-- **Training regime:** [More Information Needed] <!--fp32, fp16 mixed precision, bf16 mixed precision, bf16 non-mixed precision, fp16 non-mixed precision, fp8 mixed precision -->
 ## Evaluation
@@ -95,7 +94,9 @@ Jeu de données annoté par Datactivist, disponible sur data.gouv.fr : https://w
 <!-- This should link to a Dataset Card if possible. -->
-[More Information Needed]
 #### Metrics
@@ -106,8 +107,23 @@ Jeu de données annoté par Datactivist, disponible sur data.gouv.fr : https://w
 ### Results
-[More Information Needed]
 #### Summary
@@ -116,10 +132,6 @@ Jeu de données annoté par Datactivist, disponible sur data.gouv.fr : https://w
 [More Information Needed]
-### Compute Infrastructure
-[More Information Needed]
 ## Model Card Authors

 ---
 # Model Card for Model ID
 ## Model Details
 ### Model Description
+- **Developed by:** Asma RACHIDI (BercyHub)
+- **Model type:** Classification de Texte (Basé sur Camembert)
+- **Language(s) (NLP):** Français FR
+- **License:** MIT
+- **Finetuned from model:** camembert-base
 ### Model Sources [optional]
 <!-- Provide the basic links for the model. -->
 - **Repository:** [More Information Needed]
 ## Uses
 ### Direct Use
+Les utilisateurs peuvent utiliser directement le modèle pour des tâches de classification de texte, telles que la catégorisation de discussions basée sur les titres et les messages.
 ### Recommendations
 ## How to Get Started with the Model
+1) Télécharger les fichiers de poids contenu dans les dossiers .zip du modèle pré-entraîné pour la classification des commentaires.
+2) Télécharger et installer le fichier requirements.txt pour les dépendances
+3) Télécharger le fichier inference_script.py pour effectuer des prédictions avec le modèle pré-entraîné.
+4) Télécharger le fichier avec les données d'entrées à prédire
 ## Training Details
 ### Training Data
+Le modèle a été entraîné sur un jeu de données annoté manuellement par Datactivist en 2021 sur un échantillon de discussions.
+Le jeu de données annoté manuellement est disponible sur data.gouv.fr :
+https://www.data.gouv.fr/fr/datasets/annotation-des-discussions-publiees-sur-data-gouv-fr/#/resources
 (voir fichier : "discussions-annotations-public-.csv")
 ### Training Procedure
 #### Preprocessing [optional]
+Le script effectue diverses étapes de prétraitement, notamment la gestion des valeurs manquantes, la combinaison du titre et du message, et le nettoyage des données textuelles.
 #### Training Hyperparameters
+Modèle 1 - Catégories :
+- Batch Size : 16
+- Nombre d'Époques : 5
+- learning_rate=3e-5
+- weight_decay=0.01
+- optimizer = AdamW
+Modèle 2 - Sous-catégories :
+- Taille des lots (Batch Size) : 16
+- Nombre d'Époques : 10
+- learning_rate=3e-5
+- weight_decay=0.01
+- optimizer = AdamW
 ## Evaluation
 <!-- This should link to a Dataset Card if possible. -->
+Le modèle a été évalué, premièrement sur un ensemble de données de test dérivé du jeu de données des discussions annotées par datactivist représentant 20% de l'ensemble de données total.
+Et deuxièmement sur un jeu de données du catalogue des discussions de data.gouv.fr (non-annoté):
+https://www.data.gouv.fr/fr/datasets/catalogue-des-donnees-de-data-gouv-fr/
 #### Metrics
 ### Results
+Le modèle a obtenu des performances compétitives sur l'ensemble de test.
+Modèle 1 - Catégories :
+- Accuracy : 72 %
+- Recall : 72%
+- Precision : 71%
+- F1-score : 72%
+Modèle 2 - Sous-catégories :
+- Accuracy : 74%
+- Recall : 74%
+- Precision : 70%
+- F1-score : 71%
+Cependant, les données d'entraînement comportent un très grand déséquilibre entre les classes, ce qui abaisse les performances au niveau des classes sous-représentées.
+Ce désequilibre induit un certains biais entre les classes.
 #### Summary
 [More Information Needed]
 ## Model Card Authors