CocoLng
/

CamemBERT-Gpt

@@ -1,32 +1,30 @@
----
-language: fr
-tags:
-- french
-- camembert
-- nlp
-- language-model
-- transformers
-- oscar
-- moscar
-license: mit
-datasets:
-- oscar
-- moscar
-metrics:
-- loss
-- learning_rate
-- eval_loss
-- eval_runtime
-- eval_samples_per_second
-- eval_steps_per_second
-- train_runtime
-- train_samples_per_second
-- train_steps_per_second
----
 # CamemBERT-Gpt POIDS UNIQUEMENT
-Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre implémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université.
 ## Structure du Projet
@@ -39,19 +37,34 @@ cam_runX/
 └── model_info.txt
 ```
-## Description du Modèle
-CamemBERT est un modèle de langue français basé sur l'architecture RoBERTa. Cette implémentation vise à reproduire et potentiellement améliorer le modèle original.
 ## Données d'Entraînement
-- **Datasets**: mOSCAR/OSCAR
-- **Langue**: Français
-- **Source**: [OSCAR Corpus](https://oscar-corpus.com/)
 ## Paramètres d'Entraînement
-Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier `cam_runX` représente une session d'entraînement complète avec ses propres paramètres et résultats.
 ## Repository GitHub associé

+---
+language: fr
+tags:
+- french
+- camembert
+- nlp
+- language-model
+- transformers
+- oscar
+- moscar
+license: mit
+datasets:
+- oscar
+- moscar
+metrics:
+- accuracy
+base_model:
+- almanach/camembert-base
+---
 # CamemBERT-Gpt POIDS UNIQUEMENT
+Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre réimplémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université. Notre objectif est de reproduire les résultats de l'article de recherche original en utilisant l'architecture RoBERTa.
+## Modèle de référence
+Notre implémentation vise à répliquer le modèle CamemBERT original, disponible sur Hugging Face : [camembert-base](https://huggingface.co/camembert-base)
 ## Structure du Projet
 └── model_info.txt
 ```
+## Description des Runs d'Entraînement
+### cam_run24
+- **Dataset**: [mOSCAR](https://huggingface.co/datasets/oscar-corpus/mOSCAR) (portion française)
+- **Taille des données**: 1 Go de texte
+- **Description**: Version d'entraînement avec un sous-ensemble contrôlé des données
+### cam_run30
+- **Dataset**: [OSCAR](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) (portion française)
+- **Taille des données**: 100 Go de texte
+- **Description**: Version d'entraînement complète, reproduisant les conditions de l'article original
 ## Données d'Entraînement
+Notre approche utilise exclusivement les portions françaises des datasets suivants :
+- **mOSCAR**: Version plus récente et mieux filtrée du corpus OSCAR
+  - [mOSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/mOSCAR)
+  - Utilisé pour le run expérimental (cam_run24)
+- **OSCAR**: Common Crawl filtré pour le français
+  - [OSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301)
+  - Utilisé pour la réplication fidèle (cam_run30)
+  - Même dataset que celui utilisé dans l'article original
 ## Paramètres d'Entraînement
+Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier représente une session d'entraînement complète avec ses propres paramètres et résultats.
 ## Repository GitHub associé