CocoLng commited on
Commit
74425a5
·
verified ·
1 Parent(s): 9c73937

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +45 -32
README.md CHANGED
@@ -1,32 +1,30 @@
1
- ---
2
- language: fr
3
- tags:
4
- - french
5
- - camembert
6
- - nlp
7
- - language-model
8
- - transformers
9
- - oscar
10
- - moscar
11
- license: mit
12
- datasets:
13
- - oscar
14
- - moscar
15
- metrics:
16
- - loss
17
- - learning_rate
18
- - eval_loss
19
- - eval_runtime
20
- - eval_samples_per_second
21
- - eval_steps_per_second
22
- - train_runtime
23
- - train_samples_per_second
24
- - train_steps_per_second
25
- ---
26
 
27
  # CamemBERT-Gpt POIDS UNIQUEMENT
28
 
29
- Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre implémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université.
 
 
 
 
30
 
31
  ## Structure du Projet
32
 
@@ -39,19 +37,34 @@ cam_runX/
39
  └── model_info.txt
40
  ```
41
 
42
- ## Description du Modèle
 
 
 
 
 
43
 
44
- CamemBERT est un modèle de langue français basé sur l'architecture RoBERTa. Cette implémentation vise à reproduire et potentiellement améliorer le modèle original.
 
 
 
45
 
46
  ## Données d'Entraînement
47
 
48
- - **Datasets**: mOSCAR/OSCAR
49
- - **Langue**: Français
50
- - **Source**: [OSCAR Corpus](https://oscar-corpus.com/)
 
 
 
 
 
 
 
51
 
52
  ## Paramètres d'Entraînement
53
 
54
- Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier `cam_runX` représente une session d'entraînement complète avec ses propres paramètres et résultats.
55
 
56
  ## Repository GitHub associé
57
 
 
1
+ ---
2
+ language: fr
3
+ tags:
4
+ - french
5
+ - camembert
6
+ - nlp
7
+ - language-model
8
+ - transformers
9
+ - oscar
10
+ - moscar
11
+ license: mit
12
+ datasets:
13
+ - oscar
14
+ - moscar
15
+ metrics:
16
+ - accuracy
17
+ base_model:
18
+ - almanach/camembert-base
19
+ ---
 
 
 
 
 
 
20
 
21
  # CamemBERT-Gpt POIDS UNIQUEMENT
22
 
23
+ Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre réimplémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université. Notre objectif est de reproduire les résultats de l'article de recherche original en utilisant l'architecture RoBERTa.
24
+
25
+ ## Modèle de référence
26
+
27
+ Notre implémentation vise à répliquer le modèle CamemBERT original, disponible sur Hugging Face : [camembert-base](https://huggingface.co/camembert-base)
28
 
29
  ## Structure du Projet
30
 
 
37
  └── model_info.txt
38
  ```
39
 
40
+ ## Description des Runs d'Entraînement
41
+
42
+ ### cam_run24
43
+ - **Dataset**: [mOSCAR](https://huggingface.co/datasets/oscar-corpus/mOSCAR) (portion française)
44
+ - **Taille des données**: 1 Go de texte
45
+ - **Description**: Version d'entraînement avec un sous-ensemble contrôlé des données
46
 
47
+ ### cam_run30
48
+ - **Dataset**: [OSCAR](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301) (portion française)
49
+ - **Taille des données**: 100 Go de texte
50
+ - **Description**: Version d'entraînement complète, reproduisant les conditions de l'article original
51
 
52
  ## Données d'Entraînement
53
 
54
+ Notre approche utilise exclusivement les portions françaises des datasets suivants :
55
+
56
+ - **mOSCAR**: Version plus récente et mieux filtrée du corpus OSCAR
57
+ - [mOSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/mOSCAR)
58
+ - Utilisé pour le run expérimental (cam_run24)
59
+
60
+ - **OSCAR**: Common Crawl filtré pour le français
61
+ - [OSCAR sur Hugging Face](https://huggingface.co/datasets/oscar-corpus/OSCAR-2301)
62
+ - Utilisé pour la réplication fidèle (cam_run30)
63
+ - Même dataset que celui utilisé dans l'article original
64
 
65
  ## Paramètres d'Entraînement
66
 
67
+ Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier représente une session d'entraînement complète avec ses propres paramètres et résultats.
68
 
69
  ## Repository GitHub associé
70