CocoLng commited on
Commit
943edcc
·
1 Parent(s): 712d374

Refractor Readme

Browse files
Files changed (1) hide show
  1. README.md +73 -2
README.md CHANGED
@@ -1,2 +1,73 @@
1
- # CamemBert-Gpt POIDS UNIQUEMENT
2
- Projet Final pour Sorbonne Université, machine learning avancé
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language: fr
3
+ tags:
4
+ - french
5
+ - camembert
6
+ - nlp
7
+ - language-model
8
+ - transformers
9
+ - oscar
10
+ - moscar
11
+ license: mit
12
+ datasets:
13
+ - oscar
14
+ - moscar
15
+ metrics:
16
+ - loss
17
+ - learning_rate
18
+ - eval_loss
19
+ - eval_runtime
20
+ - eval_samples_per_second
21
+ - eval_steps_per_second
22
+ - train_runtime
23
+ - train_samples_per_second
24
+ - train_steps_per_second
25
+ ---
26
+
27
+ # CamemBERT-Gpt POIDS UNIQUEMENT
28
+
29
+ Ce dépôt contient les poids et checkpoints des différentes itérations d'entraînement de notre implémentation de CamemBERT, réalisée dans le cadre d'un projet à Sorbonne Université.
30
+
31
+ ## Structure du Projet
32
+
33
+ ```
34
+ cam_runX/
35
+ ├── checkpoints/
36
+ │ ├── checkpoint-XXX/
37
+ │ └── checkpoint-XXX/
38
+ ├── weights/
39
+ └── model_info.txt
40
+ ```
41
+
42
+ ## Description du Modèle
43
+
44
+ CamemBERT est un modèle de langue français basé sur l'architecture RoBERTa. Cette implémentation vise à reproduire et potentiellement améliorer le modèle original.
45
+
46
+ ## Données d'Entraînement
47
+
48
+ - **Datasets**: mOSCAR/OSCAR
49
+ - **Langue**: Français
50
+ - **Source**: [OSCAR Corpus](https://oscar-corpus.com/)
51
+
52
+ ## Paramètres d'Entraînement
53
+
54
+ Les checkpoints sont sauvegardés à intervalles réguliers pendant l'entraînement. Chaque dossier `cam_runX` représente une session d'entraînement complète avec ses propres paramètres et résultats.
55
+
56
+ ## Repository GitHub associé
57
+
58
+ Le code source complet et la documentation détaillée sont disponibles sur notre [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt).
59
+
60
+ ## Citations
61
+
62
+ ```bibtex
63
+ @inproceedings{martin2020camembert,
64
+ title={CamemBERT: a Tasty French Language Model},
65
+ author={Martin, Louis and Muller, Benjamin and Ortiz Suárez, Pedro Javier and Dupont, Yoann and Romary, Laurent and de la Clergerie, Éric Villemonte and Seddah, Djamé and Sagot, Benoît},
66
+ booktitle={Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics},
67
+ year={2020}
68
+ }
69
+ ```
70
+
71
+ ## Contact
72
+
73
+ Pour toute question concernant ce modèle ou son utilisation, veuillez ouvrir une issue sur le [repository GitHub](https://github.com/CocoLng/CamemBERT-Gpt).