Clemylia commited on
Commit
a331673
·
verified ·
1 Parent(s): b525596

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +32 -1
README.md CHANGED
@@ -4,4 +4,35 @@ license: apache-2.0
4
  language:
5
  - fr
6
  pipeline_tag: text-generation
7
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4
  language:
5
  - fr
6
  pipeline_tag: text-generation
7
+ ---
8
+ # 📖 Documentation Technique : Gheya-Nacid
9
+
10
+ ## 🌟 Aperçu du Modèle
11
+
12
+ **Gheya-Nacid** est un Small Language Model (SLM) de fondation, conçu pour l'apprentissage linguistique généraliste du français. Développé par **Clemylia (LLm-Clem)**, ce modèle est un pilier pour la création de SLM affinés dans l'écosystème LES-IA-ETOILES.
13
+
14
+ | Attribut | Valeur | Rôle dans la Conception |
15
+ | :--- | :--- | :--- |
16
+ | **Créatrice** | Clemylia (LLm-Clem) | Développeuse spécialisée en SLM *from scratch*. |
17
+ | **Taille** | (153M) | Modèle Gheya |
18
+ | **Statut** | **Pré-entraîné (Base Model)** | Modèle d'acquisition linguistique de base non conventionnelle destiné à être Fine-Tuné. |
19
+
20
+ ---
21
+
22
+ ## 📚 Base d'Entraînement : La Dataset Nacid
23
+
24
+ La caractéristique la plus distinctive de Gheya-Nacid est son corpus de pré-entraînement :
25
+
26
+ * **Corpus Principal :** La **Dataset Nacid**.
27
+ * **Nature du Corpus :** Dataset française à **sujet généraliste**, créée par Clemylia.
28
+ * **Objectif Linguistique :** Gheya-Nacid est entraîné pour acquérir la compréhension de base de la langue, et de la synthaxe.
29
+ * **Rôle Écosystème :** Ce modèle sert de base linguistique solide pour l'affinage (**Fine-Tuning**) vers des tâches spécifiques (comme l'éthique, la poésie, ou le *coding*), sans être limité par une spécialisation initiale.
30
+
31
+ ---
32
+
33
+ ## 🎯 Utilisation Recommandée
34
+
35
+ * **Point de Départ (Checkpoint) :** Gheya-Nacid est la base idéale pour tout développeur souhaitant créer un SLM français spécialisé (par exemple, pour concurrencer Charlotte-Amity ou Maya-152m-Flowers sur un nouveau thème).
36
+ * **Test de Robustesse :** Le modèle peut être utilisé pour tester l'efficacité de nouvelles techniques de Fine-Tuning ou d'alignement sur un modèle généraliste.
37
+
38
+ **Remarque :** En tant que modèle pré-entraîné généraliste, Gheya-Nacid peut être sujet à des **hallucinations factuelles** lorsqu'il est interrogé en dehors de son domaine linguistique, car il n'a pas été affiné pour la véracité.