Update README.md
Browse files
README.md
CHANGED
|
@@ -4,4 +4,35 @@ license: apache-2.0
|
|
| 4 |
language:
|
| 5 |
- fr
|
| 6 |
pipeline_tag: text-generation
|
| 7 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 4 |
language:
|
| 5 |
- fr
|
| 6 |
pipeline_tag: text-generation
|
| 7 |
+
---
|
| 8 |
+
# 📖 Documentation Technique : Gheya-Nacid
|
| 9 |
+
|
| 10 |
+
## 🌟 Aperçu du Modèle
|
| 11 |
+
|
| 12 |
+
**Gheya-Nacid** est un Small Language Model (SLM) de fondation, conçu pour l'apprentissage linguistique généraliste du français. Développé par **Clemylia (LLm-Clem)**, ce modèle est un pilier pour la création de SLM affinés dans l'écosystème LES-IA-ETOILES.
|
| 13 |
+
|
| 14 |
+
| Attribut | Valeur | Rôle dans la Conception |
|
| 15 |
+
| :--- | :--- | :--- |
|
| 16 |
+
| **Créatrice** | Clemylia (LLm-Clem) | Développeuse spécialisée en SLM *from scratch*. |
|
| 17 |
+
| **Taille** | (153M) | Modèle Gheya |
|
| 18 |
+
| **Statut** | **Pré-entraîné (Base Model)** | Modèle d'acquisition linguistique de base non conventionnelle destiné à être Fine-Tuné. |
|
| 19 |
+
|
| 20 |
+
---
|
| 21 |
+
|
| 22 |
+
## 📚 Base d'Entraînement : La Dataset Nacid
|
| 23 |
+
|
| 24 |
+
La caractéristique la plus distinctive de Gheya-Nacid est son corpus de pré-entraînement :
|
| 25 |
+
|
| 26 |
+
* **Corpus Principal :** La **Dataset Nacid**.
|
| 27 |
+
* **Nature du Corpus :** Dataset française à **sujet généraliste**, créée par Clemylia.
|
| 28 |
+
* **Objectif Linguistique :** Gheya-Nacid est entraîné pour acquérir la compréhension de base de la langue, et de la synthaxe.
|
| 29 |
+
* **Rôle Écosystème :** Ce modèle sert de base linguistique solide pour l'affinage (**Fine-Tuning**) vers des tâches spécifiques (comme l'éthique, la poésie, ou le *coding*), sans être limité par une spécialisation initiale.
|
| 30 |
+
|
| 31 |
+
---
|
| 32 |
+
|
| 33 |
+
## 🎯 Utilisation Recommandée
|
| 34 |
+
|
| 35 |
+
* **Point de Départ (Checkpoint) :** Gheya-Nacid est la base idéale pour tout développeur souhaitant créer un SLM français spécialisé (par exemple, pour concurrencer Charlotte-Amity ou Maya-152m-Flowers sur un nouveau thème).
|
| 36 |
+
* **Test de Robustesse :** Le modèle peut être utilisé pour tester l'efficacité de nouvelles techniques de Fine-Tuning ou d'alignement sur un modèle généraliste.
|
| 37 |
+
|
| 38 |
+
**Remarque :** En tant que modèle pré-entraîné généraliste, Gheya-Nacid peut être sujet à des **hallucinations factuelles** lorsqu'il est interrogé en dehors de son domaine linguistique, car il n'a pas été affiné pour la véracité.
|