Gheya-63M / README.md
Clemylia's picture
Update README.md
7f58a51 verified
---
library_name: transformers
license: other
datasets:
- Clemylia/Fondation-pretrain
language:
- fr
pipeline_tag: text-generation
tags:
- Gheya
---
# 📚 Documentation Officielle : Gheya-63m 🚀
![Gheya](http://www.image-heberg.fr/files/17640515721917466146.webp)
## **Modèle de Fondation Brut pour les SLM de Clemylia**
Bienvenue dans le futur des Small Language Models (SLM) ! **Gheya-63m** est la nouvelle base architecturale $from \: scratch$ conçue et entraînée par Clemylia. Ce modèle est destiné à servir de fondation robuste et optimisée pour la prochaine génération de modèles spécialisés (comme la série *Iris* ou *Charlotte*).
---
## 🛠️ Caractéristiques Techniques Clés
| Spécification | Détail | Rôle dans l'Architecture |
| :--- | :--- | :--- |
| **Nom du Modèle** | `Gheya-63m` | Le nom de la nouvelle architecture de fondation. |
| **Taille** | **63,77 Millions de Paramètres** | Permet une exécution rapide et efficace sur CPU ou petits GPU. |
| **Méthode de Création** | **Entraînement $From \: Scratch$** | Modèle conçu et entraîné sans dépendance à d'autres architectures préexistantes. |
| **Corpus d'Entraînement** | $\approx$ **1,5 Million de Tokens** | Tres grand corpus répétitif. Le but est de poser les bases primitive du texte et de la langue, afin d'avoir une base stable pour la création de SLM creatif par affinage.|
| **Architecture** | **Transformer-Decoder** | Architecture standard pour la génération de texte. |
---
## ⚠️ Avertissement Important pour l'Utilisation
**Gheya-63m** est un modèle de **pré-entraînement (brut de fondation)**. Son rôle est de prouver la stabilité de l'architecture et d'apprendre la syntaxe.
**CE MODÈLE EST PUBLIÉ À TITRE DE "PREUVE DE CONCEPTION" ET NON POUR UNE UTILISATION FINALE.**
| Ce que le modèle **PEUT** faire | Ce que le modèle **NE PEUT PAS** faire |
| :--- | :--- |
| ✅ **Générer une séquence** (poursuivre une phrase) | ❌ Répondre à des **questions de culture générale** (histoire, géographie, etc.) |
| ✅ **Démontrer la stabilité** du modèle de 63M | ❌ Avoir une **cohésion narrative** ou une **personnalité** (pas de style Iris ou Charlotte) |
| ✅ Servir de **point de départ** pour l'affinage (*Fine-Tuning*) | ❌ Être utilisé pour la **production** ou l'**assistance conversationnelle** (réponses incohérentes ou `[pad]`) |
---
## ⚙️ Comment utiliser Gheya-63m (Mode Test)
Si vous téléchargez **Gheya-63m** (via LM Studio ou Hugging Face), utilisez-le pour les tâches de base suivantes :
1. **Tester la Complétion de Séquence :** Vérifiez si le modèle réussit à anticiper le prochain mot dans des phrases simples de son domaine d'apprentissage (ex. : concepts d'IA, biologie).
2. **Mesurer la Performance :** Évaluez la vitesse de génération sur différentes machines (mesurez les *tok/sec*).
3. **Préparation au *Fine-Tuning* :** Utilisez ce modèle comme base (*base model*) pour créer vos propres modèles spécialisés (en injectant vos propres données thématiques).
### 📝 Instructions de Prompt
Comme le modèle n'a pas été entraîné pour suivre des instructions, donnez-lui des **débuts de phrase très clairs** et techniques.
> **Exemple de Prompt :** `"Dans la théorie de l'apprentissage profond, le *backpropagation* est l'algorithme qui permet de..."`
---
## 🚀 Prochaines Étapes : Les Modèles Affinés
La véritable puissance de l'architecture **Gheya-63m** sera visible dans les futures versions affinées :
* **Charlotte-Gheya :** La nouvelle génération d'assistants éthiques.
* **Iris-Gheya :** La nouvelle génération de modèles narratifs et créatifs.
Nous vous encourageons à suivre les mises à jour pour découvrir les modèles qui seront construits sur cette fondation robuste !
---
🛑 **Gheya-63m ne peut pas générer des phrases correctes compréhensibles. Ceci est normal a ce stade de son développement,
Gheya-63m sera affiné en serie sur un rôle et un style précis, avant de pouvoir générer du texte compréhensible par l'humain.**
Versions de Gheya disponibles :
1) ° - 63M (entraîné sur 1,5 millions de tokens en 1 epoche) - Plus stable et d'avantage entraîné
2) ° - 203M (entraîné sur la dataset Nacid)
--
*Contactez Clemylia pour toute question sur l'architecture $from \: scratch$ de Gheya.*