Gheya-63M / README.md

Update README.md

7f58a51 verified 4 days ago

4.38 kB

	---
	library_name: transformers
	license: other
	datasets:
	- Clemylia/Fondation-pretrain
	language:
	- fr
	pipeline_tag: text-generation
	tags:
	- Gheya
	---
	# 📚 Documentation Officielle : Gheya-63m 🚀

	![Gheya](http://www.image-heberg.fr/files/17640515721917466146.webp)

	## Modèle de Fondation Brut pour les SLM de Clemylia

	Bienvenue dans le futur des Small Language Models (SLM) ! Gheya-63m est la nouvelle base architecturale $from \: scratch$ conçue et entraînée par Clemylia. Ce modèle est destiné à servir de fondation robuste et optimisée pour la prochaine génération de modèles spécialisés (comme la série Iris ou Charlotte).

	---

	## 🛠️ Caractéristiques Techniques Clés

	\| Spécification \| Détail \| Rôle dans l'Architecture \|
	\| :--- \| :--- \| :--- \|
	\| Nom du Modèle \| `Gheya-63m` \| Le nom de la nouvelle architecture de fondation. \|
	\| Taille \| 63,77 Millions de Paramètres \| Permet une exécution rapide et efficace sur CPU ou petits GPU. \|
	\| Méthode de Création \| Entraînement $From \: Scratch$ \| Modèle conçu et entraîné sans dépendance à d'autres architectures préexistantes. \|
	\| Corpus d'Entraînement \| $\approx$ 1,5 Million de Tokens \| Tres grand corpus répétitif. Le but est de poser les bases primitive du texte et de la langue, afin d'avoir une base stable pour la création de SLM creatif par affinage.\|
	\| Architecture \| Transformer-Decoder \| Architecture standard pour la génération de texte. \|

	---

	## ⚠️ Avertissement Important pour l'Utilisation

	Gheya-63m est un modèle de pré-entraînement (brut de fondation). Son rôle est de prouver la stabilité de l'architecture et d'apprendre la syntaxe.

	CE MODÈLE EST PUBLIÉ À TITRE DE "PREUVE DE CONCEPTION" ET NON POUR UNE UTILISATION FINALE.

	\| Ce que le modèle PEUT faire \| Ce que le modèle NE PEUT PAS faire \|
	\| :--- \| :--- \|
	\| ✅ Générer une séquence (poursuivre une phrase) \| ❌ Répondre à des questions de culture générale (histoire, géographie, etc.) \|
	\| ✅ Démontrer la stabilité du modèle de 63M \| ❌ Avoir une cohésion narrative ou une personnalité (pas de style Iris ou Charlotte) \|
	\| ✅ Servir de point de départ pour l'affinage (Fine-Tuning) \| ❌ Être utilisé pour la production ou l'assistance conversationnelle (réponses incohérentes ou `[pad]`) \|

	---

	## ⚙️ Comment utiliser Gheya-63m (Mode Test)

	Si vous téléchargez Gheya-63m (via LM Studio ou Hugging Face), utilisez-le pour les tâches de base suivantes :

	1. Tester la Complétion de Séquence : Vérifiez si le modèle réussit à anticiper le prochain mot dans des phrases simples de son domaine d'apprentissage (ex. : concepts d'IA, biologie).
	2. Mesurer la Performance : Évaluez la vitesse de génération sur différentes machines (mesurez les tok/sec).
	3. *Préparation au Fine-Tuning* :** Utilisez ce modèle comme base (base model) pour créer vos propres modèles spécialisés (en injectant vos propres données thématiques).

	### 📝 Instructions de Prompt

	Comme le modèle n'a pas été entraîné pour suivre des instructions, donnez-lui des débuts de phrase très clairs et techniques.

	> Exemple de Prompt : `"Dans la théorie de l'apprentissage profond, le backpropagation est l'algorithme qui permet de..."`

	---

	## 🚀 Prochaines Étapes : Les Modèles Affinés

	La véritable puissance de l'architecture Gheya-63m sera visible dans les futures versions affinées :

	* Charlotte-Gheya : La nouvelle génération d'assistants éthiques.
	* Iris-Gheya : La nouvelle génération de modèles narratifs et créatifs.

	Nous vous encourageons à suivre les mises à jour pour découvrir les modèles qui seront construits sur cette fondation robuste !

	---

	🛑 **Gheya-63m ne peut pas générer des phrases correctes compréhensibles. Ceci est normal a ce stade de son développement,
	Gheya-63m sera affiné en serie sur un rôle et un style précis, avant de pouvoir générer du texte compréhensible par l'humain.**

	Versions de Gheya disponibles :

	1) ° - 63M (entraîné sur 1,5 millions de tokens en 1 epoche) - Plus stable et d'avantage entraîné

	2) ° - 203M (entraîné sur la dataset Nacid)
	--

	Contactez Clemylia pour toute question sur l'architecture $from \: scratch$ de Gheya.