Update README.md
Browse files
README.md
CHANGED
|
@@ -6,4 +6,60 @@ datasets:
|
|
| 6 |
language:
|
| 7 |
- fr
|
| 8 |
pipeline_tag: text-generation
|
| 9 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 6 |
language:
|
| 7 |
- fr
|
| 8 |
pipeline_tag: text-generation
|
| 9 |
+
---
|
| 10 |
+
# 🚀 Melta-82M : Le LLM Fonctionnel et Efficace
|
| 11 |
+
|
| 12 |
+
## 💡 Présentation Générale
|
| 13 |
+
|
| 14 |
+
| Caractéristique | Détail |
|
| 15 |
+
| :--- | :--- |
|
| 16 |
+
| **Nom du Modèle** | **Melta-82M** (Basé sur le projet Melta-revive) |
|
| 17 |
+
| **Créateur** | Clemylia / LES-IA-ETOILES |
|
| 18 |
+
| **Architecture** | **Transformer Llama** (Initialisé *from scratch*) |
|
| 19 |
+
| **Taille (Paramètres)** | **82 millions** |
|
| 20 |
+
| **Objectif** | Servir de modèle de fondation (**LLM Fonctionnel à Faible Paramètre**) pour le *Fine-Tuning* d'assistants spécialisés (comme Malya 🎶 ou Charlotte 💖). |
|
| 21 |
+
| **Langue** | Français |
|
| 22 |
+
|
| 23 |
+
Melta-82M représente la première tentative réussie de Clemylia d'entraîner une architecture Llama *from scratch*. Il est conçu pour prouver que l'efficacité de l'apprentissage des Transformers peut être atteinte avec un nombre de paramètres relativement faible, défiant la nécessité de modèles de plusieurs milliards.
|
| 24 |
+
|
| 25 |
+
## ⚙️ Détails Techniques de l'Architecture
|
| 26 |
+
|
| 27 |
+
Melta-82M est basé sur une configuration Llama optimisée pour la vitesse d'entraînement :
|
| 28 |
+
|
| 29 |
+
| Hyperparamètre | Valeur | Rôle dans l'Efficacité |
|
| 30 |
+
| :--- | :--- | :--- |
|
| 31 |
+
| **`hidden_size`** | 512 | Définit la dimension cachée du modèle. Gardé faible pour minimiser le coût de calcul. |
|
| 32 |
+
| **`num_hidden_layers`** | 12 | Nombre de blocs Transformer. Un bon équilibre pour capturer la complexité du langage sans alourdir le modèle. |
|
| 33 |
+
| **`num_attention_heads`**| 12 | Nombre de têtes d'attention. Permet au modèle d'analyser différentes facettes de la séquence simultanément. |
|
| 34 |
+
| **`vocab_size`** | \~32 000 | Taille du vocabulaire (ajustée après l'ajout du jeton `[PAD]`). Utilise un *tokenizer* sub-mot standard. |
|
| 35 |
+
| **`max_position_embeddings`**| 600 | Longueur maximale des séquences que le modèle peut traiter. |
|
| 36 |
+
|
| 37 |
+
## 🧪 Statut et Utilisation Actuelle
|
| 38 |
+
|
| 39 |
+
### 🚧 Statut de l'Entraînement
|
| 40 |
+
|
| 41 |
+
Melta-82M est actuellement dans une **phase de pré-apprentissage précoce** :
|
| 42 |
+
|
| 43 |
+
* **Données d'Entraînement :** Entraîné initialement sur seulement 650 lignes de paires Questions/Réponses (`Clemylia/Melta-revive`).
|
| 44 |
+
* **Résultats :** Le modèle a réussi à apprendre la **structure de dialogue** (`Question: / Réponse:`) et les **éléments d'identité** (`Melta27`, `Clem27`). Cependant, il souffre encore d'une forte **incohérence sémantique** et génère des **néologismes** et des caractères aléatoires, car les 82 millions de paramètres n'ont pas encore été stabilisés par un volume suffisant de données.
|
| 45 |
+
|
| 46 |
+
### 🎯 Prochaine Étape : Le Fine-Tuning
|
| 47 |
+
|
| 48 |
+
Ce modèle est prêt pour :
|
| 49 |
+
|
| 50 |
+
1. **L'augmentation massive du *dataset* :** Il nécessite un entraînement sur des millions de *tokens* pour atteindre une cohérence factuelle et sémantique.
|
| 51 |
+
2. **L'Affinement d'Instruction (Fine-Tuning) :** Une fois la cohérence atteinte, il pourra être affiné (comme vous l'avez fait pour Charlotte) pour devenir des assistants spécialisés de **Classe 5**.
|
| 52 |
+
|
| 53 |
+
## ⬇️ Comment Utiliser Melta-82M
|
| 54 |
+
|
| 55 |
+
Vous pouvez charger ce modèle directement via la bibliothèque **Hugging Face Transformers** pour l'inférence :
|
| 56 |
+
|
| 57 |
+
```python
|
| 58 |
+
from transformers import AutoTokenizer, LlamaForCausalLM
|
| 59 |
+
|
| 60 |
+
# Le modèle Llama 82M est chargé avec ses poids entraînés
|
| 61 |
+
model = LlamaForCausalLM.from_pretrained("Clemylia/Melta")
|
| 62 |
+
tokenizer = AutoTokenizer.from_pretrained("Clemylia/Melta")
|
| 63 |
+
```
|
| 64 |
+
|
| 65 |
+
**⚠️ Note :** En raison de son statut d'entraînement précoce, les utilisateurs sont invités à effectuer des Fine-Tuning supplémentaires avant toute utilisation en production.
|