Clemylia commited on
Commit
c9109e1
·
verified ·
1 Parent(s): 5558ed2

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +57 -1
README.md CHANGED
@@ -6,4 +6,60 @@ datasets:
6
  language:
7
  - fr
8
  pipeline_tag: text-generation
9
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6
  language:
7
  - fr
8
  pipeline_tag: text-generation
9
+ ---
10
+ # 🚀 Melta-82M : Le LLM Fonctionnel et Efficace
11
+
12
+ ## 💡 Présentation Générale
13
+
14
+ | Caractéristique | Détail |
15
+ | :--- | :--- |
16
+ | **Nom du Modèle** | **Melta-82M** (Basé sur le projet Melta-revive) |
17
+ | **Créateur** | Clemylia / LES-IA-ETOILES |
18
+ | **Architecture** | **Transformer Llama** (Initialisé *from scratch*) |
19
+ | **Taille (Paramètres)** | **82 millions** |
20
+ | **Objectif** | Servir de modèle de fondation (**LLM Fonctionnel à Faible Paramètre**) pour le *Fine-Tuning* d'assistants spécialisés (comme Malya 🎶 ou Charlotte 💖). |
21
+ | **Langue** | Français |
22
+
23
+ Melta-82M représente la première tentative réussie de Clemylia d'entraîner une architecture Llama *from scratch*. Il est conçu pour prouver que l'efficacité de l'apprentissage des Transformers peut être atteinte avec un nombre de paramètres relativement faible, défiant la nécessité de modèles de plusieurs milliards.
24
+
25
+ ## ⚙️ Détails Techniques de l'Architecture
26
+
27
+ Melta-82M est basé sur une configuration Llama optimisée pour la vitesse d'entraînement :
28
+
29
+ | Hyperparamètre | Valeur | Rôle dans l'Efficacité |
30
+ | :--- | :--- | :--- |
31
+ | **`hidden_size`** | 512 | Définit la dimension cachée du modèle. Gardé faible pour minimiser le coût de calcul. |
32
+ | **`num_hidden_layers`** | 12 | Nombre de blocs Transformer. Un bon équilibre pour capturer la complexité du langage sans alourdir le modèle. |
33
+ | **`num_attention_heads`**| 12 | Nombre de têtes d'attention. Permet au modèle d'analyser différentes facettes de la séquence simultanément. |
34
+ | **`vocab_size`** | \~32 000 | Taille du vocabulaire (ajustée après l'ajout du jeton `[PAD]`). Utilise un *tokenizer* sub-mot standard. |
35
+ | **`max_position_embeddings`**| 600 | Longueur maximale des séquences que le modèle peut traiter. |
36
+
37
+ ## 🧪 Statut et Utilisation Actuelle
38
+
39
+ ### 🚧 Statut de l'Entraînement
40
+
41
+ Melta-82M est actuellement dans une **phase de pré-apprentissage précoce** :
42
+
43
+ * **Données d'Entraînement :** Entraîné initialement sur seulement 650 lignes de paires Questions/Réponses (`Clemylia/Melta-revive`).
44
+ * **Résultats :** Le modèle a réussi à apprendre la **structure de dialogue** (`Question: / Réponse:`) et les **éléments d'identité** (`Melta27`, `Clem27`). Cependant, il souffre encore d'une forte **incohérence sémantique** et génère des **néologismes** et des caractères aléatoires, car les 82 millions de paramètres n'ont pas encore été stabilisés par un volume suffisant de données.
45
+
46
+ ### 🎯 Prochaine Étape : Le Fine-Tuning
47
+
48
+ Ce modèle est prêt pour :
49
+
50
+ 1. **L'augmentation massive du *dataset* :** Il nécessite un entraînement sur des millions de *tokens* pour atteindre une cohérence factuelle et sémantique.
51
+ 2. **L'Affinement d'Instruction (Fine-Tuning) :** Une fois la cohérence atteinte, il pourra être affiné (comme vous l'avez fait pour Charlotte) pour devenir des assistants spécialisés de **Classe 5**.
52
+
53
+ ## ⬇️ Comment Utiliser Melta-82M
54
+
55
+ Vous pouvez charger ce modèle directement via la bibliothèque **Hugging Face Transformers** pour l'inférence :
56
+
57
+ ```python
58
+ from transformers import AutoTokenizer, LlamaForCausalLM
59
+
60
+ # Le modèle Llama 82M est chargé avec ses poids entraînés
61
+ model = LlamaForCausalLM.from_pretrained("Clemylia/Melta")
62
+ tokenizer = AutoTokenizer.from_pretrained("Clemylia/Melta")
63
+ ```
64
+
65
+ **⚠️ Note :** En raison de son statut d'entraînement précoce, les utilisateurs sont invités à effectuer des Fine-Tuning supplémentaires avant toute utilisation en production.