Clemylia commited on
Commit
dca947a
·
verified ·
1 Parent(s): e818e88

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +82 -1
README.md CHANGED
@@ -10,4 +10,85 @@ language:
10
  pipeline_tag: text-generation
11
  ---
12
 
13
- la documentation de ce modèle arrive !
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
10
  pipeline_tag: text-generation
11
  ---
12
 
13
+ # 📚 Documentation du SLM **Lam-5** 🚀
14
+
15
+ ![lam-5](http://www.image-heberg.fr/files/17624253562163980354.jpg)
16
+
17
+ ## ✨ Présentation Générale
18
+
19
+ **Lam-5** est un **S**mall **L**anguage **M**odel (*Petit Modèle de Langage*) spécialisé en Question/Réponse (Q/A). Il est le fruit de la recherche fondamentale menée par **Clemylia** et l'organisation indépendante **LES-IA-ETOILES**.
20
+
21
+ Contrairement aux modèles de grande taille, Lam-5 utilise une architecture optimisée pour être **légère**, **rapide** et **performante** sur des jeux de données spécifiques et des contraintes de ressources.
22
+
23
+ | Caractéristique | Détail |
24
+ | :--- | :--- |
25
+ | **Nom du Modèle** | Lam-5 |
26
+ | **Architecte Créatrice** | Clemylia (LES-IA-ETOILES) |
27
+ | **Architecture de Base** | Aricate v4 (Propriétaire) |
28
+ | **Type de Modèle** | Sequence-to-Sequence (Seq2Seq) |
29
+ | **Licence de Distribution** | MIT |
30
+ | **Idéal pour** | Chatbots Q/A légers, périphériques à faible consommation. |
31
+
32
+ ---
33
+
34
+ ## 🏗️ L'Architecture Aricate v4 : La Révolution de la Cohérence
35
+
36
+ Lam-5 est bâti sur l'architecture **Aricate v4**, qui combine des concepts d'apprentissage profond éprouvés avec une solution innovante aux problèmes de langage des petits modèles.
37
+
38
+ ### 1. Le Noyau Séquentiel (GRU)
39
+
40
+ Aricate utilise le réseau de neurones récurrents **GRU** (*Gated Recurrent Unit*) comme encodeur/décodeur principal.
41
+
42
+ * **Légèreté :** Les GRU sont notoirement plus rapides à entraîner et moins gourmands en VRAM que l'architecture Transformer.
43
+ * **Mémoire :** Ils traitent la séquence mot par mot, maintenant un **état caché** qui représente la "mémoire" du contexte à un instant donné.
44
+
45
+ ### 2. Le Mécanisme d'Attention Additive (Bahdanau)
46
+
47
+ Pour garantir que le modèle ne perde pas le fil des questions longues, Aricate utilise l'**Attention Additive (Bahdanau)**.
48
+
49
+ * Lors de la génération de la réponse, le mécanisme d'Attention revient en arrière pour **peser l'importance** de chaque mot de la question d'entrée.
50
+ * Ceci permet de créer un **vecteur de contexte** précis, améliorant considérablement la pertinence des réponses.
51
+
52
+ ### 3. La Prédiction du Mot Entier 🧠 (Innovation Clé)
53
+
54
+ C'est l'innovation majeure d'Aricate, conçue pour éviter les incohérences de *sub-word* ou *token* observées dans les petits Transformers sous-entraînés :
55
+
56
+ * **Méthode :** Lam-5 est configuré pour prédire le **mot suivant au lieu du token suivant**.
57
+ * **Avantage :** Ceci garantit que toutes les générations de Lam-5 sont composées de **mots complets, bien formés** et en français correct, même lorsque la sémantique est encore en cours d'affinage (en phase d'entraînement).
58
+
59
+ ---
60
+
61
+ ## 📚 Entraînement et Données
62
+
63
+ Lam-5, comme ses prédécesseurs, est un modèle **créé de zéro (*from scratch*)** par Clemylia.
64
+
65
+ * **Modèle de Fondation :** Dérivé de la base **Small-lamina-pretrain (51M)**.
66
+ * **Affinage (Fine-Tuning) :** Entraîné sur des paires Question/Réponse de la *dataset* `Clem27sey/Nacid`.
67
+
68
+ **Statut Actuel :** Lam-5 (et l'architecture Aricate) excelle dans la **cohérence grammaticale**, mais son corpus d'entraînement étant petit, il peut encore manifester des **incohérences sémantiques** (hallucinations ou réponses hors sujet).
69
+
70
+ ---
71
+
72
+ ## ⚙️ Déploiement et Utilisation
73
+
74
+ Lam-5 est conçu pour être facilement déployé et utilisé via Python ou des outils d'inférence standards.
75
+
76
+ ### Stratégie de Génération
77
+
78
+ Lam-5 utilise la **Beam Search** par défaut pour garantir que les réponses générées sont de la plus haute qualité et de la meilleure probabilité cumulative.
79
+
80
+ ### Utilisation Recommandée
81
+
82
+ Pour obtenir les meilleures réponses, il est conseillé de tester différents paramètres de génération :
83
+
84
+ | Paramètre | Recommandation | But |
85
+ | :--- | :--- | :--- |
86
+ | **Beam Size** | 3 à 5 | Maintenir la haute qualité et la cohérence. |
87
+ | **Temperature (T)** | 0.5 à 0.7 | Rendre le modèle précis, tout en évitant la répétition. |
88
+ | **Top-K Sampling** | 10 à 30 | Pour introduire une légère diversité si la réponse est trop figée. |
89
+
90
+ ---
91
+
92
+ ## 🌟 Perspectives Futures
93
+
94
+ L'architecture **Aricate v4** continuera d'être un pilier de l'innovation au sein de LES-IA-ETOILES. Des travaux futurs incluront l'augmentation de la taille du modèle Aricate et l'entraînement sur des *datasets* Q/A plus riches pour améliorer significativement la **précision sémantique** et la **généralisation**.