Update README.md
Browse files
README.md
CHANGED
|
@@ -10,4 +10,85 @@ language:
|
|
| 10 |
pipeline_tag: text-generation
|
| 11 |
---
|
| 12 |
|
| 13 |
-
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 10 |
pipeline_tag: text-generation
|
| 11 |
---
|
| 12 |
|
| 13 |
+
# 📚 Documentation du SLM **Lam-5** 🚀
|
| 14 |
+
|
| 15 |
+

|
| 16 |
+
|
| 17 |
+
## ✨ Présentation Générale
|
| 18 |
+
|
| 19 |
+
**Lam-5** est un **S**mall **L**anguage **M**odel (*Petit Modèle de Langage*) spécialisé en Question/Réponse (Q/A). Il est le fruit de la recherche fondamentale menée par **Clemylia** et l'organisation indépendante **LES-IA-ETOILES**.
|
| 20 |
+
|
| 21 |
+
Contrairement aux modèles de grande taille, Lam-5 utilise une architecture optimisée pour être **légère**, **rapide** et **performante** sur des jeux de données spécifiques et des contraintes de ressources.
|
| 22 |
+
|
| 23 |
+
| Caractéristique | Détail |
|
| 24 |
+
| :--- | :--- |
|
| 25 |
+
| **Nom du Modèle** | Lam-5 |
|
| 26 |
+
| **Architecte Créatrice** | Clemylia (LES-IA-ETOILES) |
|
| 27 |
+
| **Architecture de Base** | Aricate v4 (Propriétaire) |
|
| 28 |
+
| **Type de Modèle** | Sequence-to-Sequence (Seq2Seq) |
|
| 29 |
+
| **Licence de Distribution** | MIT |
|
| 30 |
+
| **Idéal pour** | Chatbots Q/A légers, périphériques à faible consommation. |
|
| 31 |
+
|
| 32 |
+
---
|
| 33 |
+
|
| 34 |
+
## 🏗️ L'Architecture Aricate v4 : La Révolution de la Cohérence
|
| 35 |
+
|
| 36 |
+
Lam-5 est bâti sur l'architecture **Aricate v4**, qui combine des concepts d'apprentissage profond éprouvés avec une solution innovante aux problèmes de langage des petits modèles.
|
| 37 |
+
|
| 38 |
+
### 1. Le Noyau Séquentiel (GRU)
|
| 39 |
+
|
| 40 |
+
Aricate utilise le réseau de neurones récurrents **GRU** (*Gated Recurrent Unit*) comme encodeur/décodeur principal.
|
| 41 |
+
|
| 42 |
+
* **Légèreté :** Les GRU sont notoirement plus rapides à entraîner et moins gourmands en VRAM que l'architecture Transformer.
|
| 43 |
+
* **Mémoire :** Ils traitent la séquence mot par mot, maintenant un **état caché** qui représente la "mémoire" du contexte à un instant donné.
|
| 44 |
+
|
| 45 |
+
### 2. Le Mécanisme d'Attention Additive (Bahdanau)
|
| 46 |
+
|
| 47 |
+
Pour garantir que le modèle ne perde pas le fil des questions longues, Aricate utilise l'**Attention Additive (Bahdanau)**.
|
| 48 |
+
|
| 49 |
+
* Lors de la génération de la réponse, le mécanisme d'Attention revient en arrière pour **peser l'importance** de chaque mot de la question d'entrée.
|
| 50 |
+
* Ceci permet de créer un **vecteur de contexte** précis, améliorant considérablement la pertinence des réponses.
|
| 51 |
+
|
| 52 |
+
### 3. La Prédiction du Mot Entier 🧠 (Innovation Clé)
|
| 53 |
+
|
| 54 |
+
C'est l'innovation majeure d'Aricate, conçue pour éviter les incohérences de *sub-word* ou *token* observées dans les petits Transformers sous-entraînés :
|
| 55 |
+
|
| 56 |
+
* **Méthode :** Lam-5 est configuré pour prédire le **mot suivant au lieu du token suivant**.
|
| 57 |
+
* **Avantage :** Ceci garantit que toutes les générations de Lam-5 sont composées de **mots complets, bien formés** et en français correct, même lorsque la sémantique est encore en cours d'affinage (en phase d'entraînement).
|
| 58 |
+
|
| 59 |
+
---
|
| 60 |
+
|
| 61 |
+
## 📚 Entraînement et Données
|
| 62 |
+
|
| 63 |
+
Lam-5, comme ses prédécesseurs, est un modèle **créé de zéro (*from scratch*)** par Clemylia.
|
| 64 |
+
|
| 65 |
+
* **Modèle de Fondation :** Dérivé de la base **Small-lamina-pretrain (51M)**.
|
| 66 |
+
* **Affinage (Fine-Tuning) :** Entraîné sur des paires Question/Réponse de la *dataset* `Clem27sey/Nacid`.
|
| 67 |
+
|
| 68 |
+
**Statut Actuel :** Lam-5 (et l'architecture Aricate) excelle dans la **cohérence grammaticale**, mais son corpus d'entraînement étant petit, il peut encore manifester des **incohérences sémantiques** (hallucinations ou réponses hors sujet).
|
| 69 |
+
|
| 70 |
+
---
|
| 71 |
+
|
| 72 |
+
## ⚙️ Déploiement et Utilisation
|
| 73 |
+
|
| 74 |
+
Lam-5 est conçu pour être facilement déployé et utilisé via Python ou des outils d'inférence standards.
|
| 75 |
+
|
| 76 |
+
### Stratégie de Génération
|
| 77 |
+
|
| 78 |
+
Lam-5 utilise la **Beam Search** par défaut pour garantir que les réponses générées sont de la plus haute qualité et de la meilleure probabilité cumulative.
|
| 79 |
+
|
| 80 |
+
### Utilisation Recommandée
|
| 81 |
+
|
| 82 |
+
Pour obtenir les meilleures réponses, il est conseillé de tester différents paramètres de génération :
|
| 83 |
+
|
| 84 |
+
| Paramètre | Recommandation | But |
|
| 85 |
+
| :--- | :--- | :--- |
|
| 86 |
+
| **Beam Size** | 3 à 5 | Maintenir la haute qualité et la cohérence. |
|
| 87 |
+
| **Temperature (T)** | 0.5 à 0.7 | Rendre le modèle précis, tout en évitant la répétition. |
|
| 88 |
+
| **Top-K Sampling** | 10 à 30 | Pour introduire une légère diversité si la réponse est trop figée. |
|
| 89 |
+
|
| 90 |
+
---
|
| 91 |
+
|
| 92 |
+
## 🌟 Perspectives Futures
|
| 93 |
+
|
| 94 |
+
L'architecture **Aricate v4** continuera d'être un pilier de l'innovation au sein de LES-IA-ETOILES. Des travaux futurs incluront l'augmentation de la taille du modèle Aricate et l'entraînement sur des *datasets* Q/A plus riches pour améliorer significativement la **précision sémantique** et la **généralisation**.
|