Update README.md
Browse files
README.md
CHANGED
|
@@ -8,4 +8,70 @@ datasets:
|
|
| 8 |
language:
|
| 9 |
- fr
|
| 10 |
pipeline_tag: text-generation
|
| 11 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 8 |
language:
|
| 9 |
- fr
|
| 10 |
pipeline_tag: text-generation
|
| 11 |
+
---
|
| 12 |
+
# 🤖 Lam-6 : Le SLM Semi-Généraliste Basé sur Aricate v4
|
| 13 |
+
|
| 14 |
+
| Status | 🧪 **DÉVELOPPEMENT / ENTRAÎNEMENT ACTIF** |
|
| 15 |
+
| :--- | :--- |
|
| 16 |
+
| Architecte Principal | Clémence (clemylia) |
|
| 17 |
+
| Architecture | **Aricate v4** (GRU + Attention Additive) |
|
| 18 |
+
| Type de Modèle | Small Language Model (SLM) Semi-Généraliste |
|
| 19 |
+
| Vocabulaire | **14 073** Mots 📖 |
|
| 20 |
+
---
|
| 21 |
+
|
| 22 |
+
## 🌟 Introduction : L'Évolution d'Aricate vers la Généralisation
|
| 23 |
+
|
| 24 |
+
**Lam-6** est le sixième itération de la série de modèles Lam, entièrement construit sur notre architecture propriétaire **Aricate v4**. Il représente une avancée significative vers la création d'un **Small Language Model (SLM) semi-généraliste**, combinant la légèreté et la rapidité d'entraînement d'Aricate avec un *dataset* élargi pour une compréhension plus vaste du monde.
|
| 25 |
+
|
| 26 |
+
L'objectif de Lam-6 est de combler le fossé entre les modèles ultra-spécialisés (comme Charlotte-amity) et les LLM de grande taille, en offrant une capacité de génération diversifiée et cohérente sans les coûts astronomiques.
|
| 27 |
+
|
| 28 |
+
---
|
| 29 |
+
|
| 30 |
+
## 🚀 Fonctionnalités Actuelles et Objectifs
|
| 31 |
+
|
| 32 |
+
### État Actuel
|
| 33 |
+
|
| 34 |
+
* **Compréhension du Langage Général :** Le modèle a été pré-entraîné sur **68 843 paires Question/Réponse**, lui permettant de comprendre une vaste gamme de sujets (histoire, géographie, sciences, technologie, etc.).
|
| 35 |
+
* **Capacités Émergentes :** Lam-6 montre des signes prometteurs de généralisation, capable d'aborder divers domaines même si la cohérence factuelle est encore en cours de stabilisation (ex: "la capitale du brésil est la capitale de la france et la capitale de la thailande est la capitale du japon est oslo." 😅). Ces "hallucinations" initiales sont une étape normale de l'apprentissage.
|
| 36 |
+
* **Vocabulaire Étendu :** Avec 14 073 tokens, Lam-6 dispose d'une base lexicale robuste pour des générations variées.
|
| 37 |
+
|
| 38 |
+
### Objectifs d'Entraînement
|
| 39 |
+
|
| 40 |
+
* **Stabilisation Factuelle :** Améliorer la précision des réponses grâce à des époques d'entraînement supplémentaires et l'optimisation des paramètres de génération.
|
| 41 |
+
* **Cohérence Sémantique :** Affiner la capacité de l'Attention Additive d'Aricate v4 pour maintenir le contexte et la pertinence des réponses.
|
| 42 |
+
* **Réduction des "Hallucinations" :** Réduire les mélanges conceptuels en renforçant les liens sémantiques corrects.
|
| 43 |
+
|
| 44 |
+
---
|
| 45 |
+
|
| 46 |
+
## 🛠️ Architecture d'Aricate v4 (Cœur de Lam-6)
|
| 47 |
+
|
| 48 |
+
Lam-6 est propulsé par l'architecture **Aricate v4**, conçue pour être performante et efficace :
|
| 49 |
+
|
| 50 |
+
* **Gated Recurrent Unit (GRU) :** Pour une gestion efficace de la mémoire séquentielle et une compréhension contextuelle.
|
| 51 |
+
* **Attention Additive (Bahdanau) :** Permet au modèle de se concentrer sur les parties les plus pertinentes de la question pour générer des réponses ciblées.
|
| 52 |
+
* **Cycle d'Entraînement Rapide :** Un Fine-Tuning de 40 000 lignes ne prend qu'environ une heure, permettant des itérations de développement agiles.
|
| 53 |
+
|
| 54 |
+
---
|
| 55 |
+
|
| 56 |
+
## 📈 Statistiques d'Entraînement
|
| 57 |
+
|
| 58 |
+
* **Taille du vocabulaire :** 14073 tokens 📖 (vs 13618 pour Lam-5)
|
| 59 |
+
* **Nombre de paires d'entraînement :** 68843 📊
|
| 60 |
+
* **Longueur maximale d'entrée (max_len) :** 72 tokens
|
| 61 |
+
* **Nombre de batches par époque :** 538 📦
|
| 62 |
+
|
| 63 |
+
---
|
| 64 |
+
|
| 65 |
+
## 🧪 Tests Actuels
|
| 66 |
+
|
| 67 |
+
Lam-6 est actuellement en phase de test sur **Discord**, où ses générations sont observées en temps réel. Les retours de ces tests sont essentiels pour guider les prochaines phases d'entraînement et d'optimisation.
|
| 68 |
+
|
| 69 |
+
---
|
| 70 |
+
|
| 71 |
+
## 🤝 Participation et Suivi
|
| 72 |
+
|
| 73 |
+
Ce projet est en cours de développement actif. Nous encourageons la communauté à suivre son évolution !
|
| 74 |
+
|
| 75 |
+
* **Suivez l'avancement !** Les mises à jour sur l'entraînement, les optimisations et les améliorations de cohérence de Lam-6 seront partagées ici.
|
| 76 |
+
|
| 77 |
+
**Soyez témoins de l'évolution de Lam-6 vers une intelligence semi-généraliste !** 🚀
|