Update README.md
Browse files
README.md
CHANGED
|
@@ -6,4 +6,72 @@ license: other
|
|
| 6 |
language:
|
| 7 |
- fr
|
| 8 |
pipeline_tag: text-generation
|
| 9 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 6 |
language:
|
| 7 |
- fr
|
| 8 |
pipeline_tag: text-generation
|
| 9 |
+
---
|
| 10 |
+
# 🐺 Lorias-v1 : French Language Model From Scratch
|
| 11 |
+
|
| 12 |
+

|
| 13 |
+
|
| 14 |
+
Bienvenue dans le dépôt officiel de **Lorias-v1**, un modèle de langage (LLM) de **1 milliard de paramètres**, entièrement conçu et pré-entraîné pour la langue française par **Clémence (Finisha)**.
|
| 15 |
+
|
| 16 |
+
## 📌 Présentation du Projet
|
| 17 |
+
|
| 18 |
+
Lorias-v1 représente une étape majeure dans la création de modèles souverains et spécialisés. Contrairement à de nombreux modèles qui se contentent d'un affinage (fine-tuning), Lorias-v1 a été bâti **"from scratch"**, avec une architecture optimisée et un **tokenizer propriétaire** spécifiquement entraîné sur des corpus francophones.
|
| 19 |
+
|
| 20 |
+
* **Développeuse :** Clémence (Finisha)
|
| 21 |
+
* **Taille :** 1 Milliard de paramètres
|
| 22 |
+
* **Langue :** Français 🇫🇷
|
| 23 |
+
* **Statut :** Base Model (Pre-trained)
|
| 24 |
+
|
| 25 |
+
---
|
| 26 |
+
|
| 27 |
+
## 🚀 Caractéristiques Techniques
|
| 28 |
+
|
| 29 |
+
### 🏗️ Architecture & Tokenisation
|
| 30 |
+
|
| 31 |
+
* **Architecture :** Transformer decoder-only optimisé.
|
| 32 |
+
* **Tokenizer :** Custom French Tokenizer, conçu pour capturer les nuances morphologiques de la langue française et réduire la segmentation abusive des mots complexes.
|
| 33 |
+
* **Vocabulaire :** Optimisé pour maximiser l'efficacité du contexte en français.
|
| 34 |
+
|
| 35 |
+
### 🧠 Capacités Actuelles
|
| 36 |
+
|
| 37 |
+
Le modèle est actuellement en phase de **post-pré-entraînement**. Ses performances se concentrent sur :
|
| 38 |
+
|
| 39 |
+
* **Maîtrise Syntaxique :** Une excellente compréhension de la structure des phrases et de la grammaire française.
|
| 40 |
+
* **Fluidité :** Capacité à générer des séquences de mots cohérentes sur le plan structurel.
|
| 41 |
+
* **Connecteurs Logiques :** Utilisation de charnières linguistiques pour lier les concepts.
|
| 42 |
+
|
| 43 |
+
> **Note importante :** En tant que modèle de base non affiné, Lorias-v1 se concentre sur la structure. La cohérence sémantique profonde et la spécialisation aux instructions seront apportées lors des prochaines phases de **Fine-tuning (SFT)**.
|
| 44 |
+
|
| 45 |
+
---
|
| 46 |
+
|
| 47 |
+
## 📊 Performances & Comportement
|
| 48 |
+
|
| 49 |
+
Actuellement, Lorias-v1 montre une propension à générer des listes terminologiques reliées par des connecteurs inattendus. Ce comportement est typique d'un modèle de 1B qui a parfaitement assimilé la **forme** de la langue avant d'en stabiliser le **fond**.
|
| 50 |
+
|
| 51 |
+
| Aspect | Statut |
|
| 52 |
+
| --- | --- |
|
| 53 |
+
| **Syntaxe** | ✅ Excellent |
|
| 54 |
+
| **Orthographe** | ✅ Maîtrisé |
|
| 55 |
+
| **Sémantique** | 🔄 En cours (via futur Fine-tuning) |
|
| 56 |
+
| **Logique métier** | 📅 Prévu pour v1.1 |
|
| 57 |
+
|
| 58 |
+
---
|
| 59 |
+
|
| 60 |
+
## 🛠️ Utilisation (Roadmap)
|
| 61 |
+
|
| 62 |
+
1. **Phase 1 (Actuelle) :** Exploration de la structure linguistique et complétion de texte.
|
| 63 |
+
2. **Phase 2 (Prochainement) :** Fine-tuning supervisé (Instruct) pour aligner les réponses aux intentions des utilisateurs.
|
| 64 |
+
3. **Phase 3 :** Optimisation de la sémantique et réduction des hallucinations structurelles.
|
| 65 |
+
|
| 66 |
+
---
|
| 67 |
+
|
| 68 |
+
## 🤝 Contribuer & Contact
|
| 69 |
+
|
| 70 |
+
Le projet Lorias est en constante évolution. Si vous souhaitez échanger sur l'architecture ou les données d'entraînement :
|
| 71 |
+
|
| 72 |
+
* **Développeuse :** Clémence (Finisha)
|
| 73 |
+
* **Objectif :** Créer un écosystème de modèles performants et accessibles pour la communauté francophone.
|
| 74 |
+
|
| 75 |
+
---
|
| 76 |
+
|
| 77 |
+
**Fait avec ❤️ par Clémence.**
|