Clemylia commited on
Commit
abbf276
·
verified ·
1 Parent(s): 390087d

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +69 -1
README.md CHANGED
@@ -6,4 +6,72 @@ license: other
6
  language:
7
  - fr
8
  pipeline_tag: text-generation
9
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6
  language:
7
  - fr
8
  pipeline_tag: text-generation
9
+ ---
10
+ # 🐺 Lorias-v1 : French Language Model From Scratch
11
+
12
+ ![Lorias](http://www.image-heberg.fr/files/17691653652758488912.webp)
13
+
14
+ Bienvenue dans le dépôt officiel de **Lorias-v1**, un modèle de langage (LLM) de **1 milliard de paramètres**, entièrement conçu et pré-entraîné pour la langue française par **Clémence (Finisha)**.
15
+
16
+ ## 📌 Présentation du Projet
17
+
18
+ Lorias-v1 représente une étape majeure dans la création de modèles souverains et spécialisés. Contrairement à de nombreux modèles qui se contentent d'un affinage (fine-tuning), Lorias-v1 a été bâti **"from scratch"**, avec une architecture optimisée et un **tokenizer propriétaire** spécifiquement entraîné sur des corpus francophones.
19
+
20
+ * **Développeuse :** Clémence (Finisha)
21
+ * **Taille :** 1 Milliard de paramètres
22
+ * **Langue :** Français 🇫🇷
23
+ * **Statut :** Base Model (Pre-trained)
24
+
25
+ ---
26
+
27
+ ## 🚀 Caractéristiques Techniques
28
+
29
+ ### 🏗️ Architecture & Tokenisation
30
+
31
+ * **Architecture :** Transformer decoder-only optimisé.
32
+ * **Tokenizer :** Custom French Tokenizer, conçu pour capturer les nuances morphologiques de la langue française et réduire la segmentation abusive des mots complexes.
33
+ * **Vocabulaire :** Optimisé pour maximiser l'efficacité du contexte en français.
34
+
35
+ ### 🧠 Capacités Actuelles
36
+
37
+ Le modèle est actuellement en phase de **post-pré-entraînement**. Ses performances se concentrent sur :
38
+
39
+ * **Maîtrise Syntaxique :** Une excellente compréhension de la structure des phrases et de la grammaire française.
40
+ * **Fluidité :** Capacité à générer des séquences de mots cohérentes sur le plan structurel.
41
+ * **Connecteurs Logiques :** Utilisation de charnières linguistiques pour lier les concepts.
42
+
43
+ > **Note importante :** En tant que modèle de base non affiné, Lorias-v1 se concentre sur la structure. La cohérence sémantique profonde et la spécialisation aux instructions seront apportées lors des prochaines phases de **Fine-tuning (SFT)**.
44
+
45
+ ---
46
+
47
+ ## 📊 Performances & Comportement
48
+
49
+ Actuellement, Lorias-v1 montre une propension à générer des listes terminologiques reliées par des connecteurs inattendus. Ce comportement est typique d'un modèle de 1B qui a parfaitement assimilé la **forme** de la langue avant d'en stabiliser le **fond**.
50
+
51
+ | Aspect | Statut |
52
+ | --- | --- |
53
+ | **Syntaxe** | ✅ Excellent |
54
+ | **Orthographe** | ✅ Maîtrisé |
55
+ | **Sémantique** | 🔄 En cours (via futur Fine-tuning) |
56
+ | **Logique métier** | 📅 Prévu pour v1.1 |
57
+
58
+ ---
59
+
60
+ ## 🛠️ Utilisation (Roadmap)
61
+
62
+ 1. **Phase 1 (Actuelle) :** Exploration de la structure linguistique et complétion de texte.
63
+ 2. **Phase 2 (Prochainement) :** Fine-tuning supervisé (Instruct) pour aligner les réponses aux intentions des utilisateurs.
64
+ 3. **Phase 3 :** Optimisation de la sémantique et réduction des hallucinations structurelles.
65
+
66
+ ---
67
+
68
+ ## 🤝 Contribuer & Contact
69
+
70
+ Le projet Lorias est en constante évolution. Si vous souhaitez échanger sur l'architecture ou les données d'entraînement :
71
+
72
+ * **Développeuse :** Clémence (Finisha)
73
+ * **Objectif :** Créer un écosystème de modèles performants et accessibles pour la communauté francophone.
74
+
75
+ ---
76
+
77
+ **Fait avec ❤️ par Clémence.**