Finisha-F-scratch
/

Lorias-v1

 language:
 - fr
 pipeline_tag: text-generation
+---
+# 🐺 Lorias-v1 : French Language Model From Scratch
+![Lorias](http://www.image-heberg.fr/files/17691653652758488912.webp)
+Bienvenue dans le dépôt officiel de **Lorias-v1**, un modèle de langage (LLM) de **1 milliard de paramètres**, entièrement conçu et pré-entraîné pour la langue française par **Clémence (Finisha)**.
+## 📌 Présentation du Projet
+Lorias-v1 représente une étape majeure dans la création de modèles souverains et spécialisés. Contrairement à de nombreux modèles qui se contentent d'un affinage (fine-tuning), Lorias-v1 a été bâti **"from scratch"**, avec une architecture optimisée et un **tokenizer propriétaire** spécifiquement entraîné sur des corpus francophones.
+* **Développeuse :** Clémence (Finisha)
+* **Taille :** 1 Milliard de paramètres
+* **Langue :** Français 🇫🇷
+* **Statut :** Base Model (Pre-trained)
+---
+## 🚀 Caractéristiques Techniques
+### 🏗️ Architecture & Tokenisation
+* **Architecture :** Transformer decoder-only optimisé.
+* **Tokenizer :** Custom French Tokenizer, conçu pour capturer les nuances morphologiques de la langue française et réduire la segmentation abusive des mots complexes.
+* **Vocabulaire :** Optimisé pour maximiser l'efficacité du contexte en français.
+### 🧠 Capacités Actuelles
+Le modèle est actuellement en phase de **post-pré-entraînement**. Ses performances se concentrent sur :
+* **Maîtrise Syntaxique :** Une excellente compréhension de la structure des phrases et de la grammaire française.
+* **Fluidité :** Capacité à générer des séquences de mots cohérentes sur le plan structurel.
+* **Connecteurs Logiques :** Utilisation de charnières linguistiques pour lier les concepts.
+> **Note importante :** En tant que modèle de base non affiné, Lorias-v1 se concentre sur la structure. La cohérence sémantique profonde et la spécialisation aux instructions seront apportées lors des prochaines phases de **Fine-tuning (SFT)**.
+---
+## 📊 Performances & Comportement
+Actuellement, Lorias-v1 montre une propension à générer des listes terminologiques reliées par des connecteurs inattendus. Ce comportement est typique d'un modèle de 1B qui a parfaitement assimilé la **forme** de la langue avant d'en stabiliser le **fond**.
+| Aspect | Statut |
+| --- | --- |
+| **Syntaxe** | ✅ Excellent |
+| **Orthographe** | ✅ Maîtrisé |
+| **Sémantique** | 🔄 En cours (via futur Fine-tuning) |
+| **Logique métier** | 📅 Prévu pour v1.1 |
+---
+## 🛠️ Utilisation (Roadmap)
+1. **Phase 1 (Actuelle) :** Exploration de la structure linguistique et complétion de texte.
+2. **Phase 2 (Prochainement) :** Fine-tuning supervisé (Instruct) pour aligner les réponses aux intentions des utilisateurs.
+3. **Phase 3 :** Optimisation de la sémantique et réduction des hallucinations structurelles.
+---
+## 🤝 Contribuer & Contact
+Le projet Lorias est en constante évolution. Si vous souhaitez échanger sur l'architecture ou les données d'entraînement :
+* **Développeuse :** Clémence (Finisha)
+* **Objectif :** Créer un écosystème de modèles performants et accessibles pour la communauté francophone.
+---
+**Fait avec ❤️ par Clémence.**