🐺 Lorias-v1 : French Language Model From Scratch

Lorias

Bienvenue dans le dépôt officiel de Lorias-v1, un modèle de langage (LLM) de 1 milliard de paramètres, entièrement conçu et pré-entraîné pour la langue française par Clémence (Finisha).

📌 Présentation du Projet

Lorias-v1 représente une étape majeure dans la création de modèles souverains et spécialisés. Contrairement à de nombreux modèles qui se contentent d'un affinage (fine-tuning), Lorias-v1 a été bâti "from scratch", avec une architecture optimisée et un tokenizer propriétaire spécifiquement entraîné sur des corpus francophones.

  • Développeuse : Clémence (Finisha)
  • Taille : 1 Milliard de paramètres
  • Langue : Français 🇫🇷
  • Statut : Base Model (Pre-trained)

🚀 Caractéristiques Techniques

🏗️ Architecture & Tokenisation

  • Architecture : Transformer decoder-only optimisé.
  • Tokenizer : Custom French Tokenizer, conçu pour capturer les nuances morphologiques de la langue française et réduire la segmentation abusive des mots complexes.
  • Vocabulaire : Optimisé pour maximiser l'efficacité du contexte en français.

🧠 Capacités Actuelles

Le modèle est actuellement en phase de post-pré-entraînement. Ses performances se concentrent sur :

  • Maîtrise Syntaxique : Une excellente compréhension de la structure des phrases et de la grammaire française.
  • Fluidité : Capacité à générer des séquences de mots cohérentes sur le plan structurel.
  • Connecteurs Logiques : Utilisation de charnières linguistiques pour lier les concepts.

Note importante : En tant que modèle de base non affiné, Lorias-v1 se concentre sur la structure. La cohérence sémantique profonde et la spécialisation aux instructions seront apportées lors des prochaines phases de Fine-tuning (SFT).


📊 Performances & Comportement

Actuellement, Lorias-v1 montre une propension à générer des listes terminologiques reliées par des connecteurs inattendus. Ce comportement est typique d'un modèle de 1B qui a parfaitement assimilé la forme de la langue avant d'en stabiliser le fond.

Aspect Statut
Syntaxe ✅ Excellent
Orthographe ✅ Maîtrisé
Sémantique 🔄 En cours (via futur Fine-tuning)
Logique métier 📅 Prévu pour v1.1

🛠️ Utilisation (Roadmap)

  1. Phase 1 (Actuelle) : Exploration de la structure linguistique et complétion de texte.
  2. Phase 2 (Prochainement) : Fine-tuning supervisé (Instruct) pour aligner les réponses aux intentions des utilisateurs.
  3. Phase 3 : Optimisation de la sémantique et réduction des hallucinations structurelles.

🤝 Contribuer & Contact

Le projet Lorias est en constante évolution. Si vous souhaitez échanger sur l'architecture ou les données d'entraînement :

  • Développeuse : Clémence (Finisha)
  • Objectif : Créer un écosystème de modèles performants et accessibles pour la communauté francophone.

Fait avec ❤️ par Clémence.

Downloads last month
43
Safetensors
Model size
1.0B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support