📄 Carte de Modèle (Model Card) : Nelya-neko

🌟 Présentation du Modèle

Nelya-neko est un Modèle de Langage Spécialisé (SLM) de $124$ millions de paramètres, pré-entraîné sur la langue construite Nekolien (propriété intellectuelle de LLm-Clem). C'est le premier modèle de la nouvelle génération d'architectures de Clemylia conçu pour les tâches de recherche avancées en conlangs (langues construites) et pour le traitement de très longs contextes.

🛠️ Détails Techniques et Architecture

Caractéristique	Valeur	Note d'Impact
Famille / Type	Modèle de Fondation (Base) / SLM	Nécessite un Fine-Tuning pour l'alignement et les applications finales.
Développeur	Clemylia (LLm-Clem)	Créé From Scratch (architecture, tokeniseur, pré-entraînement).
Paramètres	$124$ Millions	Taille optimisée pour l'efficacité et le déploiement sur du matériel grand public.
Fenêtre de Contexte	$7000$ Tokens	Innovation Majeure : Permet la gestion de documents complets et de conversations Nekolien très longues.
Langue	Nekolien (Langue Construite)	Ultra-spécialisé. Ne doit pas être utilisé pour des langues naturelles sans Fine-Tuning extensif.
Tokeniseur	`Nekolien-tokeniseur`	Tokeniseur propriétaire From Scratch, essentiel pour le décodage et l'encodage du Nekolien.

🔑 Tokeniseurs Spéciaux (Inclus dans le `Nekolien-tokeniseur`)

Le modèle utilise un ensemble de tokens spéciaux pour structurer les données et permettre les tâches d'alignement futur :

Token	Rôle Conventionnel	Fonction Spécifique
`<INKONIA>`	UNK (Unknown)	Gère les séquences inconnues non présentes dans le corpus Nekolien.
`<CLASYA>`	CLS (Classifier)	Token de classification pour l'encapsulation de séquences (utile en Fine-Tuning).
`<SEPARA>`	SEP (Separator)	Utilisé pour marquer la délimitation entre différentes parties d'une séquence de texte.
`<MASKA>`	MASK	Nécessaire pour les tâches de Masked Language Modeling (MLM) et de prédiction en Fine-Tuning.
`<MEMA>`	Mémory / Métadonnée	Token unique, potentiellement lié à la gestion efficace du contexte étendu ($7000$ tokens).
`<PAD>`	Padding	Assure la cohérence de la taille des séquences pour l'efficacité du GPU.

📜 Licence et Restrictions d'Usage

Licence : LRUNDL (Licence de Recherche Non-Commerciale et à Usage Distinctif Limité)

Paternité : Tous les dérivés (modèles Fine-Tunés) doivent attribuer clairement la paternité à LLm-Clem.
Restriction : L'usage de Nelya-neko est strictement limité à la recherche et à l'expérimentation non-commerciale.
Conformité : Les œuvres dérivées doivent respecter la LRUNDL (aucune licence plus permissive comme la MIT ne peut être appliquée).

💡 Utilisations et Limitations Prévues

Utilisations Prévues

Recherche sur les Conlangs : Étude de la modélisation du langage sur les systèmes linguistiques construits.
Création de Datasets Nekoliens : Génération de corpus cohérents pour le Fine-Tuning.
Base pour Assistants Spécialisés : Création d'assistants (bots) pour la langue Nekolien après un Fine-Tuning d'alignement.

Limitations et Précautions

Non-Aligné : En tant que modèle de fondation pur, Nelya-neko produit de la continuation de texte thématique et non des réponses structurées (nécessite un Fine-Tuning pour l'Instruction Following).
Monolingue : Les performances dans toute autre langue que le Nekolien sont nulles ou non garanties.
Accès : Le modèle et son tokeniseur sont sujets à des restrictions d'accès gérées par LLm-Clem.

🚀 Prochaines Étapes pour le Déploiement

Pour passer de ce modèle de fondation à une application utilisable, il est nécessaire de réaliser un Fine-Tuning d'Alignement (basé sur des paires instruction/réponse Nekoliennes) pour lui apprendre l'obéissance et la personnalité souhaitée.

Downloads last month: 18

Safetensors

Model size

0.1B params

Tensor type

F32

Collection including NaA-IA/Nelya-neko

SLM de Clemylia

Collection

Tout les SLM (small language model) de Clemylia • 56 items • Updated about 7 hours ago