Eleonord
/

Melta27-Animaux

 base_model:
 - Clemylia/Melta27
 pipeline_tag: text-generation
+---
+# 📄 Documentation du Modèle Eleonord/Melta27-Animaux
+## 🦁 Aperçu du Modèle
+**Melta27-Animaux** est une version affinée (fine-tuned) du modèle de langage de petite taille (SLM) **Melta27** créé par Clemylia, basé sur l'architecture propriétaire **Aricate v4**.
+Ce modèle a été entraîné spécifiquement sur la dataset **Eleonord/Animaux** pour étendre son vocabulaire et améliorer sa capacité à générer des réponses cohérentes sur le thème des **animaux**.
+  * **Modèle de base :** Clemylia/Melta27
+  * **Architecture :** Aricate v4***
+  * **Dataset d'entraînement (Fine-Tuning) :** Eleonord/Animaux
+## ⚙️ Configuration Technique
+Le modèle conserve les hyperparamètres de l'architecture Aricate v4 de base, mais avec un vocabulaire étendu.
+| Paramètre | Valeur | Description |
+| :--- | :--- | :--- |
+| `vocab_size` | (Automatique) | **Taille du vocabulaire étendue**, incluant le vocabulaire de base de Melta27 plus les mots de la dataset Eleonord/Animaux. |
+| `embedding_dim` | 64 | Dimension de la couche d'Embedding. |
+| `hidden_dim` | 128 | Dimension cachée du réseau GRU. |
+| `num_layers` | 2 | Nombre de couches récurrentes (GRU). |
+## 🚀 Utilisation du Modèle pour la Génération
+Puisque ce modèle utilise l'architecture Aricate v4 et un tokenizer personnalisé (`aricate_tokenizer.txt`), il ne peut pas être chargé directement par les classes `AutoModel` ou `AutoTokenizer` de la librairie Hugging Face `transformers`.
+Tu dois utiliser la structure de classe `AricateModel` et `WordTokenizer` fournie par l'architecture.
+### 1\. Chargement du Modèle et du Tokenizer
+Pour charger le modèle et le tokenizer à partir de ce dépôt, tu peux utiliser les fonctions de la librairie `huggingface_hub` :
+```python
+import torch
+import json
+from huggingface_hub import hf_hub_download
+# Assurez-vous d'avoir les classes AricateModel et WordTokenizer définies dans votre script
+from votre_script_aricate import AricateModel, WordTokenizer
+# --- A. Téléchargement des fichiers ---
+REPO_ID = "Eleonord/Melta27-Animaux"
+# Téléchargement de la configuration
+config_path = hf_hub_download(repo_id=REPO_ID, filename="config.json")
+with open(config_path, 'r') as f:
+    config = json.load(f)
+# Téléchargement du tokenizer
+tokenizer_path = hf_hub_download(repo_id=REPO_ID, filename="aricate_tokenizer.txt")
+with open(tokenizer_path, 'r', encoding='utf-8') as f:
+    vocab_data = json.load(f)
+# Téléchargement des poids (safetensors)
+weights_path = hf_hub_download(repo_id=REPO_ID, filename="model.safetensors")
+# --- B. Initialisation ---
+# 1. Initialisation du Tokenizer avec le vocabulaire téléchargé
+tokenizer = WordTokenizer(existing_vocab=vocab_data)
+# 2. Initialisation du Modèle
+model = AricateModel(**config)
+# 3. Chargement des poids
+pretrained_state_dict = torch.load(weights_path, map_location="cpu")
+model.load_state_dict(pretrained_state_dict)
+model.eval()
+print(f"Modèle {REPO_ID} chargé et prêt à l'emploi.")
+```
+### 2\. Génération de Séquence
+Utilise la fonction `generate_sequence_beam` (définie dans ton script d'entraînement) pour interroger le modèle.
+```python
+# Exemple d'utilisation (en supposant que generate_sequence_beam est défini)
+question = "Quel animal dort debout ?"
+max_len_input = 20 # Longueur maximale des séquences d'entrée utilisées lors de l'entraînement
+response = generate_sequence_beam(
+    model=model,
+    tokenizer=tokenizer,
+    question=question,
+    max_length=30,
+    max_len_input=max_len_input,
+    beam_size=3
+)
+print(f"Question : {question}")
+print(f"Réponse générée : {response}")
+```
+## 📝 Licence et Auteur
+  * **Licence :** (MIT)
+  * **Auteur du Fine-Tuning :** Eleonord
+  * **Architecture de base :** Aricate v4 par Clemylia