4B Model
Description
Ce projet contient un modèle de langage de 4 milliards de paramètres basé sur une architecture Transformer.
Il est conçu pour des tâches de génération de texte et de raisonnement général.
Objectif
- Génération de texte
- Résolution de problèmes
- Raisonnement logique
- Expérimentations en IA
Architecture
Modèle Transformer de type decoder-only.
- Embeddings de tokens
- Couches d’attention multi-head
- Réseaux feed-forward
- Connexions résiduelles
- Normalisation de couche
Entraînement
- Apprentissage auto-régressif (next-token prediction)
- Optimiseur type AdamW
- Dataset composé de texte général, code et données structurées
Utilisation
Exemple (Python) :
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("model-name")
model = AutoModelForCausalLM.from_pretrained("model-name")
prompt = "Bonjour, explique-moi les matrices."
inputs = tokenizer(prompt, return_tensors="pt")
output = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(output[0]))
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support