4B Model

Description

Ce projet contient un modèle de langage de 4 milliards de paramètres basé sur une architecture Transformer.
Il est conçu pour des tâches de génération de texte et de raisonnement général.

Objectif

  • Génération de texte
  • Résolution de problèmes
  • Raisonnement logique
  • Expérimentations en IA

Architecture

Modèle Transformer de type decoder-only.

  • Embeddings de tokens
  • Couches d’attention multi-head
  • Réseaux feed-forward
  • Connexions résiduelles
  • Normalisation de couche

Entraînement

  • Apprentissage auto-régressif (next-token prediction)
  • Optimiseur type AdamW
  • Dataset composé de texte général, code et données structurées

Utilisation

Exemple (Python) :

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("model-name")
model = AutoModelForCausalLM.from_pretrained("model-name")

prompt = "Bonjour, explique-moi les matrices."
inputs = tokenizer(prompt, return_tensors="pt")

output = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(output[0]))
Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support