4B Model

Description

Ce projet contient un modèle de langage de 4 milliards de paramètres basé sur une architecture Transformer.
Il est conçu pour des tâches de génération de texte et de raisonnement général.

Objectif

Génération de texte
Résolution de problèmes
Raisonnement logique
Expérimentations en IA

Architecture

Modèle Transformer de type decoder-only.

Embeddings de tokens
Couches d’attention multi-head
Réseaux feed-forward
Connexions résiduelles
Normalisation de couche

Entraînement

Apprentissage auto-régressif (next-token prediction)
Optimiseur type AdamW
Dataset composé de texte général, code et données structurées

Utilisation

Exemple (Python) :

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("model-name")
model = AutoModelForCausalLM.from_pretrained("model-name")

prompt = "Bonjour, explique-moi les matrices."
inputs = tokenizer(prompt, return_tensors="pt")

output = model.generate(**inputs, max_new_tokens=100)
print(tokenizer.decode(output[0]))

Downloads last month: -; Downloads are not tracked for this model. How to track

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support