LLM-CLEM
/

Lam-3

@@ -63,98 +63,25 @@ ou du moins, nous ne sommes pas responsables des conséquences, si quelq'un est
 exemple de code d'utilisation :
 ```
- # ==============================================================================
-# 1. INSTALLATION ET IMPORTS
-# ==============================================================================
-# Accelerate n'est pas strictement nécessaire pour la simple inférence CPU
-!pip install -q transformers torch
-import torch
-from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
-# ==============================================================================
-# 2. DÉFINITION DES CONSTANTES ET CHARGEMENT
-# ==============================================================================
-MODEL_NAME = "Clemylia/Lam-3" # Votre modèle finetuné
-# Définir explicitement l'appareil sur CPU
-DEVICE = "cpu"
-# Chargement du modèle sur CPU peut prendre du temps et consommer beaucoup de RAM
-print(f"Chargement du modèle {MODEL_NAME} sur {DEVICE}...")
-# Chargement du tokenizer
-tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
-tokenizer.pad_token = tokenizer.eos_token
-# Chargement du modèle. Nous chargeons en float32 (par défaut) pour la compatibilité CPU.
-# Nous mappons explicitement sur le CPU.
-model = AutoModelForCausalLM.from_pretrained(
-    MODEL_NAME,
-    torch_dtype=torch.float32, # float32 est standard pour le CPU
-    device_map=DEVICE          # Mappage explicite sur le CPU
-).to(DEVICE) # Assurez-vous que le modèle final est sur CPU
-# ==============================================================================
-# 3. PRÉPARATION DE LA REQUÊTE ET GÉNÉRATION (Méthode manuelle)
-# ==============================================================================
-QUESTION = "Qui es-tu ? Présente toi"
-prompt = f"### Instruction:\{QUESTION}\n\n### Response:\n"
-print("\n--- Génération de la réponse (Manuelle) ---")
-# Tokenization du prompt et placement sur l'appareil (CPU)
-inputs = tokenizer(prompt, return_tensors="pt").to(DEVICE)
-# Génération
-output_tokens = model.generate(
-    **inputs,
-    max_new_tokens=100,
-    do_sample=True,
-    temperature=0.7,
-    top_k=50,
-    eos_token_id=tokenizer.eos_token_id,
-)
-# Décodage
-generated_text = tokenizer.decode(output_tokens[0], skip_special_tokens=True)
-assistant_prefix = "\n\n### Response:\n"
-if assistant_prefix in generated_text:
-    clean_response = generated_text.split(assistant_prefix)[-1].strip()
-else:
-    clean_response = generated_text.replace(QUESTION, "").strip()
-print(f"\n🧠 Réponse de {MODEL_NAME} (Manuelle) :\n")
-print(clean_response)
-print("\n-------------------------------")
-# ==============================================================================
-# 4. UTILISATION DE PIPELINE (CORRIGÉE et simplifiée pour CPU)
-# ==============================================================================
-print("\nTest rapide avec le pipeline (méthode simplifiée) :")
-# Création du pipeline. Nous pouvons laisser le pipeline détecter le CPU
-# ou forcer device=-1 pour le CPU (contrairement à la V1, ici nous n'avons pas utilisé
-# device_map="auto" donc c'est plus sûr de le spécifier).
-generator = pipeline(
-    "text-generation",
-    model=model,
-    tokenizer=tokenizer,
-    #device=-1 # -1 force l'utilisation du CPU # Removed this line
-)
-# Le pipeline utilise le format de chat par défaut pour les modèles de type 'Chat'
-result = generator(
-    QUESTION,
-    max_new_tokens=100,
-    do_sample=True,
-    temperature=0.7
-)
-# Affichage du résultat nettoyé par le pipeline
-print(f"\n🧠 Réponse de {MODEL_NAME} (Pipeline) :\n")
-print(result[0]['generated_text'])
-print("\n-------------------------------")
 ```
 🎉 **Lam-3 est créatif** : Lam-3 peut inventer des mots et des synthaxes comme tenaire, c'est totalement normal, et est même une fonctionnalité. En tant que SLM il n'est pas conçu pour etre chatgpt.

 exemple de code d'utilisation :
 ```
+# Load model directly
+from transformers import AutoTokenizer, AutoModelForCausalLM
+tokenizer = AutoTokenizer.from_pretrained("Clemylia/Lam-3")
+model = AutoModelForCausalLM.from_pretrained("Clemylia/Lam-3")
+messages = [
+    {"role": "user", "content": "Qui es-tu ?"},
+]
+inputs = tokenizer.apply_chat_template(
+    messages,
+    add_generation_prompt=True,
+    tokenize=True,
+    return_dict=True,
+    return_tensors="pt",
+).to(model.device)
+outputs = model.generate(**inputs, max_new_tokens=150, do_sample=True, temperature=0.7, repetition_penalty=1.2)
+print(tokenizer.decode(outputs[0][inputs["input_ids"].shape[-1]:]))
+print('fin')
 ```
 🎉 **Lam-3 est créatif** : Lam-3 peut inventer des mots et des synthaxes comme tenaire, c'est totalement normal, et est même une fonctionnalité. En tant que SLM il n'est pas conçu pour etre chatgpt.