Spaces:

jojonocode
/

Strive-AI-ewe-3B

Sleeping

App Files Files Community

jojonocode commited on 26 days ago

Commit

1cb924f

verified ·

1 Parent(s): ebbe976

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -28

app.py CHANGED Viewed

@@ -11,11 +11,10 @@ HF_TOKEN = os.environ.get("HF_TOKEN")
 print("🚀 Chargement de Strive V6 (CPU Stable)...")
-# 1. Tokenizer (Configuré pour Gemma-2)
 tokenizer = AutoTokenizer.from_pretrained(LORA_ADAPTER, token=HF_TOKEN)
-tokenizer.padding_side = 'right'
-# 2. Modèle
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
     torch_dtype=torch.float32,
@@ -34,23 +33,17 @@ Créateur : Elisée Joel ADZONYA. Équipe : Yavin MITEKOR, Mariette HOUDI, Chris
 DIRECTIVES : Réponds exclusivement en langue Ewe (Gbe). Sois direct et concis."""
 def generate_response(message, history):
-    # Construction propre du prompt Gemma-2
     full_prompt = f"<start_of_turn>system\n{SYSTEM_PROMPT}<end_of_turn>\n"
-    # Gestion de l'historique (Prend les 2 derniers échanges)
-    for interaction in history[-2:]:
-        # Gradio peut envoyer des dicts ou des listes selon la version
-        if isinstance(interaction, dict):
-            user_text = interaction.get("user", "")
-            bot_text = interaction.get("options", {}).get("value", "") # Dépend de la version Gradio
-            if not bot_text: bot_text = interaction.get("content", "")
-        else:
-            user_text, bot_text = interaction
-        full_prompt += f"<start_of_turn>user\n{user_text}<end_of_turn>\n"
-        full_prompt += f"<start_of_turn>model\n{bot_text}<end_of_turn>\n"
-    # Message actuel
     full_prompt += f"<start_of_turn>user\n{message}<end_of_turn>\n<start_of_turn>model\n"
     # Inférence
@@ -59,30 +52,24 @@ def generate_response(message, history):
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
-            max_new_tokens=200, # Augmenté pour éviter les réponses de 1 mot
-            temperature=0.4,    # Un peu plus de créativité pour éviter les réponses figées
             repetition_penalty=1.2,
             do_sample=True,
             pad_token_id=tokenizer.eos_token_id,
             eos_token_id=tokenizer.eos_token_id
         )
-    # Décodage précis (en sautant le prompt)
-    raw_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
-    # On nettoie pour ne garder que la réponse après le dernier message utilisateur
-    # (Gemma-2 peut parfois répéter le prompt si mal géré)
     response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
     return response.strip()
-# --- INTERFACE ---
-# Utilisation de gr.Chatbot avec format 'messages' pour plus de stabilité
 demo = gr.ChatInterface(
     fn=generate_response,
-    type="messages", # Crucial pour les nouvelles versions de Gradio
     title="💎 Strive AI V6 - Officiel (CPU)",
-    description="Intelligence experte en Ewe. Si la réponse met du temps à venir, c'est normal sur CPU gratuit.",
     examples=["Ame kae nye Elisée ADZONYA?", "Lomé nye afi ka?", "Nàkplɔ miam aleke nàwɔ nàde ŋkɔ le sukuu me."],
 )

 print("🚀 Chargement de Strive V6 (CPU Stable)...")
+# 1. Tokenizer
 tokenizer = AutoTokenizer.from_pretrained(LORA_ADAPTER, token=HF_TOKEN)
+# 2. Modèle (Optimisé pour la RAM du Space gratuit)
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
     torch_dtype=torch.float32,
 DIRECTIVES : Réponds exclusivement en langue Ewe (Gbe). Sois direct et concis."""
 def generate_response(message, history):
+    # Formatage propre du prompt Gemma-2 sans l'argument 'type'
     full_prompt = f"<start_of_turn>system\n{SYSTEM_PROMPT}<end_of_turn>\n"
+    # Gestion de l'historique format standard Gradio [[user, bot], ...]
+    if history:
+        for user_msg, bot_msg in history[-2:]: # On garde les 2 derniers échanges
+            if user_msg and bot_msg:
+                full_prompt += f"<start_of_turn>user\n{user_msg}<end_of_turn>\n"
+                full_prompt += f"<start_of_turn>model\n{bot_msg}<end_of_turn>\n"
+    # Nouveau message
     full_prompt += f"<start_of_turn>user\n{message}<end_of_turn>\n<start_of_turn>model\n"
     # Inférence
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
+            max_new_tokens=150,
+            temperature=0.5,       # Un peu plus haut pour éviter les réponses bloquées
             repetition_penalty=1.2,
             do_sample=True,
             pad_token_id=tokenizer.eos_token_id,
             eos_token_id=tokenizer.eos_token_id
         )
+    # Décodage en ignorant le prompt de départ
     response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
     return response.strip()
+# --- INTERFACE (Version sans l'argument 'type') ---
 demo = gr.ChatInterface(
     fn=generate_response,
     title="💎 Strive AI V6 - Officiel (CPU)",
+    description="Intelligence experte en Ewe. Créateur : Elisée Joel ADZONYA.",
     examples=["Ame kae nye Elisée ADZONYA?", "Lomé nye afi ka?", "Nàkplɔ miam aleke nàwɔ nàde ŋkɔ le sukuu me."],
 )