Spaces:

jojonocode
/

Strive-AI-ewe-3B

Sleeping

App Files Files Community

jojonocode commited on 12 days ago

Commit

ebbe976

verified ·

1 Parent(s): cae091c

Update app.py

Browse files

Files changed (1) hide show

app.py +38 -20

app.py CHANGED Viewed

@@ -5,29 +5,28 @@ from transformers import AutoModelForCausalLM, AutoTokenizer
 from peft import PeftModel
 # --- CONFIGURATION ---
-# On utilise la version non-quantifiée (ou on la charge sans 4bit)
 BASE_MODEL = "unsloth/gemma-2-2b-it"
 LORA_ADAPTER = "jojonocode/Strive-Ewe-Expert-Gemma-2b-V6-LoRA"
 HF_TOKEN = os.environ.get("HF_TOKEN")
-print("🚀 Chargement de Strive V6 en mode CPU Stable...")
-# 1. Tokenizer
 tokenizer = AutoTokenizer.from_pretrained(LORA_ADAPTER, token=HF_TOKEN)
-# 2. Chargement du modèle optimisé pour CPU (SANS bitsandbytes)
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
-    torch_dtype=torch.float32, # CPU standard
-    device_map="cpu",          # On force le CPU pour éviter l'erreur 139
     token=HF_TOKEN,
-    low_cpu_mem_usage=True,    # Optimisation cruciale pour la RAM
     trust_remote_code=True
 )
-# 3. Injection de l'adaptateur V6
 model = PeftModel.from_pretrained(model, LORA_ADAPTER, token=HF_TOKEN)
-model = model.to("cpu")
 model.eval()
 SYSTEM_PROMPT = """Tu es Strive AI, expert de la culture Ewe et du Togo.
@@ -35,37 +34,56 @@ Créateur : Elisée Joel ADZONYA. Équipe : Yavin MITEKOR, Mariette HOUDI, Chris
 DIRECTIVES : Réponds exclusivement en langue Ewe (Gbe). Sois direct et concis."""
 def generate_response(message, history):
-    # Formatage du prompt Gemma-2
     full_prompt = f"<start_of_turn>system\n{SYSTEM_PROMPT}<end_of_turn>\n"
-    # Historique réduit pour économiser la RAM
-    if history:
-        for user_msg, bot_msg in history[-1:]:
-            full_prompt += f"<start_of_turn>user\n{user_msg}<end_of_turn>\n<start_of_turn>model\n{bot_msg}<end_of_turn>\n"
     full_prompt += f"<start_of_turn>user\n{message}<end_of_turn>\n<start_of_turn>model\n"
-    # Tokenisation
     inputs = tokenizer(full_prompt, return_tensors="pt").to("cpu")
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
-            max_new_tokens=100, # Réduit pour la vitesse CPU
-            temperature=0.3,
-            repetition_penalty=1.15,
             do_sample=True,
-            pad_token_id=tokenizer.eos_token_id
         )
     response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
     return response.strip()
 # --- INTERFACE ---
 demo = gr.ChatInterface(
     fn=generate_response,
     title="💎 Strive AI V6 - Officiel (CPU)",
-    description="Intelligence experte en Ewe. Note : La génération peut prendre 1 à 2 minutes sur CPU gratuit.",
 )
 if __name__ == "__main__":

 from peft import PeftModel
 # --- CONFIGURATION ---
 BASE_MODEL = "unsloth/gemma-2-2b-it"
 LORA_ADAPTER = "jojonocode/Strive-Ewe-Expert-Gemma-2b-V6-LoRA"
 HF_TOKEN = os.environ.get("HF_TOKEN")
+print("🚀 Chargement de Strive V6 (CPU Stable)...")
+# 1. Tokenizer (Configuré pour Gemma-2)
 tokenizer = AutoTokenizer.from_pretrained(LORA_ADAPTER, token=HF_TOKEN)
+tokenizer.padding_side = 'right'
+# 2. Modèle
 model = AutoModelForCausalLM.from_pretrained(
     BASE_MODEL,
+    torch_dtype=torch.float32,
+    device_map="cpu",
     token=HF_TOKEN,
+    low_cpu_mem_usage=True,
     trust_remote_code=True
 )
+# 3. Adaptateur
 model = PeftModel.from_pretrained(model, LORA_ADAPTER, token=HF_TOKEN)
 model.eval()
 SYSTEM_PROMPT = """Tu es Strive AI, expert de la culture Ewe et du Togo.
 DIRECTIVES : Réponds exclusivement en langue Ewe (Gbe). Sois direct et concis."""
 def generate_response(message, history):
+    # Construction propre du prompt Gemma-2
     full_prompt = f"<start_of_turn>system\n{SYSTEM_PROMPT}<end_of_turn>\n"
+    # Gestion de l'historique (Prend les 2 derniers échanges)
+    for interaction in history[-2:]:
+        # Gradio peut envoyer des dicts ou des listes selon la version
+        if isinstance(interaction, dict):
+            user_text = interaction.get("user", "")
+            bot_text = interaction.get("options", {}).get("value", "") # Dépend de la version Gradio
+            if not bot_text: bot_text = interaction.get("content", "")
+        else:
+            user_text, bot_text = interaction
+        full_prompt += f"<start_of_turn>user\n{user_text}<end_of_turn>\n"
+        full_prompt += f"<start_of_turn>model\n{bot_text}<end_of_turn>\n"
+    # Message actuel
     full_prompt += f"<start_of_turn>user\n{message}<end_of_turn>\n<start_of_turn>model\n"
+    # Inférence
     inputs = tokenizer(full_prompt, return_tensors="pt").to("cpu")
     with torch.no_grad():
         outputs = model.generate(
             **inputs,
+            max_new_tokens=200, # Augmenté pour éviter les réponses de 1 mot
+            temperature=0.4,    # Un peu plus de créativité pour éviter les réponses figées
+            repetition_penalty=1.2,
             do_sample=True,
+            pad_token_id=tokenizer.eos_token_id,
+            eos_token_id=tokenizer.eos_token_id
         )
+    # Décodage précis (en sautant le prompt)
+    raw_output = tokenizer.decode(outputs[0], skip_special_tokens=True)
+    # On nettoie pour ne garder que la réponse après le dernier message utilisateur
+    # (Gemma-2 peut parfois répéter le prompt si mal géré)
     response = tokenizer.decode(outputs[0][inputs.input_ids.shape[1]:], skip_special_tokens=True)
     return response.strip()
 # --- INTERFACE ---
+# Utilisation de gr.Chatbot avec format 'messages' pour plus de stabilité
 demo = gr.ChatInterface(
     fn=generate_response,
+    type="messages", # Crucial pour les nouvelles versions de Gradio
     title="💎 Strive AI V6 - Officiel (CPU)",
+    description="Intelligence experte en Ewe. Si la réponse met du temps à venir, c'est normal sur CPU gratuit.",
+    examples=["Ame kae nye Elisée ADZONYA?", "Lomé nye afi ka?", "Nàkplɔ miam aleke nàwɔ nàde ŋkɔ le sukuu me."],
 )
 if __name__ == "__main__":