Spaces:

VincentGOURBIN
/

swift-mlx-qwen3-chatbot

Running on Zero

App Files Files Community

VincentGOURBIN commited on Aug 23

Commit

b4c82ce

verified ·

1 Parent(s): c892afd

Upload step03_chatbot.py with huggingface_hub

Browse files

Files changed (1) hide show

step03_chatbot.py +43 -40

step03_chatbot.py CHANGED Viewed

@@ -571,7 +571,18 @@ class GenericRAGChatbot:
         try:
             from sentence_transformers import SentenceTransformer
-            if self.use_flash_attention and self.is_cuda:
                 print("  - Configuration avec Flash Attention 2 activée (CUDA)")
                 try:
                     self.embedding_model = SentenceTransformer(
@@ -711,6 +722,7 @@ class GenericRAGChatbot:
         except:
             return 0.0
     def search_documents(self, query: str, final_k: int = None, use_reranking: bool = None) -> List[Dict]:
         """
         Recherche avancée avec reranking en deux étapes
@@ -724,10 +736,13 @@ class GenericRAGChatbot:
         # Les modèles d'embedding fonctionnent bien sur CPU sur ZeroGPU
         # Étape 1: Recherche par embedding avec FAISS
         if hasattr(self.embedding_model, 'prompts') and 'query' in self.embedding_model.prompts:
-            query_embedding = self.embedding_model.encode([query], prompt_name="query")[0]
         else:
-            query_embedding = self.embedding_model.encode([query])[0]
         # Recherche dans l'index FAISS
         query_vector = query_embedding.reshape(1, -1).astype('float32')
@@ -842,27 +857,19 @@ Instructions importantes:
         messages.append({"role": "user", "content": user_message})
         try:
-            # Formatage manuel plus stable pour ZeroGPU
-            formatted_messages = []
-            for msg in messages:
-                if msg["role"] == "system":
-                    formatted_messages.append(f"<|im_start|>system\n{msg['content']}<|im_end|>")
-                elif msg["role"] == "user":
-                    formatted_messages.append(f"<|im_start|>user\n{msg['content']}<|im_end|>")
-                elif msg["role"] == "assistant":
-                    formatted_messages.append(f"<|im_start|>assistant\n{msg['content']}<|im_end|>")
-            # Ajouter le prompt de génération
-            formatted_messages.append("<|im_start|>assistant\n")
-            formatted_prompt = "\n".join(formatted_messages)
             # Tokenisation
             inputs = self.generation_tokenizer(
                 formatted_prompt,
                 return_tensors="pt",
                 truncation=True,
-                max_length=4096,
-                padding=True
             )
             # Déplacement vers le device
@@ -883,8 +890,10 @@ Instructions importantes:
                 "input_ids": inputs["input_ids"],
                 "attention_mask": inputs["attention_mask"],
                 "streamer": streamer,
-                "max_new_tokens": 512,
-                "temperature": 0.7,
                 "do_sample": True,
                 "pad_token_id": self.generation_tokenizer.pad_token_id,
                 "eos_token_id": self.generation_tokenizer.eos_token_id,
@@ -943,39 +952,33 @@ Réponds à cette question en te basant sur le contexte fourni."""
         # Formatage pour le modèle
         try:
-            # Formatage manuel plus stable pour ZeroGPU
-            formatted_messages = []
-            for msg in messages:
-                if msg["role"] == "system":
-                    formatted_messages.append(f"<|im_start|>system\n{msg['content']}<|im_end|>")
-                elif msg["role"] == "user":
-                    formatted_messages.append(f"<|im_start|>user\n{msg['content']}<|im_end|>")
-                elif msg["role"] == "assistant":
-                    formatted_messages.append(f"<|im_start|>assistant\n{msg['content']}<|im_end|>")
-            # Ajouter le prompt de génération
-            formatted_messages.append("<|im_start|>assistant\n")
-            formatted_prompt = "\n".join(formatted_messages)
-            # Tokenisation avec padding et attention mask appropriés
             inputs = self.generation_tokenizer(
                 formatted_prompt,
                 return_tensors="pt",
                 truncation=True,
-                max_length=4096,
-                padding=True
             )
             # Déplacement vers le device
             inputs = {k: v.to(self.generation_device) for k, v in inputs.items()}
-            # Génération avec paramètres simplifiés
             with torch.no_grad():
                 outputs = self.generation_model.generate(
                     input_ids=inputs["input_ids"],
                     attention_mask=inputs["attention_mask"],
-                    max_new_tokens=512,
-                    temperature=0.7,
                     do_sample=True,
                     pad_token_id=self.generation_tokenizer.pad_token_id,
                     eos_token_id=self.generation_tokenizer.eos_token_id,

         try:
             from sentence_transformers import SentenceTransformer
+            if os.getenv("SPACE_ID"):
+                print("  - Configuration ZeroGPU optimisée")
+                # Sur ZeroGPU, utiliser float16 et device auto pour les performances
+                self.embedding_model = SentenceTransformer(
+                    self.config.embedding_model,
+                    model_kwargs={
+                        "torch_dtype": torch.float16,
+                        "device_map": "auto"
+                    },
+                    tokenizer_kwargs={"padding_side": "left"}
+                )
+            elif self.use_flash_attention and self.is_cuda:
                 print("  - Configuration avec Flash Attention 2 activée (CUDA)")
                 try:
                     self.embedding_model = SentenceTransformer(
         except:
             return 0.0
+    @spaces.GPU(duration=120)  # ZeroGPU: GPU nécessaire pour embedding
     def search_documents(self, query: str, final_k: int = None, use_reranking: bool = None) -> List[Dict]:
         """
         Recherche avancée avec reranking en deux étapes
         # Les modèles d'embedding fonctionnent bien sur CPU sur ZeroGPU
         # Étape 1: Recherche par embedding avec FAISS
+        print("  🎯 Calcul de l'embedding de la requête...")
         if hasattr(self.embedding_model, 'prompts') and 'query' in self.embedding_model.prompts:
+            query_embedding = self.embedding_model.encode([query], prompt_name="query", show_progress_bar=False)[0]
         else:
+            query_embedding = self.embedding_model.encode([query], show_progress_bar=False)[0]
+        print(f"  📐 Embedding calculé: shape={query_embedding.shape}, norm={np.linalg.norm(query_embedding):.3f}")
         # Recherche dans l'index FAISS
         query_vector = query_embedding.reshape(1, -1).astype('float32')
         messages.append({"role": "user", "content": user_message})
         try:
+            # Utiliser le template officiel Qwen3 (documentation officielle)
+            formatted_prompt = self.generation_tokenizer.apply_chat_template(
+                messages,
+                tokenize=False,
+                add_generation_prompt=True
+            )
             # Tokenisation
             inputs = self.generation_tokenizer(
                 formatted_prompt,
                 return_tensors="pt",
                 truncation=True,
+                max_length=4096
             )
             # Déplacement vers le device
                 "input_ids": inputs["input_ids"],
                 "attention_mask": inputs["attention_mask"],
                 "streamer": streamer,
+                "max_new_tokens": 1024,  # Recommandation officielle
+                "temperature": 0.7,      # Recommandation officielle
+                "top_p": 0.8,           # Recommandation officielle
+                "top_k": 20,            # Recommandation officielle
                 "do_sample": True,
                 "pad_token_id": self.generation_tokenizer.pad_token_id,
                 "eos_token_id": self.generation_tokenizer.eos_token_id,
         # Formatage pour le modèle
         try:
+            # Utiliser le template officiel Qwen3 (documentation officielle)
+            formatted_prompt = self.generation_tokenizer.apply_chat_template(
+                messages,
+                tokenize=False,
+                add_generation_prompt=True
+            )
+            # Tokenisation avec les bonnes options
             inputs = self.generation_tokenizer(
                 formatted_prompt,
                 return_tensors="pt",
                 truncation=True,
+                max_length=4096
             )
             # Déplacement vers le device
             inputs = {k: v.to(self.generation_device) for k, v in inputs.items()}
+            # Génération avec paramètres officiels Qwen3
             with torch.no_grad():
                 outputs = self.generation_model.generate(
                     input_ids=inputs["input_ids"],
                     attention_mask=inputs["attention_mask"],
+                    max_new_tokens=1024,    # Recommandation officielle
+                    temperature=0.7,        # Recommandation officielle
+                    top_p=0.8,             # Recommandation officielle
+                    top_k=20,              # Recommandation officielle
                     do_sample=True,
                     pad_token_id=self.generation_tokenizer.pad_token_id,
                     eos_token_id=self.generation_tokenizer.eos_token_id,