Spaces:

1dm
/

textgen

Sleeping

App Files Files Community

1dm commited on Dec 10, 2025

Commit

0fc7fa2

verified ·

1 Parent(s): add108b

resolve bug

Browse files

Files changed (1) hide show

app.py +11 -7

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# Fichier: app.py
 from fastapi import FastAPI
 from pydantic import BaseModel
 from transformers import AutoModelForCausalLM, AutoTokenizer
@@ -14,10 +14,13 @@ device = torch.device("cpu")
 # Charger le Tokenizer et le Modèle
 try:
     tokenizer = AutoTokenizer.from_pretrained(model_id)
-    # Chargement spécifique pour CPU, sans besoin de types de données GPU (float16)
     model = AutoModelForCausalLM.from_pretrained(
         model_id,
-        device_map=device,
         trust_remote_code=True # Nécessaire pour Phi-3
     ).to(device)
     model.eval()
@@ -48,7 +51,6 @@ def generate_text_from_model(system_prompt: str, user_prompt: str, max_tokens: i
     # Appliquer le template de chat du tokenizer
     text_to_generate = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
-    # Remplacer le template de chat par l'instruction de base pour l'inférence
     # Exemple de format: "<|user|>\nInstruction\n<|end|>\n<|assistant|>"
     inputs = tokenizer(text_to_generate, return_tensors="pt").to(device)
@@ -59,13 +61,14 @@ def generate_text_from_model(system_prompt: str, user_prompt: str, max_tokens: i
             max_new_tokens=max_tokens,
             do_sample=True,
             temperature=temperature,
-            pad_token_id=tokenizer.eos_token_id
         )
     generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
     # Nettoyage : retirer l'instruction initiale pour ne garder que la réponse
-    # Le nettoyage doit être adapté au format de sortie de Phi-3
     response_start_tag = "<|assistant|>"
     if response_start_tag in generated_text:
         return generated_text.split(response_start_tag, 1)[1].strip()
@@ -73,7 +76,7 @@ def generate_text_from_model(system_prompt: str, user_prompt: str, max_tokens: i
     return generated_text.strip()
-# --- Endpoints (Identiques au plan initial) ---
 @app.post("/generate")
 async def generate(request: PromptRequest):
@@ -88,6 +91,7 @@ async def generate(request: PromptRequest):
         )
         return {"result": result}
     except Exception as e:
         return {"error": str(e)}
 @app.post("/summarize")

+# Fichier: app.py (VERSION CORRIGÉE FINALE)
 from fastapi import FastAPI
 from pydantic import BaseModel
 from transformers import AutoModelForCausalLM, AutoTokenizer
 # Charger le Tokenizer et le Modèle
 try:
     tokenizer = AutoTokenizer.from_pretrained(model_id)
+    # CORRECTION CRITIQUE 1: Stabilité du chargement sur CPU
+    # 1. Ajout de torch_dtype=torch.float32 pour assurer la compatibilité CPU.
+    # 2. Suppression de device_map=device (le .to(device) final est suffisant).
     model = AutoModelForCausalLM.from_pretrained(
         model_id,
+        torch_dtype=torch.float32,
         trust_remote_code=True # Nécessaire pour Phi-3
     ).to(device)
     model.eval()
     # Appliquer le template de chat du tokenizer
     text_to_generate = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=False)
     # Exemple de format: "<|user|>\nInstruction\n<|end|>\n<|assistant|>"
     inputs = tokenizer(text_to_generate, return_tensors="pt").to(device)
             max_new_tokens=max_tokens,
             do_sample=True,
             temperature=temperature,
+            pad_token_id=tokenizer.eos_token_id,
+            # CORRECTION CRITIQUE 2: Désactiver le cache pour contourner le bug 'DynamicCache'
+            use_cache=False
         )
     generated_text = tokenizer.decode(output[0], skip_special_tokens=True)
     # Nettoyage : retirer l'instruction initiale pour ne garder que la réponse
     response_start_tag = "<|assistant|>"
     if response_start_tag in generated_text:
         return generated_text.split(response_start_tag, 1)[1].strip()
     return generated_text.strip()
+# --- Endpoints (Identiques) ---
 @app.post("/generate")
 async def generate(request: PromptRequest):
         )
         return {"result": result}
     except Exception as e:
+        # Retourne l'erreur Python pour le diagnostic (comme vous l'avez fait)
         return {"error": str(e)}
 @app.post("/summarize")