Spaces:

fcp2207
/

Fusion_modelo_Phi2_Docker

Paused

App Files Files Community

felipecaspol commited on Mar 17, 2025

Commit

64c73b1

1 Parent(s): cade9d6

API

Browse files

Files changed (1) hide show

app.py +16 -15

app.py CHANGED Viewed

@@ -10,15 +10,15 @@ MODEL_REPO = os.getenv("MODEL_REPO", "fcp2207/Modelo_Phi2_fusionado")
 CACHE_DIR = os.getenv("HF_HOME", "/app/cache")
 FEEDBACK_FILE = os.path.join(CACHE_DIR, "feedback.json")
-# ✅ Configurar caché en Hugging Face correctamente
 os.makedirs(CACHE_DIR, exist_ok=True)
 os.environ["HF_HOME"] = CACHE_DIR
 os.environ["TRANSFORMERS_CACHE"] = CACHE_DIR
 # ✅ Inicializar FastAPI
-app = FastAPI(title="Phi-2 API", description="API optimizada en Hugging Face Spaces con GPU", version="3.6.0")
-# ✅ Clase para entrada de datos
 class InputData(BaseModel):
     input_text: str
@@ -32,7 +32,7 @@ def load_feedback():
             return json.load(f)
     return {
         "temperature": 0.6, "top_p": 0.85, "top_k": 50,
-        "max_new_tokens": 50,  # 🔹 Reducimos tokens generados para evitar errores de memoria
         "repetition_penalty": 1.2,
         "positivo": 0, "negativo": 0
     }
@@ -46,31 +46,30 @@ user_feedback = load_feedback()
 # ✅ Detectar si hay GPU
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
-# ✅ Cargar modelo en GPU si está disponible (SIN `.to(device)`)
 try:
-    print("🔄 Descargando y cargando el modelo en Hugging Face Spaces con GPU...")
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_REPO,
         torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
-        device_map="auto",  # 🔹 Dejar que accelerate maneje la asignación de GPU
         cache_dir=CACHE_DIR
     )
     tokenizer = AutoTokenizer.from_pretrained(MODEL_REPO, cache_dir=CACHE_DIR)
-    # ✅ Asegurar que haya un token de padding
     if tokenizer.pad_token is None:
         tokenizer.pad_token = tokenizer.eos_token
         model.config.pad_token_id = tokenizer.eos_token_id
-    print(f"✅ Modelo cargado correctamente en Hugging Face Spaces con {device}.")
 except Exception as e:
-    print(f"❌ Error al cargar el modelo en Hugging Face Spaces: {str(e)}")
     model, tokenizer = None, None
 @app.get("/")
 def home():
-    return {"message": "API con modelo fusionado ejecutándose en Hugging Face Spaces con GPU 🚀"}
 @app.post("/predict/")
 async def predict(data: InputData):
@@ -79,7 +78,6 @@ async def predict(data: InputData):
     try:
         num_tokens = len(data.input_text.split())
-        timeout_value = min(120, 10 + (num_tokens * 2))
         # ✅ Ajustamos parámetros dinámicamente con base en feedback recibido
         generation_params = {
@@ -90,7 +88,8 @@ async def predict(data: InputData):
             "do_sample": True
         }
-        input_text = f"Responde en español: {data.input_text.strip()}"
         inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True, max_length=512)
         # ✅ Mover inputs manualmente a la GPU si está disponible
@@ -99,9 +98,10 @@ async def predict(data: InputData):
         with torch.no_grad():
             outputs = model.generate(**inputs, **generation_params)
-        response_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
-        return {"response": response_text, "timeout": timeout_value}
     except torch.cuda.OutOfMemoryError:
         return {"response": "⚠️ Error: Falta de memoria en GPU. Reduce la cantidad de tokens generados."}
@@ -127,3 +127,4 @@ async def receive_feedback(feedback: FeedbackData):
     save_feedback(user_feedback)
     return {"message": f"Feedback {feedback.feedback} recibido y parámetros ajustados"}

 CACHE_DIR = os.getenv("HF_HOME", "/app/cache")
 FEEDBACK_FILE = os.path.join(CACHE_DIR, "feedback.json")
+# ✅ Configurar caché en Hugging Face
 os.makedirs(CACHE_DIR, exist_ok=True)
 os.environ["HF_HOME"] = CACHE_DIR
 os.environ["TRANSFORMERS_CACHE"] = CACHE_DIR
 # ✅ Inicializar FastAPI
+app = FastAPI(title="Phi-2 API", description="API optimizada en Hugging Face Spaces con GPU", version="4.2.0")
+# ✅ Clases para datos de entrada
 class InputData(BaseModel):
     input_text: str
             return json.load(f)
     return {
         "temperature": 0.6, "top_p": 0.85, "top_k": 50,
+        "max_new_tokens": 50,
         "repetition_penalty": 1.2,
         "positivo": 0, "negativo": 0
     }
 # ✅ Detectar si hay GPU
 device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
+# ✅ Cargar modelo en GPU si está disponible
 try:
+    print("🔄 Cargando el modelo en Hugging Face Spaces con GPU...")
     model = AutoModelForCausalLM.from_pretrained(
         MODEL_REPO,
         torch_dtype=torch.float16 if torch.cuda.is_available() else torch.float32,
+        device_map="auto",
         cache_dir=CACHE_DIR
     )
     tokenizer = AutoTokenizer.from_pretrained(MODEL_REPO, cache_dir=CACHE_DIR)
     if tokenizer.pad_token is None:
         tokenizer.pad_token = tokenizer.eos_token
         model.config.pad_token_id = tokenizer.eos_token_id
+    print(f"✅ Modelo cargado correctamente en {device}.")
 except Exception as e:
+    print(f"❌ Error al cargar el modelo: {str(e)}")
     model, tokenizer = None, None
 @app.get("/")
 def home():
+    return {"message": "API ejecutándose 🚀"}
 @app.post("/predict/")
 async def predict(data: InputData):
     try:
         num_tokens = len(data.input_text.split())
         # ✅ Ajustamos parámetros dinámicamente con base en feedback recibido
         generation_params = {
             "do_sample": True
         }
+        # ✅ Corregimos la entrada para que no agregue "Responde en español:"
+        input_text = f"{data.input_text.strip()}"
         inputs = tokenizer(input_text, return_tensors="pt", padding=True, truncation=True, max_length=512)
         # ✅ Mover inputs manualmente a la GPU si está disponible
         with torch.no_grad():
             outputs = model.generate(**inputs, **generation_params)
+        # ✅ Eliminar la frase "Responde en español:" en caso de que siga apareciendo
+        response_text = tokenizer.decode(outputs[0], skip_special_tokens=True).replace("Responde en español:", "").strip()
+        return {"response": response_text}
     except torch.cuda.OutOfMemoryError:
         return {"response": "⚠️ Error: Falta de memoria en GPU. Reduce la cantidad de tokens generados."}
     save_feedback(user_feedback)
     return {"message": f"Feedback {feedback.feedback} recibido y parámetros ajustados"}