Spaces:

fabiosam
/

EnSenas

Sleeping

App Files Files Community

fabiosam commited on Nov 17, 2025

Commit

56da706

verified ·

1 Parent(s): af4ab3b

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -66

app.py CHANGED Viewed

@@ -1,44 +1,38 @@
 import os
-import cv2
 import json
 import numpy as np
 import mediapipe as mp
 import tensorflow as tf
-from tensorflow import keras
 import gradio as gr
-# =========================
-# CONFIGURACIÓN BÁSICA
-# =========================
-MAX_FRAMES = 20  # debe ser el mismo valor que usaste al entrenar
-MODEL_DIR = "models"
-MODEL_PATH = os.path.join(MODEL_DIR, "sign_model_lstm_v1.keras")
-LABELS_PATH = os.path.join(MODEL_DIR, "label_names.json")
-print("TensorFlow version:", tf.__version__)
 print("Cargando modelo desde:", MODEL_PATH)
-# Carga del modelo LSTM
-model = keras.models.load_model(MODEL_PATH)
-# Carga de nombres de clase
 with open(LABELS_PATH, "r") as f:
     label_names = json.load(f)
 mp_holistic = mp.solutions.holistic
-# =========================
-# EXTRACCIÓN DE LANDMARKS
-# =========================
 def extract_landmarks_from_results(results):
     """
-    Convierte los resultados de MediaPipe Holistic en un vector 1D.
-    Pose (33), mano izq (21), mano der (21) -> 75 puntos.
-    Cada punto = (x, y, z) => 75 * 3 = 225 features.
     """
     def get_xyz(landmarks, n_points):
         if landmarks is None:
@@ -67,18 +61,17 @@ def extract_landmarks_from_results(results):
     return np.array(all_points, dtype=np.float32).flatten()  # (225,)
-# =========================
-# PROCESAR VIDEO -> SECUENCIA
-# =========================
 def preprocess_video_to_sequence(video_path, max_frames=MAX_FRAMES):
     """
-    Procesa un video (archivo .mp4, .mov, etc.) con MediaPipe Holistic
-    y devuelve una secuencia (1, max_frames, 225) lista para el modelo.
     """
-    cap = cv2.VideoCapture(video_path)
     frames_feats = []
     with mp_holistic.Holistic(
         static_image_mode=False,
         model_complexity=1,
@@ -96,7 +89,7 @@ def preprocess_video_to_sequence(video_path, max_frames=MAX_FRAMES):
             frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
             results = holistic.process(frame_rgb)
-            vec = extract_landmarks_from_results(results)
             frames_feats.append(vec)
             if len(frames_feats) >= max_frames:
@@ -109,7 +102,7 @@ def preprocess_video_to_sequence(video_path, max_frames=MAX_FRAMES):
     seq = np.array(frames_feats, dtype=np.float32)
-    # Padding o recorte a max_frames
     if seq.shape[0] < max_frames:
         pad_len = max_frames - seq.shape[0]
         pad = np.zeros((pad_len, seq.shape[1]), dtype=np.float32)
@@ -121,62 +114,51 @@ def preprocess_video_to_sequence(video_path, max_frames=MAX_FRAMES):
     return seq
-# =========================
-# FUNCIÓN DE PREDICCIÓN PARA GRADIO
-# =========================
-def predict_sign(video):
     """
-    Gradio pasa 'video' como ruta al archivo temporal (.mp4) grabado o subido.
     """
-    if video is None:
         return "Sube o graba un video primero.", {}
     try:
-        seq = preprocess_video_to_sequence(video, max_frames=MAX_FRAMES)
         probs = model.predict(seq, verbose=0)[0]  # (num_classes,)
-        idx = int(np.argmax(probs))
-        label = label_names[idx]
-        conf = float(probs[idx])
-        # Para mostrar distribución de probabilidades en Gradio:
-        probs_dict = {
-            name: float(probs[i])
-            for i, name in enumerate(label_names)
-        }
-        result_text = f"Seña predicha: {label} (confianza {conf:.2f})"
-        return result_text, probs_dict
-    except Exception as e:
-        return f"Error procesando el video: {str(e)}", {}
-# =========================
-# INTERFAZ GRADIO
-# =========================
-title = "LSP-EnSeñas - Demo LSTM"
-description = """
-Sube o graba un video corto haciendo una seña (por ejemplo, uno de los colores
-que se usaron en el entrenamiento). El modelo LSTM analiza la secuencia de
-landmarks (cuerpo y manos) usando MediaPipe Holistic y predice la clase más probable.
-"""
 demo = gr.Interface(
-    fn=predict_sign,
     inputs=gr.Video(
-        source="webcam",  # también permite subir archivo
-        label="Video de la seña (webcam o upload)"
     ),
     outputs=[
         gr.Textbox(label="Resultado"),
         gr.Label(label="Probabilidades por clase")
     ],
-    title=title,
-    description=description,
-    allow_flagging="never"
 )
 if __name__ == "__main__":

 import os
 import json
+import cv2
 import numpy as np
 import mediapipe as mp
 import tensorflow as tf
 import gradio as gr
+print("TensorFlow version:", tf.__version__)
+# ==== RUTAS DEL MODELO ====
+BASE_DIR = os.path.dirname(__file__)
+MODELS_DIR = os.path.join(BASE_DIR, "models")
+MODEL_PATH = os.path.join(MODELS_DIR, "sign_model_lstm_v1.keras")
+LABELS_PATH = os.path.join(MODELS_DIR, "label_names.json")
 print("Cargando modelo desde:", MODEL_PATH)
+model = tf.keras.models.load_model(MODEL_PATH)
 with open(LABELS_PATH, "r") as f:
     label_names = json.load(f)
 mp_holistic = mp.solutions.holistic
+MAX_FRAMES = 20          # mismo valor que usaste al entrenar
+N_FEATURES = 225         # 75 puntos * 3 coords (x, y, z)
+# ========= FUNCIONES DE PROCESADO =========
 def extract_landmarks_from_results(results):
     """
+    Convierte los resultados de MediaPipe Holistic en un vector 1D (225,)
+    con pose (33), mano izq (21) y mano der (21).
     """
     def get_xyz(landmarks, n_points):
         if landmarks is None:
     return np.array(all_points, dtype=np.float32).flatten()  # (225,)
 def preprocess_video_to_sequence(video_path, max_frames=MAX_FRAMES):
     """
+    Lee un video, extrae landmarks por frame y devuelve
+    una secuencia (1, max_frames, 225) lista para el LSTM.
     """
+    if video_path is None:
+        raise ValueError("No se recibió ruta de video.")
+    cap = cv2.VideoCapture(video_path)
     frames_feats = []
     with mp_holistic.Holistic(
         static_image_mode=False,
         model_complexity=1,
             frame_rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
             results = holistic.process(frame_rgb)
+            vec = extract_landmarks_from_results(results)  # (225,)
             frames_feats.append(vec)
             if len(frames_feats) >= max_frames:
     seq = np.array(frames_feats, dtype=np.float32)
+    # padding / recorte
     if seq.shape[0] < max_frames:
         pad_len = max_frames - seq.shape[0]
         pad = np.zeros((pad_len, seq.shape[1]), dtype=np.float32)
     return seq
+def predict_video_lstm(video_path):
     """
+    Función que usa Gradio:
+    - Recibe la ruta de un video
+    - Devuelve la predicción principal + distribución de probabilidades
     """
+    if video_path is None:
         return "Sube o graba un video primero.", {}
     try:
+        seq = preprocess_video_to_sequence(video_path, max_frames=MAX_FRAMES)
         probs = model.predict(seq, verbose=0)[0]  # (num_classes,)
+    except Exception as e:
+        return f"Error procesando el video: {e}", {}
+    idx = int(np.argmax(probs))
+    label = label_names[idx]
+    conf = float(probs[idx])
+    prob_dict = {name: float(probs[i]) for i, name in enumerate(label_names)}
+    texto = f"Predicción: {label} (confianza {conf:.2f})"
+    return texto, prob_dict
+# ========= INTERFAZ GRADIO =========
 demo = gr.Interface(
+    fn=predict_video_lstm,
     inputs=gr.Video(
+        sources=["upload", "webcam"],   # 👈 AQUÍ está la diferencia: sin 'source'
+        label="Video de seña (sube o graba)",
+        format="mp4",
+        type="filepath"                 # Gradio le pasa a la función la ruta del archivo
     ),
     outputs=[
         gr.Textbox(label="Resultado"),
         gr.Label(label="Probabilidades por clase")
     ],
+    title="LSP-EnSeñas - Demo LSTM",
+    description=(
+        "Sube un video corto o grábalo con la webcam haciendo una seña. "
+        "El modelo LSTM procesa la secuencia de landmarks (pose + manos) y "
+        "muestra la clase más probable y la distribución de probabilidades."
+    ),
 )
 if __name__ == "__main__":