Spaces:

fabiosam
/

EnSenas

Sleeping

App Files Files Community

EnSenas / app.py

fabiosam

Update app.py

9696369 verified about 1 month ago

raw

history blame contribute delete

7.19 kB

	import os
	import json
	import numpy as np
	import cv2
	import gradio as gr
	import mediapipe as mp
	import tensorflow as tf
	from tensorflow import keras

	# ---------------------------------------------------------
	# CONFIG
	# ---------------------------------------------------------
	MODELS_DIR = "models"
	MAX_FRAMES = 20
	N_FEATURES = 225 # 75 puntos * (x, y, z)
	THRESHOLD = 0.6 # umbral para decidir si "reconoce" o no

	# Nombres de los archivos V2
	MODEL_FILENAME = "sign_model_lstm_v2.keras"
	LABELS_FILENAME = "label_names_v2.json"
	FEATURE_MEAN_FILENAME = "feature_mean_v2.npy"
	FEATURE_STD_FILENAME = "feature_std_v2.npy"

	mp_holistic = mp.solutions.holistic


	# ---------------------------------------------------------
	# EXTRACCIÓN DE LANDMARKS (MISMA QUE EN EL NOTEBOOK)
	# ---------------------------------------------------------
	def extract_landmarks_from_results(results):
	"""
	Convierte los resultados de MediaPipe Holistic en un vector 1D (225,)
	con pose (33), mano izq (21) y mano der (21).
	Cada punto = (x, y, z) => 75 * 3 = 225 features.
	"""
	def get_xyz(landmarks, n_points):
	if landmarks is None:
	data = [[0.0, 0.0, 0.0]] * n_points
	else:
	data = [[lm.x, lm.y, lm.z] for lm in landmarks]
	if len(data) < n_points:
	data += [[0.0, 0.0, 0.0]] * (n_points - len(data))
	data = data[:n_points]
	return data

	pose = get_xyz(results.pose_landmarks.landmark if results.pose_landmarks else None, 33)
	left_hand = get_xyz(results.left_hand_landmarks.landmark if results.left_hand_landmarks else None, 21)
	right_hand = get_xyz(results.right_hand_landmarks.landmark if results.right_hand_landmarks else None, 21)

	all_points = pose + left_hand + right_hand
	return np.array(all_points, dtype=np.float32).flatten() # (225,)


	# ---------------------------------------------------------
	# PAD / TRUNCATE (MISMO QUE EN TRAIN)
	# ---------------------------------------------------------
	def pad_or_truncate(seq, max_frames=MAX_FRAMES):
	"""
	Asegura que cada secuencia tenga exactamente max_frames frames.
	- Si hay más frames, recorta centrado.
	- Si hay menos, rellena con ceros al final.
	seq: (T, 225)
	"""
	n = seq.shape[0]

	if n == max_frames:
	return seq.astype(np.float32)

	if n > max_frames:
	start = max(0, (n - max_frames) // 2)
	return seq[start:start + max_frames].astype(np.float32)

	pad_len = max_frames - n
	pad = np.zeros((pad_len, seq.shape[1]), dtype=np.float32)
	return np.concatenate([seq, pad], axis=0).astype(np.float32)


	# ---------------------------------------------------------
	# VENTANAS DESLIZANTES SOBRE EL VIDEO
	# ---------------------------------------------------------
	def make_windows_from_frames(frames_feats, max_frames=MAX_FRAMES, step=5):
	"""
	frames_feats: lista de vectores (225,) por frame.
	Devuelve un array (N_windows, max_frames, 225).

	- Si el video es corto, usa pad_or_truncate y genera 1 ventana.
	- Si es largo, recorre con una sliding window de tamaño max_frames
	y paso 'step'.
	"""
	seq_full = np.stack(frames_feats, axis=0) # (T, 225)
	T = seq_full.shape[0]

	windows = []

	if T <= max_frames:
	windows.append(pad_or_truncate(seq_full, max_frames=max_frames))
	else:
	for start in range(0, T - max_frames + 1, step):
	win = seq_full[start:start + max_frames]
	windows.append(win.astype(np.float32))

	return np.stack(windows, axis=0).astype(np.float32) # (N, max_frames, 225)


	# ---------------------------------------------------------
	# CARGA DE MODELO + LABELS + NORMALIZACIÓN (V2)
	# ---------------------------------------------------------
	def load_model():
	model_path = os.path.join(MODELS_DIR, MODEL_FILENAME)
	labels_path = os.path.join(MODELS_DIR, LABELS_FILENAME)
	mean_path = os.path.join(MODELS_DIR, FEATURE_MEAN_FILENAME)
	std_path = os.path.join(MODELS_DIR, FEATURE_STD_FILENAME)

	model = keras.models.load_model(model_path)

	with open(labels_path, "r") as f:
	label_names = json.load(f)

	feature_mean = np.load(mean_path)
	feature_std = np.load(std_path)

	return model, label_names, feature_mean, feature_std


	model, label_names, feature_mean, feature_std = load_model()


	# ---------------------------------------------------------
	# PROCESAR VIDEO → SECUENCIAS NORMALIZADAS
	# ---------------------------------------------------------
	def process_video_to_sequences(video_file):
	"""
	Lee el video, extrae landmarks frame a frame, construye
	ventanas (N, MAX_FRAMES, 225) y aplica normalización.
	"""
	cap = cv2.VideoCapture(video_file)
	frames_feats = []

	with mp_holistic.Holistic(
	static_image_mode=False,
	model_complexity=1,
	enable_segmentation=False,
	refine_face_landmarks=False,
	min_detection_confidence=0.5,
	min_tracking_confidence=0.5
	) as holis:

	while True:
	ret, frame = cap.read()
	if not ret:
	break

	rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
	results = holis.process(rgb)
	feats = extract_landmarks_from_results(results) # (225,)
	frames_feats.append(feats)

	cap.release()

	if len(frames_feats) == 0:
	# Nada detectado → una ventana de ceros
	windows = np.zeros((1, MAX_FRAMES, N_FEATURES), dtype=np.float32)
	else:
	windows = make_windows_from_frames(frames_feats, max_frames=MAX_FRAMES, step=5)

	# Normalización igual que en entrenamiento
	windows_norm = (windows - feature_mean) / feature_std # (N, T, 225)

	return windows_norm


	# ---------------------------------------------------------
	# PREDICCIÓN PROMEDIANDO VENTANAS
	# ---------------------------------------------------------
	def predict(video):
	"""
	Función que usa Gradio:
	- procesa el video en varias ventanas
	- promedia las probabilidades
	- aplica umbral THRESHOLD
	"""
	sequences = process_video_to_sequences(video) # (N, T, 225)

	probs_windows = model.predict(sequences, verbose=0) # (N, num_classes)
	probs_mean = probs_windows.mean(axis=0) # (num_classes,)

	idx = int(np.argmax(probs_mean))
	label = label_names[idx]
	conf = float(probs_mean[idx])

	# Diccionario para el componente gr.Label
	probs_dict = {label_names[i]: float(probs_mean[i]) for i in range(len(label_names))}

	if conf < THRESHOLD:
	text = f"No estoy seguro, señal no reconocida.\nMejor candidata: {label} (confianza {conf:.2f})"
	else:
	text = f"Predicción: {label} (confianza {conf:.2f})"

	return text, probs_dict


	# ---------------------------------------------------------
	# UI DE GRADIO
	# ---------------------------------------------------------
	demo = gr.Interface(
	fn=predict,
	inputs=gr.Video(label="Sube un video haciendo la seña"),
	outputs=[
	gr.Textbox(label="Resultado"),
	gr.Label(label="Probabilidades por clase")
	],
	title="Traductor de Señas LSTM"
	)

	if __name__ == "__main__":
	demo.launch()