Spaces:

VeuReu
/

demo

Sleeping

App Files Files Community

VeuReu commited on Oct 31, 2025

Commit

e898458

1 Parent(s): f805057

Upload 2 files

Browse files

Files changed (2) hide show

api_client.py +22 -20
app.py +98 -6

api_client.py CHANGED Viewed

@@ -418,6 +418,15 @@ class APIClient:
 # Cliente para SVision Space
 # ===========================
 def describe_image_with_svision(image_path: str, is_face: bool = True) -> Tuple[str, str]:
     """
     Llama al space svision para describir una imagen (cara o escena).
@@ -469,33 +478,26 @@ def describe_image_with_svision(image_path: str, is_face: bool = True) -> Tuple[
         if not full_description:
             return ("", "")
-        # Generar nombre abreviado para caras
         if is_face:
             # Extraer características clave para el nombre
             desc_lower = full_description.lower()
-            # Determinar edad y género
-            is_young = any(word in desc_lower for word in ["jove", "nen", "nena", "adolescent", "noi", "noia"])
-            is_female = any(word in desc_lower for word in ["dona", "noia", "nena", "femení"])
-            if is_young:
-                base_name = "Noia" if is_female else "Noi"
-            else:
-                base_name = "Dona" if is_female else "Home"
-            # Añadir características distintivas
-            features = []
-            if "ullere" in desc_lower or "gafa" in desc_lower:
-                features.append("ulleres")
-            if "barba" in desc_lower:
-                features.append("barba")
-            if "bigoti" in desc_lower:
-                features.append("bigoti")
-            if features:
-                short_name = f"{base_name} amb {', '.join(features)}"
             else:
-                short_name = base_name
         else:
             # Para escenas, extraer primeras palabras clave
             words = full_description.split()[:4]

 # Cliente para SVision Space
 # ===========================
+# Nombres catalanes comunes para asignar a personajes (deben coincidir con app.py)
+def get_catalan_names():
+    """Retorna llistes de noms catalans."""
+    noms_home = ["Jordi", "Marc", "Pau", "Pere", "Joan", "Josep", "David", "Àlex", "Guillem", "Albert",
+                 "Arnau", "Martí", "Bernat", "Oriol", "Roger", "Pol", "Lluís", "Sergi", "Carles", "Xavier"]
+    noms_dona = ["Maria", "Anna", "Laura", "Marta", "Cristina", "Núria", "Montserrat", "Júlia", "Sara", "Carla",
+                 "Alba", "Elisabet", "Rosa", "Gemma", "Sílvia", "Teresa", "Irene", "Laia", "Marina", "Bet"]
+    return noms_home, noms_dona
 def describe_image_with_svision(image_path: str, is_face: bool = True) -> Tuple[str, str]:
     """
     Llama al space svision para describir una imagen (cara o escena).
         if not full_description:
             return ("", "")
+        # Generar nombre aleatorio en catalán para caras
         if is_face:
             # Extraer características clave para el nombre
             desc_lower = full_description.lower()
+            # Determinar género
+            is_female = any(word in desc_lower for word in ["dona", "noia", "nena", "femení", "femenina"])
+            # Seleccionar nombre aleatorio pero consistente (hash del path)
+            import hashlib
+            hash_val = int(hashlib.md5(image_path.encode()).hexdigest(), 16)
+            noms_home, noms_dona = get_catalan_names()
+            if is_female:
+                name_list = noms_dona
             else:
+                name_list = noms_home
+            # Usar hash para selección consistente
+            short_name = name_list[hash_val % len(name_list)]
         else:
             # Para escenas, extraer primeras palabras clave
             words = full_description.split()[:4]

app.py CHANGED Viewed

@@ -85,11 +85,62 @@ set_db_path(DB_PATH)
 init_schema()
 # --- Helper de logging ---
-def log(msg):
-    """Helper para escribir logs que aparezcan en el container de HF Spaces"""
-    sys.stderr.write(f"{msg}\n")
     sys.stderr.flush()
 def create_default_users_if_needed():
     """Asegura que existan los usuarios por defecto y sus contraseñas esperadas (texto plano)."""
     log("Sincronizando usuarios por defecto...")
@@ -689,6 +740,20 @@ if page == "Processar vídeo nou":
     # --- 5) Mostrar resultats: Clústers de veu (amb carrusels) ---
     if st.session_state.get("audio_segments") is not None:
         st.markdown("---")
         # Agrupar per etiqueta
         segs = st.session_state.audio_segments or []
         vlabels = st.session_state.voice_labels or []
@@ -759,7 +824,8 @@ if page == "Processar vídeo nou":
                 with c2:
                     name_key = f"{key_prefix}_name"
                     desc_key = f"{key_prefix}_desc"
-                    default_name = f"SPEAKER_{lbl:02d}"
                     st.text_input("Nom del clúster", value=st.session_state.get(name_key, default_name), key=name_key)
                     st.text_area("Descripció", value=st.session_state.get(desc_key, ""), key=desc_key, height=80)
@@ -882,6 +948,17 @@ if page == "Processar vídeo nou":
                         "folder": ch.get("folder"),
                         "kept_files": kept,
                     })
                 # Agrupar segments d'àudio per etiqueta de veu
                 segs = st.session_state.audio_segments or []
                 vlabels = st.session_state.voice_labels or []
@@ -893,7 +970,9 @@ if page == "Processar vídeo nou":
                     clip_local = seg.get("clip_path")
                     fname = _os.path.basename(clip_local) if clip_local else None
                     if fname:
-                        voice_clusters.setdefault(lbl, {"label": lbl, "name": f"SPEAKER_{int(lbl):02d}" if isinstance(lbl, int) and lbl >= 0 else "UNKNOWN", "description": "", "clips": []})
                         # Incloure noms/descr. personalitzats del formulari si existeixen
                         if isinstance(lbl, int) and lbl >= 0:
                             vpref = f"voice_{int(lbl):02d}"
@@ -1001,6 +1080,17 @@ if page == "Processar vídeo nou":
                     "description": desc,
                 })
             # Agrupar segments de veu per etiqueta i nom normalizado
             segs = st.session_state.audio_segments or []
             vlabels = st.session_state.voice_labels or []
@@ -1012,7 +1102,9 @@ if page == "Processar vídeo nou":
                 if not (isinstance(lbl, int) and lbl >= 0):
                     continue
                 vpref = f"voice_{int(lbl):02d}"
-                vname_custom = st.session_state.get(f"{vpref}_name") or f"SPEAKER_{int(lbl):02d}"
                 vname_normalized = normalize_name(vname_custom)
                 vdesc = st.session_state.get(f"{vpref}_desc", "").strip()
                 clip_local = seg.get("clip_path")

 init_schema()
 # --- Helper de logging ---
+def log(msg: str):
+    """Helper per logging amb timestamp"""
+    timestamp = datetime.now().strftime("%Y-%m-%d %H:%M:%S")
+    sys.stderr.write(f"[{timestamp}] {msg}\n")
     sys.stderr.flush()
+def get_all_catalan_names():
+    """Retorna tots els noms catalans disponibles."""
+    noms_home = ["Jordi", "Marc", "Pau", "Pere", "Joan", "Josep", "David", "Àlex", "Guillem", "Albert",
+                 "Arnau", "Martí", "Bernat", "Oriol", "Roger", "Pol", "Lluís", "Sergi", "Carles", "Xavier"]
+    noms_dona = ["Maria", "Anna", "Laura", "Marta", "Cristina", "Núria", "Montserrat", "Júlia", "Sara", "Carla",
+                 "Alba", "Elisabet", "Rosa", "Gemma", "Sílvia", "Teresa", "Irene", "Laia", "Marina", "Bet"]
+    return noms_home, noms_dona
+def get_catalan_name_for_speaker(speaker_label: int, used_names_home: list = None, used_names_dona: list = None) -> str:
+    """
+    Genera un nom català per a un speaker, reutilitzant noms de caras si estan disponibles.
+    Args:
+        speaker_label: Índex del speaker (0, 1, 2, ...)
+        used_names_home: Noms d'home ja usats en caras (per reutilitzar-los)
+        used_names_dona: Noms de dona ja usats en caras (per reutilitzar-los)
+    Returns:
+        Nom català
+    """
+    noms_home, noms_dona = get_all_catalan_names()
+    # Si no hi ha noms usats, usar llistes completes
+    if used_names_home is None:
+        used_names_home = []
+    if used_names_dona is None:
+        used_names_dona = []
+    # Alternar entre home y dona según el índex
+    is_male = (speaker_label % 2 == 0)
+    if is_male:
+        # Primer intentar reutilitzar noms d'home de caras
+        if used_names_home:
+            idx = speaker_label // 2  # 0, 2, 4 -> 0, 1, 2
+            return used_names_home[idx % len(used_names_home)]
+        else:
+            # Si no hi ha noms usats, usar hash
+            hash_val = hash(f"speaker_{speaker_label}")
+            return noms_home[abs(hash_val) % len(noms_home)]
+    else:
+        # Primer intentar reutilitzar noms de dona de caras
+        if used_names_dona:
+            idx = speaker_label // 2  # 1, 3, 5 -> 0, 1, 2
+            return used_names_dona[idx % len(used_names_dona)]
+        else:
+            # Si no hi ha noms usats, usar hash
+            hash_val = hash(f"speaker_{speaker_label}")
+            return noms_dona[abs(hash_val) % len(noms_dona)]
 def create_default_users_if_needed():
     """Asegura que existan los usuarios por defecto y sus contraseñas esperadas (texto plano)."""
     log("Sincronizando usuarios por defecto...")
     # --- 5) Mostrar resultats: Clústers de veu (amb carrusels) ---
     if st.session_state.get("audio_segments") is not None:
         st.markdown("---")
+        # Extreure noms de caras per reutilitzar-los en veus
+        used_names_home = []
+        used_names_dona = []
+        noms_home_all, noms_dona_all = get_all_catalan_names()
+        for ch in (st.session_state.characters_detected or []):
+            # Obtenir nom del personatge (ja assignat per svision)
+            ch_name = ch.get("name", "")
+            if ch_name in noms_home_all:
+                used_names_home.append(ch_name)
+            elif ch_name in noms_dona_all:
+                used_names_dona.append(ch_name)
         # Agrupar per etiqueta
         segs = st.session_state.audio_segments or []
         vlabels = st.session_state.voice_labels or []
                 with c2:
                     name_key = f"{key_prefix}_name"
                     desc_key = f"{key_prefix}_desc"
+                    # Reutilitzar noms de caras
+                    default_name = get_catalan_name_for_speaker(lbl, used_names_home, used_names_dona)
                     st.text_input("Nom del clúster", value=st.session_state.get(name_key, default_name), key=name_key)
                     st.text_area("Descripció", value=st.session_state.get(desc_key, ""), key=desc_key, height=80)
                         "folder": ch.get("folder"),
                         "kept_files": kept,
                     })
+                # Extreure noms de caras per reutilitzar-los
+                used_names_home_fin = []
+                used_names_dona_fin = []
+                noms_home_all, noms_dona_all = get_all_catalan_names()
+                for cp in chars_payload:
+                    face_name = cp.get("name", "")
+                    if face_name in noms_home_all:
+                        used_names_home_fin.append(face_name)
+                    elif face_name in noms_dona_all:
+                        used_names_dona_fin.append(face_name)
                 # Agrupar segments d'àudio per etiqueta de veu
                 segs = st.session_state.audio_segments or []
                 vlabels = st.session_state.voice_labels or []
                     clip_local = seg.get("clip_path")
                     fname = _os.path.basename(clip_local) if clip_local else None
                     if fname:
+                        # Generar nombre catalán por defecto, reutilitzant noms de caras
+                        default_voice_name = get_catalan_name_for_speaker(int(lbl), used_names_home_fin, used_names_dona_fin) if isinstance(lbl, int) and lbl >= 0 else "UNKNOWN"
+                        voice_clusters.setdefault(lbl, {"label": lbl, "name": default_voice_name, "description": "", "clips": []})
                         # Incloure noms/descr. personalitzats del formulari si existeixen
                         if isinstance(lbl, int) and lbl >= 0:
                             vpref = f"voice_{int(lbl):02d}"
                     "description": desc,
                 })
+            # Extreure noms de caras per reutilitzar-los en veus
+            used_names_home_pers = []
+            used_names_dona_pers = []
+            noms_home_all, noms_dona_all = get_all_catalan_names()
+            for cp in chars_payload:
+                face_name = cp.get("name", "")
+                if face_name in noms_home_all:
+                    used_names_home_pers.append(face_name)
+                elif face_name in noms_dona_all:
+                    used_names_dona_pers.append(face_name)
             # Agrupar segments de veu per etiqueta i nom normalizado
             segs = st.session_state.audio_segments or []
             vlabels = st.session_state.voice_labels or []
                 if not (isinstance(lbl, int) and lbl >= 0):
                     continue
                 vpref = f"voice_{int(lbl):02d}"
+                # Generar nombre catalán por defecto para voces, reutilitzant noms de caras
+                default_voice_name = get_catalan_name_for_speaker(int(lbl), used_names_home_pers, used_names_dona_pers) if isinstance(lbl, int) and lbl >= 0 else f"SPEAKER_{int(lbl):02d}"
+                vname_custom = st.session_state.get(f"{vpref}_name") or default_voice_name
                 vname_normalized = normalize_name(vname_custom)
                 vdesc = st.session_state.get(f"{vpref}_desc", "").strip()
                 clip_local = seg.get("clip_path")