Spaces:

VeuReu
/

demo

Sleeping

App Files Files Community

VeuReu commited on Dec 1, 2025

Commit

e466757

verified ·

1 Parent(s): 5915cba

Upload 2 files

Browse files

Files changed (2) hide show

api_client.py +19 -0
page_modules/new_video_processing.py +39 -7

api_client.py CHANGED Viewed

@@ -163,6 +163,25 @@ class APIClient:
             return {"error": str(e)}
     # --- Initial transcription (generate_initial_srt_and_info + downloads) ---
     def generate_initial_srt_and_info(self, sha1sum: str) -> dict:

             return {"error": str(e)}
+    # --- Upload original video to engine media storage ---
+    def upload_original_video(self, video_bytes: bytes, video_name: str) -> dict:
+        """Sube el vídeo original al engine para procesamiento posterior.
+        Endpoint: POST /media/upload_original_video
+        El engine calcula el SHA1 y lo guarda en /data/media/<sha1>/clip/<video_name>
+        """
+        url = f"{self.base_url}/media/upload_original_video"
+        token = os.getenv("VEUREU_TOKEN", "")
+        try:
+            files = {"video": (video_name, video_bytes, "video/mp4")}
+            params = {"token": token}
+            r = self.session.post(url, files=files, params=params, timeout=self.timeout * 5)
+            r.raise_for_status()
+            return r.json() if r.headers.get("content-type", "").startswith("application/json") else {"status": "ok"}
+        except requests.exceptions.RequestException as e:
+            return {"error": str(e)}
     # --- Initial transcription (generate_initial_srt_and_info + downloads) ---
     def generate_initial_srt_and_info(self, sha1sum: str) -> dict:

page_modules/new_video_processing.py CHANGED Viewed

@@ -601,7 +601,8 @@ def render_process_video_page(api, backend_base_url: str) -> None:
                 st.session_state.casting_finalized = False
                 _log(f"[DETECT] Iniciando detección para vídeo: {v['name']}")
-                _log(f"[DETECT] Parámetros: face_k={face_max_groups}, face_min={face_min_cluster}, max_frames={max_frames}")
                 resp = api.create_initial_casting(
                     video_bytes=v["bytes"],
@@ -965,7 +966,7 @@ def render_process_video_page(api, backend_base_url: str) -> None:
                 with c2:
                     name_key = f"{key_prefix}_name"
                     desc_key = f"{key_prefix}_desc"
-                    default_name = get_catalan_name_for_speaker(lbl, used_names_home, used_names_dona)
                     st.text_input("Nom del clúster", value=st.session_state.get(name_key, default_name), key=name_key)
                     st.text_area("Descripció", value=st.session_state.get(desc_key, ""), key=desc_key, height=80)
@@ -979,7 +980,9 @@ def render_process_video_page(api, backend_base_url: str) -> None:
         if not scene_clusters:
             st.info("No s'han detectat clústers d'escenes en aquest clip.")
         else:
             for sidx, sc in enumerate(scene_clusters):
                 try:
                     folder_name = Path(sc.get("folder") or "").name
                 except Exception:
@@ -1002,12 +1005,24 @@ def render_process_video_page(api, backend_base_url: str) -> None:
                     cur = 0
                 st.session_state[f"{key_prefix}_idx"] = cur
                 fname = frames[cur]
                 if str(fname).startswith("/files/"):
                     img_url = f"{backend_base_url}/preprocessing{fname}"
                 else:
-                    base = sc.get("image_url") or ""
-                    base_dir = "/".join((base or "/").split("/")[:-1])
-                    img_url = f"{backend_base_url}/preprocessing{base_dir}/{fname}" if base_dir else f"{backend_base_url}/preprocessing/{fname}"
                 st.markdown(f"**{sidx+1}. Escena — {sc.get('num_frames', 0)} frames**")
                 spacer_col, main_content_col = st.columns([0.12, 0.88])
                 with spacer_col:
@@ -1176,7 +1191,7 @@ def render_process_video_page(api, backend_base_url: str) -> None:
                     clip_local = seg.get("clip_path")
                     fname = os.path.basename(clip_local) if clip_local else None
                     if fname:
-                        default_voice_name = get_catalan_name_for_speaker(int(lbl), used_names_home_fin, used_names_dona_fin)
                         voice_clusters.setdefault(lbl, {"label": lbl, "name": default_voice_name, "description": "", "clips": []})
                         vpref = f"voice_{int(lbl):02d}"
                         vname_custom = st.session_state.get(f"{vpref}_name")
@@ -1305,7 +1320,7 @@ def render_process_video_page(api, backend_base_url: str) -> None:
                 if not (isinstance(lbl, int) and lbl >= 0):
                     continue
                 vpref = f"voice_{int(lbl):02d}"
-                default_voice_name = get_catalan_name_for_speaker(int(lbl), used_names_home_pers, used_names_dona_pers) if isinstance(lbl, int) and lbl >= 0 else f"SPEAKER_{int(lbl):02d}"
                 vname_custom = st.session_state.get(f"{vpref}_name") or default_voice_name
                 vname_normalized = normalize_name(vname_custom)
                 vdesc = st.session_state.get(f"{vpref}_desc", "").strip()
@@ -1460,6 +1475,23 @@ def render_process_video_page(api, backend_base_url: str) -> None:
                                 except Exception as e_up:
                                     _log(f"[embeddings] Error pujant embeddings a engine: {e_up}")
                             # 2) Pipeline inicial: generate_initial_srt_and_info + descarregar fitxers
                             try:
                                 init_resp = api.generate_initial_srt_and_info(sha1)

                 st.session_state.casting_finalized = False
                 _log(f"[DETECT] Iniciando detección para vídeo: {v['name']}")
+                _log(f"[DETECT] Parámetros faces: k={face_max_groups}, min_cluster={face_min_cluster}, max_frames={max_frames}")
+                _log(f"[DETECT] Parámetros voices: k={voice_max_groups}, min_cluster={voice_min_cluster}")
                 resp = api.create_initial_casting(
                     video_bytes=v["bytes"],
                 with c2:
                     name_key = f"{key_prefix}_name"
                     desc_key = f"{key_prefix}_desc"
+                    default_name = f"SPEAKER_{lbl:02d}"
                     st.text_input("Nom del clúster", value=st.session_state.get(name_key, default_name), key=name_key)
                     st.text_area("Descripció", value=st.session_state.get(desc_key, ""), key=desc_key, height=80)
         if not scene_clusters:
             st.info("No s'han detectat clústers d'escenes en aquest clip.")
         else:
+            vname = st.session_state.video_name_from_engine
             for sidx, sc in enumerate(scene_clusters):
+                _log(f"[SCENE] Cluster {sidx}: keys={list(sc.keys())}, frame_files={sc.get('frame_files', [])[:3]}")
                 try:
                     folder_name = Path(sc.get("folder") or "").name
                 except Exception:
                     cur = 0
                 st.session_state[f"{key_prefix}_idx"] = cur
                 fname = frames[cur]
+                # Construir URL per a frames d'escenes (frames complets, no crops)
                 if str(fname).startswith("/files/"):
                     img_url = f"{backend_base_url}/preprocessing{fname}"
+                elif str(fname).startswith("http"):
+                    # URL absoluta
+                    img_url = fname
                 else:
+                    # Construir URL relativa usant video_name del engine
+                    if vname:
+                        img_url = f"{backend_base_url}/preprocessing/files/{vname}/frames/{fname}"
+                    else:
+                        base = sc.get("image_url") or sc.get("folder") or ""
+                        if base.startswith("/files/"):
+                            base_dir = "/".join(base.split("/")[:-1])
+                            img_url = f"{backend_base_url}/preprocessing{base_dir}/{fname}"
+                        else:
+                            img_url = f"{backend_base_url}/preprocessing/files/{fname}"
+                _log(f"[SCENE] img_url={img_url}, fname={fname}, vname={vname}")
                 st.markdown(f"**{sidx+1}. Escena — {sc.get('num_frames', 0)} frames**")
                 spacer_col, main_content_col = st.columns([0.12, 0.88])
                 with spacer_col:
                     clip_local = seg.get("clip_path")
                     fname = os.path.basename(clip_local) if clip_local else None
                     if fname:
+                        default_voice_name = f"SPEAKER_{int(lbl):02d}"
                         voice_clusters.setdefault(lbl, {"label": lbl, "name": default_voice_name, "description": "", "clips": []})
                         vpref = f"voice_{int(lbl):02d}"
                         vname_custom = st.session_state.get(f"{vpref}_name")
                 if not (isinstance(lbl, int) and lbl >= 0):
                     continue
                 vpref = f"voice_{int(lbl):02d}"
+                default_voice_name = f"SPEAKER_{int(lbl):02d}"
                 vname_custom = st.session_state.get(f"{vpref}_name") or default_voice_name
                 vname_normalized = normalize_name(vname_custom)
                 vdesc = st.session_state.get(f"{vpref}_desc", "").strip()
                                 except Exception as e_up:
                                     _log(f"[embeddings] Error pujant embeddings a engine: {e_up}")
+                            # 1.5) Pujar el vídeo original al engine (necessari per al pipeline)
+                            try:
+                                video_bytes = v.get("bytes")
+                                video_name = v.get("name", "video.mp4")
+                                if video_bytes:
+                                    upload_video_resp = api.upload_original_video(video_bytes, video_name)
+                                    _log(f"[upload_video] upload_original_video resp: {upload_video_resp}")
+                                    if isinstance(upload_video_resp, dict) and upload_video_resp.get("error"):
+                                        result_placeholder.error(f"❌ Error pujant vídeo a engine: {upload_video_resp.get('error')}")
+                                        return
+                                else:
+                                    _log("[upload_video] No hi ha bytes del vídeo per pujar")
+                            except Exception as e_vid:
+                                _log(f"[upload_video] Error pujant vídeo a engine: {e_vid}")
+                                result_placeholder.error(f"❌ Error pujant vídeo: {e_vid}")
+                                return
                             # 2) Pipeline inicial: generate_initial_srt_and_info + descarregar fitxers
                             try:
                                 init_resp = api.generate_initial_srt_and_info(sha1)