Spaces:

ZTXRiley
/

AUDIO_Inspection

Sleeping

App Files Files Community

unknown commited on 27 days ago

Commit

7273fb2

1 Parent(s): 9a5efb7

play3

Browse files

Files changed (1) hide show

app.py +468 -213

app.py CHANGED Viewed

@@ -1,6 +1,272 @@
-# import os
 # import re
-# import math
 # import tempfile
 # from dataclasses import dataclass
 # from typing import List, Dict
@@ -11,7 +277,7 @@
 # # =========================================================
-# # 基础配置（通用规则）
 # # =========================================================
 # MEDIA_EXTS = (".mp4", ".m4a", ".mp3", ".wav", ".flac", ".ogg", ".aac", ".mov", ".avi")
 # VTT_EXTS = (".vtt",)
@@ -53,16 +319,28 @@
 #     with open(path, "r", encoding="utf-8") as f:
 #         content = f.read()
-#     blocks = re.split(r"\r?\n\r?\n", content.replace("\ufeff", "").strip())
-#     cues = []
 #     for block in blocks:
-#         lines = [l for l in block.splitlines() if l.strip()]
-#         time_line = next((l for l in lines if "-->" in l), None)
-#         if not time_line:
 #             continue
-#         m = _VTT_TIME_RE.search(time_line)
 #         if not m:
 #             continue
@@ -71,13 +349,21 @@
 #         if end <= start:
 #             continue
-#         text = _strip_tags("\n".join(lines[1:]))
-#         if text:
-#             cues.append(Cue(start, end, text))
 #     return sorted(cues, key=lambda x: x.start)
 # # =========================================================
 # # 对齐逻辑
 # # =========================================================
@@ -87,13 +373,19 @@
 #         ma = (a[i].start + a[i].end) / 2
 #         mb = (b[j].start + b[j].end) / 2
 #         if abs(ma - mb) <= th:
-#             out.append({
-#                 "idx": idx,
-#                 "start": min(a[i].start, b[j].start),
-#                 "end": max(a[i].end, b[j].end),
-#                 "a": a[i],
-#                 "b": b[j],
-#             })
 #             idx += 1
 #             i += 1
 #             j += 1
@@ -108,21 +400,41 @@
 # # 播放工具
 # # =========================================================
 # def export_segment(audio: AudioSegment, start: float, end: float) -> str:
-#     seg = audio[int(start * 1000): int(end * 1000)]
 #     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
 #     seg.export(tmp.name, format="wav")
 #     return tmp.name
 # # =========================================================
-# # Gradio 回调
 # # =========================================================
 # def scan_dataset(repo_id: str, repo_type: str):
 #     if not repo_id:
 #         raise gr.Error("请填写 Dataset / Repo 名称。")
 #     files = list_repo_files(repo_id, repo_type=repo_type)
 #     media_files = sorted([f for f in files if f.lower().endswith(MEDIA_EXTS)])
 #     vtt_files = sorted([f for f in files if f.lower().endswith(VTT_EXTS)])
@@ -131,6 +443,7 @@
 #     if not vtt_files:
 #         raise gr.Error("Dataset 中未发现 VTT 文件。")
 #     return (
 #         gr.update(choices=media_files, value=media_files[0]),
 #         gr.update(choices=media_files, value=media_files[0]),
@@ -139,6 +452,9 @@
 #     )
 # def load_and_align(
 #     repo_id,
 #     repo_type,
@@ -151,28 +467,33 @@
 #     if not all([media_a_path, media_b_path, vtt_a_path, vtt_b_path]):
 #         raise gr.Error("请为 Track A / B 分别选择媒体文件和 VTT 文件。")
-#     media_a = AudioSegment.from_file(hf_hub_download(repo_id, media_a_path, repo_type=repo_type))
-#     media_b = AudioSegment.from_file(hf_hub_download(repo_id, media_b_path, repo_type=repo_type))
-#     cues_a = parse_vtt_file(hf_hub_download(repo_id, vtt_a_path, repo_type=repo_type))
-#     cues_b = parse_vtt_file(hf_hub_download(repo_id, vtt_b_path, repo_type=repo_type))
 #     if not cues_a or not cues_b:
-#         raise gr.Error("VTT 解析为空，请检查字幕文件。")
 #     aligned = align_by_time(cues_a, cues_b, th)
 #     if not aligned:
 #         raise gr.Error("未对齐到任何片段，请尝试增大对齐阈值。")
 #     rows = [
-#         [x["idx"], f'{x["start"]:.2f}-{x["end"]:.2f}', x["a"].text, x["b"].text]
 #         for x in aligned
 #     ]
 #     state = {
 #         "aligned": aligned,
-#         "audio_a": media_a,
-#         "audio_b": media_b,
 #     }
 #     stats = {
@@ -184,39 +505,76 @@
 #         "max_mid_diff_sec": th,
 #     }
-#     return rows, stats, state
-# def play_selected(df, row, state):
-#     if row is None:
-#         raise gr.Error("请先点击表格选择一行。")
-#     seg = state["aligned"][int(df[row][0]) - 1]
-#     a_wav = export_segment(state["audio_a"], seg["start"], seg["end"])
-#     b_wav = export_segment(state["audio_b"], seg["start"], seg["end"])
-#     return a_wav, b_wav
 # # =========================================================
 # # UI
 # # =========================================================
-# with gr.Blocks(title="双语音频字幕对比（UI 指定 Dataset / A-B 文件）") as demo:
 #     gr.Markdown(
-#         "# 🎧 双语音频字幕对比\n"
-#         "在 UI 中选择 Hugging Face Dataset，并分别指定 Track A / Track B 的媒体与字幕文件。"
 #     )
 #     state = gr.State()
-#     selected_row = gr.State()
 #     with gr.Row():
-#         repo_id = gr.Textbox(label="Dataset / Repo 名称", placeholder="org/dataset")
 #         repo_type = gr.Radio(["dataset", "model"], value="dataset", label="Repo 类型")
 #     btn_scan = gr.Button("扫描 Dataset", variant="primary")
 #     gr.Markdown("## Track A / Track B 文件选择（来自 Dataset）")
 #     with gr.Row():
 #         media_a = gr.Dropdown(label="Track A 媒体文件")
 #         media_b = gr.Dropdown(label="Track B 媒体文件")
@@ -243,24 +601,28 @@
 #     stats = gr.JSON(label="统计信息")
-#     btn_align.click(
-#         load_and_align,
-#         inputs=[repo_id, repo_type, media_a, media_b, vtt_a, vtt_b, th],
-#         outputs=[df, stats, state],
-#     )
-#     df.select(lambda e: e.index, None, selected_row)
-#     btn_play = gr.Button("播放选中片段", variant="primary")
 #     with gr.Row():
 #         a_out = gr.Audio(label="Track A 片段")
 #         b_out = gr.Audio(label="Track B 片段")
-#     btn_play.click(
-#         play_selected,
-#         inputs=[df, selected_row, state],
-#         outputs=[a_out, b_out],
 #     )
 # if __name__ == "__main__":
@@ -277,16 +639,15 @@ from pydub import AudioSegment
 # =========================================================
-# 通用配置
 # =========================================================
 MEDIA_EXTS = (".mp4", ".m4a", ".mp3", ".wav", ".flac", ".ogg", ".aac", ".mov", ".avi")
 VTT_EXTS = (".vtt",)
 DEFAULT_MAX_MID_DIFF = 1.5
 # =========================================================
-# 数据结构 & VTT 解析
 # =========================================================
 @dataclass
 class Cue:
@@ -295,6 +656,9 @@ class Cue:
     text: str
 _TAG_RE = re.compile(r"</?[^>]+?>", re.IGNORECASE)
 _VTT_TIME_RE = re.compile(
     r"(?P<start>\d{2}:\d{2}:\d{2}\.\d{3}|\d{1,2}:\d{2}\.\d{3})\s*-->\s*"
@@ -310,16 +674,13 @@ def _time_to_seconds(t: str) -> float:
     parts = t.split(":")
     if len(parts) == 3:
         return int(parts[0]) * 3600 + int(parts[1]) * 60 + float(parts[2])
-    if len(parts) == 2:
-        return int(parts[0]) * 60 + float(parts[1])
-    raise ValueError(t)
 def parse_vtt_file(path: str) -> List[Cue]:
     with open(path, "r", encoding="utf-8") as f:
         content = f.read()
-    # 去 BOM / WEBVTT 头
     content = content.replace("\ufeff", "")
     content = re.sub(r"^\s*WEBVTT.*?\n", "", content, flags=re.IGNORECASE)
@@ -331,7 +692,6 @@ def parse_vtt_file(path: str) -> List[Cue]:
         if not lines:
             continue
-        # 找时间轴行（必须包含 -->）
         time_idx = None
         for i, line in enumerate(lines):
             if "-->" in line:
@@ -349,23 +709,19 @@ def parse_vtt_file(path: str) -> List[Cue]:
         if end <= start:
             continue
-        # ✅ 只取时间轴行之后的内容作为字幕
         text_lines = lines[time_idx + 1 :]
         if not text_lines:
             continue
-        text = _strip_tags("\n".join(text_lines)).strip()
-        if not text:
-            continue
-        cues.append(Cue(start=start, end=end, text=text))
     return sorted(cues, key=lambda x: x.start)
 # =========================================================
-# 对齐逻辑
 # =========================================================
 def align_by_time(a: List[Cue], b: List[Cue], th: float) -> List[Dict]:
     out, i, j, idx = [], 0, 0, 1
@@ -378,10 +734,6 @@ def align_by_time(a: List[Cue], b: List[Cue], th: float) -> List[Dict]:
                     "idx": idx,
                     "start": min(a[i].start, b[j].start),
                     "end": max(a[i].end, b[j].end),
-                    "a_start": a[i].start,
-                    "a_end": a[i].end,
-                    "b_start": b[j].start,
-                    "b_end": b[j].end,
                     "a_text": a[i].text,
                     "b_text": b[j].text,
                 }
@@ -397,53 +749,29 @@ def align_by_time(a: List[Cue], b: List[Cue], th: float) -> List[Dict]:
 # =========================================================
-# 播放工具
 # =========================================================
 def export_segment(audio: AudioSegment, start: float, end: float) -> str:
-    start_ms = int(max(0.0, start) * 1000)
-    end_ms = int(max(start + 0.01, end) * 1000)
-    seg = audio[start_ms:end_ms]
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
     seg.export(tmp.name, format="wav")
     return tmp.name
-def pick_window(seg: Dict, mode: str, off_a: float, off_b: float):
-    if mode == "global":
-        a_start, a_end = seg["start"], seg["end"]
-        b_start, b_end = seg["start"], seg["end"]
-    else:
-        a_start, a_end = seg["a_start"], seg["a_end"]
-        b_start, b_end = seg["b_start"], seg["b_end"]
-    a_start, a_end = a_start + off_a, a_end + off_a
-    b_start, b_end = b_start + off_b, b_end + off_b
-    a_start = max(0.0, a_start)
-    b_start = max(0.0, b_start)
-    a_end = max(a_start + 0.01, a_end)
-    b_end = max(b_start + 0.01, b_end)
-    return a_start, a_end, b_start, b_end
 # =========================================================
-# Gradio 回调：扫描 Dataset
 # =========================================================
 def scan_dataset(repo_id: str, repo_type: str):
     if not repo_id:
         raise gr.Error("请填写 Dataset / Repo 名称。")
     files = list_repo_files(repo_id, repo_type=repo_type)
-    media_files = sorted([f for f in files if f.lower().endswith(MEDIA_EXTS)])
-    vtt_files = sorted([f for f in files if f.lower().endswith(VTT_EXTS)])
-    if not media_files:
-        raise gr.Error("Dataset 中未发现媒体文件。")
-    if not vtt_files:
-        raise gr.Error("Dataset 中未发现 VTT 文件。")
-    # 默认都选第一个（用户可再改）
     return (
         gr.update(choices=media_files, value=media_files[0]),
         gr.update(choices=media_files, value=media_files[0]),
@@ -452,38 +780,16 @@ def scan_dataset(repo_id: str, repo_type: str):
     )
-# =========================================================
-# Gradio 回调：加载并对齐
-# =========================================================
-def load_and_align(
-    repo_id,
-    repo_type,
-    media_a_path,
-    media_b_path,
-    vtt_a_path,
-    vtt_b_path,
-    th,
-):
-    if not all([media_a_path, media_b_path, vtt_a_path, vtt_b_path]):
-        raise gr.Error("请为 Track A / B 分别选择媒体文件和 VTT 文件。")
-    local_media_a = hf_hub_download(repo_id, media_a_path, repo_type=repo_type)
-    local_media_b = hf_hub_download(repo_id, media_b_path, repo_type=repo_type)
-    local_vtt_a = hf_hub_download(repo_id, vtt_a_path, repo_type=repo_type)
-    local_vtt_b = hf_hub_download(repo_id, vtt_b_path, repo_type=repo_type)
-    audio_a = AudioSegment.from_file(local_media_a)
-    audio_b = AudioSegment.from_file(local_media_b)
-    cues_a = parse_vtt_file(local_vtt_a)
-    cues_b = parse_vtt_file(local_vtt_b)
-    if not cues_a or not cues_b:
-        raise gr.Error("VTT 解析为空，请检查字幕文件内容。")
     aligned = align_by_time(cues_a, cues_b, th)
     if not aligned:
-        raise gr.Error("未对齐到任何片段，请尝试增大对齐阈值。")
     rows = [
         [x["idx"], f'{x["start"]:.2f}-{x["end"]:.2f}', x["a_text"], x["b_text"]]
@@ -496,92 +802,49 @@ def load_and_align(
         "audio_b": audio_b,
     }
-    stats = {
-        "track_a_media": media_a_path,
-        "track_b_media": media_b_path,
-        "track_a_vtt": vtt_a_path,
-        "track_b_vtt": vtt_b_path,
-        "aligned_segments": len(aligned),
-        "max_mid_diff_sec": th,
-    }
-    # 注意：对齐后清空播放器 & 播放信息，避免旧内容误导
-    return rows, stats, state, None, None, {}
-# =========================================================
-# Gradio 回调：选择即播放
-# =========================================================
-def play_on_select(
-    evt: gr.SelectData,
-    df_value,
-    play_mode,
-    crop_mode,
-    offset_a,
-    offset_b,
-    state,
-):
-    if not state or "aligned" not in state:
         raise gr.Error("请先加载并对齐。")
-    idx_raw = evt.index
-    row = int(idx_raw[0] if isinstance(idx_raw, (tuple, list)) else idx_raw)
-    if not df_value or row < 0 or row >= len(df_value):
-        raise gr.Error("无法读取选中行，请重试。")
     seg_idx = int(df_value[row][0])
     seg = state["aligned"][seg_idx - 1]
-    a_start, a_end, b_start, b_end = pick_window(
-        seg, crop_mode, float(offset_a), float(offset_b)
-    )
-    a_wav = export_segment(state["audio_a"], a_start, a_end)
-    b_wav = export_segment(state["audio_b"], b_start, b_end)
     info = {
         "segment": seg_idx,
-        "play_mode": play_mode,
-        "A_time": f"{a_start:.2f}-{a_end:.2f}",
-        "B_time": f"{b_start:.2f}-{b_end:.2f}",
     }
-    # ✅ 关键修复：不要返回 None
-    if play_mode == "A":
-        return a_wav, gr.update(value=None), info
-    elif play_mode == "B":
-        return gr.update(value=None), b_wav, info
-    else:
-        return a_wav, b_wav, info
 # =========================================================
 # UI
 # =========================================================
-with gr.Blocks(title="双语音频字幕对比（选择即播放）") as demo:
-    gr.Markdown(
-        "# 🎧 双语音频字幕对比（选择即播放）\n"
-        "步骤：扫描 Dataset → 分别选择 A/B 媒体与字幕 → 加载并对齐 → **点击表格任意单元格即可播放片段**"
-    )
     state = gr.State()
     with gr.Row():
-        repo_id = gr.Textbox(label="Dataset / Repo 名称", placeholder="org/dataset 或 org/repo")
         repo_type = gr.Radio(["dataset", "model"], value="dataset", label="Repo 类型")
     btn_scan = gr.Button("扫描 Dataset", variant="primary")
-    gr.Markdown("## Track A / Track B 文件选择（来自 Dataset）")
     with gr.Row():
-        media_a = gr.Dropdown(label="Track A 媒体文件")
-        media_b = gr.Dropdown(label="Track B 媒体文件")
     with gr.Row():
-        vtt_a = gr.Dropdown(label="Track A VTT 文件")
-        vtt_b = gr.Dropdown(label="Track B VTT 文件")
     btn_scan.click(
         scan_dataset,
@@ -589,39 +852,31 @@ with gr.Blocks(title="双语音频字幕对比（选择即播放）") as demo:
         outputs=[media_a, media_b, vtt_a, vtt_b],
     )
-    th = gr.Slider(0.3, 5.0, value=DEFAULT_MAX_MID_DIFF, step=0.1, label="字幕对齐阈值（秒）")
     btn_align = gr.Button("加载并对齐", variant="primary")
     df = gr.Dataframe(
-        headers=["#", "Global Time", "Track A", "Track B"],
         interactive=True,
         wrap=True,
         max_height=520,
     )
-    stats = gr.JSON(label="统计信息")
-    gr.Markdown("## ▶ 播放参数（点击表格即可按这些参数播放）")
-    play_mode = gr.Radio(["A", "B", "同时"], value="同时", label="播放模式")
-    crop_mode = gr.Radio(["global", "per_track"], value="global", label="裁剪方式")
-    offset_a = gr.Slider(-10, 10, value=0, step=0.1, label="Track A 偏移(s)")
-    offset_b = gr.Slider(-10, 10, value=0, step=0.1, label="Track B 偏移(s)")
     with gr.Row():
         a_out = gr.Audio(label="Track A 片段")
         b_out = gr.Audio(label="Track B 片段")
-    play_info = gr.JSON(label="播放信息")
-    btn_align.click(
-        load_and_align,
-        inputs=[repo_id, repo_type, media_a, media_b, vtt_a, vtt_b, th],
-        outputs=[df, stats, state, a_out, b_out, play_info],
-    )
-    # ✅ 关键：选择即播放（不再需要“播放选中片段”按钮）
     df.select(
-        fn=play_on_select,
-        inputs=[df, play_mode, crop_mode, offset_a, offset_b, state],
         outputs=[a_out, b_out, play_info],
     )

+# # import os
+# # import re
+# # import math
+# # import tempfile
+# # from dataclasses import dataclass
+# # from typing import List, Dict
+# # import gradio as gr
+# # from huggingface_hub import list_repo_files, hf_hub_download
+# # from pydub import AudioSegment
+# # # =========================================================
+# # # 基础配置（通用规则）
+# # # =========================================================
+# # MEDIA_EXTS = (".mp4", ".m4a", ".mp3", ".wav", ".flac", ".ogg", ".aac", ".mov", ".avi")
+# # VTT_EXTS = (".vtt",)
+# # DEFAULT_MAX_MID_DIFF = 1.5
+# # # =========================================================
+# # # 数据结构 & VTT 解析
+# # # =========================================================
+# # @dataclass
+# # class Cue:
+# #     start: float
+# #     end: float
+# #     text: str
+# # _TAG_RE = re.compile(r"</?[^>]+?>", re.IGNORECASE)
+# # _VTT_TIME_RE = re.compile(
+# #     r"(?P<start>\d{2}:\d{2}:\d{2}\.\d{3}|\d{1,2}:\d{2}\.\d{3})\s*-->\s*"
+# #     r"(?P<end>\d{2}:\d{2}:\d{2}\.\d{3}|\d{1,2}:\d{2}\.\d{3})"
+# # )
+# # def _strip_tags(text: str) -> str:
+# #     return _TAG_RE.sub("", text).strip()
+# # def _time_to_seconds(t: str) -> float:
+# #     parts = t.split(":")
+# #     if len(parts) == 3:
+# #         return int(parts[0]) * 3600 + int(parts[1]) * 60 + float(parts[2])
+# #     if len(parts) == 2:
+# #         return int(parts[0]) * 60 + float(parts[1])
+# #     raise ValueError(t)
+# # def parse_vtt_file(path: str) -> List[Cue]:
+# #     with open(path, "r", encoding="utf-8") as f:
+# #         content = f.read()
+# #     blocks = re.split(r"\r?\n\r?\n", content.replace("\ufeff", "").strip())
+# #     cues = []
+# #     for block in blocks:
+# #         lines = [l for l in block.splitlines() if l.strip()]
+# #         time_line = next((l for l in lines if "-->" in l), None)
+# #         if not time_line:
+# #             continue
+# #         m = _VTT_TIME_RE.search(time_line)
+# #         if not m:
+# #             continue
+# #         start = _time_to_seconds(m.group("start"))
+# #         end = _time_to_seconds(m.group("end"))
+# #         if end <= start:
+# #             continue
+# #         text = _strip_tags("\n".join(lines[1:]))
+# #         if text:
+# #             cues.append(Cue(start, end, text))
+# #     return sorted(cues, key=lambda x: x.start)
+# # # =========================================================
+# # # 对齐逻辑
+# # # =========================================================
+# # def align_by_time(a: List[Cue], b: List[Cue], th: float) -> List[Dict]:
+# #     out, i, j, idx = [], 0, 0, 1
+# #     while i < len(a) and j < len(b):
+# #         ma = (a[i].start + a[i].end) / 2
+# #         mb = (b[j].start + b[j].end) / 2
+# #         if abs(ma - mb) <= th:
+# #             out.append({
+# #                 "idx": idx,
+# #                 "start": min(a[i].start, b[j].start),
+# #                 "end": max(a[i].end, b[j].end),
+# #                 "a": a[i],
+# #                 "b": b[j],
+# #             })
+# #             idx += 1
+# #             i += 1
+# #             j += 1
+# #         elif ma < mb:
+# #             i += 1
+# #         else:
+# #             j += 1
+# #     return out
+# # # =========================================================
+# # # 播放工具
+# # # =========================================================
+# # def export_segment(audio: AudioSegment, start: float, end: float) -> str:
+# #     seg = audio[int(start * 1000): int(end * 1000)]
+# #     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
+# #     seg.export(tmp.name, format="wav")
+# #     return tmp.name
+# # # =========================================================
+# # # Gradio 回调
+# # # =========================================================
+# # def scan_dataset(repo_id: str, repo_type: str):
+# #     if not repo_id:
+# #         raise gr.Error("请填写 Dataset / Repo 名称。")
+# #     files = list_repo_files(repo_id, repo_type=repo_type)
+# #     media_files = sorted([f for f in files if f.lower().endswith(MEDIA_EXTS)])
+# #     vtt_files = sorted([f for f in files if f.lower().endswith(VTT_EXTS)])
+# #     if not media_files:
+# #         raise gr.Error("Dataset 中未发现媒体文件。")
+# #     if not vtt_files:
+# #         raise gr.Error("Dataset 中未发现 VTT 文件。")
+# #     return (
+# #         gr.update(choices=media_files, value=media_files[0]),
+# #         gr.update(choices=media_files, value=media_files[0]),
+# #         gr.update(choices=vtt_files, value=vtt_files[0]),
+# #         gr.update(choices=vtt_files, value=vtt_files[0]),
+# #     )
+# # def load_and_align(
+# #     repo_id,
+# #     repo_type,
+# #     media_a_path,
+# #     media_b_path,
+# #     vtt_a_path,
+# #     vtt_b_path,
+# #     th,
+# # ):
+# #     if not all([media_a_path, media_b_path, vtt_a_path, vtt_b_path]):
+# #         raise gr.Error("请为 Track A / B 分别选择媒体文件和 VTT 文件。")
+# #     media_a = AudioSegment.from_file(hf_hub_download(repo_id, media_a_path, repo_type=repo_type))
+# #     media_b = AudioSegment.from_file(hf_hub_download(repo_id, media_b_path, repo_type=repo_type))
+# #     cues_a = parse_vtt_file(hf_hub_download(repo_id, vtt_a_path, repo_type=repo_type))
+# #     cues_b = parse_vtt_file(hf_hub_download(repo_id, vtt_b_path, repo_type=repo_type))
+# #     if not cues_a or not cues_b:
+# #         raise gr.Error("VTT 解析为空，请检查字幕文件。")
+# #     aligned = align_by_time(cues_a, cues_b, th)
+# #     if not aligned:
+# #         raise gr.Error("未对齐到任何片段，请尝试增大对齐阈值。")
+# #     rows = [
+# #         [x["idx"], f'{x["start"]:.2f}-{x["end"]:.2f}', x["a"].text, x["b"].text]
+# #         for x in aligned
+# #     ]
+# #     state = {
+# #         "aligned": aligned,
+# #         "audio_a": media_a,
+# #         "audio_b": media_b,
+# #     }
+# #     stats = {
+# #         "track_a_media": media_a_path,
+# #         "track_b_media": media_b_path,
+# #         "track_a_vtt": vtt_a_path,
+# #         "track_b_vtt": vtt_b_path,
+# #         "aligned_segments": len(aligned),
+# #         "max_mid_diff_sec": th,
+# #     }
+# #     return rows, stats, state
+# # def play_selected(df, row, state):
+# #     if row is None:
+# #         raise gr.Error("请先点击表格选择一行。")
+# #     seg = state["aligned"][int(df[row][0]) - 1]
+# #     a_wav = export_segment(state["audio_a"], seg["start"], seg["end"])
+# #     b_wav = export_segment(state["audio_b"], seg["start"], seg["end"])
+# #     return a_wav, b_wav
+# # # =========================================================
+# # # UI
+# # # =========================================================
+# # with gr.Blocks(title="双语音频字幕对比（UI 指定 Dataset / A-B 文件）") as demo:
+# #     gr.Markdown(
+# #         "# 🎧 双语音频字幕对比\n"
+# #         "在 UI 中选择 Hugging Face Dataset，并分别指定 Track A / Track B 的媒体与字幕文件。"
+# #     )
+# #     state = gr.State()
+# #     selected_row = gr.State()
+# #     with gr.Row():
+# #         repo_id = gr.Textbox(label="Dataset / Repo 名称", placeholder="org/dataset")
+# #         repo_type = gr.Radio(["dataset", "model"], value="dataset", label="Repo 类型")
+# #     btn_scan = gr.Button("扫描 Dataset", variant="primary")
+# #     gr.Markdown("## Track A / Track B 文件选择（来自 Dataset）")
+# #     with gr.Row():
+# #         media_a = gr.Dropdown(label="Track A 媒体文件")
+# #         media_b = gr.Dropdown(label="Track B 媒体文件")
+# #     with gr.Row():
+# #         vtt_a = gr.Dropdown(label="Track A VTT 文件")
+# #         vtt_b = gr.Dropdown(label="Track B VTT 文件")
+# #     btn_scan.click(
+# #         scan_dataset,
+# #         inputs=[repo_id, repo_type],
+# #         outputs=[media_a, media_b, vtt_a, vtt_b],
+# #     )
+# #     th = gr.Slider(0.3, 5.0, value=DEFAULT_MAX_MID_DIFF, step=0.1, label="字幕对齐阈值（秒）")
+# #     btn_align = gr.Button("加载并对齐", variant="primary")
+# #     df = gr.Dataframe(
+# #         headers=["#", "Global Time", "Track A", "Track B"],
+# #         interactive=True,
+# #         wrap=True,
+# #         max_height=520,
+# #     )
+# #     stats = gr.JSON(label="统计信息")
+# #     btn_align.click(
+# #         load_and_align,
+# #         inputs=[repo_id, repo_type, media_a, media_b, vtt_a, vtt_b, th],
+# #         outputs=[df, stats, state],
+# #     )
+# #     df.select(lambda e: e.index, None, selected_row)
+# #     btn_play = gr.Button("播放选中片段", variant="primary")
+# #     with gr.Row():
+# #         a_out = gr.Audio(label="Track A 片段")
+# #         b_out = gr.Audio(label="Track B 片段")
+# #     btn_play.click(
+# #         play_selected,
+# #         inputs=[df, selected_row, state],
+# #         outputs=[a_out, b_out],
+# #     )
+# # if __name__ == "__main__":
+# #     demo.launch()
 # import re
 # import tempfile
 # from dataclasses import dataclass
 # from typing import List, Dict
 # # =========================================================
+# # 通用配置
 # # =========================================================
 # MEDIA_EXTS = (".mp4", ".m4a", ".mp3", ".wav", ".flac", ".ogg", ".aac", ".mov", ".avi")
 # VTT_EXTS = (".vtt",)
 #     with open(path, "r", encoding="utf-8") as f:
 #         content = f.read()
+#     # 去 BOM / WEBVTT 头
+#     content = content.replace("\ufeff", "")
+#     content = re.sub(r"^\s*WEBVTT.*?\n", "", content, flags=re.IGNORECASE)
+#     blocks = re.split(r"\r?\n\r?\n", content.strip())
+#     cues: List[Cue] = []
 #     for block in blocks:
+#         lines = [l.strip() for l in block.splitlines() if l.strip()]
+#         if not lines:
+#             continue
+#         # 找时间轴行（必须包含 -->）
+#         time_idx = None
+#         for i, line in enumerate(lines):
+#             if "-->" in line:
+#                 time_idx = i
+#                 break
+#         if time_idx is None:
 #             continue
+#         m = _VTT_TIME_RE.search(lines[time_idx])
 #         if not m:
 #             continue
 #         if end <= start:
 #             continue
+#         # ✅ 只取时间轴行之后的内容作为字幕
+#         text_lines = lines[time_idx + 1 :]
+#         if not text_lines:
+#             continue
+#         text = _strip_tags("\n".join(text_lines)).strip()
+#         if not text:
+#             continue
+#         cues.append(Cue(start=start, end=end, text=text))
 #     return sorted(cues, key=lambda x: x.start)
 # # =========================================================
 # # 对齐逻辑
 # # =========================================================
 #         ma = (a[i].start + a[i].end) / 2
 #         mb = (b[j].start + b[j].end) / 2
 #         if abs(ma - mb) <= th:
+#             out.append(
+#                 {
+#                     "idx": idx,
+#                     "start": min(a[i].start, b[j].start),
+#                     "end": max(a[i].end, b[j].end),
+#                     "a_start": a[i].start,
+#                     "a_end": a[i].end,
+#                     "b_start": b[j].start,
+#                     "b_end": b[j].end,
+#                     "a_text": a[i].text,
+#                     "b_text": b[j].text,
+#                 }
+#             )
 #             idx += 1
 #             i += 1
 #             j += 1
 # # 播放工具
 # # =========================================================
 # def export_segment(audio: AudioSegment, start: float, end: float) -> str:
+#     start_ms = int(max(0.0, start) * 1000)
+#     end_ms = int(max(start + 0.01, end) * 1000)
+#     seg = audio[start_ms:end_ms]
 #     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
 #     seg.export(tmp.name, format="wav")
 #     return tmp.name
+# def pick_window(seg: Dict, mode: str, off_a: float, off_b: float):
+#     if mode == "global":
+#         a_start, a_end = seg["start"], seg["end"]
+#         b_start, b_end = seg["start"], seg["end"]
+#     else:
+#         a_start, a_end = seg["a_start"], seg["a_end"]
+#         b_start, b_end = seg["b_start"], seg["b_end"]
+#     a_start, a_end = a_start + off_a, a_end + off_a
+#     b_start, b_end = b_start + off_b, b_end + off_b
+#     a_start = max(0.0, a_start)
+#     b_start = max(0.0, b_start)
+#     a_end = max(a_start + 0.01, a_end)
+#     b_end = max(b_start + 0.01, b_end)
+#     return a_start, a_end, b_start, b_end
 # # =========================================================
+# # Gradio 回调：扫描 Dataset
 # # =========================================================
 # def scan_dataset(repo_id: str, repo_type: str):
 #     if not repo_id:
 #         raise gr.Error("请填写 Dataset / Repo 名称。")
 #     files = list_repo_files(repo_id, repo_type=repo_type)
 #     media_files = sorted([f for f in files if f.lower().endswith(MEDIA_EXTS)])
 #     vtt_files = sorted([f for f in files if f.lower().endswith(VTT_EXTS)])
 #     if not vtt_files:
 #         raise gr.Error("Dataset 中未发现 VTT 文件。")
+#     # 默认都选第一个（用户可再改）
 #     return (
 #         gr.update(choices=media_files, value=media_files[0]),
 #         gr.update(choices=media_files, value=media_files[0]),
 #     )
+# # =========================================================
+# # Gradio 回调：加载并对齐
+# # =========================================================
 # def load_and_align(
 #     repo_id,
 #     repo_type,
 #     if not all([media_a_path, media_b_path, vtt_a_path, vtt_b_path]):
 #         raise gr.Error("请为 Track A / B 分别选择媒体文件和 VTT 文件。")
+#     local_media_a = hf_hub_download(repo_id, media_a_path, repo_type=repo_type)
+#     local_media_b = hf_hub_download(repo_id, media_b_path, repo_type=repo_type)
+#     local_vtt_a = hf_hub_download(repo_id, vtt_a_path, repo_type=repo_type)
+#     local_vtt_b = hf_hub_download(repo_id, vtt_b_path, repo_type=repo_type)
+#     audio_a = AudioSegment.from_file(local_media_a)
+#     audio_b = AudioSegment.from_file(local_media_b)
+#     cues_a = parse_vtt_file(local_vtt_a)
+#     cues_b = parse_vtt_file(local_vtt_b)
 #     if not cues_a or not cues_b:
+#         raise gr.Error("VTT 解析为空，请检查字幕文件内容。")
 #     aligned = align_by_time(cues_a, cues_b, th)
 #     if not aligned:
 #         raise gr.Error("未对齐到任何片段，请尝试增大对齐阈值。")
 #     rows = [
+#         [x["idx"], f'{x["start"]:.2f}-{x["end"]:.2f}', x["a_text"], x["b_text"]]
 #         for x in aligned
 #     ]
 #     state = {
 #         "aligned": aligned,
+#         "audio_a": audio_a,
+#         "audio_b": audio_b,
 #     }
 #     stats = {
 #         "max_mid_diff_sec": th,
 #     }
+#     # 注意：对齐后清空播放器 & 播放信息，避免旧内容误导
+#     return rows, stats, state, None, None, {}
+# # =========================================================
+# # Gradio 回调：选择即播放
+# # =========================================================
+# def play_on_select(
+#     evt: gr.SelectData,
+#     df_value,
+#     play_mode,
+#     crop_mode,
+#     offset_a,
+#     offset_b,
+#     state,
+# ):
+#     if not state or "aligned" not in state:
+#         raise gr.Error("请先加载并对齐。")
+#     idx_raw = evt.index
+#     row = int(idx_raw[0] if isinstance(idx_raw, (tuple, list)) else idx_raw)
+#     if not df_value or row < 0 or row >= len(df_value):
+#         raise gr.Error("无法读取选中行，请重试。")
+#     seg_idx = int(df_value[row][0])
+#     seg = state["aligned"][seg_idx - 1]
+#     a_start, a_end, b_start, b_end = pick_window(
+#         seg, crop_mode, float(offset_a), float(offset_b)
+#     )
+#     a_wav = export_segment(state["audio_a"], a_start, a_end)
+#     b_wav = export_segment(state["audio_b"], b_start, b_end)
+#     info = {
+#         "segment": seg_idx,
+#         "play_mode": play_mode,
+#         "A_time": f"{a_start:.2f}-{a_end:.2f}",
+#         "B_time": f"{b_start:.2f}-{b_end:.2f}",
+#     }
+#     # ✅ 关键修复：不要返回 None
+#     if play_mode == "A":
+#         return a_wav, gr.update(value=None), info
+#     elif play_mode == "B":
+#         return gr.update(value=None), b_wav, info
+#     else:
+#         return a_wav, b_wav, info
 # # =========================================================
 # # UI
 # # =========================================================
+# with gr.Blocks(title="双语音频字幕对比（选择即播放）") as demo:
 #     gr.Markdown(
+#         "# 🎧 双语音频字幕对比（选择即播放）\n"
+#         "步骤：扫描 Dataset → 分别选择 A/B 媒体与字幕 → 加载并对齐 → **点击表格任意单元格即可播放片段**"
 #     )
 #     state = gr.State()
 #     with gr.Row():
+#         repo_id = gr.Textbox(label="Dataset / Repo 名称", placeholder="org/dataset 或 org/repo")
 #         repo_type = gr.Radio(["dataset", "model"], value="dataset", label="Repo 类型")
 #     btn_scan = gr.Button("扫描 Dataset", variant="primary")
 #     gr.Markdown("## Track A / Track B 文件选择（来自 Dataset）")
 #     with gr.Row():
 #         media_a = gr.Dropdown(label="Track A 媒体文件")
 #         media_b = gr.Dropdown(label="Track B 媒体文件")
 #     stats = gr.JSON(label="统计信息")
+#     gr.Markdown("## ▶ 播放参数（点击表格即可按这���参数播放）")
+#     play_mode = gr.Radio(["A", "B", "同时"], value="同时", label="播放模式")
+#     crop_mode = gr.Radio(["global", "per_track"], value="global", label="裁剪方式")
+#     offset_a = gr.Slider(-10, 10, value=0, step=0.1, label="Track A 偏移(s)")
+#     offset_b = gr.Slider(-10, 10, value=0, step=0.1, label="Track B 偏移(s)")
 #     with gr.Row():
 #         a_out = gr.Audio(label="Track A 片段")
 #         b_out = gr.Audio(label="Track B 片段")
+#     play_info = gr.JSON(label="播放信息")
+#     btn_align.click(
+#         load_and_align,
+#         inputs=[repo_id, repo_type, media_a, media_b, vtt_a, vtt_b, th],
+#         outputs=[df, stats, state, a_out, b_out, play_info],
+#     )
+#     # ✅ 关键：选择即播放（不再需要“播放选中片段”按钮）
+#     df.select(
+#         fn=play_on_select,
+#         inputs=[df, play_mode, crop_mode, offset_a, offset_b, state],
+#         outputs=[a_out, b_out, play_info],
 #     )
 # if __name__ == "__main__":
 # =========================================================
+# 基本配置
 # =========================================================
 MEDIA_EXTS = (".mp4", ".m4a", ".mp3", ".wav", ".flac", ".ogg", ".aac", ".mov", ".avi")
 VTT_EXTS = (".vtt",)
 DEFAULT_MAX_MID_DIFF = 1.5
 # =========================================================
+# 数据结构
 # =========================================================
 @dataclass
 class Cue:
     text: str
+# =========================================================
+# VTT 解析（只保留纯字幕）
+# =========================================================
 _TAG_RE = re.compile(r"</?[^>]+?>", re.IGNORECASE)
 _VTT_TIME_RE = re.compile(
     r"(?P<start>\d{2}:\d{2}:\d{2}\.\d{3}|\d{1,2}:\d{2}\.\d{3})\s*-->\s*"
     parts = t.split(":")
     if len(parts) == 3:
         return int(parts[0]) * 3600 + int(parts[1]) * 60 + float(parts[2])
+    return int(parts[0]) * 60 + float(parts[1])
 def parse_vtt_file(path: str) -> List[Cue]:
     with open(path, "r", encoding="utf-8") as f:
         content = f.read()
     content = content.replace("\ufeff", "")
     content = re.sub(r"^\s*WEBVTT.*?\n", "", content, flags=re.IGNORECASE)
         if not lines:
             continue
         time_idx = None
         for i, line in enumerate(lines):
             if "-->" in line:
         if end <= start:
             continue
         text_lines = lines[time_idx + 1 :]
         if not text_lines:
             continue
+        text = _strip_tags("\n".join(text_lines))
+        if text:
+            cues.append(Cue(start=start, end=end, text=text))
     return sorted(cues, key=lambda x: x.start)
 # =========================================================
+# 字幕对齐（按时间中点）
 # =========================================================
 def align_by_time(a: List[Cue], b: List[Cue], th: float) -> List[Dict]:
     out, i, j, idx = [], 0, 0, 1
                     "idx": idx,
                     "start": min(a[i].start, b[j].start),
                     "end": max(a[i].end, b[j].end),
                     "a_text": a[i].text,
                     "b_text": b[j].text,
                 }
 # =========================================================
+# 音频切片
 # =========================================================
 def export_segment(audio: AudioSegment, start: float, end: float) -> str:
+    seg = audio[int(start * 1000) : int(end * 1000)]
     tmp = tempfile.NamedTemporaryFile(delete=False, suffix=".wav")
     seg.export(tmp.name, format="wav")
     return tmp.name
 # =========================================================
+# Gradio 回调
 # =========================================================
 def scan_dataset(repo_id: str, repo_type: str):
     if not repo_id:
         raise gr.Error("请填写 Dataset / Repo 名称。")
     files = list_repo_files(repo_id, repo_type=repo_type)
+    media_files = [f for f in files if f.lower().endswith(MEDIA_EXTS)]
+    vtt_files = [f for f in files if f.lower().endswith(VTT_EXTS)]
+    if not media_files or not vtt_files:
+        raise gr.Error("Dataset 中未找到媒体文件或 VTT 文件。")
     return (
         gr.update(choices=media_files, value=media_files[0]),
         gr.update(choices=media_files, value=media_files[0]),
     )
+def load_and_align(repo_id, repo_type, media_a, media_b, vtt_a, vtt_b, th):
+    audio_a = AudioSegment.from_file(hf_hub_download(repo_id, media_a, repo_type=repo_type))
+    audio_b = AudioSegment.from_file(hf_hub_download(repo_id, media_b, repo_type=repo_type))
+    cues_a = parse_vtt_file(hf_hub_download(repo_id, vtt_a, repo_type=repo_type))
+    cues_b = parse_vtt_file(hf_hub_download(repo_id, vtt_b, repo_type=repo_type))
     aligned = align_by_time(cues_a, cues_b, th)
     if not aligned:
+        raise gr.Error("未对齐到任何字幕片段。")
     rows = [
         [x["idx"], f'{x["start"]:.2f}-{x["end"]:.2f}', x["a_text"], x["b_text"]]
         "audio_b": audio_b,
     }
+    return rows, state, None, None
+def play_on_select(evt: gr.SelectData, df_value, state):
+    if not state:
         raise gr.Error("请先加载并对齐。")
+    row = evt.index[0] if isinstance(evt.index, (tuple, list)) else evt.index
     seg_idx = int(df_value[row][0])
     seg = state["aligned"][seg_idx - 1]
+    a_wav = export_segment(state["audio_a"], seg["start"], seg["end"])
+    b_wav = export_segment(state["audio_b"], seg["start"], seg["end"])
     info = {
         "segment": seg_idx,
+        "time": f'{seg["start"]:.2f} - {seg["end"]:.2f}',
     }
+    return a_wav, b_wav, info
 # =========================================================
 # UI
 # =========================================================
+with gr.Blocks(title="双语音频字幕对齐（点击即播放）") as demo:
+    gr.Markdown("# 🎧 双语音频字幕对齐（点击表格即播放）")
     state = gr.State()
     with gr.Row():
+        repo_id = gr.Textbox(label="Dataset / Repo 名称", placeholder="org/dataset")
         repo_type = gr.Radio(["dataset", "model"], value="dataset", label="Repo 类型")
     btn_scan = gr.Button("扫描 Dataset", variant="primary")
     with gr.Row():
+        media_a = gr.Dropdown(label="Track A 媒体")
+        media_b = gr.Dropdown(label="Track B 媒体")
     with gr.Row():
+        vtt_a = gr.Dropdown(label="Track A 字幕")
+        vtt_b = gr.Dropdown(label="Track B 字幕")
     btn_scan.click(
         scan_dataset,
         outputs=[media_a, media_b, vtt_a, vtt_b],
     )
+    th = gr.Slider(0.3, 5.0, value=DEFAULT_MAX_MID_DIFF, step=0.1, label="对齐阈值（秒）")
     btn_align = gr.Button("加载并对齐", variant="primary")
     df = gr.Dataframe(
+        headers=["#", "Time", "Track A", "Track B"],
         interactive=True,
         wrap=True,
         max_height=520,
     )
+    btn_align.click(
+        load_and_align,
+        inputs=[repo_id, repo_type, media_a, media_b, vtt_a, vtt_b, th],
+        outputs=[df, state, gr.Audio(), gr.Audio()],
+    )
     with gr.Row():
         a_out = gr.Audio(label="Track A 片段")
         b_out = gr.Audio(label="Track B 片段")
+    play_info = gr.JSON(label="当前片段")
     df.select(
+        play_on_select,
+        inputs=[df, state],
         outputs=[a_out, b_out, play_info],
     )