Spaces:

PacoFYM
/

DiarAI

Sleeping

App Files Files Community

PacoFYM commited on May 15, 2025

Commit

73c7b68

verified ·

1 Parent(s): e23b434

Update app.py

Browse files

Files changed (1) hide show

app.py +55 -8

app.py CHANGED Viewed

@@ -4,25 +4,72 @@ import datetime
 import torch
 import whisperx
-from whisperx.diarize import DiarizationPipeline  # ← вот это
 import gradio as gr
-# Выбираем устройство
 device = "cuda" if torch.cuda.is_available() else "cpu"
-# Загружаем ASR‑модель WhisperX с compute_type="float32"
 model = whisperx.load_model("small", device=device, compute_type="float32")
-# Загружаем пайплайн диаризации
 hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN", None)
 diarize_pipeline = DiarizationPipeline(use_auth_token=hf_token, device=device)
 def transcribe_with_diarization(audio_path):
-    # 1) Транскрипция
     result = model.transcribe(audio_path)
-    # 2) Выравнивание точных времён слов
     align_model, metadata = whisperx.load_align_model(
         language_code=result["language"], device=device
     )
-    result = whisperx

 import torch
 import whisperx
+from whisperx.diarize import DiarizationPipeline
 import gradio as gr
+# 1) Выбор устройства
 device = "cuda" if torch.cuda.is_available() else "cpu"
+# 2) Загрузка моделей
 model = whisperx.load_model("small", device=device, compute_type="float32")
 hf_token = os.getenv("HUGGINGFACEHUB_API_TOKEN", None)
 diarize_pipeline = DiarizationPipeline(use_auth_token=hf_token, device=device)
+# 3) Основная функция транскрибации + диаризации
 def transcribe_with_diarization(audio_path):
     result = model.transcribe(audio_path)
     align_model, metadata = whisperx.load_align_model(
         language_code=result["language"], device=device
     )
+    result = whisperx.align(
+        segments=result["segments"],
+        align_model=align_model,
+        metadata=metadata,
+        audio_path=audio_path,
+        device=device
+    )
+    diarize_result = diarize_pipeline(audio_path)
+    merged = whisperx.merge_text_with_diarization(
+        result["segments"], diarize_result["segments"]
+    )
+    lines = []
+    for seg in merged:
+        spk = seg.get("speaker", "Unknown")
+        txt = seg.get("text", "").strip()
+        lines.append(f"[{spk}] {txt}")
+    return "\n".join(lines)
+# 4) Экспорт в .txt
+def export_to_txt(text):
+    fname = f"transcript_{datetime.datetime.now():%Y%m%d_%H%M%S}.txt"
+    path = os.path.join(tempfile.gettempdir(), fname)
+    with open(path, "w", encoding="utf-8") as f:
+        f.write(text)
+    return path
+# 5) Создаём интерфейс в переменной app
+app = gr.Blocks(title="🎤 Транскрибация и диаризация")
+with app:
+    gr.Markdown(
+        "## 🎙️ Audio → Text с разделением спикеров\n"
+        "Загрузите аудио, нажмите **Transcribe**, отредактируйте имена спикеров при необходимости и "
+        "скачайте результат в `.txt`."
+    )
+    audio_input = gr.Audio(type="filepath", label="Загрузить аудио")
+    btn_trans = gr.Button("▶️ Transcribe")
+    txt_out = gr.Textbox(lines=20, label="Транскрипция + Спикеры")
+    btn_save = gr.Button("💾 Скачать .txt")
+    file_out = gr.File(label="Файл для скачивания")
+    btn_trans.click(fn=transcribe_with_diarization, inputs=audio_input, outputs=txt_out)
+    btn_save.click(fn=export_to_txt, inputs=txt_out, outputs=file_out)
+# 6) Запуск
+if __name__ == "__main__":
+    app.launch()