Spaces:

lucamartinelli
/

whisper-diarization

Sleeping

App Files Files Community

lucamartinelli commited on Nov 26, 2025

Commit

ce8528d

1 Parent(s): 3d5ee3a

Aggiunto tasto download

Browse files

Files changed (1) hide show

app.py +55 -29

app.py CHANGED Viewed

@@ -1,7 +1,9 @@
 """Whisper + Pyannote Transcription & Diarization Web Interface."""
 import logging
 import tempfile
 from pathlib import Path
 import gradio as gr
@@ -20,7 +22,7 @@ def process_audio(
     pyannote_model: str,
     openai_whisper_prompt: str,
     openai_whisper_language: str | None,
-    progress=gr.Progress()
 ):
     """
     Process audio file with diarization and transcription.
@@ -37,16 +39,17 @@ def process_audio(
         transcription_model=transcription_model,
         pyannote_model=pyannote_model,
         whisper_prompt=openai_whisper_prompt,
-        whisper_language=openai_whisper_language
     )
     return processor.process(
-        audio_path=audio_path,
-        progress_callback=lambda p, desc: progress(p, desc=desc)
     )
-def rename_speaker_in_vtt(vtt_content: str, transcripts_state, old_speaker: str, new_speaker: str):
     """Rename speaker and regenerate VTT."""
     if not vtt_content or not transcripts_state:
         return vtt_content
@@ -65,12 +68,17 @@ def prepare_download(vtt_content: str, audio_filename: str) -> str | None:
     Returns:
         Path to temporary VTT file, or None if inputs are invalid
     """
-    if not vtt_content or not audio_filename:
         return None
-    download_path = Path(tempfile.gettempdir()) / f"{audio_filename}.vtt"
-    with open(download_path, 'w', encoding='utf-8') as f:
         f.write(vtt_content)
     return str(download_path)
@@ -78,10 +86,12 @@ def prepare_download(vtt_content: str, audio_filename: str) -> str | None:
 with gr.Blocks(title="Transcription & Diarization") as app:
-    gr.Markdown("""
                 # 🎙️ Transcription & Diarization
                 Fill the required settings, upload an audio file, and start the transcription using Whisper and Pyannote!
-                """)
     transcripts_state = gr.State([])
     audio_filename_state = gr.State("")
@@ -96,15 +106,22 @@ with gr.Blocks(title="Transcription & Diarization") as app:
                 transcription_model = gr.Dropdown(
                     label="Transcription model",
                     choices=[("Whisper", "whisper-1")],
-                    value="whisper-1"
                 )
                 pyannote_model = gr.Dropdown(
                     label="Pyannote model",
-                    choices=[("Speaker diarization community 1", "pyannote/speaker-diarization-community-1")],
-                    value="pyannote/speaker-diarization-community-1"
                 )
-                openai_whisper_prompt = gr.Textbox(label="Additional whisper prompt", value="")
                 openai_whisper_language = gr.Dropdown(
                     label="Whisper language",
                     choices=[
@@ -115,7 +132,7 @@ with gr.Blocks(title="Transcription & Diarization") as app:
                         ("🇪🇸 Spanish", "es"),
                         ("🇫🇷 French", "fr"),
                     ],
-                    value=None
                 )
             audio_input = gr.Audio(type="filepath", label="Upload audio")
@@ -128,20 +145,27 @@ with gr.Blocks(title="Transcription & Diarization") as app:
                     label="Transcription",
                     lines=20,
                     placeholder="Your transcription will appear here...",
-                    show_copy_button=True,
                 )
                 validation_status = gr.Markdown("⚪ No content", container=True)
             with gr.Accordion("🎭 Rename speakers", open=True):
                 with gr.Row():
-                    old_speaker_name = gr.Textbox(label="Current speaker name (e.g., SPEAKER_00)", placeholder="SPEAKER_00", value="SPEAKER_00")
-                    new_speaker_name = gr.Textbox(label="New speaker name", placeholder="Davide")
                 rename_btn = gr.Button("Rename")
-            download_file = gr.File(label="Download VTT", visible=False)
     def check_inputs(openai_key: str, hf_key: str, audio) -> gr.Button:
         """
         Enable submit button only if both API keys and audio are provided.
@@ -175,29 +199,31 @@ with gr.Blocks(title="Transcription & Diarization") as app:
         # Prepare download file if valid
         file_path = None
-        if is_valid and vtt_content and audio_filename:
             file_path = prepare_download(vtt_content, audio_filename)
         return (
             status,
-            gr.File(value=file_path, visible=False)  # download_file
         )
     # Enable/disable submit button based on API keys and audio input
     openapi_api_key.change(
         fn=check_inputs,
         inputs=[openapi_api_key, hf_api_key, audio_input],
-        outputs=submit_btn
     )
     hf_api_key.change(
         fn=check_inputs,
         inputs=[openapi_api_key, hf_api_key, audio_input],
-        outputs=submit_btn
     )
     audio_input.change(
         fn=check_inputs,
         inputs=[openapi_api_key, hf_api_key, audio_input],
-        outputs=submit_btn
     )
     # Main transcription process
@@ -210,7 +236,7 @@ with gr.Blocks(title="Transcription & Diarization") as app:
             transcription_model,
             pyannote_model,
             openai_whisper_prompt,
-            openai_whisper_language
         ],
         outputs=[output_vtt, transcripts_state, audio_filename_state],
     )
@@ -220,20 +246,20 @@ with gr.Blocks(title="Transcription & Diarization") as app:
     output_vtt.change(
         fn=update_validation,
         inputs=[output_vtt, audio_filename_state],
-        outputs=[validation_status, download_file]
     )
     audio_filename_state.change(
         fn=update_validation,
         inputs=[output_vtt, audio_filename_state],
-        outputs=[validation_status, download_file]
     )
     # Speaker renaming
     rename_btn.click(
         fn=rename_speaker_in_vtt,
         inputs=[output_vtt, transcripts_state, old_speaker_name, new_speaker_name],
-        outputs=output_vtt
     )
 if __name__ == "__main__":

 """Whisper + Pyannote Transcription & Diarization Web Interface."""
 import logging
 import tempfile
 from pathlib import Path
+from datetime import datetime
 import gradio as gr
     pyannote_model: str,
     openai_whisper_prompt: str,
     openai_whisper_language: str | None,
+    progress=gr.Progress(),
 ):
     """
     Process audio file with diarization and transcription.
         transcription_model=transcription_model,
         pyannote_model=pyannote_model,
         whisper_prompt=openai_whisper_prompt,
+        whisper_language=openai_whisper_language,
     )
     return processor.process(
+        audio_path=audio_path, progress_callback=lambda p, desc: progress(p, desc=desc)
     )
+def rename_speaker_in_vtt(
+    vtt_content: str, transcripts_state, old_speaker: str, new_speaker: str
+):
     """Rename speaker and regenerate VTT."""
     if not vtt_content or not transcripts_state:
         return vtt_content
     Returns:
         Path to temporary VTT file, or None if inputs are invalid
     """
+    if not vtt_content:
         return None
+    if not audio_filename:
+        audio_filename = datetime.now().strftime("%Y-%m-%d_%H-%M-%S")
+    # Create a unique temp directory to avoid caching issues
+    temp_dir = Path(tempfile.mkdtemp())
+    download_path = temp_dir / f"{audio_filename}.vtt"
+    with open(download_path, "w", encoding="utf-8") as f:
         f.write(vtt_content)
     return str(download_path)
 with gr.Blocks(title="Transcription & Diarization") as app:
+    gr.Markdown(
+        """
                 # 🎙️ Transcription & Diarization
                 Fill the required settings, upload an audio file, and start the transcription using Whisper and Pyannote!
+                """
+    )
     transcripts_state = gr.State([])
     audio_filename_state = gr.State("")
                 transcription_model = gr.Dropdown(
                     label="Transcription model",
                     choices=[("Whisper", "whisper-1")],
+                    value="whisper-1",
                 )
                 pyannote_model = gr.Dropdown(
                     label="Pyannote model",
+                    choices=[
+                        (
+                            "Speaker diarization community 1",
+                            "pyannote/speaker-diarization-community-1",
+                        )
+                    ],
+                    value="pyannote/speaker-diarization-community-1",
                 )
+                openai_whisper_prompt = gr.Textbox(
+                    label="Additional whisper prompt", value=""
+                )
                 openai_whisper_language = gr.Dropdown(
                     label="Whisper language",
                     choices=[
                         ("🇪🇸 Spanish", "es"),
                         ("🇫🇷 French", "fr"),
                     ],
+                    value=None,
                 )
             audio_input = gr.Audio(type="filepath", label="Upload audio")
                     label="Transcription",
                     lines=20,
                     placeholder="Your transcription will appear here...",
                 )
                 validation_status = gr.Markdown("⚪ No content", container=True)
+            download_btn = gr.DownloadButton(
+                "Download VTT", variant="primary", visible=False
+            )
             with gr.Accordion("🎭 Rename speakers", open=True):
                 with gr.Row():
+                    old_speaker_name = gr.Textbox(
+                        label="Current speaker name (e.g., SPEAKER_00)",
+                        placeholder="SPEAKER_00",
+                        value="SPEAKER_00",
+                    )
+                    new_speaker_name = gr.Textbox(
+                        label="New speaker name", placeholder="Davide"
+                    )
                 rename_btn = gr.Button("Rename")
     def check_inputs(openai_key: str, hf_key: str, audio) -> gr.Button:
         """
         Enable submit button only if both API keys and audio are provided.
         # Prepare download file if valid
         file_path = None
+        if is_valid and vtt_content:
             file_path = prepare_download(vtt_content, audio_filename)
         return (
             status,
+            gr.DownloadButton(
+                value=file_path, visible=bool(file_path), interactive=True
+            ),
         )
     # Enable/disable submit button based on API keys and audio input
     openapi_api_key.change(
         fn=check_inputs,
         inputs=[openapi_api_key, hf_api_key, audio_input],
+        outputs=submit_btn,
     )
     hf_api_key.change(
         fn=check_inputs,
         inputs=[openapi_api_key, hf_api_key, audio_input],
+        outputs=submit_btn,
     )
     audio_input.change(
         fn=check_inputs,
         inputs=[openapi_api_key, hf_api_key, audio_input],
+        outputs=submit_btn,
     )
     # Main transcription process
             transcription_model,
             pyannote_model,
             openai_whisper_prompt,
+            openai_whisper_language,
         ],
         outputs=[output_vtt, transcripts_state, audio_filename_state],
     )
     output_vtt.change(
         fn=update_validation,
         inputs=[output_vtt, audio_filename_state],
+        outputs=[validation_status, download_btn],
     )
     audio_filename_state.change(
         fn=update_validation,
         inputs=[output_vtt, audio_filename_state],
+        outputs=[validation_status, download_btn],
     )
     # Speaker renaming
     rename_btn.click(
         fn=rename_speaker_in_vtt,
         inputs=[output_vtt, transcripts_state, old_speaker_name, new_speaker_name],
+        outputs=output_vtt,
     )
 if __name__ == "__main__":