Audio-WebUI

Runtime error

App Files Files Community

kadirnar commited on Nov 27, 2023

Commit

038c89a

1 Parent(s): 3f780ab

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -17

app.py CHANGED Viewed

@@ -27,7 +27,7 @@ def youtube_url_to_text(url, model_id, language_choice):
     return transcript, video_path
-def speaker_diarization(url, model_id, device, num_speakers, min_speaker, max_speaker):
     """
     Main function that downloads and converts a video to MP3 format, performs speech-to-text conversion using
     a specified model, and returns the transcript along with the video path.
@@ -47,12 +47,11 @@ def speaker_diarization(url, model_id, device, num_speakers, min_speaker, max_sp
         diarizer_model="pyannote/speaker-diarization",
         use_auth_token=False,
         chunk_length_s=30,
-        device=device,
     )
     audio_path = download_and_convert_to_mp3(url)
-    output_text = pipeline(
-        audio_path, num_speakers=num_speakers, min_speaker=min_speaker, max_speaker=max_speaker)
     dialogue = format_speech_to_dialogue(output_text)
     return dialogue, audio_path
@@ -140,11 +139,7 @@ def speaker_diarization_app():
                     value="openai/whisper-large-v3",
                     label="Whisper Model",
                 )
-                device = gr.Dropdown(
-                    choices=["cpu", "cuda", "mps"],
-                    value="cuda",
-                    label="Device",
-                )
                 num_speakers = gr.Number(value=2, label="Number of Speakers")
                 min_speaker = gr.Number(value=1, label="Minimum Number of Speakers")
                 max_speaker = gr.Number(value=2, label="Maximum Number of Speakers")
@@ -171,20 +166,12 @@ def speaker_diarization_app():
                 [
                     "https://www.youtube.com/shorts/o8PgLUgte2k",
                     "openai/whisper-large-v3",
-                    "cuda",
-                    2,
-                    1,
-                    2,
                 ],
             ],
             fn=speaker_diarization,
             inputs=[
                 youtube_url_path,
                 whisper_model_id,
-                device,
-                num_speakers,
-                min_speaker,
-                max_speaker,
             ],
             outputs=[output_text, output_audio],
             cache_examples=True,

     return transcript, video_path
+def speaker_diarization(url, model_id):
     """
     Main function that downloads and converts a video to MP3 format, performs speech-to-text conversion using
     a specified model, and returns the transcript along with the video path.
         diarizer_model="pyannote/speaker-diarization",
         use_auth_token=False,
         chunk_length_s=30,
+        device="cuda",
     )
     audio_path = download_and_convert_to_mp3(url)
+    output_text = pipeline(audio_path)
     dialogue = format_speech_to_dialogue(output_text)
     return dialogue, audio_path
                     value="openai/whisper-large-v3",
                     label="Whisper Model",
                 )
                 num_speakers = gr.Number(value=2, label="Number of Speakers")
                 min_speaker = gr.Number(value=1, label="Minimum Number of Speakers")
                 max_speaker = gr.Number(value=2, label="Maximum Number of Speakers")
                 [
                     "https://www.youtube.com/shorts/o8PgLUgte2k",
                     "openai/whisper-large-v3",
                 ],
             ],
             fn=speaker_diarization,
             inputs=[
                 youtube_url_path,
                 whisper_model_id,
             ],
             outputs=[output_text, output_audio],
             cache_examples=True,