Whisper_speaker_diarization

Build error

Staqt commited on Jun 7, 2023

Commit

1996e15

1 Parent(s): f4be82e

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -1,4 +1,4 @@
-# import whisper
 from faster_whisper import WhisperModel
 import datetime
 import subprocess
@@ -218,13 +218,7 @@ def get_youtube(video_url):
 def speech_to_text(video_file_path, selected_source_lang, whisper_model, num_speakers):
     """
-    # Transcribe youtube link using OpenAI Whisper
-    1. Using Open AI's Whisper model to seperate audio into segments and generate transcripts.
-    2. Generating speaker embeddings for each segments.
-    3. Applying agglomerative clustering on the embeddings to identify the speaker for each segment.
-    Speech Recognition is based on models from OpenAI Whisper https://github.com/openai/whisper
-    Speaker diarization model and pipeline from by https://github.com/pyannote/pyannote-audio
     """
     # model = whisper.load_model(whisper_model)
@@ -405,9 +399,7 @@ with demo:
                 video_in.render()
                 with gr.Column():
                     gr.Markdown('''
-                    ##### Here you can start the transcription process.
-                    ##### Please select the source language for transcription.
-                    ##### You can select a range of assumed numbers of speakers.
                     ''')
                 selected_source_lang.render()
                 selected_whisper_model.render()

+import whisper
 from faster_whisper import WhisperModel
 import datetime
 import subprocess
 def speech_to_text(video_file_path, selected_source_lang, whisper_model, num_speakers):
     """
     """
     # model = whisper.load_model(whisper_model)
                 video_in.render()
                 with gr.Column():
                     gr.Markdown('''
                     ''')
                 selected_source_lang.render()
                 selected_whisper_model.render()