Spaces:

svijayanand
/

Podcast_Oracle

Build error

App Files Files Community

Vijayanand Sankarasubramanian commited on Jun 4, 2024

Commit

85463e8

1 Parent(s): 48d0b40

added wav2vec based trasncription

Browse files

Files changed (3) hide show

.gitignore +1 -0
app.py +38 -24
tools/transcribe.py +33 -34

.gitignore CHANGED Viewed

@@ -182,3 +182,4 @@ cache
 flagged
 *.rtf
 *.mp3

 flagged
 *.rtf
 *.mp3
+*.txt

app.py CHANGED Viewed

@@ -3,7 +3,7 @@ from helpers.model_utils import GPT3, GPT4, LLAMA3, ANTHROPIC2, set_question_ans
 from tools.summarize import MAPREDUCE, STUFF, summarize_podcast
 from tools.answer_bot import answer_question
 from tools.aspect_and_sentiment_extraction import extract_aspects_and_sentiment
-from tools.transcribe import transcribe_podcast, transcribe_podcast_from_mp3
 def get_answer_for(user_question, transcript_file_name, question_answer_llm_choice):
     if transcript_file_name is None:
@@ -42,13 +42,13 @@ def generate_aspects_and_sentiments(transcript_file_name, sentiment_analysis_llm
     return sentiment, transcript_file_name, sentiment_analysis_llm_choice
-# def setup_rtf_file_handle(uploaded_file, transcript_file_name):
-#     if not uploaded_file:
-#         status = "No File Detected, Failure"
-#     else:
-#         transcript_file_name = uploaded_file.name
-#         status = "Upload Success"
-#     return status, transcript_file_name
 def setup_summarization_llm(choice, summarization_llm_choice):
     set_summarization_llm(choice)
@@ -69,27 +69,31 @@ def setup_summarization_method(choice, summarization_method):
     summarization_method = choice
     return choice, summarization_method
-def transcribe_audio_file(uploaded_file, transcript_file_name, transcription_status):
     if not uploaded_file:
-        transcription_status = "No File Detected, Failure"
     else:
-        transcript_file_name = transcribe_podcast_from_mp3(uploaded_file.name)
-        transcription_status = "Upload Success"
-    return transcription_status, transcript_file_name
-def download_and_transcribe_podcast(mp3_url, transcript_file, transcription_status):
     if not mp3_url:
-        transcription_status = "No URL detected, Failure"
     else:
-        transcript_file = transcribe_podcast(mp3_url)
-        transcription_status = "Upload Success"
-    return transcription_status, transcript_file
 summarization_llm_choices = [GPT3, GPT4, ANTHROPIC2]
 question_answer_llm_choices = [GPT3, GPT4, ANTHROPIC2]
 sentiment_analysis_llm_choices = [GPT3, GPT4, ANTHROPIC2]
 summarize_method_choices = [MAPREDUCE, STUFF]
 with gr.Blocks() as demo:
     transcript_file = gr.State()
@@ -97,18 +101,28 @@ with gr.Blocks() as demo:
     question_answer_llm_choice = gr.State()
     sentiment_analysis_llm_choice = gr.State()
     summarization_llm_choice = gr.State()
-    transcription_status = gr.State(value = "Pending Transcribe")
     with gr.Row():
         with gr.Group("Enter Podcast mp3 URL"):
             mp3_url = gr.Textbox(label="Podcast MP3 URL")
             submit_button = gr.Button("Transcribe")
-            submit_button.click(download_and_transcribe_podcast, inputs=[mp3_url, transcript_file, transcription_status], outputs=[transcription_status, transcript_file])
         with gr.Group("Upload Podcast mp3 File"):
             mp3_file = gr.File(label="Podcast mp3 file")
             submit_button = gr.Button("Transcribe")
-            submit_button.click(transcribe_audio_file, inputs=[mp3_file, transcript_file, transcription_status], outputs=[transcription_status, transcript_file])
-    with gr.Group("Transcription Status"):
-        transcribe_status = gr.Textbox(label="Transcribe Status", value = transcription_status.value)
     with gr.Group("LLM Selection"):
         with gr.Row():
             choice = gr.Radio(label="Summarization LLM", choices=summarization_llm_choices)

 from tools.summarize import MAPREDUCE, STUFF, summarize_podcast
 from tools.answer_bot import answer_question
 from tools.aspect_and_sentiment_extraction import extract_aspects_and_sentiment
+from tools.transcribe import transcribe_podcast, transcribe_podcast_from_mp3, WAV2VEC, AUTOMODELFORSPEECH
 def get_answer_for(user_question, transcript_file_name, question_answer_llm_choice):
     if transcript_file_name is None:
     return sentiment, transcript_file_name, sentiment_analysis_llm_choice
+def setup_transcript_file_handle(uploaded_file, transcript_file_name, transcription_status):
+    if not uploaded_file:
+        transcription_status = "No File Detected, Failure"
+    else:
+        transcript_file_name = uploaded_file.name
+        transcription_status = "Upload Success"
+    return transcription_status, transcript_file_name
 def setup_summarization_llm(choice, summarization_llm_choice):
     set_summarization_llm(choice)
     summarization_method = choice
     return choice, summarization_method
+def setup_transcription_method(choice, transcription_method):
+    transcription_method = choice
+    return choice, transcription_method
+def transcribe_audio_file(uploaded_file, transcript_file_name, transcription_method):
     if not uploaded_file:
+        status = "No File Detected, Failure"
     else:
+        transcript_file_name = transcribe_podcast_from_mp3(uploaded_file.name, transcription_method)
+        status = "Upload Success"
+    return transcript_file_name, transcription_method, status
+def download_and_transcribe_podcast(mp3_url, transcript_file, transcription_method):
     if not mp3_url:
+        status = "No URL detected, Failure"
     else:
+        transcript_file = transcribe_podcast(mp3_url, transcription_method)
+        status = "Upload Success"
+    return transcript_file, transcription_method, status
 summarization_llm_choices = [GPT3, GPT4, ANTHROPIC2]
 question_answer_llm_choices = [GPT3, GPT4, ANTHROPIC2]
 sentiment_analysis_llm_choices = [GPT3, GPT4, ANTHROPIC2]
 summarize_method_choices = [MAPREDUCE, STUFF]
+transcription_method_choices = [WAV2VEC, AUTOMODELFORSPEECH]
 with gr.Blocks() as demo:
     transcript_file = gr.State()
     question_answer_llm_choice = gr.State()
     sentiment_analysis_llm_choice = gr.State()
     summarization_llm_choice = gr.State()
+    transcription_method = gr.State()
+    with gr.Group("Trancsription Model Selection"):
+        with gr.Row():
+            choice = gr.Radio(label="Transcription Model", choices=transcription_method_choices)
+            output = gr.Textbox(label="")
+            choice.change(setup_transcription_method, inputs=[choice, transcription_method], outputs=[output, transcription_method])
     with gr.Row():
         with gr.Group("Enter Podcast mp3 URL"):
             mp3_url = gr.Textbox(label="Podcast MP3 URL")
             submit_button = gr.Button("Transcribe")
+            status = gr.Textbox(label="", value="Pending Trancsribe")
+            submit_button.click(download_and_transcribe_podcast, inputs=[mp3_url, transcript_file, transcription_method], outputs=[transcript_file, transcription_method, status])
         with gr.Group("Upload Podcast mp3 File"):
             mp3_file = gr.File(label="Podcast mp3 file")
             submit_button = gr.Button("Transcribe")
+            status = gr.Textbox(label="", value="Pending Transcribe")
+            submit_button.click(transcribe_audio_file, inputs=[mp3_file, transcript_file, transcription_method], outputs=[transcript_file, transcription_method, status])
+        with gr.Group("Upload RTF File"):
+            rtf_file = gr.File(label="Transcripted RTF file")
+            submit_button = gr.Button("Upload RTF")
+            submit_button.click(setup_transcript_file_handle, inputs=[rtf_file, transcript_file], outputs=[transcript_file])
     with gr.Group("LLM Selection"):
         with gr.Row():
             choice = gr.Radio(label="Summarization LLM", choices=summarization_llm_choices)

tools/transcribe.py CHANGED Viewed

@@ -4,6 +4,9 @@ from transformers import AutoModelForSpeechSeq2Seq, AutoProcessor, pipeline
 import requests
 import uuid
 class Audio_to_Text:
     def __init__(self):
         self.model_id = "openai/whisper-large-v3"
@@ -34,19 +37,17 @@ class Audio_to_Text:
             file.write(response.content)
         print("MP3 file downloaded and saved successfully.")
-    def convert_audio_to_text(self, audio_file):
-        transformers.logging.set_verbosity_info()
-        result = self.pipe(audio_file, generate_kwargs={"language": "english"})
-        print("Converted audio to text successfully.")
-         # save the result to a text file
-        uuid_text = str(uuid.uuid4())
-        save_file_name = f"transcript-{uuid_text}.txt"
-        with open(save_file_name, "w") as file:
-            file.write(result)
-            print("Transcript saved successfully.")
-        return save_file_name
-    def convert_audio_to_text_from_url(self, url):
         #get uuid for the audio file
         uuid_audio = str(uuid.uuid4())
         save_path = f"audio-{uuid_audio}.mp3"
@@ -56,34 +57,32 @@ class Audio_to_Text:
         return path_text_file_of_audio
-def transcribe_podcast_from_mp3(mp3_file):
-    audio_to_text = Audio_to_Text()
-    path_text_file_of_audio = audio_to_text.convert_audio_to_text(mp3_file)
-    print(path_text_file_of_audio)
-    return path_text_file_of_audio
-def transcribe_podcast(file_url):
-    # Example usage:
-    # url = "https://chrt.fm/track/138C95/prfx.byspotify.com/e/play.podtrac.com/npr-510310/traffic.megaphone.fm/NPR7010771664.mp3"
     audio_to_text = Audio_to_Text()
     # Convert the audio file to text
-    path_text_file_of_audio = audio_to_text.convert_audio_to_text_from_url(file_url)
     # Print the result
     print(path_text_file_of_audio)
-    return path_text_file_of_audio
-def transcribe_audio_to_text(speech):
-    asr = pipeline("automatic-speech-recognition", "facebook/wav2vec2-base-960h")
-    text = asr(speech)["text"]
-    return text
-# def text_to_sentiment(text):
-#     classifier = pipeline("text-classification")
-#     return classifier(text)[0]["label"]

 import requests
 import uuid
+WAV2VEC = "wav2vec"
+AUTOMODELFORSPEECH = "automodelforspeech"
 class Audio_to_Text:
     def __init__(self):
         self.model_id = "openai/whisper-large-v3"
             file.write(response.content)
         print("MP3 file downloaded and saved successfully.")
+    def convert_audio_to_text(self, audio_file, transcription_method):
+        if transcription_method == WAV2VEC:
+            return self.transcribe_audio_to_text_using_wav2vec(audio_file)
+        else:
+            transformers.logging.set_verbosity_info()
+            result = self.pipe(audio_file, generate_kwargs={"language": "english"})
+            print("Converted audio to text successfully.")
+            # save the result to a text file
+            return self.save_transcribed_text_to_file(result)
+    def convert_audio_to_text_from_url(self, url, transcription_method):
         #get uuid for the audio file
         uuid_audio = str(uuid.uuid4())
         save_path = f"audio-{uuid_audio}.mp3"
         return path_text_file_of_audio
+    def save_transcribed_text_to_file(self, text):
+        uuid_text = str(uuid.uuid4())
+        save_file_name = f"transcript-{uuid_text}.txt"
+        with open(save_file_name, "w") as file:
+            file.write(text)
+            print("Transcript saved successfully.")
+        return save_file_name
+    def transcribe_audio_to_text_using_wav2vec(self, mp3):
+        asr = pipeline("automatic-speech-recognition", "facebook/wav2vec2-base-960h")
+        text = asr(mp3)["text"]
+        return self.save_transcribed_text_to_file(text)
+def transcribe_podcast_from_mp3(mp3_file, transcription_method):
     audio_to_text = Audio_to_Text()
+    return audio_to_text.convert_audio_to_text(mp3_file, transcription_method);
+def transcribe_podcast(file_url, transcription_method):
+    # Example usage:
+    # url = "https://chrt.fm/track/138C95/prfx.byspotify.com/e/play.podtrac.com/npr-510310/traffic.megaphone.fm/NPR7010771664.mp3"
+    audio_to_text = Audio_to_Text()
     # Convert the audio file to text
+    path_text_file_of_audio = audio_to_text.convert_audio_to_text_from_url(file_url, transcription_method)
     # Print the result
     print(path_text_file_of_audio)
+    return path_text_file_of_audio