Spaces:

vsrinivas
/

Multi_Language_Video_Conference

Sleeping

App Files Files Community

vsrinivas commited on Oct 10, 2024

Commit

89524ee

verified ·

1 Parent(s): dd25a11

Update app.py

Browse files

Files changed (1) hide show

app.py +3 -29

app.py CHANGED Viewed

@@ -7,7 +7,7 @@ from datetime import datetime
 import os
 import time
 from pydub import AudioSegment
-from IPython.display import Audio, display, Video, HTML
 # import assemblyai as aai
 from base64 import b64encode
 import gradio as gr
@@ -149,16 +149,13 @@ def summarize(meeting_texts=meeting_texts):
             minutes_of_meeting += summary
     minutes_of_meeting = minutes_of_meeting.replace('User:', '').strip()
     print("\n")
-    print(minutes_of_meeting)
     return minutes_of_meeting
 # Placeholder function for speech to text conversion
 def speech_to_text(video):
     print('Started transcribing')
-    # transcript = transcriber.transcribe(video).text
-    # print('transcript:', transcript)
-    # transcript = transcriber.transcribe(video).text
     audio = AudioSegment.from_file(video, format="mp4")
     audio.export('temp.mp3', format="mp3")
     transcript= transcriber.transcribe('temp.mp3')['text']
@@ -181,14 +178,6 @@ def synthesize_speech(video, source_language,target_language):
       file_format = 'audio/mpeg',
       source_language = source_language,
       target_language = target_language)
-    # mp4 = open(dub_video,'rb').read()
-    # video_url = "data:video/mp4;base64," + b64encode(mp4).decode()
-    # display(HTML("""
-    #   <video width=400 controls>
-    #         <source src="%s" type="video/mp4">
-    #   </video>
-    #   """ % video_url))
-    # print(dub_video)
     return dub_video
 # This function handles the processing when any participant speaks
@@ -221,22 +210,7 @@ def process_speaker(video, speaker_idx, n_participants, *language_list):
         meeting_texts.append({f"Speaker_{speaker_idx+1}":outputs[0]})
     else:
         meeting_texts.append({f"Speaker_{speaker_idx+1}":outputs[1]})
-    # for i in range(n_participants):
-    #     if i == speaker_idx:
-    #         # outputs.append(transcript)
-    #         outputs.insert(0, transcript)
-    #         # outputs.insert(1, None)
-    #     else:
-    #         participant_language = language_codes[language_list[i]]
-    #         print('participant_language:', participant_language)
-    #         speaker_language = language_codes[language_list[speaker_idx]]
-    #         print('speaker_language:', speaker_language)
-    #         translated_text = translate_text(transcript, speaker_language, participant_language)
-    #         dubbed_video = synthesize_speech(video, speaker_language, participant_language)
-    #         outputs.append(translated_text)
-    #         outputs.append(dubbed_video)
     print(len(outputs))
     print(outputs)
     print('meeting_texts: ',meeting_texts)

 import os
 import time
 from pydub import AudioSegment
+# from IPython.display import Audio, display, Video, HTML
 # import assemblyai as aai
 from base64 import b64encode
 import gradio as gr
             minutes_of_meeting += summary
     minutes_of_meeting = minutes_of_meeting.replace('User:', '').strip()
     print("\n")
+    print("minutes_of_meeting:", minutes_of_meeting)
     return minutes_of_meeting
 # Placeholder function for speech to text conversion
 def speech_to_text(video):
     print('Started transcribing')
     audio = AudioSegment.from_file(video, format="mp4")
     audio.export('temp.mp3', format="mp3")
     transcript= transcriber.transcribe('temp.mp3')['text']
       file_format = 'audio/mpeg',
       source_language = source_language,
       target_language = target_language)
     return dub_video
 # This function handles the processing when any participant speaks
         meeting_texts.append({f"Speaker_{speaker_idx+1}":outputs[0]})
     else:
         meeting_texts.append({f"Speaker_{speaker_idx+1}":outputs[1]})
     print(len(outputs))
     print(outputs)
     print('meeting_texts: ',meeting_texts)