Spaces:

nelikCode
/

AudioVisualTranscription

Running

App Files Files Community

killian31 commited on Feb 25, 2024

Commit

7aa414b

1 Parent(s): cc9d80e

feat: progress gradio

Browse files

Files changed (1) hide show

app.py +13 -7

app.py CHANGED Viewed

@@ -5,13 +5,18 @@ from moviepy.editor import AudioFileClip, ColorClip, concatenate_videoclips
 from moviepy.video.VideoClip import TextClip
-def generate_video(audio_path, language, lag):
     # Transcribe audio
     result = model.transcribe(audio_path, language=language)
     # Prepare video clips from transcription segments
     clips = []
     for segment in result["segments"]:
         text_clip = (
             TextClip(
                 segment["text"],
@@ -25,29 +30,30 @@ def generate_video(audio_path, language, lag):
             .set_start(segment["start"])
         )
         clips.append(text_clip)
     if lag > 0:
         clips.insert(0, ColorClip((1280, 720), color=(0, 0, 0)).set_duration(lag))
     # Concatenate clips and set audio
     video = concatenate_videoclips(clips, method="compose")
     # Add audio to the video
     video = video.set_audio(AudioFileClip(audio_path))
     # Export video to a buffer
     output_path = "./transcribed_video.mp4"
     video.write_videofile(output_path, fps=6, codec="libx264", audio_codec="aac")
     return output_path
 if __name__ == "__main__":
-    DEVICE = (
-        "cuda"
-        if torch.cuda.is_available()
-        else "cpu"
-    )
     model = whisper.load_model("base", device=DEVICE)
     # Gradio interface

 from moviepy.video.VideoClip import TextClip
+def generate_video(audio_path, language, lag, progress=gr.Progress(track_tqdm=True)):
     # Transcribe audio
+    progress(0.0, "Transcribing audio...")
     result = model.transcribe(audio_path, language=language)
+    progress(0.30, "Audio transcribed!")
     # Prepare video clips from transcription segments
     clips = []
+    total_segments = len(result["segments"])
+    running_progress = 0.0
     for segment in result["segments"]:
+        running_progress += 0.4 / total_segments
         text_clip = (
             TextClip(
                 segment["text"],
             .set_start(segment["start"])
         )
         clips.append(text_clip)
+        progress(min(0.3 + running_progress, 0.7), "Generating video frames...")
     if lag > 0:
         clips.insert(0, ColorClip((1280, 720), color=(0, 0, 0)).set_duration(lag))
+    progress(0.7, "Video frames generated!")
     # Concatenate clips and set audio
+    progress(0.75, "Concatenating video clips...")
     video = concatenate_videoclips(clips, method="compose")
     # Add audio to the video
+    progress(0.85, "Adding audio to video...")
     video = video.set_audio(AudioFileClip(audio_path))
     # Export video to a buffer
+    progress(0.90, "Exporting video...")
     output_path = "./transcribed_video.mp4"
     video.write_videofile(output_path, fps=6, codec="libx264", audio_codec="aac")
+    progress(1.0, "Video exported!")
     return output_path
 if __name__ == "__main__":
+    DEVICE = "cuda" if torch.cuda.is_available() else "cpu"
     model = whisper.load_model("base", device=DEVICE)
     # Gradio interface