Spaces:

Easyworkstation
/

caspr

Paused

App Files Files Community

artificialguybr commited on Oct 10, 2023

Commit

275e48a

1 Parent(s): 2de3a57

Update app.py

Browse files

Files changed (1) hide show

app.py +8 -27

app.py CHANGED Viewed

@@ -1,21 +1,14 @@
 import gradio as gr
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
-from subprocess import run, CalledProcessError
 from faster_whisper import WhisperModel
 import json
 import tempfile
 import os
 from zipfile import ZipFile
 import stat
-def run_command(command):
-    try:
-        run(command, check=True)
-    except CalledProcessError as e:
-        print(f"Command failed with error: {e}")
-        return False
-    return True
 ZipFile("ffmpeg.zip").extractall()
 st = os.stat('ffmpeg')
 os.chmod('ffmpeg', st.st_mode | stat.S_IEXEC)
@@ -28,15 +21,13 @@ model = AutoModelForSeq2SeqLM.from_pretrained("facebook/nllb-200-distilled-600M"
 whisper_model = WhisperModel("large-v2", device="cuda", compute_type="float16")
 def process_video(Video, target_language):
     audio_file = tempfile.NamedTemporaryFile(suffix=".wav").name
-    if not run_command(["ffmpeg", "-i", Video, audio_file]):
-        print("FFmpeg command failed. Exiting.")
-        return
     segments, _ = whisper_model.transcribe(audio_file, beam_size=5)
     segments = list(segments)
     temp_transcript_file = tempfile.NamedTemporaryFile(delete=False, suffix=".srt")
     with open(temp_transcript_file.name, "w", encoding="utf-8") as f:
         counter = 1
@@ -49,12 +40,10 @@ def process_video(Video, target_language):
             end_milliseconds = int((segment.end - int(segment.end)) * 1000)
             formatted_start = f"{start_minutes:02d}:{start_seconds:02d},{start_milliseconds:03d}"
             formatted_end = f"{end_minutes:02d}:{end_seconds:02d},{end_milliseconds:03d}"
             f.write(f"{counter}\n")
             f.write(f"{formatted_start} --> {formatted_end}\n")
             f.write(f"{segment.text}\n\n")
             counter += 1
     flores_code = lang_codes.get(target_language, "eng_Latn")
     temp_translated_file = tempfile.NamedTemporaryFile(delete=False, suffix=".srt")
     with open(temp_transcript_file.name, "r", encoding="utf-8") as infile, open(temp_translated_file.name, "w", encoding="utf-8") as outfile:
@@ -68,19 +57,11 @@ def process_video(Video, target_language):
                 outfile.write(translated_text + "\n")
             else:
                 outfile.write("\n")
-    if not os.path.exists(temp_translated_file.name):
-        print("Subtitle file does not exist. Exiting.")
-        return
     output_video = "output_video.mp4"
-    if not run_command(["ffmpeg", "-i", Video, "-vf", f"subtitles={temp_translated_file.name}", output_video]):
-        print("FFmpeg command for embedding subtitles failed. Exiting.")
-        return
     os.unlink(temp_transcript_file.name)
     os.unlink(temp_translated_file.name)
     return output_video
 iface = gr.Interface(

 import gradio as gr
 from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
+from subprocess import run
 from faster_whisper import WhisperModel
 import json
 import tempfile
 import os
+import ffmpeg
 from zipfile import ZipFile
 import stat
 ZipFile("ffmpeg.zip").extractall()
 st = os.stat('ffmpeg')
 os.chmod('ffmpeg', st.st_mode | stat.S_IEXEC)
 whisper_model = WhisperModel("large-v2", device="cuda", compute_type="float16")
 def process_video(Video, target_language):
+    print("Iniciando process_video")
     audio_file = tempfile.NamedTemporaryFile(suffix=".wav").name
+    print("Executando FFmpeg para extração de áudio")
+    run(["ffmpeg", "-i", Video, audio_file])
+    print("Iniciando transcrição com Whisper")
     segments, _ = whisper_model.transcribe(audio_file, beam_size=5)
     segments = list(segments)
     temp_transcript_file = tempfile.NamedTemporaryFile(delete=False, suffix=".srt")
     with open(temp_transcript_file.name, "w", encoding="utf-8") as f:
         counter = 1
             end_milliseconds = int((segment.end - int(segment.end)) * 1000)
             formatted_start = f"{start_minutes:02d}:{start_seconds:02d},{start_milliseconds:03d}"
             formatted_end = f"{end_minutes:02d}:{end_seconds:02d},{end_milliseconds:03d}"
             f.write(f"{counter}\n")
             f.write(f"{formatted_start} --> {formatted_end}\n")
             f.write(f"{segment.text}\n\n")
             counter += 1
     flores_code = lang_codes.get(target_language, "eng_Latn")
     temp_translated_file = tempfile.NamedTemporaryFile(delete=False, suffix=".srt")
     with open(temp_transcript_file.name, "r", encoding="utf-8") as infile, open(temp_translated_file.name, "w", encoding="utf-8") as outfile:
                 outfile.write(translated_text + "\n")
             else:
                 outfile.write("\n")
     output_video = "output_video.mp4"
+    run(["ffmpeg", "-i", Video, "-vf", f"subtitles={temp_translated_file.name}", output_video])
     os.unlink(temp_transcript_file.name)
     os.unlink(temp_translated_file.name)
+    print("process_video concluído com sucesso")
     return output_video
 iface = gr.Interface(