Cutter

Sleeping

App Files Files Community

salomonsky commited on Nov 23, 2023

Commit

3a78a97

1 Parent(s): 90de24b

Update dub.py

Browse files

Files changed (1) hide show

dub.py +25 -44

dub.py CHANGED Viewed

@@ -1,20 +1,24 @@
 import os
 import tempfile
-import json
-import requests
 from gtts import gTTS
 from pydub import AudioSegment
 import moviepy.editor as mp
-from vosk import Model, KaldiRecognizer
-from moviepy.editor import VideoFileClip, AudioFileClip
-def download_vosk_model(model_url, destination_folder):
-    os.makedirs(destination_folder, exist_ok=True)
-    model_zip = os.path.join(destination_folder, "vosk-model-es-0.42.zip")
-    response = requests.get(model_url)
-    with open(model_zip, 'wb') as f:
-        f.write(response.content)
-    return model_zip
 def text_to_speech(text, lang='es'):
     tts = gTTS(text=text, lang=lang, slow=False)
@@ -25,27 +29,21 @@ def text_to_speech(text, lang='es'):
 def transcribe_and_dub(video_file):
     temp_folder = tempfile.mkdtemp()
-    vosk_model_url = "https://alphacephei.com/vosk/models/vosk-model-es-0.42.zip"
-    model_path = os.path.join(temp_folder, "vosk-model-es-0.42")
-    model_zip = download_vosk_model(vosk_model_url, temp_folder)
     try:
-        import zipfile
-        with zipfile.ZipFile(model_zip, 'r') as zip_ref:
-            zip_ref.extractall(model_path)
         with mp.VideoFileClip(video_file) as video:
             audio_file = os.path.join(temp_folder, "audio.wav")
-            video.audio.write_audiofile(audio_file, codec='pcm_s16le')
-        model = Model(model_path)
-        recognizer = KaldiRecognizer(model, AudioFileClip(audio_file).raw_data)
-        result = json.loads(recognizer.result())
-        text = result['text']
         dubbed_audio_file = text_to_speech(text)
         original_audio = AudioSegment.from_file(audio_file, format="wav")
         dubbed_audio = AudioSegment.from_mp3(dubbed_audio_file)
@@ -56,27 +54,10 @@ def transcribe_and_dub(video_file):
         dubbed_video_file = os.path.join(temp_folder, "dubbed_video.mp4")
         video_with_dubbed_audio.write_videofile(dubbed_video_file, codec="libx264", audio_codec="aac", verbose=False)
         return dubbed_video_file
     except Exception as e:
-        print(f"Error during transcription and dubbing: {str(e)}")
-        return None
-    finally:
-        os.remove(model_zip)
-def merge_video_audio(video_file, audio_file, output_file):
-    video_clip = VideoFileClip(video_file)
-    if audio_file is not None:
-        audio_clip = AudioFileClip(audio_file)
-        if audio_clip.duration < video_clip.duration:
-            audio_clip = audio_clip.set_duration(video_clip.duration)
-        else:
-            audio_clip = audio_clip.subclip(0, video_clip.duration)
-        video_clip = video_clip.set_audio(audio_clip)
-    video_clip.write_videofile(output_file, codec="libx264", audio_codec="aac", verbose=False)

 import os
 import tempfile
 from gtts import gTTS
 from pydub import AudioSegment
 import moviepy.editor as mp
+import speech_recognition as sr
+def merge_video_audio(video_file, audio_file, output_file):
+    video_clip = mp.VideoFileClip(video_file)
+    if audio_file is not None:
+        audio_clip = mp.AudioFileClip(audio_file)
+        if audio_clip.duration < video_clip.duration:
+            audio_clip = audio_clip.set_duration(video_clip.duration)
+        else:
+            audio_clip = audio_clip.subclip(0, video_clip.duration)
+        video_clip = video_clip.set_audio(audio_clip)
+    video_clip.write_videofile(output_file, codec="libx264", audio_codec="aac", verbose=False)
 def text_to_speech(text, lang='es'):
     tts = gTTS(text=text, lang=lang, slow=False)
 def transcribe_and_dub(video_file):
     temp_folder = tempfile.mkdtemp()
     try:
         with mp.VideoFileClip(video_file) as video:
             audio_file = os.path.join(temp_folder, "audio.wav")
+            video.audio.write_audiofile(audio_file)
+        recognizer = sr.Recognizer()
+        with sr.AudioFile(audio_file) as source:
+            audio = recognizer.record(source)
+        text = recognizer.recognize_google(audio, language='es')
+        print(f"Texto reconocido: {text}")
         dubbed_audio_file = text_to_speech(text)
+        print(f"Archivo de audio doblado: {dubbed_audio_file}")
         original_audio = AudioSegment.from_file(audio_file, format="wav")
         dubbed_audio = AudioSegment.from_mp3(dubbed_audio_file)
         dubbed_video_file = os.path.join(temp_folder, "dubbed_video.mp4")
         video_with_dubbed_audio.write_videofile(dubbed_video_file, codec="libx264", audio_codec="aac", verbose=False)
+        print(f"Archivo de video doblado: {dubbed_video_file}")
         return dubbed_video_file
     except Exception as e:
+        print(f"Error durante la transcripción y el doblaje: {str(e)}")
+        return None