Cutter

Sleeping

App Files Files Community

salomonsky commited on Nov 23, 2023

Commit

0242288

1 Parent(s): 983a76a

Update dub.py

Browse files

Files changed (1) hide show

dub.py +44 -25

dub.py CHANGED Viewed

@@ -1,34 +1,53 @@
 import os
 from gtts import gTTS
-import speech_recognition as sr
 from pydub import AudioSegment
-from pydub.playback import play
-def text_to_speech(text, language='es'):
-    tts = gTTS(text=text, lang=language, slow=False)
-    tts.save('output.mp3')
-    return 'output.mp3'
 def play_audio(audio_file):
-    os.system(f'start {audio_file}')
 def transcribe_and_dub(video_file):
-    recognizer = sr.Recognizer()
-    audio_clip = AudioSegment.from_file(video_file, format="mp4")
-    audio_wav = audio_clip.export("audio.wav", format="wav")
-    with sr.AudioFile("audio.wav") as source:
-        audio_data = recognizer.record(source)
-    try:
-        recognized_text = recognizer.recognize_google(audio_data, language="es")
-        audio_file = text_to_speech(recognized_text)
-        dubbed_file = f"{video_file.replace('.mp4', '_dubbed.mp4')}"
-        video_clip = VideoFileClip(video_file)
-        dubbed_audio = AudioSegment.from_file(audio_file, format="mp3")
-        video_clip = video_clip.set_audio(dubbed_audio)
-        video_clip.write_videofile(dubbed_file, codec="libx264", audio_codec="aac", verbose=False)
-        play_audio(dubbed_file)
-        return dubbed_file
-    except sr.UnknownValueError:
-        return None

 import os
+import tempfile
 from gtts import gTTS
 from pydub import AudioSegment
+import moviepy.editor as mp
+from vosk import Model, KaldiRecognizer
+import json
+def text_to_speech(text, lang='es'):
+    tts = gTTS(text=text, lang=lang, slow=False)
+    temp_file = tempfile.NamedTemporaryFile(delete=False, suffix=".mp3")
+    tts.save(temp_file.name)
+    return temp_file.name
 def play_audio(audio_file):
+    sound = AudioSegment.from_mp3(audio_file)
+    sound.export("temp.wav", format="wav")
+    os.system("start temp.wav")
 def transcribe_and_dub(video_file):
+    temp_folder = tempfile.mkdtemp()
+    recognizer = KaldiRecognizer(Model("vosk-model-es-0.10"), 16000)
+    with mp.VideoFileClip(video_file) as video:
+        audio_file = os.path.join(temp_folder, "audio.wav")
+        video.audio.write_audiofile(audio_file)
+        process = os.popen(f'ffmpeg -i "{audio_file}" -ar 16000 -ac 1 "{os.path.join(temp_folder, "audio16000.wav")}"')
+        process.close()
+        audio_file = os.path.join(temp_folder, "audio16000.wav")
+        with open(audio_file, 'rb') as f:
+            data = f.read(1024)
+            while data:
+                recognizer.AcceptWaveform(data)
+                data = f.read(1024)
+    result = json.loads(recognizer.Result())
+    text = result.get("text", "")
+    dubbed_audio_file = text_to_speech(text)
+    dubbed_video_file = os.path.join(temp_folder, "dubbed_video.mp4")
+    with mp.VideoFileClip(video_file) as original_video:
+        dubbed_audio = AudioSegment.from_mp3(dubbed_audio_file)
+        dubbed_audio = dubbed_audio[:len(original_video.audio)]
+        dubbed_audio.export(os.path.join(temp_folder, "dubbed_audio.wav"), format="wav")
+        process = os.popen(f'ffmpeg -i "{video_file}" -i "{os.path.join(temp_folder, "dubbed_audio.wav")}" -c:v copy -c:a aac -strict experimental -map 0:v:0 -map 1:a:0 "{dubbed_video_file}"')
+        process.close()
+    return dubbed_video_file