Spaces:

prasanacodes
/

Indic-Translation-Toolkit

Sleeping

App Files Files Community

prasanacodes commited on Aug 19, 2025

Commit

04cc0d9

verified ·

1 Parent(s): 73cb6f5

Update app.py

Browse files

Files changed (1) hide show

app.py +68 -9

app.py CHANGED Viewed

@@ -8,7 +8,9 @@ import re
 from deep_translator import MyMemoryTranslator
 import soundfile as sf
 from gradio_client import Client, handle_file
 # You only need to run this download command once
 nltk.download('punkt_tab')
@@ -181,18 +183,79 @@ def synthesize_speech(synth_text, target_lang, gender="Male", pace="normal", out
     print("synthesize_speech saved to ", result)
     return result
 def main_run(video_path,target_lang):
     original_audio_file = extract_audio_from_video(video_path)
     original_text , pace = transcribe_audio(original_audio_file)
     translated_text = translate_local(original_text,target_lang)
     translated_audio = synthesize_speech(translated_text, target_lang, "Male", pace)
-    return translated_audio
 def audio_pipeline_run(audio_path,target_lang):
     original_text , pace = transcribe_audio(audio_path)
     translated_text = translate_local(original_text,target_lang)
     translated_audio = synthesize_speech(translated_text, target_lang, "Male", pace)
-    return translated_audio
 # --- Gradio Interface Definition ---
@@ -219,6 +282,7 @@ app_interface = gr.Interface(
     allow_flagging="never"
 )
 '''
 with gr.Blocks(title="Audio/Video Translation Toolkit") as app_interface:
     gr.Markdown("# 🚀 Audio/Video Translation Toolkit")
     with gr.Tabs():
@@ -228,14 +292,9 @@ with gr.Blocks(title="Audio/Video Translation Toolkit") as app_interface:
                     video_in = gr.Video(label="Input Video", height=500)
                     lang_radio_vid = gr.Radio(choices=["Tamil", "Telugu", "Hindi"], label="Target Language", value="Tamil")
                     submit_btn_vid = gr.Button("Translate Video", variant="primary")
-                with gr.Column():
-                    video_out = gr.Audio(label="Output Audio", interactive=False)
-                '''
                 with gr.Column():
                     video_out = gr.Video(label="Output Video", interactive=False, height=500)
-                '''
             submit_btn_vid.click(fn=main_run, inputs=[video_in, lang_radio_vid], outputs=[video_out])

 from deep_translator import MyMemoryTranslator
 import soundfile as sf
 from gradio_client import Client, handle_file
+from openvoice_cli.__main__ import tune_one
+import pyrubberband as rb
+import librosa
 # You only need to run this download command once
 nltk.download('punkt_tab')
     print("synthesize_speech saved to ", result)
     return result
+def match_audio_duration(original_path, translated_path, output_path="temp_audio_synced.wav"):
+    """
+    Matches Synthesized Audio duration to Original Audio duration
+    """
+    print("\n[STEP 7/9] Syncing Audio durations")
+    # Load original audio
+    original_audio, original_sr = librosa.load(original_path, sr=None)
+    original_duration = librosa.get_duration(y=original_audio, sr=original_sr)
+    print(f"Original audio duration: {original_duration:.2f} seconds")
+    # Load translated audio
+    translated_audio, translated_sr = librosa.load(translated_path, sr=None)
+    translated_duration = librosa.get_duration(y=translated_audio, sr=translated_sr)
+    print(f"Translated audio duration: {translated_duration:.2f} seconds")
+    # Compute the speed-up/slow-down rate
+    # If rate > 1.0, audio is sped up. If rate < 1.0, audio is slowed down.
+    rate = translated_duration / original_duration
+    print(f"Stretch rate: {rate:.4f}")
+    # Apply time-stretch using the high-quality rubberband library
+    # The parameters are: audio_data, sample_rate, and the desired rate
+    adjusted_audio = rb.time_stretch(translated_audio, translated_sr, rate=rate)
+    # Save output
+    # The sample rate remains the same as the translated audio's original rate
+    sf.write(output_path, adjusted_audio, translated_sr)
+    print(f"✅ Adjusted audio saved as: {output_path}")
+    return output_path
+def clone_voice(target_audio_path, reference_audio_path, target_lang, gender="Male", pace="normal", output_path="temp_audio_cloned.wav", device=None):
+    # Set parameters for single file processing
+    ref_file =    str('reference/'+target_lang.upper()+'/'+gender.upper()+'_'+pace.upper()+'.wav')
+    output_file = 'cloned_audio.wav'
+    device = 'cpu'  # or 'cuda:0' for GPU processing
+    print("Cloning Voice")
+    # Convert the tone color of a single audio file
+    tune_one(input_file=input_file, ref_file=ref_file, output_file=output_file, device=device)
+    return output_file
+def merge_audio_video(video_path, audio_path, output_path="temp_merged.mp4"):
+    """
+    Merges an audio file with a video file into a single output video.
+    """
+    print("\n[STEP] Merging audio and video...")
+    video_input = ffmpeg.input(video_path)
+    audio_input = ffmpeg.input(audio_path)
+    (
+        ffmpeg.output(video_input.video, audio_input.audio, output_path, vcodec='copy', acodec='aac', shortest=None)
+        .run(overwrite_output=True, quiet=True)
+    )
+    print(f"✅ Merged video saved to {output_path}")
+    return output_path
 def main_run(video_path,target_lang):
     original_audio_file = extract_audio_from_video(video_path)
     original_text , pace = transcribe_audio(original_audio_file)
     translated_text = translate_local(original_text,target_lang)
     translated_audio = synthesize_speech(translated_text, target_lang, "Male", pace)
+    synced_translated_audio = match_audio_duration(original_audio_file, translated_audio)
+    cloned_synced_translated_audio = clone_voice(original_audio_file, synced_translated_audio, target_lang, gender="Male", pace)
+    final_video_nobgm = merge_audio_video(video_path, cloned_synced_translated_audio)
+    return final_video_nobgm
 def audio_pipeline_run(audio_path,target_lang):
     original_text , pace = transcribe_audio(audio_path)
     translated_text = translate_local(original_text,target_lang)
     translated_audio = synthesize_speech(translated_text, target_lang, "Male", pace)
+    synced_translated_audio = match_audio_duration(original_audio_file, translated_audio)
+    cloned_synced_translated_audio = clone_voice(original_audio_file, synced_translated_audio, target_lang, gender="Male", pace)
+    return cloned_synced_translated_audio
 # --- Gradio Interface Definition ---
     allow_flagging="never"
 )
 '''
 with gr.Blocks(title="Audio/Video Translation Toolkit") as app_interface:
     gr.Markdown("# 🚀 Audio/Video Translation Toolkit")
     with gr.Tabs():
                     video_in = gr.Video(label="Input Video", height=500)
                     lang_radio_vid = gr.Radio(choices=["Tamil", "Telugu", "Hindi"], label="Target Language", value="Tamil")
                     submit_btn_vid = gr.Button("Translate Video", variant="primary")
                 with gr.Column():
                     video_out = gr.Video(label="Output Video", interactive=False, height=500)
             submit_btn_vid.click(fn=main_run, inputs=[video_in, lang_radio_vid], outputs=[video_out])