Spaces:

Bagda
/

IMAGEIN

Runtime error

App Files Files Community

Bagda commited on Jun 13, 2025

Commit

f7d38d2

verified ·

1 Parent(s): 905dfdb

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -16

app.py CHANGED Viewed

@@ -1,23 +1,64 @@
 import gradio as gr
-from transformers import pipeline
 import scipy
-# Suno Bark text-to-speech pipeline load करें
 bark_pipe = pipeline("text-to-speech", model="suno/bark")
-def bark_tts(text):
-    result = bark_pipe(text)
-    # WAV file return करें (Gradio को binary चाहिए)
-    scipy.io.wavfile.write("output.wav", result["sampling_rate"], result["audio"])
-    return "output.wav"
-iface = gr.Interface(
-    fn=bark_tts,
-    inputs=gr.Textbox(label="Enter text (Hindi/English)"),
-    outputs=gr.Audio(type="filepath", label="Generated Speech"),
-    title="Suno Bark Text-to-Speech Demo"
-)
-if __name__ == "__main__":
-    iface.launch(server_name="0.0.0.0", server_port=7860)

 import gradio as gr
+from transformers import pipeline, WhisperProcessor, WhisperForConditionalGeneration
+import librosa
 import scipy
+import os
+# Whisper-Small model setup
+processor = WhisperProcessor.from_pretrained("openai/whisper-small")
+model = WhisperForConditionalGeneration.from_pretrained("openai/whisper-small")
+# Bark model setup
 bark_pipe = pipeline("text-to-speech", model="suno/bark")
+def process_audio(video_file):
+    # Step 1: Extract audio from video (if video is uploaded)
+    # (Agar sirf audio hai, toh skip karein)
+    output_audio = "output_audio.wav"
+    video = gr.Video(video_file)
+    audio = video.audio
+    audio.write_audiofile(output_audio)
+    # Step 2: Speech-to-text
+    audio, sr = librosa.load(output_audio, sr=16000)
+    input_features = processor(audio, sampling_rate=sr, return_tensors="pt").input_features
+    predicted_ids = model.generate(input_features)
+    transcription = processor.batch_decode(predicted_ids, skip_special_tokens=True)[0]
+    # Step 3: Text-to-speech
+    speech = bark_pipe(transcription)
+    output_file = "output_dubbed.wav"
+    scipy.io.wavfile.write(output_file, speech["sampling_rate"], speech["audio"])
+    # Step 4: Merge audio to video (temporary: agar video hai, toh audio replace karein)
+    # NOTE: Gradio ke current video component ke saath direct audio replace support nahi hai,
+    # toh hum sirf audio output file return karenge, jise user download kar sake
+    # Agar aapko video+audio merge karna hai, toh moviepy ka use karein, aur output video file return karein
+    # Yahan sirf audio output file return kar rahe hain
+    return transcription, output_file
+# Moviepy se video+audio merge (optional, agar video chahiye)
+def merge_audio_to_video(video_file, audio_file, output_video="output_dubbed.mp4"):
+    import moviepy.editor as mp
+    video = mp.VideoFileClip(video_file)
+    audio = mp.AudioFileClip(audio_file)
+    video = video.set_audio(audio)
+    video.write_videofile(output_video)
+    return output_video
+# NOTE: Gradio Audio component sirf audio file upload karta hai, video file ke liye Gradio Video component use karein
+# Lekin Gradio Video component output mein filepath return nahi karta, toh hum sirf audio file return karenge
+with gr.Blocks() as demo:
+    gr.Markdown("# Imagine: AI Video/Audio Dubbing")
+    with gr.Row():
+        file_in = gr.Video(label="Upload Video/Audio File")
+    btn = gr.Button("Generate Dubbed Audio")
+    transcription_out = gr.Textbox(label="Transcription")
+    audio_out = gr.Audio(label="Download Dubbed Audio", type="filepath")
+    btn.click(
+        fn=process_audio,
+        inputs=file_in,
+        outputs=[transcription_out, audio_out]
+    )
+    # Agar video output chahiye, toh yeh function use karein (optional, Gradio Video output ke liye thoda advanced code chahiye)
+    # Yahan sirf audio output hai
+demo.launch(server_name="0.0.0.0", server_port=7860)