Spaces:

Curify
/

studio_V1

Sleeping

App Files Files Community

qqwjq1981 commited on Apr 5, 2025

Commit

4cba5c4

verified ·

1 Parent(s): 68eec85

Update app.py

Browse files

Files changed (1) hide show

app.py +62 -30

app.py CHANGED Viewed

@@ -408,7 +408,7 @@ def create_subtitle_clip_pil(text, start_time, end_time, video_width, video_heig
         logger.error(f"\u274c Failed to create subtitle clip: {e}")
         return None
-def process_entry(entry, i, tts_model, video_width, video_height, add_voiceover, target_language, font_path, speaker_sample_paths=None):
     logger.debug(f"Processing entry {i}: {entry}")
     error_message = None
@@ -424,13 +424,15 @@ def process_entry(entry, i, tts_model, video_width, video_height, add_voiceover,
         try:
             segment_audio_path = f"segment_{i}_voiceover.wav"
             desired_duration = entry["end"] - entry["start"]
-            speaker = entry.get("speaker", "default")
-            speaker_wav_path = f"speaker_{speaker}_sample.wav"
-            output_path, status_msg, tts_error = generate_voiceover_clone([entry], tts_model, desired_duration, target_language, speaker_wav_path, segment_audio_path)
-            if tts_error:
-                error_message = error_message + " | " + tts_error if error_message else tts_error
             if not output_path or not os.path.exists(segment_audio_path):
                 raise FileNotFoundError(f"Voiceover file not generated at: {segment_audio_path}")
@@ -453,28 +455,28 @@ def process_entry(entry, i, tts_model, video_width, video_height, add_voiceover,
     return i, txt_clip, audio_segment, error_message
-def add_transcript_voiceover(video_path, translated_json, output_path, add_voiceover=False, target_language="en", speaker_sample_paths=None):
     video = VideoFileClip(video_path)
     font_path = "./NotoSansSC-Regular.ttf"
     text_clips = []
     audio_segments = []
     error_messages = []
-    global tts_model
-    if tts_model is None:
-        try:
-            print("🔄 Loading XTTS model...")
-            tts_model = TTS(model_name="tts_models/multilingual/multi-dataset/your_tts")
-            print("✅ XTTS model loaded successfully.")
-        except Exception as e:
-            print("❌ Error loading XTTS model:")
-            traceback.print_exc()
-            return f"Error loading XTTS model: {e}"
-            ## Need to implmenet backup option.
     with concurrent.futures.ThreadPoolExecutor() as executor:
-        futures = [executor.submit(process_entry, entry, i, tts_model, video.w, video.h, add_voiceover, target_language, font_path, speaker_sample_paths, background_audio_path="background_segments.wav")
                    for i, entry in enumerate(translated_json)]
         results = []
@@ -526,26 +528,56 @@ def add_transcript_voiceover(video_path, translated_json, output_path, add_voice
     return error_messages
-def generate_voiceover_clone(translated_json, tts_model, desired_duration, target_language, speaker_wav_path, output_audio_path, use_clone=False):
-    try:
-        full_text = " ".join(entry["translated"] for entry in translated_json if "translated" in entry and entry["translated"].strip())
-        if not full_text.strip():
-            msg = "❌ Translated text is empty."
-            logger.error(msg)
-            return None, msg, msg
         if not speaker_wav_path or not os.path.exists(speaker_wav_path):
             msg = f"❌ Speaker audio not found: {speaker_wav_path}"
             logger.error(msg)
             return None, msg, msg
-        speed_tts = calibrated_speed(full_text, desired_duration)
         tts_model.tts_to_file(
             text=full_text,
             speaker_wav=speaker_wav_path,
             language=target_language,
             file_path=output_audio_path,
-            speed=speed_tts,
             split_sentences=True
         )
@@ -584,7 +616,6 @@ def calibrated_speed(text, desired_duration):
         slope = (2 - 1.0) / (30 - 14)
         return 1.0 + slope * (cps - 14)
 def upload_and_manage(file, target_language, mode="transcription"):
     if file is None:
         logger.info("No file uploaded. Please upload a video/audio file.")
@@ -702,6 +733,7 @@ def build_interface():
     return demo
 tts_model = None
 # Launch the Gradio interface
 demo = build_interface()
 demo.launch()

         logger.error(f"\u274c Failed to create subtitle clip: {e}")
         return None
+def process_entry(entry, i, tts_model, video_width, video_height, add_voiceover, target_language, font_path, use_clone, speaker_sample_paths=None):
     logger.debug(f"Processing entry {i}: {entry}")
     error_message = None
         try:
             segment_audio_path = f"segment_{i}_voiceover.wav"
             desired_duration = entry["end"] - entry["start"]
+            desired_speed = calibrated_speed(entry['translated'], desired_duration)
+            if use_clone:
+                speaker = entry.get("speaker", "default")
+                speaker_wav_path = f"speaker_{speaker}_sample.wav"
+                generate_voiceover_clone(entry['translated'], tts_model, desired_speed, target_language, speaker_wav_path, segment_audio_path)
+            else:
+                generate_voiceover_OpenAI(entry['translated'], tts_model, desired_speed, target_language, speaker_wav_path, segment_audio_path)
             if not output_path or not os.path.exists(segment_audio_path):
                 raise FileNotFoundError(f"Voiceover file not generated at: {segment_audio_path}")
     return i, txt_clip, audio_segment, error_message
+def add_transcript_voiceover(video_path, translated_json, output_path, add_voiceover=False, target_language="en", speaker_sample_paths=None, use_clone=False):
     video = VideoFileClip(video_path)
     font_path = "./NotoSansSC-Regular.ttf"
     text_clips = []
     audio_segments = []
     error_messages = []
+    if use_clone:
+        if tts_model is None:
+            try:
+                print("🔄 Loading XTTS model...")
+                tts_model = TTS(model_name="tts_models/multilingual/multi-dataset/your_tts")
+                print("✅ XTTS model loaded successfully.")
+            except Exception as e:
+                print("❌ Error loading XTTS model:")
+                traceback.print_exc()
+                return f"Error loading XTTS model: {e}"
+                ## Need to implmenet backup option.
     with concurrent.futures.ThreadPoolExecutor() as executor:
+        futures = [executor.submit(process_entry, entry, i, tts_model, video.w, video.h, add_voiceover, target_language, font_path, use_clone, speaker_sample_paths)
                    for i, entry in enumerate(translated_json)]
         results = []
     return error_messages
+def generate_voiceover_OpenAI(full_text, language, desired_speed, output_audio_path):
+    """
+    Generate voiceover from translated text for a given language using OpenAI TTS API.
+    """
+    # Define the voice based on the language (for now, use 'alloy' as default)
+    voice = "alloy"  # Adjust based on language if needed
+    # Define the model (use tts-1 for real-time applications)
+    model = "tts-1"
+    max_retries = 3
+    retry_count = 0
+    while retry_count < max_retries:
+        try:
+            # Create the speech using OpenAI TTS API
+            response = client.audio.speech.create(
+                model=model,
+                voice=voice,
+                input=full_text,
+                speed=desired_speed
+            )
+            # Save the audio to the specified path
+            with open(output_audio_path, 'wb') as f:
+                for chunk in response.iter_bytes():
+                    f.write(chunk)
+            logging.info(f"Voiceover generated successfully for {output_audio_path}")
+            break
+        except Exception as e:
+            retry_count += 1
+            logging.error(f"Error generating voiceover (retry {retry_count}/{max_retries}): {e}")
+            time.sleep(5)  # Wait 5 seconds before retrying
+    if retry_count == max_retries:
+        raise ValueError(f"Failed to generate voiceover after {max_retries} retries.")
+def generate_voiceover_clone(full_text, tts_model, desired_speed, target_language, speaker_wav_path, output_audio_path, use_clone=False):
+    try:
         if not speaker_wav_path or not os.path.exists(speaker_wav_path):
             msg = f"❌ Speaker audio not found: {speaker_wav_path}"
             logger.error(msg)
             return None, msg, msg
         tts_model.tts_to_file(
             text=full_text,
             speaker_wav=speaker_wav_path,
             language=target_language,
             file_path=output_audio_path,
+            speed=desired_speed,
             split_sentences=True
         )
         slope = (2 - 1.0) / (30 - 14)
         return 1.0 + slope * (cps - 14)
 def upload_and_manage(file, target_language, mode="transcription"):
     if file is None:
         logger.info("No file uploaded. Please upload a video/audio file.")
     return demo
 tts_model = None
+global tts_model
 # Launch the Gradio interface
 demo = build_interface()
 demo.launch()