Spaces:

Curify-dev
/

studio_V1_4_OCR_SOTA

Sleeping

App Files Files Community

qqwjq1981 commited on Jun 13, 2025

Commit

f1dbd54

verified ·

1 Parent(s): fea34c6

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -4

app.py CHANGED Viewed

@@ -300,7 +300,7 @@ def segment_audio_from_video(video_path):
         logger.info("Audio transcription completed")
     except Exception as e:
         logger.error(f"❌ WhisperX pipeline failed: {e}")
-        return audio_path, []
     # Return segment boundaries (only timestamps, not text)
     transcript_with_speakers = [
@@ -312,7 +312,7 @@ def segment_audio_from_video(video_path):
         if segment["end"] > segment["start"]
     ]
-    return audio_path, transcript_with_speakers
 def clean_transcribed_text(text: str) -> str:
     """
@@ -1388,7 +1388,7 @@ def upload_and_manage(file, target_language, process_mode):
         # Step 1: Segment audio from the uploaded video/audio file
         logger.info("Segmenting audio...")
-        temp_audio_for_vad, speech_segments = segment_audio_from_video(file.name)
         if not speech_segments:
             raise Exception("No speech segments detected in the audio.")
         logger.info(f"Audio segmentation completed. Found {len(speech_segments)} segments.")
@@ -1417,7 +1417,7 @@ def upload_and_manage(file, target_language, process_mode):
         # Step 3: Add transcript to video based on timestamps
         logger.info("Adding translated transcript to video...")
-        add_transcript_voiceover(file.name, translated_json, output_video_path, process_mode, target_language)
         logger.info(f"Transcript added to video. Output video saved at {output_video_path}")
         # Convert translated JSON into a format for the editable table

         logger.info("Audio transcription completed")
     except Exception as e:
         logger.error(f"❌ WhisperX pipeline failed: {e}")
+        return audio_path, segment_result, []
     # Return segment boundaries (only timestamps, not text)
     transcript_with_speakers = [
         if segment["end"] > segment["start"]
     ]
+    return audio_path, segment_result, transcript_with_speakers
 def clean_transcribed_text(text: str) -> str:
     """
         # Step 1: Segment audio from the uploaded video/audio file
         logger.info("Segmenting audio...")
+        temp_audio_for_vad, background_audio_path, speech_segments = segment_audio_from_video(file.name)
         if not speech_segments:
             raise Exception("No speech segments detected in the audio.")
         logger.info(f"Audio segmentation completed. Found {len(speech_segments)} segments.")
         # Step 3: Add transcript to video based on timestamps
         logger.info("Adding translated transcript to video...")
+        add_transcript_voiceover(file.name, translated_json, output_video_path, process_mode, target_language, background_audio_path = background_audio_path)
         logger.info(f"Transcript added to video. Output video saved at {output_video_path}")
         # Convert translated JSON into a format for the editable table