Spaces:

Curify-dev
/

studio_V1_4_OCR_SOTA

Sleeping

App Files Files Community

qqwjq1981 commited on Jun 4, 2025

Commit

d3b873d

verified ·

1 Parent(s): 44dc269

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -4

app.py CHANGED Viewed

@@ -1371,19 +1371,30 @@ def upload_and_manage(file, target_language, process_mode):
         logger.info(f"Using audio path: {audio_path}, output video path: {output_video_path}, voiceover path: {voiceover_path}")
-        # Step 1: Transcribe audio from uploaded media file and get timestamps
-        logger.info("Transcribing audio...")
-        transcription_json, source_language = transcribe_segments_with_scribe(file.name)
         logger.info(f"Transcription completed. Detected source language: {source_language}")
         transcription_json_merged = transcription_json
         #post_edit_transcribed_segments(transcription_json, file.name, source_language)
         # Step 2: Translate the transcription
         logger.info(f"Translating transcription from {source_language} to {target_language}...")
         translated_json_raw = translate_text(transcription_json_merged, source_language, target_language)
         logger.info(f"Translation completed. Number of translated segments: {len(translated_json_raw)}")
         translated_json = apply_adaptive_speed(translated_json_raw, source_language, target_language, process_mode)
         # New: Save the translated JSON to a file

         logger.info(f"Using audio path: {audio_path}, output video path: {output_video_path}, voiceover path: {voiceover_path}")
+        # Step 1: Segment audio from the uploaded video/audio file
+        logger.info("Segmenting audio...")
+        temp_audio_for_vad, speech_segments, seg_error = segment_audio_from_video(file.name)
+        if seg_error:
+            raise Exception(f"Audio segmentation failed: {seg_error}")
+        if not speech_segments:
+            raise Exception("No speech segments detected in the audio.")
+        logger.info(f"Audio segmentation completed. Found {len(speech_segments)} segments.")
+        # Step 2: Transcribe the segments using ElevenLabs Scribe
+        logger.info("Transcribing audio segments...")
+        transcription_json, source_language, trans_error = transcribe_segments_with_scribe(temp_audio_for_vad, speech_segments)
+        if trans_error:
+            raise Exception(f"Transcription failed: {trans_error}")
         logger.info(f"Transcription completed. Detected source language: {source_language}")
         transcription_json_merged = transcription_json
         #post_edit_transcribed_segments(transcription_json, file.name, source_language)
         # Step 2: Translate the transcription
         logger.info(f"Translating transcription from {source_language} to {target_language}...")
         translated_json_raw = translate_text(transcription_json_merged, source_language, target_language)
         logger.info(f"Translation completed. Number of translated segments: {len(translated_json_raw)}")
         translated_json = apply_adaptive_speed(translated_json_raw, source_language, target_language, process_mode)
         # New: Save the translated JSON to a file