Spaces:

nsfwalex
/

whisper-transcribe-new

Runtime error

App Files Files Community

liuyang commited on Oct 7

Commit

9e14752

1 Parent(s): 646c8e8

fix field key

Browse files

Files changed (1) hide show

app.py +13 -14

app.py CHANGED Viewed

@@ -262,7 +262,6 @@ def prepare_and_save_audio_for_model(task: dict, out_dir: str) -> dict:
         and a "chunks" array containing metadata dict(s) for each processed chunk.
         This structure is returned for both single and multiple chunk inputs.
     """
-    chunks = task["chunk"]
     result = {
             "job_id": task.get("job_id", "job"),
             "channel": task["channel"],
@@ -272,8 +271,9 @@ def prepare_and_save_audio_for_model(task: dict, out_dir: str) -> dict:
         }
     # Handle both single chunk and multiple chunks
-    if isinstance(chunks, list):
         # Process multiple chunks
         results = []
         for chunk in chunks:
             # Create a task for each chunk
@@ -1024,7 +1024,7 @@ class WhisperTranscriber:
         """
         try:
             print("Transcribing segments...")
             # Step 1: Preprocess per chunk JSON
             chunks = pre_meta["segments"]
             for chunk in chunks:
@@ -1034,23 +1034,22 @@ class WhisperTranscriber:
                 base_offset_s = float(chunk.get("abs_start_ms", 0)) / 1000.0
                 # Step 2: Transcribe full audio once
-                transcription_results, detected_language = self.transcribe_full_audio(
                     wav_path, language, translate, prompt, batch_size, base_offset_s=base_offset_s, clip_timestamps=None, model_name=model_name, transcribe_options=transcribe_options
                 )
                 # Step 6: Return results
-                result = {
-                    "chunk_idx": chunk["chunk_idx"],
-                    "channel": chunk["channel"],
-                    "job_id": pre_meta["job_id"],
-                    "segments": transcription_results,
-                    "language": detected_language,
-                    "batch_size": batch_size,
-                }
             # job_id = pre_meta["job_id"]
             # task_id = pre_meta["chunk_idx"]
             filekey = pre_meta["filekey"]#f"ai-transcribe/split/{job_id}-{task_id}.json"
-            ret = upload_data_to_r2(json.dumps(result), "intermediate", filekey)
             if ret:
                 return {"filekey": filekey}
             else:

         and a "chunks" array containing metadata dict(s) for each processed chunk.
         This structure is returned for both single and multiple chunk inputs.
     """
     result = {
             "job_id": task.get("job_id", "job"),
             "channel": task["channel"],
         }
     # Handle both single chunk and multiple chunks
+    if task.get("segments", None):
         # Process multiple chunks
+        chunks = task["segments"]
         results = []
         for chunk in chunks:
             # Create a task for each chunk
         """
         try:
             print("Transcribing segments...")
+            transcription_results = []
             # Step 1: Preprocess per chunk JSON
             chunks = pre_meta["segments"]
             for chunk in chunks:
                 base_offset_s = float(chunk.get("abs_start_ms", 0)) / 1000.0
                 # Step 2: Transcribe full audio once
+                transcription_result, detected_language = self.transcribe_full_audio(
                     wav_path, language, translate, prompt, batch_size, base_offset_s=base_offset_s, clip_timestamps=None, model_name=model_name, transcribe_options=transcribe_options
                 )
                 # Step 6: Return results
+                result = {}
+                result.update(chunk)
+                result["segments"] = transcription_result
+                result["language"] = detected_language
+                result["batch_size"] = batch_size
+                transcription_results.append(result)
             # job_id = pre_meta["job_id"]
             # task_id = pre_meta["chunk_idx"]
             filekey = pre_meta["filekey"]#f"ai-transcribe/split/{job_id}-{task_id}.json"
+            ret = upload_data_to_r2(json.dumps(transcription_results), "intermediate", filekey)
             if ret:
                 return {"filekey": filekey}
             else: