Spaces:

FunAudioLLM
/

PrismAudio

Running on Zero

App Files Files Community

prismaudio-project commited on 2 days ago

Commit

10a671c

1 Parent(s): 537397a

fix

Browse files

Files changed (1) hide show

app.py +7 -7

app.py CHANGED Viewed

@@ -392,21 +392,21 @@ def generate_audio_core(video_file, caption):
                 return log_step(f"❌ Video conversion failed:\n{err}"), None
         else:
             shutil.copy(video_file, mp4_path)
-        log_step(f"   Video ready. ⏱️ Step 1 cost: {time.time() - step_start:.2f}s")
         # ---- Step 2: Validate duration ----
         step_start = time.time()
         status = log_step("📹 Step 2: Checking video duration...")
         duration = get_video_duration(mp4_path)
-        log_step(f"   Duration: {duration:.2f}s ⏱️ Step 2 cost: {time.time() - step_start:.2f}s")
         # ---- Step 3: Extract video frames ----
         step_start = time.time()
         status = log_step("🎞️  Step 3: Extracting video frames...")
         clip_chunk, sync_chunk, duration = extract_video_frames(mp4_path)
-        log_step(f"   Frames extracted. ⏱️ Step 3 cost: {time.time() - step_start:.2f}s")
         # ---- Step 4: Extract model features ----
         step_start = time.time()
@@ -420,14 +420,14 @@ def generate_audio_core(video_file, caption):
         status = log_step("📦 Step 5: Building inference batch...")
         audio_latent, meta = build_meta(info, duration, caption)
-        log_step(f"   audio_latent : {tuple(audio_latent.shape)} ⏱️ Step 5 cost: {time.time() - step_start:.2f}s")
         # ---- Step 6: Diffusion sampling ----
         step_start = time.time()
         status = log_step("🎵 Step 6: Running diffusion sampling...")
         generated_audio = run_diffusion(audio_latent, meta, duration)
-        log_step(f"   Diffusion sampling done. ⏱️ Step 6 cost: {time.time() - step_start:.2f}s")
         # ---- Step 7: Save generated audio (temp) ----
         step_start = time.time()
@@ -439,7 +439,7 @@ def generate_audio_core(video_file, caption):
             generated_audio[0],  # (1, T)
             SAMPLE_RATE,
         )
-        log_step(f"   Audio saved: {audio_path} ⏱️ Step 7 cost: {time.time() - step_start:.2f}s")
         # ---- Step 8: Mux audio into original video ----
         step_start = time.time()
@@ -450,7 +450,7 @@ def generate_audio_core(video_file, caption):
         if not ok:
             return log_step(f"❌ Failed to combine audio and video:\n{err}"), None
-        log_step(f"   Audio and video merged. ⏱️ Step 8 cost: {time.time() - step_start:.2f}s")
         total_cost = time.time() - total_start_time
         log_step(f"✅ Done! Audio and video merged successfully. ⏱️ Total cost: {total_cost:.2f}s")

                 return log_step(f"❌ Video conversion failed:\n{err}"), None
         else:
             shutil.copy(video_file, mp4_path)
+        log_step(f"⏱️ Step 1 cost: {time.time() - step_start:.2f}s")
         # ---- Step 2: Validate duration ----
         step_start = time.time()
         status = log_step("📹 Step 2: Checking video duration...")
         duration = get_video_duration(mp4_path)
+        log_step(f"⏱️ Step 2 cost: {time.time() - step_start:.2f}s")
         # ---- Step 3: Extract video frames ----
         step_start = time.time()
         status = log_step("🎞️  Step 3: Extracting video frames...")
         clip_chunk, sync_chunk, duration = extract_video_frames(mp4_path)
+        log_step(f"⏱️ Step 3 cost: {time.time() - step_start:.2f}s")
         # ---- Step 4: Extract model features ----
         step_start = time.time()
         status = log_step("📦 Step 5: Building inference batch...")
         audio_latent, meta = build_meta(info, duration, caption)
+        log_step(f"⏱️ Step 5 cost: {time.time() - step_start:.2f}s")
         # ---- Step 6: Diffusion sampling ----
         step_start = time.time()
         status = log_step("🎵 Step 6: Running diffusion sampling...")
         generated_audio = run_diffusion(audio_latent, meta, duration)
+        log_step(f"⏱️ Step 6 cost: {time.time() - step_start:.2f}s")
         # ---- Step 7: Save generated audio (temp) ----
         step_start = time.time()
             generated_audio[0],  # (1, T)
             SAMPLE_RATE,
         )
+        log_step(f"⏱️ Step 7 cost: {time.time() - step_start:.2f}s")
         # ---- Step 8: Mux audio into original video ----
         step_start = time.time()
         if not ok:
             return log_step(f"❌ Failed to combine audio and video:\n{err}"), None
+        log_step(f"⏱️ Step 8 cost: {time.time() - step_start:.2f}s")
         total_cost = time.time() - total_start_time
         log_step(f"✅ Done! Audio and video merged successfully. ⏱️ Total cost: {total_cost:.2f}s")