Spaces:

C4G-HKUST
/

AnyTalker

Running on Zero

App Files Files Community

C4G-HKUST commited on 7 days ago

Commit

0c6b95b

1 Parent(s): 1b0ed38

feat: trim

Browse files

Files changed (1) hide show

app.py +44 -17

app.py CHANGED Viewed

@@ -436,7 +436,7 @@ def run_graio_demo(args):
     logging.info("Model and face processor loaded successfully.")
     def generate_video(img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3,
-                    sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector, fixed_steps=None, trim_to_6s=False):
         # 参考 LivePortrait: 在 worker 进程中直接使用 cuda 设备
         # 参考: https://huggingface.co/spaces/KlingTeam/LivePortrait/blob/main/src/gradio_pipeline.py
         # @spaces.GPU 装饰器已经初始化了 GPU，这里直接使用即可
@@ -483,8 +483,8 @@ def run_graio_demo(args):
                 fps = getattr(cfg, 'fps', 24)
                 calculated_frame_num = calculate_frame_num_from_audio(audio_paths, fps, mode=audio_mode_selector)
-                # Fast模式：如果trim_to_6s为True，强制限制为4秒对应的帧数
-                if trim_to_6s:
                     # 4秒固定为97帧（4n+1格式：4秒*24fps=96帧，向上取整为97帧）
                     max_frames_4s = 97
                     current_frame_num = min(calculated_frame_num, max_frames_4s)
@@ -530,7 +530,7 @@ def run_graio_demo(args):
             audio_paths=audio_paths,
             task_key="gradio_output",
             mode=audio_mode_selector,
-            trim_to_6s=trim_to_6s,
         )
         if isinstance(video, dict):
@@ -561,6 +561,10 @@ def run_graio_demo(args):
         if audio_paths:
             existing_audio_paths = [path for path in audio_paths if path and os.path.exists(path)]
             if existing_audio_paths:
                 # 构建输出文件名
                 audio_names = [os.path.basename(path).split('.')[0] for path in existing_audio_paths]
                 audio_suffix = "_".join([f"audio{i}_{name}" for i, name in enumerate(audio_names)])
@@ -569,31 +573,54 @@ def run_graio_demo(args):
                 # 构建 ffmpeg 命令
                 if len(existing_audio_paths) == 1:
                     # 只有一个音频
-                    ffmpeg_command = f'ffmpeg -i "{output_file}" -i "{existing_audio_paths[0]}" -vcodec libx264 -acodec aac -crf 18 -shortest -y "{audio_video_path}"'
                 else:
                     input_args = f'-i "{output_file}"'
                     if audio_mode_selector == "concat":
                         # concat 模式：串联音频
                         for audio_path in existing_audio_paths:
-                            input_args += f' -i "{audio_path}"'
                         num_audios = len(existing_audio_paths)
                         concat_inputs = ''.join([f'[{i+1}:a]' for i in range(num_audios)])
                         filter_complex = f'"{concat_inputs}concat=n={num_audios}:v=0:a=1[aout]"'
-                        ffmpeg_command = (
-                            f'ffmpeg {input_args} -filter_complex {filter_complex} '
-                            f'-map 0:v -map "[aout]" -vcodec libx264 -acodec aac -crf 18 -y "{audio_video_path}"'
-                        )
                     else:
                         # pad 模式：混合所有音频
                         filter_inputs = []
                         for i, audio_path in enumerate(existing_audio_paths):
-                            input_args += f' -i "{audio_path}"'
                             filter_inputs.append(f'[{i+1}:a]')
                         filter_complex = f'{"".join(filter_inputs)}amix=inputs={len(existing_audio_paths)}:duration=shortest[aout]'
-                        ffmpeg_command = f'ffmpeg {input_args} -filter_complex "{filter_complex}" -map 0:v -map "[aout]" -vcodec libx264 -acodec aac -crf 18 -y "{audio_video_path}"'
                 logging.info(f"Adding audio: {ffmpeg_command}")
                 os.system(ffmpeg_command)
@@ -727,17 +754,17 @@ def run_graio_demo(args):
                     max_frames_4s = 97
                     if calculated_frame_num > max_frames_4s:
-                        # 超过4秒，设置trim_to_6s标记
-                        kwargs['trim_to_6s'] = True
                         calculated_duration = calculated_frame_num / fps
                         logging.warning(f"Fast mode: Audio duration ({calculated_duration:.2f}s) exceeds 4 seconds limit. Will trim to 4 seconds.")
                     else:
-                        kwargs['trim_to_6s'] = False
                 except Exception as e:
                     logging.warning(f"Failed to check audio duration: {e}")
-                    kwargs['trim_to_6s'] = False
             else:
-                kwargs['trim_to_6s'] = False
         return gpu_wrapped_generate_video_worker(*args, **kwargs)

     logging.info("Model and face processor loaded successfully.")
     def generate_video(img2vid_image, img2vid_prompt, n_prompt, img2vid_audio_1, img2vid_audio_2, img2vid_audio_3,
+                    sd_steps, seed, guide_scale, person_num_selector, audio_mode_selector, fixed_steps=None, trim_to_4s=False):
         # 参考 LivePortrait: 在 worker 进程中直接使用 cuda 设备
         # 参考: https://huggingface.co/spaces/KlingTeam/LivePortrait/blob/main/src/gradio_pipeline.py
         # @spaces.GPU 装饰器已经初始化了 GPU，这里直接使用即可
                 fps = getattr(cfg, 'fps', 24)
                 calculated_frame_num = calculate_frame_num_from_audio(audio_paths, fps, mode=audio_mode_selector)
+                # Fast模式：如果trim_to_4s为True，强制限制为4秒对应的帧数
+                if trim_to_4s:
                     # 4秒固定为97帧（4n+1格式：4秒*24fps=96帧，向上取整为97帧）
                     max_frames_4s = 97
                     current_frame_num = min(calculated_frame_num, max_frames_4s)
             audio_paths=audio_paths,
             task_key="gradio_output",
             mode=audio_mode_selector,
+            trim_to_4s=trim_to_4s,
         )
         if isinstance(video, dict):
         if audio_paths:
             existing_audio_paths = [path for path in audio_paths if path and os.path.exists(path)]
             if existing_audio_paths:
+                # 计算视频时长（用于Fast模式限制音频长度）
+                fps = getattr(cfg, 'fps', 24)
+                video_duration_seconds = current_frame_num / fps if current_frame_num and fps else 0
                 # 构建输出文件名
                 audio_names = [os.path.basename(path).split('.')[0] for path in existing_audio_paths]
                 audio_suffix = "_".join([f"audio{i}_{name}" for i, name in enumerate(audio_names)])
                 # 构建 ffmpeg 命令
                 if len(existing_audio_paths) == 1:
                     # 只有一个音频
+                    if trim_to_4s and video_duration_seconds > 0:
+                        # Fast模式：限制音频输入和输出时长为视频时长
+                        ffmpeg_command = f'ffmpeg -i "{output_file}" -ss 0 -t {video_duration_seconds:.3f} -i "{existing_audio_paths[0]}" -t {video_duration_seconds:.3f} -vcodec libx264 -acodec aac -crf 18 -y "{audio_video_path}"'
+                    else:
+                        ffmpeg_command = f'ffmpeg -i "{output_file}" -i "{existing_audio_paths[0]}" -vcodec libx264 -acodec aac -crf 18 -shortest -y "{audio_video_path}"'
                 else:
                     input_args = f'-i "{output_file}"'
                     if audio_mode_selector == "concat":
                         # concat 模式：串联音频
                         for audio_path in existing_audio_paths:
+                            if trim_to_4s and video_duration_seconds > 0:
+                                # Fast模式：限制每个音频输入的时长
+                                input_args += f' -ss 0 -t {video_duration_seconds:.3f} -i "{audio_path}"'
+                            else:
+                                input_args += f' -i "{audio_path}"'
                         num_audios = len(existing_audio_paths)
                         concat_inputs = ''.join([f'[{i+1}:a]' for i in range(num_audios)])
                         filter_complex = f'"{concat_inputs}concat=n={num_audios}:v=0:a=1[aout]"'
+                        if trim_to_4s and video_duration_seconds > 0:
+                            # Fast模式：限制最终输出时长
+                            ffmpeg_command = (
+                                f'ffmpeg {input_args} -filter_complex {filter_complex} '
+                                f'-map 0:v -map "[aout]" -t {video_duration_seconds:.3f} -vcodec libx264 -acodec aac -crf 18 -y "{audio_video_path}"'
+                            )
+                        else:
+                            ffmpeg_command = (
+                                f'ffmpeg {input_args} -filter_complex {filter_complex} '
+                                f'-map 0:v -map "[aout]" -vcodec libx264 -acodec aac -crf 18 -y "{audio_video_path}"'
+                            )
                     else:
                         # pad 模式：混合所有音频
                         filter_inputs = []
                         for i, audio_path in enumerate(existing_audio_paths):
+                            if trim_to_4s and video_duration_seconds > 0:
+                                # Fast模式：限制每个音频输入的时长
+                                input_args += f' -ss 0 -t {video_duration_seconds:.3f} -i "{audio_path}"'
+                            else:
+                                input_args += f' -i "{audio_path}"'
                             filter_inputs.append(f'[{i+1}:a]')
                         filter_complex = f'{"".join(filter_inputs)}amix=inputs={len(existing_audio_paths)}:duration=shortest[aout]'
+                        if trim_to_4s and video_duration_seconds > 0:
+                            # Fast模式：限制最终输出时长
+                            ffmpeg_command = f'ffmpeg {input_args} -filter_complex "{filter_complex}" -map 0:v -map "[aout]" -t {video_duration_seconds:.3f} -vcodec libx264 -acodec aac -crf 18 -y "{audio_video_path}"'
+                        else:
+                            ffmpeg_command = f'ffmpeg {input_args} -filter_complex "{filter_complex}" -map 0:v -map "[aout]" -vcodec libx264 -acodec aac -crf 18 -y "{audio_video_path}"'
                 logging.info(f"Adding audio: {ffmpeg_command}")
                 os.system(ffmpeg_command)
                     max_frames_4s = 97
                     if calculated_frame_num > max_frames_4s:
+                        # 超过4秒，设置trim_to_4s标记
+                        kwargs['trim_to_4s'] = True
                         calculated_duration = calculated_frame_num / fps
                         logging.warning(f"Fast mode: Audio duration ({calculated_duration:.2f}s) exceeds 4 seconds limit. Will trim to 4 seconds.")
                     else:
+                        kwargs['trim_to_4s'] = False
                 except Exception as e:
                     logging.warning(f"Failed to check audio duration: {e}")
+                    kwargs['trim_to_4s'] = False
             else:
+                kwargs['trim_to_4s'] = False
         return gpu_wrapped_generate_video_worker(*args, **kwargs)