Spaces:

wzy013
/

hunyuanvideo-foley

Running

wzy013 Claude commited on Sep 2

Commit

68e8a37

1 Parent(s): 55d09cb

实现纯官方模型调用 - 移除所有备用方案

🎯 核心改进:
- 移除 HF Inference API（官方模型不支持）
- 专注于官方 tencent/HunyuanVideo-Foley Gradio Space 调用
- 修复 Gradio Client timeout 参数兼容性问题
- 使用正确的 API 端点 /process_inference

❌ 完全移除:
- 所有备用音频生成方案
- 降级机制和演示音频
- 混乱的多 API 尝试逻辑

✅ 现在专注于:
- 只调用真正的官方模型
- 失败就失败，不提供无意义的替代方案
- 清晰的用户界面说明

用户需要的是真正的 AI 模型结果，不是随便生成的音频！

🤖 Generated with [Claude Code](https://claude.ai/code)

Co-Authored-By: Claude <noreply@anthropic.com>

Files changed (1) hide show

app.py +45 -47

app.py CHANGED Viewed

@@ -27,16 +27,18 @@ def call_huggingface_inference_api(video_file_path: str, text_prompt: str = "")
     # Hugging Face API endpoint
     API_URL = "https://api-inference.huggingface.co/models/tencent/HunyuanVideo-Foley"
-    # 尝试多种方式获取 HF Token
     hf_token = (
         os.environ.get('HF_TOKEN') or
         os.environ.get('HUGGING_FACE_HUB_TOKEN') or
-        os.environ.get('HUGGINGFACE_TOKEN')
     )
-    # 如果没有 Token，尝试无认证访问（某些公共模型允许）
     if not hf_token:
-        logger.info("未找到 HF Token，尝试无认证访问...")
     # 构建请求头
     headers = {"Content-Type": "application/json"}
@@ -108,18 +110,28 @@ def call_gradio_client_api(video_file_path: str, text_prompt: str = "") -> Tuple
         from gradio_client import Client
         logger.info("使用 Gradio Client 连接官方 Space...")
-        client = Client("tencent/HunyuanVideo-Foley", timeout=300)
-        # 调用预测接口
         result = client.predict(
             video_file_path,  # video input
             text_prompt,      # text prompt
             4.5,             # guidance_scale
             50,              # inference_steps
             1,               # sample_nums
-            api_name="/predict"
         )
         if result and len(result) > 0:
             # 假设返回的第一个元素是生成的音频文件
             audio_file = result[0]
@@ -271,34 +283,20 @@ def process_video_with_apis(video_file, text_prompt: str, guidance_scale: float,
     api_results = []
     status_messages = []
-    # 方法1: 尝试 Hugging Face Inference API
-    logger.info("🔄 尝试方法1: Hugging Face Inference API")
-    hf_audio, hf_msg = call_huggingface_inference_api(video_file_path, text_prompt)
-    if hf_audio:
-        api_results.append(hf_audio)
-        status_messages.append(f"✅ HF Inference API: 成功")
     else:
-        status_messages.append(f"❌ HF Inference API: {hf_msg}")
-    # 方法2: 尝试 Gradio Client (如果第一种方法失败)
-    if not hf_audio:
-        logger.info("🔄 尝试方法2: Gradio Client API")
-        gc_audio, gc_msg = call_gradio_client_api(video_file_path, text_prompt)
-        if gc_audio:
-            api_results.append(gc_audio)
-            status_messages.append(f"✅ Gradio Client: 成功")
-        else:
-            status_messages.append(f"❌ Gradio Client: {gc_msg}")
-    # 方法3: 备用演示（如果所有 API 都失败）
     if not api_results:
-        logger.info("🔄 使用备用演示音频")
-        fallback_audio = create_fallback_audio(video_file_path, text_prompt)
-        if fallback_audio:
-            api_results.append(fallback_audio)
-            status_messages.append("🎯 备用演示: 生成音频（API 不可用时的演示）")
-        else:
-            status_messages.append("❌ 备用演示: 音频生成失败")
     # 构建详细状态消息
     final_status = f"""🎵 HunyuanVideo-Foley 处理完成!
@@ -366,14 +364,14 @@ def create_api_interface():
         # API Notice
         gr.HTML("""
         <div class="api-notice">
-            <strong>🔗 智能 API 调���模式:</strong>
-            <br>• 方法1: Hugging Face Inference API (自动尝试官方推理服务)
-            <br>• 方法2: Gradio Client (连接官方 Space)
-            <br>• 方法3: 智能备用方案 (确保始终有结果)
             <br><br>
-            <strong>✅ 免配置使用:</strong>
-            <br>• 无需手动设置任何环境变量
-            <br>• 系统自动选择最佳可用 API
             <br>• 模型首次加载可能需要 1-2 分钟
         </div>
         """)
@@ -421,7 +419,7 @@ def create_api_interface():
                     )
                 generate_btn = gr.Button(
-                    "🎵 调用 API 生成音频",
                     variant="primary"
                 )
@@ -441,12 +439,12 @@ def create_api_interface():
         # Method info
         gr.HTML("""
         <div class="method-info">
-            <h3>🔧 智能 API 调用说明</h3>
-            <p><strong>方法1 - HF Inference API:</strong> 自动尝试调用 tencent/HunyuanVideo-Foley 官方模型</p>
-            <p><strong>方法2 - Gradio Client:</strong> 连接到官方 Gradio Space 进行推理</p>
-            <p><strong>方法3 - 智能备用:</strong> 确保始终生成高质量音频结果</p>
             <br>
-            <p><strong>🚀 自动化:</strong> 系统自动尝试所有方法，无需任何手动配置</p>
         </div>
         """)
@@ -469,8 +467,8 @@ def create_api_interface():
         # Footer
         gr.HTML("""
         <div style="text-align: center; padding: 2rem; color: #666; border-top: 1px solid #eee; margin-top: 2rem;">
-            <p><strong>🤖 智能 API 调用版本</strong> - 自动调用官方 HunyuanVideo-Foley 模型</p>
-            <p>✅ 免配置使用，自动选择最佳 API，确保功能始终可用</p>
             <p>📂 模型仓库: <a href="https://huggingface.co/tencent/HunyuanVideo-Foley" target="_blank">tencent/HunyuanVideo-Foley</a></p>
         </div>
         """)

     # Hugging Face API endpoint
     API_URL = "https://api-inference.huggingface.co/models/tencent/HunyuanVideo-Foley"
+    # 在 HuggingFace Spaces 中，Token 通常自动可用
     hf_token = (
         os.environ.get('HF_TOKEN') or
         os.environ.get('HUGGING_FACE_HUB_TOKEN') or
+        os.environ.get('HUGGINGFACE_TOKEN') or
+        os.environ.get('HUGGINGFACE_HUB_TOKEN')  # Spaces 环境变量
     )
     if not hf_token:
+        logger.warning("未找到 HF Token - 在 HuggingFace Spaces 中这不应该发生")
+        # 对于 Inference API，Token 是必需的
+        return None, "❌ HF Inference API 需要认证 Token，但未找到环境变量"
     # 构建请求头
     headers = {"Content-Type": "application/json"}
         from gradio_client import Client
         logger.info("使用 Gradio Client 连接官方 Space...")
+        # 修复 timeout 参数问题
+        try:
+            client = Client("tencent/HunyuanVideo-Foley")
+        except Exception as e:
+            logger.warning(f"Client 初始化失败: {e}")
+            return None, f"❌ 无法连接到官方 Space: {str(e)}"
+        logger.info(f"使用官方 Space API 处理视频: {os.path.basename(video_file_path)}")
+        logger.info(f"文本提示: '{text_prompt}'")
+        # 调用官方 Space 的处理接口
         result = client.predict(
             video_file_path,  # video input
             text_prompt,      # text prompt
             4.5,             # guidance_scale
             50,              # inference_steps
             1,               # sample_nums
+            api_name="/process_inference"  # 使用正确的 API 端点名称
         )
+        logger.info(f"API 调用结果: {type(result)}, 内容: {result[:100] if isinstance(result, str) else str(result)[:100]}...")
         if result and len(result) > 0:
             # 假设返回的第一个元素是生成的音频文件
             audio_file = result[0]
     api_results = []
     status_messages = []
+    # 直接使用官方 Gradio Space API（这是唯一支持的方法）
+    logger.info("🔄 调用官方 tencent/HunyuanVideo-Foley Space")
+    gc_audio, gc_msg = call_gradio_client_api(video_file_path, text_prompt)
+    if gc_audio:
+        api_results.append(gc_audio)
+        status_messages.append(f"✅ 官方 Gradio Space: 成功调用模型")
+        logger.info("✅ 成功从官方模型获得音频结果！")
     else:
+        status_messages.append(f"❌ 官方 Gradio Space: {gc_msg}")
+        logger.error(f"❌ 官方模型调用失败: {gc_msg}")
+    # 如果所有 API 都失败，返回错误信息（不再提供备用方案）
     if not api_results:
+        status_messages.append("❌ 所有 API 调用都失败了，无法生成音频")
     # 构建详细状态消息
     final_status = f"""🎵 HunyuanVideo-Foley 处理完成!
         # API Notice
         gr.HTML("""
         <div class="api-notice">
+            <strong>🔗 官方模型调用:</strong>
+            <br>• 直接调用 tencent/HunyuanVideo-Foley 官方 Gradio Space
+            <br>• 使用真正的 AI 模型生成 Foley 音频
+            <br>• 与视频内容完美同步的专业音效
             <br><br>
+            <strong>✅ 即插即用:</strong>
+            <br>• 无需任何配置或设置
+            <br>• 上传视频 → 输入描述 → 获得专业音效
             <br>• 模型首次加载可能需要 1-2 分钟
         </div>
         """)
                     )
                 generate_btn = gr.Button(
+                    "🎵 调用官方模型生成音频",
                     variant="primary"
                 )
         # Method info
         gr.HTML("""
         <div class="method-info">
+            <h3>🎯 官方模型调用说明</h3>
+            <p><strong>✅ 真实 AI 模型:</strong> 直接调用腾讯混元官方 HunyuanVideo-Foley 模型</p>
+            <p><strong>🎵 专业音效:</strong> 生成与视频内容完美同步的 Foley 音频</p>
+            <p><strong>⚡ 高质量输出:</strong> 48kHz 专业级音频，支持多种音效类型</p>
             <br>
+            <p><strong>🚀 使用简单:</strong> 上传视频 + 输入描述 = 获得专业音效</p>
         </div>
         """)
         # Footer
         gr.HTML("""
         <div style="text-align: center; padding: 2rem; color: #666; border-top: 1px solid #eee; margin-top: 2rem;">
+            <p><strong>🎵 官方模型调用版本</strong> - 直接调用 tencent/HunyuanVideo-Foley</p>
+            <p>✅ 真实 AI 模型，专业 Foley 音频生成</p>
             <p>📂 模型仓库: <a href="https://huggingface.co/tencent/HunyuanVideo-Foley" target="_blank">tencent/HunyuanVideo-Foley</a></p>
         </div>
         """)