Spaces:

smartwang
/

magicvoice

Running on Zero

smartwang commited on Feb 22

Commit

607ce9b

1 Parent(s): 9a86e48

T

Files changed (2) hide show

app.py CHANGED Viewed

@@ -251,6 +251,13 @@ def infer_voice_clone_from_prompt(part, language, prompt_file_path):
         # 尝试作为单个对象处理
          voice_clone_prompt = loaded_data
     logger.info("音频特征文件加载成功。")
     tts = load_model("Base", "0.6B")

         # 尝试作为单个对象处理
          voice_clone_prompt = loaded_data
+    # 维度校正：确保 ref_code 是 2D 的 (Time, Q)
+    if isinstance(voice_clone_prompt, list):
+        for item in voice_clone_prompt:
+            if item.ref_code is not None and item.ref_code.ndim == 3:
+                # [1, T, Q] -> [T, Q]
+                item.ref_code = item.ref_code.squeeze(0)
     logger.info("音频特征文件加载成功。")
     tts = load_model("Base", "0.6B")

qwen_tts/inference/qwen3_tts_model.py CHANGED Viewed

@@ -628,10 +628,18 @@ class Qwen3TTSModel:
             ref_code_list = voice_clone_prompt_dict.get("ref_code", None)
             if ref_code_list is not None and ref_code_list[i] is not None:
                 # 在 12Hz 模型中，Token 长度与时间成正比 (12 tokens/sec)
-                # 经验观察表明生成的结果中包含了一段与 Prompt 长度相当的引导部分
-                ref_len = int(ref_code_list[i].shape[0])
                 if codes.shape[0] > ref_len:
-                    logger.info(f"检测到生成的 Token 序列包含引导部分，正在切除前 {ref_len} 个 Token")
                     processed_codes.append(codes[ref_len:])
                 else:
                     processed_codes.append(codes)

             ref_code_list = voice_clone_prompt_dict.get("ref_code", None)
             if ref_code_list is not None and ref_code_list[i] is not None:
                 # 在 12Hz 模型中，Token 长度与时间成正比 (12 tokens/sec)
+                # 核心模型生成的 talker_codes 往往包含了与 Prompt 长度相当的引导部分
+                # 确保 ref_len 始终对应时间维度的长度
+                ref_item = ref_code_list[i]
+                if ref_item.ndim == 3: # [Batch, Time, Q]
+                    ref_len = int(ref_item.shape[1])
+                elif ref_item.ndim == 2: # [Time, Q] 或 [Batch, Time]
+                    ref_len = int(ref_item.shape[0])
+                else:
+                    ref_len = int(ref_item.shape[0])
                 if codes.shape[0] > ref_len:
+                    logger.info(f"检测到生成的 Token 序列包含引导部分 (长度 {ref_len})，正在执行切除")
                     processed_codes.append(codes[ref_len:])
                 else:
                     processed_codes.append(codes)