Spaces:

smartwang
/

magicvoice

Running on Zero

App Files Files Community

smartwang commited on Feb 22

Commit

0f1cb09

1 Parent(s): 2cf0f4a

T

Browse files

Files changed (1) hide show

app.py +11 -74

app.py CHANGED Viewed

@@ -193,35 +193,6 @@ def _audio_to_tuple(audio):
     return None
-def split_text(text, max_len=100):
-    """Split text into segments of approximately max_len characters."""
-    import re
-    # Split by common sentence delimiters, keeping the delimiter
-    segments = re.split(r'([。！？；.!?;\n])', text)
-    parts = []
-    current_part = ""
-    for i in range(0, len(segments), 2):
-        chunk = segments[i]
-        punct = segments[i+1] if i+1 < len(segments) else ""
-        full_chunk = chunk + punct
-        if len(current_part) + len(full_chunk) > max_len and current_part:
-            parts.append(current_part.strip())
-            current_part = full_chunk
-        else:
-            current_part += full_chunk
-    if current_part:
-        # If the last part is still too long, force split it
-        while len(current_part) > max_len:
-            parts.append(current_part[:max_len].strip())
-            current_part = current_part[max_len:]
-        if current_part.strip():
-            parts.append(current_part.strip())
-    return [p for p in parts if p]
 @spaces.GPU
@@ -351,7 +322,7 @@ def extract_voice_clone_prompt(ref_audio,ref_text,use_xvector_only):
 def generate_voice_design(text, language, voice_description, progress=gr.Progress(track_tqdm=True)):
-    """Generate speech using Voice Design model (1.7B only) with segment-based GPU allocation."""
     if not text or not text.strip():
         return None, "错误：文本不能为空。"
     if not voice_description or not voice_description.strip():
@@ -359,27 +330,16 @@ def generate_voice_design(text, language, voice_description, progress=gr.Progres
     logger.info(f"开始 Voice Design 生成任务。语言: {language}, 文本长度: {len(text)}, 描述: {voice_description}")
     try:
-        text_parts = split_text(text.strip())
-        logger.info(f"文本已切分为 {len(text_parts)} 段。")
-        all_wavs = []
-        sr = 24000
-        for i, part in enumerate(progress.tqdm(text_parts, desc="正在生成分段")):
-            logger.info(f"正在处理第 {i+1}/{len(text_parts)} 段文本...")
-            wav, current_sr = infer_voice_design(part, language, voice_description)
-            all_wavs.append(wav)
-            sr = current_sr
-        combined_wav = np.concatenate(all_wavs)
-        logger.info("Voice Design 生成任务完成，正在合并音频...")
-        return (sr, combined_wav), "语音设计生成成功！"
     except Exception as e:
         logger.error(f"Voice Design 生成失败: {str(e)}", exc_info=True)
         return None, f"错误: {type(e).__name__}: {e}"
 def generate_voice_clone(ref_audio, ref_text, target_text, language, use_xvector_only, model_size, progress=gr.Progress(track_tqdm=True)):
-    """Generate speech using Base (Voice Clone) model with segment-based GPU allocation."""
     if not target_text or not target_text.strip():
         return None, "错误：目标文本不能为空。"
@@ -392,20 +352,9 @@ def generate_voice_clone(ref_audio, ref_text, target_text, language, use_xvector
     logger.info(f"开始 Voice Clone 生成任务。模型大小: {model_size}, 语言: {language}, 目标文本长度: {len(target_text)}, 仅使用 x-vector: {use_xvector_only}")
     try:
-        text_parts = split_text(target_text.strip())
-        logger.info(f"目标文本已切分为 {len(text_parts)} 段。")
-        all_wavs = []
-        sr = 24000
-        for i, part in enumerate(progress.tqdm(text_parts, desc="正在生成分段")):
-            logger.info(f"正在处理第 {i+1}/{len(text_parts)} 段文本...")
-            wav, current_sr = infer_voice_clone( part, language,audio_tuple,ref_text,use_xvector_only)
-            all_wavs.append(wav)
-            sr = current_sr
-        combined_wav = np.concatenate(all_wavs)
-        logger.info("Voice Clone 生成任务完成，正在合并音频...")
-        return (sr, combined_wav), "语音克隆生成成功！"
     except Exception as e:
         logger.error(f"Voice Clone 生成失败: {str(e)}", exc_info=True)
         return None, f"错误: {type(e).__name__}: {e}"
@@ -420,21 +369,9 @@ def generate_voice_clone_from_prompt_file(prompt_file_path, target_text, languag
     logger.info(f"开始 Voice Clone 生成任务（使用特征文件）。语言: {language}, 目标文本长度: {len(target_text)}, 特征文件: {prompt_file_path}")
     try:
-        # 加载预提取的音频特征
-        text_parts = split_text(target_text.strip())
-        logger.info(f"目标目标文本已切分为 {len(text_parts)} 段。")
-        all_wavs = []
-        sr = 24000
-        for i, part in enumerate(progress.tqdm(text_parts, desc="正在生成分段")):
-            logger.info(f"正在处理第 {i+1}/{len(text_parts)} 段文本...")
-            wav, current_sr = infer_voice_clone_from_prompt(part, language, prompt_file_path)
-            all_wavs.append(wav)
-            sr = current_sr
-        combined_wav = np.concatenate(all_wavs)
-        logger.info("Voice Clone 生成任务完成，正在合并音频...")
-        return (sr, combined_wav), "语音克隆生成成功（使用特征文件）！"
     except Exception as e:
         logger.error(f"Voice Clone 生成失败: {str(e)}", exc_info=True)
         return None, f"错误: {type(e).__name__}: {e}"

     return None
 @spaces.GPU
 def generate_voice_design(text, language, voice_description, progress=gr.Progress(track_tqdm=True)):
+    """Generate speech using Voice Design model (1.7B only)."""
     if not text or not text.strip():
         return None, "错误：文本不能为空。"
     if not voice_description or not voice_description.strip():
     logger.info(f"开始 Voice Design 生成任务。语言: {language}, 文本长度: {len(text)}, 描述: {voice_description}")
     try:
+        wav, sr = infer_voice_design(text.strip(), language, voice_description)
+        logger.info("Voice Design 生成任务完成...")
+        return (sr, wav), "语音设计生成成功！"
     except Exception as e:
         logger.error(f"Voice Design 生成失败: {str(e)}", exc_info=True)
         return None, f"错误: {type(e).__name__}: {e}"
 def generate_voice_clone(ref_audio, ref_text, target_text, language, use_xvector_only, model_size, progress=gr.Progress(track_tqdm=True)):
+    """Generate speech using Base (Voice Clone) model."""
     if not target_text or not target_text.strip():
         return None, "错误：目标文本不能为空。"
     logger.info(f"开始 Voice Clone 生成任务。模型大小: {model_size}, 语言: {language}, 目标文本长度: {len(target_text)}, 仅使用 x-vector: {use_xvector_only}")
     try:
+        wav, sr = infer_voice_clone(target_text.strip(), language, audio_tuple, ref_text, use_xvector_only)
+        logger.info("Voice Clone 生成任务完成...")
+        return (sr, wav), "语音克隆生成成功！"
     except Exception as e:
         logger.error(f"Voice Clone 生成失败: {str(e)}", exc_info=True)
         return None, f"错误: {type(e).__name__}: {e}"
     logger.info(f"开始 Voice Clone 生成任务（使用特征文件）。语言: {language}, 目标文本长度: {len(target_text)}, 特征文件: {prompt_file_path}")
     try:
+        wav, sr = infer_voice_clone_from_prompt(target_text.strip(), language, prompt_file_path)
+        logger.info("Voice Clone 生成任务完成...")
+        return (sr, wav), "语音克隆生成成功（使用特征文件）！"
     except Exception as e:
         logger.error(f"Voice Clone 生成失败: {str(e)}", exc_info=True)
         return None, f"错误: {type(e).__name__}: {e}"