Spaces:

TNOT
/

JinrikiHelper

Running

App Files Files Community

TNOT commited on Feb 2

Commit

75e21d7

1 Parent(s): 00a56c1

fix: 并发上线；音频格式

Browse files

Files changed (4) hide show

app.py +44 -0
src/gui_cloud.py +65 -1
src/mfa_runner.py +22 -2
src/pipeline.py +11 -8

app.py CHANGED Viewed

@@ -49,6 +49,42 @@ MODELS_DIR = None  # 延迟初始化
 MFA_DIR = None
 def setup_environment():
     """初始化云端环境"""
     global MODELS_DIR, MFA_DIR
@@ -65,6 +101,10 @@ def setup_environment():
         Path("/home/studio_service").exists(), # 魔搭创空间特征目录
     ])
     # 魔搭创空间无法访问 HuggingFace，使用镜像
     if is_cloud and Path("/home/studio_service").exists():
         os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
@@ -538,6 +578,10 @@ def main():
     app = create_cloud_ui()
     # 云端配置
     app.launch(
         server_name="0.0.0.0",
         server_port=7860,

 MFA_DIR = None
+def ensure_ffmpeg():
+    """确保 ffmpeg 已安装（用于音频格式转换，支持 m4a 等格式）"""
+    import shutil
+    if shutil.which("ffmpeg"):
+        logger.info("ffmpeg 已安装")
+        return True
+    logger.info("ffmpeg 未安装，尝试安装...")
+    try:
+        # 尝试使用 apt-get 安装（Debian/Ubuntu）
+        result = subprocess.run(
+            ["apt-get", "update"],
+            capture_output=True, text=True, timeout=60
+        )
+        result = subprocess.run(
+            ["apt-get", "install", "-y", "ffmpeg"],
+            capture_output=True, text=True, timeout=120
+        )
+        if shutil.which("ffmpeg"):
+            logger.info("ffmpeg 安装成功")
+            return True
+        else:
+            logger.warning("ffmpeg 安装后仍未找到")
+            return False
+    except subprocess.TimeoutExpired:
+        logger.warning("ffmpeg 安装超时")
+        return False
+    except Exception as e:
+        logger.warning(f"ffmpeg 安装失败: {e}")
+        return False
 def setup_environment():
     """初始化云端环境"""
     global MODELS_DIR, MFA_DIR
         Path("/home/studio_service").exists(), # 魔搭创空间特征目录
     ])
+    # 确保 ffmpeg 已安装（支持 m4a 等音频格式）
+    if is_cloud or platform.system() != "Windows":
+        ensure_ffmpeg()
     # 魔搭创空间无法访问 HuggingFace，使用镜像
     if is_cloud and Path("/home/studio_service").exists():
         os.environ["HF_ENDPOINT"] = "https://hf-mirror.com"
     app = create_cloud_ui()
     # 云端配置
+    # 启用队列并设置并发数，允许多用户同时处理
+    app.queue(
+        default_concurrency_limit=25,  # 同时处理的请求数
+    )
     app.launch(
         server_name="0.0.0.0",
         server_port=7860,

src/gui_cloud.py CHANGED Viewed

@@ -16,6 +16,7 @@ import tempfile
 import zipfile
 import shutil
 import uuid
 from pathlib import Path
 from typing import Optional, List, Dict, Tuple, Any
@@ -27,6 +28,33 @@ logging.basicConfig(
 )
 logger = logging.getLogger(__name__)
 def safe_gradio_handler(func):
     """
@@ -204,6 +232,9 @@ def process_make_voicebank(
     返回: (状态, 日志, 下载文件路径, 会话存储的音源包路径)
     """
     logs = []
     workspace = None
@@ -216,16 +247,19 @@ def process_make_voicebank(
         from src.pipeline import PipelineConfig, VoiceBankPipeline
     except Exception as e:
         logger.error(f"导入模块失败: {e}", exc_info=True)
         return f"❌ 系统错误: 模块加载失败", str(e), None, None
     # 验证输入
     if not source_name or not source_name.strip():
         return "❌ 请输入音源名称", "", None, None
     source_name = source_name.strip()
     valid, msg, file_paths = validate_audio_upload(audio_files)
     if not valid:
         return f"❌ {msg}", "", None, None
     log(f"📁 {msg}")
@@ -342,12 +376,15 @@ def process_make_voicebank(
             log(f"📦 已打包: {os.path.basename(zip_path)}")
             progress(1.0, desc="完成")
             # 返回路径到会话状态，供导出页面使用
             return "✅ 音源制作完成", "\n".join(logs), zip_path, zip_path
         else:
             return "❌ 打包失败", "\n".join(logs), None, None
     except Exception as e:
         logger.error(f"制作音源失败: {e}", exc_info=True)
         return f"❌ 处理失败: {e}", "\n".join(logs), None, None
     finally:
@@ -456,6 +493,9 @@ def process_export_voicebank(
     返回: (状态, 日志, 下载文件路径)
     """
     logs = []
     def log(msg):
         logs.append(msg)
@@ -464,6 +504,7 @@ def process_export_voicebank(
     # 验证输入
     valid, msg, source_name = validate_voicebank_zip(zip_file)
     if not valid:
         return f"❌ {msg}", "", None
     log(f"📦 {msg}")
@@ -576,12 +617,15 @@ def process_export_voicebank(
             file_count = len([f for f in os.listdir(export_dir) if f.endswith(('.wav', '.ini'))])
             log(f"📦 已打包: {file_count} 个文件")
             progress(1.0, desc="完成")
             return "✅ 导出完成", "\n".join(logs), result_zip
         else:
             return "❌ 打包失败", "\n".join(logs), None
     except Exception as e:
         logger.error(f"导出失败: {e}", exc_info=True)
         return f"❌ 处理失败: {e}", "\n".join(logs), None
     finally:
@@ -793,7 +837,16 @@ def create_cloud_ui():
         # 会话状态：存储当前用户制作的音源包路径
         session_voicebank = gr.State(value=None)
-        gr.Markdown("# 🎤 人力V助手 (JinrikiHelper)")
         gr.Markdown("语音数据集处理工具 - 自动化制作语音音源库")
         gr.Markdown("> ☁️ 云端版：上传音频 → 自动处理 → 下载结果")
@@ -1127,6 +1180,13 @@ def create_cloud_ui():
                 本工具集成 Montreal Forced Aligner (MIT License)
                 """)
     return app
@@ -1134,6 +1194,10 @@ def create_cloud_ui():
 def main():
     """云端入口"""
     app = create_cloud_ui()
     app.launch(
         server_name="0.0.0.0",
         server_port=7860,

 import zipfile
 import shutil
 import uuid
+import threading
 from pathlib import Path
 from typing import Optional, List, Dict, Tuple, Any
 )
 logger = logging.getLogger(__name__)
+# ==================== 并发计数器 ====================
+MAX_CONCURRENCY = 25
+_concurrency_lock = threading.Lock()
+_current_concurrency = 0
+def increment_concurrency():
+    """增加并发计数"""
+    global _current_concurrency
+    with _concurrency_lock:
+        _current_concurrency += 1
+        return _current_concurrency
+def decrement_concurrency():
+    """减少并发计数"""
+    global _current_concurrency
+    with _concurrency_lock:
+        _current_concurrency = max(0, _current_concurrency - 1)
+        return _current_concurrency
+def get_concurrency_status() -> str:
+    """获取当前并发状态文本"""
+    with _concurrency_lock:
+        return f"当前并发数：{_current_concurrency}/{MAX_CONCURRENCY}"
 def safe_gradio_handler(func):
     """
     返回: (状态, 日志, 下载文件路径, 会话存储的音源包路径)
     """
+    # 增加并发计数
+    increment_concurrency()
     logs = []
     workspace = None
         from src.pipeline import PipelineConfig, VoiceBankPipeline
     except Exception as e:
         logger.error(f"导入模块失败: {e}", exc_info=True)
+        decrement_concurrency()
         return f"❌ 系统错误: 模块加载失败", str(e), None, None
     # 验证输入
     if not source_name or not source_name.strip():
+        decrement_concurrency()
         return "❌ 请输入音源名称", "", None, None
     source_name = source_name.strip()
     valid, msg, file_paths = validate_audio_upload(audio_files)
     if not valid:
+        decrement_concurrency()
         return f"❌ {msg}", "", None, None
     log(f"📁 {msg}")
             log(f"📦 已打包: {os.path.basename(zip_path)}")
             progress(1.0, desc="完成")
             # 返回路径到会话状态，供导出页面使用
+            decrement_concurrency()
             return "✅ 音源制作完成", "\n".join(logs), zip_path, zip_path
         else:
+            decrement_concurrency()
             return "❌ 打包失败", "\n".join(logs), None, None
     except Exception as e:
         logger.error(f"制作音源失败: {e}", exc_info=True)
+        decrement_concurrency()
         return f"❌ 处理失败: {e}", "\n".join(logs), None, None
     finally:
     返回: (状态, 日志, 下载文件路径)
     """
+    # 增加并发计数
+    increment_concurrency()
     logs = []
     def log(msg):
         logs.append(msg)
     # 验证输入
     valid, msg, source_name = validate_voicebank_zip(zip_file)
     if not valid:
+        decrement_concurrency()
         return f"❌ {msg}", "", None
     log(f"📦 {msg}")
             file_count = len([f for f in os.listdir(export_dir) if f.endswith(('.wav', '.ini'))])
             log(f"📦 已打包: {file_count} 个文件")
             progress(1.0, desc="完成")
+            decrement_concurrency()
             return "✅ 导出完成", "\n".join(logs), result_zip
         else:
+            decrement_concurrency()
             return "❌ 打包失败", "\n".join(logs), None
     except Exception as e:
         logger.error(f"导出失败: {e}", exc_info=True)
+        decrement_concurrency()
         return f"❌ 处理失败: {e}", "\n".join(logs), None
     finally:
         # 会话状态：存储当前用户制作的音源包路径
         session_voicebank = gr.State(value=None)
+        # 标题行：左侧标题 + 右侧并发状态
+        with gr.Row():
+            with gr.Column(scale=4):
+                gr.Markdown("# 🎤 人力V助手 (JinrikiHelper)")
+            with gr.Column(scale=1, min_width=200):
+                concurrency_display = gr.Markdown(
+                    value=get_concurrency_status(),
+                    elem_id="concurrency-status"
+                )
         gr.Markdown("语音数据集处理工具 - 自动化制作语音音源库")
         gr.Markdown("> ☁️ 云端版：上传音频 → 自动处理 → 下载结果")
                 本工具集成 Montreal Forced Aligner (MIT License)
                 """)
+        # 定时刷新并发状态（每3秒）
+        app.load(
+            fn=get_concurrency_status,
+            outputs=[concurrency_display],
+            every=3
+        )
     return app
 def main():
     """云端入口"""
     app = create_cloud_ui()
+    # 启用队列并设置并发数，允许多用户同时处理
+    app.queue(
+        default_concurrency_limit=MAX_CONCURRENCY,  # 同时处理的请求数
+    )
     app.launch(
         server_name="0.0.0.0",
         server_port=7860,

src/mfa_runner.py CHANGED Viewed

@@ -182,7 +182,7 @@ def run_mfa_alignment(
         output_dir: TextGrid 输出目录
         dict_path: 字典文件路径，默认使用 models/mandarin.dict
         model_path: 声学模型路径，默认使用 models/mandarin.zip
-        temp_dir: 临时目录，默认使用 mfa_temp
         single_speaker: 是否为单说话人模式
         clean: 是否清理旧缓存
         progress_callback: 进度回调函数
@@ -190,6 +190,8 @@ def run_mfa_alignment(
     返回:
         (成功标志, 输出信息或错误信息)
     """
     def log(msg: str):
         logger.info(msg)
         if progress_callback:
@@ -203,7 +205,11 @@ def run_mfa_alignment(
     # 设置默认路径
     dict_path = dict_path or str(DEFAULT_DICT_PATH)
     model_path = model_path or str(DEFAULT_MODEL_PATH)
-    temp_dir = temp_dir or str(DEFAULT_TEMP_DIR)
     # 验证路径
     if not os.path.isdir(corpus_dir):
@@ -261,6 +267,13 @@ def run_mfa_alignment(
         if result.returncode == 0:
             log("MFA 对齐完成!")
             return True, result.stdout
         else:
             error_msg = result.stderr or result.stdout or "未知错误"
@@ -275,6 +288,13 @@ def run_mfa_alignment(
         msg = f"MFA 执行异常: {e}"
         log(msg)
         return False, msg
 def run_mfa_validate(

         output_dir: TextGrid 输出目录
         dict_path: 字典文件路径，默认使用 models/mandarin.dict
         model_path: 声学模型路径，默认使用 models/mandarin.zip
+        temp_dir: 临时目录，默认使用 mfa_temp（云端会自动创建独立目录）
         single_speaker: 是否为单说话人模式
         clean: 是否清理旧缓存
         progress_callback: 进度回调函数
     返回:
         (成功标志, 输出信息或错误信息)
     """
+    import uuid
     def log(msg: str):
         logger.info(msg)
         if progress_callback:
     # 设置默认路径
     dict_path = dict_path or str(DEFAULT_DICT_PATH)
     model_path = model_path or str(DEFAULT_MODEL_PATH)
+    # 临时目录：如果未指定，创建独立目录避免多用户冲突
+    if temp_dir is None:
+        session_id = uuid.uuid4().hex[:8]
+        temp_dir = str(DEFAULT_TEMP_DIR / f"session_{session_id}")
     # 验证路径
     if not os.path.isdir(corpus_dir):
         if result.returncode == 0:
             log("MFA 对齐完成!")
+            # 清理临时目录（仅清理会话独立目录）
+            if "session_" in temp_dir and os.path.exists(temp_dir):
+                try:
+                    shutil.rmtree(temp_dir)
+                    log(f"已清理临时目录: {temp_dir}")
+                except Exception as e:
+                    logger.warning(f"清理临时目录失败: {e}")
             return True, result.stdout
         else:
             error_msg = result.stderr or result.stdout or "未知错误"
         msg = f"MFA 执行异常: {e}"
         log(msg)
         return False, msg
+    finally:
+        # 确保临时目录被清理（即使出错）
+        if "session_" in temp_dir and os.path.exists(temp_dir):
+            try:
+                shutil.rmtree(temp_dir)
+            except Exception:
+                pass
 def run_mfa_validate(

src/pipeline.py CHANGED Viewed

@@ -341,30 +341,33 @@ class VoiceBankPipeline:
         VAD切片
         输出格式统一为: 16bit 44.1kHz 单声道 WAV
         """
         import torch
         import soundfile as sf
         import numpy as np
         # 标准输出格式
         TARGET_SR = 44100
-        # 读取并转换为标准格式
-        audio, sr = sf.read(audio_path, dtype='float32')
         # 转换为单声道
-        if len(audio.shape) > 1:
-            audio = np.mean(audio, axis=1)
         # 重采样到 44.1kHz（标准格式）
         if sr != TARGET_SR:
-            import torchaudio
-            audio_tensor = torch.from_numpy(audio).float()
             resampler = torchaudio.transforms.Resample(sr, TARGET_SR)
-            audio = resampler(audio_tensor).numpy()
         # VAD 需要 16kHz，单独重采样用于检测
-        import torchaudio
         audio_tensor = torch.from_numpy(audio).float()
         resampler_16k = torchaudio.transforms.Resample(TARGET_SR, 16000)
         wav_16k = resampler_16k(audio_tensor)

         VAD切片
         输出格式统一为: 16bit 44.1kHz 单声道 WAV
+        支持格式: wav, mp3, flac, ogg, m4a 等 (通过 torchaudio/ffmpeg)
         """
         import torch
+        import torchaudio
         import soundfile as sf
         import numpy as np
         # 标准输出格式
         TARGET_SR = 44100
+        # 使用 torchaudio 读取音频（支持更多格式，包括 m4a）
+        audio_tensor, sr = torchaudio.load(audio_path)
         # 转换为单声道
+        if audio_tensor.shape[0] > 1:
+            audio_tensor = torch.mean(audio_tensor, dim=0, keepdim=True)
+        audio_tensor = audio_tensor.squeeze(0)  # [samples]
+        # 转为 numpy
+        audio = audio_tensor.numpy()
         # 重采样到 44.1kHz（标准格式）
         if sr != TARGET_SR:
             resampler = torchaudio.transforms.Resample(sr, TARGET_SR)
+            audio = resampler(torch.from_numpy(audio).float()).numpy()
         # VAD 需要 16kHz，单独重采样用于检测
         audio_tensor = torch.from_numpy(audio).float()
         resampler_16k = torchaudio.transforms.Resample(TARGET_SR, 16000)
         wav_16k = resampler_16k(audio_tensor)