Update README.md
Browse files
README.md
CHANGED
|
@@ -1,3 +1,150 @@
|
|
| 1 |
-
|
| 2 |
-
|
| 3 |
-
---
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
# 人力V助手 (JinrikiHelper)
|
| 2 |
+
|
| 3 |
+
> 基于 [xszqxszq/auto-voice-bank](https://github.com/xszqxszq/auto-voice-bank) 开发的语音数据集处理工具
|
| 4 |
+
|
| 5 |
+
作者:TNOT
|
| 6 |
+
|
| 7 |
+
## 简介
|
| 8 |
+
|
| 9 |
+
本项目是一个自动化语音音源库制作工具,主要功能包括:
|
| 10 |
+
|
| 11 |
+
- 音频切片:使用 Silero VAD 进行语音活动检测和自动切片
|
| 12 |
+
- 语音识别:使用 Whisper 模型进行语音转文字
|
| 13 |
+
- 强制对齐:使用 MFA (Montreal Forced Aligner) 进行音素级时间对齐
|
| 14 |
+
- 音源导出:支持插件化导出,按拼音分类导出单字音频
|
| 15 |
+
|
| 16 |
+
支持语言:中文(普通话)、日文
|
| 17 |
+
|
| 18 |
+
## 环境要求
|
| 19 |
+
|
| 20 |
+
- Python 3.8+
|
| 21 |
+
- Windows 系统(MFA 引擎已预打包)
|
| 22 |
+
|
| 23 |
+
## 安装
|
| 24 |
+
|
| 25 |
+
### 1. 安装 Python 依赖
|
| 26 |
+
|
| 27 |
+
```bash
|
| 28 |
+
# 创建虚拟环境
|
| 29 |
+
python -m venv .venv
|
| 30 |
+
|
| 31 |
+
# 激活虚拟环境 (Windows)
|
| 32 |
+
.venv\Scripts\activate
|
| 33 |
+
|
| 34 |
+
# 安装依赖
|
| 35 |
+
pip install -r requirements.txt
|
| 36 |
+
```
|
| 37 |
+
|
| 38 |
+
### 2. 下载 MFA 引擎
|
| 39 |
+
|
| 40 |
+
MFA 引擎体积较大,未包含在仓库中。请下载软件便携版,其中已包含 MFA 引擎。
|
| 41 |
+
|
| 42 |
+
便携版下载后解压即可使用,目录结构如下:
|
| 43 |
+
|
| 44 |
+
```
|
| 45 |
+
人力V助手/
|
| 46 |
+
├── main.py
|
| 47 |
+
├── tools/
|
| 48 |
+
│ └── mfa_engine/
|
| 49 |
+
│ ├── python.exe
|
| 50 |
+
│ ├── Scripts/
|
| 51 |
+
│ │ └── mfa.exe
|
| 52 |
+
│ └── ...
|
| 53 |
+
└── ...
|
| 54 |
+
```
|
| 55 |
+
|
| 56 |
+
## 使用方法
|
| 57 |
+
|
| 58 |
+
### GUI 界面(AI推荐我不推荐,我推荐用 main_old.py)
|
| 59 |
+
|
| 60 |
+
```bash
|
| 61 |
+
python main.py
|
| 62 |
+
```
|
| 63 |
+
|
| 64 |
+
1. 在「模型配置」页下载所需模型(Silero VAD、MFA 声学模型和字典)
|
| 65 |
+
2. 在「制作音源」页:
|
| 66 |
+
- 设置音源名称
|
| 67 |
+
- 选择输入音频文件(支持 .wav/.mp3/.flac/.ogg/.m4a)
|
| 68 |
+
- 选择 Whisper 模型和语言
|
| 69 |
+
- 点击「一键执行全部流程」或分步执行
|
| 70 |
+
3. 在「导出音源」页选择导出插件并执行
|
| 71 |
+
|
| 72 |
+
### 脚本调用
|
| 73 |
+
|
| 74 |
+
```python
|
| 75 |
+
from src.pipeline import PipelineConfig, VoiceBankPipeline
|
| 76 |
+
|
| 77 |
+
config = PipelineConfig(
|
| 78 |
+
source_name="my_voice",
|
| 79 |
+
input_path="path/to/audio.wav",
|
| 80 |
+
output_base_dir="bank",
|
| 81 |
+
models_dir="models",
|
| 82 |
+
whisper_model="openai/whisper-small",
|
| 83 |
+
mfa_dict_path="models/mfa/mandarin_china_mfa.dict",
|
| 84 |
+
mfa_model_path="models/mfa/mandarin_mfa.zip",
|
| 85 |
+
language="chinese"
|
| 86 |
+
)
|
| 87 |
+
|
| 88 |
+
pipeline = VoiceBankPipeline(config, progress_callback=print)
|
| 89 |
+
success, msg = pipeline.run_make_pipeline()
|
| 90 |
+
```
|
| 91 |
+
|
| 92 |
+
## 项目结构
|
| 93 |
+
|
| 94 |
+
```
|
| 95 |
+
项目根目录/
|
| 96 |
+
├── main.py # 程序入口
|
| 97 |
+
├── config.json # 全局配置文件
|
| 98 |
+
├── bank/ # 音源库目录
|
| 99 |
+
│ └── [音源名称]/
|
| 100 |
+
│ ├── meta.json # 音源元信息
|
| 101 |
+
│ ├── slices/ # 切片文件 (.wav + .lab)
|
| 102 |
+
│ └── textgrid/ # MFA对齐结果 (.TextGrid)
|
| 103 |
+
├── export/ # 导出目录
|
| 104 |
+
│ └── [音源名称]/
|
| 105 |
+
│ └── [插件名]/ # 导出结果
|
| 106 |
+
├── models/ # 模型目录
|
| 107 |
+
│ ├── mfa/ # MFA声学模型和字典
|
| 108 |
+
│ ├── silero_vad/ # Silero VAD模型
|
| 109 |
+
│ └── whisper/ # Whisper模型缓存
|
| 110 |
+
├── tools/
|
| 111 |
+
│ └── mfa_engine/ # MFA独立运行环境
|
| 112 |
+
├── src/ # 源代码目录
|
| 113 |
+
│ ├── gui.py # GUI界面
|
| 114 |
+
│ ├── pipeline.py # 流水线核心
|
| 115 |
+
│ ├── audio_processor.py # 音频处理(VAD+Whisper)
|
| 116 |
+
│ ├── mfa_runner.py # MFA运行器
|
| 117 |
+
│ ├── text_processor.py # 文本处理(拼音转换)
|
| 118 |
+
│ └── export_plugins/ # 导出插件目录
|
| 119 |
+
├── docs/ # 项目文档
|
| 120 |
+
└── tests/ # 测试代码
|
| 121 |
+
```
|
| 122 |
+
|
| 123 |
+
## 依赖项
|
| 124 |
+
|
| 125 |
+
核心依赖:
|
| 126 |
+
- `customtkinter` - GUI 框架
|
| 127 |
+
- `transformers` - Whisper 模型
|
| 128 |
+
- `onnxruntime` - Silero VAD 推理
|
| 129 |
+
- `textgrid` - TextGrid 文件解析
|
| 130 |
+
- `soundfile` - 音频读写
|
| 131 |
+
- `torchaudio` - 音频重采样
|
| 132 |
+
- `pypinyin` - 中文转拼音
|
| 133 |
+
- `pykakasi` - 日文转罗马音
|
| 134 |
+
|
| 135 |
+
MFA 环境需单独下载,详见[MFA引擎安装说明](docs\MFA引擎安装说明.md)。
|
| 136 |
+
|
| 137 |
+
## 许可证
|
| 138 |
+
|
| 139 |
+
本项目基于 MIT 许可证开源,详见 [LICENSE](LICENSE) 文件。
|
| 140 |
+
|
| 141 |
+
本工具集成 Montreal Forced Aligner (MIT License)。
|
| 142 |
+
|
| 143 |
+
原项目版权归 心水湛清 所有。
|
| 144 |
+
|
| 145 |
+
## 致谢
|
| 146 |
+
|
| 147 |
+
- [xszqxszq/auto-voice-bank](https://github.com/xszqxszq/auto-voice-bank) - 原项目作者
|
| 148 |
+
- [Montreal Forced Aligner](https://montreal-forced-aligner.readthedocs.io/) - 语音对齐工具
|
| 149 |
+
- [Silero VAD](https://github.com/snakers4/silero-vad) - 语音活动检测
|
| 150 |
+
- [OpenAI Whisper](https://github.com/openai/whisper) - 语音识别模型
|