TNOT commited on
Commit
6b88842
·
verified ·
1 Parent(s): 6e89a79

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +150 -3
README.md CHANGED
@@ -1,3 +1,150 @@
1
- ---
2
- license: mit
3
- ---
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ # 人力V助手 (JinrikiHelper)
2
+
3
+ > 基于 [xszqxszq/auto-voice-bank](https://github.com/xszqxszq/auto-voice-bank) 开发的语音数据集处理工具
4
+
5
+ 作者:TNOT
6
+
7
+ ## 简介
8
+
9
+ 本项目是一个自动化语音音源库制作工具,主要功能包括:
10
+
11
+ - 音频切片:使用 Silero VAD 进行语音活动检测和自动切片
12
+ - 语音识别:使用 Whisper 模型进行语音转文字
13
+ - 强制对齐:使用 MFA (Montreal Forced Aligner) 进行音素级时间对齐
14
+ - 音源导出:支持插件化导出,按拼音分类导出单字音频
15
+
16
+ 支持语言:中文(普通话)、日文
17
+
18
+ ## 环境要求
19
+
20
+ - Python 3.8+
21
+ - Windows 系统(MFA 引擎已预打包)
22
+
23
+ ## 安装
24
+
25
+ ### 1. 安装 Python 依赖
26
+
27
+ ```bash
28
+ # 创建虚拟环境
29
+ python -m venv .venv
30
+
31
+ # 激活虚拟环境 (Windows)
32
+ .venv\Scripts\activate
33
+
34
+ # 安装依赖
35
+ pip install -r requirements.txt
36
+ ```
37
+
38
+ ### 2. 下载 MFA 引擎
39
+
40
+ MFA 引擎体积较大,未包含在仓库中。请下载软件便携版,其中已包含 MFA 引擎。
41
+
42
+ 便携版下载后解压即可使用,目录结构如下:
43
+
44
+ ```
45
+ 人力V助手/
46
+ ├── main.py
47
+ ├── tools/
48
+ │ └── mfa_engine/
49
+ │ ├── python.exe
50
+ │ ├── Scripts/
51
+ │ │ └── mfa.exe
52
+ │ └── ...
53
+ └── ...
54
+ ```
55
+
56
+ ## 使用方法
57
+
58
+ ### GUI 界面(AI推荐我不推荐,我推荐用 main_old.py)
59
+
60
+ ```bash
61
+ python main.py
62
+ ```
63
+
64
+ 1. 在「模型配置」页下载所需模型(Silero VAD、MFA 声学模型和字典)
65
+ 2. 在「制作音源」页:
66
+ - 设置音源名称
67
+ - 选择输入音频文件(支持 .wav/.mp3/.flac/.ogg/.m4a)
68
+ - 选择 Whisper 模型和语言
69
+ - 点击「一键执行全部流程」或分步执行
70
+ 3. 在「导出音源」页选择导出插件并执行
71
+
72
+ ### 脚本调用
73
+
74
+ ```python
75
+ from src.pipeline import PipelineConfig, VoiceBankPipeline
76
+
77
+ config = PipelineConfig(
78
+ source_name="my_voice",
79
+ input_path="path/to/audio.wav",
80
+ output_base_dir="bank",
81
+ models_dir="models",
82
+ whisper_model="openai/whisper-small",
83
+ mfa_dict_path="models/mfa/mandarin_china_mfa.dict",
84
+ mfa_model_path="models/mfa/mandarin_mfa.zip",
85
+ language="chinese"
86
+ )
87
+
88
+ pipeline = VoiceBankPipeline(config, progress_callback=print)
89
+ success, msg = pipeline.run_make_pipeline()
90
+ ```
91
+
92
+ ## 项目结构
93
+
94
+ ```
95
+ 项目根目录/
96
+ ├── main.py # 程序入口
97
+ ├── config.json # 全局配置文件
98
+ ├── bank/ # 音源库目录
99
+ │ └── [音源名称]/
100
+ │ ├── meta.json # 音源元信息
101
+ │ ├── slices/ # 切片文件 (.wav + .lab)
102
+ │ └── textgrid/ # MFA对齐结果 (.TextGrid)
103
+ ├── export/ # 导出目录
104
+ │ └── [音源名称]/
105
+ │ └── [插件名]/ # 导出结果
106
+ ├── models/ # 模型目录
107
+ │ ├── mfa/ # MFA声学模型和字典
108
+ │ ├── silero_vad/ # Silero VAD模型
109
+ │ └── whisper/ # Whisper模型缓存
110
+ ├── tools/
111
+ │ └── mfa_engine/ # MFA独立运行环境
112
+ ├── src/ # 源代码目录
113
+ │ ├── gui.py # GUI界面
114
+ │ ├── pipeline.py # 流水线核心
115
+ │ ├── audio_processor.py # 音频处理(VAD+Whisper)
116
+ │ ├── mfa_runner.py # MFA运行器
117
+ │ ├── text_processor.py # 文本处理(拼音转换)
118
+ │ └── export_plugins/ # 导出插件目录
119
+ ├── docs/ # 项目文档
120
+ └── tests/ # 测试代码
121
+ ```
122
+
123
+ ## 依赖项
124
+
125
+ 核心依赖:
126
+ - `customtkinter` - GUI 框架
127
+ - `transformers` - Whisper 模型
128
+ - `onnxruntime` - Silero VAD 推理
129
+ - `textgrid` - TextGrid 文件解析
130
+ - `soundfile` - 音频读写
131
+ - `torchaudio` - 音频重采样
132
+ - `pypinyin` - 中文转拼音
133
+ - `pykakasi` - 日文转罗马音
134
+
135
+ MFA 环境需单独下载,详见[MFA引擎安装说明](docs\MFA引擎安装说明.md)。
136
+
137
+ ## 许可证
138
+
139
+ 本项目基于 MIT 许可证开源,详见 [LICENSE](LICENSE) 文件。
140
+
141
+ 本工具集成 Montreal Forced Aligner (MIT License)。
142
+
143
+ 原项目版权归 心水湛清 所有。
144
+
145
+ ## 致谢
146
+
147
+ - [xszqxszq/auto-voice-bank](https://github.com/xszqxszq/auto-voice-bank) - 原项目作者
148
+ - [Montreal Forced Aligner](https://montreal-forced-aligner.readthedocs.io/) - 语音对齐工具
149
+ - [Silero VAD](https://github.com/snakers4/silero-vad) - 语音活动检测
150
+ - [OpenAI Whisper](https://github.com/openai/whisper) - 语音识别模型