lglg666
/

dpss-exp3-TTS

Model card Files Files and versions

xet

Community

lglg666 commited on 15 days ago

Commit

d5b200d

verified ·

1 Parent(s): d2b5abf

Delete 实验三：基于VoxCPM的音色克隆（实验指导）.md

Browse files

Files changed (1) hide show

实验三：基于VoxCPM的音色克隆（实验指导）.md +0 -239

实验三：基于VoxCPM的音色克隆（实验指导）.md DELETED Viewed

@@ -1,239 +0,0 @@
-# 实验三：基于VoxCPM的音色克隆（实验指导）
-本文件是THUHCSI课程实验三：基于VoxCPM的音色克隆的实验指导文档
-## 设置环境
-1. [从http://sox.sourceforge.net/](http://sox.sourceforge.net/)安装 sox或使用 apt install sox
-2. [从https://www.ffmpeg.org/download.html#build-linux](https://www.ffmpeg.org/download.html#build-linux)安装 ffmpeg ，或者使用 apt install FFmpeg安装。
-3. 通过以下方式设置 Python 环境：首先需要建立一个具有PyTorch 2.5.0版本以上以及与之对应的 CUDA 版本的环境，建议大家使用Conda进行搭建，可以使用python版本3.10.14，以避免出现错误。接下来执行下面脚本安装
-```
-pip install voxcpm
-pip install tensorboardX
-pip install argbind
-pip install json
-```
-4. 使用VoxCPM/src/voxcpm中的版本替换python环境中安装的版本（训练用）
-```
-rsync -avP src/voxcpm/* /usr/local/python3/lib/python3.10/site-packages/voxcpm/（请输入自己的voxcpm包安装文件）
-```
-## 数据准备
-下载HuggingFace（https://huggingface.co/lglg666/dpss-exp3-TTS）中的文件，所有数据存储在VoxCPM/datasets.zip文件中，请解压缩保存到VoxCPM/datasets中，实验需要用到的数据目录文件已经整理在VoxCPM/datasets/metadatas文件中，包含以下文件
-- single_speaker_test_datas.txt：用于完成任务二第一个要求的测试集文本合集，已经设置好了每条文本的名字和内容，可以直接使用VoxCPM/inference.py中提供的脚本进行批量合成。
-- single_speaker_train_datas.jsonl，single_speaker_test_datas.jsonl：用于任务二和三中模型训练和测试的单一目标说话人数据集，数据来自原神角色“八重神子”的语音。
-- all_train_datas.jsonl，all_test_datas.jsonl：用于任务四中模型训练和测试的多说话人数据集，数据来自原神游戏中不同角色的语音。
-## 任务一：VoxCPM 能力探索与 Zero-shot 克隆
-在该任务中，主要帮助同学们熟悉VoxCPM的推理流程和Zero-shot能力，我们在VoxCPM/inference.py中提供了一个基础的推理脚本，更多自由的推理方式请参考文件VoxCPM/README.md
-### 单条音频推理
-单条音频推理只需使用下面的命令，这里我们以文本“恭喜你们通过了第三轮试胆大会，小家伙们。”和参考音频“./prompt_sample.wav”为例
-```
-python3 inference.py --model_path ckpts --text 恭喜你们通过了第三轮试胆大会，小家伙们。 --output_dir outputs --cfg_value 2 --inference_timesteps 10 --prompt_wav_path ./prompt_sample.wav --prompt_text 海奇岛的鱼类多样性异常丰富，确实不可多得。
-```
-Notes：
-- --model_path：当前推理待使用模型的存储路径，在VoxCPM/ckpts中已经为大家提供了预训练好的模型，后续也可以替换成自己微调的checkpoint
-- --text：当前轮次合成的语音文本
-- --output_dir：本次生成的音频存储位置，单条推理时默认存储音频名字为"output.wav"
-- --cfg_value & --inference_timesteps：可调节的推理参数
-- --prompt_wav_path：用于Zero-shot的参考音频路径，当对于特定说话人进行微调后不用再提供
-- --prompt_text：对应参考音频的文本内容，**当使用参考音频时必须提供**。
-### 多条音频推理
-我们以参考音频“./prompt_sample.wav”为例进行多条音频推理。首先需要将我们本次推理的所有文本内容组织成下面格式的文件
-```
-1||简要说明文字输入在VoxCPM中是如何被一步步转变成了输出语音的？
-2||简要说明提示音频在模型中起到了什么作用？
-3||自己录制一段语音，对自己的声音进行克隆，合成5个以上不同文本
-4||对比和分析合成结果的效果及可能存在的问题
-```
-其中每行包含文件名和文本内容两个信息，用‘||’进行隔开，然后使用下面命令进行对同一参考音频的多条文本进行合成
-```
-python3 inference.py --model_path ckpts --text_file ./test.txt --output_dir outputs --cfg_value 2 --inference_timesteps 10 --prompt_wav_path ./prompt_sample.wav --prompt_text 海奇岛的鱼类多样性异常丰富，确实不可多得。
-```
-Notes：
-- --text_file：当前轮次合成的文本集合文件
-- --output_dir：本次生成的音频存储位置，每条音频会根据text_file中指定的文件名进行存储
-## 任务二：全参数微调（Full Fine-tuning）探索
-在该任务中，主要帮助同学们数据VoxCPM的全参数微调流程，我们在VoxCPM/scripts/train_voxcpm_finetune.py中提供了微调的脚本，并在VoxCPM/conf/voxcpm/voxcpm_finetune_example.yaml提供了在全参数微调时使用的配置，更多全参数微调的信息请参考文件VoxCPM/README.md
-### 评估指标熟悉--测试集文本推理
-该实验测试集文本已经按照多条音频推理流程中的要求整理在VoxCPM/datasets/metadatas/single_speaker_test_datas.txt中，可以自己选定目标说��人的任意一条语音，使用下面脚本进行推理
-```
-python3 inference.py --model_path ckpts --text_file datasets/metadatas/single_speaker_test_datas.txt --prompt_wav_path 自由选择音频路径 --prompt_text 音频文本
-```
-### 评估指标熟悉--自动评估工具
-关于可懂度和音色相似度的评估，我们已经整理好了评估工具给大家，该脚本已经和测试集文本推理流程进行了适配。
-首先需要进行环境配置，该脚本需要的环境在eval/requirements.txt中，要安装所有依赖项，请运行
-```
-pip3 install -r requirements.txt
-```
-#### WER计算
-在eval文件中运行下面脚本以完成WER的计算
-```
-bash cal_wer.sh base_path/VoxCPM/datasets/metadatas/single_speaker_test_datas.txt base_path/VoxCPM/outputs base_path/VoxCPM/datasets/metadatas/single_speaker_test_datas.jsonl
-```
-该脚本一共需要输入三个路径
-- 第一个路径是多条音频推理时，输入模型的text_file文件，该文件以||为分隔符包含了文件名和文本内容
-- 第二个路径是存储音频的文件夹路径
-- 第三个路径是测试集的jsonl文件，且该文件每一行的内容与第一个路径的文件每一行是对应的，用于提供GT的音频信息。
-#### SIM计算
-在eval文件中运行下面脚本以完成WER的计算
-```
-bash cal_sim.sh base_path/VoxCPM/datasets/metadatas/single_speaker_test_datas.txt base_path/VoxCPM/outputs base_path/VoxCPM/datasets/metadatas/single_speaker_test_datas.jsonl
-```
-该脚本与WER计算输入时需要的文件相同
-为了方便计算WER和SIM，推荐大家使用VoxCPM/inference.py进行推理。当使用其他方式进行推理时，需要按照对应的测试集jsonl文件中的音频顺序创建一个包含text_file（以||为分隔符包含了文件名和文本内容）。
-### 全参数微调
-进行全参数微调需要参考下面的教程
-#### 1.准备manifest (JSONL)
-```
-{"audio": "/path/to/audio_0001.wav", "text": "你好，世界。", "dataset_id": 0}
-{"audio": "/path/to/audio_0002.wav", "text": "第二条语音", "dataset_id": 0}
-```
-- `audio`: waveform file path (WAV/FLAC/MP3 supported)
-- `text`: transcription
-- `dataset_id` *(optional)*: integer identifier for multi-dataset sampling statistics
-这一步我们已经帮大家完成了，准备好的文件放在VoxCPM/datasets/metadatas/single_speaker_train_datas.jsonl下
-#### 2.**Copy & edit the example config**
-在VoxCPM/conf/voxcpm/voxcpm_finetune_example.yaml中，我们提供了一个进行全参数微调的配置文件示例，包含全参数微调用到的超参数。大家可以对其中的训练配置进行修改，以实现自己的训练方案。
-#### 3.启动训练
-如果你有多张卡，可以使用进行多卡训练，示例如下
-```bash
-CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node 2 \
-  scripts/train_voxcpm_finetune.py \
-  --config_path conf/voxcpm/voxcpm_finetune_example.yaml
-```
-Features:
-- Distributed + AMP training (`torchrun`).
-- TensorBoard logging (`tensorboard --logdir logs/voxcpm_finetune`).
-- Periodic validation & checkpointing under `checkpoints/`.
-如果你只有一张卡，可以进行单卡训练，示例如下
-```bash
-torchrun --nproc_per_node 1 \
-  scripts/train_voxcpm_finetune.py \
-  --config_path conf/voxcpm/voxcpm_finetune_example.yaml
-```
-#### 4.**Key modules**
-- `VoxCPM/src/voxcpm/model/voxcpm.py`: unified model providing both inference and training forward。
-- `VoxCPM/src/voxcpm/training/`: accelerator, tracker, dataset loader & batch packer utilities。
-- `VoxCPM/scripts/train_voxcpm_finetune.py`: end-to-end fine-tune loop。
-#### 5.效果测试
-训练完成后可自行选择合适的step的generator.pth文件代替VoxCPM/ckpts/pytorch_model.bin文件进行效果测试（建议复制一个新文件夹进行测试，VoxCPM/ckpts文件还需要用于后续实验的训练初始化），一个简单的操作指引如下
-```bash
-cp -r ckpts new_ckpts
-cp checkpoints/voxcpm_finetune/step_0001000/generator.pth new_ckpts/pytorch_model.bin
-python3 inference.py --model_path new_ckpts --text_file datasets/metadatas/single_speaker_test_datas.txt
-```
-## 任务三：基于 LoRA 的高效微调
-在该任务中，主要帮助同学们数据VoxCPM的LoRA微调流程，微调的脚本和全参数微调一致，都在VoxCPM/scripts/train_voxcpm_finetune.py中，并在VoxCPM/conf/voxcpm/voxcpm_finetune_lora.yaml中提供了专门用于LoRA微调的配置文件
-### LoRA微调
-LoRA微调的过程和全参数微调基本一致，唯一的区别就是将配置文件从VoxCPM/conf/voxcpm/voxcpm_finetune_example.yaml换成VoxCPM/conf/voxcpm/voxcpm_finetune_lora.yaml，修改配置文件中的超参数之后我们就可以用下面的脚本开始LoRA微调
-如果你有多张卡，可以使用进行多卡训练，示例如下
-```bash
-CUDA_VISIBLE_DEVICES=0,1 torchrun --nproc_per_node 2 \
-  scripts/train_voxcpm_finetune.py \
-  --config_path conf/voxcpm/voxcpm_finetune_lora.yaml
-```
-如果你只有一张卡，可以进行单卡训练，示例如下
-```bash
-torchrun --nproc_per_node 1 \
-  scripts/train_voxcpm_finetune.py \
-  --config_path conf/voxcpm/voxcpm_finetune_lora.yaml
-```
-### LoRA推理
-LoRA推理得到的checkpoint需要使用全新的推理脚本进行推理，脚本保存在VoxCPM/inference_lora.py中
-单条音频推理只需使用下面的命令，这里我们以文本“恭喜你们通过了第三轮试胆大会，小家伙们。”和参考音频“./prompt_sample.wav”为例
-```
-python3 inference_lora.py --lora_ckpt checkpoints/voxcpm_finetune/step_0001000 --lora_config_path conf/voxcpm/voxcpm_finetune_lora.yaml --text 恭喜你们通过了第三轮试胆大会，小家伙们。 --output_dir outputs --cfg_value 2 --inference_timesteps 10
-```
-Notes：
-- --lora_ckpt：当前推理使用微调模型训练的checkpoint存储路径，默认在文件夹checkpoints/voxcpm_finetune中
-- --lora_config_path：当前checkpoint进行LoRA微调所用到的训练配置文件
-- --text：当前轮次合成的语音文本
-- --output_dir：本次生成的音频存储位置，单条推理时默认存储音频名字为"output_lora.wav"
-- --cfg_value & --inference_timesteps：可调节的推理参数
-### 多条音频推理
-```
-python3 inference_lora.py --lora_ckpt checkpoints/voxcpm_finetune/step_0001000 --lora_config_path conf/voxcpm/voxcpm_finetune_lora.yaml --text_file datasets/metadatas/single_speaker_test_datas.txt --output_dir outputs --cfg_value 2 --inference_timesteps 10
-```
-Notes：
-- --text_file：当前轮次合成的文本集合文件
-- --output_dir：本次生成的音频存储位置，每条音频会根据text_file中指定的文件名进行存储
-## 任务四：多说话人语音合成模型（原神角色实战）
-在该任务中，我们需要大家尝试自行将说话人信息注入模型中，构建一个多说话人（Multi-Speaker）语音合成模型，即输入为“任意文本 + 目标角色 ID”，输出为该角色的语音。大家可以查询相关资料，自行实现这一功能，并使用之前任务中积累的训练经验进行训练。