You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

Model Card for GPT-SoVITS_ft

GPT-SoVITS_ft是基于GPT-SoVITS架构微调的中文语音合成模型,支持少样本语音克隆,能够在仅提供5-10秒参考音频的情况下生成高质量、高相似度的中文语音。该模型在中文语音自然度、情感表达和音色还原方面进行了优化。

Model Details

Model Description

本模型是GPT-SoVITS官方预训练模型的微调版本,专门针对中文普通话语音合成任务进行了优化。GPT-SoVITS结合了GPT的上下文理解能力和SoVITS的语音生成能力,实现了零样本/少样本的高质量语音克隆。

  • Developed by: Yougen Yuan
  • Funded by [optional]: [More Information Needed]
  • Shared by [optional]: Yougen Yuan
  • Model type: Text-to-Speech (TTS) / Voice Cloning
  • Language(s) (NLP): Chinese (Mandarin)
  • License: Apache-2.0
  • Finetuned from model [optional]: RVC-Boss/GPT-SoVITS

Model Sources [optional]

Uses

Direct Use

  • 中文普通话语音合成
  • 少样本语音克隆(5-10秒参考音频)
  • 有声读物制作
  • 虚拟助手语音生成
  • 视频配音
  • 个性化语音内容创作

Downstream Use [optional]

  • 集成到对话系统中作为语音输出模块
  • 多语言语音合成系统的中文组件
  • 语音转换和风格迁移应用
  • 教育领域的语音教学工具

Out-of-Scope Use

  • 未经授权的他人语音克隆
  • 生成虚假语音用于欺诈、造谣等非法活动
  • 生成含有暴力、色情、仇恨等违法违规内容的语音
  • 商业用途中未遵守Apache-2.0许可证条款的使用

Bias, Risks, and Limitations

Technical Limitations

  • 主要针对中文普通话优化,对其他语言和方言支持有限
  • 对长文本(超过500字)的生成可能出现连贯性下降
  • 参考音频质量会显著影响克隆效果,低质量音频可能导致生成语音模糊或失真
  • 对极端情感(如极度愤怒、悲伤)的表达能力有限
  • 生成语音可能存在轻微的机器感

Ethical Considerations

  • 语音克隆技术可能被用于恶意用途,用户需确保使用该模型时遵守法律法规和道德准则
  • 使用他人声音进行克隆前必须获得明确授权
  • 建议在使用该模型生成的内容中明确标注为AI生成

Recommendations

Users (both direct and downstream) should be made aware of the risks, biases and limitations of the model. 强烈建议用户:

  1. 仅使用自己拥有合法权利的语音进行克隆
  2. 在所有使用该模型生成的内容中明确标注为AI生成
  3. 不要将该模型用于任何可能对他人造成伤害或侵犯他人权利的用途
  4. 了解并遵守Apache-2.0许可证的所有条款

How to Get Started with the Model

Use the code below to get started with the model.

# 首先安装GPT-SoVITS依赖
# pip install gpt-sovits

from gpt_sovits import GPTSoVITS

# 加载模型
model = GPTSoVITS.from_pretrained("Yougen/GPT-SoVITS_ft")

# 生成语音
# 参考音频路径(5-10秒中文普通话)
reference_audio = "path/to/reference.wav"
# 参考文本(参考音频对应的文字内容)
reference_text = "这是参考音频的文本内容"
# 要生成的文本
text = "你好,这是使用GPT-SoVITS生成的语音。"

# 生成语音
audio = model.generate(
    text=text,
    reference_audio=reference_audio,
    reference_text=reference_text,
    language="zh"
)

# 保存音频
model.save_audio(audio, "output.wav")

Training Details

Training Data

本模型基于以下数据进行微调:

  • 中文普通话开源语音数据集
  • 高质量中文有声读物数据
  • 多说话人中文语音数据集

所有训练数据均经过严格的质量筛选和预处理,包括降噪、音量归一化和文本对齐。

Training Procedure

Preprocessing [optional]

  • 音频重采样至16kHz,单声道
  • 文本转换为拼音和汉字混合表示
  • 提取音频特征(梅尔频谱图)
  • 数据增强:速度调整、音量变化、添加轻微噪声

Training Hyperparameters

  • Training regime: fp16 mixed precision
  • Batch size: 8
  • Learning rate: 2e-5
  • Epochs: 10
  • Optimizer: AdamW
  • Warmup steps: 1000
  • Weight decay: 0.01

Speeds, Sizes, Times [optional]

  • Model size: ~1.5GB
  • Training time: ~24 hours on a single NVIDIA A100 GPU
  • Inference speed: ~0.5x real-time on NVIDIA RTX 3090

Evaluation

Testing Data, Factors & Metrics

Testing Data

  • 内部中文普通话测试集(包含不同性别、年龄、口音的说话人)
  • 公开中文语音合成基准测试集

Factors

  • 语音自然度
  • 音色相似度
  • 文本清晰度
  • 情感表达准确性
  • 鲁棒性(不同参考音频质量下的表现)

Metrics

  • 主观平均意见分(MOS)
  • 相似度主观评分
  • 字错误率(WER)
  • 实时率(RTF)

Results

  • 自然度MOS: 4.2/5.0
  • 音色相似度: 4.0/5.0
  • 字错误率: < 2%
  • 实时率: 0.5x (RTX 3090)

Summary

本模型在中文语音合成任务上表现出色,特别是在少样本语音克隆方面具有优秀的性能。生成的语音自然度高,音色相似度好,能够满足大多数中文语音合成应用的需求。

Model Examination [optional]

[More Information Needed]

Environmental Impact

Carbon emissions can be estimated using the Machine Learning Impact calculator presented in Lacoste et al. (2019).

  • Hardware Type: NVIDIA A100 80GB
  • Hours used: 24
  • Cloud Provider: [More Information Needed]
  • Compute Region: [More Information Needed]
  • Carbon Emitted: [More Information Needed]

Technical Specifications [optional]

Model Architecture and Objective

GPT-SoVITS采用两阶段架构:

  1. GPT阶段: 基于文本和参考音频特征生成语义和韵律特征
  2. SoVITS阶段: 将生成的特征转换为最终的语音波形

模型采用自回归生成方式,结合了注意力机制和卷积神经网络,能够捕捉长距离的上下文依赖和精细的语音细节。

Compute Infrastructure

Hardware

  • 训练:NVIDIA A100 80GB GPU
  • 推理:支持NVIDIA GPU (CUDA) 和 CPU

Software

  • PyTorch 2.0+
  • Transformers
  • librosa
  • soundfile
  • g2pM (中文拼音转换)

Citation [optional]

BibTeX:

@software{gpt-sovits,
  author = {RVC-Boss},
  title = {GPT-SoVITS: Few-shot Voice Cloning and Text-to-Speech Model},
  year = {2024},
  publisher = {GitHub},
  url = {https://github.com/RVC-Boss/GPT-SoVITS}
}

APA: RVC-Boss. (2024). GPT-SoVITS: Few-shot Voice Cloning and Text-to-Speech Model. GitHub. https://github.com/RVC-Boss/GPT-SoVITS

Glossary [optional]

  • TTS: Text-to-Speech,文本转语音
  • Voice Cloning: 语音克隆,通过少量参考音频生成与原说话人音色相似的语音
  • Few-shot Learning: 少样本学习,仅使用少量样本进行模型训练或推理
  • MOS: Mean Opinion Score,平均意见分,用于主观评价语音质量
  • RTF: Real-Time Factor,实时率,生成语音所需时间与语音时长的比值

More Information [optional]

Model Card Authors [optional]

Yougen Yuan

Model Card Contact

Yougen Yuan - https://www.linkedin.com/in/yougenyuan/

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Paper for Yougen/GPT-SoVITS_ft