Spaces:

mason369
/

AI-RVC

Running

App Files Files Community

AI-RVC / README_HF.md

mason369

Upload README_HF.md with huggingface_hub

2344a28 verified 5 days ago

preview code

raw

history blame contribute delete

5.19 kB

	---
	title: AI-RVC 语音转换 & AI 翻唱
	emoji: 🎤
	colorFrom: blue
	colorTo: purple
	sdk: gradio
	sdk_version: 3.50.2
	app_file: app.py
	pinned: false
	license: mit
	---

	# 🎤 AI-RVC 语音转换 & AI 翻唱

	基于 RVC v2 + RMVPE 的高质量语音转换系统，支持一键 AI 翻唱功能。

	## 功能特点

	- AI 歌曲翻唱：上传歌曲自动分离人声、转换音色、混合伴奏，一键生成翻唱
	- 人声分离：默认 Mel-Band Roformer (KimberleyJensen)，在 MVSEP 公开 Multisong 指标中为 Vocals SDR 11.01 / Instrum SDR 17.32
	- 语音转换：RVC v2 架构 + FAISS 检索增强流程
	- RMVPE 音高提取：高精度 F0 提取，噪声鲁棒性强
	- 角色模型：内置 117 个可下载角色模型
	- 混音效果：支持人声混响、音量调节、4 种混音预设
	- 卡拉OK模式：分离主唱和伴唱轨道
	- VC预处理：4 种模式（自动、直通、学习型DeEcho、旧版手工链）
	- 双VC管道：支持当前实现和官方实现

	## 使用方法

	### 1. 下载角色模型

	首次使用需要下载角色模型：
	1. 进入「歌曲翻唱」标签页
	2. 展开「下载角色模型」折叠面板
	3. 选择并下载一个角色（推荐：星空凛、芙宁娜、纳西妲等）

	### 2. 开始翻唱

	1. 上传歌曲文件（支持 MP3/WAV/FLAC）
	2. 选择已下载的角色
	3. 调整参数：
	- 音调偏移：男转女 +12，女转男 -12
	- 混音预设：通用/人声突出/伴奏突出/现场感
	- 卡拉OK模式：启用主唱/伴唱分离
	4. 点击「🚀 开始翻唱」
	5. 下载生成的翻唱作品

	## 参数说明

	### 基础参数

	- 音调偏移：半音数，正数升调，负数降调（男转女: +12, 女转男: -12）
	- 索引率：越高越像训练音色（建议 10-50%）
	- 说话人ID：多说话人模型的说话人选择（通常为 0）

	### 混音预设

	- 通用：默认均衡设置
	- 人声突出：人声 +15%，伴奏 -10%，混响 -5%
	- 伴奏突出：人声 -10%，伴奏 +15%，混响 -5%
	- 现场感：默认音量，混响 +10%

	### VC 预处理模式

	- 自动：根据模型可用性自动选择（推荐）
	- 直通：主唱直接进入 RVC
	- 学习型 DeEcho：使用 UVR DeEcho/DeReverb
	- 旧版手工链：仅用于对比测试

	## 可用角色模型（117 个）

	\| 系列 \| 角色示例 \|
	\|------\|----------\|
	\| Love Live! \| 星空凛、园田海未、东条希、小泉花阳、南小鸟 \|
	\| Love Live! Sunshine!! \| 高海千歌、樱内梨子、黑泽黛雅、黑泽露比、国木田花丸 \|
	\| Love Live! 虹咲学园 \| 上原步梦、中须霞、天王寺璃奈、近江彼方、优木雪菜 \|
	\| 原神 \| 芙宁娜、枫原万叶、纳西妲、八重神子、雷电将军 \|
	\| Hololive \| Fuwawa、Mococo \|
	\| 偶像大师 \| 神崎兰子、梦见莉亚梦、双叶杏、本田未央、岛村卯月 \|

	> 完整列表请在 UI 中查看「下载角色模型」面板

	## 技术架构

	```
	音频输入 → CoverPipeline
	↓
	人声分离 (Mel-Band Roformer)
	↓
	RVC 语音转换 (HuBERT + RMVPE + FAISS)
	↓
	混音 (音量调节 + 混响)
	↓
	AI 翻唱成品
	```

	## 常见问题

	Q: 首次运行很慢？

	A: 首次运行会自动下载模型文件（HuBERT、RMVPE、Roformer 等），请耐心等待。

	Q: 高音断音/撕裂？

	A: 尝试降低保护系数（0.33 → 0.2），增大滤波半径（3 → 5）。

	Q: 转换后声音失真？

	A: 降低索引率，调整音调偏移，使用更高质量的输入音频。

	Q: 如何选择合适的角色？

	A: 建议选择与原唱性别、音色相近的角色，效果更自然。

	## 性能说明

	- GPU 加速：自动检测并使用 GPU（CUDA/ROCm）
	- 处理时间：一首 3-5 分钟的歌曲约需 2-5 分钟处理
	- 显存需求：建议 4GB 以上显存

	## 限制说明

	- 音频长度：建议单次处理不超过 10 分钟
	- 文件大小：建议上传文件不超过 50MB
	- 并发处理：同时只能处理一个任务

	## 更多信息

	- GitHub 仓库：https://github.com/mason369/AI-RVC
	- 完整文档：查看仓库中的 README.md
	- Colab 版本：AI_RVC_Colab.ipynb
	- 问题反馈：GitHub Issues

	## 免责声明

	本项目仅供学习研究和个人娱乐用途，不得用于任何商业目的。严禁使用本软件进行欺诈、传播虚假信息或侵犯他人权益。用户对使用本软件产生的所有内容和后果承担全部责任。

	## 致谢

	- [RVC-Project](https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI) - 原始 RVC 项目
	- [Mel-Band RoFormer](https://arxiv.org/abs/2310.01809) - 人声分离模型
	- [audio-separator](https://github.com/nomadkaraoke/python-audio-separator) - 音源分离框架
	- [RMVPE](https://arxiv.org/abs/2306.15412) - F0 提取
	- [Gradio](https://gradio.app/) - Web 界面框架

	---

	License: MIT
	Version: 2.0
	Last Updated: 2026-03-10