VoiceSculptor-VD / docs /voice_design.md

Upload 8 files (#1)

7dad981 8 days ago

3.71 kB

	# 音色设计指南（Voice Design README）

	## 概述
	本指南用于创建高质量的声音描述（voice_prompt），帮助生成符合特定需求的理想音色。声音描述是声音设计的蓝图，直接决定模型输出的音色质量。

	---

	## 技术约束
	\| 项目 \| 说明 \|
	\|------\|------\|
	\| 长度限制 \| 单个 voice_prompt ≤ 200 个字符 \|
	\| 支持语言 \| 中文，当前版本暂不支持英文，后续会更新\|

	---

	## 五大核心原则

	### 1️⃣ 具体而非模糊
	✅ 正确做法：使用可感知的声音特质词
	- 音调：低沉、高亢、清脆、浑厚
	- 语速：偏快、缓慢、急促、平缓
	- 质感：磁性、沙哑、圆润、明亮

	❌ 错误示例："好听"、"普通"、"不错"（过于主观，缺乏信息量）

	### 2️⃣ 多维而非单一
	✅ 正确做法：至少组合3-4个维度构建立体声像
	- 人设(适用场景) + 性别 + 年龄 + 音调 + 语速 + 音量 + 音质 + 情感

	❌ 错误示例：仅"女声"或仅"低沉"（过于宽泛，特色不鲜明）

	### 3️⃣ 客观而非主观
	✅ 正确做法：描述声音物理特征
	- "音调偏高，带活力"
	- "语速缓慢，吐字清晰"

	❌ 错误示例："我最喜欢的声音"、"这个声音很棒"

	### 4️⃣ 原创而非模仿
	⚠️ 版权风险：禁止使用"模仿XX明星"、"像XX演员"等描述
	✅ 正确做法：描述声音特质本身，而非特定人物

	### 5️⃣ 简洁而非冗余
	✅ 正确做法：每个词都承载信息
	❌ 错误示例："非常非常棒的声音"、"极其极其温柔"

	---

	## 描述维度参考
	基于优秀案例，建议从以下维度组合描述：

	\| 维度 \| 可选项示例 \|
	\|------\|----------\|
	\| 人设（适用场景） \| 新闻播报、广告配音、有声书、动画角色、纪录片解说 \|
	\| 性别 \| 男性、女性\|
	\| 年龄 \| 儿童(约8岁)、青年(20-30岁)、中年(40-50岁)、老年 \|
	\| 性格特质 \| 活泼、沉稳、温柔、知性、可爱、严肃 \|
	\| 语速节奏 \| 较快、缓慢、适中、急促、平缓 \|
	\| 语调特点 \| 上扬、平和、激昂、慵懒 \|
	\| 音色质感 \| 低沉磁性、清脆明亮、沙哑圆润、稚气 \|

	---

	## 优秀案例

	### ✅ 推荐模板

	案例1：诗歌朗诵
	> "一位男性现代诗朗诵者，用深沉磁性的低音，以顿挫有力的节奏演绎艾青诗歌，音量洪亮，情感激昂澎湃。"

	案例2：新闻风格
	> "这是一位女性新闻主播，用标准普通话以清晰明亮的中高音，以平稳专业的语速播报时事新闻，音量洪亮，情感客观中立。"

	案例3：广告配音
	> "这是一位男性白酒品牌广告配音，用沧桑浑厚的嗓音，以缓慢而豪迈的语速，音量洪亮，传递历史底蕴和男人情怀。"

	---

	## 常见错误与改进

	\| 类型 \| ❌ 不推荐描述 \| ✅ 改进建议 \|
	\|------\|------------\|----------\|
	\| 过于笼统 \| "女声，好听" \| "年轻女性，音调清脆，语速适中" \|
	\| 主观评价 \| "很棒的声音" \| "音色明亮，富有感染力" \|
	\| 单一维度 \| "低沉的男声" \| "中年男性，音色低沉，语速缓慢，适合纪录片" \|
	\| 冗余重复 \| "非常非常温柔的声音" \| "温柔知性的女性声音" \|
	\| 模仿请求 \| "像XX明星的声音" \| "禁止，请用客观特质词描述 \|

	---

	## 快速检查清单
	在提交 voice_prompt 前，请确认：
	- [ ] 长度 ≤ 200 字符
	- [ ] 包含至少3个不同维度
	- [ ] 无主观评价词（好听/很棒/喜欢）
	- [ ] 无模仿人物描述
	- [ ] 无重复强调词
	- [ ] 明确了适用场景
	- [ ] 所有词汇均可感知、具象化

	---