VoiceSculptor-VD / docs /voice_design.md
ASLP-lab's picture
Upload 8 files (#1)
7dad981

音色设计指南(Voice Design README)

概述

本指南用于创建高质量的声音描述(voice_prompt),帮助生成符合特定需求的理想音色。声音描述是声音设计的蓝图,直接决定模型输出的音色质量。


技术约束

项目 说明
长度限制 单个 voice_prompt ≤ 200 个字符
支持语言 中文,当前版本暂不支持英文,后续会更新

五大核心原则

1️⃣ 具体而非模糊

✅ 正确做法:使用可感知的声音特质词

  • 音调:低沉、高亢、清脆、浑厚
  • 语速:偏快、缓慢、急促、平缓
  • 质感:磁性、沙哑、圆润、明亮

❌ 错误示例:"好听"、"普通"、"不错"(过于主观,缺乏信息量)

2️⃣ 多维而非单一

✅ 正确做法:至少组合3-4个维度构建立体声像

  • 人设(适用场景) + 性别 + 年龄 + 音调 + 语速 + 音量 + 音质 + 情感

❌ 错误示例:仅"女声"或仅"低沉"(过于宽泛,特色不鲜明)

3️⃣ 客观而非主观

✅ 正确做法:描述声音物理特征

  • "音调偏高,带活力"
  • "语速缓慢,吐字清晰"

❌ 错误示例:"我最喜欢的声音"、"这个声音很棒"

4️⃣ 原创而非模仿

⚠️ 版权风险:禁止使用"模仿XX明星"、"像XX演员"等描述 ✅ 正确做法:描述声音特质本身,而非特定人物

5️⃣ 简洁而非冗余

✅ 正确做法:每个词都承载信息 ❌ 错误示例:"非常非常棒的声音"、"极其极其温柔"


描述维度参考

基于优秀案例,建议从以下维度组合描述:

维度 可选项示例
人设(适用场景) 新闻播报、广告配音、有声书、动画角色、纪录片解说
性别 男性、女性
年龄 儿童(约8岁)、青年(20-30岁)、中年(40-50岁)、老年
性格特质 活泼、沉稳、温柔、知性、可爱、严肃
语速节奏 较快、缓慢、适中、急促、平缓
语调特点 上扬、平和、激昂、慵懒
音色质感 低沉磁性、清脆明亮、沙哑圆润、稚气

优秀案例

✅ 推荐模板

案例1:诗歌朗诵

"一位男性现代诗朗诵者,用深沉磁性的低音,以顿挫有力的节奏演绎艾青诗歌,音量洪亮,情感激昂澎湃。"

案例2:新闻风格

"这是一位女性新闻主播,用标准普通话以清晰明亮的中高音,以平稳专业的语速播报时事新闻,音量洪亮,情感客观中立。"

案例3:广告配音

"这是一位男性白酒品牌广告配音,用沧桑浑厚的嗓音,以缓慢而豪迈的语速,音量洪亮,传递历史底蕴和男人情怀。"


常见错误与改进

类型 ❌ 不推荐描述 ✅ 改进建议
过于笼统 "女声,好听" "年轻女性,音调清脆,语速适中"
主观评价 "很棒的声音" "音色明亮,富有感染力"
单一维度 "低沉的男声" "中年男性,音色低沉,语速缓慢,适合纪录片"
冗余重复 "非常非常温柔的声音" "温柔知性的女性声音"
模仿请求 "像XX明星的声音" "禁止,请用客观特质词描述

快速检查清单

在提交 voice_prompt 前,请确认:

  • 长度 ≤ 200 字符
  • 包含至少3个不同维度
  • 无主观评价词(好听/很棒/喜欢)
  • 无模仿人物描述
  • 无重复强调词
  • 明确了适用场景
  • 所有词汇均可感知、具象化