Unimo IndexTTS2情绪描述文本解析优化模型
Unimo-context 是一个情绪上下文模型,能够根据情绪的上下文(如上一句话的情绪向量)以及当前的情绪描述,综合情绪的上下文信息后生成更加自然的情绪,使情绪的变化更加丝滑流畅
本质上还是模拟人生理上无法控制的情绪惯性,但是对于一些特殊的突变场景还是效果不好的,因为只是分析情绪向量,没有分析原文本逻辑
基于 Qwen3-0.6B 微调的轻量级情感特征工程模型,专门用于解决多轮对话中TTS语音合成情感表现过于突变、缺乏物理惯性的问题。
目的是为解决在传统的情感 TTS 流程中,情感随文本瞬间切换(例如从愤怒直接跳到冷静)过渡不自然的问题。
接收上一句的情绪历史状态和当前句的情绪意图,输出较符合人类生理习惯的情绪惯性残留的混合情绪向量,8维情绪特征向量可直接输入IndexTTS2使用合成音频。
本项目可配合另一个项目:https://huggingface.co/sdsds222moyu/Unimo-indexTTS2-emotext 使用,这个项目可以更精确地解析自然语言的情绪指令文本,转化为IndexTTS2可用的情绪向量。
部署方法:
安装依赖:
python -m venv venv
source venv/bin/activate # Linux
.\venv\Scripts\activate # Windows
pip install -r requirements.txt
启动情绪测试对比界面(可以生成上一句的情绪音频,当前的情绪音频和混合后的情绪音频,以供对比参考):
python Unimo_context_qwen3.py

