Unimo IndexTTS2情绪描述文本解析优化模型

Unimo-context 是一个情绪上下文模型，能够根据情绪的上下文（如上一句话的情绪向量）以及当前的情绪描述，综合情绪的上下文信息后生成更加自然的情绪，使情绪的变化更加丝滑流畅

本质上还是模拟人生理上无法控制的情绪惯性，但是对于一些特殊的突变场景还是效果不好的，因为只是分析情绪向量，没有分析原文本逻辑

基于 Qwen3-0.6B 微调的轻量级情感特征工程模型，专门用于解决多轮对话中TTS语音合成情感表现过于突变、缺乏物理惯性的问题。

目的是为解决在传统的情感 TTS 流程中，情感随文本瞬间切换（例如从愤怒直接跳到冷静）过渡不自然的问题。

接收上一句的情绪历史状态和当前句的情绪意图，输出较符合人类生理习惯的情绪惯性残留的混合情绪向量，8维情绪特征向量可直接输入IndexTTS2使用合成音频。

本项目可配合另一个项目:https://huggingface.co/sdsds222moyu/Unimo-indexTTS2-emotext 使用，这个项目可以更精确地解析自然语言的情绪指令文本，转化为IndexTTS2可用的情绪向量。

部署方法：

安装依赖：

python -m venv venv
source venv/bin/activate  # Linux
.\venv\Scripts\activate   # Windows
pip install -r requirements.txt

启动情绪测试对比界面（可以生成上一句的情绪音频，当前的情绪音频和混合后的情绪音频，以供对比参考）：

python Unimo_context_qwen3.py

Downloads last month: -; Downloads are not tracked for this model. How to track

Base model

Finetuned

Finetuned

(949)

this model