Emotion / README.md

Update README.md

c153276 verified 5 days ago

6.77 kB

	---
	license: apache-2.0
	datasets:
	- jiangchengchengNLP/Enhanced_Emotion_Classification_Dataset
	metrics:
	- accuracy
	base_model:
	- Qwen/Qwen3-0.6B
	pipeline_tag: text-generation
	---
	# 情感分类模型评估报告

	## 1. 报告概述
	- 评估模型：qwen3-0.6b-+emotion-lora-2.7-no-thinking（2.7轮次保存模型，验证集损失最低）
	- 评估时间：2026-01-06
	- 评估数据集：英文情感分类验证集
	- 样本总数：12,993

	## 2. 数据概览
	\| 统计项 \| 数值 \|
	\|--------\|------\|
	\| 总样本数 \| 12,993 \|
	\| 请求成功数 \| 12,993 \|
	\| JSON解析成功数 \| 12,993 \|
	\| 标签有效数 \| 12,993 \|
	\| 有效标签比例 \| 100.00% \|

	## 3. 错误处理统计
	\| 错误类型 \| 错误率 \| 错误数量 \|
	\|----------\|--------\|----------\|
	\| 请求失败 \| 0.00% \| 0 \|
	\| JSON解析失败 \| 0.00% \| 0 \|
	\| 标签无效 \| 0.00% \| 0 \|

	## 4. 总体评估指标
	\| 指标 \| 数值 \| 与原模型对比（提升/下降） \| 与emotion-lora对比（提升/下降） \|
	\|------\|------\|--------------------------\|--------------------------------\|
	\| 准确率 \| 70.61% \| +16.88% \| +2.35% \|
	\| 正确预测数 \| 9,174 \| +2,193 \| +305 \|

	## 5. 类别性能指标

	### 5.1 各类别精确率、召回率和F1分数
	\| 情感类别 \| 精确率 \| 召回率 \| F1分数 \| 与原模型对比（F1提升/下降） \| 与emotion-lora对比（F1提升/下降） \|
	\|----------\|--------\|--------\|--------\|---------------------------\|-----------------------------------\|
	\| neutral（中性） \| 75.23% \| 85.14% \| 79.88% \| +11.55% \| +1.63% \|
	\| joy（喜悦） \| 70.07% \| 68.30% \| 69.17% \| +27.89% \| +1.10% \|
	\| fear（恐惧） \| 71.39% \| 63.67% \| 67.31% \| +45.42% \| +4.54% \|
	\| sadness（悲伤） \| 67.86% \| 60.04% \| 63.71% \| +30.34% \| +3.67% \|
	\| surprise（惊讶） \| 72.97% \| 33.59% \| 46.00% \| +32.89% \| -2.82% \|
	\| anger（愤怒） \| 54.23% \| 58.22% \| 56.16% \| +34.74% \| +1.85% \|
	\| disgust（厌恶） \| 52.23% \| 50.67% \| 51.44% \| +30.62% \| +4.82% \|

	### 5.2 类别性能分析
	- 表现最佳：neutral（中性）类别表现突出，F1分数达79.88%，在所有模型中表现最好
	- 提升最大：fear（恐惧）类别提升最为显著，F1分数从21.89%提升至67.31%，提高了45.42%
	- 全面进步：所有类别F1分数均有显著提升，相比原模型提升幅度在30-45%之间
	- 召回率改善：除surprise外，其他类别召回率均有提升或保持稳定
	- 与emotion-lora对比：大部分类别F1分数进一步提升，特别是fear、sadness和disgust类别

	## 6. 平均指标
	\| 指标 \| 数值 \| 与原模型对比（提升/下降） \| 与emotion-lora对比（提升/下降） \|
	\|------\|------\|--------------------------\|--------------------------------\|
	\| 宏平均精确率 \| 66.28% \| +15.25% \| +5.26% \|
	\| 宏平均召回率 \| 59.95% \| +31.59% \| +0.52% \|
	\| 宏平均F1分数 \| 61.95% \| +30.49% \| +2.11% \|
	\| 微平均精确率 \| 70.61% \| +16.77% \| +2.34% \|
	\| 微平均召回率 \| 70.61% \| +16.77% \| +2.34% \|
	\| 微平均F1分数 \| 70.61% \| +16.77% \| +2.34% \|

	- 宏平均：体现了模型在各类别上的平均表现，相比原模型有巨大提升，且略优于emotion-lora模型
	- 微平均：体现了模型在所有样本上的整体表现，与总体准确率一致，相比原模型提升16.77%，优于emotion-lora模型

	## 7. 混淆矩阵分析

	### 7.1 主要混淆情况
	\| 真实标签 \| 最易混淆的预测标签 \| 混淆数量 \| 与原模型对比 \| 与emotion-lora对比 \|
	\|----------\|------------------\|----------\|------------\|-------------------\|
	\| fear \| neutral \| 146 \| -402 \| +37 \|
	\| surprise \| neutral \| 357 \| -404 \| +104 \|
	\| surprise \| joy \| 194 \| +174 \| +24 \|
	\| disgust \| anger \| 85 \| -205 \| -15 \|
	\| anger \| neutral \| 190 \| -700 \| +47 \|
	\| sadness \| neutral \| 256 \| -488 \| +57 \|
	\| joy \| neutral \| 586 \| -924 \| +113 \|

	### 7.2 混淆模式分析
	- 显著改善：模型对非neutral类别的混淆情况大幅减少，不再过度预测为neutral类别
	- 新的混淆：出现了surprise与joy之间的混淆（194条）
	- 与emotion-lora对比：部分类别与neutral的混淆略有增加，但disgust与anger的混淆有所减少
	- 整体趋势：混淆矩阵分布更加均衡，模型能够更好地区分不同情感类别

	## 8. 结果分析与建议

	### 8.1 模型优势
	- 准确率最高：相比原模型和emotion-lora模型，准确率最高，达到70.61%
	- 均衡表现：所有情感类别均有显著提升，特别是在小样本类别上
	- 中性性能保持：neutral类别性能保持在较高水平（F1=79.88%）
	- 资源高效：通过2.7轮次的Lora微调，在保持模型轻量化的同时获得了最佳性能
	- 验证集最优：作为验证集上损失最低的模型，泛化能力更强

	### 8.2 模型不足
	- surprise性能：surprise类别F1分数（46.00%）相比emotion-lora模型略有下降
	- surprise召回率：surprise类别召回率（33.59%）仍有提升空间
	- 部分混淆：surprise与joy、部分类别与neutral之间仍存在一定混淆

	### 8.3 改进建议
	1. surprise优化：针对surprise类别进行专门的数据增强和微调，提高其召回率
	2. 混淆类别优化：针对易混淆的情绪类别（如surprise-joy）进行专门的微调训练
	3. 训练策略调整：考虑在2.7轮次附近进行更多检查点保存，进一步优化模型性能
	4. 类别权重：在损失函数中引入类别权重，进一步改善小样本类别性能
	5. 超参数调整：调整Lora的秩参数或微调学习率，进一步提升性能

	## 9. 结论

	本次评估显示，qwen3-0.6b-+emotion-lora-2.7-no-thinking模型（2.7轮次保存，验证集损失最低）在英文情感分类任务上的总体准确率达到70.61%，相比原模型（53.73%）提升了16.88%，相比emotion-lora模型（68.26%）提升了2.35%。

	2.7轮次Lora微调的主要收益在于：
	- 大幅提高了所有情感类别的F1分数，特别是fear（恐惧）类别提升了45.42%
	- 改善了模型的类别平衡性，不再过度预测为neutral
	- 进一步提升了宏平均F1分数（从31.46%提升至61.95%）
	- 成为验证集上损失最低、性能最佳的模型

	与emotion-lora模型相比，2.7轮次模型在大部分类别上表现更好，特别是在disgust（厌恶）、fear（恐惧）和sadness（悲伤）等小样本类别上有明显提升。

	总体而言，2.7轮次的Lora微调取得了最佳效果，使模型在情感分类任务上的表现更加均衡和准确，是三种模型中性能最好的版本。

	---

	报告生成时间：2026-01-07

	---
	license: apache-2.0
	datasets:
	- jiangchengchengNLP/Enhanced_Emotion_Classification_Dataset
	metrics:
	- accuracy
	base_model:
	- Qwen/Qwen3-0.6B
	pipeline_tag: text-generation
	---
	# 情感分类模型评估报告

	## 1. 报告概述
	- 评估模型：qwen3-0.6b-+emotion-lora-2.7-no-thinking（2.7轮次保存模型，验证集损失最低）
	- 评估时间：2026-01-06
	- 评估数据集：英文情感分类验证集
	- 样本总数：12,993

	## 2. 数据概览
	\| 统计项 \| 数值 \|
	\|--------\|------\|
	\| 总样本数 \| 12,993 \|
	\| 请求成功数 \| 12,993 \|
	\| JSON解析成功数 \| 12,993 \|
	\| 标签有效数 \| 12,993 \|
	\| 有效标签比例 \| 100.00% \|

	## 3. 错误处理统计
	\| 错误类型 \| 错误率 \| 错误数量 \|
	\|----------\|--------\|----------\|
	\| 请求失败 \| 0.00% \| 0 \|
	\| JSON解析失败 \| 0.00% \| 0 \|
	\| 标签无效 \| 0.00% \| 0 \|

	## 4. 总体评估指标
	\| 指标 \| 数值 \| 与原模型对比（提升/下降） \| 与emotion-lora对比（提升/下降） \|
	\|------\|------\|--------------------------\|--------------------------------\|
	\| 准确率 \| 70.61% \| +16.88% \| +2.35% \|
	\| 正确预测数 \| 9,174 \| +2,193 \| +305 \|

	## 5. 类别性能指标

	### 5.1 各类别精确率、召回率和F1分数
	\| 情感类别 \| 精确率 \| 召回率 \| F1分数 \| 与原模型对比（F1提升/下降） \| 与emotion-lora对比（F1提升/下降） \|
	\|----------\|--------\|--------\|--------\|---------------------------\|-----------------------------------\|
	\| neutral（中性） \| 75.23% \| 85.14% \| 79.88% \| +11.55% \| +1.63% \|
	\| joy（喜悦） \| 70.07% \| 68.30% \| 69.17% \| +27.89% \| +1.10% \|
	\| fear（恐惧） \| 71.39% \| 63.67% \| 67.31% \| +45.42% \| +4.54% \|
	\| sadness（悲伤） \| 67.86% \| 60.04% \| 63.71% \| +30.34% \| +3.67% \|
	\| surprise（惊讶） \| 72.97% \| 33.59% \| 46.00% \| +32.89% \| -2.82% \|
	\| anger（愤怒） \| 54.23% \| 58.22% \| 56.16% \| +34.74% \| +1.85% \|
	\| disgust（厌恶） \| 52.23% \| 50.67% \| 51.44% \| +30.62% \| +4.82% \|

	### 5.2 类别性能分析
	- 表现最佳：neutral（中性）类别表现突出，F1分数达79.88%，在所有模型中表现最好
	- 提升最大：fear（恐惧）类别提升最为显著，F1分数从21.89%提升至67.31%，提高了45.42%
	- 全面进步：所有类别F1分数均有显著提升，相比原模型提升幅度在30-45%之间
	- 召回率改善：除surprise外，其他类别召回率均有提升或保持稳定
	- 与emotion-lora对比：大部分类别F1分数进一步提升，特别是fear、sadness和disgust类别

	## 6. 平均指标
	\| 指标 \| 数值 \| 与原模型对比（提升/下降） \| 与emotion-lora对比（提升/下降） \|
	\|------\|------\|--------------------------\|--------------------------------\|
	\| 宏平均精确率 \| 66.28% \| +15.25% \| +5.26% \|
	\| 宏平均召回率 \| 59.95% \| +31.59% \| +0.52% \|
	\| 宏平均F1分数 \| 61.95% \| +30.49% \| +2.11% \|
	\| 微平均精确率 \| 70.61% \| +16.77% \| +2.34% \|
	\| 微平均召回率 \| 70.61% \| +16.77% \| +2.34% \|
	\| 微平均F1分数 \| 70.61% \| +16.77% \| +2.34% \|

	- 宏平均：体现了模型在各类别上的平均表现，相比原模型有巨大提升，且略优于emotion-lora模型
	- 微平均：体现了模型在所有样本上的整体表现，与总体准确率一致，相比原模型提升16.77%，优于emotion-lora模型

	## 7. 混淆矩阵分析

	### 7.1 主要混淆情况
	\| 真实标签 \| 最易混淆的预测标签 \| 混淆数量 \| 与原模型对比 \| 与emotion-lora对比 \|
	\|----------\|------------------\|----------\|------------\|-------------------\|
	\| fear \| neutral \| 146 \| -402 \| +37 \|
	\| surprise \| neutral \| 357 \| -404 \| +104 \|
	\| surprise \| joy \| 194 \| +174 \| +24 \|
	\| disgust \| anger \| 85 \| -205 \| -15 \|
	\| anger \| neutral \| 190 \| -700 \| +47 \|
	\| sadness \| neutral \| 256 \| -488 \| +57 \|
	\| joy \| neutral \| 586 \| -924 \| +113 \|

	### 7.2 混淆模式分析
	- 显著改善：模型对非neutral类别的混淆情况大幅减少，不再过度预测为neutral类别
	- 新的混淆：出现了surprise与joy之间的混淆（194条）
	- 与emotion-lora对比：部分类别与neutral的混淆略有增加，但disgust与anger的混淆有所减少
	- 整体趋势：混淆矩阵分布更加均衡，模型能够更好地区分不同情感类别

	## 8. 结果分析与建议

	### 8.1 模型优势
	- 准确率最高：相比原模型和emotion-lora模型，准确率最高，达到70.61%
	- 均衡表现：所有情感类别均有显著提升，特别是在小样本类别上
	- 中性性能保持：neutral类别性能保持在较高水平（F1=79.88%）
	- 资源高效：通过2.7轮次的Lora微调，在保持模型轻量化的同时获得了最佳性能
	- 验证集最优：作为验证集上损失最低的模型，泛化能力更强

	### 8.2 模型不足
	- surprise性能：surprise类别F1分数（46.00%）相比emotion-lora模型略有下降
	- surprise召回率：surprise类别召回率（33.59%）仍有提升空间
	- 部分混淆：surprise与joy、部分类别与neutral之间仍存在一定混淆

	### 8.3 改进建议
	1. surprise优化：针对surprise类别进行专门的数据增强和微调，提高其召回率
	2. 混淆类别优化：针对易混淆的情绪类别（如surprise-joy）进行专门的微调训练
	3. 训练策略调整：考虑在2.7轮次附近进行更多检查点保存，进一步优化模型性能
	4. 类别权重：在损失函数中引入类别权重，进一步改善小样本类别性能
	5. 超参数调整：调整Lora的秩参数或微调学习率，进一步提升性能

	## 9. 结论

	本次评估显示，qwen3-0.6b-+emotion-lora-2.7-no-thinking模型（2.7轮次保存，验证集损失最低）在英文情感分类任务上的总体准确率达到70.61%，相比原模型（53.73%）提升了16.88%，相比emotion-lora模型（68.26%）提升了2.35%。

	2.7轮次Lora微调的主要收益在于：
	- 大幅提高了所有情感类别的F1分数，特别是fear（恐惧）类别提升了45.42%
	- 改善了模型的类别平衡性，不再过度预测为neutral
	- 进一步提升了宏平均F1分数（从31.46%提升至61.95%）
	- 成为验证集上损失最低、性能最佳的模型

	与emotion-lora模型相比，2.7轮次模型在大部分类别上表现更好，特别是在disgust（厌恶）、fear（恐惧）和sadness（悲伤）等小样本类别上有明显提升。

	总体而言，2.7轮次的Lora微调取得了最佳效果，使模型在情感分类任务上的表现更加均衡和准确，是三种模型中性能最好的版本。

	---

	报告生成时间：2026-01-07