Text Generation
Safetensors
conversational
Emotion / README.md
jiangchengchengNLP's picture
Update README.md
c153276 verified
metadata
license: apache-2.0
datasets:
  - jiangchengchengNLP/Enhanced_Emotion_Classification_Dataset
metrics:
  - accuracy
base_model:
  - Qwen/Qwen3-0.6B
pipeline_tag: text-generation

情感分类模型评估报告

1. 报告概述

  • 评估模型:qwen3-0.6b-+emotion-lora-2.7-no-thinking(2.7轮次保存模型,验证集损失最低)
  • 评估时间:2026-01-06
  • 评估数据集:英文情感分类验证集
  • 样本总数:12,993

2. 数据概览

统计项 数值
总样本数 12,993
请求成功数 12,993
JSON解析成功数 12,993
标签有效数 12,993
有效标签比例 100.00%

3. 错误处理统计

错误类型 错误率 错误数量
请求失败 0.00% 0
JSON解析失败 0.00% 0
标签无效 0.00% 0

4. 总体评估指标

指标 数值 与原模型对比(提升/下降) 与emotion-lora对比(提升/下降)
准确率 70.61% +16.88% +2.35%
正确预测数 9,174 +2,193 +305

5. 类别性能指标

5.1 各类别精确率、召回率和F1分数

情感类别 精确率 召回率 F1分数 与原模型对比(F1提升/下降) 与emotion-lora对比(F1提升/下降)
neutral(中性) 75.23% 85.14% 79.88% +11.55% +1.63%
joy(喜悦) 70.07% 68.30% 69.17% +27.89% +1.10%
fear(恐惧) 71.39% 63.67% 67.31% +45.42% +4.54%
sadness(悲伤) 67.86% 60.04% 63.71% +30.34% +3.67%
surprise(惊讶) 72.97% 33.59% 46.00% +32.89% -2.82%
anger(愤怒) 54.23% 58.22% 56.16% +34.74% +1.85%
disgust(厌恶) 52.23% 50.67% 51.44% +30.62% +4.82%

5.2 类别性能分析

  • 表现最佳:neutral(中性)类别表现突出,F1分数达79.88%,在所有模型中表现最好
  • 提升最大:fear(恐惧)类别提升最为显著,F1分数从21.89%提升至67.31%,提高了45.42%
  • 全面进步:所有类别F1分数均有显著提升,相比原模型提升幅度在30-45%之间
  • 召回率改善:除surprise外,其他类别召回率均有提升或保持稳定
  • 与emotion-lora对比:大部分类别F1分数进一步提升,特别是fear、sadness和disgust类别

6. 平均指标

指标 数值 与原模型对比(提升/下降) 与emotion-lora对比(提升/下降)
宏平均精确率 66.28% +15.25% +5.26%
宏平均召回率 59.95% +31.59% +0.52%
宏平均F1分数 61.95% +30.49% +2.11%
微平均精确率 70.61% +16.77% +2.34%
微平均召回率 70.61% +16.77% +2.34%
微平均F1分数 70.61% +16.77% +2.34%
  • 宏平均:体现了模型在各类别上的平均表现,相比原模型有巨大提升,且略优于emotion-lora模型
  • 微平均:体现了模型在所有样本上的整体表现,与总体准确率一致,相比原模型提升16.77%,优于emotion-lora模型

7. 混淆矩阵分析

7.1 主要混淆情况

真实标签 最易混淆的预测标签 混淆数量 与原模型对比 与emotion-lora对比
fear neutral 146 -402 +37
surprise neutral 357 -404 +104
surprise joy 194 +174 +24
disgust anger 85 -205 -15
anger neutral 190 -700 +47
sadness neutral 256 -488 +57
joy neutral 586 -924 +113

7.2 混淆模式分析

  • 显著改善:模型对非neutral类别的混淆情况大幅减少,不再过度预测为neutral类别
  • 新的混淆:出现了surprise与joy之间的混淆(194条)
  • 与emotion-lora对比:部分类别与neutral的混淆略有增加,但disgust与anger的混淆有所减少
  • 整体趋势:混淆矩阵分布更加均衡,模型能够更好地区分不同情感类别

8. 结果分析与建议

8.1 模型优势

  • 准确率最高:相比原模型和emotion-lora模型,准确率最高,达到70.61%
  • 均衡表现:所有情感类别均有显著提升,特别是在小样本类别上
  • 中性性能保持:neutral类别性能保持在较高水平(F1=79.88%)
  • 资源高效:通过2.7轮次的Lora微调,在保持模型轻量化的同时获得了最佳性能
  • 验证集最优:作为验证集上损失最低的模型,泛化能力更强

8.2 模型不足

  • surprise性能:surprise类别F1分数(46.00%)相比emotion-lora模型略有下降
  • surprise召回率:surprise类别召回率(33.59%)仍有提升空间
  • 部分混淆:surprise与joy、部分类别与neutral之间仍存在一定混淆

8.3 改进建议

  1. surprise优化:针对surprise类别进行专门的数据增强和微调,提高其召回率
  2. 混淆类别优化:针对易混淆的情绪类别(如surprise-joy)进行专门的微调训练
  3. 训练策略调整:考虑在2.7轮次附近进行更多检查点保存,进一步优化模型性能
  4. 类别权重:在损失函数中引入类别权重,进一步改善小样本类别性能
  5. 超参数调整:调整Lora的秩参数或微调学习率,进一步提升性能

9. 结论

本次评估显示,qwen3-0.6b-+emotion-lora-2.7-no-thinking模型(2.7轮次保存,验证集损失最低)在英文情感分类任务上的总体准确率达到70.61%,相比原模型(53.73%)提升了16.88%,相比emotion-lora模型(68.26%)提升了2.35%。

2.7轮次Lora微调的主要收益在于:

  • 大幅提高了所有情感类别的F1分数,特别是fear(恐惧)类别提升了45.42%
  • 改善了模型的类别平衡性,不再过度预测为neutral
  • 进一步提升了宏平均F1分数(从31.46%提升至61.95%)
  • 成为验证集上损失最低、性能最佳的模型

与emotion-lora模型相比,2.7轮次模型在大部分类别上表现更好,特别是在disgust(厌恶)、fear(恐惧)和sadness(悲伤)等小样本类别上有明显提升。

总体而言,2.7轮次的Lora微调取得了最佳效果,使模型在情感分类任务上的表现更加均衡和准确,是三种模型中性能最好的版本。


报告生成时间:2026-01-07