File size: 6,766 Bytes
cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 cb1aa09 c153276 | 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125 126 127 128 129 130 | ---
license: apache-2.0
datasets:
- jiangchengchengNLP/Enhanced_Emotion_Classification_Dataset
metrics:
- accuracy
base_model:
- Qwen/Qwen3-0.6B
pipeline_tag: text-generation
---
# 情感分类模型评估报告
## 1. 报告概述
- **评估模型**:qwen3-0.6b-+emotion-lora-2.7-no-thinking(2.7轮次保存模型,验证集损失最低)
- **评估时间**:2026-01-06
- **评估数据集**:英文情感分类验证集
- **样本总数**:12,993
## 2. 数据概览
| 统计项 | 数值 |
|--------|------|
| 总样本数 | 12,993 |
| 请求成功数 | 12,993 |
| JSON解析成功数 | 12,993 |
| 标签有效数 | 12,993 |
| 有效标签比例 | 100.00% |
## 3. 错误处理统计
| 错误类型 | 错误率 | 错误数量 |
|----------|--------|----------|
| 请求失败 | 0.00% | 0 |
| JSON解析失败 | 0.00% | 0 |
| 标签无效 | 0.00% | 0 |
## 4. 总体评估指标
| 指标 | 数值 | 与原模型对比(提升/下降) | 与emotion-lora对比(提升/下降) |
|------|------|--------------------------|--------------------------------|
| 准确率 | 70.61% | **+16.88%** | **+2.35%** |
| 正确预测数 | 9,174 | **+2,193** | **+305** |
## 5. 类别性能指标
### 5.1 各类别精确率、召回率和F1分数
| 情感类别 | 精确率 | 召回率 | F1分数 | 与原模型对比(F1提升/下降) | 与emotion-lora对比(F1提升/下降) |
|----------|--------|--------|--------|---------------------------|-----------------------------------|
| neutral(中性) | 75.23% | 85.14% | 79.88% | **+11.55%** | **+1.63%** |
| joy(喜悦) | 70.07% | 68.30% | 69.17% | **+27.89%** | **+1.10%** |
| fear(恐惧) | 71.39% | 63.67% | 67.31% | **+45.42%** | **+4.54%** |
| sadness(悲伤) | 67.86% | 60.04% | 63.71% | **+30.34%** | **+3.67%** |
| surprise(惊讶) | 72.97% | 33.59% | 46.00% | **+32.89%** | **-2.82%** |
| anger(愤怒) | 54.23% | 58.22% | 56.16% | **+34.74%** | **+1.85%** |
| disgust(厌恶) | 52.23% | 50.67% | 51.44% | **+30.62%** | **+4.82%** |
### 5.2 类别性能分析
- **表现最佳**:neutral(中性)类别表现突出,F1分数达79.88%,在所有模型中表现最好
- **提升最大**:fear(恐惧)类别提升最为显著,F1分数从21.89%提升至67.31%,提高了45.42%
- **全面进步**:所有类别F1分数均有显著提升,相比原模型提升幅度在30-45%之间
- **召回率改善**:除surprise外,其他类别召回率均有提升或保持稳定
- **与emotion-lora对比**:大部分类别F1分数进一步提升,特别是fear、sadness和disgust类别
## 6. 平均指标
| 指标 | 数值 | 与原模型对比(提升/下降) | 与emotion-lora对比(提升/下降) |
|------|------|--------------------------|--------------------------------|
| 宏平均精确率 | 66.28% | **+15.25%** | **+5.26%** |
| 宏平均召回率 | 59.95% | **+31.59%** | **+0.52%** |
| 宏平均F1分数 | 61.95% | **+30.49%** | **+2.11%** |
| 微平均精确率 | 70.61% | **+16.77%** | **+2.34%** |
| 微平均召回率 | 70.61% | **+16.77%** | **+2.34%** |
| 微平均F1分数 | 70.61% | **+16.77%** | **+2.34%** |
- **宏平均**:体现了模型在各类别上的平均表现,相比原模型有巨大提升,且略优于emotion-lora模型
- **微平均**:体现了模型在所有样本上的整体表现,与总体准确率一致,相比原模型提升16.77%,优于emotion-lora模型
## 7. 混淆矩阵分析
### 7.1 主要混淆情况
| 真实标签 | 最易混淆的预测标签 | 混淆数量 | 与原模型对比 | 与emotion-lora对比 |
|----------|------------------|----------|------------|-------------------|
| fear | neutral | 146 | **-402** | **+37** |
| surprise | neutral | 357 | **-404** | **+104** |
| surprise | joy | 194 | **+174** | **+24** |
| disgust | anger | 85 | **-205** | **-15** |
| anger | neutral | 190 | **-700** | **+47** |
| sadness | neutral | 256 | **-488** | **+57** |
| joy | neutral | 586 | **-924** | **+113** |
### 7.2 混淆模式分析
- **显著改善**:模型对非neutral类别的混淆情况大幅减少,不再过度预测为neutral类别
- **新的混淆**:出现了surprise与joy之间的混淆(194条)
- **与emotion-lora对比**:部分类别与neutral的混淆略有增加,但disgust与anger的混淆有所减少
- **整体趋势**:混淆矩阵分布更加均衡,模型能够更好地区分不同情感类别
## 8. 结果分析与建议
### 8.1 模型优势
- **准确率最高**:相比原模型和emotion-lora模型,准确率最高,达到70.61%
- **均衡表现**:所有情感类别均有显著提升,特别是在小样本类别上
- **中性性能保持**:neutral类别性能保持在较高水平(F1=79.88%)
- **资源高效**:通过2.7轮次的Lora微调,在保持模型轻量化的同时获得了最佳性能
- **验证集最优**:作为验证集上损失最低的模型,泛化能力更强
### 8.2 模型不足
- **surprise性能**:surprise类别F1分数(46.00%)相比emotion-lora模型略有下降
- **surprise召回率**:surprise类别召回率(33.59%)仍有提升空间
- **部分混淆**:surprise与joy、部分类别与neutral之间仍存在一定混淆
### 8.3 改进建议
1. **surprise优化**:针对surprise类别进行专门的数据增强和微调,提高其召回率
2. **混淆类别优化**:针对易混淆的情绪类别(如surprise-joy)进行专门的微调训练
3. **训练策略调整**:考虑在2.7轮次附近进行更多检查点保存,进一步优化模型性能
4. **类别权重**:在损失函数中引入类别权重,进一步改善小样本类别性能
5. **超参数调整**:调整Lora的秩参数或微调学习率,进一步提升性能
## 9. 结论
本次评估显示,qwen3-0.6b-+emotion-lora-2.7-no-thinking模型(2.7轮次保存,验证集损失最低)在英文情感分类任务上的总体准确率达到70.61%,相比原模型(53.73%)提升了16.88%,相比emotion-lora模型(68.26%)提升了2.35%。
2.7轮次Lora微调的主要收益在于:
- 大幅提高了所有情感类别的F1分数,特别是fear(恐惧)类别提升了45.42%
- 改善了模型的类别平衡性,不再过度预测为neutral
- 进一步提升了宏平均F1分数(从31.46%提升至61.95%)
- 成为验证集上损失最低、性能最佳的模型
与emotion-lora模型相比,2.7轮次模型在大部分类别上表现更好,特别是在disgust(厌恶)、fear(恐惧)和sadness(悲伤)等小样本类别上有明显提升。
总体而言,2.7轮次的Lora微调取得了最佳效果,使模型在情感分类任务上的表现更加均衡和准确,是三种模型中性能最好的版本。
---
*报告生成时间:2026-01-07* |