File size: 6,766 Bytes

---
license: apache-2.0
datasets:
- jiangchengchengNLP/Enhanced_Emotion_Classification_Dataset
metrics:
- accuracy
base_model:
- Qwen/Qwen3-0.6B
pipeline_tag: text-generation
---
# 情感分类模型评估报告

## 1. 报告概述
- **评估模型**：qwen3-0.6b-+emotion-lora-2.7-no-thinking（2.7轮次保存模型，验证集损失最低）
- **评估时间**：2026-01-06
- **评估数据集**：英文情感分类验证集
- **样本总数**：12,993

## 2. 数据概览
| 统计项 | 数值 |
|--------|------|
| 总样本数 | 12,993 |
| 请求成功数 | 12,993 |
| JSON解析成功数 | 12,993 |
| 标签有效数 | 12,993 |
| 有效标签比例 | 100.00% |

## 3. 错误处理统计
| 错误类型 | 错误率 | 错误数量 |
|----------|--------|----------|
| 请求失败 | 0.00% | 0 |
| JSON解析失败 | 0.00% | 0 |
| 标签无效 | 0.00% | 0 |

## 4. 总体评估指标
| 指标 | 数值 | 与原模型对比（提升/下降） | 与emotion-lora对比（提升/下降） |
|------|------|--------------------------|--------------------------------|
| 准确率 | 70.61% | **+16.88%** | **+2.35%** |
| 正确预测数 | 9,174 | **+2,193** | **+305** |

## 5. 类别性能指标

### 5.1 各类别精确率、召回率和F1分数
| 情感类别 | 精确率 | 召回率 | F1分数 | 与原模型对比（F1提升/下降） | 与emotion-lora对比（F1提升/下降） |
|----------|--------|--------|--------|---------------------------|-----------------------------------|
| neutral（中性） | 75.23% | 85.14% | 79.88% | **+11.55%** | **+1.63%** |
| joy（喜悦） | 70.07% | 68.30% | 69.17% | **+27.89%** | **+1.10%** |
| fear（恐惧） | 71.39% | 63.67% | 67.31% | **+45.42%** | **+4.54%** |
| sadness（悲伤） | 67.86% | 60.04% | 63.71% | **+30.34%** | **+3.67%** |
| surprise（惊讶） | 72.97% | 33.59% | 46.00% | **+32.89%** | **-2.82%** |
| anger（愤怒） | 54.23% | 58.22% | 56.16% | **+34.74%** | **+1.85%** |
| disgust（厌恶） | 52.23% | 50.67% | 51.44% | **+30.62%** | **+4.82%** |

### 5.2 类别性能分析
- **表现最佳**：neutral（中性）类别表现突出，F1分数达79.88%，在所有模型中表现最好
- **提升最大**：fear（恐惧）类别提升最为显著，F1分数从21.89%提升至67.31%，提高了45.42%
- **全面进步**：所有类别F1分数均有显著提升，相比原模型提升幅度在30-45%之间
- **召回率改善**：除surprise外，其他类别召回率均有提升或保持稳定
- **与emotion-lora对比**：大部分类别F1分数进一步提升，特别是fear、sadness和disgust类别

## 6. 平均指标
| 指标 | 数值 | 与原模型对比（提升/下降） | 与emotion-lora对比（提升/下降） |
|------|------|--------------------------|--------------------------------|
| 宏平均精确率 | 66.28% | **+15.25%** | **+5.26%** |
| 宏平均召回率 | 59.95% | **+31.59%** | **+0.52%** |
| 宏平均F1分数 | 61.95% | **+30.49%** | **+2.11%** |
| 微平均精确率 | 70.61% | **+16.77%** | **+2.34%** |
| 微平均召回率 | 70.61% | **+16.77%** | **+2.34%** |
| 微平均F1分数 | 70.61% | **+16.77%** | **+2.34%** |

- **宏平均**：体现了模型在各类别上的平均表现，相比原模型有巨大提升，且略优于emotion-lora模型
- **微平均**：体现了模型在所有样本上的整体表现，与总体准确率一致，相比原模型提升16.77%，优于emotion-lora模型

## 7. 混淆矩阵分析

### 7.1 主要混淆情况
| 真实标签 | 最易混淆的预测标签 | 混淆数量 | 与原模型对比 | 与emotion-lora对比 |
|----------|------------------|----------|------------|-------------------|
| fear | neutral | 146 | **-402** | **+37** |
| surprise | neutral | 357 | **-404** | **+104** |
| surprise | joy | 194 | **+174** | **+24** |
| disgust | anger | 85 | **-205** | **-15** |
| anger | neutral | 190 | **-700** | **+47** |
| sadness | neutral | 256 | **-488** | **+57** |
| joy | neutral | 586 | **-924** | **+113** |

### 7.2 混淆模式分析
- **显著改善**：模型对非neutral类别的混淆情况大幅减少，不再过度预测为neutral类别
- **新的混淆**：出现了surprise与joy之间的混淆（194条）
- **与emotion-lora对比**：部分类别与neutral的混淆略有增加，但disgust与anger的混淆有所减少
- **整体趋势**：混淆矩阵分布更加均衡，模型能够更好地区分不同情感类别

## 8. 结果分析与建议

### 8.1 模型优势
- **准确率最高**：相比原模型和emotion-lora模型，准确率最高，达到70.61%
- **均衡表现**：所有情感类别均有显著提升，特别是在小样本类别上
- **中性性能保持**：neutral类别性能保持在较高水平（F1=79.88%）
- **资源高效**：通过2.7轮次的Lora微调，在保持模型轻量化的同时获得了最佳性能
- **验证集最优**：作为验证集上损失最低的模型，泛化能力更强

### 8.2 模型不足
- **surprise性能**：surprise类别F1分数（46.00%）相比emotion-lora模型略有下降
- **surprise召回率**：surprise类别召回率（33.59%）仍有提升空间
- **部分混淆**：surprise与joy、部分类别与neutral之间仍存在一定混淆

### 8.3 改进建议
1. **surprise优化**：针对surprise类别进行专门的数据增强和微调，提高其召回率
2. **混淆类别优化**：针对易混淆的情绪类别（如surprise-joy）进行专门的微调训练
3. **训练策略调整**：考虑在2.7轮次附近进行更多检查点保存，进一步优化模型性能
4. **类别权重**：在损失函数中引入类别权重，进一步改善小样本类别性能
5. **超参数调整**：调整Lora的秩参数或微调学习率，进一步提升性能

## 9. 结论

本次评估显示，qwen3-0.6b-+emotion-lora-2.7-no-thinking模型（2.7轮次保存，验证集损失最低）在英文情感分类任务上的总体准确率达到70.61%，相比原模型（53.73%）提升了16.88%，相比emotion-lora模型（68.26%）提升了2.35%。

2.7轮次Lora微调的主要收益在于：
- 大幅提高了所有情感类别的F1分数，特别是fear（恐惧）类别提升了45.42%
- 改善了模型的类别平衡性，不再过度预测为neutral
- 进一步提升了宏平均F1分数（从31.46%提升至61.95%）
- 成为验证集上损失最低、性能最佳的模型

与emotion-lora模型相比，2.7轮次模型在大部分类别上表现更好，特别是在disgust（厌恶）、fear（恐惧）和sadness（悲伤）等小样本类别上有明显提升。

总体而言，2.7轮次的Lora微调取得了最佳效果，使模型在情感分类任务上的表现更加均衡和准确，是三种模型中性能最好的版本。

---

*报告生成时间：2026-01-07*