Update README.md
Browse files
README.md
CHANGED
|
@@ -11,7 +11,7 @@ pipeline_tag: text-generation
|
|
| 11 |
# 情感分类模型评估报告
|
| 12 |
|
| 13 |
## 1. 报告概述
|
| 14 |
-
- **评估模型**:qwen3-0.
|
| 15 |
- **评估时间**:2026-01-06
|
| 16 |
- **评估数据集**:英文情感分类验证集
|
| 17 |
- **样本总数**:12,993
|
|
@@ -22,106 +22,109 @@ pipeline_tag: text-generation
|
|
| 22 |
| 总样本数 | 12,993 |
|
| 23 |
| 请求成功数 | 12,993 |
|
| 24 |
| JSON解析成功数 | 12,993 |
|
| 25 |
-
| 标签有效数 | 12,
|
| 26 |
-
| 有效标签比例 |
|
| 27 |
|
| 28 |
## 3. 错误处理统计
|
| 29 |
| 错误类型 | 错误率 | 错误数量 |
|
| 30 |
|----------|--------|----------|
|
| 31 |
| 请求失败 | 0.00% | 0 |
|
| 32 |
| JSON解析失败 | 0.00% | 0 |
|
| 33 |
-
| 标签无效 | 0.
|
| 34 |
|
| 35 |
## 4. 总体评估指标
|
| 36 |
-
| 指标 | 数值 | 与原模型对比(提升/下降) |
|
| 37 |
-
|------|------|--------------------------|
|
| 38 |
-
| 准确率 |
|
| 39 |
-
| 正确预测数 |
|
| 40 |
|
| 41 |
## 5. 类别性能指标
|
| 42 |
|
| 43 |
### 5.1 各类别精确率、召回率和F1分数
|
| 44 |
-
| 情感类别 | 精确率 | 召回率 | F1分数 | 与原模型对比(F1提升/下降) |
|
| 45 |
-
|----------|--------|--------|--------|---------------------------|
|
| 46 |
-
| neutral(中性) |
|
| 47 |
-
| joy(喜悦) |
|
| 48 |
-
| fear(恐惧) |
|
| 49 |
-
| sadness(悲伤) |
|
| 50 |
-
| surprise(惊讶) |
|
| 51 |
-
| anger(愤怒) |
|
| 52 |
-
| disgust(厌恶) | 52.
|
| 53 |
|
| 54 |
### 5.2 类别性能分析
|
| 55 |
-
- **表现最佳**:neutral(中性)类别表现
|
| 56 |
-
- **提升最大**:fear(恐惧)类别提升最为显著,F1分数从21.89%提升至
|
| 57 |
-
- **全面进步**:所有类别F1分数均有显著提升,
|
| 58 |
-
- **召回率改善**:除
|
|
|
|
| 59 |
|
| 60 |
## 6. 平均指标
|
| 61 |
-
| 指标 | 数值 | 与原模型对比(提升/下降) |
|
| 62 |
-
|------|------|--------------------------|
|
| 63 |
-
| 宏平均精确率 |
|
| 64 |
-
| 宏平均召回率 | 59.
|
| 65 |
-
| 宏平均F1分数 |
|
| 66 |
-
| 微平均精确率 |
|
| 67 |
-
| 微平均召回率 |
|
| 68 |
-
| 微平均F1分数 |
|
| 69 |
-
|
| 70 |
-
- **宏平均**:体现了模型在各类别上的平均表现,相比原模型有巨大提升,
|
| 71 |
-
- **微平均**:体现了模型在所有样本上的整体表现,与总体准确率一致,提升
|
| 72 |
|
| 73 |
## 7. 混淆矩阵分析
|
| 74 |
|
| 75 |
### 7.1 主要混淆情况
|
| 76 |
-
| 真实标签 | 最易混淆的预测标签 | 混淆数量 | 与原模型对比 |
|
| 77 |
-
|----------|------------------|----------|------------|
|
| 78 |
-
| fear | neutral |
|
| 79 |
-
| surprise | neutral |
|
| 80 |
-
|
|
| 81 |
-
| anger |
|
| 82 |
-
|
|
| 83 |
-
|
|
|
|
|
| 84 |
|
| 85 |
### 7.2 混淆模式分析
|
| 86 |
- **显著改善**:模型对非neutral类别的混淆情况大幅减少,不再过度预测为neutral类别
|
| 87 |
-
- **新的混淆**:出现了
|
|
|
|
| 88 |
- **整体趋势**:混淆矩阵分布更加均衡,模型能够更好地区分不同情感类别
|
| 89 |
|
| 90 |
## 8. 结果分析与建议
|
| 91 |
|
| 92 |
### 8.1 模型优势
|
| 93 |
-
- **
|
| 94 |
-
- **均衡表现**:所有情感类别均有显著提升,
|
| 95 |
-
- **
|
| 96 |
-
- **资源高效**:通过Lora微调,在保持模型轻量化的同时获得了
|
|
|
|
| 97 |
|
| 98 |
### 8.2 模型不足
|
| 99 |
-
- **
|
| 100 |
-
- **
|
| 101 |
-
- **
|
| 102 |
|
| 103 |
### 8.3 改进建议
|
| 104 |
-
1. **
|
| 105 |
-
2. **类别
|
| 106 |
-
3. **
|
| 107 |
-
4. **
|
| 108 |
-
5. **
|
| 109 |
|
| 110 |
## 9. 结论
|
| 111 |
|
| 112 |
-
本次评估显示,qwen3-0.
|
| 113 |
|
| 114 |
-
Lora微调的主要收益在于:
|
| 115 |
-
- 大幅提高了
|
| 116 |
- 改善了模型的类别平衡性,不再过度预测为neutral
|
| 117 |
-
-
|
|
|
|
| 118 |
|
| 119 |
-
|
| 120 |
-
- neutral类别的召回率略有下降(从91.92%降至78.20%)
|
| 121 |
-
- 出现了新的类别混淆模式(如anger-disgust)
|
| 122 |
|
| 123 |
-
总体而言,Lora微调取得了
|
| 124 |
|
| 125 |
---
|
| 126 |
|
| 127 |
-
*报告生成时间:2026-01-
|
|
|
|
| 11 |
# 情感分类模型评估报告
|
| 12 |
|
| 13 |
## 1. 报告概述
|
| 14 |
+
- **评估模型**:qwen3-0.6b-+emotion-lora-2.7-no-thinking(2.7轮次保存模型,验证集损失最低)
|
| 15 |
- **评估时间**:2026-01-06
|
| 16 |
- **评估数据集**:英文情感分类验证集
|
| 17 |
- **样本总数**:12,993
|
|
|
|
| 22 |
| 总样本数 | 12,993 |
|
| 23 |
| 请求成功数 | 12,993 |
|
| 24 |
| JSON解析成功数 | 12,993 |
|
| 25 |
+
| 标签有效数 | 12,993 |
|
| 26 |
+
| 有效标签比例 | 100.00% |
|
| 27 |
|
| 28 |
## 3. 错误处理统计
|
| 29 |
| 错误类型 | 错误率 | 错误数量 |
|
| 30 |
|----------|--------|----------|
|
| 31 |
| 请求失败 | 0.00% | 0 |
|
| 32 |
| JSON解析失败 | 0.00% | 0 |
|
| 33 |
+
| 标签无效 | 0.00% | 0 |
|
| 34 |
|
| 35 |
## 4. 总体评估指标
|
| 36 |
+
| 指标 | 数值 | 与原模型对比(提升/下降) | 与emotion-lora对比(提升/下降) |
|
| 37 |
+
|------|------|--------------------------|--------------------------------|
|
| 38 |
+
| 准确率 | 70.61% | **+16.88%** | **+2.35%** |
|
| 39 |
+
| 正确预测数 | 9,174 | **+2,193** | **+305** |
|
| 40 |
|
| 41 |
## 5. 类别性能指标
|
| 42 |
|
| 43 |
### 5.1 各类别精确率、召回率和F1分数
|
| 44 |
+
| 情感类别 | 精确率 | 召回率 | F1分数 | 与原模型对比(F1提升/下降) | 与emotion-lora对比(F1提升/下降) |
|
| 45 |
+
|----------|--------|--------|--------|---------------------------|-----------------------------------|
|
| 46 |
+
| neutral(中性) | 75.23% | 85.14% | 79.88% | **+11.55%** | **+1.63%** |
|
| 47 |
+
| joy(喜悦) | 70.07% | 68.30% | 69.17% | **+27.89%** | **+1.10%** |
|
| 48 |
+
| fear(恐惧) | 71.39% | 63.67% | 67.31% | **+45.42%** | **+4.54%** |
|
| 49 |
+
| sadness(悲伤) | 67.86% | 60.04% | 63.71% | **+30.34%** | **+3.67%** |
|
| 50 |
+
| surprise(惊讶) | 72.97% | 33.59% | 46.00% | **+32.89%** | **-2.82%** |
|
| 51 |
+
| anger(愤怒) | 54.23% | 58.22% | 56.16% | **+34.74%** | **+1.85%** |
|
| 52 |
+
| disgust(厌恶) | 52.23% | 50.67% | 51.44% | **+30.62%** | **+4.82%** |
|
| 53 |
|
| 54 |
### 5.2 类别性能分析
|
| 55 |
+
- **表现最佳**:neutral(中性)类别表现突出,F1分数达79.88%,在所有模型中表现最好
|
| 56 |
+
- **提升最大**:fear(恐惧)类别提升最为显著,F1分数从21.89%提升至67.31%,提高了45.42%
|
| 57 |
+
- **全面进步**:所有类别F1分数均有显著提升,相比原模型提升幅度在30-45%之间
|
| 58 |
+
- **召回率改善**:除surprise外,其他类别召回率均有提升或保持稳定
|
| 59 |
+
- **与emotion-lora对比**:大部分类别F1分数进一步提升,特别是fear、sadness和disgust类别
|
| 60 |
|
| 61 |
## 6. 平均指标
|
| 62 |
+
| 指标 | 数值 | 与原模型对比(提升/下降) | 与emotion-lora对比(提升/下降) |
|
| 63 |
+
|------|------|--------------------------|--------------------------------|
|
| 64 |
+
| 宏平均精确率 | 66.28% | **+15.25%** | **+5.26%** |
|
| 65 |
+
| 宏平均召回率 | 59.95% | **+31.59%** | **+0.52%** |
|
| 66 |
+
| 宏平均F1分数 | 61.95% | **+30.49%** | **+2.11%** |
|
| 67 |
+
| 微平均精确率 | 70.61% | **+16.77%** | **+2.34%** |
|
| 68 |
+
| 微平均召回率 | 70.61% | **+16.77%** | **+2.34%** |
|
| 69 |
+
| 微平均F1分数 | 70.61% | **+16.77%** | **+2.34%** |
|
| 70 |
+
|
| 71 |
+
- **宏平均**:体现了模型在各类别上的平均表现,相比原模型有巨大提升,且略优于emotion-lora模型
|
| 72 |
+
- **微平均**:体现了模型在所有样本上的整体表现,与总体准确率一致,相比原模型提升16.77%,优于emotion-lora模型
|
| 73 |
|
| 74 |
## 7. 混淆矩阵分析
|
| 75 |
|
| 76 |
### 7.1 主要混淆情况
|
| 77 |
+
| 真实标签 | 最易混淆的预测标签 | 混淆数量 | 与原模型对比 | 与emotion-lora对比 |
|
| 78 |
+
|----------|------------------|----------|------------|-------------------|
|
| 79 |
+
| fear | neutral | 146 | **-402** | **+37** |
|
| 80 |
+
| surprise | neutral | 357 | **-404** | **+104** |
|
| 81 |
+
| surprise | joy | 194 | **+174** | **+24** |
|
| 82 |
+
| disgust | anger | 85 | **-205** | **-15** |
|
| 83 |
+
| anger | neutral | 190 | **-700** | **+47** |
|
| 84 |
+
| sadness | neutral | 256 | **-488** | **+57** |
|
| 85 |
+
| joy | neutral | 586 | **-924** | **+113** |
|
| 86 |
|
| 87 |
### 7.2 混淆模式分析
|
| 88 |
- **显著改善**:模型对非neutral类别的混淆情况大幅减少,不再过度预测为neutral类别
|
| 89 |
+
- **新的混淆**:出现了surprise与joy之间的混淆(194条)
|
| 90 |
+
- **与emotion-lora对比**:部分类别与neutral的混淆略有增加,但disgust与anger的混淆有所减少
|
| 91 |
- **整体趋势**:混淆矩阵分布更加均衡,模型能够更好地区分不同情感类别
|
| 92 |
|
| 93 |
## 8. 结果分析与建议
|
| 94 |
|
| 95 |
### 8.1 模型优势
|
| 96 |
+
- **准确率最高**:相比原模型和emotion-lora模型,准确率最高,达到70.61%
|
| 97 |
+
- **均衡表现**:所有情感类别均有显著提升,特别是在小样本类别上
|
| 98 |
+
- **中性性能保持**:neutral类别性能保持在较高水平(F1=79.88%)
|
| 99 |
+
- **资源高效**:通过2.7轮次的Lora微调,在保持模型轻量化的同时获得了最佳性能
|
| 100 |
+
- **验证集最优**:作为验证集上损失最低的模型,泛化能力更强
|
| 101 |
|
| 102 |
### 8.2 模型不足
|
| 103 |
+
- **surprise性能**:surprise类别F1分数(46.00%)相比emotion-lora模型略有下降
|
| 104 |
+
- **surprise召回率**:surprise类别召回率(33.59%)仍有提升空间
|
| 105 |
+
- **部分混淆**:surprise与joy、部分类别与neutral之间仍存在一定混淆
|
| 106 |
|
| 107 |
### 8.3 改进建议
|
| 108 |
+
1. **surprise优化**:针对surprise类别进行专门的数据增强和微调,提高其召回率
|
| 109 |
+
2. **混淆类别优化**:针对易混淆的情绪类别(如surprise-joy)进行专门的微调训练
|
| 110 |
+
3. **训练策略调整**:考虑在2.7轮次附近进行更多检查点保存,进一步优化模型性能
|
| 111 |
+
4. **类别权重**:在损失函数中引入类别权重,进一步改善小样本类别性能
|
| 112 |
+
5. **超参数调整**:调整Lora的秩参数或微调学习率,进一步提升性能
|
| 113 |
|
| 114 |
## 9. 结论
|
| 115 |
|
| 116 |
+
本次评估显示,qwen3-0.6b-+emotion-lora-2.7-no-thinking模型(2.7轮次保存,验证集损失最低)在英文情感分类任务上的总体准确率达到70.61%,相比原模型(53.73%)提升了16.88%,相比emotion-lora模型(68.26%)提升了2.35%。
|
| 117 |
|
| 118 |
+
2.7轮次Lora微调的主要收益在于:
|
| 119 |
+
- 大幅提高了所有情感类别的F1分数,特别是fear(恐惧)类别提升了45.42%
|
| 120 |
- 改善了模型的类别平衡性,不再过度预测为neutral
|
| 121 |
+
- 进一步提升了宏平均F1分数(从31.46%提升至61.95%)
|
| 122 |
+
- 成为验证集上损失最低、性能最佳的模型
|
| 123 |
|
| 124 |
+
与emotion-lora模型相比,2.7轮次模型在大部分类别上表现更好,特别是在disgust(厌恶)、fear(恐惧)和sadness(悲伤)等小样本类别上有明显提升。
|
|
|
|
|
|
|
| 125 |
|
| 126 |
+
总体而言,2.7轮次的Lora微调取得了最佳效果,使模型在情感分类任务上的表现更加均衡和准确,是三种模型中性能最好的版本。
|
| 127 |
|
| 128 |
---
|
| 129 |
|
| 130 |
+
*报告生成时间:2026-01-07*
|