Text Generation
Safetensors
conversational
jiangchengchengNLP commited on
Commit
c153276
·
verified ·
1 Parent(s): cb1aa09

Update README.md

Browse files
Files changed (1) hide show
  1. README.md +65 -62
README.md CHANGED
@@ -11,7 +11,7 @@ pipeline_tag: text-generation
11
  # 情感分类模型评估报告
12
 
13
  ## 1. 报告概述
14
- - **评估模型**:qwen3-0.6B+emotion-lora-no-thinking
15
  - **评估时间**:2026-01-06
16
  - **评估数据集**:英文情感分类验证集
17
  - **样本总数**:12,993
@@ -22,106 +22,109 @@ pipeline_tag: text-generation
22
  | 总样本数 | 12,993 |
23
  | 请求成功数 | 12,993 |
24
  | JSON解析成功数 | 12,993 |
25
- | 标签有效数 | 12,992 |
26
- | 有效标签比例 | 99.99% |
27
 
28
  ## 3. 错误处理统计
29
  | 错误类型 | 错误率 | 错误数量 |
30
  |----------|--------|----------|
31
  | 请求失败 | 0.00% | 0 |
32
  | JSON解析失败 | 0.00% | 0 |
33
- | 标签无效 | 0.01% | 1 |
34
 
35
  ## 4. 总体评估指标
36
- | 指标 | 数值 | 与原模型对比(提升/下降) |
37
- |------|------|--------------------------|
38
- | 准确率 | 68.26% | **+14.53%** |
39
- | 正确预测数 | 8,869 | **+1,888** |
40
 
41
  ## 5. 类别性能指标
42
 
43
  ### 5.1 各类别精确率、召回率和F1分数
44
- | 情感类别 | 精确率 | 召回率 | F1分数 | 与原模型对比(F1提升/下降) |
45
- |----------|--------|--------|--------|---------------------------|
46
- | neutral(中性) | 78.30% | 78.20% | 78.25% | **+9.92%** |
47
- | joy(喜悦) | 65.25% | 71.16% | 68.08% | **+26.80%** |
48
- | fear(恐惧) | 64.94% | 60.75% | 62.77% | **+40.88%** |
49
- | sadness(悲伤) | 57.11% | 63.29% | 60.04% | **+26.67%** |
50
- | surprise(惊讶) | 59.02% | 41.63% | 48.82% | **+35.71%** |
51
- | anger(愤怒) | 50.44% | 58.84% | 54.31% | **+32.89%** |
52
- | disgust(厌恶) | 52.12% | 42.18% | 46.62% | **+25.80%** |
53
 
54
  ### 5.2 类别性能分析
55
- - **表现最佳**:neutral(中性)类别表现仍最突出,F1分数达78.25%,相比原模型提升了9.92%
56
- - **提升最大**:fear(恐惧)类别提升最为显著,F1分数从21.89%提升至62.77%,提高了40.88%
57
- - **全面进步**:所有类别F1分数均有显著提升,最差的surprise类别也从13.11%提升至48.82%
58
- - **召回率改善**:除neutral外,其他类别召回率均有大幅提升(从个位数/十几提升至40-70%)
 
59
 
60
  ## 6. 平均指标
61
- | 指标 | 数值 | 与原模型对比(提升/下降) |
62
- |------|------|--------------------------|
63
- | 宏平均精确率 | 61.02% | **+9.99%** |
64
- | 宏平均召回率 | 59.43% | **+31.07%** |
65
- | 宏平均F1分数 | 59.84% | **+28.38%** |
66
- | 微平均精确率 | 68.27% | **+14.43%** |
67
- | 微平均召回率 | 68.27% | **+14.43%** |
68
- | 微平均F1分数 | 68.27% | **+14.43%** |
69
-
70
- - **宏平均**:体现了模型在各类别上的平均表现,相比原模型有巨大提升,说明Lora微调有效改善了模型对所有类别的识别能力
71
- - **微平均**:体现了模型在所有样本上的整体表现,与总体准确率一致,提升明显
72
 
73
  ## 7. 混淆矩阵分析
74
 
75
  ### 7.1 主要混淆情况
76
- | 真实标签 | 最易混淆的预测标签 | 混淆数量 | 与原模型对比 |
77
- |----------|------------------|----------|------------|
78
- | fear | neutral | 109 | **-439** |
79
- | surprise | neutral | 253 | **-508** |
80
- | disgust | anger | 100 | **大幅减少** |
81
- | anger | neutral | 143 | **大幅减少** |
82
- | sadness | neutral | 199 | **-545** |
83
- | joy | neutral | 473 | **-1,037** |
 
84
 
85
  ### 7.2 混淆模式分析
86
  - **显著改善**:模型对非neutral类别的混淆情况大幅减少,不再过度预测为neutral类别
87
- - **新的混淆**:出现了新的混淆模式,如disgustanger之间的混淆(100条)
 
88
  - **整体趋势**:混淆矩阵分布更加均衡,模型能够更好地区分不同情感类别
89
 
90
  ## 8. 结果分析与建议
91
 
92
  ### 8.1 模型优势
93
- - **显著提升**:相比原模型,Lora微调后准确率提升14.53%,达到68.26%
94
- - **均衡表现**:所有情感类别均有显著提升,不再过度倾向于预测neutral
95
- - **高可靠性**:请求成功率和JSON解析率均为100%,模型输出稳定
96
- - **资源高效**:通过Lora微调,在保持模型轻量化的同时获得了显著性能提升
 
97
 
98
  ### 8.2 模型不足
99
- - **小样本类别**:disgust和surprise等小样本类别F1分数仍有提升空间<50%)
100
- - **新的混淆**:部分情感类别(如anger-disgust、surprise-joy之间存在一定混淆
101
- - **中性性能**:neutral类别精确率和召回率略有下降(从91.92%召回率降至78.20%)
102
 
103
  ### 8.3 改进建议
104
- 1. **数据增强**:对小样本类别(如disgust、surprise)进行数据增强
105
- 2. **类别权重**:在损失函数中引入类别权重,一步改善小样本类别性能
106
- 3. **混淆类别优化**:针对易混淆的情绪类别(如anger-disgust)进行专门的微调训练
107
- 4. **超参数调整**:调整Lora的秩参或微调学习率,进一步提升性能
108
- 5. **中性平衡**:考虑微调策略在保持其他类别性能的同时提升neutral类别性能
109
 
110
  ## 9. 结论
111
 
112
- 本次评估显示,qwen3-0.6B+emotion-lora-no-thinking模型在英文情感分类任务上的总体准确率达到68.26%,相比原模型(53.73%)提升了14.53%。所有情感类别的F1分数均有显著提升特别是fear恐惧类别提升了40.88%。
113
 
114
- Lora微调的主要收益在于:
115
- - 大幅提高了非neutral类别的召回率(从个位/十几提升至40-70%
116
  - 改善了模型的类别平衡性,不再过度预测为neutral
117
- - 显著提升了宏平均F1分数(从31.46%提升至59.84%)
 
118
 
119
- 可能的下降:
120
- - neutral类别的召回率略有下降(从91.92%降至78.20%)
121
- - 出现了新的类别混淆模式(如anger-disgust)
122
 
123
- 总体而言,Lora微调取得了显著的效果,使模型在情感分类任务上的表现更加均衡和准确,是高效的模型优化方式
124
 
125
  ---
126
 
127
- *报告生成时间:2026-01-06*
 
11
  # 情感分类模型评估报告
12
 
13
  ## 1. 报告概述
14
+ - **评估模型**:qwen3-0.6b-+emotion-lora-2.7-no-thinking(2.7轮次保存模型,验证集损失最低)
15
  - **评估时间**:2026-01-06
16
  - **评估数据集**:英文情感分类验证集
17
  - **样本总数**:12,993
 
22
  | 总样本数 | 12,993 |
23
  | 请求成功数 | 12,993 |
24
  | JSON解析成功数 | 12,993 |
25
+ | 标签有效数 | 12,993 |
26
+ | 有效标签比例 | 100.00% |
27
 
28
  ## 3. 错误处理统计
29
  | 错误类型 | 错误率 | 错误数量 |
30
  |----------|--------|----------|
31
  | 请求失败 | 0.00% | 0 |
32
  | JSON解析失败 | 0.00% | 0 |
33
+ | 标签无效 | 0.00% | 0 |
34
 
35
  ## 4. 总体评估指标
36
+ | 指标 | 数值 | 与原模型对比(提升/下降) | 与emotion-lora对比(提升/下降) |
37
+ |------|------|--------------------------|--------------------------------|
38
+ | 准确率 | 70.61% | **+16.88%** | **+2.35%** |
39
+ | 正确预测数 | 9,174 | **+2,193** | **+305** |
40
 
41
  ## 5. 类别性能指标
42
 
43
  ### 5.1 各类别精确率、召回率和F1分数
44
+ | 情感类别 | 精确率 | 召回率 | F1分数 | 与原模型对比(F1提升/下降) | 与emotion-lora对比(F1提升/下降) |
45
+ |----------|--------|--------|--------|---------------------------|-----------------------------------|
46
+ | neutral(中性) | 75.23% | 85.14% | 79.88% | **+11.55%** | **+1.63%** |
47
+ | joy(喜悦) | 70.07% | 68.30% | 69.17% | **+27.89%** | **+1.10%** |
48
+ | fear(恐惧) | 71.39% | 63.67% | 67.31% | **+45.42%** | **+4.54%** |
49
+ | sadness(悲伤) | 67.86% | 60.04% | 63.71% | **+30.34%** | **+3.67%** |
50
+ | surprise(惊讶) | 72.97% | 33.59% | 46.00% | **+32.89%** | **-2.82%** |
51
+ | anger(愤怒) | 54.23% | 58.22% | 56.16% | **+34.74%** | **+1.85%** |
52
+ | disgust(厌恶) | 52.23% | 50.67% | 51.44% | **+30.62%** | **+4.82%** |
53
 
54
  ### 5.2 类别性能分析
55
+ - **表现最佳**:neutral(中性)类别表现突出,F1分数达79.88%,在所有模型中表现最好
56
+ - **提升最大**:fear(恐惧)类别提升最为显著,F1分数从21.89%提升至67.31%,提高了45.42%
57
+ - **全面进步**:所有类别F1分数均有显著提升,相比原模型提升幅度在30-45%之间
58
+ - **召回率改善**:除surprise外,其他类别召回率均有提升或保持稳定
59
+ - **与emotion-lora对比**:大部分类别F1分数进一步提升,特别是fear、sadness和disgust类别
60
 
61
  ## 6. 平均指标
62
+ | 指标 | 数值 | 与原模型对比(提升/下降) | 与emotion-lora对比(提升/下降) |
63
+ |------|------|--------------------------|--------------------------------|
64
+ | 宏平均精确率 | 66.28% | **+15.25%** | **+5.26%** |
65
+ | 宏平均召回率 | 59.95% | **+31.59%** | **+0.52%** |
66
+ | 宏平均F1分数 | 61.95% | **+30.49%** | **+2.11%** |
67
+ | 微平均精确率 | 70.61% | **+16.77%** | **+2.34%** |
68
+ | 微平均召回率 | 70.61% | **+16.77%** | **+2.34%** |
69
+ | 微平均F1分数 | 70.61% | **+16.77%** | **+2.34%** |
70
+
71
+ - **宏平均**:体现了模型在各类别上的平均表现,相比原模型有巨大提升,且略优于emotion-lora模型
72
+ - **微平均**:体现了模型在所有样本上的整体表现,与总体准确率一致,相比原模型提升16.77%,优于emotion-lora模型
73
 
74
  ## 7. 混淆矩阵分析
75
 
76
  ### 7.1 主要混淆情况
77
+ | 真实标签 | 最易混淆的预测标签 | 混淆数量 | 与原模型对比 | 与emotion-lora对比 |
78
+ |----------|------------------|----------|------------|-------------------|
79
+ | fear | neutral | 146 | **-402** | **+37** |
80
+ | surprise | neutral | 357 | **-404** | **+104** |
81
+ | surprise | joy | 194 | **+174** | **+24** |
82
+ | disgust | anger | 85 | **-205** | **-15** |
83
+ | anger | neutral | 190 | **-700** | **+47** |
84
+ | sadness | neutral | 256 | **-488** | **+57** |
85
+ | joy | neutral | 586 | **-924** | **+113** |
86
 
87
  ### 7.2 混淆模式分析
88
  - **显著改善**:模型对非neutral类别的混淆情况大幅减少,不再过度预测为neutral类别
89
+ - **新的混淆**:出现了surprisejoy之间的混淆(194条)
90
+ - **与emotion-lora对比**:部分类别与neutral的混淆略有增加,但disgust与anger的混淆有所减少
91
  - **整体趋势**:混淆矩阵分布更加均衡,模型能够更好地区分不同情感类别
92
 
93
  ## 8. 结果分析与建议
94
 
95
  ### 8.1 模型优势
96
+ - **准确率最高**:相比原模型和emotion-lora模型,准确率最高,达到70.61%
97
+ - **均衡表现**:所有情感类别均有显著提升,特别是在小样本类别上
98
+ - **性能保持**:neutral类别性能保持在较高水平(F1=79.88%
99
+ - **资源高效**:通过2.7轮次的Lora微调,在保持模型轻量化的同时获得了最佳性能
100
+ - **验证集最优**:作为验证集上损失最低的模型,泛化能力更强
101
 
102
  ### 8.2 模型不足
103
+ - **surprise性能**:surprise类别F1分数(46.00%)相比emotion-lora模型略有下降
104
+ - **surprise召回率**:surprise类别召回率33.59%)仍有提升空间
105
+ - **部分混淆**:surprise与joy、部分类别与neutral之间仍存在一定混淆
106
 
107
  ### 8.3 改进建议
108
+ 1. **surprise优化**:surprise类别进行专门的数据增强和微调,提高其召回率
109
+ 2. **混淆类别优化**:针对易混淆的情绪类别(如surprise-joy)行专门的微调训练
110
+ 3. **训练策略调整**:考虑在2.7轮次附近进行更多检查点保存,进一步优化模型性能
111
+ 4. **类别权重**:在损失函中引入类别权重,进一步改善小样本类别性能
112
+ 5. **超参数调整**:调整Lora的秩参数或微调学习率进一步提升性能
113
 
114
  ## 9. 结论
115
 
116
+ 本次评估显示,qwen3-0.6b-+emotion-lora-2.7-no-thinking模型(2.7轮次保存,验证集损失最低)在英文情感分类任务上的总体准确率达到70.61%,相比原模型(53.73%)提升了16.88%,相比emotion-lora模型68.26%)提升了2.35%。
117
 
118
+ 2.7轮次Lora微调的主要收益在于:
119
+ - 大幅提高了所有情感类别的F1分,特别是fear(恐惧)类别提升了45.42%
120
  - 改善了模型的类别平衡性,不再过度预测为neutral
121
+ - 进一步提升了宏平均F1分数(从31.46%提升至61.95%)
122
+ - 成为验证集上损失最低、性能最佳的模型
123
 
124
+ 与emotion-lora模型相比,2.7轮次模型在大部分类别上表现更好,特别是在disgust(厌恶)、fear(恐惧)和sadness(悲伤)等小样本类别上有明显提升。
 
 
125
 
126
+ 总体而言,2.7轮次的Lora微调取得了最佳效果,使模型在情感分类任务上的表现更加均衡和准确,是种模型中性能最好的版本
127
 
128
  ---
129
 
130
+ *报告生成时间:2026-01-07*