jiangchengchengNLP
/

Emotion

Text Generation

Safetensors

conversational

Model card Files Files and versions

xet

Community

jiangchengchengNLP commited on 18 days ago

Commit

c153276

verified ·

1 Parent(s): cb1aa09

Update README.md

Browse files

Files changed (1) hide show

README.md +65 -62

README.md CHANGED Viewed

@@ -11,7 +11,7 @@ pipeline_tag: text-generation
 # 情感分类模型评估报告
 ## 1. 报告概述
-- **评估模型**：qwen3-0.6B+emotion-lora-no-thinking
 - **评估时间**：2026-01-06
 - **评估数据集**：英文情感分类验证集
 - **样本总数**：12,993
@@ -22,106 +22,109 @@ pipeline_tag: text-generation
 | 总样本数 | 12,993 |
 | 请求成功数 | 12,993 |
 | JSON解析成功数 | 12,993 |
-| 标签有效数 | 12,992 |
-| 有效标签比例 | 99.99% |
 ## 3. 错误处理统计
 | 错误类型 | 错误率 | 错误数量 |
 |----------|--------|----------|
 | 请求失败 | 0.00% | 0 |
 | JSON解析失败 | 0.00% | 0 |
-| 标签无效 | 0.01% | 1 |
 ## 4. 总体评估指标
-| 指标 | 数值 | 与原模型对比（提升/下降） |
-|------|------|--------------------------|
-| 准确率 | 68.26% | **+14.53%** |
-| 正确预测数 | 8,869 | **+1,888** |
 ## 5. 类别性能指标
 ### 5.1 各类别精确率、召回率和F1分数
-| 情感类别 | 精确率 | 召回率 | F1分数 | 与原模型对比（F1提升/下降） |
-|----------|--------|--------|--------|---------------------------|
-| neutral（中性） | 78.30% | 78.20% | 78.25% | **+9.92%** |
-| joy（喜悦） | 65.25% | 71.16% | 68.08% | **+26.80%** |
-| fear（恐惧） | 64.94% | 60.75% | 62.77% | **+40.88%** |
-| sadness（悲伤） | 57.11% | 63.29% | 60.04% | **+26.67%** |
-| surprise（惊讶） | 59.02% | 41.63% | 48.82% | **+35.71%** |
-| anger（愤怒） | 50.44% | 58.84% | 54.31% | **+32.89%** |
-| disgust（厌恶） | 52.12% | 42.18% | 46.62% | **+25.80%** |
 ### 5.2 类别性能分析
-- **表现最佳**：neutral（中性）类别表现仍最突出，F1分数达78.25%，相比原模型提升了9.92%
-- **提升最大**：fear（恐惧）类别提升最为显著，F1分数从21.89%提升至62.77%，提高了40.88%
-- **全面进步**：所有类别F1分数均有显著提升，最差的surprise类别也从13.11%提升至48.82%
-- **召回率改善**：除neutral外，其他类别召回率均有大幅提升（从个位数/十几提升至40-70%）
 ## 6. 平均指标
-| 指标 | 数值 | 与原模型对比（提升/下降） |
-|------|------|--------------------------|
-| 宏平均精确率 | 61.02% | **+9.99%** |
-| 宏平均召回率 | 59.43% | **+31.07%** |
-| 宏平均F1分数 | 59.84% | **+28.38%** |
-| 微平均精确率 | 68.27% | **+14.43%** |
-| 微平均召回率 | 68.27% | **+14.43%** |
-| 微平均F1分数 | 68.27% | **+14.43%** |
-- **宏平均**：体现了模型在各类别上的平均表现，相比原模型有巨大提升，说明Lora微调有效改善了模型对所有类别的识别能力
-- **微平均**：体现了模型在所有样本上的整体表现，与总体准确率一致，提升明显
 ## 7. 混淆矩阵分析
 ### 7.1 主要混淆情况
-| 真实标签 | 最易混淆的预测标签 | 混淆数量 | 与原模型对比 |
-|----------|------------------|----------|------------|
-| fear | neutral | 109 | **-439** |
-| surprise | neutral | 253 | **-508** |
-| disgust | anger | 100 | **大幅减少** |
-| anger | neutral | 143 | **大幅减少** |
-| sadness | neutral | 199 | **-545** |
-| joy | neutral | 473 | **-1,037** |
 ### 7.2 混淆模式分析
 - **显著改善**：模型对非neutral类别的混淆情况大幅减少，不再过度预测为neutral类别
-- **新的混淆**：出现了新的混淆模式，如disgust与anger之间的混淆（100条）
 - **整体趋势**：混淆矩阵分布更加均衡，模型能够更好地区分不同情感类别
 ## 8. 结果分析与建议
 ### 8.1 模型优势
-- **显著提升**：相比原模型，Lora微调后准确率提升14.53%，达到68.26%
-- **均衡表现**：所有情感类别均有显著提升，不再过度倾向于预测neutral
-- **高可靠性**：请求成功率和JSON解析率均为100%，模型输出稳定
-- **资源高效**：通过Lora微调，在保持模型轻量化的同时获得了显著性能提升
 ### 8.2 模型不足
-- **小样本类别**：disgust和surprise等小样本类别F1分数仍有提升空间（<50%）
-- **新的混淆**：部分情感类别（如anger-disgust、surprise-joy）之间仍存在一定混淆
-- **中性性能**：neutral类别精确率和召回率略有下降（从91.92%召回率降至78.20%）
 ### 8.3 改进建议
-1. **数据增强**：对小样本类别（如disgust、surprise）进行数据增强
-2. **类别权重**：在损失函数中引入类别权重，进一步改善小样本类别性能
-3. **混淆类别优化**：针对易混淆的情绪类别（如anger-disgust）进行专门的微调训练
-4. **超参数调整**：调整Lora的秩参数或微调学习率，进一步提升性能
-5. **中性平衡**：考虑微调策略，在保持其他类别性能的同时提升neutral类别性能
 ## 9. 结论
-本次评估显示，qwen3-0.6B+emotion-lora-no-thinking模型在英文情感分类任务上的总体准确率达到68.26%，相比原模型（53.73%）提升了14.53%。所有情感类别的F1分数均有显著提升，特别是fear（恐惧）类别提升了40.88%。
-Lora微调的主要收益在于：
-- 大幅提高了非neutral类别的召回率（从个位数/十几提升至40-70%）
 - 改善了模型的类别平衡性，不再过度预测为neutral
-- 显著提升了宏平均F1分数（从31.46%提升至59.84%）
-可能的下降：
-- neutral类别的召回率略有下降（从91.92%降至78.20%）
-- 出现了新的类别混淆模式（如anger-disgust）
-总体而言，Lora微调取得了显著的效果，使模型在情感分类任务上的表现更加均衡和准确，是一种高效的模型优化方式。
 ---
-*报告生成时间：2026-01-06*

 # 情感分类模型评估报告
 ## 1. 报告概述
+- **评估模型**：qwen3-0.6b-+emotion-lora-2.7-no-thinking（2.7轮次保存模型，验证集损失最低）
 - **评估时间**：2026-01-06
 - **评估数据集**：英文情感分类验证集
 - **样本总数**：12,993
 | 总样本数 | 12,993 |
 | 请求成功数 | 12,993 |
 | JSON解析成功数 | 12,993 |
+| 标签有效数 | 12,993 |
+| 有效标签比例 | 100.00% |
 ## 3. 错误处理统计
 | 错误类型 | 错误率 | 错误数量 |
 |----------|--------|----------|
 | 请求失败 | 0.00% | 0 |
 | JSON解析失败 | 0.00% | 0 |
+| 标签无效 | 0.00% | 0 |
 ## 4. 总体评估指标
+| 指标 | 数值 | 与原模型对比（提升/下降） | 与emotion-lora对比（提升/下降） |
+|------|------|--------------------------|--------------------------------|
+| 准确率 | 70.61% | **+16.88%** | **+2.35%** |
+| 正确预测数 | 9,174 | **+2,193** | **+305** |
 ## 5. 类别性能指标
 ### 5.1 各类别精确率、召回率和F1分数
+| 情感类别 | 精确率 | 召回率 | F1分数 | 与原模型对比（F1提升/下降） | 与emotion-lora对比（F1提升/下降） |
+|----------|--------|--------|--------|---------------------------|-----------------------------------|
+| neutral（中性） | 75.23% | 85.14% | 79.88% | **+11.55%** | **+1.63%** |
+| joy（喜悦） | 70.07% | 68.30% | 69.17% | **+27.89%** | **+1.10%** |
+| fear（恐惧） | 71.39% | 63.67% | 67.31% | **+45.42%** | **+4.54%** |
+| sadness（悲伤） | 67.86% | 60.04% | 63.71% | **+30.34%** | **+3.67%** |
+| surprise（惊讶） | 72.97% | 33.59% | 46.00% | **+32.89%** | **-2.82%** |
+| anger（愤怒） | 54.23% | 58.22% | 56.16% | **+34.74%** | **+1.85%** |
+| disgust（厌恶） | 52.23% | 50.67% | 51.44% | **+30.62%** | **+4.82%** |
 ### 5.2 类别性能分析
+- **表现最佳**：neutral（中性）类别表现突出，F1分数达79.88%，在所有模型中表现最好
+- **提升最大**：fear（恐惧）类别提升最为显著，F1分数从21.89%提升至67.31%，提高了45.42%
+- **全面进步**：所有类别F1分数均有显著提升，相比原模型提升幅度在30-45%之间
+- **召回率改善**：除surprise外，其他类别召回率均有提升或保持稳定
+- **与emotion-lora对比**：大部分类别F1分数进一步提升，特别是fear、sadness和disgust类别
 ## 6. 平均指标
+| 指标 | 数值 | 与原模型对比（提升/下降） | 与emotion-lora对比（提升/下降） |
+|------|------|--------------------------|--------------------------------|
+| 宏平均精确率 | 66.28% | **+15.25%** | **+5.26%** |
+| 宏平均召回率 | 59.95% | **+31.59%** | **+0.52%** |
+| 宏平均F1分数 | 61.95% | **+30.49%** | **+2.11%** |
+| 微平均精确率 | 70.61% | **+16.77%** | **+2.34%** |
+| 微平均召回率 | 70.61% | **+16.77%** | **+2.34%** |
+| 微平均F1分数 | 70.61% | **+16.77%** | **+2.34%** |
+- **宏平均**：体现了模型在各类别上的平均表现，相比原模型有巨大提升，且略优于emotion-lora模型
+- **微平均**：体现了模型在所有样本上的整体表现，与总体准确率一致，相比原模型提升16.77%，优于emotion-lora模型
 ## 7. 混淆矩阵分析
 ### 7.1 主要混淆情况
+| 真实标签 | 最易混淆的预测标签 | 混淆数量 | 与原模型对比 | 与emotion-lora对比 |
+|----------|------------------|----------|------------|-------------------|
+| fear | neutral | 146 | **-402** | **+37** |
+| surprise | neutral | 357 | **-404** | **+104** |
+| surprise | joy | 194 | **+174** | **+24** |
+| disgust | anger | 85 | **-205** | **-15** |
+| anger | neutral | 190 | **-700** | **+47** |
+| sadness | neutral | 256 | **-488** | **+57** |
+| joy | neutral | 586 | **-924** | **+113** |
 ### 7.2 混淆模式分析
 - **显著改善**：模型对非neutral类别的混淆情况大幅减少，不再过度预测为neutral类别
+- **新的混淆**：出现了surprise与joy之间的混淆（194条）
+- **与emotion-lora对比**：部分类别与neutral的混淆略有增加，但disgust与anger的混淆有所减少
 - **整体趋势**：混淆矩阵分布更加均衡，模型能够更好地区分不同情感类别
 ## 8. 结果分析与建议
 ### 8.1 模型优势
+- **准确率最高**：相比原模型和emotion-lora模型，准确率最高，达到70.61%
+- **均衡表现**：所有情感类别均有显著提升，特别是在小样本类别上
+- **中性性能保持**：neutral类别性能保持在较高水平（F1=79.88%）
+- **资源高效**：通过2.7轮次的Lora微调，在保持模型轻量化的同时获得了最佳性能
+- **验证集最优**：作为验证集上损失最低的模型，泛化能力更强
 ### 8.2 模型不足
+- **surprise性能**：surprise类别F1分数（46.00%）相比emotion-lora模型略有下降
+- **surprise召回率**：surprise类别召回率（33.59%）仍有提升空间
+- **部分混淆**：surprise与joy、部分类别与neutral之间仍存在一定混淆
 ### 8.3 改进建议
+1. **surprise优化**：针对surprise类别进行专门的数据增强和微调，提高其召回率
+2. **混淆类别优化**：针对易混淆的情绪类别（如surprise-joy）进行专门的微调训练
+3. **训练策略调整**：考虑在2.7轮次附近进行更多检查点保存，进一步优化模型性能
+4. **类别权重**：在损失函数中引入类别权重，进一步改善小样本类别性能
+5. **超参数调整**：调整Lora的秩参数或微调学习率，进一步提升性能
 ## 9. 结论
+本次评估显示，qwen3-0.6b-+emotion-lora-2.7-no-thinking模型（2.7轮次保存，验证集损失最低）在英文情感分类任务上的总体准确率达到70.61%，相比原模型（53.73%）提升了16.88%，相比emotion-lora模型（68.26%）提升了2.35%。
+2.7轮次Lora微调的主要收益在于：
+- 大幅提高了所有情感类别的F1分数，特别是fear（恐惧）类别提升了45.42%
 - 改善了模型的类别平衡性，不再过度预测为neutral
+- 进一步提升了宏平均F1分数（从31.46%提升至61.95%）
+- 成为验证集上损失最低、性能最佳的模型
+与emotion-lora模型相比，2.7轮次模型在大部分类别上表现更好，特别是在disgust（厌恶）、fear（恐惧）和sadness（悲伤）等小样本类别上有明显提升。
+总体而言，2.7轮次的Lora微调取得了最佳效果，使模型在情感分类任务上的表现更加均衡和准确，是三种模型中性能最好的版本。
 ---
+*报告生成时间：2026-01-07*