File size: 4,224 Bytes

46b244e

# 数据平衡总结报告

## 📊 问题分析

### 原始数据分布问题
基于你的模型评估结果，`resource_names` 字段准确率只有 **65.52%**，主要原因是训练数据存在严重的不平衡问题：

**极低频资源（< 3次）**：
- `新叶古村-新叶古村门票`: 1次 → 模型几乎无法识别
- `灵栖洞-灵栖洞西游魔毯`: 1次 → 模型几乎无法识别  
- `大慈岩-大慈岩索道`: 2次 → 识别能力很差

**高频资源（> 15次）**：
- `灵栖洞-灵栖洞门票`: 29次
- `灵栖洞-灵栖洞手划船`: 29次
- `七里扬帆-七里扬帆游船`: 17次

### 模型偏向问题
从错误样例分析可以看出：
1. **过度预测高频资源**：模型倾向于预测训练中常见的`七里扬帆`系列资源
2. **新场景识别失败**：对`江清月近人`、`新叶古村`等场景识别错误
3. **资源组合错误**：漏识别或错误组合资源

## 🎯 平衡策略

### 数据增强方案
针对以下低频资源进行重点增强：

1. **新叶古村-新叶古村门票**: 1 → 5 (+4个样本)
2. **大慈岩-大慈岩索道**: 2 → 5 (+3个样本)  
3. **宿江公司-江清月近人实景演艺门票**: 增强多场景样本

### 增强技术
- **文本变换**：修改日期、人数、联系人等非关键信息
- **场景多样化**：创建不同旅行社、不同表述方式的样本
- **资源组合**：生成复杂的多资源组合样本

## ✅ 实施结果

### 平衡前后对比

| 资源名称 | 原始数量 | 平衡后数量 | 改进 |
|---------|---------|-----------|------|
| 新叶古村-新叶古村门票 | 1 | 5 | +400% |
| 大慈岩-大慈岩索道 | 2 | 5 | +150% |
| 大慈岩-大慈岩门票 | 6 | 9 | +50% |
| 宿江公司-江清月近人实景演艺门票 | 12 | 16 | +33% |
| 新安江-新安江游船 | 15 | 17 | +13% |

### 数据集统计
- **原始样本数**: 1020
- **平衡后样本数**: 1030  
- **新增样本数**: 10
- **目标资源覆盖**: 所有关键低频资源已达到最低5个样本的目标

## 🔍 生成样本示例

### 新叶古村样本
```json
{
  "input": "浙江吉程，7月26日，25人，新叶古村，\n导游：李 13958298707",
  "output": "{\"resource_names\": [\"新叶古村-新叶古村门票\"]}"
}
```

### 大慈岩索道样本
```json
{
  "input": "杭州天翼，日期：7月22日 大慈岩（含上下索道），\n导游：陈 13868126262 人数28人",
  "output": "{\"resource_names\": [\"大慈岩-大慈岩索道\", \"大慈岩-大慈岩门票\"]}"
}
```

### 江清月近人增强样本
```json
{
  "input": "建德光大，7月25日，18人，江清月近人+新安江游船，导游：王 18806210530",
  "output": "{\"resource_names\": [\"宿江公司-江清月近人实景演艺门票\", \"新安江-新安江游船\"]}"
}
```

## 📈 预期改进效果

### 模型性能预期
1. **低频资源识别**：`新叶古村`、`大慈岩索道`识别准确率显著提升
2. **场景泛化能力**：对新的表述方式和组合有更好的理解
3. **整体准确率**：`resource_names`字段准确率预期从65.52%提升到75%+

### 特别关注的案例类型
- **江清月近人相关**：应该能正确识别而不是预测为`七里扬帆`系列
- **大慈岩索道组合**：能正确识别包含索道的订单
- **新叶古村单独**：不再被忽略或错误预测

## 🚀 后续建议

### 重新训练步骤
```bash
# 1. 使用平衡后的数据集
cp balanced_training_data.json ocr_text_orders_08_14_test_v5.json

# 2. 更新训练配置中的数据文件路径

# 3. 重新训练模型

# 4. 在相同的验证集上评估性能
```

### 验证重点
1. 特别关注低频资源的召回率
2. 验证不会因为增强数据影响高频资源的识别
3. 测试新的资源组合场景

### 进一步优化
如果效果仍不理想，可以考虑：
1. **权重平衡**：在损失函数中为低频资源增加权重
2. **更多增强**：继续增加低频资源样本到10个以上
3. **难例挖掘**：分析剩余错误案例，针对性增强

---

💡 **关键成功指标**：重新训练后，在验证集上`新叶古村-新叶古村门票`和`大慈岩-大慈岩索道`的识别准确率应显著提升。