File size: 4,359 Bytes

39853e4

# 中文邮件分类模型 (Chinese Email Classification Model)

## 模型概述

这是一个基于MobileBERT的中文邮件分类模型，专门用于对邮件内容进行6类分类。该模型经过优化，适合在移动设备和资源受限的环境中使用。

## 模型信息

- **模型架构**: MobileBERTForSequenceClassification
- **基础模型**: MobileBERT (针对移动设备优化的BERT变体)
- **语言**: 中文 (Chinese)
- **任务**: 文本分类 (Text Classification)
- **类别数**: 6个邮件类别

## 分类标签

```
0: 工作邮件 (Work Email)
1: 个人邮件 (Personal Email)  
2: 促销邮件 (Promotional Email)
3: 垃圾邮件 (Spam Email)
4: 通知邮件 (Notification Email)
5: 其他邮件 (Other Email)
```

## 模型性能

基于3000个训练样本和500个测试样本的评估结果：

- **准确率 (Accuracy)**: 98.2%
- **F1分数 (F1-Score)**: 98.2%
- **精确率 (Precision)**: 98.2%
- **召回率 (Recall)**: 98.2%

## 模型参数

- **参数量**: 24,584,966 (~2450万)
- **模型大小**: ~94 MB
- **最大序列长度**: 128 tokens
- **词汇表大小**: 30,522

## 使用方法

### 快速开始

```python
from transformers import MobileBertForSequenceClassification, MobileBertTokenizer
import torch

# 加载模型和tokenizer
model = MobileBertForSequenceClassification.from_pretrained('your-username/email-classifier-chinese')
tokenizer = MobileBertTokenizer.from_pretrained('your-username/email-classifier-chinese')

# 预测示例
def predict_email_category(text):
    inputs = tokenizer(
        text, 
        return_tensors='pt', 
        truncation=True, 
        padding='max_length', 
        max_length=128
    )
    
    with torch.no_grad():
        outputs = model(**inputs)
        predictions = torch.softmax(outputs.logits, dim=-1)
        predicted_class = torch.argmax(predictions, dim=-1).item()
    
    labels = {
        0: "工作邮件",
        1: "个人邮件", 
        2: "促销邮件",
        3: "垃圾邮件",
        4: "通知邮件",
        5: "其他邮件"
    }
    
    confidence = predictions[0][predicted_class].item()
    return labels[predicted_class], confidence

# 使用示例
email_text = "恭喜您中奖了！点击链接领取奖品。"
category, confidence = predict_email_category(email_text)
print(f"邮件类型: {category}, 置信度: {confidence:.3f}")
# 输出: 邮件类型: 促销邮件, 置信度: 0.920
```

### Transformers Pipeline

```python
from transformers import pipeline

classifier = pipeline(
    "text-classification",
    model="your-username/email-classifier-chinese",
    tokenizer="your-username/email-classifier-chinese"
)

result = classifier("您好，请查收今天的工作报告。")
print(result)
```

## 训练详情

- **训练设备**: CPU
- **训练轮次**: 2 epochs
- **批次大小**: 4
- **梯度累积步数**: 4
- **学习率**: 3e-05
- **优化器**: AdamW
- **训练时间**: ~10分钟

## 移动端部署

该模型特别适合移动端部署：

1. **Android集成**: 支持PyTorch Mobile
2. **iOS集成**: 支持Core ML转换
3. **边缘计算**: 可在边缘设备上运行
4. **量化支持**: 支持INT8量化以减少模型大小

详细的移动端集成指南请参考模型仓库中的文档。

## 使用场景

- 邮件客户端自动分类
- 垃圾邮件过滤
- 邮件管理系统
- 企业邮件自动化处理
- 移动邮件应用

## 限制和注意事项

1. **语言限制**: 主要针对中文邮件优化
2. **领域适应**: 可能需要针对特定领域进行微调
3. **上下文长度**: 最大支持128个token
4. **数据隐私**: 建议在本地设备上处理敏感邮件内容

## 引用

如果您使用了这个模型，请考虑引用：

```bibtex
@misc{chinese-email-classifier-2024,
  title={Chinese Email Classification Model Based on MobileBERT},
  author={Your Name},
  year={2024},
  publisher={Hugging Face},
  journal={Hugging Face Model Hub},
  howpublished={\\url{https://huggingface.co/your-username/email-classifier-chinese}}
}
```

## 许可证

本模型基于Apache 2.0许可证发布。

## 联系信息

如有问题或建议，请通过以下方式联系：
- GitHub Issues: [项目链接]
- Email: [您的邮箱]

---

**免责声明**: 本模型仅供研究和非商业用途。在生产环境中使用前，请进行充分的测试和验证。