BGE-Meteo-zh: 气象领域自适应中文嵌入模型
BGE-Meteo-zh 是基于 BAAI/bge-large-zh-v1.5 微调的气象领域中文文本嵌入模型,专为气象知识检索增强生成(RAG)场景优化。
模型描述
- 基座模型: BAAI/bge-large-zh-v1.5(1024维向量)
- 微调方法: FlagEmbedding框架,InfoNCE对比学习损失
- 训练数据: 58本气象专业书籍合成的6,868条QA数据,每条配7个BM25困难负例
- 防泄露设计: 训练专用BM25索引严格排除held-out测试书籍,防止负例毒化
- 训练配置: batch_size=4, train_group_size=8, lr=1e-5, 3 epochs, BF16
- 训练硬件: 单卡NVIDIA RTX 4080 (16GB)
性能指标
在held-out测试集(4本未参与训练的边缘应用书籍,910条QA)上的检索性能:
| 配置 | R@1 | R@5 | R@10 | NDCG@5 | MRR |
|---|---|---|---|---|---|
| 通用BGE单路 | 0.425 | 0.688 | 0.770 | — | 0.538 |
| BGE-Meteo单路 | 0.569 | 0.758 | 0.825 | 0.673 | 0.653 |
| 通用BGE+BM25混合 | 0.609 | 0.840 | 0.888 | — | — |
| BGE-Meteo+BM25混合 | 0.706 | 0.893 | 0.933 | 0.810 | 0.787 |
- 单路检索 Recall@1 提升 **33.8%**(0.425→0.569)
- 混合检索架构中提供 15.9% 的不可替代增量(0.609→0.706)
- 三项核心结论在第三方公开数据集 AtmosphericQA 上全部得到验证
训练细节
数据构建
- 从58本气象专业书籍中分层采样5,000个知识块
- 使用大语言模型为每个知识块生成1个事实性问题和1个推理性问题(共6,868条)
- 使用训练专用BM25索引(34,113块,严格排除held-out测试书籍)挖掘7个困难负例
知识层级依赖发现
通过破坏性消融实验发现,训练语料中存在显著的知识层级依赖:
- 剔除14.5%的核心理论教材(《天气学原理和方法》《中国天气概论》等)导致泛化增益折损 66.3%
- 剔除同等规模的普通应用书仅折损 33.6%
- 核心教材作为"语义锚点",对构建高质量领域嵌入空间不可替代
覆盖领域
训练知识库涵盖天气学原理、气象灾害防御、农业气象、气候变化、气象观测等多个气象子领域,共39,284个知识块。
局限性
- 仅在气象领域验证,跨领域泛化性有待研究
- 基于中文语料微调,对英文气象文本的效果未测试
- 交叉编码器(Cross-Encoder)未进行领域微调
- Downloads last month
- 88
Model tree for nmcsitian/bge-meteo-zh
Base model
BAAI/bge-large-zh-v1.5