BGE-Meteo-zh: 气象领域自适应中文嵌入模型

BGE-Meteo-zh 是基于 BAAI/bge-large-zh-v1.5 微调的气象领域中文文本嵌入模型,专为气象知识检索增强生成(RAG)场景优化。

模型描述

  • 基座模型: BAAI/bge-large-zh-v1.5(1024维向量)
  • 微调方法: FlagEmbedding框架,InfoNCE对比学习损失
  • 训练数据: 58本气象专业书籍合成的6,868条QA数据,每条配7个BM25困难负例
  • 防泄露设计: 训练专用BM25索引严格排除held-out测试书籍,防止负例毒化
  • 训练配置: batch_size=4, train_group_size=8, lr=1e-5, 3 epochs, BF16
  • 训练硬件: 单卡NVIDIA RTX 4080 (16GB)

性能指标

在held-out测试集(4本未参与训练的边缘应用书籍,910条QA)上的检索性能:

配置 R@1 R@5 R@10 NDCG@5 MRR
通用BGE单路 0.425 0.688 0.770 0.538
BGE-Meteo单路 0.569 0.758 0.825 0.673 0.653
通用BGE+BM25混合 0.609 0.840 0.888
BGE-Meteo+BM25混合 0.706 0.893 0.933 0.810 0.787
  • 单路检索 Recall@1 提升 **33.8%**(0.425→0.569)
  • 混合检索架构中提供 15.9% 的不可替代增量(0.609→0.706)
  • 三项核心结论在第三方公开数据集 AtmosphericQA 上全部得到验证

训练细节

数据构建

  1. 从58本气象专业书籍中分层采样5,000个知识块
  2. 使用大语言模型为每个知识块生成1个事实性问题和1个推理性问题(共6,868条)
  3. 使用训练专用BM25索引(34,113块,严格排除held-out测试书籍)挖掘7个困难负例

知识层级依赖发现

通过破坏性消融实验发现,训练语料中存在显著的知识层级依赖:

  • 剔除14.5%的核心理论教材(《天气学原理和方法》《中国天气概论》等)导致泛化增益折损 66.3%
  • 剔除同等规模的普通应用书仅折损 33.6%
  • 核心教材作为"语义锚点",对构建高质量领域嵌入空间不可替代

覆盖领域

训练知识库涵盖天气学原理、气象灾害防御、农业气象、气候变化、气象观测等多个气象子领域,共39,284个知识块。

局限性

  • 仅在气象领域验证,跨领域泛化性有待研究
  • 基于中文语料微调,对英文气象文本的效果未测试
  • 交叉编码器(Cross-Encoder)未进行领域微调
Downloads last month
88
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for nmcsitian/bge-meteo-zh

Finetuned
(9)
this model