nmcsitian
/

bge-meteo-zh

Feature Extraction

sentence-transformers

domain-adaptive

contrastive-learning

text-embeddings-inference

Model card Files Files and versions

BGE-Meteo-zh: 气象领域自适应中文嵌入模型

BGE-Meteo-zh 是基于 BAAI/bge-large-zh-v1.5 微调的气象领域中文文本嵌入模型，专为气象知识检索增强生成（RAG）场景优化。

模型描述

基座模型: BAAI/bge-large-zh-v1.5（1024维向量）
微调方法: FlagEmbedding框架，InfoNCE对比学习损失
训练数据: 58本气象专业书籍合成的6,868条QA数据，每条配7个BM25困难负例
防泄露设计: 训练专用BM25索引严格排除held-out测试书籍，防止负例毒化
训练配置: batch_size=4, train_group_size=8, lr=1e-5, 3 epochs, BF16
训练硬件: 单卡NVIDIA RTX 4080 (16GB)

性能指标

在held-out测试集（4本未参与训练的边缘应用书籍，910条QA）上的检索性能：

配置	R@1	R@5	R@10	NDCG@5	MRR
通用BGE单路	0.425	0.688	0.770	—	0.538
BGE-Meteo单路	0.569	0.758	0.825	0.673	0.653
通用BGE+BM25混合	0.609	0.840	0.888	—	—
BGE-Meteo+BM25混合	0.706	0.893	0.933	0.810	0.787

单路检索 Recall@1 提升 **33.8%**（0.425→0.569）
混合检索架构中提供 15.9% 的不可替代增量（0.609→0.706）
三项核心结论在第三方公开数据集 AtmosphericQA 上全部得到验证

训练细节

数据构建

从58本气象专业书籍中分层采样5,000个知识块
使用大语言模型为每个知识块生成1个事实性问题和1个推理性问题（共6,868条）
使用训练专用BM25索引（34,113块，严格排除held-out测试书籍）挖掘7个困难负例

知识层级依赖发现

通过破坏性消融实验发现，训练语料中存在显著的知识层级依赖：

剔除14.5%的核心理论教材（《天气学原理和方法》《中国天气概论》等）导致泛化增益折损 66.3%
剔除同等规模的普通应用书仅折损 33.6%
核心教材作为"语义锚点"，对构建高质量领域嵌入空间不可替代

覆盖领域

训练知识库涵盖天气学原理、气象灾害防御、农业气象、气候变化、气象观测等多个气象子领域，共39,284个知识块。

局限性

仅在气象领域验证，跨领域泛化性有待研究
基于中文语料微调，对英文气象文本的效果未测试
交叉编码器（Cross-Encoder）未进行领域微调

Downloads last month: 88

Model tree for nmcsitian/bge-meteo-zh

Base model

BAAI/bge-large-zh-v1.5

Finetuned

(9)

this model