Instructions to use Ye0101/bge-finetuned-rag with libraries, inference providers, notebooks, and local apps. Follow these links to get started.

Libraries

How to use Ye0101/bge-finetuned-rag with sentence-transformers:

from sentence_transformers import SentenceTransformer

model = SentenceTransformer("Ye0101/bge-finetuned-rag")

sentences = [
    "为这个句子生成表示以用于检索相关文章：办边境通行证需要花钱吗？",
    "委托 通办范围 跨县\n联办机构 无 服务对象 自然人\n受理条件\n材料齐全，符合法定形式。\n办理材料\n序号 材料名称 材料依据 材料形式 材料要求 材料下载 其他信息\n1 居民身份 纸质原件材料 材料必要性 https://zwf 来源渠道：\n证 份数： 必要 w.xinjiang.g 政府部门核发\n1 其他要求： ov.cn/xjzw 填报须知：\n纸质复印件材 材料类型： dt/rest/atta\n料份数： 原件 ch/openAtt 要求填报的材\n0 材料形式： ach?client= 料依据：\n纸质和电子\n纸质材料规格：\n原件\n办理流程\n网上办理流程\n边防通行证业务目前主要有边防通行证的办理功能。当前登录用户通过互联网办事大厅，进入边防类业务，选择边防通行证进行通行证的业务办理，阅\n读办理须知，电脑需为IE浏览器并且安装****的的插件，方可进行网上申请。阅读须知并按要求安装插件后，勾选“我已阅读并同意遵守”，进行下一步，\n填写边防通行证办理的具体信息，然后进行****的人像验证，最后确认所填信息，最终提交，完成边防通行证业务的网上申请办理。\n步骤\n序号 流程名称 办理时间 办理人",
    "边境管理区通行证（深圳、珠海经济特区除外）核\n发\n指南地址:\nhttps://zwfw.xinjiang.gov.cn/bmfwtest/guidetest/guidance.html?taskcode=11650\n100k4549775724000163013000\n办事二维码：\n基础信息\n事项类型 行政许可 办件类型 即办件\n事项编码 11650100k4549775724000163013000\n到办事现场次数 0 网上办理深度 IV级\n乌鲁木齐市公安局经济技术开发\n实施主体 行使层级 县（市、区）级\n区分局\n承诺办结时限 1(工作日) 法定办结时限 1(工作日)\n咨询方式 话务平台：12367\n监督投诉方式 0991-2168135\n周一至周五 夏季 全天 10:30:00至18:30:00 冬季 全天 10:30:00至18:30:00法定节假日除外，中午不\n办理时间\n休息\n新疆维吾尔自治区 乌鲁木齐市 头屯河区（经济技术开发区） 高铁片区管 天鹅湖社区 维泰南路1号维泰大\n厦政务服务中心 2楼 2B501窗口 2楼\nhttp://api.map.baidu.com/geoc",
    "进行初步审\n查，审查合格予以受理。\n步骤 2 审核 0.3个工作日 窗口民警古丽米热 证件办理成功/业务审 提交的材料是否齐全，是否符合法定\n批未通过 形式，材料内容需要核实的，核实相\n关材料真实性。\n步骤 3 办结 0.1个工作日 窗口民警古丽米热 办结发证 根据审批结果情况，结束办理过程，\n将办理结果通知申请人。\n收费标准\n是否收费\n不收费\n设定依据\n设定依据 1\n法律法规名称：《中华人民共和国边境管理区通行证管理办法》\n依据文号：【1999】公安部令第42号\n条款号：第一章第二条\n条款内容：国家在陆地边境地区划定边境管理区(含深圳、珠海经济特区)，实行《中华人民共和国边境管理区通行证》（以下简称《边境通行证》）验查\n管理制度。\n设定依据 2\n法律法规名称：《国务院对确需保留的行政审批项目设定行政许可的决定》\n依据文号：国务院令第412号\n条款号：第42项\n条款内容：“边境管理区通行证核发” 实施机关：地（市）、县级人民政府公安机关。\n常见问题"
]
embeddings = model.encode(sentences)

similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]

Notebooks
Google Colab
Kaggle

SentenceTransformer based on BAAI/bge-large-zh-v1.5

This is a sentence-transformers model finetuned from BAAI/bge-large-zh-v1.5. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: BAAI/bge-large-zh-v1.5
Maximum Sequence Length: 256 tokens
Output Dimensionality: 1024 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': True, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '为这个句子生成表示以用于检索相关文章：血缘关系变更姓氏的材料是非必要的话，还需要提供复印件吗？',
    'xjzw 填报须知：\n纸质复印件材 材料类型： dt/rest/atta\n料份数： 原件 ch/openAtt 要求填报的材\n0 材料形式： ach?client= 料依据：\n纸质和电子\n纸质材料规格：\n原件\n3 婚姻关系 纸质原件材料 材料必要性 https://zwf 来源渠道：\n证件(因 份数： 非必要 w.xinjiang.g 政府部门核发\n涉外婚姻 1 其他要求： ov.cn/xjzw 填报须知：\n关系变更 纸质复印件材 材料类型： dt/rest/atta\n姓氏的需 料份数： 原件 ch/openAtt 要求填报的材\n提交) 0 材料形式： ach?client= 料依据：\n纸质和电子\n纸质材料规格：\nA4\n4 关系凭证 纸质原件材料 材料必要性 https://zwf 来源渠道：\n（因血缘 份数： 非必要 w.xinjiang.g 政府部门核发\n关系在其 1 其他要求： ov.cn/xjzw 填报须知：\n直系长辈 纸质复印件材 材料类型： dt/rest/atta\n血亲之间 料份数： 原件 ch/openAtt 要求填报的材\n变更姓氏 0 材料形式： ach?client',
    '百三十七条\n条款内容：第一百三十二条申请变更姓名，应当提交居民户口簿居民身份证，并按照第一百三十一规定提交书面申请，向户口所在地公安派出所申请。\n未满18周岁的须由亲生父母协商一致并同时到户口所在地公安派出所申请，已满8周岁的还应当征得本人签字同意；父母离婚后，双方未取得一\n致意见申请未满18岁子女姓名变更的，不予受理；父母一方死亡的，由另一方吃注销原因为死亡的《户口注销证明》，到户口所在地公安派出所办\n理。\n第一百三十七条因收养等关系变化或者重新确认，按照第七十五条规定申请变更。\n常见问题',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.7892, 0.2984],
#         [0.7892, 1.0000, 0.2375],
#         [0.2984, 0.2375, 1.0000]])

Evaluation

Metrics

Information Retrieval

Dataset: dev_eval
Evaluated with InformationRetrievalEvaluator

Metric	Value
cosine_accuracy@1	0.2727
cosine_accuracy@3	0.3636
cosine_accuracy@5	0.6364
cosine_accuracy@10	0.7273
cosine_precision@1	0.2727
cosine_precision@3	0.1212
cosine_precision@5	0.1273
cosine_precision@10	0.0727
cosine_recall@1	0.2727
cosine_recall@3	0.3636
cosine_recall@5	0.6364
cosine_recall@10	0.7273
cosine_ndcg@10	0.4643
cosine_mrr@10	0.3841
cosine_map@100	0.3906

Training Details

Training Dataset

Unnamed Dataset

Size: 97 training samples
Columns: sentence_0, sentence_1, sentence_2, and sentence_3

Approximate statistics based on the first 97 samples:

	sentence_0	sentence_1	sentence_2	sentence_3
type	string	string	string	string
details	min: 29 tokens mean: 36.74 tokens max: 61 tokens	min: 120 tokens mean: 253.62 tokens max: 256 tokens	min: 189 tokens mean: 252.74 tokens max: 256 tokens	min: 120 tokens mean: 251.22 tokens max: 256 tokens

Samples:

sentence_0	sentence_1	sentence_2	sentence_3
`为这个句子生成表示以用于检索相关文章：办婚姻登记要花钱吗？`	书》；对申请材料不齐全或者不符合法定形式的，一次告知申请人需要补正的全部内容。收费标准是否收费不收费设定依据设定依据 1 法律法规名称：《婚姻登记条例》依据文号：（国务院令》第387号条款号：第二条第一款条款内容：第二条第一款内地居民办理婚姻登记的机关是县级人民政府民政部门或者乡（镇）人民政府，省、自治区、直辖市人民政府可以按照便民原则确定农村居民办理婚姻登记的具体机关。常见问题	百三十七条条款内容：第一百三十二条申请变更姓名，应当提交居民户口簿居民身份证，并按照第一百三十一规定提交书面申请，向户口所在地公安派出所申请。未满18周岁的须由亲生父母协商一致并同时到户口所在地公安派出所申请，已满8周岁的还应当征得本人签字同意；父母离婚后，双方未取得一致意见申请未满18岁子女姓名变更的，不予受理；父母一方死亡的，由另一方吃注销原因为死亡的《户口注销证明》，到户口所在地公安派出所办理。第一百三十七条因收养等关系变化或者重新确认，按照第七十五条规定申请变更。常见问题	纸质 cf2c66b5-2 纸质材料规格： 64a-457d- 居民户口簿 990d-98e5 （户主页、本 ebf36fea 人页）办理流程网上办理流程无步骤序号流程名称办理时间办理人员办理结果审批标准步骤 1 申请 0.1个工作日周君结婚证《婚姻登记条例》步骤 2 审核 0.8个工作日周君结婚证《婚姻登记条例》步骤 3 决定 0.1个工作日周君结婚证《婚姻登记条例》窗口办理流程双方当事人携相关材料至婚姻登记处进行办理，相关资料查验合格后方可进行婚姻登记步骤序号流程名称办理时间办理人员办理结果审批标准步骤 1 申请 0.1个工作日周君结婚证《婚姻登记条例》步骤 2 审核 0.8个工作日周君结婚证《婚姻登记条例》步骤 3 决定 0.1个工作日周君结婚证《婚姻登记条例》收费标准是否收费不收费设定依据设定依据 1 法律法规名称：《婚姻登记条例》依据文号：（国务院令》第387号条款号：第二条第一款条款内容：第二条第一款内地居民办理婚姻登记的机关是县级人民政府民政部门或者乡（镇）人民政府，省
`为这个句子生成表示以用于检索相关文章：边境管理区通行证怎么办理？`	边境管理区通行证（深圳、珠海经济特区除外）核发指南地址: https://zwfw.xinjiang.gov.cn/bmfwtest/guidetest/guidance.html?taskcode=11650 100k4549775724000163013000 办事二维码：基础信息事项类型行政许可办件类型即办件事项编码 11650100k4549775724000163013000 到办事现场次数 0 网上办理深度 IV级乌鲁木齐市公安局经济技术开发实施主体行使层级县（市、区）级区分局承诺办结时限 1(工作日) 法定办结时限 1(工作日) 咨询方式话务平台：12367 监督投诉方式 0991-2168135 周一至周五夏季全天 10:30:00至18:30:00 冬季全天 10:30:00至18:30:00法定节假日除外，中午不办理时间休息新疆维吾尔自治区乌鲁木齐市头屯河区（经济技术开发区）高铁片区管天鹅湖社区维泰南路1号维泰大厦政务服务中心 2楼 2B501窗口 2楼 http://api.map.baidu.com/geoc	进行初步审查，审查合格予以受理。步骤 2 审核 0.3个工作日窗口民警古丽米热证件办理成功/业务审提交的材料是否齐全，是否符合法定批未通过形式，材料内容需要核实的，核实相关材料真实性。步骤 3 办结 0.1个工作日窗口民警古丽米热办结发证根据审批结果情况，结束办理过程，将办理结果通知申请人。收费标准是否收费不收费设定依据设定依据 1 法律法规名称：《中华人民共和国边境管理区通行证管理办法》依据文号：【1999】公安部令第42号条款号：第一章第二条条款内容：国家在陆地边境地区划定边境管理区(含深圳、珠海经济特区)，实行《中华人民共和国边境管理区通行证》（以下简称《边境通行证》）验查管理制度。设定依据 2 法律法规名称：《国务院对确需保留的行政审批项目设定行政许可的决定》依据文号：国务院令第412号条款号：第42项条款内容：“边境管理区通行证核发” 实施机关：地（市）、县级人民政府公安机关。常见问题	委托通办范围跨县联办机构无服务对象自然人受理条件材料齐全，符合法定形式。办理材料序号材料名称材料依据材料形式材料要求材料下载其他信息 1 居民身份纸质原件材料材料必要性 https://zwf 来源渠道：证份数：必要 w.xinjiang.g 政府部门核发 1 其他要求： ov.cn/xjzw 填报须知：纸质复印件材材料类型： dt/rest/atta 料份数：原件 ch/openAtt 要求填报的材 0 材料形式： ach?client= 料依据：纸质和电子纸质材料规格：原件办理流程网上办理流程边防通行证业务目前主要有边防通行证的办理功能。当前登录用户通过互联网办事大厅，进入边防类业务，选择边防通行证进行通行证的业务办理，阅读办理须知，电脑需为IE浏览器并且安装的的插件，方可进行网上申请。阅读须知并按要求安装插件后，勾选“我已阅读并同意遵守”，进行下一步，填写边防通行证办理的具体信息，然后进行的人像验证，最后确认所填信息，最终提交，完成边防通行证业务的网上申请办理。步骤序号流程名称办理时间办理人
`为这个句子生成表示以用于检索相关文章：怎么申请户口簿表证？`	.申请：申领人通过窗口或新疆政务服务网（微警务）申请，提交申请材料。 2.受理审核：工作人员对提交的材料进行审查，对提交材料齐全并符合法定形式的当场受理，对需要补正材料的当场一次性告知。 3.办结：出具户口簿表证，并通知申请人自取或邮寄送达。步骤序号流程名称办理时间办理人员办理结果审批标准步骤 1 受理 3个工作日孙晨受理/不予受理材料齐全符合法定形式，予以受理；材料不全，一次性告知补全材料；材料齐全，予以受理步骤 2 审核 9个工作日孙晨通过/不通过提交材料是否齐全、是否符合法定形式，材料内容需要核实的，核实相关材料的真实性。步骤 3 办结 3个工作日孙晨办结发证根据审批结果情况，结束办理过程，将办理结果通知申请人。窗口办理流程 1.申请：申领人通过窗口或新疆政务服务网（微警务）申请，提交申请材料。 2.受理审核：工作人员对提交的材料进行审查，对提交材料齐全并符合法定形式的当场受理，对需要补正材料的当场一次性告知。 3.办结：出具户口簿表证，并通知申请人自取或邮寄送达。步骤序号流程名称办理时间办理人员办理结果审批标准步	= 料依据：的需提交）纸质纸质材料规格： A4 办理流程网上办理流程 1.申请：申领人通过窗口或新疆政务服务网（微警务）申请，提交申请材料。 2.受理审核：工作人员对提交的材料进行审查，对提交材料齐全并符合法定形式的当场受理，对需要补正材料的当场一次性告知。 3.办结：受理成功打印表证，并通知申请人自取或邮寄送达。步骤序号流程名称办理时间办理人员办理结果审批标准步骤 1 受理 2个工作日孙晨受理/不予受理不符合受理条件的，出具不予受理通知书，材料不齐全或者不符合法定形式,一次性告知补正的全部材料，送达《补正申请材料通知书》；申请材料齐全，并且符合法定形式，予以受理并送达《受理通知书》步骤 2 审核 6个工作日孙晨通过/不通过提交材料是否齐全，是否符合法定形式；材料内容需要核实的核实相关材料真实性，根据相关规定对受理材料进行审查，根据审核情况作出准予登记或不予行政许可的决定。步骤 3 办结 2个工作日孙晨办结发证根据审批结果情况，结束办理过程，将办理结果通知办理人。窗口办理流程 1.申请：申领人通过窗口或新疆政务服务网	人口明传［2018］ 306号）【规范性文件】《新疆维吾尔自治区常住户口登记管理规范》（新公通［2013］ 75号）对材料进行审核办理流程网上办理流程 1.申请：申领人通过窗口或新疆政务服务网（微警务）申请，提交材料。 2.受理审核：工作人员对提交的材料进行审查，对提交材料齐全并符合法定形式的当场受理，对需要补正材料的当场一次性告知。 3.办结：受理成功打印表证，并通知申请人自取或邮寄送达。步骤序号流程名称办理时间办理人员办理结果审批标准步骤 1 受理 3个工作日孙晨受理/不予受理不符合受理条件的，出具不予受理通知书，材料不齐全或者不符合法定形式,一次性告知补正的全部材料，送达《补正申请材料通知书》；申请材料齐全，并且符合法定形式，予以受理并送达《受理通知书》步骤 2 审核 9个工作日孙晨通过/不通过提交材料是否齐全、是否符合法定形式；材料内容需要核实的，核实相关材料真实性。步骤 3 办结 3个工作日孙晨办结发证根据审批结果情况，结束办理过程，将办理结果通知办理人。窗口办理流程 1.申请：申领人通过

Loss: MultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "gather_across_devices": false
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 1
per_device_eval_batch_size: 1
fp16: True
multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 1
per_device_eval_batch_size: 1
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 5e-05
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1
num_train_epochs: 3
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.0
warmup_steps: 0
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: False
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch_fused
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
project: huggingface
trackio_space_id: trackio
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
hub_revision: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: no
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
liger_kernel_config: None
eval_use_gather_object: False
average_tokens_across_devices: True
prompts: None
batch_sampler: batch_sampler
multi_dataset_batch_sampler: round_robin
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Epoch	Step	dev_eval_cosine_ndcg@10
0.4948	48	0.4643

Framework Versions

Python: 3.12.12
Sentence Transformers: 5.2.0
Transformers: 4.57.3
PyTorch: 2.9.0+cu126
Accelerate: 1.12.0
Datasets: 4.0.0
Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

Downloads last month: 2

Safetensors

Model size

0.3B params

Tensor type

F32

Model tree for Ye0101/bge-finetuned-rag

Base model

BAAI/bge-large-zh-v1.5

Finetuned

(9)

this model

Papers for Ye0101/bge-finetuned-rag

Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks

Paper • 1908.10084 • Published Aug 27, 2019 • 14

Efficient Natural Language Response Suggestion for Smart Reply

Paper • 1705.00652 • Published May 1, 2017

Evaluation results

Cosine Accuracy@1 on dev eval
self-reported

0.273
Cosine Accuracy@3 on dev eval
self-reported

0.364
Cosine Accuracy@5 on dev eval
self-reported

0.636
Cosine Accuracy@10 on dev eval
self-reported

0.727
Cosine Precision@1 on dev eval
self-reported

0.273
Cosine Precision@3 on dev eval
self-reported

0.121
Cosine Precision@5 on dev eval
self-reported

0.127
Cosine Precision@10 on dev eval
self-reported

0.073