SentenceTransformer based on BAAI/bge-large-zh-v1.5

This is a sentence-transformers model finetuned from BAAI/bge-large-zh-v1.5. It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Base model: BAAI/bge-large-zh-v1.5
  • Maximum Sequence Length: 256 tokens
  • Output Dimensionality: 1024 dimensions
  • Similarity Function: Cosine Similarity

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': True, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '为这个句子生成表示以用于检索相关文章:血缘关系变更姓氏的材料是非必要的话,还需要提供复印件吗?',
    'xjzw 填报须知:\n纸质复印件材 材料类型: dt/rest/atta\n料份数: 原件 ch/openAtt 要求填报的材\n0 材料形式: ach?client= 料依据:\n纸质和电子\n纸质材料规格:\n原件\n3 婚姻关系 纸质原件材料 材料必要性 https://zwf 来源渠道:\n证件(因 份数: 非必要 w.xinjiang.g 政府部门核发\n涉外婚姻 1 其他要求: ov.cn/xjzw 填报须知:\n关系变更 纸质复印件材 材料类型: dt/rest/atta\n姓氏的需 料份数: 原件 ch/openAtt 要求填报的材\n提交) 0 材料形式: ach?client= 料依据:\n纸质和电子\n纸质材料规格:\nA4\n4 关系凭证 纸质原件材料 材料必要性 https://zwf 来源渠道:\n(因血缘 份数: 非必要 w.xinjiang.g 政府部门核发\n关系在其 1 其他要求: ov.cn/xjzw 填报须知:\n直系长辈 纸质复印件材 材料类型: dt/rest/atta\n血亲之间 料份数: 原件 ch/openAtt 要求填报的材\n变更姓氏 0 材料形式: ach?client',
    '百三十七条\n条款内容:第一百三十二条申请变更姓名,应当提交居民户口簿居民身份证,并按照第一百三十一规定提交书面申请,向户口所在地公安派出所申请。\n未满18周岁的须由亲生父母协商一致并同时到户口所在地公安派出所申请,已满8周岁的还应当征得本人签字同意;父母离婚后,双方未取得一\n致意见申请未满18岁子女姓名变更的,不予受理;父母一方死亡的,由另一方吃注销原因为死亡的《户口注销证明》,到户口所在地公安派出所办\n理。\n第一百三十七条因收养等关系变化或者重新确认,按照第七十五条规定申请变更。\n常见问题',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 1024]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.7892, 0.2984],
#         [0.7892, 1.0000, 0.2375],
#         [0.2984, 0.2375, 1.0000]])

Evaluation

Metrics

Information Retrieval

Metric Value
cosine_accuracy@1 0.2727
cosine_accuracy@3 0.3636
cosine_accuracy@5 0.6364
cosine_accuracy@10 0.7273
cosine_precision@1 0.2727
cosine_precision@3 0.1212
cosine_precision@5 0.1273
cosine_precision@10 0.0727
cosine_recall@1 0.2727
cosine_recall@3 0.3636
cosine_recall@5 0.6364
cosine_recall@10 0.7273
cosine_ndcg@10 0.4643
cosine_mrr@10 0.3841
cosine_map@100 0.3906

Training Details

Training Dataset

Unnamed Dataset

  • Size: 97 training samples
  • Columns: sentence_0, sentence_1, sentence_2, and sentence_3
  • Approximate statistics based on the first 97 samples:
    sentence_0 sentence_1 sentence_2 sentence_3
    type string string string string
    details
    • min: 29 tokens
    • mean: 36.74 tokens
    • max: 61 tokens
    • min: 120 tokens
    • mean: 253.62 tokens
    • max: 256 tokens
    • min: 189 tokens
    • mean: 252.74 tokens
    • max: 256 tokens
    • min: 120 tokens
    • mean: 251.22 tokens
    • max: 256 tokens
  • Samples:
    sentence_0 sentence_1 sentence_2 sentence_3
    为这个句子生成表示以用于检索相关文章:办婚姻登记要花钱吗? 书》;
    对申请材料不齐全或者不符合法定形
    式的,一次告知申请人需要补正的全
    部内容。
    收费标准
    是否收费
    不收费
    设定依据
    设定依据 1
    法律法规名称:《婚姻登记条例》
    依据文号:(国务院令》第387号
    条款号:第二条第一款
    条款内容:第二条第一款内地居民办理婚姻登记的机关是县级人民政府民政部门或者乡(镇)人民政府,省、自治区、直辖市人民政府可以按照便民原
    则确定农村居民办理婚姻登记的具体机关。
    常见问题
    百三十七条
    条款内容:第一百三十二条申请变更姓名,应当提交居民户口簿居民身份证,并按照第一百三十一规定提交书面申请,向户口所在地公安派出所申请。
    未满18周岁的须由亲生父母协商一致并同时到户口所在地公安派出所申请,已满8周岁的还应当征得本人签字同意;父母离婚后,双方未取得一
    致意见申请未满18岁子女姓名变更的,不予受理;父母一方死亡的,由另一方吃注销原因为死亡的《户口注销证明》,到户口所在地公安派出所办
    理。
    第一百三十七条因收养等关系变化或者重新确认,按照第七十五条规定申请变更。
    常见问题
    纸质 cf2c66b5-2
    纸质材料规格: 64a-457d-
    居民户口簿 990d-98e5
    (户主页、本 ebf36fea
    人页)
    办理流程
    网上办理流程

    步骤
    序号 流程名称 办理时间 办理人员 办理结果 审批标准
    步骤 1 申请 0.1个工作日 周君 结婚证 《婚姻登记条例》
    步骤 2 审核 0.8个工作日 周君 结婚证 《婚姻登记条例》
    步骤 3 决定 0.1个工作日 周君 结婚证 《婚姻登记条例》
    窗口办理流程
    双方当事人携相关材料至婚姻登记处进行办理,相关资料查验合格后方可进行婚姻登记
    步骤
    序号 流程名称 办理时间 办理人员 办理结果 审批标准
    步骤 1 申请 0.1个工作日 周君 结婚证 《婚姻登记条例》
    步骤 2 审核 0.8个工作日 周君 结婚证 《婚姻登记条例》
    步骤 3 决定 0.1个工作日 周君 结婚证 《婚姻登记条例》
    收费标准
    是否收费
    不收费
    设定依据
    设定依据 1
    法律法规名称:《婚姻登记条例》
    依据文号:(国务院令》第387号
    条款号:第二条第一款
    条款内容:第二条第一款内地居民办理婚姻登记的机关是县级人民政府民政部门或者乡(镇)人民政府,省
    为这个句子生成表示以用于检索相关文章:边境管理区通行证怎么办理? 边境管理区通行证(深圳、珠海经济特区除外)核

    指南地址:
    https://zwfw.xinjiang.gov.cn/bmfwtest/guidetest/guidance.html?taskcode=11650
    100k4549775724000163013000
    办事二维码:
    基础信息
    事项类型 行政许可 办件类型 即办件
    事项编码 11650100k4549775724000163013000
    到办事现场次数 0 网上办理深度 IV级
    乌鲁木齐市公安局经济技术开发
    实施主体 行使层级 县(市、区)级
    区分局
    承诺办结时限 1(工作日) 法定办结时限 1(工作日)
    咨询方式 话务平台:12367
    监督投诉方式 0991-2168135
    周一至周五 夏季 全天 10:30:00至18:30:00 冬季 全天 10:30:00至18:30:00法定节假日除外,中午不
    办理时间
    休息
    新疆维吾尔自治区 乌鲁木齐市 头屯河区(经济技术开发区) 高铁片区管 天鹅湖社区 维泰南路1号维泰大
    厦政务服务中心 2楼 2B501窗口 2楼
    http://api.map.baidu.com/geoc
    进行初步审
    查,审查合格予以受理。
    步骤 2 审核 0.3个工作日 窗口民警古丽米热 证件办理成功/业务审 提交的材料是否齐全,是否符合法定
    批未通过 形式,材料内容需要核实的,核实相
    关材料真实性。
    步骤 3 办结 0.1个工作日 窗口民警古丽米热 办结发证 根据审批结果情况,结束办理过程,
    将办理结果通知申请人。
    收费标准
    是否收费
    不收费
    设定依据
    设定依据 1
    法律法规名称:《中华人民共和国边境管理区通行证管理办法》
    依据文号:【1999】公安部令第42号
    条款号:第一章第二条
    条款内容:国家在陆地边境地区划定边境管理区(含深圳、珠海经济特区),实行《中华人民共和国边境管理区通行证》(以下简称《边境通行证》)验查
    管理制度。
    设定依据 2
    法律法规名称:《国务院对确需保留的行政审批项目设定行政许可的决定》
    依据文号:国务院令第412号
    条款号:第42项
    条款内容:“边境管理区通行证核发” 实施机关:地(市)、县级人民政府公安机关。
    常见问题
    委托 通办范围 跨县
    联办机构 无 服务对象 自然人
    受理条件
    材料齐全,符合法定形式。
    办理材料
    序号 材料名称 材料依据 材料形式 材料要求 材料下载 其他信息
    1 居民身份 纸质原件材料 材料必要性 https://zwf 来源渠道:
    证 份数: 必要 w.xinjiang.g 政府部门核发
    1 其他要求: ov.cn/xjzw 填报须知:
    纸质复印件材 材料类型: dt/rest/atta
    料份数: 原件 ch/openAtt 要求填报的材
    0 材料形式: ach?client= 料依据:
    纸质和电子
    纸质材料规格:
    原件
    办理流程
    网上办理流程
    边防通行证业务目前主要有边防通行证的办理功能。当前登录用户通过互联网办事大厅,进入边防类业务,选择边防通行证进行通行证的业务办理,阅
    读办理须知,电脑需为IE浏览器并且安装的的插件,方可进行网上申请。阅读须知并按要求安装插件后,勾选“我已阅读并同意遵守”,进行下一步,
    填写边防通行证办理的具体信息,然后进行
    的人像验证,最后确认所填信息,最终提交,完成边防通行证业务的网上申请办理。
    步骤
    序号 流程名称 办理时间 办理人
    为这个句子生成表示以用于检索相关文章:怎么申请户口簿表证? .申请:申领人通过窗口或新疆政务服务网(微警务)申请,提交申请材料。
    2.受理审核:工作人员对提交的材料进行审查,对提交材料齐全并符合法定形式的当场受理,对需要补正材料的当场一次性告知。
    3.办结:出具户口簿表证,并通知申请人自取或邮寄送达。
    步骤
    序号 流程名称 办理时间 办理人员 办理结果 审批标准
    步骤 1 受理 3个工作日 孙晨 受理/不予受理 材料齐全符合法定形式,予以受理;
    材料不全,一次性告知补全材料;材
    料齐全,予以受理
    步骤 2 审核 9个工作日 孙晨 通过/不通过 提交材料是否齐全、是否符合法定形
    式,材料内容需要核实的,核实相关
    材料的真实性。
    步骤 3 办结 3个工作日 孙晨 办结发证 根据审批结果情况,结束办理过程,
    将办理结果通知申请人。
    窗口办理流程
    1.申请:申领人通过窗口或新疆政务服务网(微警务)申请,提交申请材料。
    2.受理审核:工作人员对提交的材料进行审查,对提交材料齐全并符合法定形式的当场受理,对需要补正材料的当场一次性告知。
    3.办结:出具户口簿表证,并通知申请人自取或邮寄送达。
    步骤
    序号 流程名称 办理时间 办理人员 办理结果 审批标准
    = 料依据:
    的需提交) 纸质
    纸质材料规格:
    A4
    办理流程
    网上办理流程
    1.申请:申领人通过窗口或新疆政务服务网(微警务)申请,提交申请材料。
    2.受理审核:工作人员对提交的材料进行审查,对提交材料齐全并符合法定形式的当场受理,对需要补正材料的当场一次性告知。
    3.办结:受理成功打印表证,并通知申请人自取或邮寄送达。
    步骤
    序号 流程名称 办理时间 办理人员 办理结果 审批标准
    步骤 1 受理 2个工作日 孙晨 受理/不予受理 不符合受理条件的, 出具不予受理通
    知书,材料不齐全或者不符合法定形
    式,一次性告知补正的全部材料,送达
    《补正申请材料通知书》;申请材料
    齐全,并且符合法定形式,予以受理
    并送达《受理通知书》
    步骤 2 审核 6个工作日 孙晨 通过/不通过 提交材料是否齐全,是否符合法定形
    式;材料内容需要核实的核实相关材
    料真实性,根据相关规定对受理材料
    进行审查,根据审核情况作出准予登
    记或不予行政许可的决定。
    步骤 3 办结 2个工作日 孙晨 办结发证 根据审批结果情况,结束办理过程,
    将办理结果通知办理人。
    窗口办理流程
    1.申请:申领人通过窗口或新疆政务服务网

    口明传
    [2018]
    306号)
    【规范性
    文件】《新
    疆维吾尔
    自治区常
    住户口登
    记管理规
    范》(新公
    通[2013]
    75号) 对
    材料进行
    审核
    办理流程
    网上办理流程
    1.申请:申领人通过窗口或新疆政务服务网(微警务)申请,提交材料。
    2.受理审核:工作人员对提交的材料进行审查,对提交材料齐全并符合法定形式的当场受理,对需要补正材料的当场一次性告知。
    3.办结:受理成功打印表证,并通知申请人自取或邮寄送达。
    步骤
    序号 流程名称 办理时间 办理人员 办理结果 审批标准
    步骤 1 受理 3个工作日 孙晨 受理/不予受理 不符合受理条件的, 出具不予受理通
    知书,材料不齐全或者不符合法定形
    式,一次性告知补正的全部材料,送达
    《补正申请材料通知书》;申请材料
    齐全,并且符合法定形式,予以受理
    并送达《受理通知书》
    步骤 2 审核 9个工作日 孙晨 通过/不通过 提交材料是否齐全、是否符合法定形
    式;材料内容需要核实的,核实相关
    材料真实性。
    步骤 3 办结 3个工作日 孙晨 办结发证 根据审批结果情况,结束办理过程,
    将办理结果通知办理人。
    窗口办理流程
    1.申请:申领人通过
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 1
  • per_device_eval_batch_size: 1
  • fp16: True
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 1
  • per_device_eval_batch_size: 1
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step dev_eval_cosine_ndcg@10
0.4948 48 0.4643

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.2.0
  • Transformers: 4.57.3
  • PyTorch: 2.9.0+cu126
  • Accelerate: 1.12.0
  • Datasets: 4.0.0
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
Downloads last month
1
Safetensors
Model size
0.3B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for Ye0101/bge-finetuned-rag

Finetuned
(6)
this model

Papers for Ye0101/bge-finetuned-rag

Evaluation results