SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder

This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("truong1301/bi_encoder_viwiki")
# Run inference
sentences = [
    'Có phải số lượng sinh viên tốt nghiệp ngành khoa học, công nghệ, kỹ thuật và toán học của Mỹ cao gấp đôi so với Trung Quốc, mặc dù dân số Trung Quốc hơn Mỹ 4,2 lần?\n',
    'Bên cạnh Huawei, việc công ty thiết bị viễn thông lớn thứ hai Trung Quốc là ZTE bị đẩy vào tình trạng khó khăn sau khi bị Mỹ cấm vận công nghệ cho thấy Trung Quốc vẫn còn phụ thuộc Mỹ rất lớn về một số công nghệ. Trên tạp chí Forbes, ông Jean Baptiste Su, Phó Chủ tịch công ty nghiên cứu thị trường công nghệ Atherton Research (Mỹ) cho rằng khó khăn của ZTE sau lệnh cấm vận công nghệ của Mỹ cho thấy hầu như tất cả các công ty lớn của Trung Quốc hiện đang phụ thuộc lớn vào các công nghệ của Mỹ. Các công ty lớn của Trung Quốc từ Baidu, Alibaba, Tencent, Xiaomi, Didi Chuxing cho đến Ngân hàng Trung Quốc (BOC), Ngân hàng Công thương Trung Quốc (ICBC), các công ty viễn thông China Mobile, China Telecom, tập đoàn dầu khí nhà nước Trung Quốc Petro China, hãng ô tô nhà nước SAIC... đều dựa vào công nghệ, linh kiện, phần mềm hoặc tài sản sở hữu trí tuệ của các công ty nước ngoài như Apple, Google, Intel, Qualcomm, Cisco, Micron, Microsoft... Tác giả cho rằng một lệnh cấm bán công nghệ Mỹ cho các công ty Trung Quốc có thể làm suy sụp nền kinh tế Trung QuốcTheo một bài phân tích của Bloomberg, bên cạnh một số lĩnh vực không sánh được với Mỹ thì Trung Quốc cũng có những thế mạnh riêng để phát triển trong tương lai, như quy mô dân số, số người dùng internet, việc Huawei là hãng mạnh nhất về phát triển của công nghệ 5G mà các nhà mạng toàn cầu mới bắt đầu triển khai. Năm 2016, Trung Quốc có 4,7 triệu sinh viên tốt nghiệp các ngành khoa học, công nghệ, kỹ thuật và toán học gần đây, trong khi Mỹ chỉ có 568.000 (dân số Trung Quốc gấp 4,2 lần dân số Mỹ, tính theo tỷ lệ dân số thì chỉ số này của Trung Quốc cao hơn 2 lần so với Mỹ). Chuỗi lắp ráp, sản xuất tại Trung Quốc nhìn chung vẫn nhỉnh hơn Mỹ về mặt tổng sản lượng trong nhiều ngành công nghiệp và luôn có chi phí thấp hơn Mỹ. Chiến tranh lạnh về công nghệ ngày càng tăng tiến giữa Trung Quốc và Mỹ sẽ rất khó tìm bên chiến thắng rõ ràng.',
    'Cơ quan lập pháp dân cử của Nhật Bản là Quốc hội (国会, Kokkai), đặt trụ sở tại Chiyoda, Tokyo. Quốc hội hoạt động theo cơ chế lưỡng viện, trong đó Hạ viện (衆議院 (Chúng Nghị viện), Shūgiin) có 465 ghế, được cử tri bầu chọn sau mỗi bốn năm hoặc sau khi giải tán, và Thượng viện (参議院 (Tham Nghị viện), Sangiin) có 245 ghế, được cử tri bầu chọn cho nhiệm kỳ sáu năm và cứ mỗi ba năm được bầu lại một nửa số thành viên. Quyền bầu cử theo nguyên tắc phổ thông đầu phiếu thuộc về mọi công dân Nhật Bản trên 18 tuổi không phân biệt nam-nữ, trong đó áp dụng phương thức bỏ phiếu kín tại tất cả đơn vị bầu cử. Các nghị sĩ quốc hội chủ yếu là người của Đảng Dân chủ Tự do có khuynh hướng bảo thủ. Đảng Dân chủ Tự do đã liên tiếp giành thắng lợi trong các cuộc tổng tuyển cử kể từ năm 1955, ngoại trừ hai giai đoạn từ năm 1993–1994 và từ năm 2009–2012. Đảng này chiếm 262 ghế trong Chúng Nghị viện và 113 ghế trong Tham Nghị viện.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000,  0.4291, -0.0117],
#         [ 0.4291,  1.0000, -0.0461],
#         [-0.0117, -0.0461,  1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 16,581 training samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 10 tokens
    • mean: 28.15 tokens
    • max: 99 tokens
    • min: 39 tokens
    • mean: 168.05 tokens
    • max: 256 tokens
  • Samples:
    anchor positive
    Vì sao chế độ quân chủ chuyên chế nhà Thanh không thể bảo vệ Trung Quốc trước sự xâm lược của phương Tây và chủ nghĩa tư bản?
    Cuối thời nhà Thanh, do sự lạc hậu về khoa học công nghệ, Trung Quốc bị các nước phương Tây (Anh, Đức, Nga, Pháp, Bồ Đào Nha) và cả Nhật Bản xâu xé lãnh thổ. Các nhà sử học Trung Quốc gọi thời kỳ này là Bách niên quốc sỉ (100 năm đất nước bị làm nhục). Chế độ quân chủ chuyên chế đã tỏ ra quá già cỗi, hoàn toàn bất lực trong việc bảo vệ đất nước chống lại chủ nghĩa tư bản phương Tây. Điều này gây bất bình trong đội ngũ trí thức Trung Quốc, một bộ phận kêu gọi tiến hành cách mạng lật đổ chế độ quân chủ chuyên chế của nhà Thanh, thành lập một kiểu nhà nước mới để canh tân đất nước. Năm 1911, cách mạng Tân Hợi nổ ra, hoàng đế cuối cùng của Trung Quốc là Phổ Nghi buộc phải thoái vị.
    Cuộc đảo chính lật đổ nền quân chủ Yemen và thành lập Cộng hòa Ả Rập Yemen có phải là nguyên nhân dẫn đến nội chiến ở nước này không?
    1962: Khủng hoảng tên lửa Cuba. Algérie giành độc lập. Cái chết của Marilyn Monroe. Chiến tranh Indonesia- Malaysia. Một cuộc đảo chính lật đổ nền quân chủ và thành lập nước Cộng hòa Ả Rập Yemen dẫn tới cuộc nội chiến tại nước này. Chiến tranh Trung-Ấn.
    Năm 1956, sau khi Pháp rút quân khỏi Việt Nam, ai là người lãnh đạo Quốc gia Việt Nam?
    Năm 1954 - Hiệp định Genève quy định lấy vĩ tuyến 17 làm ranh giới quân sự tạm thời (bao gồm cả trên đất liền và trên biển). Quần đảo Hoàng Sa nằm ở phía Nam vĩ tuyến 17, được giao cho chính quyền Liên Hiệp Pháp quản lý. Năm 1956, sau khi Pháp hoàn tất rút quân khỏi Việt Nam, Quốc gia Việt Nam (quốc trưởng Bảo Đại đứng đầu) đứng ra quản lý.
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 1024,
        "gather_across_devices": false
    }
    

Evaluation Dataset

Unnamed Dataset

  • Size: 2,090 evaluation samples
  • Columns: anchor and positive
  • Approximate statistics based on the first 1000 samples:
    anchor positive
    type string string
    details
    • min: 11 tokens
    • mean: 28.29 tokens
    • max: 74 tokens
    • min: 38 tokens
    • mean: 166.25 tokens
    • max: 256 tokens
  • Samples:
    anchor positive
    Liệu sự bất bình đẳng giới giữa con trai và con gái có phải là một vấn đề nghiêm trọng, đặc biệt là ở Ấn Độ không?
    Phá thai nếu sinh con gáiNhiều gia đình ở Ấn Độ bị áp lực bởi truyền thống trao của hồi môn cho con gái trước khi về nhà chồng, hoặc bị mất danh dự do con gái xấu xí, hoặc đã bị hãm hiếp mà không lấy được chồng, bởi vậy họ không hề muốn sinh con gái. Ngược lại, con trai là người duy trì dòng tộc và mang lại tiền bạc từ của hồi môn của vợ. Kết quả là, việc phá thai nếu chẩn đoán là con gái xảy ra phổ biến ở khắp nơi, kể cả ở thành phố và các gia đình có giáo dục. Cách phá thai phổ biến nhất là ăn một số loại thảo dược. Nếu sinh con rồi, họ có thể dìm con trong sữa cho chết ngạt, hoặc cho con ăn thức ăn quá lớn để chết vì nghẹn, thậm chí chôn sống con.
    Sự kiện ly khai của họ Nguyễn và việc chúa Trịnh đem quân đánh vào năm 1627 đã dẫn đến thời kỳ Trịnh-Nguyễn phân tranh kéo dài hơn 40 năm phải không?
    Biết rằng họ Nguyễn ly khai, không chịu thần phục nữa, tháng 3 năm 1627, chúa Trịnh mang quân đi đánh họ Nguyễn. Sự kiện này đánh dấu sự chia tách hoàn toàn cả về lý thuyết và thực tế của xứ Thuận Quảng tức Đàng Trong của Chúa Nguyễn với Đàng Ngoài của Chúa Trịnh. Nó cũng tạo ra thời kỳ Trịnh-Nguyễn phân tranh kéo dài 45 năm, từ 1627 đến 1672, với 7 cuộc đại chiến của 2 bên. Dân tình quá khổ cực, chán nản, hai họ Trịnh, Nguyễn phải ngừng chiến, lấy sông Gianh làm ranh giới chia cắt lãnh thổ, miền Nam sông Gianh–Rào Nan thuộc quyền chúa Nguyễn, được gọi là Đàng Trong.
    Kiến trúc ở Kyoto, Uji có phải là một trong những công trình mang đậm nét sử thi về lịch sử cố đô Kyoto không?
    Các công trình kiến trúc lịch sử cố đô Kyoto nằm rải rác 17 địa điểm trong đó ba công trình ở Kyoto, Ujin thuộc phủ Kyoto và Otsu ở huyện Shiga. Gồm có 3 chùa phật giáo, 3 đền Thần đạo và một lâu đài. Riêng 38 cơ sở kiến trúc được chính phủ liệt vào danh sách Di sản quốc gia, 160 kiến trúc khác vào danh sách Các công trình văn hóa quan trọng. Tám khu vườn thắng cảnh đặc biệt và bốn với Thắng cảnh đẹp. Công nhận năm 1994.
  • Loss: CachedMultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "mini_batch_size": 1024,
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • num_train_epochs: 5
  • warmup_ratio: 0.1
  • warmup_steps: 50
  • fp16: True
  • load_best_model_at_end: True
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.01
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 5
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 50
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: True
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • tp_size: 0
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss
0.1927 100 0.3333 -
0.3854 200 0.2494 -
0.5780 300 0.2223 0.1975
0.7707 400 0.2037 -
0.9634 500 0.1883 -
1.1561 600 0.1791 0.1547
1.3487 700 0.1387 -
1.5414 800 0.1362 -
1.7341 900 0.1324 0.1313
1.9268 1000 0.1218 -
2.1195 1100 0.0969 -
2.3121 1200 0.0814 0.1127
2.5048 1300 0.09 -
2.6975 1400 0.0859 -
2.8902 1500 0.083 0.1069
3.0829 1600 0.0722 -
3.2755 1700 0.054 -
3.4682 1800 0.0446 0.1004
3.6609 1900 0.0553 -
3.8536 2000 0.059 -
4.0462 2100 0.0517 0.0920
4.2389 2200 0.0303 -
4.4316 2300 0.0362 -
4.6243 2400 0.0352 0.0891
4.8170 2500 0.033 -
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.11.11
  • Sentence Transformers: 5.1.0
  • Transformers: 4.51.1
  • PyTorch: 2.5.1+cu124
  • Accelerate: 1.3.0
  • Datasets: 3.5.0
  • Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}
Downloads last month
-
Safetensors
Model size
0.1B params
Tensor type
F32
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for truong1301/bi_encoder_viwiki

Finetuned
(46)
this model

Papers for truong1301/bi_encoder_viwiki