SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder

This is a sentence-transformers model finetuned from bkai-foundation-models/vietnamese-bi-encoder. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Base model: bkai-foundation-models/vietnamese-bi-encoder
Maximum Sequence Length: 256 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("truong1301/bi_encoder_viwiki")
# Run inference
sentences = [
    'Có phải số lượng sinh viên tốt nghiệp ngành khoa học, công nghệ, kỹ thuật và toán học của Mỹ cao gấp đôi so với Trung Quốc, mặc dù dân số Trung Quốc hơn Mỹ 4,2 lần?\n',
    'Bên cạnh Huawei, việc công ty thiết bị viễn thông lớn thứ hai Trung Quốc là ZTE bị đẩy vào tình trạng khó khăn sau khi bị Mỹ cấm vận công nghệ cho thấy Trung Quốc vẫn còn phụ thuộc Mỹ rất lớn về một số công nghệ. Trên tạp chí Forbes, ông Jean Baptiste Su, Phó Chủ tịch công ty nghiên cứu thị trường công nghệ Atherton Research (Mỹ) cho rằng khó khăn của ZTE sau lệnh cấm vận công nghệ của Mỹ cho thấy hầu như tất cả các công ty lớn của Trung Quốc hiện đang phụ thuộc lớn vào các công nghệ của Mỹ. Các công ty lớn của Trung Quốc từ Baidu, Alibaba, Tencent, Xiaomi, Didi Chuxing cho đến Ngân hàng Trung Quốc (BOC), Ngân hàng Công thương Trung Quốc (ICBC), các công ty viễn thông China Mobile, China Telecom, tập đoàn dầu khí nhà nước Trung Quốc Petro China, hãng ô tô nhà nước SAIC... đều dựa vào công nghệ, linh kiện, phần mềm hoặc tài sản sở hữu trí tuệ của các công ty nước ngoài như Apple, Google, Intel, Qualcomm, Cisco, Micron, Microsoft... Tác giả cho rằng một lệnh cấm bán công nghệ Mỹ cho các công ty Trung Quốc có thể làm suy sụp nền kinh tế Trung QuốcTheo một bài phân tích của Bloomberg, bên cạnh một số lĩnh vực không sánh được với Mỹ thì Trung Quốc cũng có những thế mạnh riêng để phát triển trong tương lai, như quy mô dân số, số người dùng internet, việc Huawei là hãng mạnh nhất về phát triển của công nghệ 5G mà các nhà mạng toàn cầu mới bắt đầu triển khai. Năm 2016, Trung Quốc có 4,7 triệu sinh viên tốt nghiệp các ngành khoa học, công nghệ, kỹ thuật và toán học gần đây, trong khi Mỹ chỉ có 568.000 (dân số Trung Quốc gấp 4,2 lần dân số Mỹ, tính theo tỷ lệ dân số thì chỉ số này của Trung Quốc cao hơn 2 lần so với Mỹ). Chuỗi lắp ráp, sản xuất tại Trung Quốc nhìn chung vẫn nhỉnh hơn Mỹ về mặt tổng sản lượng trong nhiều ngành công nghiệp và luôn có chi phí thấp hơn Mỹ. Chiến tranh lạnh về công nghệ ngày càng tăng tiến giữa Trung Quốc và Mỹ sẽ rất khó tìm bên chiến thắng rõ ràng.',
    'Cơ quan lập pháp dân cử của Nhật Bản là Quốc hội (国会, Kokkai), đặt trụ sở tại Chiyoda, Tokyo. Quốc hội hoạt động theo cơ chế lưỡng viện, trong đó Hạ viện (衆議院 (Chúng Nghị viện), Shūgiin) có 465 ghế, được cử tri bầu chọn sau mỗi bốn năm hoặc sau khi giải tán, và Thượng viện (参議院 (Tham Nghị viện), Sangiin) có 245 ghế, được cử tri bầu chọn cho nhiệm kỳ sáu năm và cứ mỗi ba năm được bầu lại một nửa số thành viên. Quyền bầu cử theo nguyên tắc phổ thông đầu phiếu thuộc về mọi công dân Nhật Bản trên 18 tuổi không phân biệt nam-nữ, trong đó áp dụng phương thức bỏ phiếu kín tại tất cả đơn vị bầu cử. Các nghị sĩ quốc hội chủ yếu là người của Đảng Dân chủ Tự do có khuynh hướng bảo thủ. Đảng Dân chủ Tự do đã liên tiếp giành thắng lợi trong các cuộc tổng tuyển cử kể từ năm 1955, ngoại trừ hai giai đoạn từ năm 1993–1994 và từ năm 2009–2012. Đảng này chiếm 262 ghế trong Chúng Nghị viện và 113 ghế trong Tham Nghị viện.',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[ 1.0000,  0.4291, -0.0117],
#         [ 0.4291,  1.0000, -0.0461],
#         [-0.0117, -0.0461,  1.0000]])

Training Details

Training Dataset

Unnamed Dataset

Size: 16,581 training samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 10 tokens
mean: 28.15 tokens
max: 99 tokens

min: 39 tokens
mean: 168.05 tokens
max: 256 tokens

	anchor	positive
type	string	string
details	min: 10 tokens mean: 28.15 tokens max: 99 tokens	min: 39 tokens mean: 168.05 tokens max: 256 tokens

Samples:

anchor	positive
`Vì sao chế độ quân chủ chuyên chế nhà Thanh không thể bảo vệ Trung Quốc trước sự xâm lược của phương Tây và chủ nghĩa tư bản?`	Cuối thời nhà Thanh, do sự lạc hậu về khoa học công nghệ, Trung Quốc bị các nước phương Tây (Anh, Đức, Nga, Pháp, Bồ Đào Nha) và cả Nhật Bản xâu xé lãnh thổ. Các nhà sử học Trung Quốc gọi thời kỳ này là Bách niên quốc sỉ (100 năm đất nước bị làm nhục). Chế độ quân chủ chuyên chế đã tỏ ra quá già cỗi, hoàn toàn bất lực trong việc bảo vệ đất nước chống lại chủ nghĩa tư bản phương Tây. Điều này gây bất bình trong đội ngũ trí thức Trung Quốc, một bộ phận kêu gọi tiến hành cách mạng lật đổ chế độ quân chủ chuyên chế của nhà Thanh, thành lập một kiểu nhà nước mới để canh tân đất nước. Năm 1911, cách mạng Tân Hợi nổ ra, hoàng đế cuối cùng của Trung Quốc là Phổ Nghi buộc phải thoái vị.
`Cuộc đảo chính lật đổ nền quân chủ Yemen và thành lập Cộng hòa Ả Rập Yemen có phải là nguyên nhân dẫn đến nội chiến ở nước này không?`	`1962: Khủng hoảng tên lửa Cuba. Algérie giành độc lập. Cái chết của Marilyn Monroe. Chiến tranh Indonesia- Malaysia. Một cuộc đảo chính lật đổ nền quân chủ và thành lập nước Cộng hòa Ả Rập Yemen dẫn tới cuộc nội chiến tại nước này. Chiến tranh Trung-Ấn.`
`Năm 1956, sau khi Pháp rút quân khỏi Việt Nam, ai là người lãnh đạo Quốc gia Việt Nam?`	`Năm 1954 - Hiệp định Genève quy định lấy vĩ tuyến 17 làm ranh giới quân sự tạm thời (bao gồm cả trên đất liền và trên biển). Quần đảo Hoàng Sa nằm ở phía Nam vĩ tuyến 17, được giao cho chính quyền Liên Hiệp Pháp quản lý. Năm 1956, sau khi Pháp hoàn tất rút quân khỏi Việt Nam, Quốc gia Việt Nam (quốc trưởng Bảo Đại đứng đầu) đứng ra quản lý.`

Loss: CachedMultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "mini_batch_size": 1024,
    "gather_across_devices": false
}

Evaluation Dataset

Unnamed Dataset

Size: 2,090 evaluation samples
Columns: anchor and positive
Approximate statistics based on the first 1000 samples:
anchor positive
type string string
details
min: 11 tokens
mean: 28.29 tokens
max: 74 tokens

min: 38 tokens
mean: 166.25 tokens
max: 256 tokens

	anchor	positive
type	string	string
details	min: 11 tokens mean: 28.29 tokens max: 74 tokens	min: 38 tokens mean: 166.25 tokens max: 256 tokens

Samples:

anchor	positive
`Liệu sự bất bình đẳng giới giữa con trai và con gái có phải là một vấn đề nghiêm trọng, đặc biệt là ở Ấn Độ không?`	Phá thai nếu sinh con gáiNhiều gia đình ở Ấn Độ bị áp lực bởi truyền thống trao của hồi môn cho con gái trước khi về nhà chồng, hoặc bị mất danh dự do con gái xấu xí, hoặc đã bị hãm hiếp mà không lấy được chồng, bởi vậy họ không hề muốn sinh con gái. Ngược lại, con trai là người duy trì dòng tộc và mang lại tiền bạc từ của hồi môn của vợ. Kết quả là, việc phá thai nếu chẩn đoán là con gái xảy ra phổ biến ở khắp nơi, kể cả ở thành phố và các gia đình có giáo dục. Cách phá thai phổ biến nhất là ăn một số loại thảo dược. Nếu sinh con rồi, họ có thể dìm con trong sữa cho chết ngạt, hoặc cho con ăn thức ăn quá lớn để chết vì nghẹn, thậm chí chôn sống con.
`Sự kiện ly khai của họ Nguyễn và việc chúa Trịnh đem quân đánh vào năm 1627 đã dẫn đến thời kỳ Trịnh-Nguyễn phân tranh kéo dài hơn 40 năm phải không?`	Biết rằng họ Nguyễn ly khai, không chịu thần phục nữa, tháng 3 năm 1627, chúa Trịnh mang quân đi đánh họ Nguyễn. Sự kiện này đánh dấu sự chia tách hoàn toàn cả về lý thuyết và thực tế của xứ Thuận Quảng tức Đàng Trong của Chúa Nguyễn với Đàng Ngoài của Chúa Trịnh. Nó cũng tạo ra thời kỳ Trịnh-Nguyễn phân tranh kéo dài 45 năm, từ 1627 đến 1672, với 7 cuộc đại chiến của 2 bên. Dân tình quá khổ cực, chán nản, hai họ Trịnh, Nguyễn phải ngừng chiến, lấy sông Gianh làm ranh giới chia cắt lãnh thổ, miền Nam sông Gianh–Rào Nan thuộc quyền chúa Nguyễn, được gọi là Đàng Trong.
`Kiến trúc ở Kyoto, Uji có phải là một trong những công trình mang đậm nét sử thi về lịch sử cố đô Kyoto không?`	Các công trình kiến trúc lịch sử cố đô Kyoto nằm rải rác 17 địa điểm trong đó ba công trình ở Kyoto, Ujin thuộc phủ Kyoto và Otsu ở huyện Shiga. Gồm có 3 chùa phật giáo, 3 đền Thần đạo và một lâu đài. Riêng 38 cơ sở kiến trúc được chính phủ liệt vào danh sách Di sản quốc gia, 160 kiến trúc khác vào danh sách Các công trình văn hóa quan trọng. Tám khu vườn thắng cảnh đặc biệt và bốn với Thắng cảnh đẹp. Công nhận năm 1994.

Loss: CachedMultipleNegativesRankingLoss with these parameters:

{
    "scale": 20.0,
    "similarity_fct": "cos_sim",
    "mini_batch_size": 1024,
    "gather_across_devices": false
}

Training Hyperparameters

Non-Default Hyperparameters

eval_strategy: steps
per_device_train_batch_size: 32
per_device_eval_batch_size: 32
learning_rate: 2e-05
weight_decay: 0.01
num_train_epochs: 5
warmup_ratio: 0.1
warmup_steps: 50
fp16: True
load_best_model_at_end: True
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

overwrite_output_dir: False
do_predict: False
eval_strategy: steps
prediction_loss_only: True
per_device_train_batch_size: 32
per_device_eval_batch_size: 32
per_gpu_train_batch_size: None
per_gpu_eval_batch_size: None
gradient_accumulation_steps: 1
eval_accumulation_steps: None
torch_empty_cache_steps: None
learning_rate: 2e-05
weight_decay: 0.01
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
max_grad_norm: 1.0
num_train_epochs: 5
max_steps: -1
lr_scheduler_type: linear
lr_scheduler_kwargs: {}
warmup_ratio: 0.1
warmup_steps: 50
log_level: passive
log_level_replica: warning
log_on_each_node: True
logging_nan_inf_filter: True
save_safetensors: True
save_on_each_node: False
save_only_model: False
restore_callback_states_from_checkpoint: False
no_cuda: False
use_cpu: False
use_mps_device: False
seed: 42
data_seed: None
jit_mode_eval: False
use_ipex: False
bf16: False
fp16: True
fp16_opt_level: O1
half_precision_backend: auto
bf16_full_eval: False
fp16_full_eval: False
tf32: None
local_rank: 0
ddp_backend: None
tpu_num_cores: None
tpu_metrics_debug: False
debug: []
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_prefetch_factor: None
past_index: -1
disable_tqdm: False
remove_unused_columns: True
label_names: None
load_best_model_at_end: True
ignore_data_skip: False
fsdp: []
fsdp_min_num_params: 0
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
tp_size: 0
fsdp_transformer_layer_cls_to_wrap: None
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
deepspeed: None
label_smoothing_factor: 0.0
optim: adamw_torch
optim_args: None
adafactor: False
group_by_length: False
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
dataloader_pin_memory: True
dataloader_persistent_workers: False
skip_memory_metrics: True
use_legacy_prediction_loop: False
push_to_hub: False
resume_from_checkpoint: None
hub_model_id: None
hub_strategy: every_save
hub_private_repo: None
hub_always_push: False
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
include_inputs_for_metrics: False
include_for_metrics: []
eval_do_concat_batches: True
fp16_backend: auto
push_to_hub_model_id: None
push_to_hub_organization: None
mp_parameters:
auto_find_batch_size: False
full_determinism: False
torchdynamo: None
ray_scope: last
ddp_timeout: 1800
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
include_tokens_per_second: False
include_num_input_tokens_seen: False
neftune_noise_alpha: None
optim_target_modules: None
batch_eval_metrics: False
eval_on_start: False
use_liger_kernel: False
eval_use_gather_object: False
average_tokens_across_devices: False
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Epoch	Step	Training Loss	Validation Loss
0.1927	100	0.3333	-
0.3854	200	0.2494	-
0.5780	300	0.2223	0.1975
0.7707	400	0.2037	-
0.9634	500	0.1883	-
1.1561	600	0.1791	0.1547
1.3487	700	0.1387	-
1.5414	800	0.1362	-
1.7341	900	0.1324	0.1313
1.9268	1000	0.1218	-
2.1195	1100	0.0969	-
2.3121	1200	0.0814	0.1127
2.5048	1300	0.09	-
2.6975	1400	0.0859	-
2.8902	1500	0.083	0.1069
3.0829	1600	0.0722	-
3.2755	1700	0.054	-
3.4682	1800	0.0446	0.1004
3.6609	1900	0.0553	-
3.8536	2000	0.059	-
4.0462	2100	0.0517	0.0920
4.2389	2200	0.0303	-
4.4316	2300	0.0362	-
4.6243	2400	0.0352	0.0891
4.8170	2500	0.033	-

The bold row denotes the saved checkpoint.

Framework Versions

Python: 3.11.11
Sentence Transformers: 5.1.0
Transformers: 4.51.1
PyTorch: 2.5.1+cu124
Accelerate: 1.3.0
Datasets: 3.5.0
Tokenizers: 0.21.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}