metadata
language:
- vi
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- dense
- generated_from_trainer
- dataset_size:81409
- loss:TripletLoss
base_model: dangvantuan/vietnamese-document-embedding
widget:
- source_sentence: Đâu là lập luận tồi tệ nhất trên thế giới?
sentences:
- Một số ví dụ về phương tiện giao thông cũ và hiện đại là gì?
- Trận chiến nào trong lịch sử thế giới là tồi tệ nhất?
- Cuộc tranh luận tồi tệ nhất trên thế giới là gì?
- source_sentence: Nghị quyết năm mới 2017 của bạn là gì?
sentences:
- >-
Bạn có nghĩ việc các thẩm phán luôn thực thi nguyên tắc loại trừ là quan
trọng hơn không?
- Quyết tâm của bạn cho năm 2017 là gì?
- Quyết tâm năm mới 2016 của bạn là gì?
- source_sentence: Làm thế nào để tôi vượt qua cuộc kiểm tra ma túy đá?
sentences:
- Bạn muốn Donald Trump hay Hillary Clinton trở thành TIỀM NĂNG?
- Tập thể dục có giúp vượt qua bài kiểm tra ma túy đá không?
- >-
Liệu 0,2 gam meth có xuất hiện trong xét nghiệm nước tiểu 99 giờ sau khi
tiêu thụ không?
- source_sentence: >-
Loạt phim về Người ngoài hành tinh cổ đại trên Kênh Lịch sử có độ chính
xác như thế nào?
sentences:
- Bạn nghĩ gì về loạt phim Người ngoài hành tinh cổ đại?
- >-
Nếu Bắc Ireland, xứ Wales hoặc Scotland rời khỏi Vương quốc Anh, liệu lá
cờ của Vương quốc Anh có được giữ nguyên hay trở lại phiên bản trước đó?
- >-
Người ngoài hành tinh cổ đại được chiếu trên Kênh Lịch sử có thật đến
mức nào?
- source_sentence: Antivirus có phục hồi được các tập tin đã xóa không?
sentences:
- Cảm giác là con trai/con gái của cha mẹ đồng tính như thế nào?
- Làm cách nào để khôi phục các tập tin bị xóa vĩnh viễn?
- Làm thế nào phần mềm chống vi-rút phục hồi các tập tin đã xóa?
datasets:
- NghiemAbe/QQP_triplet
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy
model-index:
- name: SentenceTransformer based on dangvantuan/vietnamese-document-embedding
results:
- task:
type: triplet
name: Triplet
dataset:
name: Unknown
type: unknown
metrics:
- type: cosine_accuracy
value: 0.6684518456459045
name: Cosine Accuracy
SentenceTransformer based on dangvantuan/vietnamese-document-embedding
This is a sentence-transformers model finetuned from dangvantuan/vietnamese-document-embedding on the qqp_triplet dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
Model Details
Model Description
- Model Type: Sentence Transformer
- Base model: dangvantuan/vietnamese-document-embedding
- Maximum Sequence Length: 8192 tokens
- Output Dimensionality: 768 dimensions
- Similarity Function: Cosine Similarity
- Training Dataset:
- Language: vi
Model Sources
- Documentation: Sentence Transformers Documentation
- Repository: Sentence Transformers on GitHub
- Hugging Face: Sentence Transformers on Hugging Face
Full Model Architecture
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'VietnameseModel'})
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
(2): Normalize()
)
Usage
Direct Usage (Sentence Transformers)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("KietRiu/vietnamese-document-embedding_FT_QQP")
# Run inference
sentences = [
'Antivirus có phục hồi được các tập tin đã xóa không?',
'Làm thế nào phần mềm chống vi-rút phục hồi các tập tin đã xóa?',
'Làm cách nào để khôi phục các tập tin bị xóa vĩnh viễn?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9915, 0.7706],
# [0.9915, 1.0000, 0.8112],
# [0.7706, 0.8112, 1.0000]])
Evaluation
Metrics
Triplet
- Evaluated with
TripletEvaluator
| Metric | Value |
|---|---|
| cosine_accuracy | 0.6685 |
Training Details
Training Dataset
qqp_triplet
- Dataset: qqp_triplet at a48ebfe
- Size: 81,409 training samples
- Columns:
anchor,positive, andnegative - Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 7 tokens
- mean: 17.34 tokens
- max: 50 tokens
- min: 7 tokens
- mean: 17.34 tokens
- max: 50 tokens
- min: 7 tokens
- mean: 18.08 tokens
- max: 66 tokens
- Samples:
anchor positive negative Donald Trump mong đợi Mexico trả tiền cho bức tường biên giới do ông đề xuất như thế nào?Làm thế nào Donald Trump có thể khiến Mexico trả tiền cho bức tường biên giới?Điều gì sẽ xảy ra nếu bức tường của Trump hoàn toàn không phải là bức tường vật lý? Ông ấy nói Mexico sẽ trả tiền. Một số biện pháp ngăn chặn tài chính mà Mỹ có thể áp đặt là gì? Có thể được không?Sự khác biệt giữa thực phẩm Trung Quốc và thực phẩm phương Tây là gì?Sự khác biệt giữa thực phẩm phương Tây và Trung Quốc là gì?Sự khác biệt giữa thực phẩm Trung Quốc và thực phẩm Nhật Bản là gì?Làm cách nào tôi có thể đặt câu hỏi cho một người cụ thể trên Quora ngoài những câu hỏi được đề xuất?Tôi muốn đặt câu hỏi cho một người cụ thể trên Quora, tôi phải làm gì?Câu hỏi nào bạn có thể hỏi ai đó sẽ khơi dậy cuộc trò chuyện sâu sắc và thú vị? - Loss:
TripletLosswith these parameters:{ "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 0.7 }
Evaluation Dataset
qqp_triplet
- Dataset: qqp_triplet at a48ebfe
- Size: 20,353 evaluation samples
- Columns:
anchor,positive, andnegative - Approximate statistics based on the first 1000 samples:
anchor positive negative type string string string details - min: 6 tokens
- mean: 17.65 tokens
- max: 56 tokens
- min: 6 tokens
- mean: 17.49 tokens
- max: 53 tokens
- min: 6 tokens
- mean: 18.61 tokens
- max: 78 tokens
- Samples:
anchor positive negative Có trang web nào khác tương tự như Quora không?Trang web tương tự như Quora là gì?Quora có phải là một công cụ tìm kiếm (hơn một số loại trang web khác) không?Hanuman Chalisa có thực sự hiệu quả hay chỉ đơn thuần là một hệ thống niềm tin?Việc đọc và nói Hanuman Chalisa đối với tất cả những người theo đạo Hindu có hiệu quả đến mức nào?Tại sao chúng ta nên đọc Hanuman chalisa? Kết quả của nó là gì?Mục đích thực sự của cuộc sống là gì?Mục đích cuộc sống của bạn nên là gì?Chúng ta có thực sự có mục đích nào đó trong cuộc sống không? Hay chúng ta tạo ra một mục đích để khiến bản thân cảm thấy mình có ý nghĩa trong thế giới vô cùng rộng lớn, hay để khiến bản thân cảm thấy rằng sự tồn tại của chúng ta trong thế giới rộng lớn là cần thiết? - Loss:
TripletLosswith these parameters:{ "distance_metric": "TripletDistanceMetric.EUCLIDEAN", "triplet_margin": 0.7 }
Training Hyperparameters
Non-Default Hyperparameters
eval_strategy: stepsper_device_train_batch_size: 64per_device_eval_batch_size: 64eval_accumulation_steps: 1learning_rate: 2e-05warmup_ratio: 0.1bf16: Trueload_best_model_at_end: Trueoptim: adamw_8bitpush_to_hub: Truehub_model_id: KietRiu/vietnamese-document-embedding_FT_QQPbatch_sampler: no_duplicates
All Hyperparameters
Click to expand
overwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 64per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: 1torch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 3max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falsebf16: Truefp16: Falsefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Trueignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}parallelism_config: Nonedeepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_8bitoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthproject: huggingfacetrackio_space_id: trackioddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Trueresume_from_checkpoint: Nonehub_model_id: KietRiu/vietnamese-document-embedding_FT_QQPhub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsehub_revision: Nonegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters:auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: noneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseliger_kernel_config: Noneeval_use_gather_object: Falseaverage_tokens_across_devices: Trueprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportionalrouter_mapping: {}learning_rate_mapping: {}
Training Logs
| Epoch | Step | Training Loss | Validation Loss | cosine_accuracy |
|---|---|---|---|---|
| -1 | -1 | - | - | 0.9535 |
| 0.3928 | 500 | 0.7236 | 0.7945 | 0.6861 |
| 0.7855 | 1000 | 0.6335 | 0.7567 | 0.6616 |
| 1.1783 | 1500 | 0.6148 | 0.7505 | 0.6670 |
| 1.5711 | 2000 | 0.6028 | 0.7680 | 0.6837 |
| 1.9639 | 2500 | 0.593 | 0.7641 | 0.6759 |
| 2.3566 | 3000 | 0.5819 | 0.7465 | 0.6632 |
| 2.7494 | 3500 | 0.5757 | 0.7529 | 0.6685 |
- The bold row denotes the saved checkpoint.
Framework Versions
- Python: 3.12.12
- Sentence Transformers: 5.2.0
- Transformers: 4.57.3
- PyTorch: 2.9.1+cu128
- Accelerate: 1.12.0
- Datasets: 4.3.0
- Tokenizers: 0.22.1
Citation
BibTeX
Sentence Transformers
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
TripletLoss
@misc{hermans2017defense,
title={In Defense of the Triplet Loss for Person Re-Identification},
author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
year={2017},
eprint={1703.07737},
archivePrefix={arXiv},
primaryClass={cs.CV}
}