KietRiu's picture
End of training
6629804 verified
metadata
language:
  - vi
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dense
  - generated_from_trainer
  - dataset_size:81409
  - loss:TripletLoss
base_model: dangvantuan/vietnamese-document-embedding
widget:
  - source_sentence: Đâu  lập luận tồi tệ nhất trên thế giới?
    sentences:
      - Một số  dụ về phương tiện giao thông   hiện đại  gì?
      - Trận chiến nào trong lịch sử thế giới  tồi tệ nhất?
      - Cuộc tranh luận tồi tệ nhất trên thế giới  gì?
  - source_sentence: Nghị quyết năm mới 2017 của bạn  gì?
    sentences:
      - >-
        Bạn có nghĩ việc các thẩm phán luôn thực thi nguyên tắc loại trừ là quan
        trọng hơn không?
      - Quyết tâm của bạn cho năm 2017  gì?
      - Quyết tâm năm mới 2016 của bạn  gì?
  - source_sentence: Làm thế nào để tôi vượt qua cuộc kiểm tra ma túy đá?
    sentences:
      - Bạn muốn Donald Trump hay Hillary Clinton trở thành TIỀM NĂNG?
      - Tập thể dục  giúp vượt qua bài kiểm tra ma túy đá không?
      - >-
        Liệu 0,2 gam meth có xuất hiện trong xét nghiệm nước tiểu 99 giờ sau khi
        tiêu thụ không?
  - source_sentence: >-
      Loạt phim về Người ngoài hành tinh cổ đại trên Kênh Lịch sử có độ chính
      xác như thế nào?
    sentences:
      - Bạn nghĩ  về loạt phim Người ngoài hành tinh cổ đại?
      - >-
        Nếu Bắc Ireland, xứ Wales hoặc Scotland rời khỏi Vương quốc Anh, liệu lá
        cờ của Vương quốc Anh có được giữ nguyên hay trở lại phiên bản trước đó?
      - >-
        Người ngoài hành tinh cổ đại được chiếu trên Kênh Lịch sử có thật đến
        mức nào?
  - source_sentence: Antivirus  phục hồi được các tập tin đã xóa không?
    sentences:
      - Cảm giác  con trai/con gái của cha mẹ đồng tính như thế nào?
      - Làm cách nào để khôi phục các tập tin bị xóa vĩnh viễn?
      - Làm thế nào phần mềm chống vi-rút phục hồi các tập tin đã xóa?
datasets:
  - NghiemAbe/QQP_triplet
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy
model-index:
  - name: SentenceTransformer based on dangvantuan/vietnamese-document-embedding
    results:
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: Unknown
          type: unknown
        metrics:
          - type: cosine_accuracy
            value: 0.6684518456459045
            name: Cosine Accuracy

SentenceTransformer based on dangvantuan/vietnamese-document-embedding

This is a sentence-transformers model finetuned from dangvantuan/vietnamese-document-embedding on the qqp_triplet dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 8192, 'do_lower_case': False, 'architecture': 'VietnameseModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': True, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Normalize()
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("KietRiu/vietnamese-document-embedding_FT_QQP")
# Run inference
sentences = [
    'Antivirus có phục hồi được các tập tin đã xóa không?',
    'Làm thế nào phần mềm chống vi-rút phục hồi các tập tin đã xóa?',
    'Làm cách nào để khôi phục các tập tin bị xóa vĩnh viễn?',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.9915, 0.7706],
#         [0.9915, 1.0000, 0.8112],
#         [0.7706, 0.8112, 1.0000]])

Evaluation

Metrics

Triplet

Metric Value
cosine_accuracy 0.6685

Training Details

Training Dataset

qqp_triplet

  • Dataset: qqp_triplet at a48ebfe
  • Size: 81,409 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 7 tokens
    • mean: 17.34 tokens
    • max: 50 tokens
    • min: 7 tokens
    • mean: 17.34 tokens
    • max: 50 tokens
    • min: 7 tokens
    • mean: 18.08 tokens
    • max: 66 tokens
  • Samples:
    anchor positive negative
    Donald Trump mong đợi Mexico trả tiền cho bức tường biên giới do ông đề xuất như thế nào? Làm thế nào Donald Trump có thể khiến Mexico trả tiền cho bức tường biên giới? Điều gì sẽ xảy ra nếu bức tường của Trump hoàn toàn không phải là bức tường vật lý? Ông ấy nói Mexico sẽ trả tiền. Một số biện pháp ngăn chặn tài chính mà Mỹ có thể áp đặt là gì? Có thể được không?
    Sự khác biệt giữa thực phẩm Trung Quốc và thực phẩm phương Tây là gì? Sự khác biệt giữa thực phẩm phương Tây và Trung Quốc là gì? Sự khác biệt giữa thực phẩm Trung Quốc và thực phẩm Nhật Bản là gì?
    Làm cách nào tôi có thể đặt câu hỏi cho một người cụ thể trên Quora ngoài những câu hỏi được đề xuất? Tôi muốn đặt câu hỏi cho một người cụ thể trên Quora, tôi phải làm gì? Câu hỏi nào bạn có thể hỏi ai đó sẽ khơi dậy cuộc trò chuyện sâu sắc và thú vị?
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 0.7
    }
    

Evaluation Dataset

qqp_triplet

  • Dataset: qqp_triplet at a48ebfe
  • Size: 20,353 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 6 tokens
    • mean: 17.65 tokens
    • max: 56 tokens
    • min: 6 tokens
    • mean: 17.49 tokens
    • max: 53 tokens
    • min: 6 tokens
    • mean: 18.61 tokens
    • max: 78 tokens
  • Samples:
    anchor positive negative
    Có trang web nào khác tương tự như Quora không? Trang web tương tự như Quora là gì? Quora có phải là một công cụ tìm kiếm (hơn một số loại trang web khác) không?
    Hanuman Chalisa có thực sự hiệu quả hay chỉ đơn thuần là một hệ thống niềm tin? Việc đọc và nói Hanuman Chalisa đối với tất cả những người theo đạo Hindu có hiệu quả đến mức nào? Tại sao chúng ta nên đọc Hanuman chalisa? Kết quả của nó là gì?
    Mục đích thực sự của cuộc sống là gì? Mục đích cuộc sống của bạn nên là gì? Chúng ta có thực sự có mục đích nào đó trong cuộc sống không? Hay chúng ta tạo ra một mục đích để khiến bản thân cảm thấy mình có ý nghĩa trong thế giới vô cùng rộng lớn, hay để khiến bản thân cảm thấy rằng sự tồn tại của chúng ta trong thế giới rộng lớn là cần thiết?
  • Loss: TripletLoss with these parameters:
    {
        "distance_metric": "TripletDistanceMetric.EUCLIDEAN",
        "triplet_margin": 0.7
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • eval_strategy: steps
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • eval_accumulation_steps: 1
  • learning_rate: 2e-05
  • warmup_ratio: 0.1
  • bf16: True
  • load_best_model_at_end: True
  • optim: adamw_8bit
  • push_to_hub: True
  • hub_model_id: KietRiu/vietnamese-document-embedding_FT_QQP
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: steps
  • prediction_loss_only: True
  • per_device_train_batch_size: 64
  • per_device_eval_batch_size: 64
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: 1
  • torch_empty_cache_steps: None
  • learning_rate: 2e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1.0
  • num_train_epochs: 3
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.1
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: True
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: True
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_8bit
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: True
  • resume_from_checkpoint: None
  • hub_model_id: KietRiu/vietnamese-document-embedding_FT_QQP
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss Validation Loss cosine_accuracy
-1 -1 - - 0.9535
0.3928 500 0.7236 0.7945 0.6861
0.7855 1000 0.6335 0.7567 0.6616
1.1783 1500 0.6148 0.7505 0.6670
1.5711 2000 0.6028 0.7680 0.6837
1.9639 2500 0.593 0.7641 0.6759
2.3566 3000 0.5819 0.7465 0.6632
2.7494 3500 0.5757 0.7529 0.6685
  • The bold row denotes the saved checkpoint.

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.2.0
  • Transformers: 4.57.3
  • PyTorch: 2.9.1+cu128
  • Accelerate: 1.12.0
  • Datasets: 4.3.0
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

TripletLoss

@misc{hermans2017defense,
    title={In Defense of the Triplet Loss for Person Re-Identification},
    author={Alexander Hermans and Lucas Beyer and Bastian Leibe},
    year={2017},
    eprint={1703.07737},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}