JustscrAPIng's picture
Upload 11 files
a7c32d7 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dense
  - generated_from_trainer
  - dataset_size:790
  - loss:MultipleNegativesRankingLoss
base_model: sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2
widget:
  - source_sentence: >-
      Nhà tang lễ Bệnh viện Nguyễn Tri Phương, còn gọi là nhà tang lễ Quảng
      Đông, tọa lạc tại địa chỉ 336 Trần Phú, Phường 7, Quận 5, Thành phố Hồ Chí
      Minh, phục vụ nhu cầu tổ chức tang lễ cho cộng đồng người Việt và người
      Hoa. Địa điểm này hoạt động 24/24, cung cấp dịch vụ tổ chức tang lễ trọn
      gói, có bãi đậu xe riêng và được nhiều người đánh giá cao về sự chu đáo,
      giá cả hợp lý.

      https://phucanvienlongan.vn/blogs/tin-tuc/tim-hieu-ve-nha-tang-le-benh-vien-nguyen-tri-phuong
    sentences:
      - >-
        french colonial architecture indochina villa balcony yellow walls
        shutters kiến trúc pháp thuộc địa đông dương biệt thự tường vàng cửa
        chớp
      - secular non-religious atheism no religion không tôn giáo  thần thế tục
      - >-
        restaurant place to eat food dining hungry lunch dinner eatery nhà hàng
        quán ăn tiệm cơm ăn uống
  - source_sentence: >-
      Trường Đại học Bách khoa (ĐHQG TPHCM) là trường đại học hàng đầu về kỹ
      thuật và công nghệ tại Việt Nam. Cơ sở 1 tọa lạc tại Quận 10, là nơi học
      tập của nhiều khoa, phòng ban và các khu chức năng quan trọng của trường. 
    sentences:
      - >-
        institution school university college education academy library trường
        học đại học thư viện giáo dục
      - >-
        restaurant place to eat food dining hungry lunch dinner eatery nhà hàng
        quán ăn tiệm cơm ăn uống
      - secular non-religious atheism no religion không tôn giáo  thần thế tục
  - source_sentence: >-
      Hội quán Tuệ Thành (còn gọi là Miếu Thiên Hậu hoặc Chùa Bà Chợ Lớn) là một
      công trình kiến trúc tín ngưỡng dân gian lâu đời của người Hoa tại Chợ
      Lớn, TP. Hồ Chí Minh. Hội quán được xây dựng vào khoảng cuối thế kỷ 17,
      dùng làm nơi hội họp, quản lý di dân, và đặc biệt là thờ cúng Thiên Hậu
      Thánh Mẫu. Công trình này có giá trị văn hóa, lịch sử sâu sắc với kiến
      trúc đặc trưng, nhiều cổ vật quý báu và là một điểm đến tâm linh quan
      trọng.

      https://ttvhq5.com.vn/chua-ba-tue-thanh-hoi-quan/
    sentences:
      - >-
        chinese folk religion ancestor worship shenism tín ngưỡng dân gian trung
        hoa thờ cúng tổ tiên
      - >-
        marketplace market bazaar shopping buy food groceries ben thanh chợ bến
        thành mua sắm thực phẩm đồ khô
      - >-
        restaurant place to eat food dining hungry lunch dinner eatery nhà hàng
        quán ăn tiệm cơm ăn uống
  - source_sentence: >-
      Nhà tang lễ TP.HCM (Lê Quý Đôn) là một nhà tang lễ cũ nằm ở số 25, đường
      Lê Quý Đôn, phường 07, quận 03, TP.HCM. Đây là một cơ sở tang lễ lâu đời,
      nay đã được thay thế bởi một nhà hàng lẩu Đài Loan có tên Man Tang Guo Lê
      Quý Đôn tại số 6B Lê Quý Đôn, Phường Võ Thị Sáu, Quận 3.
    sentences:
      - secular non-religious atheism no religion không tôn giáo  thần thế tục
      - >-
        institution school university college education academy library trường
        học đại học thư viện giáo dục
      - >-
        place of worship temple church pagoda shrine mosque pray spiritual nơi
        thờ tự chùa đền nhà thờ thánh đường miếu
  - source_sentence: >-
      Đình Phú Xuân tọa lạc tại Huyện Nhà Bè, TP.HCM, đã được UBND Thành phố xếp
      hạng là di tích kiến trúc nghệ thuật cấp Thành phố vào năm 2012. Đình nằm
      trong một khuôn viên rộng rãi, có nhiều cây xanh, bên bờ Rạch Đời.
    sentences:
      - >-
        traditional vietnamese architecture wooden red tile roof kiến trúc
        truyền thống việt nam nhà gỗ mái ngói đỏ nhà rường
      - >-
        christian church jesus catholic protestant cross bible công giáo tin
        lành nhà thờ chúa giêsu thánh giá kinh thánh
      - >-
        traditional vietnamese architecture wooden red tile roof kiến trúc
        truyền thống việt nam nhà gỗ mái ngói đỏ nhà rường
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer based on sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2

This is a sentence-transformers model finetuned from sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2. It maps sentences & paragraphs to a 384-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 128, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 384, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'Đình Phú Xuân tọa lạc tại Huyện Nhà Bè, TP.HCM, đã được UBND Thành phố xếp hạng là di tích kiến trúc nghệ thuật cấp Thành phố vào năm 2012. Đình nằm trong một khuôn viên rộng rãi, có nhiều cây xanh, bên bờ Rạch Đời.',
    'traditional vietnamese architecture wooden red tile roof kiến trúc truyền thống việt nam nhà gỗ mái ngói đỏ nhà rường',
    'traditional vietnamese architecture wooden red tile roof kiến trúc truyền thống việt nam nhà gỗ mái ngói đỏ nhà rường',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 384]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.4176, 0.4176],
#         [0.4176, 1.0000, 1.0000],
#         [0.4176, 1.0000, 1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 790 training samples
  • Columns: sentence_0 and sentence_1
  • Approximate statistics based on the first 790 samples:
    sentence_0 sentence_1
    type string string
    details
    • min: 3 tokens
    • mean: 69.68 tokens
    • max: 128 tokens
    • min: 16 tokens
    • mean: 25.43 tokens
    • max: 35 tokens
  • Samples:
    sentence_0 sentence_1
    ình Xuân Hiệp là một ngôi đình cổ tọa lạc tại phường Linh Trung, Thành phố Thủ Đức. Đây là nơi thờ cúng Thành hoàng và các vị tiền nhân có công khai phá, gìn giữ vùng đất Xuân Hiệp xưa. vietnamese folk religion mother goddess dao mau thanh mau tín ngưỡng dân gian việt nam đạo mẫu hầu đồng thánh mẫu
    Nhà thờ Mạc Ty Nho (còn gọi là Giáo xứ Mạc Ty Nho) là một nhà thờ Công giáo nổi bật tọa lạc tại trung tâm Thành phố Hồ Chí Minh, nổi tiếng với các hoạt động cộng đồng và trang trí lễ hội độc đáo.
    https://muctim.tuoitre.vn/den-nha-tho-mac-ty-nho-check-in-giang-sinh-voi-cay-thong-xoay-360-do-101241213182102305.htm
    french colonial architecture indochina villa balcony yellow walls shutters kiến trúc pháp thuộc địa đông dương biệt thự tường vàng cửa chớp
    Bảo tàng tọa lạc trong tòa nhà Bến Nhà Rồng lịch sử, nơi Chủ tịch Hồ Chí Minh (lúc đó là người thanh niên Nguyễn Tất Thành) đã xuống tàu rời Tổ quốc ra đi tìm đường cứu nước vào ngày 5 tháng 6 năm 1911. Bảo tàng trưng bày nhiều tài liệu, hiện vật và hình ảnh về cuộc đời, sự nghiệp cách mạng của Chủ tịch Hồ Chí Minh. secular non-religious atheism no religion không tôn giáo vô thần thế tục
  • Loss: MultipleNegativesRankingLoss with these parameters:
    {
        "scale": 20.0,
        "similarity_fct": "cos_sim",
        "gather_across_devices": false
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • num_train_epochs: 4
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 32
  • per_device_eval_batch_size: 32
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • project: huggingface
  • trackio_space_id: trackio
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: no
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: True
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Framework Versions

  • Python: 3.12.12
  • Sentence Transformers: 5.1.2
  • Transformers: 4.57.2
  • PyTorch: 2.9.0+cu126
  • Accelerate: 1.12.0
  • Datasets: 4.0.0
  • Tokenizers: 0.22.1

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}