Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks
Paper • 1908.10084 • Published • 13
How to use farihashifa/bn_sim_triplet-bn-sim-v1 with sentence-transformers:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("farihashifa/bn_sim_triplet-bn-sim-v1")
sentences = [
"চলচ্চিত্রটি পরিচালনা করেছেন রাহুল আহমেদ মিথুন।",
"চলচ্চিত্রটি পরিচালনা করেছেন শাহাদাত হোসেন লিটন।",
"জেলা বিএনপির সভাপতি ইকবাল হাসান মাহমুদ টিটুর নেতৃত্বে অনুষ্ঠিত সভায় বিএনপির যুগ্ম মহাসচিব আমান উল্লাহ আমান, সাংগঠনিক",
"জানুয়ারি মাসে রাজধানী ওয়ার্ড যুব দলের সভাপতি শহীদ মোল্লাকে সন্ত্রাসীরা গুলি করে হত্যা করে।"
]
embeddings = model.encode(sentences)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [4, 4]This is a sentence-transformers model finetuned from shihab17/bangla-sentence-transformer. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
SentenceTransformer(
(0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: XLMRobertaModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
First install the Sentence Transformers library:
pip install -U sentence-transformers
Then you can load this model and run inference.
from sentence_transformers import SentenceTransformer
# Download from the 🤗 Hub
model = SentenceTransformer("farihashifa/bn_sim_triplet-bn-sim-v1")
# Run inference
sentences = [
'নাটকটি লিখেছেন সুমাইয়া ইসলাম এবং পরিচালনা করেছেন জাহিদ হাসান।',
'চলচ্চিত্রটি পরিচালনা করেছেন ইসরাত জাহান কাদের এবং প্রযোজনা করেছেন মাহফুজ আহমেদ।',
'তিনি ডিমলা থানায় কাজ করতেন এবং প্রত্যক্ষদর্শীদের জানান, হারুন অর রশিদ মোটরসাইকেল নিয়ে নীলফামারী শহরের দিকে যাচ্ছিলেন',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]
# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
# [3, 3]
bn-sim-triplet-4-may-25EmbeddingSimilarityEvaluator| Metric | Value |
|---|---|
| pearson_cosine | 0.9416 |
| spearman_cosine | 0.8647 |
Original_Text, Postive, and Negative| Original_Text | Postive | Negative | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| Original_Text | Postive | Negative |
|---|---|---|
সেখানে ডিসেম্বর থেকে ফেব্রুয়ারি মাসে বৃষ্টি হয়। |
নভেম্বর থেকে জানুয়ারি মাস পর্যন্ত এখানে বৃষ্টি হয়। |
নাটকটি পরিচালনা করেছেন মাবরুর রশীদ বান্না এবং প্রযোজনা করেছেন শ্রিয়া সর্বজয়া তৌসি |
গতকাল যশোর ও খুলনার বিভিন্ন পথসভায় বক্তব্য দেন রফিক। |
গতকাল কাদের কুমিল্লা ও ফেনীর বিভিন্ন জনসভায় বক্তব্য রাখেন। |
তিন দিনের সফরে প্রধানমন্ত্রী বুধবার সকালে তুরস্কে যাওয়ার জন্য ঢাকা ত্যাগ করেন। |
আমাজন প্রাইম ইনস্টাগ্রাম অ্যাপল আইক্লাউড টুইটার ওয়ার্কস্পেস জিমেইল এ সবই ক্লাউড সেবা |
ড্রপবক্স নেটফ্লিক্স ফ্লিকার গুগল ড্রাইভ মাইক্রোসফট অফিস ৩৬৫ ইয়াহু মেইল সব ক্লাউড সার্ভিস। |
রাজাপুর থানার ওসি আতাউর রহমান বিবিসিকে বলেন, কাউখালী থেকে পিরোজপুর পর্যন্ত বাসটি সাতুরিয়া এলাকায় |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
Original_Text, Postive, and Negative| Original_Text | Postive | Negative | |
|---|---|---|---|
| type | string | string | string |
| details |
|
|
|
| Original_Text | Postive | Negative |
|---|---|---|
গত মার্চে চট্টগ্রামে নিজের বাড়িতে খুন হন রিয়াদ ও মোনা। |
ফেব্রুয়ারি মাসে রাজধানীতে নিজ বাড়িতে সাগর ও রুনিকে হত্যা করা হয়। |
ফিদা কামাল ওয়ান ইলেভেন সরকারের অ্যাটর্নি জেনারেল ছিলেন। |
পহেলা বৈশাখের বিশেষ আকর্ষণ হলো |
বৈসু উৎসবের অন্যতম প্রধান আকর্ষণ হচ্ছে উৎসব। |
কেন্দুয়া উপজেলা পরিষদ চত্বরে প্রাথমিক শিক্ষার মান উন্নয়নের লক্ষ্যে উপজেলা প্রাথমিক শিক্ষক সমিতি এই সমাবেশের আয়োজন করে। |
আরো বক্তব্য রাখেন জাসদের সদস্য রুমানা আহমেদ নেওয়াজ অধ্যক্ষ এম বি রহমান চৌধুরী ও অধ্যাপক মাহমুদ হাসান। |
এ ছাড়া সমিতির সদস্য শ্যামলী নাসরিন চৌধুরী, অধ্যক্ষ এম.এ. আউয়াল সিদ্দিকী এবং অধ্যাপক সাজেদুল ইসলাম |
গ্লোবাল মার্চ এগেইনস্ট চাইল্ড লেবার ইন্টারন্যাশনাল সেন্টার অন চাইল্ড লেবার অ্যান্ড এডুকেশন ছাড়াও গ্লোবাল ক্যাম্পেইন ফর এডুকেশন |
MultipleNegativesRankingLoss with these parameters:{
"scale": 20.0,
"similarity_fct": "cos_sim"
}
eval_strategy: stepsper_device_train_batch_size: 64per_device_eval_batch_size: 64learning_rate: 2e-05num_train_epochs: 1warmup_ratio: 0.1fp16: Truebatch_sampler: no_duplicatesoverwrite_output_dir: Falsedo_predict: Falseeval_strategy: stepsprediction_loss_only: Trueper_device_train_batch_size: 64per_device_eval_batch_size: 64per_gpu_train_batch_size: Noneper_gpu_eval_batch_size: Nonegradient_accumulation_steps: 1eval_accumulation_steps: Nonetorch_empty_cache_steps: Nonelearning_rate: 2e-05weight_decay: 0.0adam_beta1: 0.9adam_beta2: 0.999adam_epsilon: 1e-08max_grad_norm: 1.0num_train_epochs: 1max_steps: -1lr_scheduler_type: linearlr_scheduler_kwargs: {}warmup_ratio: 0.1warmup_steps: 0log_level: passivelog_level_replica: warninglog_on_each_node: Truelogging_nan_inf_filter: Truesave_safetensors: Truesave_on_each_node: Falsesave_only_model: Falserestore_callback_states_from_checkpoint: Falseno_cuda: Falseuse_cpu: Falseuse_mps_device: Falseseed: 42data_seed: Nonejit_mode_eval: Falseuse_ipex: Falsebf16: Falsefp16: Truefp16_opt_level: O1half_precision_backend: autobf16_full_eval: Falsefp16_full_eval: Falsetf32: Nonelocal_rank: 0ddp_backend: Nonetpu_num_cores: Nonetpu_metrics_debug: Falsedebug: []dataloader_drop_last: Falsedataloader_num_workers: 0dataloader_prefetch_factor: Nonepast_index: -1disable_tqdm: Falseremove_unused_columns: Truelabel_names: Noneload_best_model_at_end: Falseignore_data_skip: Falsefsdp: []fsdp_min_num_params: 0fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}tp_size: 0fsdp_transformer_layer_cls_to_wrap: Noneaccelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}deepspeed: Nonelabel_smoothing_factor: 0.0optim: adamw_torchoptim_args: Noneadafactor: Falsegroup_by_length: Falselength_column_name: lengthddp_find_unused_parameters: Noneddp_bucket_cap_mb: Noneddp_broadcast_buffers: Falsedataloader_pin_memory: Truedataloader_persistent_workers: Falseskip_memory_metrics: Trueuse_legacy_prediction_loop: Falsepush_to_hub: Falseresume_from_checkpoint: Nonehub_model_id: Nonehub_strategy: every_savehub_private_repo: Nonehub_always_push: Falsegradient_checkpointing: Falsegradient_checkpointing_kwargs: Noneinclude_inputs_for_metrics: Falseinclude_for_metrics: []eval_do_concat_batches: Truefp16_backend: autopush_to_hub_model_id: Nonepush_to_hub_organization: Nonemp_parameters: auto_find_batch_size: Falsefull_determinism: Falsetorchdynamo: Noneray_scope: lastddp_timeout: 1800torch_compile: Falsetorch_compile_backend: Nonetorch_compile_mode: Noneinclude_tokens_per_second: Falseinclude_num_input_tokens_seen: Falseneftune_noise_alpha: Noneoptim_target_modules: Nonebatch_eval_metrics: Falseeval_on_start: Falseuse_liger_kernel: Falseeval_use_gather_object: Falseaverage_tokens_across_devices: Falseprompts: Nonebatch_sampler: no_duplicatesmulti_dataset_batch_sampler: proportional| Epoch | Step | Validation Loss | bn-sim-triplet-4-may-25_spearman_cosine |
|---|---|---|---|
| -1 | -1 | - | 0.7158 |
| 0.9091 | 50 | 0.2026 | 0.8647 |
@inproceedings{reimers-2019-sentence-bert,
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
author = "Reimers, Nils and Gurevych, Iryna",
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
month = "11",
year = "2019",
publisher = "Association for Computational Linguistics",
url = "https://arxiv.org/abs/1908.10084",
}
@misc{henderson2017efficient,
title={Efficient Natural Language Response Suggestion for Smart Reply},
author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
year={2017},
eprint={1705.00652},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
Base model
shihab17/bangla-sentence-transformer