sangambhamare's picture
Upload full fine-tuned Marathi similarity model
1a85893 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dense
  - generated_from_trainer
  - dataset_size:5748
  - loss:CosineSimilarityLoss
base_model: l3cube-pune/marathi-sentence-similarity-sbert
widget:
  - source_sentence: त्याला पकडण्याचा त्यांचा कोणताही हेतू नव्हता.
    sentences:
      - '- मी असे म्हटले नाही की त्याने त्याला पकडण्याचा विचार केला.'
      - पॅलेस्टाईन नेतृत्व फताह-हमास दोहा कराराला पाठिंबा देते
      - एक माणूस गोंधळ टेबलवर लॅपटॉप संगणक पहात बसला.
  - source_sentence: >-
      घरांच्या स्वतंत्र सर्वेक्षणानुसार, बेरोजगारीचा दर ऑगस्टमध्ये घसरून 6.2
      टक्क्यांवरून 6.1 टक्क्यांवर आला.
    sentences:
      - >-
        कामगार विभागाच्या विश्लेषकांनी राष्ट्रीय बेरोजगारीच्या दरात थोडीशी
        सुधारणा केली, जी ऑगस्टमध्ये घसरून .2.२ टक्क्यांवरून .1.१ टक्के झाली आहे.
      - >-
        अटलांटा ऑलिम्पिक गेम्सच्या हल्ल्यामुळे एका महिलेचा मृत्यू झाला आणि इतर
        100 हून अधिक लोकांना जखमी झाले.
      - इजिप्त कोर्टाने मुबारकची रिलीज विनंती नाकारली
  - source_sentence: गवत असलेल्या पेनमध्ये एक काळी आणि पांढरी गाय.
    sentences:
      - कोनी 2012 'संचालक रुग्णालयात दाखल
      - >-
        ग्रीन टी पिण्यामुळे पुरुष प्रोस्टेट कर्करोगाचा धोका कमी होण्याचा धोका
        कमी करू शकतो, ऑस्ट्रेलियन संशोधकांनी केलेल्या अभ्यासानुसार.
      - एक काळा आणि पांढरा मांजर घाणीत आहे.
  - source_sentence: >-
      पाच सदस्यीय एफसीसी पॅनेलवरील दोन डेमोक्रॅट्सनी पॉवेलविरूद्ध मत
      मांडण्यासाठी एक पत्रकार परिषद घेतली.
    sentences:
      - >-
        दक्षिण आफ्रिका मंडेला मेमोरियलमध्ये कर्णबधिरांच्या स्वाक्षर्‍यापेक्षा
        संभाव्य 'चूक' कबूल करते
      - स्टेशनवर थांबलेली एक प्रवासी ट्रेन.
      - >-
        पाच सदस्यीय एफसीसीवरील दोन डेमोक्रॅट्सनी पॉवेल आणि पॅनेलच्या इतर दोन
        रिपब्लिकन यांच्याविरूद्ध मत मांडण्यासाठी एक पत्रकार परिषद घेतली.
  - source_sentence: >-
      १ 198 33 च्या सुपर बाउलमध्ये त्याने सुरुवात केली, जी मियामीने
      वॉशिंग्टनकडून २-17-१-17 असा पराभव पत्करला.
    sentences:
      - >-
        सुपर बाउलमध्ये वॉशिंग्टनला डॉल्फिनच्या 27-17 च्या पराभवासह त्याने
        मियामीमध्ये चार हंगाम खेळला.
      - इस्त्राईलने गाझामध्ये ग्राउंड आक्रमण केले
      - चीनचे अध्यक्ष व्हेनेझुएला येथे राज्य भेटीसाठी आले
pipeline_tag: sentence-similarity
library_name: sentence-transformers

SentenceTransformer based on l3cube-pune/marathi-sentence-similarity-sbert

This is a sentence-transformers model finetuned from l3cube-pune/marathi-sentence-similarity-sbert. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    '१ 198 33 च्या सुपर बाउलमध्ये त्याने सुरुवात केली, जी मियामीने वॉशिंग्टनकडून २-17-१-17 असा पराभव पत्करला.',
    'सुपर बाउलमध्ये वॉशिंग्टनला डॉल्फिनच्या 27-17 च्या पराभवासह त्याने मियामीमध्ये चार हंगाम खेळला.',
    'इस्त्राईलने गाझामध्ये ग्राउंड आक्रमण केले',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6214, 0.1279],
#         [0.6214, 1.0000, 0.0781],
#         [0.1279, 0.0781, 1.0000]])

Training Details

Training Dataset

Unnamed Dataset

  • Size: 5,748 training samples
  • Columns: sentence_0, sentence_1, and label
  • Approximate statistics based on the first 1000 samples:
    sentence_0 sentence_1 label
    type string string float
    details
    • min: 4 tokens
    • mean: 15.58 tokens
    • max: 50 tokens
    • min: 5 tokens
    • mean: 15.82 tokens
    • max: 52 tokens
    • min: 0.0
    • mean: 0.52
    • max: 1.0
  • Samples:
    sentence_0 sentence_1 label
    रेस्टॉरंटमध्ये टेबलवर बसलेले दोन लोक. एका टेबलावर चार लोक बसले. 0.36
    इराकी राजधानीत कार बॉम्ब 58 मारतात कार बॉम्बस्फोटांनी इराकी राजधानीत 13 नागरिकांना ठार मारले 0.48
    पॅलेस्टाईनचे नेतृत्व इस्त्रायली एफएम कॉलला अब्बास यांना निषेध करते पॅलेस्टाईन नेतृत्व फताह-हमास दोहा कराराला पाठिंबा देते 0.2
  • Loss: CosineSimilarityLoss with these parameters:
    {
        "loss_fct": "torch.nn.modules.loss.MSELoss"
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • num_train_epochs: 4
  • multi_dataset_batch_sampler: round_robin

All Hyperparameters

Click to expand
  • overwrite_output_dir: False
  • do_predict: False
  • eval_strategy: no
  • prediction_loss_only: True
  • per_device_train_batch_size: 8
  • per_device_eval_batch_size: 8
  • per_gpu_train_batch_size: None
  • per_gpu_eval_batch_size: None
  • gradient_accumulation_steps: 1
  • eval_accumulation_steps: None
  • torch_empty_cache_steps: None
  • learning_rate: 5e-05
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • max_grad_norm: 1
  • num_train_epochs: 4
  • max_steps: -1
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: {}
  • warmup_ratio: 0.0
  • warmup_steps: 0
  • log_level: passive
  • log_level_replica: warning
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • save_safetensors: True
  • save_on_each_node: False
  • save_only_model: False
  • restore_callback_states_from_checkpoint: False
  • no_cuda: False
  • use_cpu: False
  • use_mps_device: False
  • seed: 42
  • data_seed: None
  • jit_mode_eval: False
  • use_ipex: False
  • bf16: False
  • fp16: False
  • fp16_opt_level: O1
  • half_precision_backend: auto
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • local_rank: 0
  • ddp_backend: None
  • tpu_num_cores: None
  • tpu_metrics_debug: False
  • debug: []
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_prefetch_factor: None
  • past_index: -1
  • disable_tqdm: False
  • remove_unused_columns: True
  • label_names: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • fsdp: []
  • fsdp_min_num_params: 0
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • fsdp_transformer_layer_cls_to_wrap: None
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • deepspeed: None
  • label_smoothing_factor: 0.0
  • optim: adamw_torch_fused
  • optim_args: None
  • adafactor: False
  • group_by_length: False
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • skip_memory_metrics: True
  • use_legacy_prediction_loop: False
  • push_to_hub: False
  • resume_from_checkpoint: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_private_repo: None
  • hub_always_push: False
  • hub_revision: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • include_inputs_for_metrics: False
  • include_for_metrics: []
  • eval_do_concat_batches: True
  • fp16_backend: auto
  • push_to_hub_model_id: None
  • push_to_hub_organization: None
  • mp_parameters:
  • auto_find_batch_size: False
  • full_determinism: False
  • torchdynamo: None
  • ray_scope: last
  • ddp_timeout: 1800
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • include_tokens_per_second: False
  • include_num_input_tokens_seen: False
  • neftune_noise_alpha: None
  • optim_target_modules: None
  • batch_eval_metrics: False
  • eval_on_start: False
  • use_liger_kernel: False
  • liger_kernel_config: None
  • eval_use_gather_object: False
  • average_tokens_across_devices: False
  • prompts: None
  • batch_sampler: batch_sampler
  • multi_dataset_batch_sampler: round_robin
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Epoch Step Training Loss
0.6954 500 0.0227
1.3908 1000 0.0161
2.0862 1500 0.0114
2.7816 2000 0.0068
3.4771 2500 0.0055

Framework Versions

  • Python: 3.12.11
  • Sentence Transformers: 5.1.0
  • Transformers: 4.56.0
  • PyTorch: 2.8.0+cu126
  • Accelerate: 1.10.1
  • Datasets: 4.0.0
  • Tokenizers: 0.22.0

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}