sbert_training / epoch4 /model /README.md
jstAnotherCapi's picture
Upload folder using huggingface_hub
4a611c2 verified
metadata
tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dense
  - generated_from_trainer
  - dataset_size:3954179
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: >-
      إذا لم تكن قد فعلت ذلك بالفعل ، تحقق من تصميمنا الجديد للمراسلات والحوارات
      واليوميات .
    sentences:
      - تم إعادة تصميم الرسائل والحوارات .
      - يقدم مقهى بارج كل من وجبات الغداء والإفطار .
      - قبل ان نعرف اسماء بعضنا او اي شيء قد تعانقنا وبكىنا .
  - source_sentence: أين تقع جامعة واينزبرج
    sentences:
      - >-
        جامعة دالاس بابتيست ( DBU ) ، المعروفة سابقا باسم كلية دالاس بابتيست ،
        هي جامعة فنون ليبرالية مسيحية تقع في دالاس ، تكساس . يقع الحرم الجامعي
        الرئيسي على بعد حوالي 12 ميلا ( 19 كم ) جنوب غرب وسط مدينة دالاس ويطل
        على بحيرة ماونتين كريك . تأسست جامعة دالاس بابتيست عام 1898 باسم كلية
        ديكاتور بابتيست ، وتدير حاليا حرما جامعيا في دالاس وبلانو وهيرست .
      - الزوجان معا
      - >-
        تقع جامعة واينسبرغ في حرم جامعي معاصر في تلال جنوب غرب ولاية بنسلفانيا ،
        مع ثلاثة مراكز للبالغين تقع في مناطق بيتسبرغ في ساوثبوينت وكرانبيري
        ومونروفيل . تم إدراج Hanna Hall و Miller Hall في السجل الوطني للأماكن
        التاريخية .
  - source_sentence: The isolated Russian forces resisted in several areas for two more days .
    sentences:
      - >-
        ياهو : كيف يمكنني معرفة ما إذا كان البريد الإلكتروني الذي أرسلته قد تم
        استلامه أو قراءته ؟
      - >-
        واستمرت الاشتباكات الحدودية خلال اليومين المقبلين ، حيث استهدفت المخافر
        الحدودية من الجانبين والتي أسفرت عن وقوع عشرات الإصابات .
      - قاومت القوات الروسية المعزولة في عة مناطق لمدة يومين آخرين .
  - source_sentence: فتاة هيبي بشعر أشقر وأرجواني على الجانب يرتدي قميص أبيض وملابس سوداء
    sentences:
      - فتاة " هيبي " ترتدي قميصا أبيضا وملابس سوداء شعرها أشقر وأحمر
      - المرأة تضع يدها في جيب الرجل
      - فتاة لديها سترة حمراء وسوداء
  - source_sentence: رجل وامرأة يجلسان في سيارة ووجههما في الاتجاه المعاكس من الكاميرا
    sentences:
      - هناك شخصان وسيارة
      - سيارة صدئة هي الشيء الوحيد المرئي
      - كان أفضل حالا
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy
model-index:
  - name: SentenceTransformer
    results:
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: dev 768
          type: dev-768
        metrics:
          - type: cosine_accuracy
            value: 0.9853799939155579
            name: Cosine Accuracy
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: dev 512
          type: dev-512
        metrics:
          - type: cosine_accuracy
            value: 0.9855160117149353
            name: Cosine Accuracy
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: dev 256
          type: dev-256
        metrics:
          - type: cosine_accuracy
            value: 0.985588014125824
            name: Cosine Accuracy
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: dev 128
          type: dev-128
        metrics:
          - type: cosine_accuracy
            value: 0.9855039715766907
            name: Cosine Accuracy
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: dev 64
          type: dev-64
        metrics:
          - type: cosine_accuracy
            value: 0.9845880270004272
            name: Cosine Accuracy

SentenceTransformer

This is a sentence-transformers model trained on the train dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

  • Model Type: Sentence Transformer
  • Maximum Sequence Length: 512 tokens
  • Output Dimensionality: 768 dimensions
  • Similarity Function: Cosine Similarity
  • Training Dataset:
    • train

Model Sources

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'رجل وامرأة يجلسان في سيارة ووجههما في الاتجاه المعاكس من الكاميرا',
    'هناك شخصان وسيارة',
    'سيارة صدئة هي الشيء الوحيد المرئي',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6553, 0.2590],
#         [0.6553, 1.0000, 0.3695],
#         [0.2590, 0.3695, 1.0000]])

Evaluation

Metrics

Triplet

  • Dataset: dev-768
  • Evaluated with TripletEvaluator with these parameters:
    {
        "truncate_dim": 768
    }
    
Metric Value
cosine_accuracy 0.9854

Triplet

  • Dataset: dev-512
  • Evaluated with TripletEvaluator with these parameters:
    {
        "truncate_dim": 512
    }
    
Metric Value
cosine_accuracy 0.9855

Triplet

  • Dataset: dev-256
  • Evaluated with TripletEvaluator with these parameters:
    {
        "truncate_dim": 256
    }
    
Metric Value
cosine_accuracy 0.9856

Triplet

  • Dataset: dev-128
  • Evaluated with TripletEvaluator with these parameters:
    {
        "truncate_dim": 128
    }
    
Metric Value
cosine_accuracy 0.9855

Triplet

  • Dataset: dev-64
  • Evaluated with TripletEvaluator with these parameters:
    {
        "truncate_dim": 64
    }
    
Metric Value
cosine_accuracy 0.9846

Training Details

Training Dataset

train

  • Dataset: train
  • Size: 3,954,179 training samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 4 tokens
    • mean: 16.1 tokens
    • max: 113 tokens
    • min: 3 tokens
    • mean: 41.85 tokens
    • max: 512 tokens
    • min: 4 tokens
    • mean: 41.99 tokens
    • max: 512 tokens
  • Samples:
    anchor positive negative
    في أي مقاطعة تقع لويسفيل أركنساس لويسفيل هي بلدة في مقاطعة لافاييت ، أركنساس ، الولايات المتحدة . كان عدد السكان 1285 في تعداد عام 2000 . . المدينة هي مقر مقاطعة لافاييت . ماونتن هوم ، أركنساس . ماونتن هوم هي مدينة صغيرة في مقاطعة باكستر ، أركنساس ، الولايات المتحدة ، في جبال أوزارك الجنوبية بالقرب من حدود الولاية الشمالية مع ميسوري . اعتبارا من تعداد عام 2010 ، بلغ عدد سكان المدينة 12448 نسمة .
    متوسط سمك باب الخزانة تتميز أبواب العالم القديم بميزات رائعة مثل السماكة المتزايدة ، والملامح الأعمق ، والأعمدة والقضبان الأوسع لإضفاء مظهر وإحساس أكثر دراماتيكية عند مقارنتها بأبواب الخزانة التقليدية . يبلغ عرض Stiles Rails القياسية 3 بوصات ويمكن تصنيعها في 1 و 1 1 - 8 و 1 سمك . اعتمادا على الخطأ في اللوحة ، يبلغ متوسط أسعار الإصلاح 130 دولارا لإصلاح الأبواب الفولاذية و 190 دولارا للخشب و 170 دولارا للألمنيوم و 150 دولارا للألياف الزجاجية . مزيد من المعلومات حول كيفية استبدال لوحة باب المرآب . إذا تعطلت أداة فتح باب الجراج ، فقد تكون سلامتك في خطر . تريد التأكد من أن بابك يعمل بشكل صحيح حتى لا يغلق بطريق الخطأ على حيوان أليف أو شخص . تريد أيضا إغلاقها لإبعاد اللصوص عن منزلك .
    ما هو تعريف الملء اعادة تعبئه . اسم تخصيص ثان لوكيل الوصفات الطبية تم الحصول عليه من الصيدلية ، والذي يسمح به فعل الوصفة الأصلية علم الأدوية للحصول على المزيد من دواء معين ، بعد استخدام الكمية الموصوفة في البداية من الوكيل أو إعطائها . انظر الوصفة الطبية . تعليمات إعادة الملء قم بإعادة الملء فقط باستخدام Spectracide ' Bug Stop Home Barrier Refill . قم بإزالة الغطاء . قم بقياس وصب 12 . 8 أونصة سائلة من المركز في حاوية فارغة سعة 1 جالون من Spectracide - Bug Stop - حاجز منزلي ، واملأه حتى 1 جالون بالماء ، استبدل الغطاء وأغلقه بإحكام . المنتج المنسكب قم بقياس 12 . 8 أونصة سائلة من المركز وصبها بحذر في حاوية فارغة سعة 1 جالون من Spectracide - حاجز منزلي من Spectracide - حاجز منزلي ، واملأه حتى 1 جالون بالماء . استبدل الغطاء وأغلقه بإحكام . امسح أي منتج مسكوب .
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Evaluation Dataset

train

  • Dataset: train
  • Size: 1,129,759 evaluation samples
  • Columns: anchor, positive, and negative
  • Approximate statistics based on the first 1000 samples:
    anchor positive negative
    type string string string
    details
    • min: 4 tokens
    • mean: 16.7 tokens
    • max: 150 tokens
    • min: 4 tokens
    • mean: 36.54 tokens
    • max: 512 tokens
    • min: 3 tokens
    • mean: 35.42 tokens
    • max: 512 tokens
  • Samples:
    anchor positive negative
    رجل يرتدي سروال تنس أزرق وقميص بولو أبيض يضرب كرة التنس رجل يلعب رياضة هناك رجل يرتدي زي البيسبول يضرب كرة البيسبول بمضرب التنس
    امرأة في ثوب أسود تبدو متفاجئة امرأة تغيرت مشاعرها امرأة تسبح في المحيط
    رجل يرتدي قميص أبيض يقفز على شيء ما على دراجته الصفراء رجل يركب دراجته رجل يركب لوح التزلج فوق المنحدر
  • Loss: MatryoshkaLoss with these parameters:
    {
        "loss": "MultipleNegativesRankingLoss",
        "matryoshka_dims": [
            768,
            512,
            256,
            128,
            64
        ],
        "matryoshka_weights": [
            1,
            1,
            1,
            1,
            1
        ],
        "n_dims_per_step": -1
    }
    

Training Hyperparameters

Non-Default Hyperparameters

  • per_device_train_batch_size: 64
  • num_train_epochs: 4
  • learning_rate: 2e-05
  • warmup_steps: 0.1
  • gradient_accumulation_steps: 2
  • bf16: True
  • eval_strategy: steps
  • warmup_ratio: 0.1
  • batch_sampler: no_duplicates

All Hyperparameters

Click to expand
  • per_device_train_batch_size: 64
  • num_train_epochs: 4
  • max_steps: -1
  • learning_rate: 2e-05
  • lr_scheduler_type: linear
  • lr_scheduler_kwargs: None
  • warmup_steps: 0.1
  • optim: adamw_torch
  • optim_args: None
  • weight_decay: 0.0
  • adam_beta1: 0.9
  • adam_beta2: 0.999
  • adam_epsilon: 1e-08
  • optim_target_modules: None
  • gradient_accumulation_steps: 2
  • average_tokens_across_devices: True
  • max_grad_norm: 1.0
  • label_smoothing_factor: 0.0
  • bf16: True
  • fp16: False
  • bf16_full_eval: False
  • fp16_full_eval: False
  • tf32: None
  • gradient_checkpointing: False
  • gradient_checkpointing_kwargs: None
  • torch_compile: False
  • torch_compile_backend: None
  • torch_compile_mode: None
  • use_liger_kernel: False
  • liger_kernel_config: None
  • use_cache: False
  • neftune_noise_alpha: None
  • torch_empty_cache_steps: None
  • auto_find_batch_size: False
  • log_on_each_node: True
  • logging_nan_inf_filter: True
  • include_num_input_tokens_seen: no
  • log_level: passive
  • log_level_replica: warning
  • disable_tqdm: False
  • project: huggingface
  • trackio_space_id: trackio
  • eval_strategy: steps
  • per_device_eval_batch_size: 8
  • prediction_loss_only: True
  • eval_on_start: False
  • eval_do_concat_batches: True
  • eval_use_gather_object: False
  • eval_accumulation_steps: None
  • include_for_metrics: []
  • batch_eval_metrics: False
  • save_only_model: False
  • save_on_each_node: False
  • enable_jit_checkpoint: False
  • push_to_hub: False
  • hub_private_repo: None
  • hub_model_id: None
  • hub_strategy: every_save
  • hub_always_push: False
  • hub_revision: None
  • load_best_model_at_end: False
  • ignore_data_skip: False
  • restore_callback_states_from_checkpoint: False
  • full_determinism: False
  • seed: 42
  • data_seed: None
  • use_cpu: False
  • accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
  • parallelism_config: None
  • dataloader_drop_last: False
  • dataloader_num_workers: 0
  • dataloader_pin_memory: True
  • dataloader_persistent_workers: False
  • dataloader_prefetch_factor: None
  • remove_unused_columns: True
  • label_names: None
  • train_sampling_strategy: random
  • length_column_name: length
  • ddp_find_unused_parameters: None
  • ddp_bucket_cap_mb: None
  • ddp_broadcast_buffers: False
  • ddp_backend: None
  • ddp_timeout: 1800
  • fsdp: []
  • fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
  • deepspeed: None
  • debug: []
  • skip_memory_metrics: True
  • do_predict: False
  • resume_from_checkpoint: None
  • warmup_ratio: 0.1
  • local_rank: -1
  • prompts: None
  • batch_sampler: no_duplicates
  • multi_dataset_batch_sampler: proportional
  • router_mapping: {}
  • learning_rate_mapping: {}

Training Logs

Click to expand
Epoch Step Training Loss train loss dev-768_cosine_accuracy dev-512_cosine_accuracy dev-256_cosine_accuracy dev-128_cosine_accuracy dev-64_cosine_accuracy
3.3082 102200 0.2592 - - - - - -
3.3147 102400 0.2543 - - - - - -
3.3211 102600 0.2641 - - - - - -
3.3276 102800 0.2435 - - - - - -
3.3341 103000 0.2510 - - - - - -
3.3406 103200 0.2481 - - - - - -
3.3470 103400 0.2627 - - - - - -
3.3535 103600 0.2480 - - - - - -
3.3600 103800 0.2636 - - - - - -
3.3665 104000 0.2619 - - - - - -
3.3729 104200 0.2423 - - - - - -
3.3794 104400 0.2505 - - - - - -
3.3859 104600 0.2604 - - - - - -
3.3924 104800 0.2460 - - - - - -
3.3988 105000 0.2440 - - - - - -
3.4053 105200 0.2641 - - - - - -
3.4118 105400 0.2573 - - - - - -
3.4183 105600 0.2613 - - - - - -
3.4247 105800 0.2746 - - - - - -
3.4312 106000 0.2578 - - - - - -
3.4377 106200 0.2445 - - - - - -
3.4442 106400 0.2530 - - - - - -
3.4506 106600 0.2644 - - - - - -
3.4571 106800 0.2656 - - - - - -
3.4636 107000 0.2520 - - - - - -
3.4700 107200 0.2527 - - - - - -
3.4765 107400 0.2534 - - - - - -
3.4830 107600 0.2530 - - - - - -
3.4895 107800 0.2614 - - - - - -
3.4959 108000 0.2517 0.2252 0.9849 0.9849 0.9851 0.9849 0.9841
3.5024 108200 0.2589 - - - - - -
3.5089 108400 0.2582 - - - - - -
3.5154 108600 0.2553 - - - - - -
3.5218 108800 0.2457 - - - - - -
3.5283 109000 0.2662 - - - - - -
3.5348 109200 0.2619 - - - - - -
3.5413 109400 0.2556 - - - - - -
3.5477 109600 0.2635 - - - - - -
3.5542 109800 0.2550 - - - - - -
3.5607 110000 0.2670 - - - - - -
3.5672 110200 0.2660 - - - - - -
3.5736 110400 0.2604 - - - - - -
3.5801 110600 0.2574 - - - - - -
3.5866 110800 0.2607 - - - - - -
3.5931 111000 0.2465 - - - - - -
3.5995 111200 0.2790 - - - - - -
3.6060 111400 0.2681 - - - - - -
3.6125 111600 0.2654 - - - - - -
3.6190 111800 0.2640 - - - - - -
3.6254 112000 0.2774 - - - - - -
3.6319 112200 0.2568 - - - - - -
3.6384 112400 0.2665 - - - - - -
3.6448 112600 0.2532 - - - - - -
3.6513 112800 0.2613 - - - - - -
3.6578 113000 0.2413 - - - - - -
3.6643 113200 0.2788 - - - - - -
3.6707 113400 0.2586 - - - - - -
3.6772 113600 0.2602 - - - - - -
3.6837 113800 0.2708 - - - - - -
3.6902 114000 0.2556 0.2188 0.9851 0.9852 0.9854 0.9853 0.9844
3.6966 114200 0.2576 - - - - - -
3.7031 114400 0.2713 - - - - - -
3.7096 114600 0.2748 - - - - - -
3.7161 114800 0.2542 - - - - - -
3.7225 115000 0.2647 - - - - - -
3.7290 115200 0.2751 - - - - - -
3.7355 115400 0.2534 - - - - - -
3.7420 115600 0.2577 - - - - - -
3.7484 115800 0.2722 - - - - - -
3.7549 116000 0.2717 - - - - - -
3.7614 116200 0.2737 - - - - - -
3.7679 116400 0.2725 - - - - - -
3.7743 116600 0.2587 - - - - - -
3.7808 116800 0.2623 - - - - - -
3.7873 117000 0.2659 - - - - - -
3.7938 117200 0.2735 - - - - - -
3.8002 117400 0.2847 - - - - - -
3.8067 117600 0.2636 - - - - - -
3.8132 117800 0.2777 - - - - - -
3.8196 118000 0.2751 - - - - - -
3.8261 118200 0.2609 - - - - - -
3.8326 118400 0.2684 - - - - - -
3.8391 118600 0.2772 - - - - - -
3.8455 118800 0.2684 - - - - - -
3.8520 119000 0.2682 - - - - - -
3.8585 119200 0.2784 - - - - - -
3.8650 119400 0.2735 - - - - - -
3.8714 119600 0.2848 - - - - - -
3.8779 119800 0.2638 - - - - - -
3.8844 120000 0.2711 0.2171 0.9854 0.9855 0.9856 0.9855 0.9846
3.8909 120200 0.2825 - - - - - -
3.8973 120400 0.2724 - - - - - -
3.9038 120600 0.3078 - - - - - -
3.9103 120800 0.2806 - - - - - -
3.9168 121000 0.2631 - - - - - -
3.9232 121200 0.2892 - - - - - -
3.9297 121400 0.2791 - - - - - -
3.9362 121600 0.2874 - - - - - -
3.9427 121800 0.2602 - - - - - -
3.9491 122000 0.2988 - - - - - -
3.9556 122200 0.2935 - - - - - -
3.9621 122400 0.2999 - - - - - -
3.9686 122600 0.2930 - - - - - -
3.9750 122800 0.2784 - - - - - -
3.9815 123000 0.3013 - - - - - -
3.9880 123200 0.2919 - - - - - -
3.9944 123400 0.3011 - - - - - -

Framework Versions

  • Python: 3.10.19
  • Sentence Transformers: 5.2.3
  • Transformers: 5.2.0
  • PyTorch: 2.6.0+cu124
  • Accelerate: 1.12.0
  • Datasets: 4.5.0
  • Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}