Upload folder using huggingface_hub

4a611c2 verified about 1 month ago

44.5 kB

tags:
  - sentence-transformers
  - sentence-similarity
  - feature-extraction
  - dense
  - generated_from_trainer
  - dataset_size:3954179
  - loss:MatryoshkaLoss
  - loss:MultipleNegativesRankingLoss
widget:
  - source_sentence: >-
      إذا لم تكن قد فعلت ذلك بالفعل ، تحقق من تصميمنا الجديد للمراسلات والحوارات
      واليوميات .
    sentences:
      - تم إعادة تصميم الرسائل والحوارات .
      - يقدم مقهى بارج كل من وجبات الغداء والإفطار .
      - قبل ان نعرف اسماء بعضنا او اي شيء قد تعانقنا وبكىنا .
  - source_sentence: أين تقع جامعة واينزبرج
    sentences:
      - >-
        جامعة دالاس بابتيست ( DBU ) ، المعروفة سابقا باسم كلية دالاس بابتيست ،
        هي جامعة فنون ليبرالية مسيحية تقع في دالاس ، تكساس . يقع الحرم الجامعي
        الرئيسي على بعد حوالي 12 ميلا ( 19 كم ) جنوب غرب وسط مدينة دالاس ويطل
        على بحيرة ماونتين كريك . تأسست جامعة دالاس بابتيست عام 1898 باسم كلية
        ديكاتور بابتيست ، وتدير حاليا حرما جامعيا في دالاس وبلانو وهيرست .
      - الزوجان معا
      - >-
        تقع جامعة واينسبرغ في حرم جامعي معاصر في تلال جنوب غرب ولاية بنسلفانيا ،
        مع ثلاثة مراكز للبالغين تقع في مناطق بيتسبرغ في ساوثبوينت وكرانبيري
        ومونروفيل . تم إدراج Hanna Hall و Miller Hall في السجل الوطني للأماكن
        التاريخية .
  - source_sentence: The isolated Russian forces resisted in several areas for two more days .
    sentences:
      - >-
        ياهو : كيف يمكنني معرفة ما إذا كان البريد الإلكتروني الذي أرسلته قد تم
        استلامه أو قراءته ؟
      - >-
        واستمرت الاشتباكات الحدودية خلال اليومين المقبلين ، حيث استهدفت المخافر
        الحدودية من الجانبين والتي أسفرت عن وقوع عشرات الإصابات .
      - قاومت القوات الروسية المعزولة في عة مناطق لمدة يومين آخرين .
  - source_sentence: فتاة هيبي بشعر أشقر وأرجواني على الجانب يرتدي قميص أبيض وملابس سوداء
    sentences:
      - فتاة " هيبي " ترتدي قميصا أبيضا وملابس سوداء شعرها أشقر وأحمر
      - المرأة تضع يدها في جيب الرجل
      - فتاة لديها سترة حمراء وسوداء
  - source_sentence: رجل وامرأة يجلسان في سيارة ووجههما في الاتجاه المعاكس من الكاميرا
    sentences:
      - هناك شخصان وسيارة
      - سيارة صدئة هي الشيء الوحيد المرئي
      - كان أفضل حالا
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
  - cosine_accuracy
model-index:
  - name: SentenceTransformer
    results:
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: dev 768
          type: dev-768
        metrics:
          - type: cosine_accuracy
            value: 0.9853799939155579
            name: Cosine Accuracy
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: dev 512
          type: dev-512
        metrics:
          - type: cosine_accuracy
            value: 0.9855160117149353
            name: Cosine Accuracy
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: dev 256
          type: dev-256
        metrics:
          - type: cosine_accuracy
            value: 0.985588014125824
            name: Cosine Accuracy
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: dev 128
          type: dev-128
        metrics:
          - type: cosine_accuracy
            value: 0.9855039715766907
            name: Cosine Accuracy
      - task:
          type: triplet
          name: Triplet
        dataset:
          name: dev 64
          type: dev-64
        metrics:
          - type: cosine_accuracy
            value: 0.9845880270004272
            name: Cosine Accuracy

SentenceTransformer

This is a sentence-transformers model trained on the train dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

Model Details

Model Description

Model Type: Sentence Transformer
Maximum Sequence Length: 512 tokens
Output Dimensionality: 768 dimensions
Similarity Function: Cosine Similarity
Training Dataset:
- train

Model Sources

Documentation: Sentence Transformers Documentation
Repository: Sentence Transformers on GitHub
Hugging Face: Sentence Transformers on Hugging Face

Full Model Architecture

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'BertModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)

Usage

Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

pip install -U sentence-transformers

Then you can load this model and run inference.

from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("sentence_transformers_model_id")
# Run inference
sentences = [
    'رجل وامرأة يجلسان في سيارة ووجههما في الاتجاه المعاكس من الكاميرا',
    'هناك شخصان وسيارة',
    'سيارة صدئة هي الشيء الوحيد المرئي',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.6553, 0.2590],
#         [0.6553, 1.0000, 0.3695],
#         [0.2590, 0.3695, 1.0000]])

Evaluation

Metrics

Triplet

Dataset: dev-768
Evaluated with TripletEvaluator with these parameters:
```
{
    "truncate_dim": 768
}
```

Metric	Value
cosine_accuracy	0.9854

Triplet

Dataset: dev-512
Evaluated with TripletEvaluator with these parameters:
```
{
    "truncate_dim": 512
}
```

Metric	Value
cosine_accuracy	0.9855

Triplet

Dataset: dev-256
Evaluated with TripletEvaluator with these parameters:
```
{
    "truncate_dim": 256
}
```

Metric	Value
cosine_accuracy	0.9856

Triplet

Dataset: dev-128
Evaluated with TripletEvaluator with these parameters:
```
{
    "truncate_dim": 128
}
```

Metric	Value
cosine_accuracy	0.9855

Triplet

Dataset: dev-64
Evaluated with TripletEvaluator with these parameters:
```
{
    "truncate_dim": 64
}
```

Metric	Value
cosine_accuracy	0.9846

Training Details

Training Dataset

train

Dataset: train
Size: 3,954,179 training samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 4 tokens mean: 16.1 tokens max: 113 tokens	min: 3 tokens mean: 41.85 tokens max: 512 tokens	min: 4 tokens mean: 41.99 tokens max: 512 tokens

Samples:

anchor	positive	negative
`في أي مقاطعة تقع لويسفيل أركنساس`	`لويسفيل هي بلدة في مقاطعة لافاييت ، أركنساس ، الولايات المتحدة . كان عدد السكان 1285 في تعداد عام 2000 . . المدينة هي مقر مقاطعة لافاييت .`	`ماونتن هوم ، أركنساس . ماونتن هوم هي مدينة صغيرة في مقاطعة باكستر ، أركنساس ، الولايات المتحدة ، في جبال أوزارك الجنوبية بالقرب من حدود الولاية الشمالية مع ميسوري . اعتبارا من تعداد عام 2010 ، بلغ عدد سكان المدينة 12448 نسمة .`
`متوسط سمك باب الخزانة`	`تتميز أبواب العالم القديم بميزات رائعة مثل السماكة المتزايدة ، والملامح الأعمق ، والأعمدة والقضبان الأوسع لإضفاء مظهر وإحساس أكثر دراماتيكية عند مقارنتها بأبواب الخزانة التقليدية . يبلغ عرض Stiles Rails القياسية 3 بوصات ويمكن تصنيعها في 1 و 1 1 - 8 و 1 سمك .`	اعتمادا على الخطأ في اللوحة ، يبلغ متوسط أسعار الإصلاح 130 دولارا لإصلاح الأبواب الفولاذية و 190 دولارا للخشب و 170 دولارا للألمنيوم و 150 دولارا للألياف الزجاجية . مزيد من المعلومات حول كيفية استبدال لوحة باب المرآب . إذا تعطلت أداة فتح باب الجراج ، فقد تكون سلامتك في خطر . تريد التأكد من أن بابك يعمل بشكل صحيح حتى لا يغلق بطريق الخطأ على حيوان أليف أو شخص . تريد أيضا إغلاقها لإبعاد اللصوص عن منزلك .
`ما هو تعريف الملء`	`اعادة تعبئه . اسم تخصيص ثان لوكيل الوصفات الطبية تم الحصول عليه من الصيدلية ، والذي يسمح به فعل الوصفة الأصلية علم الأدوية للحصول على المزيد من دواء معين ، بعد استخدام الكمية الموصوفة في البداية من الوكيل أو إعطائها . انظر الوصفة الطبية .`	تعليمات إعادة الملء قم بإعادة الملء فقط باستخدام Spectracide ' Bug Stop Home Barrier Refill . قم بإزالة الغطاء . قم بقياس وصب 12 . 8 أونصة سائلة من المركز في حاوية فارغة سعة 1 جالون من Spectracide - Bug Stop - حاجز منزلي ، واملأه حتى 1 جالون بالماء ، استبدل الغطاء وأغلقه بإحكام . المنتج المنسكب قم بقياس 12 . 8 أونصة سائلة من المركز وصبها بحذر في حاوية فارغة سعة 1 جالون من Spectracide - حاجز منزلي من Spectracide - حاجز منزلي ، واملأه حتى 1 جالون بالماء . استبدل الغطاء وأغلقه بإحكام . امسح أي منتج مسكوب .

Loss: MatryoshkaLoss with these parameters:

{
    "loss": "MultipleNegativesRankingLoss",
    "matryoshka_dims": [
        768,
        512,
        256,
        128,
        64
    ],
    "matryoshka_weights": [
        1,
        1,
        1,
        1,
        1
    ],
    "n_dims_per_step": -1
}

Evaluation Dataset

train

Dataset: train
Size: 1,129,759 evaluation samples
Columns: anchor, positive, and negative

Approximate statistics based on the first 1000 samples:

	anchor	positive	negative
type	string	string	string
details	min: 4 tokens mean: 16.7 tokens max: 150 tokens	min: 4 tokens mean: 36.54 tokens max: 512 tokens	min: 3 tokens mean: 35.42 tokens max: 512 tokens

Samples:

anchor	positive	negative
`رجل يرتدي سروال تنس أزرق وقميص بولو أبيض يضرب كرة التنس`	`رجل يلعب رياضة`	`هناك رجل يرتدي زي البيسبول يضرب كرة البيسبول بمضرب التنس`
`امرأة في ثوب أسود تبدو متفاجئة`	`امرأة تغيرت مشاعرها`	`امرأة تسبح في المحيط`
`رجل يرتدي قميص أبيض يقفز على شيء ما على دراجته الصفراء`	`رجل يركب دراجته`	`رجل يركب لوح التزلج فوق المنحدر`

Loss: MatryoshkaLoss with these parameters:

{
    "loss": "MultipleNegativesRankingLoss",
    "matryoshka_dims": [
        768,
        512,
        256,
        128,
        64
    ],
    "matryoshka_weights": [
        1,
        1,
        1,
        1,
        1
    ],
    "n_dims_per_step": -1
}

Training Hyperparameters

Non-Default Hyperparameters

per_device_train_batch_size: 64
num_train_epochs: 4
learning_rate: 2e-05
warmup_steps: 0.1
gradient_accumulation_steps: 2
bf16: True
eval_strategy: steps
warmup_ratio: 0.1
batch_sampler: no_duplicates

All Hyperparameters

Click to expand

per_device_train_batch_size: 64
num_train_epochs: 4
max_steps: -1
learning_rate: 2e-05
lr_scheduler_type: linear
lr_scheduler_kwargs: None
warmup_steps: 0.1
optim: adamw_torch
optim_args: None
weight_decay: 0.0
adam_beta1: 0.9
adam_beta2: 0.999
adam_epsilon: 1e-08
optim_target_modules: None
gradient_accumulation_steps: 2
average_tokens_across_devices: True
max_grad_norm: 1.0
label_smoothing_factor: 0.0
bf16: True
fp16: False
bf16_full_eval: False
fp16_full_eval: False
tf32: None
gradient_checkpointing: False
gradient_checkpointing_kwargs: None
torch_compile: False
torch_compile_backend: None
torch_compile_mode: None
use_liger_kernel: False
liger_kernel_config: None
use_cache: False
neftune_noise_alpha: None
torch_empty_cache_steps: None
auto_find_batch_size: False
log_on_each_node: True
logging_nan_inf_filter: True
include_num_input_tokens_seen: no
log_level: passive
log_level_replica: warning
disable_tqdm: False
project: huggingface
trackio_space_id: trackio
eval_strategy: steps
per_device_eval_batch_size: 8
prediction_loss_only: True
eval_on_start: False
eval_do_concat_batches: True
eval_use_gather_object: False
eval_accumulation_steps: None
include_for_metrics: []
batch_eval_metrics: False
save_only_model: False
save_on_each_node: False
enable_jit_checkpoint: False
push_to_hub: False
hub_private_repo: None
hub_model_id: None
hub_strategy: every_save
hub_always_push: False
hub_revision: None
load_best_model_at_end: False
ignore_data_skip: False
restore_callback_states_from_checkpoint: False
full_determinism: False
seed: 42
data_seed: None
use_cpu: False
accelerator_config: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
parallelism_config: None
dataloader_drop_last: False
dataloader_num_workers: 0
dataloader_pin_memory: True
dataloader_persistent_workers: False
dataloader_prefetch_factor: None
remove_unused_columns: True
label_names: None
train_sampling_strategy: random
length_column_name: length
ddp_find_unused_parameters: None
ddp_bucket_cap_mb: None
ddp_broadcast_buffers: False
ddp_backend: None
ddp_timeout: 1800
fsdp: []
fsdp_config: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
deepspeed: None
debug: []
skip_memory_metrics: True
do_predict: False
resume_from_checkpoint: None
warmup_ratio: 0.1
local_rank: -1
prompts: None
batch_sampler: no_duplicates
multi_dataset_batch_sampler: proportional
router_mapping: {}
learning_rate_mapping: {}

Training Logs

Click to expand

Epoch	Step	Training Loss	train loss	dev-768_cosine_accuracy	dev-512_cosine_accuracy	dev-256_cosine_accuracy	dev-128_cosine_accuracy	dev-64_cosine_accuracy
3.3082	102200	0.2592	-	-	-	-	-	-
3.3147	102400	0.2543	-	-	-	-	-	-
3.3211	102600	0.2641	-	-	-	-	-	-
3.3276	102800	0.2435	-	-	-	-	-	-
3.3341	103000	0.2510	-	-	-	-	-	-
3.3406	103200	0.2481	-	-	-	-	-	-
3.3470	103400	0.2627	-	-	-	-	-	-
3.3535	103600	0.2480	-	-	-	-	-	-
3.3600	103800	0.2636	-	-	-	-	-	-
3.3665	104000	0.2619	-	-	-	-	-	-
3.3729	104200	0.2423	-	-	-	-	-	-
3.3794	104400	0.2505	-	-	-	-	-	-
3.3859	104600	0.2604	-	-	-	-	-	-
3.3924	104800	0.2460	-	-	-	-	-	-
3.3988	105000	0.2440	-	-	-	-	-	-
3.4053	105200	0.2641	-	-	-	-	-	-
3.4118	105400	0.2573	-	-	-	-	-	-
3.4183	105600	0.2613	-	-	-	-	-	-
3.4247	105800	0.2746	-	-	-	-	-	-
3.4312	106000	0.2578	-	-	-	-	-	-
3.4377	106200	0.2445	-	-	-	-	-	-
3.4442	106400	0.2530	-	-	-	-	-	-
3.4506	106600	0.2644	-	-	-	-	-	-
3.4571	106800	0.2656	-	-	-	-	-	-
3.4636	107000	0.2520	-	-	-	-	-	-
3.4700	107200	0.2527	-	-	-	-	-	-
3.4765	107400	0.2534	-	-	-	-	-	-
3.4830	107600	0.2530	-	-	-	-	-	-
3.4895	107800	0.2614	-	-	-	-	-	-
3.4959	108000	0.2517	0.2252	0.9849	0.9849	0.9851	0.9849	0.9841
3.5024	108200	0.2589	-	-	-	-	-	-
3.5089	108400	0.2582	-	-	-	-	-	-
3.5154	108600	0.2553	-	-	-	-	-	-
3.5218	108800	0.2457	-	-	-	-	-	-
3.5283	109000	0.2662	-	-	-	-	-	-
3.5348	109200	0.2619	-	-	-	-	-	-
3.5413	109400	0.2556	-	-	-	-	-	-
3.5477	109600	0.2635	-	-	-	-	-	-
3.5542	109800	0.2550	-	-	-	-	-	-
3.5607	110000	0.2670	-	-	-	-	-	-
3.5672	110200	0.2660	-	-	-	-	-	-
3.5736	110400	0.2604	-	-	-	-	-	-
3.5801	110600	0.2574	-	-	-	-	-	-
3.5866	110800	0.2607	-	-	-	-	-	-
3.5931	111000	0.2465	-	-	-	-	-	-
3.5995	111200	0.2790	-	-	-	-	-	-
3.6060	111400	0.2681	-	-	-	-	-	-
3.6125	111600	0.2654	-	-	-	-	-	-
3.6190	111800	0.2640	-	-	-	-	-	-
3.6254	112000	0.2774	-	-	-	-	-	-
3.6319	112200	0.2568	-	-	-	-	-	-
3.6384	112400	0.2665	-	-	-	-	-	-
3.6448	112600	0.2532	-	-	-	-	-	-
3.6513	112800	0.2613	-	-	-	-	-	-
3.6578	113000	0.2413	-	-	-	-	-	-
3.6643	113200	0.2788	-	-	-	-	-	-
3.6707	113400	0.2586	-	-	-	-	-	-
3.6772	113600	0.2602	-	-	-	-	-	-
3.6837	113800	0.2708	-	-	-	-	-	-
3.6902	114000	0.2556	0.2188	0.9851	0.9852	0.9854	0.9853	0.9844
3.6966	114200	0.2576	-	-	-	-	-	-
3.7031	114400	0.2713	-	-	-	-	-	-
3.7096	114600	0.2748	-	-	-	-	-	-
3.7161	114800	0.2542	-	-	-	-	-	-
3.7225	115000	0.2647	-	-	-	-	-	-
3.7290	115200	0.2751	-	-	-	-	-	-
3.7355	115400	0.2534	-	-	-	-	-	-
3.7420	115600	0.2577	-	-	-	-	-	-
3.7484	115800	0.2722	-	-	-	-	-	-
3.7549	116000	0.2717	-	-	-	-	-	-
3.7614	116200	0.2737	-	-	-	-	-	-
3.7679	116400	0.2725	-	-	-	-	-	-
3.7743	116600	0.2587	-	-	-	-	-	-
3.7808	116800	0.2623	-	-	-	-	-	-
3.7873	117000	0.2659	-	-	-	-	-	-
3.7938	117200	0.2735	-	-	-	-	-	-
3.8002	117400	0.2847	-	-	-	-	-	-
3.8067	117600	0.2636	-	-	-	-	-	-
3.8132	117800	0.2777	-	-	-	-	-	-
3.8196	118000	0.2751	-	-	-	-	-	-
3.8261	118200	0.2609	-	-	-	-	-	-
3.8326	118400	0.2684	-	-	-	-	-	-
3.8391	118600	0.2772	-	-	-	-	-	-
3.8455	118800	0.2684	-	-	-	-	-	-
3.8520	119000	0.2682	-	-	-	-	-	-
3.8585	119200	0.2784	-	-	-	-	-	-
3.8650	119400	0.2735	-	-	-	-	-	-
3.8714	119600	0.2848	-	-	-	-	-	-
3.8779	119800	0.2638	-	-	-	-	-	-
3.8844	120000	0.2711	0.2171	0.9854	0.9855	0.9856	0.9855	0.9846
3.8909	120200	0.2825	-	-	-	-	-	-
3.8973	120400	0.2724	-	-	-	-	-	-
3.9038	120600	0.3078	-	-	-	-	-	-
3.9103	120800	0.2806	-	-	-	-	-	-
3.9168	121000	0.2631	-	-	-	-	-	-
3.9232	121200	0.2892	-	-	-	-	-	-
3.9297	121400	0.2791	-	-	-	-	-	-
3.9362	121600	0.2874	-	-	-	-	-	-
3.9427	121800	0.2602	-	-	-	-	-	-
3.9491	122000	0.2988	-	-	-	-	-	-
3.9556	122200	0.2935	-	-	-	-	-	-
3.9621	122400	0.2999	-	-	-	-	-	-
3.9686	122600	0.2930	-	-	-	-	-	-
3.9750	122800	0.2784	-	-	-	-	-	-
3.9815	123000	0.3013	-	-	-	-	-	-
3.9880	123200	0.2919	-	-	-	-	-	-
3.9944	123400	0.3011	-	-	-	-	-	-

Framework Versions

Python: 3.10.19
Sentence Transformers: 5.2.3
Transformers: 5.2.0
PyTorch: 2.6.0+cu124
Accelerate: 1.12.0
Datasets: 4.5.0
Tokenizers: 0.22.2

Citation

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

MatryoshkaLoss

@misc{kusupati2024matryoshka,
    title={Matryoshka Representation Learning},
    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
    year={2024},
    eprint={2205.13147},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}

MultipleNegativesRankingLoss

@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}