Pushing the final model to the hub

Browse files

Files changed (11) hide show

1_Pooling/config.json +10 -0
README.md +507 -0
config.json +25 -0
config_sentence_transformers.json +10 -0
model.safetensors +3 -0
modules.json +14 -0
sentence_bert_config.json +4 -0
special_tokens_map.json +37 -0
tokenizer.json +0 -0
tokenizer_config.json +66 -0
vocab.txt +0 -0

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "word_embedding_dimension": 768,
+  "pooling_mode_cls_token": false,
+  "pooling_mode_mean_tokens": true,
+  "pooling_mode_max_tokens": false,
+  "pooling_mode_mean_sqrt_len_tokens": false,
+  "pooling_mode_weightedmean_tokens": false,
+  "pooling_mode_lasttoken": false,
+  "include_prompt": true
+}

README.md ADDED Viewed

	@@ -0,0 +1,507 @@

+---
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- generated_from_trainer
+- dataset_size:60000000
+- loss:MultipleNegativesRankingLoss
+base_model: dbmdz/bert-base-turkish-cased
+widget:
+- source_sentence: Tasman Denizi
+  sentences:
+  - '(Grekçe: Πέργαμον), günümüzde İzmir iline bağlı Bergama ilçesinin merkezinin
+    yerinde kurulu antik kentin adıdır. , eski çağlarda Misya bölgesinin önemli merkezlerinden
+    biriydi. MÖ 282-133 arasında da Krallığı''nın başkentiydi. adı, bir söylence kahramanı
+    olan Pergamos''tan gelir. Pergamos''un, Teuthrania kralını öldürdükten sonra kenti
+    ele geçirdiği ve kendi adını verdiği sanılır. Başka bir söylenceye göre de Teuthrania
+    Kralı Grynos savaşta Pergamos''tan yardım istemiş, zaferden sonra iki kent kurdurarak
+    birine onun onuruna , ötekine de Gryneion adını vermiştir.'
+  - ', Okyanusya bölgesinde Büyük Okyanus''a bağlı bir deniz. Avustralya ve Yeni Zelanda
+    arasında yaklaşık 2000 km boyunca uzanır. Avustralya''nın doğu eyaletleri olan
+    Yeni Güney Galler, Tasmanya, Queensland ve Victoria eyaletleri Yeni Zelanda''nın
+    batısı ve Yeni Kaledonya''ya kıyıları vardır. Queensland ve Yeni Kaledonya arasındaki
+    boğaz ile Mercan Denizi''nden ayrılır.'
+  - (ya da Soundtrack from the Film More), Barbet Schroeder tarafından yönetilmiş
+    More filminin soundtrack'idir. Pink Floyd'un bu ilk soundtrack çalışması aynı
+    zamanda Syd Barrett olmadan yapılan ilk albümdür. Önceki albümlerdeki prodüktör
+    Norman Smith burada yerini Pink Floyd'un kendisine bırakmışıtr. Pink Floyd bu
+    ve sonraki soundtrack'lerinde esas albümlerinde kullanmayacakları materyalleri
+    kullanacak, değişik tarzlarda denemeler yapacaktı. Albüm kısa pop/folk şarkıları,
+    doğaçlamalar, The Nile Song ve Ibiza Bar gibi hard rock kategorisinde değerlendirilebilecek
+    parçalardan oluşmaktadır. A Spanish Piece gibi birçok şarkı ısmarlama şeklinde
+    bestelenmiştir.
+- source_sentence: Windows 95
+  sentences:
+  - ', Yerküre''de yer alan ana biyom tiplerinden birisidir. , yıllık 250 mm''den
+    az yağış alan bölgeler için kullanılan bir terimdir.'
+  - ', sabit bir sıcaklık ve sabit bir gerilme altında, malzemede oluşan gerilmenin
+    zamana göre değişimini tespit eden bir deneydir. gerilme gevşemesi deneyi de Sürünme
+    deneyine benzer olarak uzun zaman dilimlerinde gerçekleştirilebilen bir deneydir.
+    Son zamanlarda gerilme gevşemesi deneyi giderek yaygınlık kazanmaktadır özellikle
+    arabaların amortisör kısımlarında kullanılan çeliklerin geliştirilmesi konusunda
+    mutlak gereklilik duyulmaktadır çünkü bu malzemelerden istenen temel özellik herhangi
+    bir gerilim anında oluşan enerjiyi absorbe ederek daha sonra serbest bırakması
+    istenir. ile malzemenin yoğun olduğu bölgelerdeki bu bölgeler döküm, plastik şekil
+    verme ve kaynaktır. Isıl işlemin kalıcı iç gerilmelere ve bunların giderilmesine
+    olan etkisini test eden bir deneydir.
+    Gerilme gevşemesi ile malzemelerin mekanik özellikleri arasında bir ilişki olup
+    bu ilişkiden faydalanarak aktivasyon enerjisi, deformasyon hızı duyarlılığı üssü,
+    dislokasyon hareketi için gerekli etkin gerilme, dislokasyon hızı gerilme üssü
+    gibi mekanik özelliklerle ilgili bazı parametreler de gerilme gevşemesi deneyi
+    ile tespit edilir.'
+  - ', Microsoft''un ürettiği işletim sistemi ailesi Windows''un MS-DOS üzerinde yükselen
+    dördüncü ana sürümüdür.'
+- source_sentence: Soyuz 18-1
+  sentences:
+  - (Soyuz 18a, 5 Nisan anomalisi), Sovyetler Birliği tarafından fırlatılan insanlı
+    uzay aracı. Arıza nedeniyle yörüngeye ulaşamadan içindeki iki kozmonotla birlikte
+    düştü. Acil iniş sisteminin çalışması nedeniyle kozmonotlar Vasili Lazarev ve
+    Oleg Makarov yara almadan kurtuldular.
+  - '(İbranice: חיים רביבו) (d.22 Şubat 1972, Aşdod) İsrailli eski millî futbolcudur.'
+  - ', ilk olarak genel anlamda Perry Anderson''un Üzerine Düşünceler kitabında bahsettiği
+    anlamda, 19. yüzyıldan ve 20. yüzyıla Marksizmin Batı''daki hikâyesinden oluşur.
+    Bu anlamda Marks''ın eserinden bugüne kadarki gelişimi, ayrışmaları, iç bölümlenmeleri,
+    farklılıklarıyla teorik ve politik bir sistematik öğreti olarak Marksizmin Batı
+    düşüncesindeki ve pratiğindeki yeri değerlendirilir. Karl Kautsky ve Lenin''in
+    tartışmaları da bu bağlamda genel anlamdaki bu içinde yer alır.'
+- source_sentence: Yukarıkarakaya
+  sentences:
+  - Doğançam, Antalya ilinin Manavgat ilçesine bağlı bir mahalledir.
+  - Sultan , III. Mustafa’nın yaptırdığı Laleli Külliyesi'ndedir. Bu türbe Nuruosmaniye
+    Türbesi'nden sonra Batı etkilerinin görüldüğü ikinci sultan türbesidir. Ordu caddesi
+    üzerinde Laleli Camii'nin giriş kapısı ile han bölümünün yan tarafıdır. 1759–1763
+    yıllarında Mimar Mehmed Tahir Ağa'ya inşa ettirilmiştir.
+  - ', Yozgat ilinin Çekerek ilçesine bağlı bir köydür.'
+- source_sentence: Aksaz, Manavgat
+  sentences:
+  - ', (d. Şubat 1882, Mekke, Osmanlı İmparatorluğu - ö. 20 Temmuz 1951, Kudüs, Filistin),
+    Ürdün Kralı. Arap-İsrail savaşları sırasında öldürüldü, yerine oğlu 1. Talal geçmiştir.'
+  - (1961, Şereflikoçhisar, Ankara) Türk halk müziği sanatçısı.
+  - Aksaz, Antalya ilinin Manavgat ilçesine bağlı bir mahalledir.
+datasets:
+- selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset
+pipeline_tag: sentence-similarity
+library_name: sentence-transformers
+metrics:
+- cosine_accuracy
+- cosine_accuracy_threshold
+- cosine_f1
+- cosine_f1_threshold
+- cosine_precision
+- cosine_recall
+- cosine_ap
+- cosine_mcc
+model-index:
+- name: SentenceTransformer based on dbmdz/bert-base-turkish-cased
+  results:
+  - task:
+      type: binary-classification
+      name: Binary Classification
+    dataset:
+      name: dev
+      type: dev
+    metrics:
+    - type: cosine_accuracy
+      value: 0.9999989554433933
+      name: Cosine Accuracy
+    - type: cosine_accuracy_threshold
+      value: -0.10191559791564941
+      name: Cosine Accuracy Threshold
+    - type: cosine_f1
+      value: 0.9999994777214238
+      name: Cosine F1
+    - type: cosine_f1_threshold
+      value: -0.10191559791564941
+      name: Cosine F1 Threshold
+    - type: cosine_precision
+      value: 1.0
+      name: Cosine Precision
+    - type: cosine_recall
+      value: 0.9999989554433933
+      name: Cosine Recall
+    - type: cosine_ap
+      value: 0.9999999999999996
+      name: Cosine Ap
+    - type: cosine_mcc
+      value: 0.0
+      name: Cosine Mcc
+---
+# SentenceTransformer based on dbmdz/bert-base-turkish-cased
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [dbmdz/bert-base-turkish-cased](https://huggingface.co/dbmdz/bert-base-turkish-cased) on the [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+## Model Details
+### Model Description
+- **Model Type:** Sentence Transformer
+- **Base model:** [dbmdz/bert-base-turkish-cased](https://huggingface.co/dbmdz/bert-base-turkish-cased) <!-- at revision 5bcc154ffb58544ecd61d808897597c40ef63881 -->
+- **Maximum Sequence Length:** 512 tokens
+- **Output Dimensionality:** 768 dimensions
+- **Similarity Function:** Cosine Similarity
+- **Training Dataset:**
+    - [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset)
+<!-- - **Language:** Unknown -->
+<!-- - **License:** Unknown -->
+### Model Sources
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+### Full Model Architecture
+```
+SentenceTransformer(
+  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: BertModel
+  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+)
+```
+## Usage
+### Direct Usage (Sentence Transformers)
+First install the Sentence Transformers library:
+```bash
+pip install -U sentence-transformers
+```
+Then you can load this model and run inference.
+```python
+from sentence_transformers import SentenceTransformer
+# Download from the 🤗 Hub
+model = SentenceTransformer("selmanbaysan/bert-base-turkish-cased_large_scale_contrastive_learning")
+# Run inference
+sentences = [
+    'Aksaz, Manavgat',
+    'Aksaz, Antalya ilinin Manavgat ilçesine bağlı bir mahalledir.',
+    ', (d. Şubat 1882, Mekke, Osmanlı İmparatorluğu - ö. 20 Temmuz 1951, Kudüs, Filistin), Ürdün Kralı. Arap-İsrail savaşları sırasında öldürüldü, yerine oğlu 1. Talal geçmiştir.',
+]
+embeddings = model.encode(sentences)
+print(embeddings.shape)
+# [3, 768]
+# Get the similarity scores for the embeddings
+similarities = model.similarity(embeddings, embeddings)
+print(similarities.shape)
+# [3, 3]
+```
+<!--
+### Direct Usage (Transformers)
+<details><summary>Click to see the direct usage in Transformers</summary>
+</details>
+-->
+<!--
+### Downstream Usage (Sentence Transformers)
+You can finetune this model on your own dataset.
+<details><summary>Click to expand</summary>
+</details>
+-->
+<!--
+### Out-of-Scope Use
+*List how the model may foreseeably be misused and address what users ought not to do with the model.*
+-->
+## Evaluation
+### Metrics
+#### Binary Classification
+* Dataset: `dev`
+* Evaluated with [<code>BinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.BinaryClassificationEvaluator)
+| Metric                    | Value   |
+|:--------------------------|:--------|
+| cosine_accuracy           | 1.0     |
+| cosine_accuracy_threshold | -0.1019 |
+| cosine_f1                 | 1.0     |
+| cosine_f1_threshold       | -0.1019 |
+| cosine_precision          | 1.0     |
+| cosine_recall             | 1.0     |
+| **cosine_ap**             | **1.0** |
+| cosine_mcc                | 0.0     |
+<!--
+## Bias, Risks and Limitations
+*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
+-->
+<!--
+### Recommendations
+*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
+-->
+## Training Details
+### Training Dataset
+#### turkish_weakly_supervised_contrastive_learning_dataset
+* Dataset: [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset) at [bf99eda](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset/tree/bf99eda89b8fa45f7f5c82b490fd875e93ffd5fe)
+* Size: 60,000,000 training samples
+* Columns: <code>anchor</code> and <code>positive</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                           | positive                                                                          |
+  |:--------|:---------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
+  | type    | string                                                                           | string                                                                            |
+  | details | <ul><li>min: 3 tokens</li><li>mean: 5.02 tokens</li><li>max: 16 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 73.1 tokens</li><li>max: 512 tokens</li></ul> |
+* Samples:
+  | anchor                     | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |
+  |:---------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+  | <code>Cengiz Han</code>    | <code>(doğum adıyla Temuçin, – 18 Ağustos 1227), Moğol İmparatorluğu'nun kurucusu ve ilk Kağanı olan Moğol komutan ve hükümdardır. Hükümdarlığı döneminde gerçekleştirdiği hiçbir savaşı kaybetmeyen , dünya tarihinin en büyük askeri liderlerinden birisi olarak kabul edilmektedir. 13. yüzyılın başında Orta Asya'daki tüm göçebe bozkır kavimlerini birleştirip bir ulus hâline getirerek Moğol siyasi kimliği çatısı altında toplamıştır. , hükümdarlığı döneminde, 1206-1227 arasında, Kuzey Çin'deki Batı Xia ve Jin Hanedanı; Türkistan'daki Kara Hıtay, Maveraünnehir; Harezm, Horasan ve İran'daki Harezmşahlar, Kafkasya'daki Gürcüler, Deşt-i Kıpçak'taki Rus Knezlikleri, Kıpçaklar ile İdil Bulgarları üzerine seferler yaptı ve imparatorluğu döneminde gerçekleştirdiği hiçbir savaşı kaybetmedi. Bunların sonucunda Pasifik Okyanusu'ndan Hazar Denizi'ne ve Karadeniz'in kuzeyine kadar uzanan bir imparatorluk kurdu.</code> |
+  | <code>Mustafa Suphi</code> | <code>Mehmed Mustafa Subhi (), kısaca , veya bazı kaynaklarda kullanıldığı haliyle Osmanlıca yazıma göre Mustafa Subhi (4 Ağustos 1882 veya 4 Mayıs 1883 - 28 Ocak 1921), Türk komünist ve Türkiye Komünist Partisinin ilk Merkez Komitesi Başkanı.</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |
+  | <code>Linux</code>         | <code>(telaffuz: Lin-uks); çekirdeğine dayalı, açık kaynak kodlu, Unix benzeri bir işletim sistemi ailesidir. GNU Genel Kamu Lisansı versiyon 2 ile sunulan ve Vakfı çatısı altında geliştirilen bir özgür yazılım projesidir. ismi ilk geliştiricisi olan Linus Torvalds tarafından 1991 yılında verilmiştir. Günümüzde süper bilgisayarlarda, akıllı cihazların ve internet altyapısında kullanılan cihazların işletim sistemlerinde yaygın olarak kullanılmaktadır. Bunlardan en popüler olanı Google tarafından geliştirilen Android işletim sistemidir.</code>                                                                                                                                                                                                                                                                                                                                                                              |
+* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
+  ```json
+  {
+      "scale": 20.0,
+      "similarity_fct": "cos_sim"
+  }
+  ```
+### Evaluation Dataset
+#### turkish_weakly_supervised_contrastive_learning_dataset
+* Dataset: [turkish_weakly_supervised_contrastive_learning_dataset](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset) at [bf99eda](https://huggingface.co/datasets/selmanbaysan/turkish_weakly_supervised_contrastive_learning_dataset/tree/bf99eda89b8fa45f7f5c82b490fd875e93ffd5fe)
+* Size: 957,344 evaluation samples
+* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>label</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | sentence1                                                                        | sentence2                                                                           | label                        |
+  |:--------|:---------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-----------------------------|
+  | type    | string                                                                           | string                                                                              | int                          |
+  | details | <ul><li>min: 3 tokens</li><li>mean: 6.67 tokens</li><li>max: 21 tokens</li></ul> | <ul><li>min: 10 tokens</li><li>mean: 48.63 tokens</li><li>max: 457 tokens</li></ul> | <ul><li>1: 100.00%</li></ul> |
+* Samples:
+  | sentence1                       | sentence2                                                                                                                                                                                                                                                                                                                                                                                                                                                                 | label          |
+  |:--------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
+  | <code>S. Murat Demiral</code>   | <code>1966 İstanbul doğumlu Türk müzisyen. 1976 yılında İstanbul devlet konservatuvarında Ziya Polat ile trombona başladı 1977 yılında İstanbul Belediye konservatuvarına geçtı burada 1 yıl Mahmut Doğuduyal ile çalıştı 1978 yılında tekrar Ziya Polat ile çalışmaya başladı. 1980 yılında İstanbul Devlet Opera ve Balesi Orkestrası'nın sınavını kazandı.</code>                                                                                                      | <code>1</code> |
+  | <code>Türkiye'nin illeri</code> | <code>Anadolu yarımadası ile Trakya toprakları üzerine kurulan Türkiye'nin, 81 ili vardır. İller, Türkiye'nin en büyük idari bölümleridir. Bu seksen bir il, dokuz yüz yetmiş üç ilçeye bölünmüştür. Bu ilçeler, en küçük idari birim olan mahalle ve köyleri içinde barındırır. İllerde yönetme ve yürütme görevi, içişleri bakanı tarafından önerilen ve bakanlar kurulunun onayından sonra cumhurbaşkanı tarafından atanan valiler tarafından yerine getirilir.</code> | <code>1</code> |
+  | <code>Cezayir</code>            | <code>(Arapça: الجزائر al-ġazaʾir; Berberi dilleri: ⴷⵣⴰⵢⴻⵔ Dzayer) ya da resmî adıyla Demokratik Halk Cumhuriyeti (Arapça: الجمهورية الجزائرية الديمقراطية الشّعبية), Kuzey Afrika'da ülke. 2,381,741 kilometre karelik yüzölçümü ile Afrika'nın yüzölçümü olarak en büyük ülkesi olan , dünyanın onuncu, Arap Dünyası ve Afrika Birliği içerisinde ise en büyük ülkedir. Aynı zamanda, 44 milyonluk nüfusuyla da Afrika'nın en kalabalık sekizinci ülkesidir.</code>     | <code>1</code> |
+* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
+  ```json
+  {
+      "scale": 20.0,
+      "similarity_fct": "cos_sim"
+  }
+  ```
+### Training Hyperparameters
+#### Non-Default Hyperparameters
+- `eval_strategy`: steps
+- `per_device_train_batch_size`: 64
+- `per_device_eval_batch_size`: 64
+- `learning_rate`: 2e-05
+- `num_train_epochs`: 1
+- `lr_scheduler_type`: cosine_with_restarts
+- `warmup_ratio`: 0.1
+- `fp16`: True
+- `batch_sampler`: no_duplicates
+#### All Hyperparameters
+<details><summary>Click to expand</summary>
+- `overwrite_output_dir`: False
+- `do_predict`: False
+- `eval_strategy`: steps
+- `prediction_loss_only`: True
+- `per_device_train_batch_size`: 64
+- `per_device_eval_batch_size`: 64
+- `per_gpu_train_batch_size`: None
+- `per_gpu_eval_batch_size`: None
+- `gradient_accumulation_steps`: 1
+- `eval_accumulation_steps`: None
+- `torch_empty_cache_steps`: None
+- `learning_rate`: 2e-05
+- `weight_decay`: 0.0
+- `adam_beta1`: 0.9
+- `adam_beta2`: 0.999
+- `adam_epsilon`: 1e-08
+- `max_grad_norm`: 1.0
+- `num_train_epochs`: 1
+- `max_steps`: -1
+- `lr_scheduler_type`: cosine_with_restarts
+- `lr_scheduler_kwargs`: {}
+- `warmup_ratio`: 0.1
+- `warmup_steps`: 0
+- `log_level`: passive
+- `log_level_replica`: warning
+- `log_on_each_node`: True
+- `logging_nan_inf_filter`: True
+- `save_safetensors`: True
+- `save_on_each_node`: False
+- `save_only_model`: False
+- `restore_callback_states_from_checkpoint`: False
+- `no_cuda`: False
+- `use_cpu`: False
+- `use_mps_device`: False
+- `seed`: 42
+- `data_seed`: None
+- `jit_mode_eval`: False
+- `use_ipex`: False
+- `bf16`: False
+- `fp16`: True
+- `fp16_opt_level`: O1
+- `half_precision_backend`: auto
+- `bf16_full_eval`: False
+- `fp16_full_eval`: False
+- `tf32`: None
+- `local_rank`: 0
+- `ddp_backend`: None
+- `tpu_num_cores`: None
+- `tpu_metrics_debug`: False
+- `debug`: []
+- `dataloader_drop_last`: False
+- `dataloader_num_workers`: 0
+- `dataloader_prefetch_factor`: None
+- `past_index`: -1
+- `disable_tqdm`: False
+- `remove_unused_columns`: True
+- `label_names`: None
+- `load_best_model_at_end`: False
+- `ignore_data_skip`: False
+- `fsdp`: []
+- `fsdp_min_num_params`: 0
+- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
+- `tp_size`: 0
+- `fsdp_transformer_layer_cls_to_wrap`: None
+- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
+- `deepspeed`: None
+- `label_smoothing_factor`: 0.0
+- `optim`: adamw_torch
+- `optim_args`: None
+- `adafactor`: False
+- `group_by_length`: False
+- `length_column_name`: length
+- `ddp_find_unused_parameters`: None
+- `ddp_bucket_cap_mb`: None
+- `ddp_broadcast_buffers`: False
+- `dataloader_pin_memory`: True
+- `dataloader_persistent_workers`: False
+- `skip_memory_metrics`: True
+- `use_legacy_prediction_loop`: False
+- `push_to_hub`: False
+- `resume_from_checkpoint`: None
+- `hub_model_id`: None
+- `hub_strategy`: every_save
+- `hub_private_repo`: None
+- `hub_always_push`: False
+- `gradient_checkpointing`: False
+- `gradient_checkpointing_kwargs`: None
+- `include_inputs_for_metrics`: False
+- `include_for_metrics`: []
+- `eval_do_concat_batches`: True
+- `fp16_backend`: auto
+- `push_to_hub_model_id`: None
+- `push_to_hub_organization`: None
+- `mp_parameters`:
+- `auto_find_batch_size`: False
+- `full_determinism`: False
+- `torchdynamo`: None
+- `ray_scope`: last
+- `ddp_timeout`: 1800
+- `torch_compile`: False
+- `torch_compile_backend`: None
+- `torch_compile_mode`: None
+- `include_tokens_per_second`: False
+- `include_num_input_tokens_seen`: False
+- `neftune_noise_alpha`: None
+- `optim_target_modules`: None
+- `batch_eval_metrics`: False
+- `eval_on_start`: False
+- `use_liger_kernel`: False
+- `eval_use_gather_object`: False
+- `average_tokens_across_devices`: False
+- `prompts`: None
+- `batch_sampler`: no_duplicates
+- `multi_dataset_batch_sampler`: proportional
+</details>
+### Training Logs
+| Epoch  | Step   | Training Loss | Validation Loss | dev_cosine_ap |
+|:------:|:------:|:-------------:|:---------------:|:-------------:|
+| 0.5333 | 500000 | 0.2938        | 0.2648          | 1.0000        |
+| 0.5867 | 550000 | 0.2848        | 0.2557          | 1.0000        |
+| 0.64   | 600000 | 0.2757        | 0.2482          | 1.0000        |
+| 0.6933 | 650000 | 0.268         | 0.2419          | 1.0000        |
+| 0.7467 | 700000 | 0.2619        | 0.2368          | 1.0000        |
+| 0.8    | 750000 | 0.257         | 0.2324          | 1.0000        |
+| 0.8533 | 800000 | 0.254         | 0.2296          | 1.0000        |
+| 0.9067 | 850000 | 0.2507        | 0.2279          | 1.0000        |
+| 0.96   | 900000 | 0.2498        | 0.2271          | 1.0000        |
+### Framework Versions
+- Python: 3.10.6
+- Sentence Transformers: 4.1.0
+- Transformers: 4.51.3
+- PyTorch: 2.7.0+cu126
+- Accelerate: 1.6.0
+- Datasets: 3.5.1
+- Tokenizers: 0.21.1
+## Citation
+### BibTeX
+#### Sentence Transformers
+```bibtex
+@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}
+```
+#### MultipleNegativesRankingLoss
+```bibtex
+@misc{henderson2017efficient,
+    title={Efficient Natural Language Response Suggestion for Smart Reply},
+    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
+    year={2017},
+    eprint={1705.00652},
+    archivePrefix={arXiv},
+    primaryClass={cs.CL}
+}
+```
+<!--
+## Glossary
+*Clearly define terms in order to be accessible across audiences.*
+-->
+<!--
+## Model Card Authors
+*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
+-->
+<!--
+## Model Card Contact
+*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
+-->

config.json ADDED Viewed

	@@ -0,0 +1,25 @@

+{
+  "_name_or_path": "final",
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.46.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 32000
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+  "__version__": {
+    "sentence_transformers": "3.3.0",
+    "transformers": "4.46.2",
+    "pytorch": "2.5.1"
+  },
+  "prompts": {},
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bde2a19ef5b596e3439aff874511c401a51b39dd7b5057c4ca008f1edd78eac5
+size 442491744

modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+  "max_seq_length": 512,
+  "do_lower_case": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,66 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": false,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "max_len": 512,
+  "max_length": 512,
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_to_multiple_of": null,
+  "pad_token": "[PAD]",
+  "pad_token_type_id": 0,
+  "padding_side": "right",
+  "sep_token": "[SEP]",
+  "stride": 0,
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "truncation_side": "right",
+  "truncation_strategy": "longest_first",
+  "unk_token": "[UNK]"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff