Add Romanian RoBERT retriever (checkpoint-9000, lr=8e-5, MSMARCO-ro).

Browse files

Files changed (11) hide show

1_Pooling/config.json +10 -0
README.md +622 -0
config.json +27 -0
config_sentence_transformers.json +14 -0
model.safetensors +3 -0
modules.json +14 -0
sentence_bert_config.json +4 -0
special_tokens_map.json +7 -0
tokenizer.json +0 -0
tokenizer_config.json +58 -0
vocab.txt +0 -0

1_Pooling/config.json ADDED Viewed

	@@ -0,0 +1,10 @@

+{
+    "word_embedding_dimension": 1024,
+    "pooling_mode_cls_token": false,
+    "pooling_mode_mean_tokens": true,
+    "pooling_mode_max_tokens": false,
+    "pooling_mode_mean_sqrt_len_tokens": false,
+    "pooling_mode_weightedmean_tokens": false,
+    "pooling_mode_lasttoken": false,
+    "include_prompt": true
+}

README.md ADDED Viewed

	@@ -0,0 +1,622 @@

+---
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- dense
+- generated_from_trainer
+- dataset_size:11661069
+- loss:MatryoshkaLoss
+- loss:CachedMultipleNegativesRankingLoss
+base_model: readerbench/RoBERT-large
+widget:
+- source_sentence: Populația orașului Mirabel din Canada
+  sentences:
+  - "Mustique (pronunțat /mÊCVstiË\x90k/) este o insulă privată mică, care face parte\
+    \ din Sf. Vincent și Grenadinele. Insula este una dintre insulele numite Grenadinele,\
+    \ majoritatea aflate în Sf. Vincent și Grenadinele, în Indiile de Vest. Insula\
+    \ se află în Parohia Grenadinele, o zonă administrativă a țării. Istoria insulei\
+    \ Mustique și a insulelor Grenadine în general datează din secolul al XV-lea,\
+    \ când marinari spanioli au zărit pentru prima oară acest grup de mici insule\
+    \ stâncoase și le-au botezat Los Pajaros (păsări), deoarece semănau cu un mic\
+    \ cârd de păsări care zboară deasupra mării."
+  - La momentul recensământului din 2006, Mirabel avea o populație de 34.626 de locuitori.
+    Populația din Mirabel reprezintă 0,46% din totalul populației Quebec-ului (care
+    număra 7.546,131 de locuitori la acel moment). Cu o populație de 34.626 de locuitori
+    în 2006, cea a Mirabel a crescut cu 26,77% față de recensământul din 2001 (care
+    a numărat 27.315 de locuitori).
+  - Montreal, Quebec, încorporat ca oraș în 1832, are o populație de 1.704.694 (conform
+    recensământului din 2016) și 1.649.519 (conform recensământului din 2011). Montreal
+    este al doilea oraș al Canadei ca mărime și găzduiește aproape jumătate din populația
+    provinciei Quebec. Este metropola provinciei și a fost cel mai populat oraș din
+    Canada timp de un secol și jumătate.
+- source_sentence: Ce este vaccinul Havrix?
+  sentences:
+  - HAVRIX este un vaccin indicat pentru imunizarea activă împotriva bolilor cauzate
+    de virusul hepatitei A (HAV). HAVRIX este aprobat pentru utilizare la persoanele
+    cu vârste de 12 luni și peste. Imunizarea primară trebuie administrată cu cel
+    puțin 2 săptămâni înainte de expunerea preconizată la HAV. (1)
+  - Vezi toate rezultatele pentru ceasul inteligent Garmin. 1 Garmin vivoactive Black.
+    2 Garmin Vivoactive HR GPS Smart Watch, potrivire obișnuită - Negru (Certificat
+    recondiționat) de Garmin. 3 Garmin Fenix 3 HR, Gri. Amazon's Choice recomandă
+    produse de înaltă calitate și la prețuri accesibile, disponibile spre livrare
+    imediată. Garmin vivoactive HR GPS Smart Watch, potrivire obișnuită - Negru.
+  - Vaccinul se administrează sub formă de injecție în mușchiul deltoid al brațului.
+    Atât vaccinul Havrix, cât și cel Vaqta oferă o protecție eficientă împotriva hepatitei
+    A. Există și un vaccin combinat, numit vaccinul hepatita B-hepatita A (Twinrix),
+    care protejează atât împotriva hepatitei A, cât și a celei B.
+- source_sentence: Orele de funcționare ale Rockwall
+  sentences:
+  - Rockwall County Helping Hands este principalul furnizor de servicii sociale pentru
+    locuitorii comitatului Rockwall. De peste 40 de ani, agenția a adus o schimbare
+    în viețile locuitorilor comitatului Rockwall. Citește mai mult.
+  - 'Magazinul din apropiere: 1 Best Buy - Rockwall Program de lucru: 10:00 - 22:00
+    (la 0,5 mile distanță) 2 Walmart - Interstate 30 Program de lucru: 24 de ore (la
+    1,4 mile distanță) 3 RadioShack - Rockwall Rockwall Village Program de lucru:
+    10:00 - 21:00 (la 1,7 mile distanță) 4 Lowe''s - Rockwall Program de lucru: 06:00
+    - 22:00 (la 1,8 mile distanță) 5 Kroger - Rockwall Program de lucru: 06:00 - 01:00
+    (la 2,0 mile distanță)'
+  - 'Definiția pe care o dă studentul pentru CURS. [număr] 1. : o discuție sau un
+    discurs adresat unui grup de oameni cu scopul de a-i învăța despre un anumit subiect.
+    o prelegere despre/privind politica. Ea plănuiește să susțină o serie de prelegeri
+    despre artă modernă. Se așteaptă ca câteva sute de persoane să participe la prelegere.'
+- source_sentence: Unde este centrul de imagistică UCSD?
+  sentences:
+  - Centrul de imagistică avansată din La Jolla. Pe 3 februarie 2008, Departamentul
+    de Radiologie al UC San Diego a deschis un nou centru de imagistică prin rezonanță
+    magnetică (IRM) în La Jolla. Noul centru, botezat UCSD Imaging Center at La Jolla,
+    este deschis publicului și oferă acces la corpul profesoral de radioterapie de
+    renume mondial al universității.
+  - DK este o grosime a firelor din Marea Britanie (și poate Australia, dar nu sunt
+    sigur de asta)... Grosimea DK sau cea a firelor duble este mai groasă decât cea
+    a firelor sport și mai subțire decât cea a firelor grobiene. Iată intervalele
+    de grosime pentru o mostră de 4 ochiuri pe rând. Numărul de ochiuri reprezintă
+    numărul de ochiuri pe o lungime de 4 inci.
+  - Baptist M&S Imaging deschide un nou centru în Schertz. Baptist M&S Imaging va
+    deschide al zecelea centru în decembrie, în Schertz. Centrul va oferi medicilor
+    și rezidenților o gamă completă de servicii medicale radiologice în partea de
+    nord-est a orașului, inclusiv tehnologie de imagistică care nu se poate găsi în
+    niciun alt loc din San Antonio.
+- source_sentence: La ce folosește testarea genotipică a microsateliților?
+  sentences:
+  - Creare pe desktop. 1 Faceți clic pe Registru în partea superioară a oricărei pagini
+    Walmart.com. 2 Faceți clic pe Creați sub Registru pentru bebeluși sau Registru
+    pentru nuntă. 3 Introduceți informațiile solicitate și faceți clic pe Continuare.
+    4 Dacă vi se solicită, conectați-vă sau creați un cont. 5 Ați terminat! 6 După
+    ce găsiți un articol pe care doriți să-l adăugați, faceți clic pe Adăugați la
+    registru și articolul va fi adăugat.
+  - Microsateliții sunt adesea numiți repetiții tandem scurte (STR) de către geneticații
+    medico-legiști sau repetiții de secvență simple (SSR) de către geneticații de
+    plante. Aceștia sunt folosiți pe scară largă pentru profilarea ADN-ului în analiza
+    de rudenie și identificarea medico-legală. Microsatelitul este o secvență de ADN
+    repetitiv în care anumite motive de ADN (cu o lungime cuprinsă între 2 și 5 perechi
+    de baze) sunt repetate de obicei de 5-50 de ori.
+  - Genotiparea micro-satelitilor se referă la genotiparea repetitiilor tandem, precum
+    repetitiile scurte în tandem (STR) sau repetitiile nucleotidice variabile în tandem
+    (VNTR), care sunt loci de ADN polimorfice prezente pe tot genomul. Genotiparea
+    micro-satelitilor este un instrument larg acceptat pentru o varietate de aplicații,
+    inclusiv studii de cartografiere a legaturilor, studii de asociere și identificarea
+    organismelor. Chimia cu cinci coloranți a companiei Applied Biosystems crește
+    numărul de markeri micro-satelit pe care îi poate procesa un singur capilar, permițând
+    o productivitate sporită. Figura 1 prezintă un exemplu de 18 loci micro-satelit
+    co-electroforezați într-un singur capilar. Chimia cu cinci coloranți a companiei
+    Applied Biosystems crește numărul de markeri micro-satelit pe care îi poate procesa
+    un singur capilar, permițând o productivitate sporită. Figura 1 prezintă un exemplu
+    de 18 loci micro-satelit co-electroforezați într-un singur capilar.
+pipeline_tag: sentence-similarity
+library_name: sentence-transformers
+metrics:
+- cosine_accuracy
+model-index:
+- name: SentenceTransformer based on readerbench/RoBERT-large
+  results:
+  - task:
+      type: triplet
+      name: Triplet
+    dataset:
+      name: msmarco ro dev
+      type: msmarco-ro-dev
+    metrics:
+    - type: cosine_accuracy
+      value: 0.9919999837875366
+      name: Cosine Accuracy
+---
+# SentenceTransformer based on readerbench/RoBERT-large
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [readerbench/RoBERT-large](https://huggingface.co/readerbench/RoBERT-large). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+## Model Details
+### Model Description
+- **Model Type:** Sentence Transformer
+- **Base model:** [readerbench/RoBERT-large](https://huggingface.co/readerbench/RoBERT-large) <!-- at revision 9f2fc51ef80ff16fbf03ce3e940364be87f0e9a2 -->
+- **Maximum Sequence Length:** 512 tokens
+- **Output Dimensionality:** 1024 dimensions
+- **Similarity Function:** Cosine Similarity
+<!-- - **Training Dataset:** Unknown -->
+<!-- - **Language:** Unknown -->
+<!-- - **License:** Unknown -->
+### Model Sources
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+### Full Model Architecture
+```
+SentenceTransformer(
+  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'BertModel'})
+  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+)
+```
+## Usage
+### Direct Usage (Sentence Transformers)
+First install the Sentence Transformers library:
+```bash
+pip install -U sentence-transformers
+```
+Then you can load this model and run inference.
+```python
+from sentence_transformers import SentenceTransformer
+# Download from the 🤗 Hub
+model = SentenceTransformer("alina0195/robert-retriever")
+# Run inference
+sentences = [
+    'La ce folosește testarea genotipică a microsateliților?',
+    'Genotiparea micro-satelitilor se referă la genotiparea repetitiilor tandem, precum repetitiile scurte în tandem (STR) sau repetitiile nucleotidice variabile în tandem (VNTR), care sunt loci de ADN polimorfice prezente pe tot genomul. Genotiparea micro-satelitilor este un instrument larg acceptat pentru o varietate de aplicații, inclusiv studii de cartografiere a legaturilor, studii de asociere și identificarea organismelor. Chimia cu cinci coloranți a companiei Applied Biosystems crește numărul de markeri micro-satelit pe care îi poate procesa un singur capilar, permițând o productivitate sporită. Figura 1 prezintă un exemplu de 18 loci micro-satelit co-electroforezați într-un singur capilar. Chimia cu cinci coloranți a companiei Applied Biosystems crește numărul de markeri micro-satelit pe care îi poate procesa un singur capilar, permițând o productivitate sporită. Figura 1 prezintă un exemplu de 18 loci micro-satelit co-electroforezați într-un singur capilar.',
+    'Microsateliții sunt adesea numiți repetiții tandem scurte (STR) de către geneticații medico-legiști sau repetiții de secvență simple (SSR) de către geneticații de plante. Aceștia sunt folosiți pe scară largă pentru profilarea ADN-ului în analiza de rudenie și identificarea medico-legală. Microsatelitul este o secvență de ADN repetitiv în care anumite motive de ADN (cu o lungime cuprinsă între 2 și 5 perechi de baze) sunt repetate de obicei de 5-50 de ori.',
+]
+embeddings = model.encode(sentences)
+print(embeddings.shape)
+# [3, 1024]
+# Get the similarity scores for the embeddings
+similarities = model.similarity(embeddings, embeddings)
+print(similarities)
+# tensor([[1.0000, 0.7074, 0.6925],
+#         [0.7074, 1.0000, 0.6709],
+#         [0.6925, 0.6709, 1.0000]])
+```
+<!--
+### Direct Usage (Transformers)
+<details><summary>Click to see the direct usage in Transformers</summary>
+</details>
+-->
+<!--
+### Downstream Usage (Sentence Transformers)
+You can finetune this model on your own dataset.
+<details><summary>Click to expand</summary>
+</details>
+-->
+<!--
+### Out-of-Scope Use
+*List how the model may foreseeably be misused and address what users ought not to do with the model.*
+-->
+## Evaluation
+### Metrics
+#### Triplet
+* Dataset: `msmarco-ro-dev`
+* Evaluated with [<code>TripletEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.TripletEvaluator)
+| Metric              | Value     |
+|:--------------------|:----------|
+| **cosine_accuracy** | **0.992** |
+<!--
+## Bias, Risks and Limitations
+*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
+-->
+<!--
+### Recommendations
+*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
+-->
+## Training Details
+### Training Dataset
+#### Unnamed Dataset
+* Size: 11,661,069 training samples
+* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                            | positive                                                                            | negative                                                                            |
+  |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
+  | type    | string                                                                            | string                                                                              | string                                                                              |
+  | details | <ul><li>min: 5 tokens</li><li>mean: 12.14 tokens</li><li>max: 68 tokens</li></ul> | <ul><li>min: 20 tokens</li><li>mean: 96.27 tokens</li><li>max: 489 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 97.06 tokens</li><li>max: 249 tokens</li></ul> |
+* Samples:
+  | anchor                                              | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | negative                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |
+  |:----------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+  | <code>Adresa ipotecii bancare americane</code>      | <code>US BANK HOME MORTGAGE se află în comitatul Daviess, la adresa 4801 Frederica St., Owensboro, KY 42301-7441. Ne puteți contacta la numărul de telefon (270) 689-7000.</code>                                                                                                                                                                                                                                                                                                       | <code>Sucursala Pueblo a U.S. Bank este una dintre cele 3086 de sucursale ale băncii și deservește nevoile financiare ale clienților din Pueblo, comitatul Pueblo, Colorado de peste 45 de ani. Sucursala Pueblo se află la adresa 3330 North Elizabeth Street, Pueblo. De asemenea, puteți contacta banca sunând la numărul de telefon al sucursalei, care este 719-543-6257. Sucursala Pueblo a U.S. Bank operează ca un birou cu servicii complete. Pentru programul de lucru al biroului, programul de servicii drive-through și serviciile bancare online, vă rugăm să vizitați site-ul oficial al ...</code>               |
+  | <code>Ce sunt benzile de respirație Colgate?</code> | <code>Ingrijire dentară. Sunteți în căutarea unui plus de albire a dinților? Pasta de dinți Colgate MaxWhite cu Mini-Bright Strips este o pastă de dinți pe care ar fi bine să o luați în considerare dacă vreți să vă albiți zâmbetul prin îndepărtarea petelor de cafea, ceai, tutun sau alți factori de pătare externi.</code>                                                                                                                                                       | <code>Colgate are o nouă pastă de dinți spumantă. Pun pariu că are o concentrație mare de SLS pentru a produce spumă. Am folosit-o și acum am o rană persistentă pe vârful limbii. Am crezut că mănânc prea multe dulciuri, dar voi încerca să elimin această nouă pastă de dinți.</code>                                                                                                                                                                                                                                                                                                                                        |
+  | <code>Definiția grupului Michelin</code>            | <code>Michelin, liderul în producția de anvelope, se dedică sporirii mobilității clienților în mod sustenabil; proiectarea și distribuirea anvelopelor, serviciilor și soluțiilor cele mai potrivite pentru nevoile clienților; furnizarea de servicii digitale, hărți și ghiduri care să contribuie la îmbogățirea excursiilor și a călătoriei, transformându-le în experiențe unice; dezvoltarea de materiale de înaltă tehnologie, care să deserbească industria mobilității.</code> | <code>Aceste stele sunt râvnite, deoarece marea majoritate a restaurantelor nu primesc nicio stea. De exemplu, ghidul Michelin pentru Chicago pe 2014 include aproape 500 de restaurante. Un singur restaurant a primit trei stele, patru restaurante au primit două stele, iar 20 de restaurante au primit o stea. Michelin nu folosește recenzii ale clienților pentru a determina clasamentul restaurantelor. Stelele Michelin sunt acordate de la 0 la 3 stele, în funcție de recenzii anonime. Recenzorii se concentrează pe calitate, măiestrie tehnică, personalitate și consecvență în ceea ce privește mâncarea.</code> |
+* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
+  ```json
+  {
+      "loss": "CachedMultipleNegativesRankingLoss",
+      "matryoshka_dims": [
+          768,
+          512,
+          256,
+          128,
+          64
+      ],
+      "matryoshka_weights": [
+          1,
+          1,
+          1,
+          1,
+          1
+      ],
+      "n_dims_per_step": -1
+  }
+  ```
+### Evaluation Dataset
+#### Unnamed Dataset
+* Size: 1,000 evaluation samples
+* Columns: <code>anchor</code>, <code>positive</code>, and <code>negative</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                            | positive                                                                            | negative                                                                            |
+  |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
+  | type    | string                                                                            | string                                                                              | string                                                                              |
+  | details | <ul><li>min: 4 tokens</li><li>mean: 11.91 tokens</li><li>max: 33 tokens</li></ul> | <ul><li>min: 17 tokens</li><li>mean: 96.57 tokens</li><li>max: 258 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 94.78 tokens</li><li>max: 371 tokens</li></ul> |
+* Samples:
+  | anchor                                                                          | positive                                                                                                                                                                                                                                                                                                                                                                                                                               | negative                                                                                                                                                                                                                                                           |
+  |:--------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+  | <code>Cine a scris cântecul „Remember When” de Alan Jackson?</code>             | <code>„Remember When (cântecul lui Alan Jackson)” este o melodie compusă și înregistrată de artistul american de muzică country Alan Jackson. Lansată în octombrie 2003 ca al doilea și ultimul single de pe albumul său de compilații, Greatest Hits Volume II, a petrecut două săptămâni pe locul 1 în topul Billboard Hot Country Songs din SUA în februarie 2004 și a atins apogeul la locul 29 în topul Billboard Hot 100.</code> | <code>Cântecul a fost compus de Bill Mack. Mack a compus cântecul 30 de ani mai devreme pentru a fi înregistrat de Patsy Cline, însă aceasta a decedat într-un accident de avion înainte să înregistreze cântecul.</code>                                          |
+  | <code>sinonim simultan al concurentului</code>                                  | <code>concomitent (adjectiv) co-activ, coincident, combinat, concert, cooperant, sincron, sinergic, unit. simultan (adjectiv) însoțitor, coeval, concomitent, contemporan, simultan. Alte sinonime: accesoriu, accidental, accidental,</code>                                                                                                                                                                                          | <code>care au loc concomitent; care coincid în timp; contemporane; simultane. 2. care se desfășoară cu aceeași viteză și exact împreună; care se repetă împreună. 3. Fizică, electricitate. care au aceeași frecvență și o diferență de fază nulă.</code>          |
+  | <code>Comisioanele pentru cardurile de debit Visa NatWest în străinătate</code> | <code>Consulteți ghidul nostru de cheltuire în străinătate pentru a afla care sunt cele mai bune opțiuni. Începând cu 1 iunie, clienții care folosesc cardurile de debit NatWest sau RBS în străinătate vor plăti 2,75% din valoarea tranzacției sau 1%, oricare dintre acestea este mai mare. În prezent, clienții plătesc o taxă de 1,25%, plus 2,75% din valoarea tranzacției de fiecare dată când fac plăți în străinătate.</code> | <code>1 Taxa de autorizare - Dacă cererea dumneavoastră este aprobată și primiți autorizația de a călători în Statele Unite în cadrul Programului de renunțare la viză, o taxă suplimentară de 10,00 USD va fi percepută pe cardul dumneavoastră de credit.</code> |
+* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
+  ```json
+  {
+      "loss": "CachedMultipleNegativesRankingLoss",
+      "matryoshka_dims": [
+          768,
+          512,
+          256,
+          128,
+          64
+      ],
+      "matryoshka_weights": [
+          1,
+          1,
+          1,
+          1,
+          1
+      ],
+      "n_dims_per_step": -1
+  }
+  ```
+### Training Hyperparameters
+#### Non-Default Hyperparameters
+- `eval_strategy`: steps
+- `per_device_train_batch_size`: 16
+- `per_device_eval_batch_size`: 16
+- `gradient_accumulation_steps`: 32
+- `learning_rate`: 8e-05
+- `warmup_ratio`: 0.1
+- `bf16`: True
+- `dataloader_num_workers`: 4
+- `load_best_model_at_end`: True
+- `ddp_find_unused_parameters`: False
+- `dataloader_persistent_workers`: True
+- `gradient_checkpointing`: True
+- `batch_sampler`: no_duplicates
+#### All Hyperparameters
+<details><summary>Click to expand</summary>
+- `overwrite_output_dir`: False
+- `do_predict`: False
+- `eval_strategy`: steps
+- `prediction_loss_only`: True
+- `per_device_train_batch_size`: 16
+- `per_device_eval_batch_size`: 16
+- `per_gpu_train_batch_size`: None
+- `per_gpu_eval_batch_size`: None
+- `gradient_accumulation_steps`: 32
+- `eval_accumulation_steps`: None
+- `torch_empty_cache_steps`: None
+- `learning_rate`: 8e-05
+- `weight_decay`: 0.0
+- `adam_beta1`: 0.9
+- `adam_beta2`: 0.999
+- `adam_epsilon`: 1e-08
+- `max_grad_norm`: 1.0
+- `num_train_epochs`: 3
+- `max_steps`: -1
+- `lr_scheduler_type`: linear
+- `lr_scheduler_kwargs`: {}
+- `warmup_ratio`: 0.1
+- `warmup_steps`: 0
+- `log_level`: passive
+- `log_level_replica`: warning
+- `log_on_each_node`: True
+- `logging_nan_inf_filter`: True
+- `save_safetensors`: True
+- `save_on_each_node`: False
+- `save_only_model`: False
+- `restore_callback_states_from_checkpoint`: False
+- `no_cuda`: False
+- `use_cpu`: False
+- `use_mps_device`: False
+- `seed`: 42
+- `data_seed`: None
+- `jit_mode_eval`: False
+- `use_ipex`: False
+- `bf16`: True
+- `fp16`: False
+- `fp16_opt_level`: O1
+- `half_precision_backend`: auto
+- `bf16_full_eval`: False
+- `fp16_full_eval`: False
+- `tf32`: None
+- `local_rank`: 0
+- `ddp_backend`: None
+- `tpu_num_cores`: None
+- `tpu_metrics_debug`: False
+- `debug`: []
+- `dataloader_drop_last`: True
+- `dataloader_num_workers`: 4
+- `dataloader_prefetch_factor`: None
+- `past_index`: -1
+- `disable_tqdm`: False
+- `remove_unused_columns`: True
+- `label_names`: None
+- `load_best_model_at_end`: True
+- `ignore_data_skip`: False
+- `fsdp`: []
+- `fsdp_min_num_params`: 0
+- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
+- `fsdp_transformer_layer_cls_to_wrap`: None
+- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
+- `parallelism_config`: None
+- `deepspeed`: None
+- `label_smoothing_factor`: 0.0
+- `optim`: adamw_torch_fused
+- `optim_args`: None
+- `adafactor`: False
+- `group_by_length`: False
+- `length_column_name`: length
+- `ddp_find_unused_parameters`: False
+- `ddp_bucket_cap_mb`: None
+- `ddp_broadcast_buffers`: False
+- `dataloader_pin_memory`: True
+- `dataloader_persistent_workers`: True
+- `skip_memory_metrics`: True
+- `use_legacy_prediction_loop`: False
+- `push_to_hub`: False
+- `resume_from_checkpoint`: None
+- `hub_model_id`: None
+- `hub_strategy`: every_save
+- `hub_private_repo`: None
+- `hub_always_push`: False
+- `hub_revision`: None
+- `gradient_checkpointing`: True
+- `gradient_checkpointing_kwargs`: None
+- `include_inputs_for_metrics`: False
+- `include_for_metrics`: []
+- `eval_do_concat_batches`: True
+- `fp16_backend`: auto
+- `push_to_hub_model_id`: None
+- `push_to_hub_organization`: None
+- `mp_parameters`:
+- `auto_find_batch_size`: False
+- `full_determinism`: False
+- `torchdynamo`: None
+- `ray_scope`: last
+- `ddp_timeout`: 1800
+- `torch_compile`: False
+- `torch_compile_backend`: None
+- `torch_compile_mode`: None
+- `include_tokens_per_second`: False
+- `include_num_input_tokens_seen`: False
+- `neftune_noise_alpha`: None
+- `optim_target_modules`: None
+- `batch_eval_metrics`: False
+- `eval_on_start`: False
+- `use_liger_kernel`: False
+- `liger_kernel_config`: None
+- `eval_use_gather_object`: False
+- `average_tokens_across_devices`: True
+- `prompts`: None
+- `batch_sampler`: no_duplicates
+- `multi_dataset_batch_sampler`: proportional
+- `router_mapping`: {}
+- `learning_rate_mapping`: {}
+</details>
+### Training Logs
+| Epoch  | Step | Training Loss | Validation Loss | msmarco-ro-dev_cosine_accuracy |
+|:------:|:----:|:-------------:|:---------------:|:------------------------------:|
+| -1     | -1   | -             | -               | 0.6790                         |
+| 0.0176 | 100  | 9.0639        | -               | -                              |
+| 0.0351 | 200  | 6.8571        | -               | -                              |
+| 0.0527 | 300  | 3.9617        | -               | -                              |
+| 0.0703 | 400  | 2.9201        | -               | -                              |
+| 0.0878 | 500  | 2.5575        | -               | -                              |
+| 0.1054 | 600  | 2.3349        | -               | -                              |
+| 0.1229 | 700  | 2.1485        | -               | -                              |
+| 0.1405 | 800  | 1.9714        | -               | -                              |
+| 0.1581 | 900  | 1.8504        | -               | -                              |
+| 0.1756 | 1000 | 1.7105        | 1.3991          | 0.9170                         |
+| 0.1932 | 1100 | 1.5833        | -               | -                              |
+| 0.2108 | 1200 | 1.4711        | -               | -                              |
+| 0.2283 | 1300 | 1.3995        | -               | -                              |
+| 0.2459 | 1400 | 1.3314        | -               | -                              |
+| 0.2634 | 1500 | 1.2698        | -               | -                              |
+| 0.2810 | 1600 | 1.2108        | -               | -                              |
+| 0.2986 | 1700 | 1.1522        | -               | -                              |
+| 0.3161 | 1800 | 1.1125        | -               | -                              |
+| 0.3337 | 1900 | 1.0224        | -               | -                              |
+| 0.3513 | 2000 | 0.9665        | 0.8378          | 0.9440                         |
+| 0.3688 | 2100 | 0.9283        | -               | -                              |
+| 0.3864 | 2200 | 0.8779        | -               | -                              |
+| 0.4039 | 2300 | 0.848         | -               | -                              |
+| 0.4215 | 2400 | 0.7973        | -               | -                              |
+| 0.4391 | 2500 | 0.7679        | -               | -                              |
+| 0.4566 | 2600 | 0.7361        | -               | -                              |
+| 0.4742 | 2700 | 0.7071        | -               | -                              |
+| 0.4918 | 2800 | 0.6764        | -               | -                              |
+| 0.5093 | 2900 | 0.657         | -               | -                              |
+| 0.5269 | 3000 | 0.6395        | 0.5249          | 0.9640                         |
+| 0.5444 | 3100 | 0.617         | -               | -                              |
+| 0.5620 | 3200 | 0.5985        | -               | -                              |
+| 0.5796 | 3300 | 0.5818        | -               | -                              |
+| 0.5971 | 3400 | 0.5589        | -               | -                              |
+| 0.6147 | 3500 | 0.5549        | -               | -                              |
+| 0.6323 | 3600 | 0.5391        | -               | -                              |
+| 0.6498 | 3700 | 0.5251        | -               | -                              |
+| 0.6674 | 3800 | 0.5139        | -               | -                              |
+| 0.6849 | 3900 | 0.51          | -               | -                              |
+| 0.7025 | 4000 | 0.4879        | 0.3452          | 0.9820                         |
+| 0.7201 | 4100 | 0.4858        | -               | -                              |
+| 0.7376 | 4200 | 0.4774        | -               | -                              |
+| 0.7552 | 4300 | 0.4651        | -               | -                              |
+| 0.7728 | 4400 | 0.4556        | -               | -                              |
+| 0.7903 | 4500 | 0.4477        | -               | -                              |
+| 0.8079 | 4600 | 0.4411        | -               | -                              |
+| 0.8254 | 4700 | 0.4273        | -               | -                              |
+| 0.8430 | 4800 | 0.4251        | -               | -                              |
+| 0.8606 | 4900 | 0.4158        | -               | -                              |
+| 0.8781 | 5000 | 0.405         | 0.2828          | 0.9840                         |
+| 0.8957 | 5100 | 0.4052        | -               | -                              |
+| 0.9133 | 5200 | 0.3941        | -               | -                              |
+| 0.9308 | 5300 | 0.3973        | -               | -                              |
+| 0.9484 | 5400 | 0.3867        | -               | -                              |
+| 0.9660 | 5500 | 0.3804        | -               | -                              |
+| 0.9835 | 5600 | 0.3818        | -               | -                              |
+| 1.0011 | 5700 | 0.3721        | -               | -                              |
+| 1.0186 | 5800 | 0.3654        | -               | -                              |
+| 1.0362 | 5900 | 0.3687        | -               | -                              |
+| 1.0537 | 6000 | 0.3608        | 0.2476          | 0.9860                         |
+| 1.0713 | 6100 | 0.3566        | -               | -                              |
+| 1.0889 | 6200 | 0.3564        | -               | -                              |
+| 1.1064 | 6300 | 0.3475        | -               | -                              |
+| 1.1240 | 6400 | 0.3432        | -               | -                              |
+| 1.1416 | 6500 | 0.3402        | -               | -                              |
+| 1.1591 | 6600 | 0.3378        | -               | -                              |
+| 1.1767 | 6700 | 0.3296        | -               | -                              |
+| 1.1942 | 6800 | 0.3215        | -               | -                              |
+| 1.2118 | 6900 | 0.3161        | -               | -                              |
+| 1.2294 | 7000 | 0.3106        | 0.2066          | 0.9910                         |
+| 1.2469 | 7100 | 0.3068        | -               | -                              |
+| 1.2645 | 7200 | 0.3005        | -               | -                              |
+| 1.2821 | 7300 | 0.2978        | -               | -                              |
+| 1.2996 | 7400 | 0.2845        | -               | -                              |
+| 1.3172 | 7500 | 0.2688        | -               | -                              |
+| 1.3347 | 7600 | 0.267         | -               | -                              |
+| 1.3523 | 7700 | 0.2718        | -               | -                              |
+| 1.3699 | 7800 | 0.2741        | -               | -                              |
+| 1.3874 | 7900 | 0.2724        | -               | -                              |
+| 1.4050 | 8000 | 0.2601        | 0.1884          | 0.9930                         |
+| 1.4226 | 8100 | 0.2532        | -               | -                              |
+| 1.4401 | 8200 | 0.2546        | -               | -                              |
+| 1.4577 | 8300 | 0.2539        | -               | -                              |
+| 1.4752 | 8400 | 0.2515        | -               | -                              |
+| 1.4928 | 8500 | 0.2616        | -               | -                              |
+| 1.5104 | 8600 | 0.2514        | -               | -                              |
+| 1.5279 | 8700 | 0.2548        | -               | -                              |
+| 1.5455 | 8800 | 0.2481        | -               | -                              |
+| 1.5631 | 8900 | 0.2521        | -               | -                              |
+| 1.5806 | 9000 | 0.2533        | 0.1815          | 0.9920                         |
+### Framework Versions
+- Python: 3.11.13
+- Sentence Transformers: 5.1.1
+- Transformers: 4.56.2
+- PyTorch: 2.9.0+cu128
+- Accelerate: 1.12.0
+- Datasets: 4.4.1
+- Tokenizers: 0.22.1
+## Citation
+### BibTeX
+#### Sentence Transformers
+```bibtex
+@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}
+```
+#### MatryoshkaLoss
+```bibtex
+@misc{kusupati2024matryoshka,
+    title={Matryoshka Representation Learning},
+    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
+    year={2024},
+    eprint={2205.13147},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}
+```
+#### CachedMultipleNegativesRankingLoss
+```bibtex
+@misc{gao2021scaling,
+    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
+    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
+    year={2021},
+    eprint={2101.06983},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}
+```
+<!--
+## Glossary
+*Clearly define terms in order to be accessible across audiences.*
+-->
+<!--
+## Model Card Authors
+*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
+-->
+<!--
+## Model Card Contact
+*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
+-->

config.json ADDED Viewed

	@@ -0,0 +1,27 @@

+{
+  "architectures": [
+    "BertModel"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "do_lower_case": 1,
+  "do_remove_accents": 0,
+  "dtype": "bfloat16",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.56.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 37788
+}

config_sentence_transformers.json ADDED Viewed

	@@ -0,0 +1,14 @@

+{
+  "model_type": "SentenceTransformer",
+  "__version__": {
+    "sentence_transformers": "5.1.1",
+    "transformers": "4.56.2",
+    "pytorch": "2.9.0+cu128"
+  },
+  "prompts": {
+    "query": "",
+    "document": ""
+  },
+  "default_prompt_name": null,
+  "similarity_fn_name": "cosine"
+}

model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1a7a91635c2f66c20648db8480bd86d6cf1406180c843d70abc098d46a4c452c
+size 683110192

modules.json ADDED Viewed

	@@ -0,0 +1,14 @@

+[
+  {
+    "idx": 0,
+    "name": "0",
+    "path": "",
+    "type": "sentence_transformers.models.Transformer"
+  },
+  {
+    "idx": 1,
+    "name": "1",
+    "path": "1_Pooling",
+    "type": "sentence_transformers.models.Pooling"
+  }
+]

sentence_bert_config.json ADDED Viewed

	@@ -0,0 +1,4 @@

+{
+    "max_seq_length": 512,
+    "do_lower_case": false
+}

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,58 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "4": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "5": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": false,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff