nickprock
/

multi-sentence-BERTino

@@ -1,219 +1,842 @@
----
-language:
-- it
-tags:
-- sentence-transformers
-- sentence-similarity
-- feature-extraction
-- dense
-- matryoshka
-- information-retrieval
-- generated_from_trainer
-dataset_size: 50749
-loss:
-- MatryoshkaLoss
-- CachedMultipleNegativesRankingLoss
-- CosineSimilarityLoss
-base_model: nickprock/multi-sentence-BERTino
-widget:
-- source_sentence: >-
-    Ci stiamo muovendo "... rispetto al commovente telaio cosmico di riposo ...
-    a circa 371 km/s verso la costellazione del Leone".
-  sentences:
-  - Una donna sta tagliando le cipolle verdi.
-  - Non c'è un 'fermo' che non sia relativo a qualche altro oggetto.
-  - Un gruppo di anziani si mette in posa attorno a un tavolo da pranzo.
-- source_sentence: L'uomo ha parlato con una ragazza attraverso la telecamera di internet.
-  sentences:
-  - La ragazza è in piedi davanti alla porta aperta dell'autobus.
-  - Il giocatore di basket sta per segnare punti per la sua squadra.
-  - Un adolescente parla con una ragazza tramite una webcam.
-- source_sentence: Qual è stato il risultato della finale del Cincinnati Open 1971?
-  sentences:
-  - >-
-    Partecipò ai Giochi della II Olimpiade di Parigi del 1900 conquistando una
-    medaglia d'argento nel rugby a 15 con il SC 1880 Frankfurt, squadra
-    rappresentante la Germania.
-    Palmarès
-     Argento olimpico: 1
-    1900
-    Collegamenti esterni
-     Profilo su espnscrum.
-  - >-
-    Biografia
-    Ha un gemello, chiamato Thomas, anch'egli calciatore professionista.
-    Carriera
-    Club
-    Michelsen cominciò la carriera con la maglia del Langhus, per poi passare al
-    Drøbak/Frogn. Nel 1993 passò al Lyn Oslo. Esordì nell'Eliteserien il 2
-    maggio dello stesso anno, quando fu titolare nella sconfitta casalinga per
-    0-1 contro il Rosenborg. Il 13 giugno arrivò la prima rete, nella vittoria
-    per 5-3 sul Molde. A fine anno, tornò al Drøbak/Frogn.
-    Nel 1996, fu ingaggiato dallo Skeid, tornando così nella massima divisione
-    norvegese. Il 13 aprile, fu in campo nella sconfitta per 2-3 contro lo
-    Strømsgodset.
-  - >-
-    Il singolare maschile del torneo di tennis Cincinnati Open 1971, facente
-    parte della categoria Grand Prix, ha avuto come vincitore Stan Smith che ha
-    battuto in finale Juan Gisbert 7-6, 6-3.
-pipeline_tag: sentence-similarity
-library_name: sentence-transformers
-metrics:
-- cosine_accuracy@1
-- cosine_accuracy@3
-- cosine_accuracy@5
-- cosine_accuracy@10
-- cosine_precision@1
-- cosine_precision@3
-- cosine_precision@5
-- cosine_precision@10
-- cosine_recall@1
-- cosine_recall@3
-- cosine_recall@5
-- cosine_recall@10
-- cosine_ndcg@10
-- cosine_mrr@10
-- cosine_map@100
-- pearson_cosine
-- spearman_cosine
-license: apache-2.0
-datasets:
-- nickprock/it-wiki-retrieval-synthetic-hn
----
-# multi-sentence-BERTino (V4 - Matryoshka Tuned)
-This is a state-of-the-art [sentence-transformers](https://www.SBERT.net) model for the Italian language. It maps sentences and paragraphs to a flexible dense vector space (up to 768 dimensions) and is highly optimized for semantic search, retrieval-augmented generation (RAG), and semantic textual similarity.
-## Model Highlights: Matryoshka Representation Learning
-This V4 model was fine-tuned using **Matryoshka Representation Learning (MRL)** with asymmetric loss weights `[1.0, 0.3, 0.15, 0.1]`.
-This means the model has learned to hierarchically compress its semantic knowledge into the earliest dimensions of the vector. You can safely truncate the output embeddings to **512, 256, or 128 dimensions** with minimal degradation in retrieval metrics. Truncating to 128 dimensions allows you to **save up to 83% of storage costs** in vector databases (like Pinecone, Qdrant, or Milvus) and drastically speed up similarity searches, while still outperforming standard 128d baselines.
-Additionally, this model was trained exclusively on **Semantic Hard Negatives** (mined via dense bi-encoder self-retrieval) to prevent the "false-negative" traps commonly caused by traditional BM25 lexical mining.
-## Usage
-### Direct Usage (Sentence Transformers)
-First, install the Sentence Transformers library:
-```bash
-pip install -U sentence-transformers
-```
-**Standard Usage (Full 768 Dimensions):**
-```python
-from sentence_transformers import SentenceTransformer
-# Download from the 🤗 Hub
-model = SentenceTransformer("nickprock/multi-sentence-BERTino")
-# Run inference
-sentences = [
-    'Chi ha dipinto la Gioconda?',
-    'Leonardo da Vinci è l\'autore della Gioconda, opera conservata al Louvre.',
-]
-embeddings = model.encode(sentences)
-print(embeddings.shape)
-# Output: (2, 768)
-```
-**Optimized Usage (Truncated to 128 Dimensions):**
-You can instantly compress the model's footprint by setting the `truncate_dim` parameter.
-```python
-from sentence_transformers import SentenceTransformer
-# Load the model and force truncation at 128 dimensions
-model = SentenceTransformer("nickprock/multi-sentence-BERTino", truncate_dim=128)
-embeddings = model.encode(sentences)
-print(embeddings.shape)
-# Output: (2, 128) -> 83% less memory used!
-```
-## Evaluation Metrics
-This model was evaluated on a 5% hold-out split of our high-quality synthetic Italian retrieval dataset (containing tough semantic hard negatives) and the Italian STS-B dataset.
-As shown below, the model retains exceptional performance even when the vectors are truncated to 1/6th of their original size.
-### Information Retrieval (MAP & NDCG)
-| Metric | 768 Dimensions (Full) | 128 Dimensions (Truncated) |
-|:-------|:----------------------|:---------------------------|
-| **MAP@100** | 0.8412 | 0.8029 |
-| **NDCG@10** | 0.8698 | 0.8353 |
-| **MRR@10** | 0.8396 | 0.8008 |
-| **Accuracy@1**| 0.7617 | 0.7149 |
-| **Accuracy@10**| 0.9616 | 0.9404 |
-### Semantic Textual Similarity (STS-B Italian Dev)
-| Metric | 768 Dimensions (Full) |
-|:-------|:----------------------|
-| **Spearman Cosine** | 0.8519 |
-| **Pearson Cosine** | 0.8553 |
-## Training Details
-### Loss Functions
-The model was trained in a multi-task setup utilizing Gradient Caching for massive logical batch sizes, wrapped inside a Matryoshka Loss:
-1. **Information Retrieval Task:** `CachedMultipleNegativesRankingLoss` with `mini_batch_size=16` and a logical `batch_size=128`.
-2. **Semantic Similarity Task:** `CosineSimilarityLoss`.
-Both base losses were wrapped in `MatryoshkaLoss` targeting dimensions `[768, 512, 256, 128]`. To preserve the maximum absolute accuracy at 768d, we tuned the `matryoshka_weights` asymmetrically to `[1.0, 0.3, 0.15, 0.1]`.
-### Training Datasets
-- **task_retrieval**: ~45,000 synthetic Italian search queries generated via LLM (Qwen-2.5-7B) from Italian Wikipedia paragraphs. Each query is paired with 1 positive document and 2 Dense Hard Negatives.
-- **task_sts**: The Italian split of `stsb_multi_mt`.
-### Hyperparameters
-- `per_device_train_batch_size`: 128
-- `num_train_epochs`: 4
-- `learning_rate`: 1e-05
-- `warmup_steps`: 10%
-- `fp16`: True
-- `batch_sampler`: no_duplicates
-## Citation
-### BibTeX
-#### MatryoshkaLoss
-```bibtex
-@misc{kusupati2024matryoshka,
-    title={Matryoshka Representation Learning},
-    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
-    year={2024},
-    eprint={2205.13147},
-    archivePrefix={arXiv},
-    primaryClass={cs.LG}
-}
-```
-#### CachedMultipleNegativesRankingLoss
-```bibtex
-@misc{gao2021scaling,
-    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
-    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
-    year={2021},
-    eprint={2101.06983},
-    archivePrefix={arXiv},
-    primaryClass={cs.LG}
-}
-```

+---
+language:
+- de
+- en
+- es
+- fr
+- it
+- nl
+- pl
+- pt
+- ru
+- zh
+tags:
+- sentence-transformers
+- sentence-similarity
+- feature-extraction
+- dense
+- generated_from_trainer
+- dataset_size:90992
+- loss:MatryoshkaLoss
+- loss:CachedMultipleNegativesRankingLoss
+- loss:CoSENTLoss
+base_model: nickprock/multi-sentence-BERTino
+widget:
+- source_sentence: Ci stiamo muovendo "... rispetto al commovente telaio cosmico di
+    riposo ... a circa 371 km/s verso la costellazione del Leone".
+  sentences:
+  - Una donna sta tagliando le cipolle verdi.
+  - Non c'è un 'fermo' che non sia relativo a qualche altro oggetto.
+  - Un gruppo di anziani si mette in posa attorno a un tavolo da pranzo.
+- source_sentence: L'uomo ha parlato con una ragazza attraverso la telecamera di internet.
+  sentences:
+  - La ragazza è in piedi davanti alla porta aperta dell'autobus.
+  - Il giocatore di basket sta per segnare punti per la sua squadra.
+  - Un adolescente parla con una ragazza tramite una webcam.
+- source_sentence: Qual è stato il risultato della finale del Cincinnati Open 1971?
+  sentences:
+  - "Partecipò ai Giochi della II Olimpiade di Parigi del 1900 conquistando una medaglia\
+    \ d'argento nel rugby a 15 con il SC 1880 Frankfurt, squadra rappresentante la\
+    \ Germania.\n\nPalmarès \n Argento olimpico: 1\n1900\n\nCollegamenti esterni \n\
+    \n Profilo su espnscrum."
+  - 'Biografia
+    Ha un gemello, chiamato Thomas, anch''egli calciatore professionista.
+    Carriera
+    Club
+    Michelsen cominciò la carriera con la maglia del Langhus, per poi passare al Drøbak/Frogn.
+    Nel 1993 passò al Lyn Oslo. Esordì nell''Eliteserien il 2 maggio dello stesso
+    anno, quando fu titolare nella sconfitta casalinga per 0-1 contro il Rosenborg.
+    Il 13 giugno arrivò la prima rete, nella vittoria per 5-3 sul Molde. A fine anno,
+    tornò al Drøbak/Frogn.
+    Nel 1996, fu ingaggiato dallo Skeid, tornando così nella massima divisione norvegese.
+    Il 13 aprile, fu in campo nella sconfitta per 2-3 contro lo Strømsgodset.'
+  - Il singolare maschile del torneo di tennis Cincinnati Open 1971, facente parte
+    della categoria Grand Prix, ha avuto come vincitore Stan Smith che ha battuto
+    in finale Juan Gisbert 7-6, 6-3.
+- source_sentence: In che anno hanno iniziato gli eventi Invicta FC a essere trasmesse
+    sulla piattaforma UFC Fight Pass?
+  sentences:
+  - 'Coppa Ottorino Barassi – competizione calcistica ufficiale tra club italiani
+    e inglesi disputata dal 1968 al 1976
+    Lodo Barassi – decisione arbitrale presa dal presidente federale Ottorino Barassi
+    che disciplinò la struttura del campionato italiano di calcio negli anni Cinquanta
+    Lodovico Barassi – giurista italiano (1873-1961)
+    Ottorino Barassi – dirigente sportivo italiano (1898-1971)
+    Ron Barassi – campione di football australiano
+    Pierre-Louis Barassi – giocatore della nazionale francese di rugby a 15'
+  - "L'Ordine d'Onore è un'onorificenza della Georgia.\n\nStoria \nL'Ordine è stato\
+    \ fondato il 24 dicembre 1992.\n\nInsegne \n Il nastro è bianco con una striscia\
+    \ blu al centro circondata da sottili strisce rosse."
+  - 'Invicta Fighting Championships, spesso abbreviata in Invicta FC, è un''organizzazione
+    statunitense di arti marziali miste femminili con base a Enka, area non incorporata
+    della città di Asheville.
+    Dalla sua nascita Invicta FC ha sempre messo sotto contratto buona parte delle
+    lottatrici più forti del mondo per i ranking ufficiali.
+    Gli eventi vennero inizialmente trasmessi su siti di streaming live come Ustream,
+    e dal 2014 essi sono inclusi nella piattaforma UFC Fight Pass della promozione
+    UFC.'
+- source_sentence: Importanza storica delle partite ufficiali per i giocatori di calcio
+  sentences:
+  - '100050 Carloshernandez è un asteroide della fascia principale. Scoperto nel 1991,
+    presenta un''orbita caratterizzata da un semiasse maggiore pari a 2,5991503 UA
+    e da un''eccentricità di 0,2144518, inclinata di 1,67744° rispetto all''eclittica.
+    L''asteroide è stato dedicato dallo scopritore al nipote Carlos R. Hernandez.'
+  - 'Carriera
+    Club
+    Kortgaard vestì la maglia del Mjøndalen.
+    Nazionale
+    Conta 4 presenze per la . Debuttò il 19 maggio 1983, nel pareggio per 2-2 contro
+    la .'
+  - "Carriera\n\nNazionale\nHa preso parte ai Giochi Olimpici di Londra 2012, giocando\
+    \ in tutte e tre le partite disputate dalla sua Nazionale.\n\nCollegamenti esterni\
+    \ \n\nhttp://it.soccerway."
+datasets:
+- PhilipMay/stsb_multi_mt
+pipeline_tag: sentence-similarity
+library_name: sentence-transformers
+metrics:
+- cosine_accuracy@1
+- cosine_accuracy@3
+- cosine_accuracy@5
+- cosine_accuracy@10
+- cosine_precision@1
+- cosine_precision@3
+- cosine_precision@5
+- cosine_precision@10
+- cosine_recall@1
+- cosine_recall@3
+- cosine_recall@5
+- cosine_recall@10
+- cosine_ndcg@10
+- cosine_mrr@10
+- cosine_map@100
+- pearson_cosine
+- spearman_cosine
+model-index:
+- name: SentenceTransformer based on nickprock/multi-sentence-BERTino
+  results:
+  - task:
+      type: information-retrieval
+      name: Information Retrieval
+    dataset:
+      name: retrieval 768d
+      type: retrieval-768d
+    metrics:
+    - type: cosine_accuracy@1
+      value: 0.7652938824470212
+      name: Cosine Accuracy@1
+    - type: cosine_accuracy@3
+      value: 0.9052379048380648
+      name: Cosine Accuracy@3
+    - type: cosine_accuracy@5
+      value: 0.9384246301479409
+      name: Cosine Accuracy@5
+    - type: cosine_accuracy@10
+      value: 0.9616153538584566
+      name: Cosine Accuracy@10
+    - type: cosine_precision@1
+      value: 0.7652938824470212
+      name: Cosine Precision@1
+    - type: cosine_precision@3
+      value: 0.30174596827935496
+      name: Cosine Precision@3
+    - type: cosine_precision@5
+      value: 0.18768492602958814
+      name: Cosine Precision@5
+    - type: cosine_precision@10
+      value: 0.09616153538584567
+      name: Cosine Precision@10
+    - type: cosine_recall@1
+      value: 0.7652938824470212
+      name: Cosine Recall@1
+    - type: cosine_recall@3
+      value: 0.9052379048380648
+      name: Cosine Recall@3
+    - type: cosine_recall@5
+      value: 0.9384246301479409
+      name: Cosine Recall@5
+    - type: cosine_recall@10
+      value: 0.9616153538584566
+      name: Cosine Recall@10
+    - type: cosine_ndcg@10
+      value: 0.8709655191496608
+      name: Cosine Ndcg@10
+    - type: cosine_mrr@10
+      value: 0.8411203772459269
+      name: Cosine Mrr@10
+    - type: cosine_map@100
+      value: 0.8426922800593073
+      name: Cosine Map@100
+  - task:
+      type: information-retrieval
+      name: Information Retrieval
+    dataset:
+      name: retrieval 128d
+      type: retrieval-128d
+    metrics:
+    - type: cosine_accuracy@1
+      value: 0.7153138744502199
+      name: Cosine Accuracy@1
+    - type: cosine_accuracy@3
+      value: 0.8692522990803678
+      name: Cosine Accuracy@3
+    - type: cosine_accuracy@5
+      value: 0.9016393442622951
+      name: Cosine Accuracy@5
+    - type: cosine_accuracy@10
+      value: 0.9412235105957617
+      name: Cosine Accuracy@10
+    - type: cosine_precision@1
+      value: 0.7153138744502199
+      name: Cosine Precision@1
+    - type: cosine_precision@3
+      value: 0.2897507663601226
+      name: Cosine Precision@3
+    - type: cosine_precision@5
+      value: 0.18032786885245902
+      name: Cosine Precision@5
+    - type: cosine_precision@10
+      value: 0.09412235105957616
+      name: Cosine Precision@10
+    - type: cosine_recall@1
+      value: 0.7153138744502199
+      name: Cosine Recall@1
+    - type: cosine_recall@3
+      value: 0.8692522990803678
+      name: Cosine Recall@3
+    - type: cosine_recall@5
+      value: 0.9016393442622951
+      name: Cosine Recall@5
+    - type: cosine_recall@10
+      value: 0.9412235105957617
+      name: Cosine Recall@10
+    - type: cosine_ndcg@10
+      value: 0.833440978290933
+      name: Cosine Ndcg@10
+    - type: cosine_mrr@10
+      value: 0.7984015917442536
+      name: Cosine Mrr@10
+    - type: cosine_map@100
+      value: 0.8004509036706192
+      name: Cosine Map@100
+  - task:
+      type: semantic-similarity
+      name: Semantic Similarity
+    dataset:
+      name: sts dev
+      type: sts-dev
+    metrics:
+    - type: pearson_cosine
+      value: 0.8576299147217115
+      name: Pearson Cosine
+    - type: spearman_cosine
+      value: 0.8550707245646871
+      name: Spearman Cosine
+---
+# SentenceTransformer based on nickprock/multi-sentence-BERTino
+This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [nickprock/multi-sentence-BERTino](https://huggingface.co/nickprock/multi-sentence-BERTino) on the task_retrieval and [task_sts](https://huggingface.co/datasets/stsb_multi_mt) datasets. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
+## Model Details
+### Model Description
+- **Model Type:** Sentence Transformer
+- **Base model:** [nickprock/multi-sentence-BERTino](https://huggingface.co/nickprock/multi-sentence-BERTino) <!-- at revision 23e88926f07dc8503737df806ea1c8d28f2b6ba6 -->
+- **Maximum Sequence Length:** 512 tokens
+- **Output Dimensionality:** 768 dimensions
+- **Similarity Function:** Cosine Similarity
+- **Training Datasets:**
+    - task_retrieval
+    - [task_sts](https://huggingface.co/datasets/stsb_multi_mt)
+- **Languages:** de, en, es, fr, it, nl, pl, pt, ru, zh
+<!-- - **License:** Unknown -->
+### Model Sources
+- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
+- **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
+- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
+### Full Model Architecture
+```
+SentenceTransformer(
+  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'DistilBertModel'})
+  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
+)
+```
+## Usage
+### Direct Usage (Sentence Transformers)
+First install the Sentence Transformers library:
+```bash
+pip install -U sentence-transformers
+```
+Then you can load this model and run inference.
+```python
+from sentence_transformers import SentenceTransformer
+# Download from the 🤗 Hub
+model = SentenceTransformer("nickprock/multi-sentence-BERTino")
+# Run inference
+sentences = [
+    'Importanza storica delle partite ufficiali per i giocatori di calcio',
+    'Carriera\n\nClub\nKortgaard vestì la maglia del Mjøndalen.\n\nNazionale\nConta 4 presenze per la . Debuttò il 19 maggio 1983, nel pareggio per 2-2 contro la .',
+    "100050 Carloshernandez è un asteroide della fascia principale. Scoperto nel 1991, presenta un'orbita caratterizzata da un semiasse maggiore pari a 2,5991503\xa0UA e da un'eccentricità di 0,2144518, inclinata di 1,67744° rispetto all'eclittica.\n\nL'asteroide è stato dedicato dallo scopritore al nipote Carlos R. Hernandez.",
+]
+embeddings = model.encode(sentences)
+print(embeddings.shape)
+# [3, 768]
+# Get the similarity scores for the embeddings
+similarities = model.similarity(embeddings, embeddings)
+print(similarities)
+# tensor([[ 1.0000,  0.3790,  0.0013],
+#         [ 0.3790,  1.0000, -0.0093],
+#         [ 0.0013, -0.0093,  1.0000]])
+```
+<!--
+### Direct Usage (Transformers)
+<details><summary>Click to see the direct usage in Transformers</summary>
+</details>
+-->
+<!--
+### Downstream Usage (Sentence Transformers)
+You can finetune this model on your own dataset.
+<details><summary>Click to expand</summary>
+</details>
+-->
+<!--
+### Out-of-Scope Use
+*List how the model may foreseeably be misused and address what users ought not to do with the model.*
+-->
+## Evaluation
+### Metrics
+#### Information Retrieval
+* Dataset: `retrieval-768d`
+* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
+  ```json
+  {
+      "truncate_dim": 768
+  }
+  ```
+| Metric              | Value     |
+|:--------------------|:----------|
+| cosine_accuracy@1   | 0.7653    |
+| cosine_accuracy@3   | 0.9052    |
+| cosine_accuracy@5   | 0.9384    |
+| cosine_accuracy@10  | 0.9616    |
+| cosine_precision@1  | 0.7653    |
+| cosine_precision@3  | 0.3017    |
+| cosine_precision@5  | 0.1877    |
+| cosine_precision@10 | 0.0962    |
+| cosine_recall@1     | 0.7653    |
+| cosine_recall@3     | 0.9052    |
+| cosine_recall@5     | 0.9384    |
+| cosine_recall@10    | 0.9616    |
+| **cosine_ndcg@10**  | **0.871** |
+| cosine_mrr@10       | 0.8411    |
+| cosine_map@100      | 0.8427    |
+#### Information Retrieval
+* Dataset: `retrieval-128d`
+* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator) with these parameters:
+  ```json
+  {
+      "truncate_dim": 128
+  }
+  ```
+| Metric              | Value      |
+|:--------------------|:-----------|
+| cosine_accuracy@1   | 0.7153     |
+| cosine_accuracy@3   | 0.8693     |
+| cosine_accuracy@5   | 0.9016     |
+| cosine_accuracy@10  | 0.9412     |
+| cosine_precision@1  | 0.7153     |
+| cosine_precision@3  | 0.2898     |
+| cosine_precision@5  | 0.1803     |
+| cosine_precision@10 | 0.0941     |
+| cosine_recall@1     | 0.7153     |
+| cosine_recall@3     | 0.8693     |
+| cosine_recall@5     | 0.9016     |
+| cosine_recall@10    | 0.9412     |
+| **cosine_ndcg@10**  | **0.8334** |
+| cosine_mrr@10       | 0.7984     |
+| cosine_map@100      | 0.8005     |
+#### Semantic Similarity
+* Dataset: `sts-dev`
+* Evaluated with [<code>EmbeddingSimilarityEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.EmbeddingSimilarityEvaluator)
+| Metric              | Value      |
+|:--------------------|:-----------|
+| pearson_cosine      | 0.8576     |
+| **spearman_cosine** | **0.8551** |
+<!--
+## Bias, Risks and Limitations
+*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
+-->
+<!--
+### Recommendations
+*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
+-->
+## Training Details
+### Training Datasets
+#### task_retrieval
+* Dataset: task_retrieval
+* Size: 45,000 training samples
+* Columns: <code>anchor</code>, <code>positive</code>, and <code>hard_negatives</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                            | positive                                                                             | hard_negatives                     |
+  |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-----------------------------------|
+  | type    | string                                                                            | string                                                                               | list                               |
+  | details | <ul><li>min: 9 tokens</li><li>mean: 18.51 tokens</li><li>max: 37 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 103.48 tokens</li><li>max: 230 tokens</li></ul> | <ul><li>size: 2 elements</li></ul> |
+* Samples:
+  | anchor                                                                                                                                                                      | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            | hard_negatives                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
+  |:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+  | <code>Quale era l'origine di Criterion Games nel suo primo periodo di attività?</code>                                                                                      | <code>Criterion Games (ufficialmente Criterion Software) è una software house britannica fondata nel febbraio 1993. È situata a Guildford, nella contea di Surrey, in Inghilterra. Criterion è divenuta famosa per videogiochi di guida in stile arcade, come Burnout e Need for Speed, e per l'FPS di successo Black.<br><br>Storia <br>Criterion Software Ltd. è nata per commercializzare RenderWare, una API 3D per videogames. Inizialmente Criterion Games era una divisione di Criterion Software, creata per sviluppare giochi, utilizzando RenderWare, il motore grafico sviluppato dalla stessa software house.</code>                                    | <code>['In Your House 10: Mind Games è stato un evento prodotto dalla World Wrestling Federation e si è svolto il 22 settembre 1996 al CoreStates Center di Filadelfia.', 'Il Clubino (talvolta anche definito "Clubino Dadi") è un club per gentiluomini di Milano.\n\nStoria\nIl circolo fu fondato nel 1901 come "New Club", italianizzato in Nuovo Circolo, poi diventato Clubino, da una scissione del Circolo dell\'Unione antico ritrovo dell\'aristocrazia e della borghesia milanese.\n\nIl circolo è stato fortemente voluto dalla classe dirigente milanese. I principali promotori del sodalizio furono l\'ingegner Giulio Ceretti, il cavalier Gerardo Maino e l\'ingegner Carlo Vogel.\n\nEbbe sede nel suo primo anno di vita presso la ex Fiaschetteria Toscana in Via Berchet.']</code>                                                                                                                                                                                                                                                                                                                                                                                                                                         |
+  | <code>In quale anno Benjamin ha iniziato a esibirsi nelle strade e nelle piazze europee?</code>                                                                             | <code>Biografia <br>Benjamin nasce nelle vicinanze di Melbourne, Australia e dopo aver avuto le sue prime esperienze musicali come musicista e cantante per una band locale chiamata Twitch all'età di diciannove anni decide di trasferirsi in Europa.<br><br>A soli ventidue anni si intromette nella scena musicale girando per le strade e per le piazze delle città europee con un nuovo tipo di musica.</code>                                                                                                                                                                                                                                                | <code>['Attualmente vive a Los Angeles, California.\n\nBiografia \nHa iniziato a produrre musica nel 2006. A partire dal 2011, grazie a una delle sue tracce più famose, The End, viene notato da personaggi di spicco della musica elettronica, quali Tiësto, David Guetta, Swedish House Mafia, Afrojack e Laidback Luke.\n\nPrima di The End, aveva lanciato sul mercato nel 2010 All My Friends , con le voci di Tom Piper e Mr. Wilson, proprio quest\'ultimo aveva già prestato la sua voce per un\'altra suo brano, Need Me to Stay, canzone nominata "Best Dance Record" (Migliore Canzone Dance) agli ARIA Awards nel 2009.', "Biografia\nConobbe la notorietà nei primi anni cinquanta suonando il sax contralto e il flauto nella Innovations in Modern Music Orchestra di Stan Kenton, e durante quel decennio lavorò in piccole formazioni jazz. Negli anni sessanta fu a Hollywood come musicista di studio e per la World-Pacific. Nel 1961 esce l'album Brazilliance, Laurindo Almeida Featuring Bud Shank, nel 1962 l'album Brazilliance Vol. 2 - Bud Shank Featuring Laurindo Almeida e nel 1963 l'album Brazilliance Vol. 3, Bud Shank Featuring Laurindo Almeida; negli anni settanta suonò regolarmente con i L.A."]</code> |
+  | <code>Cosa accade nella trama di un allenatore di fantini dopo la morte del suo allievo migliore in un film drammatico ambientato nel mondo delle corse dei cavalli?</code> | <code>La vita che sognava (Boots Malone) è un film statunitense del 1952 diretto da William Dieterle.<br><br>È un film drammatico a sfondo sportivo (ambientato nel mondo delle corse dei cavalli) con protagonisti William Holden, Stanley Clements e Basil Ruysdael.<br><br>Trama <br>"Boots" Malone è un allenatore di fantini in cattive condizioni economiche dopo la morte del suo migliore allievo. Fuori a cena con il suo amico Stash, una sera nota un ragazzino che pretende di pagare la sua cena con un biglietto da 100 dollari. Il ragazzo è Thomas Gibson, detto "the Kid", scappato dal collegio per la passione dei cavalli e delle corse.</code> | <code>["Dragon Trainer (How to Train Your Dragon) è un franchise prodotto dalla DreamWorks Animation che consiste in tre lungometraggi: Dragon Trainer (2010), Dragon Trainer 2 (2014) e Dragon Trainer - Il mondo nascosto (2019) e ispirato alla omonima serie di libri della scrittrice Cressida Cowell; comprende anche cinque cortometraggi: La leggenda del drago Rubaossa (2010), Il libro dei draghi (2011), Il dono della Furia Buia (2011), L'inizio delle corse dei draghi (2014) e Dragon Trainer - Rimpatriata (2019) e una serie televisiva in sei stagioni che segue gli eventi del primo film, Dragons, prodotta dal 2012 al 2018.", 'Noto principalmente per il ruolo del detective Lionel Fusco nella serie televisiva Person of Interest.\n\nBiografia \nDurante la sua carriera Kevin Chapman è apparso in numerose produzioni sia cinematografiche che televisive.\n\nPer quanto riguarda il cinema lo si può vedere nei film The Boondock Saints - Giustizia finale (1999), Le regole della casa del sidro (1999), Mystic River (2003), 21 grammi (2003), In Good Company (2004), Squadra 49 (2004) e più recentemente in Unstoppable - Fuori controllo di Tony Scott (2010).']</code>                                     |
+* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
+  ```json
+  {
+      "loss": "CachedMultipleNegativesRankingLoss",
+      "matryoshka_dims": [
+          768,
+          512,
+          256,
+          128
+      ],
+      "matryoshka_weights": [
+          1.0,
+          0.4,
+          0.2,
+          0.2
+      ],
+      "n_dims_per_step": -1
+  }
+  ```
+#### task_sts
+* Dataset: [task_sts](https://huggingface.co/datasets/stsb_multi_mt) at [3acaa3d](https://huggingface.co/datasets/stsb_multi_mt/tree/3acaa3dd8c91649e0b8e627ffad891f059e47c8c)
+* Size: 45,992 training samples
+* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | sentence1                                                                         | sentence2                                                                         | score                                                          |
+  |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------|
+  | type    | string                                                                            | string                                                                            | float                                                          |
+  | details | <ul><li>min: 6 tokens</li><li>mean: 10.85 tokens</li><li>max: 28 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 10.86 tokens</li><li>max: 23 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.45</li><li>max: 1.0</li></ul> |
+* Samples:
+  | sentence1                                                                 | sentence2                                                                           | score                           |
+  |:--------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:--------------------------------|
+  | <code>Un aereo sta decollando.</code>                                     | <code>Un aereo sta decollando.</code>                                               | <code>1.0</code>                |
+  | <code>Un uomo sta suonando un grande flauto.</code>                       | <code>Un uomo sta suonando un flauto.</code>                                        | <code>0.7599999904632568</code> |
+  | <code>Un uomo sta spalmando del formaggio a pezzetti su una pizza.</code> | <code>Un uomo sta spalmando del formaggio a pezzetti su una pizza non cotta.</code> | <code>0.7599999904632568</code> |
+* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
+  ```json
+  {
+      "loss": "CoSENTLoss",
+      "matryoshka_dims": [
+          768,
+          512,
+          256,
+          128
+      ],
+      "matryoshka_weights": [
+          1.0,
+          0.4,
+          0.2,
+          0.2
+      ],
+      "n_dims_per_step": -1
+  }
+  ```
+### Evaluation Datasets
+#### task_retrieval
+* Dataset: task_retrieval
+* Size: 2,501 evaluation samples
+* Columns: <code>anchor</code>, <code>positive</code>, and <code>hard_negatives</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | anchor                                                                             | positive                                                                             | hard_negatives                     |
+  |:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-----------------------------------|
+  | type    | string                                                                             | string                                                                               | list                               |
+  | details | <ul><li>min: 9 tokens</li><li>mean: 19.03 tokens</li><li>max: 193 tokens</li></ul> | <ul><li>min: 24 tokens</li><li>mean: 101.02 tokens</li><li>max: 218 tokens</li></ul> | <ul><li>size: 2 elements</li></ul> |
+* Samples:
+  | anchor                                                                                                            | positive                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            | hard_negatives                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |
+  |:------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
+  | <code>Quali popoli nomadi hanno costruito imperi attraversando l'Europa occidentale dalla steppa asiatica?</code> | <code>La storia della Mongolia si identifica in gran parte con la storia dei popoli nomadi che hanno popolato la steppa dell'Asia centrale.<br><br>Alle sorgenti del fiume Amur che funge da frontiera tra la Cina e la Russia, la Mongolia è il cuore della steppa dell'Asia centrale ed è stata spesso il punto di partenza di temibili guerrieri che, allorquando hanno saputo federare le loro tribù di allevatori nomadi, sono riusciti a costruirsi degli imperi dilagando con i loro archi e i loro piccoli cavalli fino al sud della Cina e dell'India, e perfino in Europa occidentale (Unni di Attila, Bulgari, Avari, Ungari inquadrati dall'aristocrazia unica).</code> | <code>["La colonizzazione di Europa, quarto satellite di Giove per dimensioni, è stata oggetto di ipotesi sia nella fantascienza, sia nell'ambito della scienza. Le caratteristiche geofisiche di Europa, quali il probabile oceano di acqua sotto la crosta ghiacciata, potrebbero permettere la sopravvivenza di esseri umani sopra o sotto la superficie.\n\nFattibilità \nEuropa presenterebbe diversi vantaggi se fosse selezionata quale obiettivo per una possibile colonizzazione umana dello spazio rispetto ad altri corpi del sistema solare esterno, ma non sarebbe priva di problematiche.", 'Le biblioteche del Vicino Oriente antico servirono come archivi delle città-stato e degli imperi, santuari di sacre scritture e depositi di letteratura e cronache. Fu infatti in Egitto e Mesopotamia, terre abbondantemente bagnate da grandi fiumi, che nacque la civiltà e fu là che sorsero i primi esempi di uno degli aspetti principali della civiltà: la scrittura - incisa su tavolette di argilla che datano prima del 3000 a.C., scoperte tra i resti archeologici dei Sumeri, un popolo creativo che si stabilì nella Mesopotamia meridionale.']</code> |
+  | <code>Quali sono le caratteristiche del torneo ATP Challenger Tour?</code>                                        | <code>L'Orbetello Challenger 2012 è stato un torneo professionistico di tennis giocato sul cemento. È stata la 4ª edizione del torneo che fa parte dell'ATP Challenger Tour nell'ambito dell'ATP Challenger Tour 2012. Si è giocato ad Orbetello in Italia dal 23 al 29 luglio 2012.<br><br>Partecipanti<br><br>Teste di serie<br><br> Ranking al 16 luglio 2012.</code>                                                                                                                                                                                                                                                                                                            | <code>["L'ATP Challenger Trophy 2007 è stato un torneo di tennis facente parte della categoria ATP Challenger Series nell'ambito dell'ATP Challenger Series 2007. Il torneo si è giocato a Trnava in Slovacchia dal 24 al 30 settembre 2007 su campi in terra rossa.", "Il singolare  dell'ATP Challenger Trophy 2012 è stato un torneo di tennis facente parte dell'ATP Challenger Tour 2012.\n\nIñigo Cervantes-Huegun era il detentrice del titolo, ma quest'anno non ha partecipato.\n\nAndrej Kuznecov ha battuto in finale Adrian Ungur 6–3, 6–3."]</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |
+  | <code>Quali sono i dettagli sul comune di Bartošovice in Repubblica Ceca?</code>                                  | <code>Bartošovice (in tedesco Partschendorf) è un comune della Repubblica Ceca facente parte del distretto di Nový Jičín, nella regione della Moravia-Slesia.</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | <code>['Malé Svatoňovice è un comune della Repubblica Ceca facente parte del distretto di Trutnov, nella regione di Hradec Králové.\n\nSport\n\nCorsa in montagna \nMalé Svatoňovice ha ospitato i Campionati del mondo di corsa in montagna nel 1997.', 'Petřvald (in tedesco Gross Peterswald) è un comune della Repubblica Ceca facente parte del distretto di Nový Jičín, nella regione della Moravia-Slesia.']</code>                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      |
+* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
+  ```json
+  {
+      "loss": "CachedMultipleNegativesRankingLoss",
+      "matryoshka_dims": [
+          768,
+          512,
+          256,
+          128
+      ],
+      "matryoshka_weights": [
+          1.0,
+          0.4,
+          0.2,
+          0.2
+      ],
+      "n_dims_per_step": -1
+  }
+  ```
+#### task_sts
+* Dataset: [task_sts](https://huggingface.co/datasets/stsb_multi_mt) at [3acaa3d](https://huggingface.co/datasets/stsb_multi_mt/tree/3acaa3dd8c91649e0b8e627ffad891f059e47c8c)
+* Size: 1,500 evaluation samples
+* Columns: <code>sentence1</code>, <code>sentence2</code>, and <code>score</code>
+* Approximate statistics based on the first 1000 samples:
+  |         | sentence1                                                                        | sentence2                                                                         | score                                                          |
+  |:--------|:---------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|:---------------------------------------------------------------|
+  | type    | string                                                                           | string                                                                            | float                                                          |
+  | details | <ul><li>min: 5 tokens</li><li>mean: 16.1 tokens</li><li>max: 45 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 16.14 tokens</li><li>max: 57 tokens</li></ul> | <ul><li>min: 0.0</li><li>mean: 0.42</li><li>max: 1.0</li></ul> |
+* Samples:
+  | sentence1                                                         | sentence2                                                      | score             |
+  |:------------------------------------------------------------------|:---------------------------------------------------------------|:------------------|
+  | <code>Un uomo con l'elmetto sta ballando.</code>                  | <code>Un uomo che indossa un elmetto sta ballando.</code>      | <code>1.0</code>  |
+  | <code>Un bambino piccolo sta cavalcando un cavallo.</code>        | <code>Un bambino sta cavalcando un cavallo.</code>             | <code>0.95</code> |
+  | <code>Un uomo sta dando da mangiare un topo a un serpente.</code> | <code>L'uomo sta dando da mangiare un topo al serpente.</code> | <code>1.0</code>  |
+* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
+  ```json
+  {
+      "loss": "CoSENTLoss",
+      "matryoshka_dims": [
+          768,
+          512,
+          256,
+          128
+      ],
+      "matryoshka_weights": [
+          1.0,
+          0.4,
+          0.2,
+          0.2
+      ],
+      "n_dims_per_step": -1
+  }
+  ```
+### Training Hyperparameters
+#### Non-Default Hyperparameters
+- `per_device_train_batch_size`: 128
+- `num_train_epochs`: 4
+- `learning_rate`: 1e-05
+- `lr_scheduler_type`: cosine
+- `warmup_steps`: 0.1
+- `weight_decay`: 0.01
+- `fp16`: True
+- `eval_strategy`: steps
+- `per_device_eval_batch_size`: 32
+- `load_best_model_at_end`: True
+- `batch_sampler`: no_duplicates
+#### All Hyperparameters
+<details><summary>Click to expand</summary>
+- `per_device_train_batch_size`: 128
+- `num_train_epochs`: 4
+- `max_steps`: -1
+- `learning_rate`: 1e-05
+- `lr_scheduler_type`: cosine
+- `lr_scheduler_kwargs`: None
+- `warmup_steps`: 0.1
+- `optim`: adamw_torch_fused
+- `optim_args`: None
+- `weight_decay`: 0.01
+- `adam_beta1`: 0.9
+- `adam_beta2`: 0.999
+- `adam_epsilon`: 1e-08
+- `optim_target_modules`: None
+- `gradient_accumulation_steps`: 1
+- `average_tokens_across_devices`: True
+- `max_grad_norm`: 1.0
+- `label_smoothing_factor`: 0.0
+- `bf16`: False
+- `fp16`: True
+- `bf16_full_eval`: False
+- `fp16_full_eval`: False
+- `tf32`: None
+- `gradient_checkpointing`: False
+- `gradient_checkpointing_kwargs`: None
+- `torch_compile`: False
+- `torch_compile_backend`: None
+- `torch_compile_mode`: None
+- `use_liger_kernel`: False
+- `liger_kernel_config`: None
+- `use_cache`: False
+- `neftune_noise_alpha`: None
+- `torch_empty_cache_steps`: None
+- `auto_find_batch_size`: False
+- `log_on_each_node`: True
+- `logging_nan_inf_filter`: True
+- `include_num_input_tokens_seen`: no
+- `log_level`: passive
+- `log_level_replica`: warning
+- `disable_tqdm`: False
+- `project`: huggingface
+- `trackio_space_id`: trackio
+- `eval_strategy`: steps
+- `per_device_eval_batch_size`: 32
+- `prediction_loss_only`: True
+- `eval_on_start`: False
+- `eval_do_concat_batches`: True
+- `eval_use_gather_object`: False
+- `eval_accumulation_steps`: None
+- `include_for_metrics`: []
+- `batch_eval_metrics`: False
+- `save_only_model`: False
+- `save_on_each_node`: False
+- `enable_jit_checkpoint`: False
+- `push_to_hub`: False
+- `hub_private_repo`: None
+- `hub_model_id`: None
+- `hub_strategy`: every_save
+- `hub_always_push`: False
+- `hub_revision`: None
+- `load_best_model_at_end`: True
+- `ignore_data_skip`: False
+- `restore_callback_states_from_checkpoint`: False
+- `full_determinism`: False
+- `seed`: 42
+- `data_seed`: None
+- `use_cpu`: False
+- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
+- `parallelism_config`: None
+- `dataloader_drop_last`: False
+- `dataloader_num_workers`: 0
+- `dataloader_pin_memory`: True
+- `dataloader_persistent_workers`: False
+- `dataloader_prefetch_factor`: None
+- `remove_unused_columns`: True
+- `label_names`: None
+- `train_sampling_strategy`: random
+- `length_column_name`: length
+- `ddp_find_unused_parameters`: None
+- `ddp_bucket_cap_mb`: None
+- `ddp_broadcast_buffers`: False
+- `ddp_backend`: None
+- `ddp_timeout`: 1800
+- `fsdp`: []
+- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
+- `deepspeed`: None
+- `debug`: []
+- `skip_memory_metrics`: True
+- `do_predict`: False
+- `resume_from_checkpoint`: None
+- `warmup_ratio`: None
+- `local_rank`: -1
+- `prompts`: None
+- `batch_sampler`: no_duplicates
+- `multi_dataset_batch_sampler`: proportional
+- `router_mapping`: {}
+- `learning_rate_mapping`: {}
+</details>
+### Training Logs
+| Epoch      | Step    | Training Loss | task retrieval loss | task sts loss | retrieval-768d_cosine_ndcg@10 | retrieval-128d_cosine_ndcg@10 | sts-dev_spearman_cosine |
+|:----------:|:-------:|:-------------:|:-------------------:|:-------------:|:-----------------------------:|:-----------------------------:|:-----------------------:|
+| 0.0702     | 50      | 7.7958        | -                   | -             | -                             | -                             | -                       |
+| 0.1404     | 100     | 4.5273        | -                   | -             | -                             | -                             | -                       |
+| 0.2107     | 150     | 8.7004        | -                   | -             | -                             | -                             | -                       |
+| 0.2809     | 200     | 5.6620        | -                   | -             | -                             | -                             | -                       |
+| **0.3511** | **250** | **7.3535**    | **0.0642**          | **18.3673**   | **0.871**                     | **0.8334**                    | **0.854**               |
+| 0.4213     | 300     | 6.3456        | -                   | -             | -                             | -                             | -                       |
+| 0.4916     | 350     | 6.5450        | -                   | -             | -                             | -                             | -                       |
+| 0.5618     | 400     | 8.1323        | -                   | -             | -                             | -                             | -                       |
+| 0.6320     | 450     | 6.1999        | -                   | -             | -                             | -                             | -                       |
+| 0.7022     | 500     | 5.9058        | 0.0577              | 18.5753       | 0.8682                        | 0.8372                        | 0.8538                  |
+| 0.7725     | 550     | 6.4255        | -                   | -             | -                             | -                             | -                       |
+| 0.8427     | 600     | 6.7009        | -                   | -             | -                             | -                             | -                       |
+| 0.9129     | 650     | 6.3682        | -                   | -             | -                             | -                             | -                       |
+| 0.9831     | 700     | 7.1500        | -                   | -             | -                             | -                             | -                       |
+| 1.0534     | 750     | 6.7907        | 0.0550              | 18.5580       | 0.8681                        | 0.8333                        | 0.8552                  |
+| 1.1236     | 800     | 5.2997        | -                   | -             | -                             | -                             | -                       |
+| 1.1938     | 850     | 6.0822        | -                   | -             | -                             | -                             | -                       |
+| 1.2640     | 900     | 6.5435        | -                   | -             | -                             | -                             | -                       |
+| 1.3343     | 950     | 7.0916        | -                   | -             | -                             | -                             | -                       |
+| 1.4045     | 1000    | 5.9986        | 0.0554              | 18.7416       | 0.8671                        | 0.8354                        | 0.8550                  |
+| 1.4747     | 1050    | 5.5105        | -                   | -             | -                             | -                             | -                       |
+| 1.5449     | 1100    | 7.5051        | -                   | -             | -                             | -                             | -                       |
+| 1.6152     | 1150    | 7.0109        | -                   | -             | -                             | -                             | -                       |
+| 1.6854     | 1200    | 5.2789        | -                   | -             | -                             | -                             | -                       |
+| 1.7556     | 1250    | 6.0140        | 0.0540              | 18.7505       | 0.8692                        | 0.8387                        | 0.8549                  |
+| 1.8258     | 1300    | 6.2669        | -                   | -             | -                             | -                             | -                       |
+| 1.8961     | 1350    | 6.2215        | -                   | -             | -                             | -                             | -                       |
+| 1.9663     | 1400    | 7.6712        | -                   | -             | -                             | -                             | -                       |
+| 2.0365     | 1450    | 6.1573        | -                   | -             | -                             | -                             | -                       |
+| 2.1067     | 1500    | 6.4583        | 0.0542              | 18.8299       | 0.8653                        | 0.8359                        | 0.8555                  |
+| 2.1770     | 1550    | 7.1814        | -                   | -             | -                             | -                             | -                       |
+| 2.2472     | 1600    | 5.9135        | -                   | -             | -                             | -                             | -                       |
+| 2.3174     | 1650    | 6.2025        | -                   | -             | -                             | -                             | -                       |
+| 2.3876     | 1700    | 4.9456        | -                   | -             | -                             | -                             | -                       |
+| 2.4579     | 1750    | 6.1588        | 0.0547              | 18.9144       | 0.8650                        | 0.8357                        | 0.8551                  |
+| 2.5281     | 1800    | 7.6150        | -                   | -             | -                             | -                             | -                       |
+| 2.5983     | 1850    | 6.2019        | -                   | -             | -                             | -                             | -                       |
+| 2.6685     | 1900    | 5.9106        | -                   | -             | -                             | -                             | -                       |
+| 2.7388     | 1950    | 5.4257        | -                   | -             | -                             | -                             | -                       |
+| 2.8090     | 2000    | 5.6597        | 0.0523              | 19.0004       | 0.8657                        | 0.8361                        | 0.8546                  |
+| 2.8792     | 2050    | 5.9472        | -                   | -             | -                             | -                             | -                       |
+| 2.9494     | 2100    | 5.6624        | -                   | -             | -                             | -                             | -                       |
+| 3.0197     | 2150    | 7.7736        | -                   | -             | -                             | -                             | -                       |
+| 3.0899     | 2200    | 6.6527        | -                   | -             | -                             | -                             | -                       |
+| 3.1601     | 2250    | 5.9107        | 0.0531              | 18.9516       | 0.8664                        | 0.8373                        | 0.8551                  |
+| 3.2303     | 2300    | 6.1335        | -                   | -             | -                             | -                             | -                       |
+| 3.3006     | 2350    | 5.4157        | -                   | -             | -                             | -                             | -                       |
+| 3.3708     | 2400    | 7.3402        | -                   | -             | -                             | -                             | -                       |
+| 3.4410     | 2450    | 4.6722        | -                   | -             | -                             | -                             | -                       |
+| 3.5112     | 2500    | 7.1186        | 0.0530              | 18.9883       | 0.8652                        | 0.8356                        | 0.8551                  |
+| 3.5815     | 2550    | 6.3746        | -                   | -             | -                             | -                             | -                       |
+| 3.6517     | 2600    | 3.9370        | -                   | -             | -                             | -                             | -                       |
+| 3.7219     | 2650    | 8.1087        | -                   | -             | -                             | -                             | -                       |
+| 3.7921     | 2700    | 4.8976        | -                   | -             | -                             | -                             | -                       |
+| 3.8624     | 2750    | 6.1367        | 0.0527              | 19.0004       | 0.8657                        | 0.8372                        | 0.8551                  |
+| 3.9326     | 2800    | 6.6133        | -                   | -             | -                             | -                             | -                       |
+| -1         | -1      | -             | -                   | -             | 0.8710                        | 0.8334                        | -                       |
+* The bold row denotes the saved checkpoint.
+### Framework Versions
+- Python: 3.10.19
+- Sentence Transformers: 5.4.0.dev0
+- Transformers: 5.3.0
+- PyTorch: 2.10.0+cu128
+- Accelerate: 1.13.0
+- Datasets: 2.21.0
+- Tokenizers: 0.22.2
+## Citation
+### BibTeX
+#### Sentence Transformers
+```bibtex
+@inproceedings{reimers-2019-sentence-bert,
+    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
+    author = "Reimers, Nils and Gurevych, Iryna",
+    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
+    month = "11",
+    year = "2019",
+    publisher = "Association for Computational Linguistics",
+    url = "https://arxiv.org/abs/1908.10084",
+}
+```
+#### MatryoshkaLoss
+```bibtex
+@misc{kusupati2024matryoshka,
+    title={Matryoshka Representation Learning},
+    author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
+    year={2024},
+    eprint={2205.13147},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}
+```
+#### CachedMultipleNegativesRankingLoss
+```bibtex
+@misc{gao2021scaling,
+    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
+    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
+    year={2021},
+    eprint={2101.06983},
+    archivePrefix={arXiv},
+    primaryClass={cs.LG}
+}
+```
+#### CoSENTLoss
+```bibtex
+@article{10531646,
+    author={Huang, Xiang and Peng, Hao and Zou, Dongcheng and Liu, Zhiwei and Li, Jianxin and Liu, Kay and Wu, Jia and Su, Jianlin and Yu, Philip S.},
+    journal={IEEE/ACM Transactions on Audio, Speech, and Language Processing},
+    title={CoSENT: Consistent Sentence Embedding via Similarity Ranking},
+    year={2024},
+    doi={10.1109/TASLP.2024.3402087}
+}
+```
+<!--
+## Glossary
+*Clearly define terms in order to be accessible across audiences.*
+-->
+<!--
+## Model Card Authors
+*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
+-->
+<!--
+## Model Card Contact
+*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
+-->

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac72b79996082b7418fd2130b23a3a86b40bd8afd3121fb727b01894e7db13f7
 size 270316376

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a0d90423b353949906bb4ce52f1da3786de0b1a65e94a37bc626f127153798a
 size 270316376

tokenizer_config.json CHANGED Viewed

@@ -5,7 +5,7 @@
   "do_basic_tokenize": true,
   "do_lower_case": true,
   "full_tokenizer_file": null,
-  "is_local": true,
   "mask_token": "[MASK]",
   "max_len": 512,
   "max_length": 512,

   "do_basic_tokenize": true,
   "do_lower_case": true,
   "full_tokenizer_file": null,
+  "is_local": false,
   "mask_token": "[MASK]",
   "max_len": 512,
   "max_length": 512,