Add new SentenceTransformer model
Browse files- 1_Pooling/config.json +10 -0
- README.md +578 -0
- config.json +26 -0
- config_sentence_transformers.json +10 -0
- model.safetensors +3 -0
- modules.json +20 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +30 -0
- tokenizer.json +0 -0
- tokenizer_config.json +0 -0
1_Pooling/config.json
ADDED
|
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"word_embedding_dimension": 2048,
|
| 3 |
+
"pooling_mode_cls_token": false,
|
| 4 |
+
"pooling_mode_mean_tokens": false,
|
| 5 |
+
"pooling_mode_max_tokens": false,
|
| 6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
| 7 |
+
"pooling_mode_weightedmean_tokens": false,
|
| 8 |
+
"pooling_mode_lasttoken": true,
|
| 9 |
+
"include_prompt": true
|
| 10 |
+
}
|
README.md
ADDED
|
@@ -0,0 +1,578 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
language:
|
| 3 |
+
- it
|
| 4 |
+
tags:
|
| 5 |
+
- sentence-transformers
|
| 6 |
+
- sentence-similarity
|
| 7 |
+
- feature-extraction
|
| 8 |
+
- generated_from_trainer
|
| 9 |
+
- dataset_size:319227
|
| 10 |
+
- loss:MatryoshkaLoss
|
| 11 |
+
- loss:CachedMultipleNegativesRankingLoss
|
| 12 |
+
- dataset_size:733474
|
| 13 |
+
base_model: Almawave/Velvet-2B
|
| 14 |
+
widget:
|
| 15 |
+
- source_sentence: 'Jovanotti torna con Fuorionda : ma come fa a inventarsene sempre
|
| 16 |
+
una?'
|
| 17 |
+
sentences:
|
| 18 |
+
- 'Migros Ticino: «Non vediamo segni di ripresa, ma puntiamo su investimenti e nuove
|
| 19 |
+
aperture'
|
| 20 |
+
- 'Jovanotti canta i “Fuorionda” della vita: “Andiamo avanti, siamo sempre all’inizio
|
| 21 |
+
di qualcosa”'
|
| 22 |
+
- 'WTA Indian Wells, Swiatek: "Ci sono vari modi di sfruttare il vento"'
|
| 23 |
+
- source_sentence: Economia umbra debole, crescita inferiore rispetto al resto del
|
| 24 |
+
paese
|
| 25 |
+
sentences:
|
| 26 |
+
- 'Chi sono i “maranza” che vogliono invadere il sud Italia. Don Alì: «Faremo un
|
| 27 |
+
macello». Controlli rafforzati a Napoli. Avvertito ministro Piantedosi'
|
| 28 |
+
- 'Incendi California, Los Angeles conta i danni: da Lady Gaga a Sting, le star
|
| 29 |
+
in concerto per le vittime'
|
| 30 |
+
- N. 32 - L'economia dell' UmbriaAggiornamento congiunturale
|
| 31 |
+
- source_sentence: 'Olio di oliva: il prezzo sale ancora. Si tratta di "oro verde"
|
| 32 |
+
ormai'
|
| 33 |
+
sentences:
|
| 34 |
+
- '"Il Governo taglia il fondo dell''Automotive, la Regione intervenga con l''area
|
| 35 |
+
di crisi nel Vastese"'
|
| 36 |
+
- G7, Coldiretti, arriva l'olio nuovo ma la produzione cala per siccità (-32%)
|
| 37 |
+
- Il Campus Bio Medico di Roma apre un servizio gratuito di estetica oncologica
|
| 38 |
+
- source_sentence: 'Pensioni febbraio, quando arrivano i pagamenti? Cedolino e nuovi
|
| 39 |
+
importi dell''assegno con la rivalutazione: cosa sappiamo. Versamenti da oggi'
|
| 40 |
+
sentences:
|
| 41 |
+
- 'Bonus fiscali 2024 per la casa: la guida del Notariato'
|
| 42 |
+
- Cedolino pensione febbraio 2024, sul portale INPS i dati sulle trattenute IRPEF
|
| 43 |
+
- Stratega di Wall Street indica tre possibili scenari per i dazi
|
| 44 |
+
- source_sentence: 'Sciopero treni-aerei martedì 8 e mercoledì 9: chi si ferma e le
|
| 45 |
+
fasce di garanzia'
|
| 46 |
+
sentences:
|
| 47 |
+
- 'Il gusto del 2024 in casa Massari: «Dolce, salato e progetti: Roma, arriviamo»'
|
| 48 |
+
- Claudio Baglioni, ultimo concerto al Palasele di Eboli prima del ritiro
|
| 49 |
+
- Sciopero Trenitalia e aerei, confermato il 9 aprile. Sciopero treni 11 aprile
|
| 50 |
+
datasets:
|
| 51 |
+
- efederici/autonlp-data-Ita-Summarization
|
| 52 |
+
- ReDiX/wikipediaQA-ita
|
| 53 |
+
- ReDiX/QA-ita-200k
|
| 54 |
+
- MattiaSangermano/change-it
|
| 55 |
+
pipeline_tag: sentence-similarity
|
| 56 |
+
library_name: sentence-transformers
|
| 57 |
+
---
|
| 58 |
+
|
| 59 |
+
# SentenceTransformer based on Almawave/Velvet-2B
|
| 60 |
+
|
| 61 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Almawave/Velvet-2B](https://huggingface.co/Almawave/Velvet-2B) on the news, [autonlp-data-Ita-Summarization](https://huggingface.co/datasets/efederici/autonlp-data-Ita-Summarization), [wikipediaQA-ita](https://huggingface.co/datasets/ReDiX/wikipediaQA-ita), [QA-ita-200k](https://huggingface.co/datasets/ReDiX/QA-ita-200k) and [change-it](https://huggingface.co/datasets/MattiaSangermano/change-it) datasets. It maps sentences & paragraphs to a 2048-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
| 62 |
+
|
| 63 |
+
## Model Details
|
| 64 |
+
|
| 65 |
+
### Model Description
|
| 66 |
+
- **Model Type:** Sentence Transformer
|
| 67 |
+
- **Base model:** [Almawave/Velvet-2B](https://huggingface.co/Almawave/Velvet-2B) <!-- at revision 3d207a3421d090485dedbd5470b79883c63d2184 -->
|
| 68 |
+
- **Maximum Sequence Length:** 32768 tokens
|
| 69 |
+
- **Output Dimensionality:** 2048 dimensions
|
| 70 |
+
- **Similarity Function:** Cosine Similarity
|
| 71 |
+
- **Training Datasets:**
|
| 72 |
+
- news
|
| 73 |
+
- [autonlp-data-Ita-Summarization](https://huggingface.co/datasets/efederici/autonlp-data-Ita-Summarization)
|
| 74 |
+
- [wikipediaQA-ita](https://huggingface.co/datasets/ReDiX/wikipediaQA-ita)
|
| 75 |
+
- [QA-ita-200k](https://huggingface.co/datasets/ReDiX/QA-ita-200k)
|
| 76 |
+
- [change-it](https://huggingface.co/datasets/MattiaSangermano/change-it)
|
| 77 |
+
- **Language:** it
|
| 78 |
+
<!-- - **License:** Unknown -->
|
| 79 |
+
|
| 80 |
+
### Model Sources
|
| 81 |
+
|
| 82 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
| 83 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
| 84 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 85 |
+
|
| 86 |
+
### Full Model Architecture
|
| 87 |
+
|
| 88 |
+
```
|
| 89 |
+
SentenceTransformer(
|
| 90 |
+
(0): Transformer({'max_seq_length': 32768, 'do_lower_case': False}) with Transformer model: MistralModel
|
| 91 |
+
(1): Pooling({'word_embedding_dimension': 2048, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': True})
|
| 92 |
+
(2): Normalize()
|
| 93 |
+
)
|
| 94 |
+
```
|
| 95 |
+
|
| 96 |
+
## Usage
|
| 97 |
+
|
| 98 |
+
### Direct Usage (Sentence Transformers)
|
| 99 |
+
|
| 100 |
+
First install the Sentence Transformers library:
|
| 101 |
+
|
| 102 |
+
```bash
|
| 103 |
+
pip install -U sentence-transformers
|
| 104 |
+
```
|
| 105 |
+
|
| 106 |
+
Then you can load this model and run inference.
|
| 107 |
+
```python
|
| 108 |
+
from sentence_transformers import SentenceTransformer
|
| 109 |
+
|
| 110 |
+
# Download from the 🤗 Hub
|
| 111 |
+
model = SentenceTransformer("ancc/Velvet-2B-Embedding-1004")
|
| 112 |
+
# Run inference
|
| 113 |
+
sentences = [
|
| 114 |
+
'Sciopero treni-aerei martedì 8 e mercoledì 9: chi si ferma e le fasce di garanzia',
|
| 115 |
+
'Sciopero Trenitalia e aerei, confermato il 9 aprile. Sciopero treni 11 aprile',
|
| 116 |
+
'Il gusto del 2024 in casa Massari: «Dolce, salato e progetti: Roma, arriviamo»',
|
| 117 |
+
]
|
| 118 |
+
embeddings = model.encode(sentences)
|
| 119 |
+
print(embeddings.shape)
|
| 120 |
+
# [3, 2048]
|
| 121 |
+
|
| 122 |
+
# Get the similarity scores for the embeddings
|
| 123 |
+
similarities = model.similarity(embeddings, embeddings)
|
| 124 |
+
print(similarities.shape)
|
| 125 |
+
# [3, 3]
|
| 126 |
+
```
|
| 127 |
+
|
| 128 |
+
<!--
|
| 129 |
+
### Direct Usage (Transformers)
|
| 130 |
+
|
| 131 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 132 |
+
|
| 133 |
+
</details>
|
| 134 |
+
-->
|
| 135 |
+
|
| 136 |
+
<!--
|
| 137 |
+
### Downstream Usage (Sentence Transformers)
|
| 138 |
+
|
| 139 |
+
You can finetune this model on your own dataset.
|
| 140 |
+
|
| 141 |
+
<details><summary>Click to expand</summary>
|
| 142 |
+
|
| 143 |
+
</details>
|
| 144 |
+
-->
|
| 145 |
+
|
| 146 |
+
<!--
|
| 147 |
+
### Out-of-Scope Use
|
| 148 |
+
|
| 149 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 150 |
+
-->
|
| 151 |
+
|
| 152 |
+
<!--
|
| 153 |
+
## Bias, Risks and Limitations
|
| 154 |
+
|
| 155 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 156 |
+
-->
|
| 157 |
+
|
| 158 |
+
<!--
|
| 159 |
+
### Recommendations
|
| 160 |
+
|
| 161 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 162 |
+
-->
|
| 163 |
+
|
| 164 |
+
## Training Details
|
| 165 |
+
|
| 166 |
+
### Training Datasets
|
| 167 |
+
<details><summary>news</summary>
|
| 168 |
+
|
| 169 |
+
#### news
|
| 170 |
+
|
| 171 |
+
* Dataset: news
|
| 172 |
+
* Size: 319,227 training samples
|
| 173 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
| 174 |
+
* Approximate statistics based on the first 1000 samples:
|
| 175 |
+
| | anchor | positive |
|
| 176 |
+
|:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
| 177 |
+
| type | string | string |
|
| 178 |
+
| details | <ul><li>min: 4 tokens</li><li>mean: 18.97 tokens</li><li>max: 56 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 19.45 tokens</li><li>max: 56 tokens</li></ul> |
|
| 179 |
+
* Samples:
|
| 180 |
+
| anchor | positive |
|
| 181 |
+
|:-----------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------|
|
| 182 |
+
| <code>Primi piatti: 6 ricette di Iginio Massari</code> | <code>Il gusto del 2024 in casa Massari. Gli auguri del patron Iginio ai nostri lettori</code> |
|
| 183 |
+
| <code>Primi piatti: 6 ricette di Iginio Massari</code> | <code>Il gusto del 2024 in casa Massari: «Dolce, salato e progetti: Roma, arriviamo»</code> |
|
| 184 |
+
| <code>Il gusto del 2024 in casa Massari. Gli auguri del patron Iginio ai nostri lettori</code> | <code>Il gusto del 2024 in casa Massari: «Dolce, salato e progetti: Roma, arriviamo»</code> |
|
| 185 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
| 186 |
+
```json
|
| 187 |
+
{
|
| 188 |
+
"loss": "CachedMultipleNegativesRankingLoss",
|
| 189 |
+
"matryoshka_dims": [
|
| 190 |
+
2048,
|
| 191 |
+
1024,
|
| 192 |
+
512,
|
| 193 |
+
256,
|
| 194 |
+
128,
|
| 195 |
+
64
|
| 196 |
+
],
|
| 197 |
+
"matryoshka_weights": [
|
| 198 |
+
1,
|
| 199 |
+
1,
|
| 200 |
+
1,
|
| 201 |
+
1,
|
| 202 |
+
1,
|
| 203 |
+
1
|
| 204 |
+
],
|
| 205 |
+
"n_dims_per_step": -1
|
| 206 |
+
}
|
| 207 |
+
```
|
| 208 |
+
</details>
|
| 209 |
+
<details><summary>autonlp-data-Ita-Summarization</summary>
|
| 210 |
+
|
| 211 |
+
#### autonlp-data-Ita-Summarization
|
| 212 |
+
|
| 213 |
+
* Dataset: [autonlp-data-Ita-Summarization](https://huggingface.co/datasets/efederici/autonlp-data-Ita-Summarization) at [8ef509f](https://huggingface.co/datasets/efederici/autonlp-data-Ita-Summarization/tree/8ef509f0f43ff199896007f0479636b71dacdf77)
|
| 214 |
+
* Size: 64,012 training samples
|
| 215 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
| 216 |
+
* Approximate statistics based on the first 1000 samples:
|
| 217 |
+
| | anchor | positive |
|
| 218 |
+
|:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
|
| 219 |
+
| type | string | string |
|
| 220 |
+
| details | <ul><li>min: 27 tokens</li><li>mean: 190.72 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 29.49 tokens</li><li>max: 79 tokens</li></ul> |
|
| 221 |
+
* Samples:
|
| 222 |
+
| anchor | positive |
|
| 223 |
+
|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 224 |
+
| <code>Lo STB pagherà una multa di 340 milioni di dollari e accetterà che venga effettuato un monitoraggio permanente delle transazioni nella sua filiale a New York. La settimana scorsa i regolatori dello stato di New York hanno accusato la STB di nascondere miliardi di dollari in transazioni con l'Iran, penalizzate dalla legge statunitense. La banca ha accettato che alcune transazioni violassero il regime di sanzioni che Washington ha imposto a Teheran, anche se discute il numero di loro e l'importo coinvolto. Anche se le operazioni dello STB si concentrano sull'Asia, ha bisogno di mantenere una rappresentanza negli Stati Uniti per le sue operazioni internazionali. Altre notizie Filtrano foto intime di Kim Kardashian È tempo di dire addio all'email? Le misteriose esplosioni che scuotono le strade di Londra Come rendere virale la moda: Justin Bieber con pochi vestiti</code> | <code>La banca britannica Standard Chartered (STB) ha raggiunto un accordo con i regolatori finanziari di New York che le permetterà di mantenere le sue operazioni nello stato, chiave per il sistema bancario internazionale.</code> |
|
| 225 |
+
| <code>Yishai Schlissel, 40 anni, sta scontando l'ergastolo per aver ucciso una ragazza di 16 anni e accoltellato altre persone alla sfilata del 2015. Il fratello Michael è stato arrestato mercoledì e altri membri della famiglia sono stati fermati brevemente prima della sfilata, dicono i media israeliani. Le notizie del sospetto complotto sono arrivate ore prima dell'inizio della marcia di quest'anno. I media israeliani hanno detto che centinaia di poliziotti saranno in servizio per garantire la sua morte pacifica. Schlissel ha pugnalato sei persone durante la marcia del 2015. Uno di loro, Shira Banki, è morto in ospedale. Ha detto che aveva fatto la volontà di Dio quando ha pugnalato le sue vittime. All'epoca aveva appena terminato un periodo di 10 anni per un attacco simile nel 2005. Alla condanna del mese scorso la corte ha criticato la polizia, dicendo che avevano saputo che Schlissel aveva presentato il pericolo ma non ha agito correttamente. L'evento Gay Pride a Gerusalemme è stata a lu...</code> | <code>La polizia israeliana ha accusato un ebreo ultra ortodosso anti-gay carcerato di aver pianificato un altro attacco all'annuale marcia del Gay Pride di Gerusalemme dalla sua cella.</code> |
|
| 226 |
+
| <code>Nelle ultime 24 ore in Italia sono stati rilevati 5.193 casi positivi da coronavirus e 57 morti a causa della COVID-19. Attualmente i ricoverati sono 4.664 (48 in meno di ieri), di cui 547 nei reparti di terapia intensiva (1 La storia di uno dei delitti più noti e violenti degli anni Settanta, al centro del film tratto da “La scuola cattolica” di Edoardo Albinati</code> | <code>“Un atto doveroso”. Fare Futuro spiega il voto dei finiani sulla retroattività del lodo Alfano.</code> |
|
| 227 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
| 228 |
+
```json
|
| 229 |
+
{
|
| 230 |
+
"loss": "CachedMultipleNegativesRankingLoss",
|
| 231 |
+
"matryoshka_dims": [
|
| 232 |
+
2048,
|
| 233 |
+
1024,
|
| 234 |
+
512,
|
| 235 |
+
256,
|
| 236 |
+
128,
|
| 237 |
+
64
|
| 238 |
+
],
|
| 239 |
+
"matryoshka_weights": [
|
| 240 |
+
1,
|
| 241 |
+
1,
|
| 242 |
+
1,
|
| 243 |
+
1,
|
| 244 |
+
1,
|
| 245 |
+
1
|
| 246 |
+
],
|
| 247 |
+
"n_dims_per_step": -1
|
| 248 |
+
}
|
| 249 |
+
```
|
| 250 |
+
</details>
|
| 251 |
+
<details><summary>wikipediaQA-ita</summary>
|
| 252 |
+
|
| 253 |
+
#### wikipediaQA-ita
|
| 254 |
+
|
| 255 |
+
* Dataset: [wikipediaQA-ita](https://huggingface.co/datasets/ReDiX/wikipediaQA-ita) at [2b6bf8f](https://huggingface.co/datasets/ReDiX/wikipediaQA-ita/tree/2b6bf8ffd3662718a85ed6733e6ebefd02273142)
|
| 256 |
+
* Size: 105,480 training samples
|
| 257 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
| 258 |
+
* Approximate statistics based on the first 1000 samples:
|
| 259 |
+
| | anchor | positive |
|
| 260 |
+
|:--------|:---------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
| 261 |
+
| type | string | string |
|
| 262 |
+
| details | <ul><li>min: 5 tokens</li><li>mean: 13.5 tokens</li><li>max: 35 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 120.08 tokens</li><li>max: 256 tokens</li></ul> |
|
| 263 |
+
* Samples:
|
| 264 |
+
| anchor | positive |
|
| 265 |
+
|:----------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 266 |
+
| <code>Cosa è un organo a pompa?</code> | <code>Lorgano a pompa è un tipo di organo a serbatoio d'aria costituito da una (o più) tastiera, manuale, e da due pedali per azionare i mantici per l'aria. Nella classificazione Hornbostel-Sachs, rientra nella famiglia denominata "serie di aerofoni ad ancia libera" (codice 412.132), poiché il suono che esso produce è dovuto a delle ance. Ci sono due differenti tipi di organi a pompa: l'organo ad aria compressa (lharmonium francese), meglio noto come armonium o armonio; l'organo ad aria aspirata (il (suction) reed organ americano). Armonium occidentale Col termine italiano armonium si comprendono due differenti tipi di strumento: quello ad aria</code> |
|
| 267 |
+
| <code>In quale famiglia di aerofoni ad ancia libera rientra l'organo a pompa?</code> | <code>Lorgano a pompa è un tipo di organo a serbatoio d'aria costituito da una (o più) tastiera, manuale, e da due pedali per azionare i mantici per l'aria. Nella classificazione Hornbostel-Sachs, rientra nella famiglia denominata "serie di aerofoni ad ancia libera" (codice 412.132), poiché il suono che esso produce è dovuto a delle ance. Ci sono due differenti tipi di organi a pompa: l'organo ad aria compressa (lharmonium francese), meglio noto come armonium o armonio; l'organo ad aria aspirata (il (suction) reed organ americano). Armonium occidentale Col termine italiano armonium si comprendono due differenti tipi di strumento: quello ad aria</code> |
|
| 268 |
+
| <code>Ci sono due tipi di organi a pompa: l'organo ad aria compressa e l'organo ad aria aspirata. Quali sono i nomi comuni di questi due tipi di organi?</code> | <code>Lorgano a pompa è un tipo di organo a serbatoio d'aria costituito da una (o più) tastiera, manuale, e da due pedali per azionare i mantici per l'aria. Nella classificazione Hornbostel-Sachs, rientra nella famiglia denominata "serie di aerofoni ad ancia libera" (codice 412.132), poiché il suono che esso produce è dovuto a delle ance. Ci sono due differenti tipi di organi a pompa: l'organo ad aria compressa (lharmonium francese), meglio noto come armonium o armonio; l'organo ad aria aspirata (il (suction) reed organ americano). Armonium occidentale Col termine italiano armonium si comprendono due differenti tipi di strumento: quello ad aria</code> |
|
| 269 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
| 270 |
+
```json
|
| 271 |
+
{
|
| 272 |
+
"loss": "CachedMultipleNegativesRankingLoss",
|
| 273 |
+
"matryoshka_dims": [
|
| 274 |
+
2048,
|
| 275 |
+
1024,
|
| 276 |
+
512,
|
| 277 |
+
256,
|
| 278 |
+
128,
|
| 279 |
+
64
|
| 280 |
+
],
|
| 281 |
+
"matryoshka_weights": [
|
| 282 |
+
1,
|
| 283 |
+
1,
|
| 284 |
+
1,
|
| 285 |
+
1,
|
| 286 |
+
1,
|
| 287 |
+
1
|
| 288 |
+
],
|
| 289 |
+
"n_dims_per_step": -1
|
| 290 |
+
}
|
| 291 |
+
```
|
| 292 |
+
</details>
|
| 293 |
+
<details><summary>QA-ita-200k</summary>
|
| 294 |
+
|
| 295 |
+
#### QA-ita-200k
|
| 296 |
+
|
| 297 |
+
* Dataset: [QA-ita-200k](https://huggingface.co/datasets/ReDiX/QA-ita-200k) at [9c81a42](https://huggingface.co/datasets/ReDiX/QA-ita-200k/tree/9c81a421858246827fbf13d612ec1e1527823538)
|
| 298 |
+
* Size: 225,953 training samples
|
| 299 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
| 300 |
+
* Approximate statistics based on the first 1000 samples:
|
| 301 |
+
| | anchor | positive |
|
| 302 |
+
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
| 303 |
+
| type | string | string |
|
| 304 |
+
| details | <ul><li>min: 7 tokens</li><li>mean: 17.48 tokens</li><li>max: 47 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 121.62 tokens</li><li>max: 256 tokens</li></ul> |
|
| 305 |
+
* Samples:
|
| 306 |
+
| anchor | positive |
|
| 307 |
+
|:--------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 308 |
+
| <code>In quale stato del Brasile si trova il comune di Juruá?</code> | <code>Juruá<br>Juruá è un comune del Brasile nello Stato dell'Amazonas, parte della mesoregione di Sudoeste Amazonense e della microregione di Juruá.<br><br>Note<br><br>Altri progetti<br><br>Comuni dell'Amazonas (Brasile)</code> |
|
| 309 |
+
| <code>Quali sono le posizioni geografiche mesoregionale e microregionale in cui si trova il comune di Juruá?</code> | <code>Juruá<br>Juruá è un comune del Brasile nello Stato dell'Amazonas, parte della mesoregione di Sudoeste Amazonense e della microregione di Juruá.<br><br>Note<br><br>Altri progetti<br><br>Comuni dell'Amazonas (Brasile)</code> |
|
| 310 |
+
| <code>Luca Blasetti ha giocato per quale squadra durante la sua prima stagione in massima serie?</code> | <code>Luca Blasetti<br><br><br>Carriera <br>Blasetti è cresciuto nelle giovanili della Sebastiani Rieti, squadra della propria città natale. Ha esordito in massima serie nella stagione 1976-77; dopo una stagione in prestito alla Minervini nel 1978-79, è ritornato alla Sebastiani.<br><br>Nel 1982 viene convocato in Nazionale dal coach Alessandro Gamba, per la sfida contro una selezione di All Stars del campionato italiano. Sarà la sua unica presenza in azzurro; mise a referto 8 punti.<br><br>Nel 1984 ha deciso a sorpresa di abbandonare l'attività agonistica, e di ritirarsi in un convento dei frati francescani per prendere i voti. Ha vissuto in convento quattro anni, e successivamente ha deciso di abbandonare l'Ordine.<br><br>Tra il 2007 ed il 2009 ha disputato il campionato italiano di pallacanestro in carrozzina da normodotato, nella società A Ruota Libera, in Serie B.<br><br>Palmarès<br><br>Sebastiani Rieti: 1979-80<br><br>Bibliografia<br><br>Collegamenti esterni <br><br>Cestisti della Nazionale italiana</code> |
|
| 311 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
| 312 |
+
```json
|
| 313 |
+
{
|
| 314 |
+
"loss": "CachedMultipleNegativesRankingLoss",
|
| 315 |
+
"matryoshka_dims": [
|
| 316 |
+
2048,
|
| 317 |
+
1024,
|
| 318 |
+
512,
|
| 319 |
+
256,
|
| 320 |
+
128,
|
| 321 |
+
64
|
| 322 |
+
],
|
| 323 |
+
"matryoshka_weights": [
|
| 324 |
+
1,
|
| 325 |
+
1,
|
| 326 |
+
1,
|
| 327 |
+
1,
|
| 328 |
+
1,
|
| 329 |
+
1
|
| 330 |
+
],
|
| 331 |
+
"n_dims_per_step": -1
|
| 332 |
+
}
|
| 333 |
+
```
|
| 334 |
+
</details>
|
| 335 |
+
<details><summary>change-it</summary>
|
| 336 |
+
|
| 337 |
+
#### change-it
|
| 338 |
+
|
| 339 |
+
* Dataset: [change-it](https://huggingface.co/datasets/MattiaSangermano/change-it) at [df900d3](https://huggingface.co/datasets/MattiaSangermano/change-it/tree/df900d3e6e9664fe725069d67aca1e604b827069)
|
| 340 |
+
* Size: 18,802 training samples
|
| 341 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
| 342 |
+
* Approximate statistics based on the first 1000 samples:
|
| 343 |
+
| | anchor | positive |
|
| 344 |
+
|:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
|
| 345 |
+
| type | string | string |
|
| 346 |
+
| details | <ul><li>min: 3 tokens</li><li>mean: 15.14 tokens</li><li>max: 29 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 193.08 tokens</li><li>max: 256 tokens</li></ul> |
|
| 347 |
+
* Samples:
|
| 348 |
+
| anchor | positive |
|
| 349 |
+
|:------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 350 |
+
| <code>Cile, arrivata la prima "capsula" che salverà i minatori dall'incubo</code> | <code>Copiapo - La capsula di metallo, che riporterà in superficie i 33 minatori intrappolati in Cile, è arrivata sul posto. La cassa cilindrica, la prima delle tre costruite dai cantieri navali della Marina Militare cilena, ha 55-60 cm di diametro e una porta grigliata per l’accesso del minatore. Il salvataggio, che comincerà al più presto ai primi di novembre, durerà almeno un’ora e mezza per ciascun minatore. Intanto il governo ha fatto sapere che, prima di riportare in superficie gli operai, saranno calati all’intErno della miniera almeno due persone, un medico e un infermiere, per preparare i minatori al ritorno alla luce.</code> |
|
| 351 |
+
| <code>Bomba a Bangkok, il sospettato: "Ho dato uno zainetto all'attentatore"</code> | <code>Il principale sospettato per l'attentato dello scorso 17 agosto al santuario Erawan di Bangkok ha detto di aver consegnato uno zainetto all'attentatore prima dell'esplosione.</code> |
|
| 352 |
+
| <code>Cane cade in un dirupo e abbaia per tre giorni, è salvo</code> | <code>Brutta disavventura per un cane meticcio dal manto nero: il piccolo era caduto in un dirupo profondo 40 metri nei pressi di Lenno, vicino a Como . Impossibilitato a risalire, aveva abbaiato con costanza per tre giorni e tre notti. Alcuni abitanti del luogo, insospettiti dai lamenti continui, hanno quindi provveduto ad allertare prontamente i soccorsi. Sul posto sono giunti gli uomini del Cai e quelli del servizio Como Soccorso Veterinario che, con cura e attenzione, hanno individuato il quadrupede per poi calarsi nella scarpata. Con il supporto reciproco e il sostegno di alcune funi hanno riportato l’animale in superficie e finalmente in salvo. Il cucciolone è apparso affamato, disidratato e giustamente impaurito ma in buone condizioni. I veterinari si sono subito occupati di lui nutrendolo a dovere, quindi valutando la sua condizione fisica dopo la caduta. Affidato all’Asl di zona, verrà sottoposto alla lettura del microchip , così da individuare il legittimo proprietario e riconsegna...</code> |
|
| 353 |
+
* Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
|
| 354 |
+
```json
|
| 355 |
+
{
|
| 356 |
+
"loss": "CachedMultipleNegativesRankingLoss",
|
| 357 |
+
"matryoshka_dims": [
|
| 358 |
+
2048,
|
| 359 |
+
1024,
|
| 360 |
+
512,
|
| 361 |
+
256,
|
| 362 |
+
128,
|
| 363 |
+
64
|
| 364 |
+
],
|
| 365 |
+
"matryoshka_weights": [
|
| 366 |
+
1,
|
| 367 |
+
1,
|
| 368 |
+
1,
|
| 369 |
+
1,
|
| 370 |
+
1,
|
| 371 |
+
1
|
| 372 |
+
],
|
| 373 |
+
"n_dims_per_step": -1
|
| 374 |
+
}
|
| 375 |
+
```
|
| 376 |
+
</details>
|
| 377 |
+
|
| 378 |
+
### Training Hyperparameters
|
| 379 |
+
#### Non-Default Hyperparameters
|
| 380 |
+
|
| 381 |
+
- `per_device_train_batch_size`: 256
|
| 382 |
+
- `per_device_eval_batch_size`: 512
|
| 383 |
+
- `learning_rate`: 0.0001
|
| 384 |
+
- `num_train_epochs`: 2
|
| 385 |
+
- `lr_scheduler_type`: cosine
|
| 386 |
+
- `seed`: 17
|
| 387 |
+
- `data_seed`: 17
|
| 388 |
+
- `bf16`: True
|
| 389 |
+
- `optim`: ademamix_8bit
|
| 390 |
+
- `batch_sampler`: no_duplicates
|
| 391 |
+
|
| 392 |
+
#### All Hyperparameters
|
| 393 |
+
<details><summary>Click to expand</summary>
|
| 394 |
+
|
| 395 |
+
- `overwrite_output_dir`: False
|
| 396 |
+
- `do_predict`: False
|
| 397 |
+
- `eval_strategy`: no
|
| 398 |
+
- `prediction_loss_only`: True
|
| 399 |
+
- `per_device_train_batch_size`: 256
|
| 400 |
+
- `per_device_eval_batch_size`: 512
|
| 401 |
+
- `per_gpu_train_batch_size`: None
|
| 402 |
+
- `per_gpu_eval_batch_size`: None
|
| 403 |
+
- `gradient_accumulation_steps`: 1
|
| 404 |
+
- `eval_accumulation_steps`: None
|
| 405 |
+
- `torch_empty_cache_steps`: None
|
| 406 |
+
- `learning_rate`: 0.0001
|
| 407 |
+
- `weight_decay`: 0.0
|
| 408 |
+
- `adam_beta1`: 0.9
|
| 409 |
+
- `adam_beta2`: 0.999
|
| 410 |
+
- `adam_epsilon`: 1e-08
|
| 411 |
+
- `max_grad_norm`: 1.0
|
| 412 |
+
- `num_train_epochs`: 2
|
| 413 |
+
- `max_steps`: -1
|
| 414 |
+
- `lr_scheduler_type`: cosine
|
| 415 |
+
- `lr_scheduler_kwargs`: {}
|
| 416 |
+
- `warmup_ratio`: 0.0
|
| 417 |
+
- `warmup_steps`: 0
|
| 418 |
+
- `log_level`: passive
|
| 419 |
+
- `log_level_replica`: warning
|
| 420 |
+
- `log_on_each_node`: True
|
| 421 |
+
- `logging_nan_inf_filter`: True
|
| 422 |
+
- `save_safetensors`: True
|
| 423 |
+
- `save_on_each_node`: False
|
| 424 |
+
- `save_only_model`: False
|
| 425 |
+
- `restore_callback_states_from_checkpoint`: False
|
| 426 |
+
- `no_cuda`: False
|
| 427 |
+
- `use_cpu`: False
|
| 428 |
+
- `use_mps_device`: False
|
| 429 |
+
- `seed`: 17
|
| 430 |
+
- `data_seed`: 17
|
| 431 |
+
- `jit_mode_eval`: False
|
| 432 |
+
- `use_ipex`: False
|
| 433 |
+
- `bf16`: True
|
| 434 |
+
- `fp16`: False
|
| 435 |
+
- `fp16_opt_level`: O1
|
| 436 |
+
- `half_precision_backend`: auto
|
| 437 |
+
- `bf16_full_eval`: False
|
| 438 |
+
- `fp16_full_eval`: False
|
| 439 |
+
- `tf32`: None
|
| 440 |
+
- `local_rank`: 0
|
| 441 |
+
- `ddp_backend`: None
|
| 442 |
+
- `tpu_num_cores`: None
|
| 443 |
+
- `tpu_metrics_debug`: False
|
| 444 |
+
- `debug`: []
|
| 445 |
+
- `dataloader_drop_last`: False
|
| 446 |
+
- `dataloader_num_workers`: 0
|
| 447 |
+
- `dataloader_prefetch_factor`: None
|
| 448 |
+
- `past_index`: -1
|
| 449 |
+
- `disable_tqdm`: False
|
| 450 |
+
- `remove_unused_columns`: True
|
| 451 |
+
- `label_names`: None
|
| 452 |
+
- `load_best_model_at_end`: False
|
| 453 |
+
- `ignore_data_skip`: False
|
| 454 |
+
- `fsdp`: []
|
| 455 |
+
- `fsdp_min_num_params`: 0
|
| 456 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 457 |
+
- `tp_size`: 0
|
| 458 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 459 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 460 |
+
- `deepspeed`: None
|
| 461 |
+
- `label_smoothing_factor`: 0.0
|
| 462 |
+
- `optim`: ademamix_8bit
|
| 463 |
+
- `optim_args`: None
|
| 464 |
+
- `adafactor`: False
|
| 465 |
+
- `group_by_length`: False
|
| 466 |
+
- `length_column_name`: length
|
| 467 |
+
- `ddp_find_unused_parameters`: None
|
| 468 |
+
- `ddp_bucket_cap_mb`: None
|
| 469 |
+
- `ddp_broadcast_buffers`: False
|
| 470 |
+
- `dataloader_pin_memory`: True
|
| 471 |
+
- `dataloader_persistent_workers`: False
|
| 472 |
+
- `skip_memory_metrics`: True
|
| 473 |
+
- `use_legacy_prediction_loop`: False
|
| 474 |
+
- `push_to_hub`: False
|
| 475 |
+
- `resume_from_checkpoint`: None
|
| 476 |
+
- `hub_model_id`: None
|
| 477 |
+
- `hub_strategy`: every_save
|
| 478 |
+
- `hub_private_repo`: None
|
| 479 |
+
- `hub_always_push`: False
|
| 480 |
+
- `gradient_checkpointing`: False
|
| 481 |
+
- `gradient_checkpointing_kwargs`: None
|
| 482 |
+
- `include_inputs_for_metrics`: False
|
| 483 |
+
- `include_for_metrics`: []
|
| 484 |
+
- `eval_do_concat_batches`: True
|
| 485 |
+
- `fp16_backend`: auto
|
| 486 |
+
- `push_to_hub_model_id`: None
|
| 487 |
+
- `push_to_hub_organization`: None
|
| 488 |
+
- `mp_parameters`:
|
| 489 |
+
- `auto_find_batch_size`: False
|
| 490 |
+
- `full_determinism`: False
|
| 491 |
+
- `torchdynamo`: None
|
| 492 |
+
- `ray_scope`: last
|
| 493 |
+
- `ddp_timeout`: 1800
|
| 494 |
+
- `torch_compile`: False
|
| 495 |
+
- `torch_compile_backend`: None
|
| 496 |
+
- `torch_compile_mode`: None
|
| 497 |
+
- `include_tokens_per_second`: False
|
| 498 |
+
- `include_num_input_tokens_seen`: False
|
| 499 |
+
- `neftune_noise_alpha`: None
|
| 500 |
+
- `optim_target_modules`: None
|
| 501 |
+
- `batch_eval_metrics`: False
|
| 502 |
+
- `eval_on_start`: False
|
| 503 |
+
- `use_liger_kernel`: False
|
| 504 |
+
- `eval_use_gather_object`: False
|
| 505 |
+
- `average_tokens_across_devices`: False
|
| 506 |
+
- `prompts`: None
|
| 507 |
+
- `batch_sampler`: no_duplicates
|
| 508 |
+
- `multi_dataset_batch_sampler`: proportional
|
| 509 |
+
|
| 510 |
+
</details>
|
| 511 |
+
|
| 512 |
+
### Framework Versions
|
| 513 |
+
- Python: 3.12.8
|
| 514 |
+
- Sentence Transformers: 4.0.2
|
| 515 |
+
- Transformers: 4.51.2
|
| 516 |
+
- PyTorch: 2.6.0+cu124
|
| 517 |
+
- Accelerate: 1.6.0
|
| 518 |
+
- Datasets: 3.5.0
|
| 519 |
+
- Tokenizers: 0.21.1
|
| 520 |
+
|
| 521 |
+
## Citation
|
| 522 |
+
|
| 523 |
+
### BibTeX
|
| 524 |
+
|
| 525 |
+
#### Sentence Transformers
|
| 526 |
+
```bibtex
|
| 527 |
+
@inproceedings{reimers-2019-sentence-bert,
|
| 528 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 529 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
| 530 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 531 |
+
month = "11",
|
| 532 |
+
year = "2019",
|
| 533 |
+
publisher = "Association for Computational Linguistics",
|
| 534 |
+
url = "https://arxiv.org/abs/1908.10084",
|
| 535 |
+
}
|
| 536 |
+
```
|
| 537 |
+
|
| 538 |
+
#### MatryoshkaLoss
|
| 539 |
+
```bibtex
|
| 540 |
+
@misc{kusupati2024matryoshka,
|
| 541 |
+
title={Matryoshka Representation Learning},
|
| 542 |
+
author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
|
| 543 |
+
year={2024},
|
| 544 |
+
eprint={2205.13147},
|
| 545 |
+
archivePrefix={arXiv},
|
| 546 |
+
primaryClass={cs.LG}
|
| 547 |
+
}
|
| 548 |
+
```
|
| 549 |
+
|
| 550 |
+
#### CachedMultipleNegativesRankingLoss
|
| 551 |
+
```bibtex
|
| 552 |
+
@misc{gao2021scaling,
|
| 553 |
+
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
|
| 554 |
+
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
|
| 555 |
+
year={2021},
|
| 556 |
+
eprint={2101.06983},
|
| 557 |
+
archivePrefix={arXiv},
|
| 558 |
+
primaryClass={cs.LG}
|
| 559 |
+
}
|
| 560 |
+
```
|
| 561 |
+
|
| 562 |
+
<!--
|
| 563 |
+
## Glossary
|
| 564 |
+
|
| 565 |
+
*Clearly define terms in order to be accessible across audiences.*
|
| 566 |
+
-->
|
| 567 |
+
|
| 568 |
+
<!--
|
| 569 |
+
## Model Card Authors
|
| 570 |
+
|
| 571 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 572 |
+
-->
|
| 573 |
+
|
| 574 |
+
<!--
|
| 575 |
+
## Model Card Contact
|
| 576 |
+
|
| 577 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
| 578 |
+
-->
|
config.json
ADDED
|
@@ -0,0 +1,26 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"MistralModel"
|
| 4 |
+
],
|
| 5 |
+
"attention_dropout": 0.0,
|
| 6 |
+
"bos_token_id": 1,
|
| 7 |
+
"eos_token_id": 2,
|
| 8 |
+
"head_dim": 64,
|
| 9 |
+
"hidden_act": "silu",
|
| 10 |
+
"hidden_size": 2048,
|
| 11 |
+
"initializer_range": 0.02,
|
| 12 |
+
"intermediate_size": 8192,
|
| 13 |
+
"max_position_embeddings": 32768,
|
| 14 |
+
"model_type": "mistral",
|
| 15 |
+
"num_attention_heads": 32,
|
| 16 |
+
"num_hidden_layers": 28,
|
| 17 |
+
"num_key_value_heads": 8,
|
| 18 |
+
"rms_norm_eps": 1e-05,
|
| 19 |
+
"rope_theta": 100000.0,
|
| 20 |
+
"sliding_window": null,
|
| 21 |
+
"tie_word_embeddings": false,
|
| 22 |
+
"torch_dtype": "bfloat16",
|
| 23 |
+
"transformers_version": "4.51.2",
|
| 24 |
+
"use_cache": false,
|
| 25 |
+
"vocab_size": 126976
|
| 26 |
+
}
|
config_sentence_transformers.json
ADDED
|
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"__version__": {
|
| 3 |
+
"sentence_transformers": "4.0.2",
|
| 4 |
+
"transformers": "4.51.2",
|
| 5 |
+
"pytorch": "2.6.0+cu124"
|
| 6 |
+
},
|
| 7 |
+
"prompts": {},
|
| 8 |
+
"default_prompt_name": null,
|
| 9 |
+
"similarity_fn_name": "cosine"
|
| 10 |
+
}
|
model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:3208a8477fcf317b239c3939f2d67592a0435656b075c30281d52d9eab4b1186
|
| 3 |
+
size 3926129848
|
modules.json
ADDED
|
@@ -0,0 +1,20 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
[
|
| 2 |
+
{
|
| 3 |
+
"idx": 0,
|
| 4 |
+
"name": "0",
|
| 5 |
+
"path": "",
|
| 6 |
+
"type": "sentence_transformers.models.Transformer"
|
| 7 |
+
},
|
| 8 |
+
{
|
| 9 |
+
"idx": 1,
|
| 10 |
+
"name": "1",
|
| 11 |
+
"path": "1_Pooling",
|
| 12 |
+
"type": "sentence_transformers.models.Pooling"
|
| 13 |
+
},
|
| 14 |
+
{
|
| 15 |
+
"idx": 2,
|
| 16 |
+
"name": "2",
|
| 17 |
+
"path": "2_Normalize",
|
| 18 |
+
"type": "sentence_transformers.models.Normalize"
|
| 19 |
+
}
|
| 20 |
+
]
|
sentence_bert_config.json
ADDED
|
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"max_seq_length": 32768,
|
| 3 |
+
"do_lower_case": false
|
| 4 |
+
}
|
special_tokens_map.json
ADDED
|
@@ -0,0 +1,30 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"bos_token": {
|
| 3 |
+
"content": "<s>",
|
| 4 |
+
"lstrip": false,
|
| 5 |
+
"normalized": false,
|
| 6 |
+
"rstrip": false,
|
| 7 |
+
"single_word": false
|
| 8 |
+
},
|
| 9 |
+
"eos_token": {
|
| 10 |
+
"content": "</s>",
|
| 11 |
+
"lstrip": false,
|
| 12 |
+
"normalized": false,
|
| 13 |
+
"rstrip": false,
|
| 14 |
+
"single_word": false
|
| 15 |
+
},
|
| 16 |
+
"pad_token": {
|
| 17 |
+
"content": "<pad>",
|
| 18 |
+
"lstrip": false,
|
| 19 |
+
"normalized": false,
|
| 20 |
+
"rstrip": false,
|
| 21 |
+
"single_word": false
|
| 22 |
+
},
|
| 23 |
+
"unk_token": {
|
| 24 |
+
"content": "<unk>",
|
| 25 |
+
"lstrip": false,
|
| 26 |
+
"normalized": false,
|
| 27 |
+
"rstrip": false,
|
| 28 |
+
"single_word": false
|
| 29 |
+
}
|
| 30 |
+
}
|
tokenizer.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
tokenizer_config.json
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|