ancc commited on
Commit
36d86fc
·
verified ·
1 Parent(s): 93d5e8f

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 2048,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": false,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": true,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,578 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ language:
3
+ - it
4
+ tags:
5
+ - sentence-transformers
6
+ - sentence-similarity
7
+ - feature-extraction
8
+ - generated_from_trainer
9
+ - dataset_size:319227
10
+ - loss:MatryoshkaLoss
11
+ - loss:CachedMultipleNegativesRankingLoss
12
+ - dataset_size:733474
13
+ base_model: Almawave/Velvet-2B
14
+ widget:
15
+ - source_sentence: 'Jovanotti torna con Fuorionda : ma come fa a inventarsene sempre
16
+ una?'
17
+ sentences:
18
+ - 'Migros Ticino: «Non vediamo segni di ripresa, ma puntiamo su investimenti e nuove
19
+ aperture'
20
+ - 'Jovanotti canta i “Fuorionda” della vita: “Andiamo avanti, siamo sempre all’inizio
21
+ di qualcosa”'
22
+ - 'WTA Indian Wells, Swiatek: "Ci sono vari modi di sfruttare il vento"'
23
+ - source_sentence: Economia umbra debole, crescita inferiore rispetto al resto del
24
+ paese
25
+ sentences:
26
+ - 'Chi sono i “maranza” che vogliono invadere il sud Italia. Don Alì: «Faremo un
27
+ macello». Controlli rafforzati a Napoli. Avvertito ministro Piantedosi'
28
+ - 'Incendi California, Los Angeles conta i danni: da Lady Gaga a Sting, le star
29
+ in concerto per le vittime'
30
+ - N. 32 - L'economia dell' UmbriaAggiornamento congiunturale
31
+ - source_sentence: 'Olio di oliva: il prezzo sale ancora. Si tratta di "oro verde"
32
+ ormai'
33
+ sentences:
34
+ - '"Il Governo taglia il fondo dell''Automotive, la Regione intervenga con l''area
35
+ di crisi nel Vastese"'
36
+ - G7, Coldiretti, arriva l'olio nuovo ma la produzione cala per siccità (-32%)
37
+ - Il Campus Bio Medico di Roma apre un servizio gratuito di estetica oncologica
38
+ - source_sentence: 'Pensioni febbraio, quando arrivano i pagamenti? Cedolino e nuovi
39
+ importi dell''assegno con la rivalutazione: cosa sappiamo. Versamenti da oggi'
40
+ sentences:
41
+ - 'Bonus fiscali 2024 per la casa: la guida del Notariato'
42
+ - Cedolino pensione febbraio 2024, sul portale INPS i dati sulle trattenute IRPEF
43
+ - Stratega di Wall Street indica tre possibili scenari per i dazi
44
+ - source_sentence: 'Sciopero treni-aerei martedì 8 e mercoledì 9: chi si ferma e le
45
+ fasce di garanzia'
46
+ sentences:
47
+ - 'Il gusto del 2024 in casa Massari: «Dolce, salato e progetti: Roma, arriviamo»'
48
+ - Claudio Baglioni, ultimo concerto al Palasele di Eboli prima del ritiro
49
+ - Sciopero Trenitalia e aerei, confermato il 9 aprile. Sciopero treni 11 aprile
50
+ datasets:
51
+ - efederici/autonlp-data-Ita-Summarization
52
+ - ReDiX/wikipediaQA-ita
53
+ - ReDiX/QA-ita-200k
54
+ - MattiaSangermano/change-it
55
+ pipeline_tag: sentence-similarity
56
+ library_name: sentence-transformers
57
+ ---
58
+
59
+ # SentenceTransformer based on Almawave/Velvet-2B
60
+
61
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [Almawave/Velvet-2B](https://huggingface.co/Almawave/Velvet-2B) on the news, [autonlp-data-Ita-Summarization](https://huggingface.co/datasets/efederici/autonlp-data-Ita-Summarization), [wikipediaQA-ita](https://huggingface.co/datasets/ReDiX/wikipediaQA-ita), [QA-ita-200k](https://huggingface.co/datasets/ReDiX/QA-ita-200k) and [change-it](https://huggingface.co/datasets/MattiaSangermano/change-it) datasets. It maps sentences & paragraphs to a 2048-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
62
+
63
+ ## Model Details
64
+
65
+ ### Model Description
66
+ - **Model Type:** Sentence Transformer
67
+ - **Base model:** [Almawave/Velvet-2B](https://huggingface.co/Almawave/Velvet-2B) <!-- at revision 3d207a3421d090485dedbd5470b79883c63d2184 -->
68
+ - **Maximum Sequence Length:** 32768 tokens
69
+ - **Output Dimensionality:** 2048 dimensions
70
+ - **Similarity Function:** Cosine Similarity
71
+ - **Training Datasets:**
72
+ - news
73
+ - [autonlp-data-Ita-Summarization](https://huggingface.co/datasets/efederici/autonlp-data-Ita-Summarization)
74
+ - [wikipediaQA-ita](https://huggingface.co/datasets/ReDiX/wikipediaQA-ita)
75
+ - [QA-ita-200k](https://huggingface.co/datasets/ReDiX/QA-ita-200k)
76
+ - [change-it](https://huggingface.co/datasets/MattiaSangermano/change-it)
77
+ - **Language:** it
78
+ <!-- - **License:** Unknown -->
79
+
80
+ ### Model Sources
81
+
82
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
83
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
84
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
85
+
86
+ ### Full Model Architecture
87
+
88
+ ```
89
+ SentenceTransformer(
90
+ (0): Transformer({'max_seq_length': 32768, 'do_lower_case': False}) with Transformer model: MistralModel
91
+ (1): Pooling({'word_embedding_dimension': 2048, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': False, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': True, 'include_prompt': True})
92
+ (2): Normalize()
93
+ )
94
+ ```
95
+
96
+ ## Usage
97
+
98
+ ### Direct Usage (Sentence Transformers)
99
+
100
+ First install the Sentence Transformers library:
101
+
102
+ ```bash
103
+ pip install -U sentence-transformers
104
+ ```
105
+
106
+ Then you can load this model and run inference.
107
+ ```python
108
+ from sentence_transformers import SentenceTransformer
109
+
110
+ # Download from the 🤗 Hub
111
+ model = SentenceTransformer("ancc/Velvet-2B-Embedding-1004")
112
+ # Run inference
113
+ sentences = [
114
+ 'Sciopero treni-aerei martedì 8 e mercoledì 9: chi si ferma e le fasce di garanzia',
115
+ 'Sciopero Trenitalia e aerei, confermato il 9 aprile. Sciopero treni 11 aprile',
116
+ 'Il gusto del 2024 in casa Massari: «Dolce, salato e progetti: Roma, arriviamo»',
117
+ ]
118
+ embeddings = model.encode(sentences)
119
+ print(embeddings.shape)
120
+ # [3, 2048]
121
+
122
+ # Get the similarity scores for the embeddings
123
+ similarities = model.similarity(embeddings, embeddings)
124
+ print(similarities.shape)
125
+ # [3, 3]
126
+ ```
127
+
128
+ <!--
129
+ ### Direct Usage (Transformers)
130
+
131
+ <details><summary>Click to see the direct usage in Transformers</summary>
132
+
133
+ </details>
134
+ -->
135
+
136
+ <!--
137
+ ### Downstream Usage (Sentence Transformers)
138
+
139
+ You can finetune this model on your own dataset.
140
+
141
+ <details><summary>Click to expand</summary>
142
+
143
+ </details>
144
+ -->
145
+
146
+ <!--
147
+ ### Out-of-Scope Use
148
+
149
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
150
+ -->
151
+
152
+ <!--
153
+ ## Bias, Risks and Limitations
154
+
155
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
156
+ -->
157
+
158
+ <!--
159
+ ### Recommendations
160
+
161
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
162
+ -->
163
+
164
+ ## Training Details
165
+
166
+ ### Training Datasets
167
+ <details><summary>news</summary>
168
+
169
+ #### news
170
+
171
+ * Dataset: news
172
+ * Size: 319,227 training samples
173
+ * Columns: <code>anchor</code> and <code>positive</code>
174
+ * Approximate statistics based on the first 1000 samples:
175
+ | | anchor | positive |
176
+ |:--------|:----------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
177
+ | type | string | string |
178
+ | details | <ul><li>min: 4 tokens</li><li>mean: 18.97 tokens</li><li>max: 56 tokens</li></ul> | <ul><li>min: 4 tokens</li><li>mean: 19.45 tokens</li><li>max: 56 tokens</li></ul> |
179
+ * Samples:
180
+ | anchor | positive |
181
+ |:-----------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------|
182
+ | <code>Primi piatti: 6 ricette di Iginio Massari</code> | <code>Il gusto del 2024 in casa Massari. Gli auguri del patron Iginio ai nostri lettori</code> |
183
+ | <code>Primi piatti: 6 ricette di Iginio Massari</code> | <code>Il gusto del 2024 in casa Massari: «Dolce, salato e progetti: Roma, arriviamo»</code> |
184
+ | <code>Il gusto del 2024 in casa Massari. Gli auguri del patron Iginio ai nostri lettori</code> | <code>Il gusto del 2024 in casa Massari: «Dolce, salato e progetti: Roma, arriviamo»</code> |
185
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
186
+ ```json
187
+ {
188
+ "loss": "CachedMultipleNegativesRankingLoss",
189
+ "matryoshka_dims": [
190
+ 2048,
191
+ 1024,
192
+ 512,
193
+ 256,
194
+ 128,
195
+ 64
196
+ ],
197
+ "matryoshka_weights": [
198
+ 1,
199
+ 1,
200
+ 1,
201
+ 1,
202
+ 1,
203
+ 1
204
+ ],
205
+ "n_dims_per_step": -1
206
+ }
207
+ ```
208
+ </details>
209
+ <details><summary>autonlp-data-Ita-Summarization</summary>
210
+
211
+ #### autonlp-data-Ita-Summarization
212
+
213
+ * Dataset: [autonlp-data-Ita-Summarization](https://huggingface.co/datasets/efederici/autonlp-data-Ita-Summarization) at [8ef509f](https://huggingface.co/datasets/efederici/autonlp-data-Ita-Summarization/tree/8ef509f0f43ff199896007f0479636b71dacdf77)
214
+ * Size: 64,012 training samples
215
+ * Columns: <code>anchor</code> and <code>positive</code>
216
+ * Approximate statistics based on the first 1000 samples:
217
+ | | anchor | positive |
218
+ |:--------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
219
+ | type | string | string |
220
+ | details | <ul><li>min: 27 tokens</li><li>mean: 190.72 tokens</li><li>max: 256 tokens</li></ul> | <ul><li>min: 7 tokens</li><li>mean: 29.49 tokens</li><li>max: 79 tokens</li></ul> |
221
+ * Samples:
222
+ | anchor | positive |
223
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
224
+ | <code>Lo STB pagherà una multa di 340 milioni di dollari e accetterà che venga effettuato un monitoraggio permanente delle transazioni nella sua filiale a New York. La settimana scorsa i regolatori dello stato di New York hanno accusato la STB di nascondere miliardi di dollari in transazioni con l'Iran, penalizzate dalla legge statunitense. La banca ha accettato che alcune transazioni violassero il regime di sanzioni che Washington ha imposto a Teheran, anche se discute il numero di loro e l'importo coinvolto. Anche se le operazioni dello STB si concentrano sull'Asia, ha bisogno di mantenere una rappresentanza negli Stati Uniti per le sue operazioni internazionali. Altre notizie Filtrano foto intime di Kim Kardashian È tempo di dire addio all'email? Le misteriose esplosioni che scuotono le strade di Londra Come rendere virale la moda: Justin Bieber con pochi vestiti</code> | <code>La banca britannica Standard Chartered (STB) ha raggiunto un accordo con i regolatori finanziari di New York che le permetterà di mantenere le sue operazioni nello stato, chiave per il sistema bancario internazionale.</code> |
225
+ | <code>Yishai Schlissel, 40 anni, sta scontando l'ergastolo per aver ucciso una ragazza di 16 anni e accoltellato altre persone alla sfilata del 2015. Il fratello Michael è stato arrestato mercoledì e altri membri della famiglia sono stati fermati brevemente prima della sfilata, dicono i media israeliani. Le notizie del sospetto complotto sono arrivate ore prima dell'inizio della marcia di quest'anno. I media israeliani hanno detto che centinaia di poliziotti saranno in servizio per garantire la sua morte pacifica. Schlissel ha pugnalato sei persone durante la marcia del 2015. Uno di loro, Shira Banki, è morto in ospedale. Ha detto che aveva fatto la volontà di Dio quando ha pugnalato le sue vittime. All'epoca aveva appena terminato un periodo di 10 anni per un attacco simile nel 2005. Alla condanna del mese scorso la corte ha criticato la polizia, dicendo che avevano saputo che Schlissel aveva presentato il pericolo ma non ha agito correttamente. L'evento Gay Pride a Gerusalemme è stata a lu...</code> | <code>La polizia israeliana ha accusato un ebreo ultra ortodosso anti-gay carcerato di aver pianificato un altro attacco all'annuale marcia del Gay Pride di Gerusalemme dalla sua cella.</code> |
226
+ | <code>Nelle ultime 24 ore in Italia sono stati rilevati 5.193 casi positivi da coronavirus e 57 morti a causa della COVID-19. Attualmente i ricoverati sono 4.664 (48 in meno di ieri), di cui 547 nei reparti di terapia intensiva (1 La storia di uno dei delitti più noti e violenti degli anni Settanta, al centro del film tratto da “La scuola cattolica” di Edoardo Albinati</code> | <code>“Un atto doveroso”. Fare Futuro spiega il voto dei finiani sulla retroattività del lodo Alfano.</code> |
227
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
228
+ ```json
229
+ {
230
+ "loss": "CachedMultipleNegativesRankingLoss",
231
+ "matryoshka_dims": [
232
+ 2048,
233
+ 1024,
234
+ 512,
235
+ 256,
236
+ 128,
237
+ 64
238
+ ],
239
+ "matryoshka_weights": [
240
+ 1,
241
+ 1,
242
+ 1,
243
+ 1,
244
+ 1,
245
+ 1
246
+ ],
247
+ "n_dims_per_step": -1
248
+ }
249
+ ```
250
+ </details>
251
+ <details><summary>wikipediaQA-ita</summary>
252
+
253
+ #### wikipediaQA-ita
254
+
255
+ * Dataset: [wikipediaQA-ita](https://huggingface.co/datasets/ReDiX/wikipediaQA-ita) at [2b6bf8f](https://huggingface.co/datasets/ReDiX/wikipediaQA-ita/tree/2b6bf8ffd3662718a85ed6733e6ebefd02273142)
256
+ * Size: 105,480 training samples
257
+ * Columns: <code>anchor</code> and <code>positive</code>
258
+ * Approximate statistics based on the first 1000 samples:
259
+ | | anchor | positive |
260
+ |:--------|:---------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
261
+ | type | string | string |
262
+ | details | <ul><li>min: 5 tokens</li><li>mean: 13.5 tokens</li><li>max: 35 tokens</li></ul> | <ul><li>min: 11 tokens</li><li>mean: 120.08 tokens</li><li>max: 256 tokens</li></ul> |
263
+ * Samples:
264
+ | anchor | positive |
265
+ |:----------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
266
+ | <code>Cosa è un organo a pompa?</code> | <code>Lorgano a pompa è un tipo di organo a serbatoio d'aria costituito da una (o più) tastiera, manuale, e da due pedali per azionare i mantici per l'aria. Nella classificazione Hornbostel-Sachs, rientra nella famiglia denominata "serie di aerofoni ad ancia libera" (codice 412.132), poiché il suono che esso produce è dovuto a delle ance. Ci sono due differenti tipi di organi a pompa: l'organo ad aria compressa (lharmonium francese), meglio noto come armonium o armonio; l'organo ad aria aspirata (il (suction) reed organ americano). Armonium occidentale Col termine italiano armonium si comprendono due differenti tipi di strumento: quello ad aria</code> |
267
+ | <code>In quale famiglia di aerofoni ad ancia libera rientra l'organo a pompa?</code> | <code>Lorgano a pompa è un tipo di organo a serbatoio d'aria costituito da una (o più) tastiera, manuale, e da due pedali per azionare i mantici per l'aria. Nella classificazione Hornbostel-Sachs, rientra nella famiglia denominata "serie di aerofoni ad ancia libera" (codice 412.132), poiché il suono che esso produce è dovuto a delle ance. Ci sono due differenti tipi di organi a pompa: l'organo ad aria compressa (lharmonium francese), meglio noto come armonium o armonio; l'organo ad aria aspirata (il (suction) reed organ americano). Armonium occidentale Col termine italiano armonium si comprendono due differenti tipi di strumento: quello ad aria</code> |
268
+ | <code>Ci sono due tipi di organi a pompa: l'organo ad aria compressa e l'organo ad aria aspirata. Quali sono i nomi comuni di questi due tipi di organi?</code> | <code>Lorgano a pompa è un tipo di organo a serbatoio d'aria costituito da una (o più) tastiera, manuale, e da due pedali per azionare i mantici per l'aria. Nella classificazione Hornbostel-Sachs, rientra nella famiglia denominata "serie di aerofoni ad ancia libera" (codice 412.132), poiché il suono che esso produce è dovuto a delle ance. Ci sono due differenti tipi di organi a pompa: l'organo ad aria compressa (lharmonium francese), meglio noto come armonium o armonio; l'organo ad aria aspirata (il (suction) reed organ americano). Armonium occidentale Col termine italiano armonium si comprendono due differenti tipi di strumento: quello ad aria</code> |
269
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
270
+ ```json
271
+ {
272
+ "loss": "CachedMultipleNegativesRankingLoss",
273
+ "matryoshka_dims": [
274
+ 2048,
275
+ 1024,
276
+ 512,
277
+ 256,
278
+ 128,
279
+ 64
280
+ ],
281
+ "matryoshka_weights": [
282
+ 1,
283
+ 1,
284
+ 1,
285
+ 1,
286
+ 1,
287
+ 1
288
+ ],
289
+ "n_dims_per_step": -1
290
+ }
291
+ ```
292
+ </details>
293
+ <details><summary>QA-ita-200k</summary>
294
+
295
+ #### QA-ita-200k
296
+
297
+ * Dataset: [QA-ita-200k](https://huggingface.co/datasets/ReDiX/QA-ita-200k) at [9c81a42](https://huggingface.co/datasets/ReDiX/QA-ita-200k/tree/9c81a421858246827fbf13d612ec1e1527823538)
298
+ * Size: 225,953 training samples
299
+ * Columns: <code>anchor</code> and <code>positive</code>
300
+ * Approximate statistics based on the first 1000 samples:
301
+ | | anchor | positive |
302
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
303
+ | type | string | string |
304
+ | details | <ul><li>min: 7 tokens</li><li>mean: 17.48 tokens</li><li>max: 47 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 121.62 tokens</li><li>max: 256 tokens</li></ul> |
305
+ * Samples:
306
+ | anchor | positive |
307
+ |:--------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
308
+ | <code>In quale stato del Brasile si trova il comune di Juruá?</code> | <code>Juruá<br>Juruá è un comune del Brasile nello Stato dell'Amazonas, parte della mesoregione di Sudoeste Amazonense e della microregione di Juruá.<br><br>Note<br><br>Altri progetti<br><br>Comuni dell'Amazonas (Brasile)</code> |
309
+ | <code>Quali sono le posizioni geografiche mesoregionale e microregionale in cui si trova il comune di Juruá?</code> | <code>Juruá<br>Juruá è un comune del Brasile nello Stato dell'Amazonas, parte della mesoregione di Sudoeste Amazonense e della microregione di Juruá.<br><br>Note<br><br>Altri progetti<br><br>Comuni dell'Amazonas (Brasile)</code> |
310
+ | <code>Luca Blasetti ha giocato per quale squadra durante la sua prima stagione in massima serie?</code> | <code>Luca Blasetti<br><br><br>Carriera <br>Blasetti è cresciuto nelle giovanili della Sebastiani Rieti, squadra della propria città natale. Ha esordito in massima serie nella stagione 1976-77; dopo una stagione in prestito alla Minervini nel 1978-79, è ritornato alla Sebastiani.<br><br>Nel 1982 viene convocato in Nazionale dal coach Alessandro Gamba, per la sfida contro una selezione di All Stars del campionato italiano. Sarà la sua unica presenza in azzurro; mise a referto 8 punti.<br><br>Nel 1984 ha deciso a sorpresa di abbandonare l'attività agonistica, e di ritirarsi in un convento dei frati francescani per prendere i voti. Ha vissuto in convento quattro anni, e successivamente ha deciso di abbandonare l'Ordine.<br><br>Tra il 2007 ed il 2009 ha disputato il campionato italiano di pallacanestro in carrozzina da normodotato, nella società A Ruota Libera, in Serie B.<br><br>Palmarès<br><br>Sebastiani Rieti: 1979-80<br><br>Bibliografia<br><br>Collegamenti esterni <br><br>Cestisti della Nazionale italiana</code> |
311
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
312
+ ```json
313
+ {
314
+ "loss": "CachedMultipleNegativesRankingLoss",
315
+ "matryoshka_dims": [
316
+ 2048,
317
+ 1024,
318
+ 512,
319
+ 256,
320
+ 128,
321
+ 64
322
+ ],
323
+ "matryoshka_weights": [
324
+ 1,
325
+ 1,
326
+ 1,
327
+ 1,
328
+ 1,
329
+ 1
330
+ ],
331
+ "n_dims_per_step": -1
332
+ }
333
+ ```
334
+ </details>
335
+ <details><summary>change-it</summary>
336
+
337
+ #### change-it
338
+
339
+ * Dataset: [change-it](https://huggingface.co/datasets/MattiaSangermano/change-it) at [df900d3](https://huggingface.co/datasets/MattiaSangermano/change-it/tree/df900d3e6e9664fe725069d67aca1e604b827069)
340
+ * Size: 18,802 training samples
341
+ * Columns: <code>anchor</code> and <code>positive</code>
342
+ * Approximate statistics based on the first 1000 samples:
343
+ | | anchor | positive |
344
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
345
+ | type | string | string |
346
+ | details | <ul><li>min: 3 tokens</li><li>mean: 15.14 tokens</li><li>max: 29 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 193.08 tokens</li><li>max: 256 tokens</li></ul> |
347
+ * Samples:
348
+ | anchor | positive |
349
+ |:------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
350
+ | <code>Cile, arrivata la prima "capsula" che salverà i minatori dall'incubo</code> | <code>Copiapo - La capsula di metallo, che riporterà in superficie i 33 minatori intrappolati in Cile, è arrivata sul posto. La cassa cilindrica, la prima delle tre costruite dai cantieri navali della Marina Militare cilena, ha 55-60 cm di diametro e una porta grigliata per l’accesso del minatore. Il salvataggio, che comincerà al più presto ai primi di novembre, durerà almeno un’ora e mezza per ciascun minatore. Intanto il governo ha fatto sapere che, prima di riportare in superficie gli operai, saranno calati all’intErno della miniera almeno due persone, un medico e un infermiere, per preparare i minatori al ritorno alla luce.</code> |
351
+ | <code>Bomba a Bangkok, il sospettato: "Ho dato uno zainetto all'attentatore"</code> | <code>Il principale sospettato per l'attentato dello scorso 17 agosto al santuario Erawan di Bangkok ha detto di aver consegnato uno zainetto all'attentatore prima dell'esplosione.</code> |
352
+ | <code>Cane cade in un dirupo e abbaia per tre giorni, è salvo</code> | <code>Brutta disavventura per un cane meticcio dal manto nero: il piccolo era caduto in un dirupo profondo 40 metri nei pressi di Lenno, vicino a Como . Impossibilitato a risalire, aveva abbaiato con costanza per tre giorni e tre notti. Alcuni abitanti del luogo, insospettiti dai lamenti continui, hanno quindi provveduto ad allertare prontamente i soccorsi. Sul posto sono giunti gli uomini del Cai e quelli del servizio Como Soccorso Veterinario che, con cura e attenzione, hanno individuato il quadrupede per poi calarsi nella scarpata. Con il supporto reciproco e il sostegno di alcune funi hanno riportato l’animale in superficie e finalmente in salvo. Il cucciolone è apparso affamato, disidratato e giustamente impaurito ma in buone condizioni. I veterinari si sono subito occupati di lui nutrendolo a dovere, quindi valutando la sua condizione fisica dopo la caduta. Affidato all’Asl di zona, verrà sottoposto alla lettura del microchip , così da individuare il legittimo proprietario e riconsegna...</code> |
353
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
354
+ ```json
355
+ {
356
+ "loss": "CachedMultipleNegativesRankingLoss",
357
+ "matryoshka_dims": [
358
+ 2048,
359
+ 1024,
360
+ 512,
361
+ 256,
362
+ 128,
363
+ 64
364
+ ],
365
+ "matryoshka_weights": [
366
+ 1,
367
+ 1,
368
+ 1,
369
+ 1,
370
+ 1,
371
+ 1
372
+ ],
373
+ "n_dims_per_step": -1
374
+ }
375
+ ```
376
+ </details>
377
+
378
+ ### Training Hyperparameters
379
+ #### Non-Default Hyperparameters
380
+
381
+ - `per_device_train_batch_size`: 256
382
+ - `per_device_eval_batch_size`: 512
383
+ - `learning_rate`: 0.0001
384
+ - `num_train_epochs`: 2
385
+ - `lr_scheduler_type`: cosine
386
+ - `seed`: 17
387
+ - `data_seed`: 17
388
+ - `bf16`: True
389
+ - `optim`: ademamix_8bit
390
+ - `batch_sampler`: no_duplicates
391
+
392
+ #### All Hyperparameters
393
+ <details><summary>Click to expand</summary>
394
+
395
+ - `overwrite_output_dir`: False
396
+ - `do_predict`: False
397
+ - `eval_strategy`: no
398
+ - `prediction_loss_only`: True
399
+ - `per_device_train_batch_size`: 256
400
+ - `per_device_eval_batch_size`: 512
401
+ - `per_gpu_train_batch_size`: None
402
+ - `per_gpu_eval_batch_size`: None
403
+ - `gradient_accumulation_steps`: 1
404
+ - `eval_accumulation_steps`: None
405
+ - `torch_empty_cache_steps`: None
406
+ - `learning_rate`: 0.0001
407
+ - `weight_decay`: 0.0
408
+ - `adam_beta1`: 0.9
409
+ - `adam_beta2`: 0.999
410
+ - `adam_epsilon`: 1e-08
411
+ - `max_grad_norm`: 1.0
412
+ - `num_train_epochs`: 2
413
+ - `max_steps`: -1
414
+ - `lr_scheduler_type`: cosine
415
+ - `lr_scheduler_kwargs`: {}
416
+ - `warmup_ratio`: 0.0
417
+ - `warmup_steps`: 0
418
+ - `log_level`: passive
419
+ - `log_level_replica`: warning
420
+ - `log_on_each_node`: True
421
+ - `logging_nan_inf_filter`: True
422
+ - `save_safetensors`: True
423
+ - `save_on_each_node`: False
424
+ - `save_only_model`: False
425
+ - `restore_callback_states_from_checkpoint`: False
426
+ - `no_cuda`: False
427
+ - `use_cpu`: False
428
+ - `use_mps_device`: False
429
+ - `seed`: 17
430
+ - `data_seed`: 17
431
+ - `jit_mode_eval`: False
432
+ - `use_ipex`: False
433
+ - `bf16`: True
434
+ - `fp16`: False
435
+ - `fp16_opt_level`: O1
436
+ - `half_precision_backend`: auto
437
+ - `bf16_full_eval`: False
438
+ - `fp16_full_eval`: False
439
+ - `tf32`: None
440
+ - `local_rank`: 0
441
+ - `ddp_backend`: None
442
+ - `tpu_num_cores`: None
443
+ - `tpu_metrics_debug`: False
444
+ - `debug`: []
445
+ - `dataloader_drop_last`: False
446
+ - `dataloader_num_workers`: 0
447
+ - `dataloader_prefetch_factor`: None
448
+ - `past_index`: -1
449
+ - `disable_tqdm`: False
450
+ - `remove_unused_columns`: True
451
+ - `label_names`: None
452
+ - `load_best_model_at_end`: False
453
+ - `ignore_data_skip`: False
454
+ - `fsdp`: []
455
+ - `fsdp_min_num_params`: 0
456
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
457
+ - `tp_size`: 0
458
+ - `fsdp_transformer_layer_cls_to_wrap`: None
459
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
460
+ - `deepspeed`: None
461
+ - `label_smoothing_factor`: 0.0
462
+ - `optim`: ademamix_8bit
463
+ - `optim_args`: None
464
+ - `adafactor`: False
465
+ - `group_by_length`: False
466
+ - `length_column_name`: length
467
+ - `ddp_find_unused_parameters`: None
468
+ - `ddp_bucket_cap_mb`: None
469
+ - `ddp_broadcast_buffers`: False
470
+ - `dataloader_pin_memory`: True
471
+ - `dataloader_persistent_workers`: False
472
+ - `skip_memory_metrics`: True
473
+ - `use_legacy_prediction_loop`: False
474
+ - `push_to_hub`: False
475
+ - `resume_from_checkpoint`: None
476
+ - `hub_model_id`: None
477
+ - `hub_strategy`: every_save
478
+ - `hub_private_repo`: None
479
+ - `hub_always_push`: False
480
+ - `gradient_checkpointing`: False
481
+ - `gradient_checkpointing_kwargs`: None
482
+ - `include_inputs_for_metrics`: False
483
+ - `include_for_metrics`: []
484
+ - `eval_do_concat_batches`: True
485
+ - `fp16_backend`: auto
486
+ - `push_to_hub_model_id`: None
487
+ - `push_to_hub_organization`: None
488
+ - `mp_parameters`:
489
+ - `auto_find_batch_size`: False
490
+ - `full_determinism`: False
491
+ - `torchdynamo`: None
492
+ - `ray_scope`: last
493
+ - `ddp_timeout`: 1800
494
+ - `torch_compile`: False
495
+ - `torch_compile_backend`: None
496
+ - `torch_compile_mode`: None
497
+ - `include_tokens_per_second`: False
498
+ - `include_num_input_tokens_seen`: False
499
+ - `neftune_noise_alpha`: None
500
+ - `optim_target_modules`: None
501
+ - `batch_eval_metrics`: False
502
+ - `eval_on_start`: False
503
+ - `use_liger_kernel`: False
504
+ - `eval_use_gather_object`: False
505
+ - `average_tokens_across_devices`: False
506
+ - `prompts`: None
507
+ - `batch_sampler`: no_duplicates
508
+ - `multi_dataset_batch_sampler`: proportional
509
+
510
+ </details>
511
+
512
+ ### Framework Versions
513
+ - Python: 3.12.8
514
+ - Sentence Transformers: 4.0.2
515
+ - Transformers: 4.51.2
516
+ - PyTorch: 2.6.0+cu124
517
+ - Accelerate: 1.6.0
518
+ - Datasets: 3.5.0
519
+ - Tokenizers: 0.21.1
520
+
521
+ ## Citation
522
+
523
+ ### BibTeX
524
+
525
+ #### Sentence Transformers
526
+ ```bibtex
527
+ @inproceedings{reimers-2019-sentence-bert,
528
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
529
+ author = "Reimers, Nils and Gurevych, Iryna",
530
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
531
+ month = "11",
532
+ year = "2019",
533
+ publisher = "Association for Computational Linguistics",
534
+ url = "https://arxiv.org/abs/1908.10084",
535
+ }
536
+ ```
537
+
538
+ #### MatryoshkaLoss
539
+ ```bibtex
540
+ @misc{kusupati2024matryoshka,
541
+ title={Matryoshka Representation Learning},
542
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
543
+ year={2024},
544
+ eprint={2205.13147},
545
+ archivePrefix={arXiv},
546
+ primaryClass={cs.LG}
547
+ }
548
+ ```
549
+
550
+ #### CachedMultipleNegativesRankingLoss
551
+ ```bibtex
552
+ @misc{gao2021scaling,
553
+ title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
554
+ author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
555
+ year={2021},
556
+ eprint={2101.06983},
557
+ archivePrefix={arXiv},
558
+ primaryClass={cs.LG}
559
+ }
560
+ ```
561
+
562
+ <!--
563
+ ## Glossary
564
+
565
+ *Clearly define terms in order to be accessible across audiences.*
566
+ -->
567
+
568
+ <!--
569
+ ## Model Card Authors
570
+
571
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
572
+ -->
573
+
574
+ <!--
575
+ ## Model Card Contact
576
+
577
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
578
+ -->
config.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "MistralModel"
4
+ ],
5
+ "attention_dropout": 0.0,
6
+ "bos_token_id": 1,
7
+ "eos_token_id": 2,
8
+ "head_dim": 64,
9
+ "hidden_act": "silu",
10
+ "hidden_size": 2048,
11
+ "initializer_range": 0.02,
12
+ "intermediate_size": 8192,
13
+ "max_position_embeddings": 32768,
14
+ "model_type": "mistral",
15
+ "num_attention_heads": 32,
16
+ "num_hidden_layers": 28,
17
+ "num_key_value_heads": 8,
18
+ "rms_norm_eps": 1e-05,
19
+ "rope_theta": 100000.0,
20
+ "sliding_window": null,
21
+ "tie_word_embeddings": false,
22
+ "torch_dtype": "bfloat16",
23
+ "transformers_version": "4.51.2",
24
+ "use_cache": false,
25
+ "vocab_size": 126976
26
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.0.2",
4
+ "transformers": "4.51.2",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3208a8477fcf317b239c3939f2d67592a0435656b075c30281d52d9eab4b1186
3
+ size 3926129848
modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 32768,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,30 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "eos_token": {
10
+ "content": "</s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "<pad>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "unk_token": {
24
+ "content": "<unk>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ }
30
+ }
tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
tokenizer_config.json ADDED
The diff for this file is too large to render. See raw diff