meandyou200175 commited on
Commit
8173285
·
verified ·
1 Parent(s): 90a3bda

Add new SentenceTransformer model

Browse files
.gitattributes CHANGED
@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
 
 
33
  *.zip filter=lfs diff=lfs merge=lfs -text
34
  *.zst filter=lfs diff=lfs merge=lfs -text
35
  *tfevents* filter=lfs diff=lfs merge=lfs -text
36
+ tokenizer.json filter=lfs diff=lfs merge=lfs -text
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
2_Dense/config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "in_features": 768,
3
+ "out_features": 3072,
4
+ "bias": false,
5
+ "activation_function": "torch.nn.modules.linear.Identity"
6
+ }
2_Dense/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3138b4ac67adac1e30e26168c96dd9a27dbb02432802de959ae47e3731332bd1
3
+ size 9437272
3_Dense/config.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "in_features": 3072,
3
+ "out_features": 768,
4
+ "bias": false,
5
+ "activation_function": "torch.nn.modules.linear.Identity"
6
+ }
3_Dense/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d46ef9c9e167ea70b798d8eace9539baff74ccb3820a0d62d2b41e71a0250926
3
+ size 9437272
README.md ADDED
@@ -0,0 +1,716 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
0
  <br>Cuộc họp do Bộ Tài chính chủ trì với sự tham gia của Bộ Công nghiệp, Tổng công ty Than Việt Nam (TVN) cuối tuần qua đã đi đến kết luận TVN sẽ tiến hành hiệp thương về giá với các đơn vị tiêu thụ lớn trong vòng 15 ngày tới.
1
  <br>Trong trường hợp hai bên mua bán không hiệp thương được thì cơ quan hữu trách sẽ có những biện pháp giải quyết. Trước đó, các cơ quan hữu trách đã yêu cầu TVN trong thời gian hiệp thương về giá vẫn phải đảm bảo cung cấp đủ than cho các hộ tiêu thụ lớn với mức giá tạm tính theo giá của quý IV năm nay.
2
  <br>Bình luận về việc hiệp thương giá giữa TVN và các hộ tiêu thụ lớn, các chuyên gia cho rằng khó có thể đi đến kết quả thống nhất bởi quyền lợi mỗi bên rất khác nhau.</code> | <code>Kinh doanh</code> |
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:97975
9
+ - loss:MultipleNegativesRankingLoss
10
+ base_model: google/embeddinggemma-300m
11
+ widget:
12
+ - source_sentence: 'task: classification | query: Trong bài viết này chúng ta sẽ thảo
13
+ luận: Lợi ích của năng lượng mặt trời trong trường học. Năng lượng mặt trời là
14
+ nguồn tài nguyên đầy hứa hẹn và có giá trị cao cho tương lai, với xu hướng sử
15
+ dụng loại năng lượng này ngày càng tăng, một số trường học đang tìm cách sử dụng
16
+ nguồn năng lượng này hiệu quả hơn. Câu hỏi đặt ra là tại sao các trường học lại
17
+ tìm kiếm sự chuyển đổi này? và làm thế nào năng lượng mặt trời có thể được sử
18
+ dụng trong trường học? Năm 2020, Hoa Kỳ đã ghi nhận tổng cộng 7300 k-12 trường
19
+ học sử dụng tấm pin mặt trời để tạo ra điện, với mức tăng trưởng hàng năm là 24%
20
+ từ năm 2017 đến năm 2020. Việc lắp đặt tấm pin mặt trời trong trường học có thể
21
+ giúp: Giúp các học khu giảm chi phí hóa đơn tiền điện. Mang lại một môi trường
22
+ sạch sẽ cho học sinh. Nâng cao nhận thức về năng lượng tái tạo. Tận d'
23
+ sentences:
24
+ - trông người đã thấy hãm tài
25
+ - Sức khỏe - Đời sống
26
+ - Khoa học môi trường
27
+ - source_sentence: "task: classification | query: Vitaco chuẩn bị bán gần 19 triệu\
28
+ \ cổ phần\r\nNgày 9/12 tới, Công ty Vận tải Xăng dầu (Vitaco) tổ chức bán đấu\
29
+ \ giá gần 19 triệu cổ phần qua Trung tâm giao dịch chứng khoán TP HCM và Hà Nội,\
30
+ \ với giá khởi điểm 10.200 đồng/cổ phần.\r\nTheo Trung tâm giao dịch chứng khoán\
31
+ \ TP HCM, các pháp nhân, thể nhân có nhu cầu tham gia mua cổ phần của Vitaco phải\
32
+ \ nộp hồ sơ đăng ký theo mẫu và đúng thời hạn. Số lượng cổ phần đăng ký mua tối\
33
+ \ thiểu là 500. Mệnh giá 10.000 đồng/cổ phần.\r\nCông ty Vận tải Xăng dầu Vitaco,\
34
+ \ có trụ sở chính tại số 12 đường Lê Duẩn, quận 1, TP HCM. Vốn điều lệ của Vitaco\
35
+ \ hiện nay là 400 tỷ đồng. Vitaco kinh doanh các sản phẩm xăng dầu bằng đường\
36
+ \ biển, ngoại thương, cung ứng vật tư, đại lý tàu biển, vệ sinh... và dịch vụ\
37
+ \ môi giới hàng hải."
38
+ sentences:
39
+ - Kinh doanh quốc tế
40
+ - Chứng khoán
41
+ - bặm miệng lại
42
+ - source_sentence: "task: classification | query: Nhật Bản học tập kinh nghiệm điều\
43
+ \ trị cúm gia cầm của VN\r\nTrung tâm Y tế Quốc tế Nhật Bản đã quyết định hợp\
44
+ \ tác với Bệnh viện Bạch Mai (Hà Nội) về chẩn đoán và điều trị cho các bệnh nhân\
45
+ \ nhiễm virút cúm gia cầm thông qua truyền hình trực tiếp trên Internet, đồng\
46
+ \ thời cử các bác sĩ, chuyên gia y tế đến thực tập tại bệnh viện Bạch Mai. Nhằm\
47
+ \ đối phó với dịch cúm gia cầm thể mới, Trung tâm Y tế Quốc tế Nhật Bản được chỉ\
48
+ \ định là nơi chuyên chữa trị cho các bệnh nhân nhiễm virút cúm gia cầm. Tuy có\
49
+ \ nhiều trang thiết bị hiện đại, nhưng nhân viên của Trung tâm vẫn còn thiếu kinh\
50
+ \ nghiệm thực tế. Thông qua hợp tác với bệnh viện Bạch Mai, Trung tâm hy vọng\
51
+ \ sẽ đào tạo được một đội ngũ nhân viên có kinh nghiệm thực tế, có thể xử lý nhanh\
52
+ \ khi Nhật Bản có nhiều người bị nhiễm virút cúm gia cầm."
53
+ sentences:
54
+ - Cúm gà
55
+ - phục hồi lại nguyên trạng
56
+ - '"Mỗi lần nắng mới hắt bên song, Xao xác, gà trưa gáy não nùng."'
57
+ - source_sentence: 'task: sentence similarity | query: phần nước đậm đặc, tinh tuý
58
+ nhất do vắt, ép, ngâm hoặc nấu lần đầu mà có'
59
+ sentences:
60
+ - Giải trí; Âm nhạc
61
+ - tóc bỏ lơi
62
+ - nước cốt trầu
63
+ - source_sentence: 'task: sentence similarity | query: tập hợp 500 tờ giấy hay 20
64
+ thếp giấy, làm thành đơn vị để tính số lượng giấy'
65
+ sentences:
66
+ - bầu không khí nặng nề
67
+ - Tổ chức toàn cầu
68
+ - in hết hai ram giấy
69
+ pipeline_tag: sentence-similarity
70
+ library_name: sentence-transformers
71
+ metrics:
72
+ - cosine_accuracy@1
73
+ - cosine_accuracy@2
74
+ - cosine_accuracy@5
75
+ - cosine_accuracy@10
76
+ - cosine_accuracy@100
77
+ - cosine_precision@1
78
+ - cosine_precision@2
79
+ - cosine_precision@5
80
+ - cosine_precision@10
81
+ - cosine_precision@100
82
+ - cosine_recall@1
83
+ - cosine_recall@2
84
+ - cosine_recall@5
85
+ - cosine_recall@10
86
+ - cosine_recall@100
87
+ - cosine_ndcg@10
88
+ - cosine_mrr@1
89
+ - cosine_mrr@2
90
+ - cosine_mrr@5
91
+ - cosine_mrr@10
92
+ - cosine_mrr@100
93
+ - cosine_map@100
94
+ model-index:
95
+ - name: SentenceTransformer based on google/embeddinggemma-300m
96
+ results:
97
+ - task:
98
+ type: information-retrieval
99
+ name: Information Retrieval
100
+ dataset:
101
+ name: Unknown
102
+ type: unknown
103
+ metrics:
104
+ - type: cosine_accuracy@1
105
+ value: 0.13612565445026178
106
+ name: Cosine Accuracy@1
107
+ - type: cosine_accuracy@2
108
+ value: 0.1806741985854689
109
+ name: Cosine Accuracy@2
110
+ - type: cosine_accuracy@5
111
+ value: 0.2604941673555617
112
+ name: Cosine Accuracy@5
113
+ - type: cosine_accuracy@10
114
+ value: 0.3390281987691742
115
+ name: Cosine Accuracy@10
116
+ - type: cosine_accuracy@100
117
+ value: 0.7170019289060348
118
+ name: Cosine Accuracy@100
119
+ - type: cosine_precision@1
120
+ value: 0.13612565445026178
121
+ name: Cosine Precision@1
122
+ - type: cosine_precision@2
123
+ value: 0.09033709929273445
124
+ name: Cosine Precision@2
125
+ - type: cosine_precision@5
126
+ value: 0.05209883347111234
127
+ name: Cosine Precision@5
128
+ - type: cosine_precision@10
129
+ value: 0.03390281987691743
130
+ name: Cosine Precision@10
131
+ - type: cosine_precision@100
132
+ value: 0.007170019289060347
133
+ name: Cosine Precision@100
134
+ - type: cosine_recall@1
135
+ value: 0.13612565445026178
136
+ name: Cosine Recall@1
137
+ - type: cosine_recall@2
138
+ value: 0.1806741985854689
139
+ name: Cosine Recall@2
140
+ - type: cosine_recall@5
141
+ value: 0.2604941673555617
142
+ name: Cosine Recall@5
143
+ - type: cosine_recall@10
144
+ value: 0.3390281987691742
145
+ name: Cosine Recall@10
146
+ - type: cosine_recall@100
147
+ value: 0.7170019289060348
148
+ name: Cosine Recall@100
149
+ - type: cosine_ndcg@10
150
+ value: 0.22552433960734286
151
+ name: Cosine Ndcg@10
152
+ - type: cosine_mrr@1
153
+ value: 0.13612565445026178
154
+ name: Cosine Mrr@1
155
+ - type: cosine_mrr@2
156
+ value: 0.15839992651786533
157
+ name: Cosine Mrr@2
158
+ - type: cosine_mrr@5
159
+ value: 0.1801919720767884
160
+ name: Cosine Mrr@5
161
+ - type: cosine_mrr@10
162
+ value: 0.19070534830385946
163
+ name: Cosine Mrr@10
164
+ - type: cosine_mrr@100
165
+ value: 0.20385519306962407
166
+ name: Cosine Mrr@100
167
+ - type: cosine_map@100
168
+ value: 0.20385519306962605
169
+ name: Cosine Map@100
170
+ ---
171
+
172
+ # SentenceTransformer based on google/embeddinggemma-300m
173
+
174
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [google/embeddinggemma-300m](https://huggingface.co/google/embeddinggemma-300m). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
175
+
176
+ ## Model Details
177
+
178
+ ### Model Description
179
+ - **Model Type:** Sentence Transformer
180
+ - **Base model:** [google/embeddinggemma-300m](https://huggingface.co/google/embeddinggemma-300m) <!-- at revision 57c266a740f537b4dc058e1b0cda161fd15afa75 -->
181
+ - **Maximum Sequence Length:** 2048 tokens
182
+ - **Output Dimensionality:** 768 dimensions
183
+ - **Similarity Function:** Cosine Similarity
184
+ <!-- - **Training Dataset:** Unknown -->
185
+ <!-- - **Language:** Unknown -->
186
+ <!-- - **License:** Unknown -->
187
+
188
+ ### Model Sources
189
+
190
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
191
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
192
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
193
+
194
+ ### Full Model Architecture
195
+
196
+ ```
197
+ SentenceTransformer(
198
+ (0): Transformer({'max_seq_length': 2048, 'do_lower_case': False, 'architecture': 'Gemma3TextModel'})
199
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
200
+ (2): Dense({'in_features': 768, 'out_features': 3072, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
201
+ (3): Dense({'in_features': 3072, 'out_features': 768, 'bias': False, 'activation_function': 'torch.nn.modules.linear.Identity'})
202
+ (4): Normalize()
203
+ )
204
+ ```
205
+
206
+ ## Usage
207
+
208
+ ### Direct Usage (Sentence Transformers)
209
+
210
+ First install the Sentence Transformers library:
211
+
212
+ ```bash
213
+ pip install -U sentence-transformers
214
+ ```
215
+
216
+ Then you can load this model and run inference.
217
+ ```python
218
+ from sentence_transformers import SentenceTransformer
219
+
220
+ # Download from the 🤗 Hub
221
+ model = SentenceTransformer("meandyou200175/gemma_topic_modal")
222
+ # Run inference
223
+ queries = [
224
+ "task: sentence similarity | query: t\u1eadp h\u1ee3p 500 t\u1edd gi\u1ea5y hay 20 th\u1ebfp gi\u1ea5y, l\u00e0m th\u00e0nh \u0111\u01a1n v\u1ecb \u0111\u1ec3 t\u00ednh s\u1ed1 l\u01b0\u1ee3ng gi\u1ea5y",
225
+ ]
226
+ documents = [
227
+ 'in hết hai ram giấy',
228
+ 'Tổ chức toàn cầu',
229
+ 'bầu không khí nặng nề',
230
+ ]
231
+ query_embeddings = model.encode_query(queries)
232
+ document_embeddings = model.encode_document(documents)
233
+ print(query_embeddings.shape, document_embeddings.shape)
234
+ # [1, 768] [3, 768]
235
+
236
+ # Get the similarity scores for the embeddings
237
+ similarities = model.similarity(query_embeddings, document_embeddings)
238
+ print(similarities)
239
+ # tensor([[ 0.4646, 0.0266, -0.0251]])
240
+ ```
241
+
242
+ <!--
243
+ ### Direct Usage (Transformers)
244
+
245
+ <details><summary>Click to see the direct usage in Transformers</summary>
246
+
247
+ </details>
248
+ -->
249
+
250
+ <!--
251
+ ### Downstream Usage (Sentence Transformers)
252
+
253
+ You can finetune this model on your own dataset.
254
+
255
+ <details><summary>Click to expand</summary>
256
+
257
+ </details>
258
+ -->
259
+
260
+ <!--
261
+ ### Out-of-Scope Use
262
+
263
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
264
+ -->
265
+
266
+ ## Evaluation
267
+
268
+ ### Metrics
269
+
270
+ #### Information Retrieval
271
+
272
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
273
+
274
+ | Metric | Value |
275
+ |:---------------------|:-----------|
276
+ | cosine_accuracy@1 | 0.1361 |
277
+ | cosine_accuracy@2 | 0.1807 |
278
+ | cosine_accuracy@5 | 0.2605 |
279
+ | cosine_accuracy@10 | 0.339 |
280
+ | cosine_accuracy@100 | 0.717 |
281
+ | cosine_precision@1 | 0.1361 |
282
+ | cosine_precision@2 | 0.0903 |
283
+ | cosine_precision@5 | 0.0521 |
284
+ | cosine_precision@10 | 0.0339 |
285
+ | cosine_precision@100 | 0.0072 |
286
+ | cosine_recall@1 | 0.1361 |
287
+ | cosine_recall@2 | 0.1807 |
288
+ | cosine_recall@5 | 0.2605 |
289
+ | cosine_recall@10 | 0.339 |
290
+ | cosine_recall@100 | 0.717 |
291
+ | **cosine_ndcg@10** | **0.2255** |
292
+ | cosine_mrr@1 | 0.1361 |
293
+ | cosine_mrr@2 | 0.1584 |
294
+ | cosine_mrr@5 | 0.1802 |
295
+ | cosine_mrr@10 | 0.1907 |
296
+ | cosine_mrr@100 | 0.2039 |
297
+ | cosine_map@100 | 0.2039 |
298
+
299
+ <!--
300
+ ## Bias, Risks and Limitations
301
+
302
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
303
+ -->
304
+
305
+ <!--
306
+ ### Recommendations
307
+
308
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
309
+ -->
310
+
311
+ ## Training Details
312
+
313
+ ### Training Dataset
314
+
315
+ #### Unnamed Dataset
316
+
317
+ * Size: 97,975 training samples
318
+ * Columns: <code>anchor</code> and <code>positive</code>
319
+ * Approximate statistics based on the first 1000 samples:
320
+ | | anchor | positive |
321
+ |:--------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
322
+ | type | string | string |
323
+ | details | <ul><li>min: 11 tokens</li><li>mean: 137.68 tokens</li><li>max: 301 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 8.56 tokens</li><li>max: 39 tokens</li></ul> |
324
+ * Samples:
325
+ | anchor | positive |
326
+ |:----------------------------------------------------------------------------------------------------------|:----------------------------------------------------------|
327
+ | <code>task: sentence similarity \| query: luống</code> | <code>trồng mấy liếp rau</code> |
328
+ | <code>task: sentence similarity \| query: không còn có quan hệ tình cảm và tình dục, do bất hoà</code> | <code>vợ chồng sống li thân</code> |
329
+ | <code>task: sentence similarity \| query: đánh bật khỏi một vị trí, một địa vị nào đó để chiếm lấy</code> | <code>Nhật hất cẳng Pháp ở chiến trường Đông Dương</code> |
330
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
331
+ ```json
332
+ {
333
+ "scale": 20.0,
334
+ "similarity_fct": "cos_sim",
335
+ "gather_across_devices": false
336
+ }
337
+ ```
338
+
339
+ ### Evaluation Dataset
340
+
341
+ #### Unnamed Dataset
342
+
343
+ * Size: 10,887 evaluation samples
344
+ * Columns: <code>anchor</code> and <code>positive</code>
345
+ * Approximate statistics based on the first 1000 samples:
346
+ | | anchor | positive |
347
+ |:--------|:-------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------|
348
+ | type | string | string |
349
+ | details | <ul><li>min: 10 tokens</li><li>mean: 130.94 tokens</li><li>max: 350 tokens</li></ul> | <ul><li>min: 3 tokens</li><li>mean: 8.25 tokens</li><li>max: 36 tokens</li></ul> |
350
+ * Samples:
351
+ | anchor | positive |
352
+ |:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------|
353
+ | <code>task: sentence similarity \| query: dải phù sa ở dọc sông hay cửa sông</code> | <code>doi cát</code> |
354
+ | <code>task: classification \| query: Theo hãng phân tích JP Morgan, Apple khả năng kỳ vọng Phố Wall quý 2, bất chấp vấn đề chuỗi cung ứng biến động kinh tế vĩ mô. Cụ thể, ghi gửi đầu tư, phân tích Samik Chatterjee JP Morgan hay, "không lo lắng Phố Wall" báo cáo doanh thu Apple – dự kiến công bố 28/7. Mặc rủi ro trung hạn, hy vọng doanh thu doanh iPhone mẽ. iPhone 13 Series "đắt hàng". Nhà phân tích định, chuỗi cung ứng cải thiện yếu kém nhu cầu dự đoán, Apple doanh thu 4 - 8 tỷ USD 3 (tháng 4 – 6). Phố Wall dự kiến, "Nhà Táo" báo cáo doanh thu 82 tỷ USD quý 2, tương đương kỳ vọng 82,1 tỷ USD Chatterjee. Thêm nữa, phân tích hay, phân khúc sản phẩm Mac thể ảnh hưởng cung cấp. Mặt khác, quý nhất, Chatterjee doanh thu dự kiến khiêm tốn. Ông tốc độ trưởng Mac iPad khả năng chi tiêu tiêu xuống. iPhone 11 giá Việt Nam.</code> | <code>Sức khỏe - Đời sống</code> |
355
+ | <code>task: classification \| query: Khó thống nhất việc hiệp thương giá bán than
356
  <br>Cuộc họp do Bộ Tài chính chủ trì với sự tham gia của Bộ Công nghiệp, Tổng công ty Than Việt Nam (TVN) cuối tuần qua đã đi đến kết luận TVN sẽ tiến hành hiệp thương về giá với các đơn vị tiêu thụ lớn trong vòng 15 ngày tới.
357
  <br>Trong trường hợp hai bên mua bán không hiệp thương được thì cơ quan hữu trách sẽ có những biện pháp giải quyết. Trước đó, các cơ quan hữu trách đã yêu cầu TVN trong thời gian hiệp thương về giá vẫn phải đảm bảo cung cấp đủ than cho các hộ tiêu thụ lớn với mức giá tạm tính theo giá của quý IV năm nay.
358
  <br>Bình luận về việc hiệp thương giá giữa TVN và các hộ tiêu thụ lớn, các chuyên gia cho rằng khó có thể đi đến kết quả thống nhất bởi quyền lợi mỗi bên rất khác nhau.</code> | <code>Kinh doanh</code> |
359
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
360
+ ```json
361
+ {
362
+ "scale": 20.0,
363
+ "similarity_fct": "cos_sim",
364
+ "gather_across_devices": false
365
+ }
366
+ ```
367
+
368
+ ### Training Hyperparameters
369
+ #### Non-Default Hyperparameters
370
+
371
+ - `eval_strategy`: steps
372
+ - `per_device_train_batch_size`: 32
373
+ - `per_device_eval_batch_size`: 32
374
+ - `learning_rate`: 2e-05
375
+ - `num_train_epochs`: 5
376
+ - `warmup_ratio`: 0.1
377
+ - `fp16`: True
378
+ - `batch_sampler`: no_duplicates
379
+
380
+ #### All Hyperparameters
381
+ <details><summary>Click to expand</summary>
382
+
383
+ - `overwrite_output_dir`: False
384
+ - `do_predict`: False
385
+ - `eval_strategy`: steps
386
+ - `prediction_loss_only`: True
387
+ - `per_device_train_batch_size`: 32
388
+ - `per_device_eval_batch_size`: 32
389
+ - `per_gpu_train_batch_size`: None
390
+ - `per_gpu_eval_batch_size`: None
391
+ - `gradient_accumulation_steps`: 1
392
+ - `eval_accumulation_steps`: None
393
+ - `torch_empty_cache_steps`: None
394
+ - `learning_rate`: 2e-05
395
+ - `weight_decay`: 0.0
396
+ - `adam_beta1`: 0.9
397
+ - `adam_beta2`: 0.999
398
+ - `adam_epsilon`: 1e-08
399
+ - `max_grad_norm`: 1.0
400
+ - `num_train_epochs`: 5
401
+ - `max_steps`: -1
402
+ - `lr_scheduler_type`: linear
403
+ - `lr_scheduler_kwargs`: {}
404
+ - `warmup_ratio`: 0.1
405
+ - `warmup_steps`: 0
406
+ - `log_level`: passive
407
+ - `log_level_replica`: warning
408
+ - `log_on_each_node`: True
409
+ - `logging_nan_inf_filter`: True
410
+ - `save_safetensors`: True
411
+ - `save_on_each_node`: False
412
+ - `save_only_model`: False
413
+ - `restore_callback_states_from_checkpoint`: False
414
+ - `no_cuda`: False
415
+ - `use_cpu`: False
416
+ - `use_mps_device`: False
417
+ - `seed`: 42
418
+ - `data_seed`: None
419
+ - `jit_mode_eval`: False
420
+ - `use_ipex`: False
421
+ - `bf16`: False
422
+ - `fp16`: True
423
+ - `fp16_opt_level`: O1
424
+ - `half_precision_backend`: auto
425
+ - `bf16_full_eval`: False
426
+ - `fp16_full_eval`: False
427
+ - `tf32`: None
428
+ - `local_rank`: 0
429
+ - `ddp_backend`: None
430
+ - `tpu_num_cores`: None
431
+ - `tpu_metrics_debug`: False
432
+ - `debug`: []
433
+ - `dataloader_drop_last`: False
434
+ - `dataloader_num_workers`: 0
435
+ - `dataloader_prefetch_factor`: None
436
+ - `past_index`: -1
437
+ - `disable_tqdm`: False
438
+ - `remove_unused_columns`: True
439
+ - `label_names`: None
440
+ - `load_best_model_at_end`: False
441
+ - `ignore_data_skip`: False
442
+ - `fsdp`: []
443
+ - `fsdp_min_num_params`: 0
444
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
445
+ - `fsdp_transformer_layer_cls_to_wrap`: None
446
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
447
+ - `parallelism_config`: None
448
+ - `deepspeed`: None
449
+ - `label_smoothing_factor`: 0.0
450
+ - `optim`: adamw_torch_fused
451
+ - `optim_args`: None
452
+ - `adafactor`: False
453
+ - `group_by_length`: False
454
+ - `length_column_name`: length
455
+ - `ddp_find_unused_parameters`: None
456
+ - `ddp_bucket_cap_mb`: None
457
+ - `ddp_broadcast_buffers`: False
458
+ - `dataloader_pin_memory`: True
459
+ - `dataloader_persistent_workers`: False
460
+ - `skip_memory_metrics`: True
461
+ - `use_legacy_prediction_loop`: False
462
+ - `push_to_hub`: False
463
+ - `resume_from_checkpoint`: None
464
+ - `hub_model_id`: None
465
+ - `hub_strategy`: every_save
466
+ - `hub_private_repo`: None
467
+ - `hub_always_push`: False
468
+ - `hub_revision`: None
469
+ - `gradient_checkpointing`: False
470
+ - `gradient_checkpointing_kwargs`: None
471
+ - `include_inputs_for_metrics`: False
472
+ - `include_for_metrics`: []
473
+ - `eval_do_concat_batches`: True
474
+ - `fp16_backend`: auto
475
+ - `push_to_hub_model_id`: None
476
+ - `push_to_hub_organization`: None
477
+ - `mp_parameters`:
478
+ - `auto_find_batch_size`: False
479
+ - `full_determinism`: False
480
+ - `torchdynamo`: None
481
+ - `ray_scope`: last
482
+ - `ddp_timeout`: 1800
483
+ - `torch_compile`: False
484
+ - `torch_compile_backend`: None
485
+ - `torch_compile_mode`: None
486
+ - `include_tokens_per_second`: False
487
+ - `include_num_input_tokens_seen`: False
488
+ - `neftune_noise_alpha`: None
489
+ - `optim_target_modules`: None
490
+ - `batch_eval_metrics`: False
491
+ - `eval_on_start`: False
492
+ - `use_liger_kernel`: False
493
+ - `liger_kernel_config`: None
494
+ - `eval_use_gather_object`: False
495
+ - `average_tokens_across_devices`: False
496
+ - `prompts`: None
497
+ - `batch_sampler`: no_duplicates
498
+ - `multi_dataset_batch_sampler`: proportional
499
+ - `router_mapping`: {}
500
+ - `learning_rate_mapping`: {}
501
+
502
+ </details>
503
+
504
+ ### Training Logs
505
+ <details><summary>Click to expand</summary>
506
+
507
+ | Epoch | Step | Training Loss | Validation Loss | cosine_ndcg@10 |
508
+ |:------:|:-----:|:-------------:|:---------------:|:--------------:|
509
+ | 0.0327 | 100 | 1.8498 | - | - |
510
+ | 0.0653 | 200 | 1.0175 | - | - |
511
+ | 0.0980 | 300 | 0.7418 | - | - |
512
+ | 0.1306 | 400 | 0.6431 | - | - |
513
+ | 0.1633 | 500 | 0.6181 | - | - |
514
+ | 0.1960 | 600 | 0.5806 | - | - |
515
+ | 0.2286 | 700 | 0.6151 | - | - |
516
+ | 0.2613 | 800 | 0.5552 | - | - |
517
+ | 0.2939 | 900 | 0.5811 | - | - |
518
+ | 0.3266 | 1000 | 0.6113 | - | - |
519
+ | 0.3592 | 1100 | 0.6057 | - | - |
520
+ | 0.3919 | 1200 | 0.6167 | - | - |
521
+ | 0.4246 | 1300 | 0.6254 | - | - |
522
+ | 0.4572 | 1400 | 0.6138 | - | - |
523
+ | 0.4899 | 1500 | 0.6281 | - | - |
524
+ | 0.5225 | 1600 | 0.6567 | - | - |
525
+ | 0.5552 | 1700 | 0.6276 | - | - |
526
+ | 0.5879 | 1800 | 0.6779 | - | - |
527
+ | 0.6205 | 1900 | 0.6172 | - | - |
528
+ | 0.6532 | 2000 | 0.6295 | - | - |
529
+ | 0.6858 | 2100 | 0.6065 | - | - |
530
+ | 0.7185 | 2200 | 0.5892 | - | - |
531
+ | 0.7511 | 2300 | 0.6015 | - | - |
532
+ | 0.7838 | 2400 | 0.5633 | - | - |
533
+ | 0.8165 | 2500 | 0.5123 | - | - |
534
+ | 0.8491 | 2600 | 0.5389 | - | - |
535
+ | 0.8818 | 2700 | 0.5092 | - | - |
536
+ | 0.9144 | 2800 | 0.5297 | - | - |
537
+ | 0.9471 | 2900 | 0.5423 | - | - |
538
+ | 0.9798 | 3000 | 0.5261 | - | - |
539
+ | 1.0124 | 3100 | 0.4951 | - | - |
540
+ | 1.0451 | 3200 | 0.4157 | - | - |
541
+ | 1.0777 | 3300 | 0.3943 | - | - |
542
+ | 1.1104 | 3400 | 0.4216 | - | - |
543
+ | 1.1430 | 3500 | 0.4047 | - | - |
544
+ | 1.1757 | 3600 | 0.3904 | - | - |
545
+ | 1.2084 | 3700 | 0.383 | - | - |
546
+ | 1.2410 | 3800 | 0.4125 | - | - |
547
+ | 1.2737 | 3900 | 0.3971 | - | - |
548
+ | 1.3063 | 4000 | 0.4039 | - | - |
549
+ | 1.3390 | 4100 | 0.3879 | - | - |
550
+ | 1.3717 | 4200 | 0.3985 | - | - |
551
+ | 1.4043 | 4300 | 0.405 | - | - |
552
+ | 1.4370 | 4400 | 0.3616 | - | - |
553
+ | 1.4696 | 4500 | 0.3866 | - | - |
554
+ | 1.5023 | 4600 | 0.3941 | - | - |
555
+ | 1.5349 | 4700 | 0.3875 | - | - |
556
+ | 1.5676 | 4800 | 0.3697 | - | - |
557
+ | 1.6003 | 4900 | 0.3829 | - | - |
558
+ | 1.6329 | 5000 | 0.3939 | 0.4345 | 0.1848 |
559
+ | 1.6656 | 5100 | 0.3656 | - | - |
560
+ | 1.6982 | 5200 | 0.3564 | - | - |
561
+ | 1.7309 | 5300 | 0.3925 | - | - |
562
+ | 1.7636 | 5400 | 0.371 | - | - |
563
+ | 1.7962 | 5500 | 0.3624 | - | - |
564
+ | 1.8289 | 5600 | 0.3683 | - | - |
565
+ | 1.8615 | 5700 | 0.3805 | - | - |
566
+ | 1.8942 | 5800 | 0.3601 | - | - |
567
+ | 1.9268 | 5900 | 0.3365 | - | - |
568
+ | 1.9595 | 6000 | 0.3538 | - | - |
569
+ | 1.9922 | 6100 | 0.3602 | - | - |
570
+ | 2.0248 | 6200 | 0.2514 | - | - |
571
+ | 2.0575 | 6300 | 0.2195 | - | - |
572
+ | 2.0901 | 6400 | 0.2327 | - | - |
573
+ | 2.1228 | 6500 | 0.2233 | - | - |
574
+ | 2.1555 | 6600 | 0.2073 | - | - |
575
+ | 2.1881 | 6700 | 0.242 | - | - |
576
+ | 2.2208 | 6800 | 0.2427 | - | - |
577
+ | 2.2534 | 6900 | 0.232 | - | - |
578
+ | 2.2861 | 7000 | 0.239 | - | - |
579
+ | 2.3187 | 7100 | 0.2219 | - | - |
580
+ | 2.3514 | 7200 | 0.2481 | - | - |
581
+ | 2.3841 | 7300 | 0.2252 | - | - |
582
+ | 2.4167 | 7400 | 0.2339 | - | - |
583
+ | 2.4494 | 7500 | 0.2243 | - | - |
584
+ | 2.4820 | 7600 | 0.223 | - | - |
585
+ | 2.5147 | 7700 | 0.2383 | - | - |
586
+ | 2.5474 | 7800 | 0.2269 | - | - |
587
+ | 2.5800 | 7900 | 0.2237 | - | - |
588
+ | 2.6127 | 8000 | 0.2331 | - | - |
589
+ | 2.6453 | 8100 | 0.2056 | - | - |
590
+ | 2.6780 | 8200 | 0.2438 | - | - |
591
+ | 2.7106 | 8300 | 0.2241 | - | - |
592
+ | 2.7433 | 8400 | 0.2172 | - | - |
593
+ | 2.7760 | 8500 | 0.2155 | - | - |
594
+ | 2.8086 | 8600 | 0.2312 | - | - |
595
+ | 2.8413 | 8700 | 0.2091 | - | - |
596
+ | 2.8739 | 8800 | 0.2284 | - | - |
597
+ | 2.9066 | 8900 | 0.2303 | - | - |
598
+ | 2.9393 | 9000 | 0.2068 | - | - |
599
+ | 2.9719 | 9100 | 0.2095 | - | - |
600
+ | 3.0046 | 9200 | 0.1915 | - | - |
601
+ | 3.0372 | 9300 | 0.1496 | - | - |
602
+ | 3.0699 | 9400 | 0.1416 | - | - |
603
+ | 3.1025 | 9500 | 0.1309 | - | - |
604
+ | 3.1352 | 9600 | 0.1436 | - | - |
605
+ | 3.1679 | 9700 | 0.1527 | - | - |
606
+ | 3.2005 | 9800 | 0.1426 | - | - |
607
+ | 3.2332 | 9900 | 0.1405 | - | - |
608
+ | 3.2658 | 10000 | 0.1395 | 0.4000 | 0.2179 |
609
+ | 3.2985 | 10100 | 0.1337 | - | - |
610
+ | 3.3312 | 10200 | 0.1356 | - | - |
611
+ | 3.3638 | 10300 | 0.1336 | - | - |
612
+ | 3.3965 | 10400 | 0.1274 | - | - |
613
+ | 3.4291 | 10500 | 0.1246 | - | - |
614
+ | 3.4618 | 10600 | 0.1294 | - | - |
615
+ | 3.4944 | 10700 | 0.1355 | - | - |
616
+ | 3.5271 | 10800 | 0.1323 | - | - |
617
+ | 3.5598 | 10900 | 0.1342 | - | - |
618
+ | 3.5924 | 11000 | 0.1576 | - | - |
619
+ | 3.6251 | 11100 | 0.1318 | - | - |
620
+ | 3.6577 | 11200 | 0.1317 | - | - |
621
+ | 3.6904 | 11300 | 0.1232 | - | - |
622
+ | 3.7231 | 11400 | 0.1307 | - | - |
623
+ | 3.7557 | 11500 | 0.1315 | - | - |
624
+ | 3.7884 | 11600 | 0.13 | - | - |
625
+ | 3.8210 | 11700 | 0.1234 | - | - |
626
+ | 3.8537 | 11800 | 0.1164 | - | - |
627
+ | 3.8863 | 11900 | 0.1322 | - | - |
628
+ | 3.9190 | 12000 | 0.128 | - | - |
629
+ | 3.9517 | 12100 | 0.1301 | - | - |
630
+ | 3.9843 | 12200 | 0.1227 | - | - |
631
+ | 4.0170 | 12300 | 0.0951 | - | - |
632
+ | 4.0496 | 12400 | 0.0983 | - | - |
633
+ | 4.0823 | 12500 | 0.091 | - | - |
634
+ | 4.1150 | 12600 | 0.0744 | - | - |
635
+ | 4.1476 | 12700 | 0.0815 | - | - |
636
+ | 4.1803 | 12800 | 0.0833 | - | - |
637
+ | 4.2129 | 12900 | 0.0738 | - | - |
638
+ | 4.2456 | 13000 | 0.0749 | - | - |
639
+ | 4.2782 | 13100 | 0.0656 | - | - |
640
+ | 4.3109 | 13200 | 0.0812 | - | - |
641
+ | 4.3436 | 13300 | 0.0948 | - | - |
642
+ | 4.3762 | 13400 | 0.098 | - | - |
643
+ | 4.4089 | 13500 | 0.0828 | - | - |
644
+ | 4.4415 | 13600 | 0.0896 | - | - |
645
+ | 4.4742 | 13700 | 0.0817 | - | - |
646
+ | 4.5069 | 13800 | 0.0771 | - | - |
647
+ | 4.5395 | 13900 | 0.0742 | - | - |
648
+ | 4.5722 | 14000 | 0.0718 | - | - |
649
+ | 4.6048 | 14100 | 0.0868 | - | - |
650
+ | 4.6375 | 14200 | 0.0902 | - | - |
651
+ | 4.6702 | 14300 | 0.0682 | - | - |
652
+ | 4.7028 | 14400 | 0.0784 | - | - |
653
+ | 4.7355 | 14500 | 0.0813 | - | - |
654
+ | 4.7681 | 14600 | 0.0796 | - | - |
655
+ | 4.8008 | 14700 | 0.0797 | - | - |
656
+ | 4.8334 | 14800 | 0.0742 | - | - |
657
+ | 4.8661 | 14900 | 0.073 | - | - |
658
+ | 4.8988 | 15000 | 0.0693 | 0.3748 | 0.2255 |
659
+ | 4.9314 | 15100 | 0.0765 | - | - |
660
+ | 4.9641 | 15200 | 0.0675 | - | - |
661
+ | 4.9967 | 15300 | 0.0801 | - | - |
662
+
663
+ </details>
664
+
665
+ ### Framework Versions
666
+ - Python: 3.12.6
667
+ - Sentence Transformers: 5.1.2
668
+ - Transformers: 4.56.0
669
+ - PyTorch: 2.8.0+cu129
670
+ - Accelerate: 1.10.1
671
+ - Datasets: 4.4.1
672
+ - Tokenizers: 0.22.0
673
+
674
+ ## Citation
675
+
676
+ ### BibTeX
677
+
678
+ #### Sentence Transformers
679
+ ```bibtex
680
+ @inproceedings{reimers-2019-sentence-bert,
681
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
682
+ author = "Reimers, Nils and Gurevych, Iryna",
683
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
684
+ month = "11",
685
+ year = "2019",
686
+ publisher = "Association for Computational Linguistics",
687
+ url = "https://arxiv.org/abs/1908.10084",
688
+ }
689
+ ```
690
+
691
+ #### MultipleNegativesRankingLoss
692
+ ```bibtex
693
+ @misc{henderson2017efficient,
694
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
695
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
696
+ year={2017},
697
+ eprint={1705.00652},
698
+ archivePrefix={arXiv},
699
+ primaryClass={cs.CL}
700
+ }
701
+ ```
702
+
703
+ <!--
704
+ ## Glossary
705
+
706
+ *Clearly define terms in order to be accessible across audiences.*
707
+ -->
708
+
709
+ <!--
710
+ ## Model Card Authors
711
+
712
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
713
+ -->
714
+
715
+ <!--
716
+ ## Model Card Contact
717
+
718
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
719
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<image_soft_token>": 262144
3
+ }
config.json ADDED
@@ -0,0 +1,60 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_sliding_window_pattern": 6,
3
+ "architectures": [
4
+ "Gemma3TextModel"
5
+ ],
6
+ "attention_bias": false,
7
+ "attention_dropout": 0.0,
8
+ "attn_logit_softcapping": null,
9
+ "bos_token_id": 2,
10
+ "dtype": "float32",
11
+ "eos_token_id": 1,
12
+ "final_logit_softcapping": null,
13
+ "head_dim": 256,
14
+ "hidden_activation": "gelu_pytorch_tanh",
15
+ "hidden_size": 768,
16
+ "initializer_range": 0.02,
17
+ "intermediate_size": 1152,
18
+ "layer_types": [
19
+ "sliding_attention",
20
+ "sliding_attention",
21
+ "sliding_attention",
22
+ "sliding_attention",
23
+ "sliding_attention",
24
+ "full_attention",
25
+ "sliding_attention",
26
+ "sliding_attention",
27
+ "sliding_attention",
28
+ "sliding_attention",
29
+ "sliding_attention",
30
+ "full_attention",
31
+ "sliding_attention",
32
+ "sliding_attention",
33
+ "sliding_attention",
34
+ "sliding_attention",
35
+ "sliding_attention",
36
+ "full_attention",
37
+ "sliding_attention",
38
+ "sliding_attention",
39
+ "sliding_attention",
40
+ "sliding_attention",
41
+ "sliding_attention",
42
+ "full_attention"
43
+ ],
44
+ "max_position_embeddings": 2048,
45
+ "model_type": "gemma3_text",
46
+ "num_attention_heads": 3,
47
+ "num_hidden_layers": 24,
48
+ "num_key_value_heads": 1,
49
+ "pad_token_id": 0,
50
+ "query_pre_attn_scalar": 256,
51
+ "rms_norm_eps": 1e-06,
52
+ "rope_local_base_freq": 10000.0,
53
+ "rope_scaling": null,
54
+ "rope_theta": 1000000.0,
55
+ "sliding_window": 512,
56
+ "transformers_version": "4.56.0",
57
+ "use_bidirectional_attention": true,
58
+ "use_cache": true,
59
+ "vocab_size": 262144
60
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,26 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SentenceTransformer",
3
+ "__version__": {
4
+ "sentence_transformers": "5.1.2",
5
+ "transformers": "4.56.0",
6
+ "pytorch": "2.8.0+cu129"
7
+ },
8
+ "prompts": {
9
+ "query": "task: search result | query: ",
10
+ "document": "title: none | text: ",
11
+ "BitextMining": "task: search result | query: ",
12
+ "Clustering": "task: clustering | query: ",
13
+ "Classification": "task: classification | query: ",
14
+ "InstructionRetrieval": "task: code retrieval | query: ",
15
+ "MultilabelClassification": "task: classification | query: ",
16
+ "PairClassification": "task: sentence similarity | query: ",
17
+ "Reranking": "task: search result | query: ",
18
+ "Retrieval": "task: search result | query: ",
19
+ "Retrieval-query": "task: search result | query: ",
20
+ "Retrieval-document": "title: none | text: ",
21
+ "STS": "task: sentence similarity | query: ",
22
+ "Summarization": "task: summarization | query: "
23
+ },
24
+ "default_prompt_name": null,
25
+ "similarity_fn_name": "cosine"
26
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2c960443e4fe3bfa48486b7463a0f8ef59ecf9480cb7246944eb501680c35cdf
3
+ size 1211486072
modules.json ADDED
@@ -0,0 +1,32 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Dense",
18
+ "type": "sentence_transformers.models.Dense"
19
+ },
20
+ {
21
+ "idx": 3,
22
+ "name": "3",
23
+ "path": "3_Dense",
24
+ "type": "sentence_transformers.models.Dense"
25
+ },
26
+ {
27
+ "idx": 4,
28
+ "name": "4",
29
+ "path": "4_Normalize",
30
+ "type": "sentence_transformers.models.Normalize"
31
+ }
32
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 2048,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,33 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "boi_token": "<start_of_image>",
3
+ "bos_token": {
4
+ "content": "<bos>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false
9
+ },
10
+ "eoi_token": "<end_of_image>",
11
+ "eos_token": {
12
+ "content": "<eos>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false
17
+ },
18
+ "image_token": "<image_soft_token>",
19
+ "pad_token": {
20
+ "content": "<pad>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false
25
+ },
26
+ "unk_token": {
27
+ "content": "<unk>",
28
+ "lstrip": false,
29
+ "normalized": false,
30
+ "rstrip": false,
31
+ "single_word": false
32
+ }
33
+ }
tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:216e2a79606fe879c9f17c529c71cd241338407fd5646b595ffd3c4b9ea1d503
3
+ size 33385262
tokenizer.model ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1299c11d7cf632ef3b4e11937501358ada021bbdf7c47638d13c0ee982f2e79c
3
+ size 4689074
tokenizer_config.json ADDED
The diff for this file is too large to render. See raw diff