File size: 28,701 Bytes
64608cd
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
---
tags:
- sentence-transformers
- sentence-similarity
- feature-extraction
- dense
- generated_from_trainer
- dataset_size:16399
- loss:MultipleNegativesRankingLoss
base_model: vinai/phobert-base-v2
widget:
- source_sentence: Khi điều_chỉnh quy_hoạch mạng_lưới đường_bộ , cần tuân_thủ những
    nguyên_tắc nào ?
  sentences:
  - '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 7 . Xử_phạt , trừ điểm giấy_phép
    lái của người điều_khiển xe mô_tô , xe_gắn_máy , các loại xe tương_tự xe mô_tô
    và các loại xe tương_tự xe_gắn_máy vi_phạm quy_tắc giao_thông đường_bộ Theo Khoản
    13 : Ngoài việc bị áp_dụng hình_thức xử_phạt , người điều_khiển xe thực_hiện hành_vi
    vi_phạm còn bị trừ điểm giấy_phép lái_xe như sau : Nội_dung Điểm d : Thực_hiện
    hành_vi quy_định tại điểm b khoản 8 , khoản 10 Điều này bị trừ điểm giấy_phép
    lái_xe 10 điểm .'
  - '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 21 . Xử_phạt , trừ điểm giấy_phép
    lái_xe của người điều_khiển xe ô_tô tải , máy_kéo ( bao_gồm cả rơ moóc hoặc sơ_mi
    rơ moóc được kéo_theo ) và các loại xe tương_tự xe ô_tô vận_chuyển hàng_hoá vi_phạm
    quy_định về bảo_đảm trật_tự , an_toàn giao_thông đường_bộ với xe ô_tô vận_chuyển
    hàng_hoá Nội_dung Khoản 4 : Phạt tiền từ 2.000.000 đồng đến 3.000.000 đồng đối_với
    người điều_khiển xe thực_hiện hành_vi chở hàng vượt quá chiều cao xếp_hàng cho_phép
    đối_với xe ô_tô tải ( kể_cả rơ moóc và sơ_mi rơ moóc ) .'
  - '[ Luật Đường_bộ ] > Chương I > Điều 5 . Quy_hoạch mạng_lưới đường_bộ , quy_hoạch
    kết_cấu_hạ_tầng đường_bộ Theo Khoản 1 : Quy_hoạch mạng_lưới đường_bộ được quy_định
    như sau : Nội_dung Điểm b : Việc lập , thẩm_định , phê_duyệt , điều_chỉnh quy_hoạch
    mạng_lưới đường_bộ phải tuân_thủ quy_định của pháp_luật về quy_hoạch và bảo_đảm
    kết_nối phương_thức vận_tải đường_bộ với các phương_thức vận_tải khác ;'
- source_sentence: Hạn chót để đầu_tư công_trình kiểm_soát tải_trọng xe trên các tuyến
    đường_cao_tốc do doanh_nghiệp nhà_nước đầu_tư  khi nào ?
  sentences:
  - '[ Thông_tư 35 _ 2024 _ TT-BGTVT ] > Chương II > Điều 63 . Cơ_sở đào_tạo Theo
    Khoản 1 : Đối_với công_tác đào_tạo lái_xe Nội_dung Điểm i : Tổ_chức kiểm_tra môn_học
    : người đứng đầu cơ_sở đào_tạo lái_xe căn_cứ nội_dung kiểm_tra quy_định tại khoản
    4 Điều 6 , khoản 4 Điều 7 và khoản 4 Điều 8 Thông_tư này xây dựng quy_trình kiểm_tra
    ;'
  - '[ Nghị_định 165 _ 2024 _ NĐ-CP ] > Chương_VI > Điều 55 . Lộ_trình đầu_tư xây_dựng
    đối_với đường_cao_tốc chưa đáp_ứng tiêu_chuẩn , quy_chuẩn kỹ_thuật theo khoản
    1 Điều 45 Luật Đường_bộ ,  đường gom , đường bên , Trung_tâm quản_lý , điều_hành
    giao_thông tuyến đường_cao_tốc , công_trình kiểm_soát tải_trọng xe , hệ_thống
    thu phí điện_tử không dừng Theo Khoản 3 : Đối_với Trung_tâm quản_lý , điều_hành
    giao_thông tuyến đường_cao_tốc , công_trình kiểm_soát tải_trọng xe Nội_dung Điểm
    a : Đối_với dự_án đường_bộ cao_tốc đầu_tư theo hình_thức đầu_tư công và đường_cao_tốc
    do doanh_nghiệp nhà_nước đầu_tư : trường_hợp dự_án cân_đối được nguồn vốn để đầu_tư
    các hạng_mục trên thì tổ_chức thực_hiện đầu_tư trước ngày 31 tháng 12 năm 2027
    . Trường_hợp dự_án không cân_đối được nguồn vốn để đầu_tư , chủ đầu_tư hoặc người_quản_lý
    , sử_dụng đường_cao_tốc báo_cáo cấp có thẩm_quyền bố_trí vốn đầu_tư để đầu_tư
    , bảo_đảm khai_thác an_toàn ;'
  - '[ Nghị_định 158 _ 2024 _ NĐ-CP ] > Chương II > Điều 25 . Quy_định đối_với vận_tải
    hàng_hoá nội_bộ bằng xe ô_tô Theo Khoản 1 : Xe ô_tô vận_tải hàng_hoá nội_bộ Nội_dung
    Điểm a : Xe ô_tô phải đáp_ứng các điều_kiện tham_gia giao_thông theo quy_định
    tại khoản 1 Điều 35 , khoản 1 , khoản 2 và khoản 3 Điều 40 của Luật Trật_tự ,
    an_toàn giao_thông đường_bộ ; phải có dây an_toàn tại vị_trí ghế_ngồi , có hướng_dẫn
    về an_toàn giao_thông và thoát hiểm khi xảy ra sự_cố trên xe ;'
- source_sentence: Nếu các văn_bản pháp_luật được viện_dẫn trong Nghị_định 165/2024/NĐ-CP
    bị thay thế thì tôi phải áp_dụng theo văn_bản nào ?
  sentences:
  - '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 18 . Xử_phạt , trừ điểm giấy_phép
    lái_xe các hành_vi vi_phạm quy_định về điều_kiện của người điều_khiển xe_cơ_giới
    Theo Khoản 3 : Phạt tiền từ 300.000 đồng đến 400.000 đồng đối_với một trong các
    hành_vi vi_phạm sau đây : Nội_dung Điểm a : Người điều_khiển xe ô_tô , xe chở
    người bốn bánh có gắn động_cơ , xe chở hàng bốn bánh có gắn động_cơ và các loại
    xe tương_tự xe ô_tô kinh_doanh vận_tải không mang theo giấy_phép lái_xe , trừ
    hành_vi vi_phạm quy_định tại điểm c khoản 8 Điều này ;'
  - '[ Thông_tư 12 _ 2025 _ TT-BCA ] > Chương II > Điều 16 . Hồ_sơ dự sát_hạch lái_xe
    Theo Khoản 3 : Hồ_sơ đề_nghị sát_hạch cấp giấy_phép lái_xe do quá thời_hạn sử_dụng
    , do giấy_phép lái_xe mất và quá thời_hạn sử_dụng của cá_nhân nộp tại Phòng Cảnh_sát
    giao_thông Nội_dung Điểm d : Giấy khám sức_khoẻ của người lái_xe do cơ_sở khám
    bệnh , chữa bệnh đủ tiêu_chuẩn theo quy_định của pháp_luật về khám bệnh , chữa
    bệnh cấp còn hiệu_lực ;'
  - '[ Nghị_định 165 _ 2024 _ NĐ-CP ] > Chương_IX > Điều 68 . Hiệu_lực thi_hành Nội_dung
    Khoản 2 : Trường_hợp các văn_bản quy_phạm_pháp_luật được viện_dẫn tại Nghị_định
    này được sửa_đổi , bổ_sung , thay thế thì áp_dụng theo các quy_định tại các văn_bản
    quy_phạm_pháp_luật sửa_đổi , bổ_sung , thay_thế đó .'
- source_sentence: Cơ_quan nào cần thống_nhất với Bộ Giao_thông vận_tải trước khi
    mở tuyến xe_buýt tại khu_vực cảng_hàng_không ?
  sentences:
  - '[ Luật Đường_bộ ] > Chương_IV > Điều 58 . Quyền và nghĩa_vụ của đơn_vị kinh_doanh
    vận_tải hành_khách bằng xe ô_tô Theo Khoản 2 : Đơn_vị kinh_doanh vận_tải hành_khách
    bằng xe ô_tô có các nghĩa_vụ sau đây : Nội_dung Điểm d : Bồi_thường thiệt_hại
    do người lao_động , người đại_diện của đơn_vị kinh_doanh vận_tải hành_khách bằng
    xe ô_tô gây ra trong quá_trình vận_tải theo quy_định của pháp_luật ;'
  - '[ Nghị_định 158 _ 2024 _ NĐ-CP ] > Chương_IV > Điều 73 . Uỷ_ban_nhân_dân cấp
    tỉnh Nội_dung Khoản 2 : Phối_hợp với Uỷ_ban_nhân_dân cấp tỉnh có tuyến xe_buýt
    đi qua để thống_nhất thực_hiện các nhiệm_vụ nêu tại khoản 3 Điều 5 của Nghị_định
    này . Thống_nhất với Bộ Giao_thông vận_tải trước khi mở tuyến xe_buýt có điểm
    đầu hoặc điểm cuối nằm trong khu_vực cảng_hàng_không .'
  - '[ Nghị_định 165 _ 2024 _ NĐ-CP ] > Chương_V > Điều 41 . Cấp lại chứng_chỉ thẩm_tra_viên
    an_toàn giao_thông đường_bộ Nội_dung Khoản 4 : Chứng_chỉ cấp lại có thời_hạn theo
    thời_hạn của chứng_chỉ đã cấp .'
- source_sentence: Tôi lái_xe không giữ khoảng_cách an_toàn dẫn đến va_chạm với xe
    phía trước thì bị xử_phạt như_thế_nào ?
  sentences:
  - '[ Thông_tư 38 _ 2024 _ TT-BGTVT ] > Chương I > Điều 2 . Đối_tượng áp_dụng Nội_dung
    : Thông_tư này áp_dụng đối_với người lái_xe , người điều_khiển xe_máy chuyên_dùng
    và tổ_chức , cá_nhân liên_quan đến quản_lý và thực_hiện các quy_định về tốc_độ
    thiết_kế , tốc_độ khai_thác của đường_bộ và khoảng_cách an_toàn của xe_cơ_giới
    , xe_máy chuyên_dùng khi tham_gia giao_thông trên đường_bộ .'
  - '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 18 . Xử_phạt , trừ điểm giấy_phép
    lái_xe các hành_vi vi_phạm quy_định về điều_kiện của người điều_khiển xe_cơ_giới
    Nội_dung Khoản 6 : Phạt tiền từ 4.000.000 đồng đến 6.000.000 đồng đối_với người
    từ đủ 16 tuổi đến dưới 18 tuổi điều_khiển xe ô_tô , xe chở người bốn bánh có gắn
    động_cơ , xe chở hàng bốn bánh có gắn động_cơ và các loại xe tương_tự xe ô_tô
    .'
  - '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 6 . Xử_phạt , trừ điểm giấy_phép
    lái_xe của người điều_khiển xe ô_tô , xe chở người bốn bánh có gắn động_cơ , xe
    chở hàng bốn bánh có gắn động_cơ và các loại xe tương_tự xe ô_tô vi_phạm quy_tắc
    giao_thông đường_bộ Theo Khoản 4 : Phạt tiền từ 2.000.000 đồng đến 3.000.000 đồng
    đối_với người điều_khiển xe thực_hiện một trong các hành_vi vi_phạm sau đây :
    Nội_dung Điểm l : Không giữ khoảng_cách an_toàn để xảy ra va_chạm với xe chạy
    liền trước hoặc không giữ khoảng_cách theo quy_định của biển_báo hiệu “ Cự_ly
    tối_thiểu giữa hai xe ” , trừ các hành_vi vi_phạm quy_định tại điểm d khoản 5
    Điều này .'
pipeline_tag: sentence-similarity
library_name: sentence-transformers
metrics:
- cosine_accuracy@1
- cosine_accuracy@3
- cosine_accuracy@5
- cosine_accuracy@10
- cosine_precision@1
- cosine_precision@3
- cosine_precision@5
- cosine_precision@10
- cosine_recall@1
- cosine_recall@3
- cosine_recall@5
- cosine_recall@10
- cosine_ndcg@10
- cosine_mrr@10
- cosine_map@100
model-index:
- name: SentenceTransformer based on vinai/phobert-base-v2
  results:
  - task:
      type: information-retrieval
      name: Information Retrieval
    dataset:
      name: bi eval
      type: bi_eval
    metrics:
    - type: cosine_accuracy@1
      value: 0.22984092155787164
      name: Cosine Accuracy@1
    - type: cosine_accuracy@3
      value: 0.5874931431705979
      name: Cosine Accuracy@3
    - type: cosine_accuracy@5
      value: 0.6889742183214481
      name: Cosine Accuracy@5
    - type: cosine_accuracy@10
      value: 0.7942951179374658
      name: Cosine Accuracy@10
    - type: cosine_precision@1
      value: 0.22984092155787164
      name: Cosine Precision@1
    - type: cosine_precision@3
      value: 0.19583104772353263
      name: Cosine Precision@3
    - type: cosine_precision@5
      value: 0.13779484366428962
      name: Cosine Precision@5
    - type: cosine_precision@10
      value: 0.07942951179374658
      name: Cosine Precision@10
    - type: cosine_recall@1
      value: 0.22984092155787164
      name: Cosine Recall@1
    - type: cosine_recall@3
      value: 0.5874931431705979
      name: Cosine Recall@3
    - type: cosine_recall@5
      value: 0.6889742183214481
      name: Cosine Recall@5
    - type: cosine_recall@10
      value: 0.7942951179374658
      name: Cosine Recall@10
    - type: cosine_ndcg@10
      value: 0.5121922323159882
      name: Cosine Ndcg@10
    - type: cosine_mrr@10
      value: 0.42142312950047534
      name: Cosine Mrr@10
    - type: cosine_map@100
      value: 0.4289544134167863
      name: Cosine Map@100
---

# SentenceTransformer based on vinai/phobert-base-v2

This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.

## Model Details

### Model Description
- **Model Type:** Sentence Transformer
- **Base model:** [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2) <!-- at revision e2375d266bdf39c6e8e9a87af16a5da3190b0cc8 -->
- **Maximum Sequence Length:** 256 tokens
- **Output Dimensionality:** 768 dimensions
- **Similarity Function:** Cosine Similarity
<!-- - **Training Dataset:** Unknown -->
<!-- - **Language:** Unknown -->
<!-- - **License:** Unknown -->

### Model Sources

- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
- **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)

### Full Model Architecture

```
SentenceTransformer(
  (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
```

## Usage

### Direct Usage (Sentence Transformers)

First install the Sentence Transformers library:

```bash
pip install -U sentence-transformers
```

Then you can load this model and run inference.
```python
from sentence_transformers import SentenceTransformer

# Download from the 🤗 Hub
model = SentenceTransformer("HiImHa/phobert-bi-encoder")
# Run inference
sentences = [
    'Tôi lái_xe không giữ khoảng_cách an_toàn dẫn đến va_chạm với xe phía trước thì bị xử_phạt như_thế_nào ?',
    '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 6 . Xử_phạt , trừ điểm giấy_phép lái_xe của người điều_khiển xe ô_tô , xe chở người bốn bánh có gắn động_cơ , xe chở hàng bốn bánh có gắn động_cơ và các loại xe tương_tự xe ô_tô vi_phạm quy_tắc giao_thông đường_bộ Theo Khoản 4 : Phạt tiền từ 2.000.000 đồng đến 3.000.000 đồng đối_với người điều_khiển xe thực_hiện một trong các hành_vi vi_phạm sau đây : Nội_dung Điểm l : Không giữ khoảng_cách an_toàn để xảy ra va_chạm với xe chạy liền trước hoặc không giữ khoảng_cách theo quy_định của biển_báo hiệu “ Cự_ly tối_thiểu giữa hai xe ” , trừ các hành_vi vi_phạm quy_định tại điểm d khoản 5 Điều này .',
    '[ Thông_tư 38 _ 2024 _ TT-BGTVT ] > Chương I > Điều 2 . Đối_tượng áp_dụng Nội_dung : Thông_tư này áp_dụng đối_với người lái_xe , người điều_khiển xe_máy chuyên_dùng và tổ_chức , cá_nhân liên_quan đến quản_lý và thực_hiện các quy_định về tốc_độ thiết_kế , tốc_độ khai_thác của đường_bộ và khoảng_cách an_toàn của xe_cơ_giới , xe_máy chuyên_dùng khi tham_gia giao_thông trên đường_bộ .',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
# [3, 768]

# Get the similarity scores for the embeddings
similarities = model.similarity(embeddings, embeddings)
print(similarities)
# tensor([[1.0000, 0.8185, 0.1573],
#         [0.8185, 1.0000, 0.1459],
#         [0.1573, 0.1459, 1.0000]])
```

<!--
### Direct Usage (Transformers)

<details><summary>Click to see the direct usage in Transformers</summary>

</details>
-->

<!--
### Downstream Usage (Sentence Transformers)

You can finetune this model on your own dataset.

<details><summary>Click to expand</summary>

</details>
-->

<!--
### Out-of-Scope Use

*List how the model may foreseeably be misused and address what users ought not to do with the model.*
-->

## Evaluation

### Metrics

#### Information Retrieval

* Dataset: `bi_eval`
* Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)

| Metric              | Value      |
|:--------------------|:-----------|
| cosine_accuracy@1   | 0.2298     |
| cosine_accuracy@3   | 0.5875     |
| cosine_accuracy@5   | 0.689      |
| cosine_accuracy@10  | 0.7943     |
| cosine_precision@1  | 0.2298     |
| cosine_precision@3  | 0.1958     |
| cosine_precision@5  | 0.1378     |
| cosine_precision@10 | 0.0794     |
| cosine_recall@1     | 0.2298     |
| cosine_recall@3     | 0.5875     |
| cosine_recall@5     | 0.689      |
| cosine_recall@10    | 0.7943     |
| **cosine_ndcg@10**  | **0.5122** |
| cosine_mrr@10       | 0.4214     |
| cosine_map@100      | 0.429      |

<!--
## Bias, Risks and Limitations

*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
-->

<!--
### Recommendations

*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
-->

## Training Details

### Training Dataset

#### Unnamed Dataset

* Size: 16,399 training samples
* Columns: <code>sentence_0</code> and <code>sentence_1</code>
* Approximate statistics based on the first 1000 samples:
  |         | sentence_0                                                                        | sentence_1                                                                          |
  |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
  | type    | string                                                                            | string                                                                              |
  | details | <ul><li>min: 10 tokens</li><li>mean: 19.8 tokens</li><li>max: 36 tokens</li></ul> | <ul><li>min: 29 tokens</li><li>mean: 88.98 tokens</li><li>max: 250 tokens</li></ul> |
* Samples:
  | sentence_0                                                                                                            | sentence_1                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |
  |:----------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
  | <code>Những hành_vi nào của người được chở trên xe mô_tô , xe_gắn_máy bị xử_phạt từ 400.000 đến 600.000 đồng ?</code> | <code>[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 12 . Xử_phạt , trừ điểm giấy_phép lái_xe các hành_vi vi_phạm khác về quy_tắc giao_thông đường_bộ ; sử_dụng lòng_đường , vỉa_hè vào mục_đích khác Theo Khoản 5 : Phạt tiền từ 400.000 đồng đến 600.000 đồng đối_với người được chở trên xe mô_tô , xe_gắn_máy , các loại xe tương_tự xe mô_tô , các loại xe tương_tự xe_gắn_máy thực_hiện một trong các hành_vi vi_phạm sau đây : Nội_dung Điểm a : Bám , kéo , đẩy xe khác , vật khác , dẫn_dắt vật_nuôi , mang vác vật cồng_kềnh , đứng trên yên , giá đèo_hàng hoặc ngồi trên tay_lái của xe ;</code>         |
  | <code>Tổng quãng đường đào_tạo thực_hành mà tôi phải đi khi nâng hạng từ B lên C là bao_nhiêu kilomet ?</code>        | <code>[ Thông_tư 35 _ 2024 _ TT-BGTVT ] > Chương I > Điều 8 . Đào_tạo nâng hạng giấy_phép lái_xe Theo Khoản 1 : Khối_lượng chương_trình và phân_bổ thời_gian đào_tạo tối_thiểu : Chi_tiết bảng ( Dòng 10 ) : SỐ TT : 3 \| NỘI_DUNG : Tổng quãng đường đào_tạo thực_hành của 01 học_viên \| ĐƠN_VỊ TÍNH : km \| HẠNG GIẤY_PHÉP LÁI_XE - B lên C 1 : 120 \| HẠNG GIẤY_PHÉP LÁI_XE - B lên C : 240 \| HẠNG GIẤY_PHÉP LÁI_XE - B lên D 1 : 380 \| HẠNG GIẤY_PHÉP LÁI_XE - B lên D 2 : 380 \| HẠNG GIẤY_PHÉP LÁI_XE - B lên BE : 240</code>                                                                                    |
  | <code>Chi_phí để lập phương_án tổ_chức giao_thông cho một dự_án đường_cao_tốc mới được tính vào đâu ?</code>          | <code>[ Nghị_định 165 _ 2024 _ NĐ-CP ] > Chương_IV > Điều 26 . Lập , thẩm_định , phê_duyệt phương_án tổ_chức giao_thông trước khi đưa đường_cao_tốc vào khai_thác , phê_duyệt điều_chỉnh , bổ_sung phương_án tổ_chức giao_thông đường_cao_tốc trong thời_gian khai_thác Nội_dung Khoản 5 : Chi_phí lập phương_án tổ_chức giao_thông được tính trong chi_phí tư_vấn thiết_kế khi đầu_tư xây_dựng công_trình đường_cao_tốc ; chi_phí khảo_sát , lập phương_án tổ_chức giao_thông điều_chỉnh khi đường_cao_tốc đã đưa vào khai_thác được tính trong chi_phí quản_lý , vận_hành , khai_thác và bảo_trì đường_cao_tốc .</code> |
* Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
  ```json
  {
      "scale": 20.0,
      "similarity_fct": "cos_sim",
      "gather_across_devices": false
  }
  ```

### Training Hyperparameters
#### Non-Default Hyperparameters

- `per_device_train_batch_size`: 32
- `per_device_eval_batch_size`: 32
- `num_train_epochs`: 5
- `multi_dataset_batch_sampler`: round_robin

#### All Hyperparameters
<details><summary>Click to expand</summary>

- `do_predict`: False
- `eval_strategy`: no
- `prediction_loss_only`: True
- `per_device_train_batch_size`: 32
- `per_device_eval_batch_size`: 32
- `gradient_accumulation_steps`: 1
- `eval_accumulation_steps`: None
- `torch_empty_cache_steps`: None
- `learning_rate`: 5e-05
- `weight_decay`: 0.0
- `adam_beta1`: 0.9
- `adam_beta2`: 0.999
- `adam_epsilon`: 1e-08
- `max_grad_norm`: 1
- `num_train_epochs`: 5
- `max_steps`: -1
- `lr_scheduler_type`: linear
- `lr_scheduler_kwargs`: None
- `warmup_ratio`: None
- `warmup_steps`: 0
- `log_level`: passive
- `log_level_replica`: warning
- `log_on_each_node`: True
- `logging_nan_inf_filter`: True
- `enable_jit_checkpoint`: False
- `save_on_each_node`: False
- `save_only_model`: False
- `restore_callback_states_from_checkpoint`: False
- `use_cpu`: False
- `seed`: 42
- `data_seed`: None
- `bf16`: False
- `fp16`: False
- `bf16_full_eval`: False
- `fp16_full_eval`: False
- `tf32`: None
- `local_rank`: -1
- `ddp_backend`: None
- `debug`: []
- `dataloader_drop_last`: False
- `dataloader_num_workers`: 0
- `dataloader_prefetch_factor`: None
- `disable_tqdm`: False
- `remove_unused_columns`: True
- `label_names`: None
- `load_best_model_at_end`: False
- `ignore_data_skip`: False
- `fsdp`: []
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
- `parallelism_config`: None
- `deepspeed`: None
- `label_smoothing_factor`: 0.0
- `optim`: adamw_torch_fused
- `optim_args`: None
- `group_by_length`: False
- `length_column_name`: length
- `project`: huggingface
- `trackio_space_id`: trackio
- `ddp_find_unused_parameters`: None
- `ddp_bucket_cap_mb`: None
- `ddp_broadcast_buffers`: False
- `dataloader_pin_memory`: True
- `dataloader_persistent_workers`: False
- `skip_memory_metrics`: True
- `push_to_hub`: False
- `resume_from_checkpoint`: None
- `hub_model_id`: None
- `hub_strategy`: every_save
- `hub_private_repo`: None
- `hub_always_push`: False
- `hub_revision`: None
- `gradient_checkpointing`: False
- `gradient_checkpointing_kwargs`: None
- `include_for_metrics`: []
- `eval_do_concat_batches`: True
- `auto_find_batch_size`: False
- `full_determinism`: False
- `ddp_timeout`: 1800
- `torch_compile`: False
- `torch_compile_backend`: None
- `torch_compile_mode`: None
- `include_num_input_tokens_seen`: no
- `neftune_noise_alpha`: None
- `optim_target_modules`: None
- `batch_eval_metrics`: False
- `eval_on_start`: False
- `use_liger_kernel`: False
- `liger_kernel_config`: None
- `eval_use_gather_object`: False
- `average_tokens_across_devices`: True
- `use_cache`: False
- `prompts`: None
- `batch_sampler`: batch_sampler
- `multi_dataset_batch_sampler`: round_robin
- `router_mapping`: {}
- `learning_rate_mapping`: {}

</details>

### Training Logs
| Epoch  | Step | Training Loss | bi_eval_cosine_ndcg@10 |
|:------:|:----:|:-------------:|:----------------------:|
| 1.0    | 257  | -             | 0.4887                 |
| 1.9455 | 500  | 0.4220        | -                      |
| 2.0    | 514  | -             | 0.5036                 |
| 3.0    | 771  | -             | 0.5044                 |
| 3.8911 | 1000 | 0.0569        | -                      |
| 4.0    | 1028 | -             | 0.5122                 |


### Framework Versions
- Python: 3.12.12
- Sentence Transformers: 5.2.3
- Transformers: 5.0.0
- PyTorch: 2.10.0+cu128
- Accelerate: 1.12.0
- Datasets: 4.8.3
- Tokenizers: 0.22.2

## Citation

### BibTeX

#### Sentence Transformers
```bibtex
@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}
```

#### MultipleNegativesRankingLoss
```bibtex
@misc{henderson2017efficient,
    title={Efficient Natural Language Response Suggestion for Smart Reply},
    author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
    year={2017},
    eprint={1705.00652},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}
```

<!--
## Glossary

*Clearly define terms in order to be accessible across audiences.*
-->

<!--
## Model Card Authors

*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
-->

<!--
## Model Card Contact

*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
-->