HiImHa commited on
Commit
64608cd
·
verified ·
1 Parent(s): 928a26a

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,526 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:16399
9
+ - loss:MultipleNegativesRankingLoss
10
+ base_model: vinai/phobert-base-v2
11
+ widget:
12
+ - source_sentence: Khi điều_chỉnh quy_hoạch mạng_lưới đường_bộ , cần tuân_thủ những
13
+ nguyên_tắc nào ?
14
+ sentences:
15
+ - '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 7 . Xử_phạt , trừ điểm giấy_phép
16
+ lái của người điều_khiển xe mô_tô , xe_gắn_máy , các loại xe tương_tự xe mô_tô
17
+ và các loại xe tương_tự xe_gắn_máy vi_phạm quy_tắc giao_thông đường_bộ Theo Khoản
18
+ 13 : Ngoài việc bị áp_dụng hình_thức xử_phạt , người điều_khiển xe thực_hiện hành_vi
19
+ vi_phạm còn bị trừ điểm giấy_phép lái_xe như sau : Nội_dung Điểm d : Thực_hiện
20
+ hành_vi quy_định tại điểm b khoản 8 , khoản 10 Điều này bị trừ điểm giấy_phép
21
+ lái_xe 10 điểm .'
22
+ - '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 21 . Xử_phạt , trừ điểm giấy_phép
23
+ lái_xe của người điều_khiển xe ô_tô tải , máy_kéo ( bao_gồm cả rơ moóc hoặc sơ_mi
24
+ rơ moóc được kéo_theo ) và các loại xe tương_tự xe ô_tô vận_chuyển hàng_hoá vi_phạm
25
+ quy_định về bảo_đảm trật_tự , an_toàn giao_thông đường_bộ với xe ô_tô vận_chuyển
26
+ hàng_hoá Nội_dung Khoản 4 : Phạt tiền từ 2.000.000 đồng đến 3.000.000 đồng đối_với
27
+ người điều_khiển xe thực_hiện hành_vi chở hàng vượt quá chiều cao xếp_hàng cho_phép
28
+ đối_với xe ô_tô tải ( kể_cả rơ moóc và sơ_mi rơ moóc ) .'
29
+ - '[ Luật Đường_bộ ] > Chương I > Điều 5 . Quy_hoạch mạng_lưới đường_bộ , quy_hoạch
30
+ kết_cấu_hạ_tầng đường_bộ Theo Khoản 1 : Quy_hoạch mạng_lưới đường_bộ được quy_định
31
+ như sau : Nội_dung Điểm b : Việc lập , thẩm_định , phê_duyệt , điều_chỉnh quy_hoạch
32
+ mạng_lưới đường_bộ phải tuân_thủ quy_định của pháp_luật về quy_hoạch và bảo_đảm
33
+ kết_nối phương_thức vận_tải đường_bộ với các phương_thức vận_tải khác ;'
34
+ - source_sentence: Hạn chót để đầu_tư công_trình kiểm_soát tải_trọng xe trên các tuyến
35
+ đường_cao_tốc do doanh_nghiệp nhà_nước đầu_tư là khi nào ?
36
+ sentences:
37
+ - '[ Thông_tư 35 _ 2024 _ TT-BGTVT ] > Chương II > Điều 63 . Cơ_sở đào_tạo Theo
38
+ Khoản 1 : Đối_với công_tác đào_tạo lái_xe Nội_dung Điểm i : Tổ_chức kiểm_tra môn_học
39
+ : người đứng đầu cơ_sở đào_tạo lái_xe căn_cứ nội_dung kiểm_tra quy_định tại khoản
40
+ 4 Điều 6 , khoản 4 Điều 7 và khoản 4 Điều 8 Thông_tư này xây dựng quy_trình kiểm_tra
41
+ ;'
42
+ - '[ Nghị_định 165 _ 2024 _ NĐ-CP ] > Chương_VI > Điều 55 . Lộ_trình đầu_tư xây_dựng
43
+ đối_với đường_cao_tốc chưa đáp_ứng tiêu_chuẩn , quy_chuẩn kỹ_thuật theo khoản
44
+ 1 Điều 45 Luật Đường_bộ ,  đường gom , đường bên , Trung_tâm quản_lý , điều_hành
45
+ giao_thông tuyến đường_cao_tốc , công_trình kiểm_soát tải_trọng xe , hệ_thống
46
+ thu phí điện_tử không dừng Theo Khoản 3 : Đối_với Trung_tâm quản_lý , điều_hành
47
+ giao_thông tuyến đường_cao_tốc , công_trình kiểm_soát tải_trọng xe Nội_dung Điểm
48
+ a : Đối_với dự_án đường_bộ cao_tốc đầu_tư theo hình_thức đầu_tư công và đường_cao_tốc
49
+ do doanh_nghiệp nhà_nước đầu_tư : trường_hợp dự_án cân_đối được nguồn vốn để đầu_tư
50
+ các hạng_mục trên thì tổ_chức thực_hiện đầu_tư trước ngày 31 tháng 12 năm 2027
51
+ . Trường_hợp dự_án không cân_đối được nguồn vốn để đầu_tư , chủ đầu_tư hoặc người_quản_lý
52
+ , sử_dụng đường_cao_tốc báo_cáo cấp có thẩm_quyền bố_trí vốn đầu_tư để đầu_tư
53
+ , bảo_đảm khai_thác an_toàn ;'
54
+ - '[ Nghị_định 158 _ 2024 _ NĐ-CP ] > Chương II > Điều 25 . Quy_định đối_với vận_tải
55
+ hàng_hoá nội_bộ bằng xe ô_tô Theo Khoản 1 : Xe ô_tô vận_tải hàng_hoá nội_bộ Nội_dung
56
+ Điểm a : Xe ô_tô phải đáp_ứng các điều_kiện tham_gia giao_thông theo quy_định
57
+ tại khoản 1 Điều 35 , khoản 1 , khoản 2 và khoản 3 Điều 40 của Luật Trật_tự ,
58
+ an_toàn giao_thông đường_bộ ; phải có dây an_toàn tại vị_trí ghế_ngồi , có hướng_dẫn
59
+ về an_toàn giao_thông và thoát hiểm khi xảy ra sự_cố trên xe ;'
60
+ - source_sentence: Nếu các văn_bản pháp_luật được viện_dẫn trong Nghị_định 165/2024/NĐ-CP
61
+ bị thay thế thì tôi phải áp_dụng theo văn_bản nào ?
62
+ sentences:
63
+ - '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 18 . Xử_phạt , trừ điểm giấy_phép
64
+ lái_xe các hành_vi vi_phạm quy_định về điều_kiện của người điều_khiển xe_cơ_giới
65
+ Theo Khoản 3 : Phạt tiền từ 300.000 đồng đến 400.000 đồng đối_với một trong các
66
+ hành_vi vi_phạm sau đây : Nội_dung Điểm a : Người điều_khiển xe ô_tô , xe chở
67
+ người bốn bánh có gắn động_cơ , xe chở hàng bốn bánh có gắn động_cơ và các loại
68
+ xe tương_tự xe ô_tô kinh_doanh vận_tải không mang theo giấy_phép lái_xe , trừ
69
+ hành_vi vi_phạm quy_định tại điểm c khoản 8 Điều này ;'
70
+ - '[ Thông_tư 12 _ 2025 _ TT-BCA ] > Chương II > Điều 16 . Hồ_sơ dự sát_hạch lái_xe
71
+ Theo Khoản 3 : Hồ_sơ đề_nghị sát_hạch cấp giấy_phép lái_xe do quá thời_hạn sử_dụng
72
+ , do giấy_phép lái_xe mất và quá thời_hạn sử_dụng của cá_nhân nộp tại Phòng Cảnh_sát
73
+ giao_thông Nội_dung Điểm d : Giấy khám sức_khoẻ của người lái_xe do cơ_sở khám
74
+ bệnh , chữa bệnh đủ tiêu_chuẩn theo quy_định của pháp_luật về khám bệnh , chữa
75
+ bệnh cấp còn hiệu_lực ;'
76
+ - '[ Nghị_định 165 _ 2024 _ NĐ-CP ] > Chương_IX > Điều 68 . Hiệu_lực thi_hành Nội_dung
77
+ Khoản 2 : Trường_hợp các văn_bản quy_phạm_pháp_luật được viện_dẫn tại Nghị_định
78
+ này được sửa_đổi , bổ_sung , thay thế thì áp_dụng theo các quy_định tại các văn_bản
79
+ quy_phạm_pháp_luật sửa_đổi , bổ_sung , thay_thế đó .'
80
+ - source_sentence: Cơ_quan nào cần thống_nhất với Bộ Giao_thông vận_tải trước khi
81
+ mở tuyến xe_buýt tại khu_vực cảng_hàng_không ?
82
+ sentences:
83
+ - '[ Luật Đường_bộ ] > Chương_IV > Điều 58 . Quyền và nghĩa_vụ của đơn_vị kinh_doanh
84
+ vận_tải hành_khách bằng xe ô_tô Theo Khoản 2 : Đơn_vị kinh_doanh vận_tải hành_khách
85
+ bằng xe ô_tô có các nghĩa_vụ sau đây : Nội_dung Điểm d : Bồi_thường thiệt_hại
86
+ do người lao_động , người đại_diện của đơn_vị kinh_doanh vận_tải hành_khách bằng
87
+ xe ô_tô gây ra trong quá_trình vận_tải theo quy_định của pháp_luật ;'
88
+ - '[ Nghị_định 158 _ 2024 _ NĐ-CP ] > Chương_IV > Điều 73 . Uỷ_ban_nhân_dân cấp
89
+ tỉnh Nội_dung Khoản 2 : Phối_hợp với Uỷ_ban_nhân_dân cấp tỉnh có tuyến xe_buýt
90
+ đi qua để thống_nhất thực_hiện các nhiệm_vụ nêu tại khoản 3 Điều 5 của Nghị_định
91
+ này . Thống_nhất với Bộ Giao_thông vận_tải trước khi mở tuyến xe_buýt có điểm
92
+ đầu hoặc điểm cuối nằm trong khu_vực cảng_hàng_không .'
93
+ - '[ Nghị_định 165 _ 2024 _ NĐ-CP ] > Chương_V > Điều 41 . Cấp lại chứng_chỉ thẩm_tra_viên
94
+ an_toàn giao_thông đường_bộ Nội_dung Khoản 4 : Chứng_chỉ cấp lại có thời_hạn theo
95
+ thời_hạn của chứng_chỉ đã cấp .'
96
+ - source_sentence: Tôi lái_xe không giữ khoảng_cách an_toàn dẫn đến va_chạm với xe
97
+ phía trước thì bị xử_phạt như_thế_nào ?
98
+ sentences:
99
+ - '[ Thông_tư 38 _ 2024 _ TT-BGTVT ] > Chương I > Điều 2 . Đối_tượng áp_dụng Nội_dung
100
+ : Thông_tư này áp_dụng đối_với người lái_xe , người điều_khiển xe_máy chuyên_dùng
101
+ và tổ_chức , cá_nhân liên_quan đến quản_lý và thực_hiện các quy_định về tốc_độ
102
+ thiết_kế , tốc_độ khai_thác của đường_bộ và khoảng_cách an_toàn của xe_cơ_giới
103
+ , xe_máy chuyên_dùng khi tham_gia giao_thông trên đường_bộ .'
104
+ - '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 18 . Xử_phạt , trừ điểm giấy_phép
105
+ lái_xe các hành_vi vi_phạm quy_định về điều_kiện của người điều_khiển xe_cơ_giới
106
+ Nội_dung Khoản 6 : Phạt tiền từ 4.000.000 đồng đến 6.000.000 đồng đối_với người
107
+ từ đủ 16 tuổi đến dưới 18 tuổi điều_khiển xe ô_tô , xe chở người bốn bánh có gắn
108
+ động_cơ , xe chở hàng bốn bánh có gắn động_cơ và các loại xe tương_tự xe ô_tô
109
+ .'
110
+ - '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 6 . Xử_phạt , trừ điểm giấy_phép
111
+ lái_xe của người điều_khiển xe ô_tô , xe chở người bốn bánh có gắn động_cơ , xe
112
+ chở hàng bốn bánh có gắn động_cơ và các loại xe tương_tự xe ô_tô vi_phạm quy_tắc
113
+ giao_thông đường_bộ Theo Khoản 4 : Phạt tiền từ 2.000.000 đồng đến 3.000.000 ��ồng
114
+ đối_với người điều_khiển xe thực_hiện một trong các hành_vi vi_phạm sau đây :
115
+ Nội_dung Điểm l : Không giữ khoảng_cách an_toàn để xảy ra va_chạm với xe chạy
116
+ liền trước hoặc không giữ khoảng_cách theo quy_định của biển_báo hiệu “ Cự_ly
117
+ tối_thiểu giữa hai xe ” , trừ các hành_vi vi_phạm quy_định tại điểm d khoản 5
118
+ Điều này .'
119
+ pipeline_tag: sentence-similarity
120
+ library_name: sentence-transformers
121
+ metrics:
122
+ - cosine_accuracy@1
123
+ - cosine_accuracy@3
124
+ - cosine_accuracy@5
125
+ - cosine_accuracy@10
126
+ - cosine_precision@1
127
+ - cosine_precision@3
128
+ - cosine_precision@5
129
+ - cosine_precision@10
130
+ - cosine_recall@1
131
+ - cosine_recall@3
132
+ - cosine_recall@5
133
+ - cosine_recall@10
134
+ - cosine_ndcg@10
135
+ - cosine_mrr@10
136
+ - cosine_map@100
137
+ model-index:
138
+ - name: SentenceTransformer based on vinai/phobert-base-v2
139
+ results:
140
+ - task:
141
+ type: information-retrieval
142
+ name: Information Retrieval
143
+ dataset:
144
+ name: bi eval
145
+ type: bi_eval
146
+ metrics:
147
+ - type: cosine_accuracy@1
148
+ value: 0.22984092155787164
149
+ name: Cosine Accuracy@1
150
+ - type: cosine_accuracy@3
151
+ value: 0.5874931431705979
152
+ name: Cosine Accuracy@3
153
+ - type: cosine_accuracy@5
154
+ value: 0.6889742183214481
155
+ name: Cosine Accuracy@5
156
+ - type: cosine_accuracy@10
157
+ value: 0.7942951179374658
158
+ name: Cosine Accuracy@10
159
+ - type: cosine_precision@1
160
+ value: 0.22984092155787164
161
+ name: Cosine Precision@1
162
+ - type: cosine_precision@3
163
+ value: 0.19583104772353263
164
+ name: Cosine Precision@3
165
+ - type: cosine_precision@5
166
+ value: 0.13779484366428962
167
+ name: Cosine Precision@5
168
+ - type: cosine_precision@10
169
+ value: 0.07942951179374658
170
+ name: Cosine Precision@10
171
+ - type: cosine_recall@1
172
+ value: 0.22984092155787164
173
+ name: Cosine Recall@1
174
+ - type: cosine_recall@3
175
+ value: 0.5874931431705979
176
+ name: Cosine Recall@3
177
+ - type: cosine_recall@5
178
+ value: 0.6889742183214481
179
+ name: Cosine Recall@5
180
+ - type: cosine_recall@10
181
+ value: 0.7942951179374658
182
+ name: Cosine Recall@10
183
+ - type: cosine_ndcg@10
184
+ value: 0.5121922323159882
185
+ name: Cosine Ndcg@10
186
+ - type: cosine_mrr@10
187
+ value: 0.42142312950047534
188
+ name: Cosine Mrr@10
189
+ - type: cosine_map@100
190
+ value: 0.4289544134167863
191
+ name: Cosine Map@100
192
+ ---
193
+
194
+ # SentenceTransformer based on vinai/phobert-base-v2
195
+
196
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
197
+
198
+ ## Model Details
199
+
200
+ ### Model Description
201
+ - **Model Type:** Sentence Transformer
202
+ - **Base model:** [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2) <!-- at revision e2375d266bdf39c6e8e9a87af16a5da3190b0cc8 -->
203
+ - **Maximum Sequence Length:** 256 tokens
204
+ - **Output Dimensionality:** 768 dimensions
205
+ - **Similarity Function:** Cosine Similarity
206
+ <!-- - **Training Dataset:** Unknown -->
207
+ <!-- - **Language:** Unknown -->
208
+ <!-- - **License:** Unknown -->
209
+
210
+ ### Model Sources
211
+
212
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
213
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
214
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
215
+
216
+ ### Full Model Architecture
217
+
218
+ ```
219
+ SentenceTransformer(
220
+ (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
221
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
222
+ )
223
+ ```
224
+
225
+ ## Usage
226
+
227
+ ### Direct Usage (Sentence Transformers)
228
+
229
+ First install the Sentence Transformers library:
230
+
231
+ ```bash
232
+ pip install -U sentence-transformers
233
+ ```
234
+
235
+ Then you can load this model and run inference.
236
+ ```python
237
+ from sentence_transformers import SentenceTransformer
238
+
239
+ # Download from the 🤗 Hub
240
+ model = SentenceTransformer("HiImHa/phobert-bi-encoder")
241
+ # Run inference
242
+ sentences = [
243
+ 'Tôi lái_xe không giữ khoảng_cách an_toàn dẫn đến va_chạm với xe phía trước thì bị xử_phạt như_thế_nào ?',
244
+ '[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 6 . Xử_phạt , trừ điểm giấy_phép lái_xe của người điều_khiển xe ô_tô , xe chở người bốn bánh có gắn động_cơ , xe chở hàng bốn bánh có gắn động_cơ và các loại xe tương_tự xe ô_tô vi_phạm quy_tắc giao_thông đường_bộ Theo Khoản 4 : Phạt tiền từ 2.000.000 đồng đến 3.000.000 đồng đối_với người điều_khiển xe thực_hiện một trong các hành_vi vi_phạm sau đây : Nội_dung Điểm l : Không giữ khoảng_cách an_toàn để xảy ra va_chạm với xe chạy liền trước hoặc không giữ khoảng_cách theo quy_định của biển_báo hiệu “ Cự_ly tối_thiểu giữa hai xe ” , trừ các hành_vi vi_phạm quy_định tại điểm d khoản 5 Điều này .',
245
+ '[ Thông_tư 38 _ 2024 _ TT-BGTVT ] > Chương I > Điều 2 . Đối_tượng áp_dụng Nội_dung : Thông_tư này áp_dụng đối_với người lái_xe , người điều_khiển xe_máy chuyên_dùng và tổ_chức , cá_nhân liên_quan đến quản_lý và thực_hiện các quy_định về tốc_độ thiết_kế , tốc_độ khai_thác của đường_bộ và khoảng_cách an_toàn của xe_cơ_giới , xe_máy chuyên_dùng khi tham_gia giao_thông trên đường_bộ .',
246
+ ]
247
+ embeddings = model.encode(sentences)
248
+ print(embeddings.shape)
249
+ # [3, 768]
250
+
251
+ # Get the similarity scores for the embeddings
252
+ similarities = model.similarity(embeddings, embeddings)
253
+ print(similarities)
254
+ # tensor([[1.0000, 0.8185, 0.1573],
255
+ # [0.8185, 1.0000, 0.1459],
256
+ # [0.1573, 0.1459, 1.0000]])
257
+ ```
258
+
259
+ <!--
260
+ ### Direct Usage (Transformers)
261
+
262
+ <details><summary>Click to see the direct usage in Transformers</summary>
263
+
264
+ </details>
265
+ -->
266
+
267
+ <!--
268
+ ### Downstream Usage (Sentence Transformers)
269
+
270
+ You can finetune this model on your own dataset.
271
+
272
+ <details><summary>Click to expand</summary>
273
+
274
+ </details>
275
+ -->
276
+
277
+ <!--
278
+ ### Out-of-Scope Use
279
+
280
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
281
+ -->
282
+
283
+ ## Evaluation
284
+
285
+ ### Metrics
286
+
287
+ #### Information Retrieval
288
+
289
+ * Dataset: `bi_eval`
290
+ * Evaluated with [<code>InformationRetrievalEvaluator</code>](https://sbert.net/docs/package_reference/sentence_transformer/evaluation.html#sentence_transformers.evaluation.InformationRetrievalEvaluator)
291
+
292
+ | Metric | Value |
293
+ |:--------------------|:-----------|
294
+ | cosine_accuracy@1 | 0.2298 |
295
+ | cosine_accuracy@3 | 0.5875 |
296
+ | cosine_accuracy@5 | 0.689 |
297
+ | cosine_accuracy@10 | 0.7943 |
298
+ | cosine_precision@1 | 0.2298 |
299
+ | cosine_precision@3 | 0.1958 |
300
+ | cosine_precision@5 | 0.1378 |
301
+ | cosine_precision@10 | 0.0794 |
302
+ | cosine_recall@1 | 0.2298 |
303
+ | cosine_recall@3 | 0.5875 |
304
+ | cosine_recall@5 | 0.689 |
305
+ | cosine_recall@10 | 0.7943 |
306
+ | **cosine_ndcg@10** | **0.5122** |
307
+ | cosine_mrr@10 | 0.4214 |
308
+ | cosine_map@100 | 0.429 |
309
+
310
+ <!--
311
+ ## Bias, Risks and Limitations
312
+
313
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
314
+ -->
315
+
316
+ <!--
317
+ ### Recommendations
318
+
319
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
320
+ -->
321
+
322
+ ## Training Details
323
+
324
+ ### Training Dataset
325
+
326
+ #### Unnamed Dataset
327
+
328
+ * Size: 16,399 training samples
329
+ * Columns: <code>sentence_0</code> and <code>sentence_1</code>
330
+ * Approximate statistics based on the first 1000 samples:
331
+ | | sentence_0 | sentence_1 |
332
+ |:--------|:----------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|
333
+ | type | string | string |
334
+ | details | <ul><li>min: 10 tokens</li><li>mean: 19.8 tokens</li><li>max: 36 tokens</li></ul> | <ul><li>min: 29 tokens</li><li>mean: 88.98 tokens</li><li>max: 250 tokens</li></ul> |
335
+ * Samples:
336
+ | sentence_0 | sentence_1 |
337
+ |:----------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
338
+ | <code>Những hành_vi nào của người được chở trên xe mô_tô , xe_gắn_máy bị xử_phạt từ 400.000 đến 600.000 đồng ?</code> | <code>[ Nghị_định 168 _ 2024 _ NĐ-CP ] > Chương II > Điều 12 . Xử_phạt , trừ điểm giấy_phép lái_xe các hành_vi vi_phạm khác về quy_tắc giao_thông đường_bộ ; sử_dụng lòng_đường , vỉa_hè vào mục_đích khác Theo Khoản 5 : Phạt tiền từ 400.000 đồng đến 600.000 đồng đối_với người được chở trên xe mô_tô , xe_gắn_máy , các loại xe tương_tự xe mô_tô , các loại xe tương_tự xe_gắn_máy thực_hiện một trong các hành_vi vi_phạm sau đây : Nội_dung Điểm a : Bám , kéo , đẩy xe khác , vật khác , dẫn_dắt vật_nuôi , mang vác vật cồng_kềnh , đứng trên yên , giá đèo_hàng hoặc ngồi trên tay_lái của xe ;</code> |
339
+ | <code>Tổng quãng đường đào_tạo thực_hành mà tôi phải đi khi nâng hạng từ B lên C là bao_nhiêu kilomet ?</code> | <code>[ Thông_tư 35 _ 2024 _ TT-BGTVT ] > Chương I > Điều 8 . Đào_tạo nâng hạng giấy_phép lái_xe Theo Khoản 1 : Khối_lượng chương_trình và phân_bổ thời_gian đào_tạo tối_thiểu : Chi_tiết bảng ( Dòng 10 ) : SỐ TT : 3 \| NỘI_DUNG : Tổng quãng đường đào_tạo thực_hành của 01 học_viên \| ĐƠN_VỊ TÍNH : km \| HẠNG GIẤY_PHÉP LÁI_XE - B lên C 1 : 120 \| HẠNG GIẤY_PHÉP LÁI_XE - B lên C : 240 \| HẠNG GIẤY_PHÉP LÁI_XE - B lên D 1 : 380 \| HẠNG GIẤY_PHÉP LÁI_XE - B lên D 2 : 380 \| HẠNG GIẤY_PHÉP LÁI_XE - B lên BE : 240</code> |
340
+ | <code>Chi_phí để lập phương_án tổ_chức giao_thông cho một dự_án đường_cao_tốc mới được tính vào đâu ?</code> | <code>[ Nghị_định 165 _ 2024 _ NĐ-CP ] > Chương_IV > Điều 26 . Lập , thẩm_định , phê_duyệt phương_án tổ_chức giao_thông trước khi đưa đường_cao_tốc vào khai_thác , phê_duyệt điều_chỉnh , bổ_sung phương_án tổ_chức giao_thông đường_cao_tốc trong thời_gian khai_thác Nội_dung Khoản 5 : Chi_phí lập phương_án tổ_chức giao_thông được tính trong chi_phí tư_vấn thiết_kế khi đầu_tư xây_dựng công_trình đường_cao_tốc ; chi_phí khảo_sát , lập phương_án tổ_chức giao_thông điều_chỉnh khi đường_cao_tốc đã đưa vào khai_thác được tính trong chi_phí quản_lý , vận_hành , khai_thác và bảo_trì đường_cao_tốc .</code> |
341
+ * Loss: [<code>MultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#multiplenegativesrankingloss) with these parameters:
342
+ ```json
343
+ {
344
+ "scale": 20.0,
345
+ "similarity_fct": "cos_sim",
346
+ "gather_across_devices": false
347
+ }
348
+ ```
349
+
350
+ ### Training Hyperparameters
351
+ #### Non-Default Hyperparameters
352
+
353
+ - `per_device_train_batch_size`: 32
354
+ - `per_device_eval_batch_size`: 32
355
+ - `num_train_epochs`: 5
356
+ - `multi_dataset_batch_sampler`: round_robin
357
+
358
+ #### All Hyperparameters
359
+ <details><summary>Click to expand</summary>
360
+
361
+ - `do_predict`: False
362
+ - `eval_strategy`: no
363
+ - `prediction_loss_only`: True
364
+ - `per_device_train_batch_size`: 32
365
+ - `per_device_eval_batch_size`: 32
366
+ - `gradient_accumulation_steps`: 1
367
+ - `eval_accumulation_steps`: None
368
+ - `torch_empty_cache_steps`: None
369
+ - `learning_rate`: 5e-05
370
+ - `weight_decay`: 0.0
371
+ - `adam_beta1`: 0.9
372
+ - `adam_beta2`: 0.999
373
+ - `adam_epsilon`: 1e-08
374
+ - `max_grad_norm`: 1
375
+ - `num_train_epochs`: 5
376
+ - `max_steps`: -1
377
+ - `lr_scheduler_type`: linear
378
+ - `lr_scheduler_kwargs`: None
379
+ - `warmup_ratio`: None
380
+ - `warmup_steps`: 0
381
+ - `log_level`: passive
382
+ - `log_level_replica`: warning
383
+ - `log_on_each_node`: True
384
+ - `logging_nan_inf_filter`: True
385
+ - `enable_jit_checkpoint`: False
386
+ - `save_on_each_node`: False
387
+ - `save_only_model`: False
388
+ - `restore_callback_states_from_checkpoint`: False
389
+ - `use_cpu`: False
390
+ - `seed`: 42
391
+ - `data_seed`: None
392
+ - `bf16`: False
393
+ - `fp16`: False
394
+ - `bf16_full_eval`: False
395
+ - `fp16_full_eval`: False
396
+ - `tf32`: None
397
+ - `local_rank`: -1
398
+ - `ddp_backend`: None
399
+ - `debug`: []
400
+ - `dataloader_drop_last`: False
401
+ - `dataloader_num_workers`: 0
402
+ - `dataloader_prefetch_factor`: None
403
+ - `disable_tqdm`: False
404
+ - `remove_unused_columns`: True
405
+ - `label_names`: None
406
+ - `load_best_model_at_end`: False
407
+ - `ignore_data_skip`: False
408
+ - `fsdp`: []
409
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
410
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
411
+ - `parallelism_config`: None
412
+ - `deepspeed`: None
413
+ - `label_smoothing_factor`: 0.0
414
+ - `optim`: adamw_torch_fused
415
+ - `optim_args`: None
416
+ - `group_by_length`: False
417
+ - `length_column_name`: length
418
+ - `project`: huggingface
419
+ - `trackio_space_id`: trackio
420
+ - `ddp_find_unused_parameters`: None
421
+ - `ddp_bucket_cap_mb`: None
422
+ - `ddp_broadcast_buffers`: False
423
+ - `dataloader_pin_memory`: True
424
+ - `dataloader_persistent_workers`: False
425
+ - `skip_memory_metrics`: True
426
+ - `push_to_hub`: False
427
+ - `resume_from_checkpoint`: None
428
+ - `hub_model_id`: None
429
+ - `hub_strategy`: every_save
430
+ - `hub_private_repo`: None
431
+ - `hub_always_push`: False
432
+ - `hub_revision`: None
433
+ - `gradient_checkpointing`: False
434
+ - `gradient_checkpointing_kwargs`: None
435
+ - `include_for_metrics`: []
436
+ - `eval_do_concat_batches`: True
437
+ - `auto_find_batch_size`: False
438
+ - `full_determinism`: False
439
+ - `ddp_timeout`: 1800
440
+ - `torch_compile`: False
441
+ - `torch_compile_backend`: None
442
+ - `torch_compile_mode`: None
443
+ - `include_num_input_tokens_seen`: no
444
+ - `neftune_noise_alpha`: None
445
+ - `optim_target_modules`: None
446
+ - `batch_eval_metrics`: False
447
+ - `eval_on_start`: False
448
+ - `use_liger_kernel`: False
449
+ - `liger_kernel_config`: None
450
+ - `eval_use_gather_object`: False
451
+ - `average_tokens_across_devices`: True
452
+ - `use_cache`: False
453
+ - `prompts`: None
454
+ - `batch_sampler`: batch_sampler
455
+ - `multi_dataset_batch_sampler`: round_robin
456
+ - `router_mapping`: {}
457
+ - `learning_rate_mapping`: {}
458
+
459
+ </details>
460
+
461
+ ### Training Logs
462
+ | Epoch | Step | Training Loss | bi_eval_cosine_ndcg@10 |
463
+ |:------:|:----:|:-------------:|:----------------------:|
464
+ | 1.0 | 257 | - | 0.4887 |
465
+ | 1.9455 | 500 | 0.4220 | - |
466
+ | 2.0 | 514 | - | 0.5036 |
467
+ | 3.0 | 771 | - | 0.5044 |
468
+ | 3.8911 | 1000 | 0.0569 | - |
469
+ | 4.0 | 1028 | - | 0.5122 |
470
+
471
+
472
+ ### Framework Versions
473
+ - Python: 3.12.12
474
+ - Sentence Transformers: 5.2.3
475
+ - Transformers: 5.0.0
476
+ - PyTorch: 2.10.0+cu128
477
+ - Accelerate: 1.12.0
478
+ - Datasets: 4.8.3
479
+ - Tokenizers: 0.22.2
480
+
481
+ ## Citation
482
+
483
+ ### BibTeX
484
+
485
+ #### Sentence Transformers
486
+ ```bibtex
487
+ @inproceedings{reimers-2019-sentence-bert,
488
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
489
+ author = "Reimers, Nils and Gurevych, Iryna",
490
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
491
+ month = "11",
492
+ year = "2019",
493
+ publisher = "Association for Computational Linguistics",
494
+ url = "https://arxiv.org/abs/1908.10084",
495
+ }
496
+ ```
497
+
498
+ #### MultipleNegativesRankingLoss
499
+ ```bibtex
500
+ @misc{henderson2017efficient,
501
+ title={Efficient Natural Language Response Suggestion for Smart Reply},
502
+ author={Matthew Henderson and Rami Al-Rfou and Brian Strope and Yun-hsuan Sung and Laszlo Lukacs and Ruiqi Guo and Sanjiv Kumar and Balint Miklos and Ray Kurzweil},
503
+ year={2017},
504
+ eprint={1705.00652},
505
+ archivePrefix={arXiv},
506
+ primaryClass={cs.CL}
507
+ }
508
+ ```
509
+
510
+ <!--
511
+ ## Glossary
512
+
513
+ *Clearly define terms in order to be accessible across audiences.*
514
+ -->
515
+
516
+ <!--
517
+ ## Model Card Authors
518
+
519
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
520
+ -->
521
+
522
+ <!--
523
+ ## Model Card Contact
524
+
525
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
526
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,30 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_cross_attention": false,
3
+ "architectures": [
4
+ "RobertaModel"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "dtype": "float32",
10
+ "eos_token_id": 2,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "is_decoder": false,
17
+ "layer_norm_eps": 1e-05,
18
+ "max_position_embeddings": 258,
19
+ "model_type": "roberta",
20
+ "num_attention_heads": 12,
21
+ "num_hidden_layers": 12,
22
+ "pad_token_id": 1,
23
+ "position_embedding_type": "absolute",
24
+ "tie_word_embeddings": true,
25
+ "tokenizer_class": "PhobertTokenizer",
26
+ "transformers_version": "5.0.0",
27
+ "type_vocab_size": 1,
28
+ "use_cache": true,
29
+ "vocab_size": 64001
30
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SentenceTransformer",
3
+ "__version__": {
4
+ "sentence_transformers": "5.2.3",
5
+ "transformers": "5.0.0",
6
+ "pytorch": "2.10.0+cu128"
7
+ },
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:683d3f9fa5e8e61da4dbe30d35f0f4d224b64bd4e77d09a5218b54a9ad1a9732
3
+ size 540015440
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,57 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "additional_special_tokens": null,
45
+ "backend": "custom",
46
+ "bos_token": "<s>",
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "extra_special_tokens": [],
50
+ "is_local": true,
51
+ "mask_token": "<mask>",
52
+ "model_max_length": 256,
53
+ "pad_token": "<pad>",
54
+ "sep_token": "</s>",
55
+ "tokenizer_class": "PhobertTokenizer",
56
+ "unk_token": "<unk>"
57
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff