datht commited on
Commit
f05b2a2
·
verified ·
1 Parent(s): 8f014a1

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,597 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:5143
8
+ - loss:CachedMultipleNegativesRankingLoss
9
+ base_model: vinai/phobert-base-v2
10
+ widget:
11
+ - source_sentence: Ngừng, giảm mức cung cấp điện không khẩn cấp trong những trường
12
+ hợp nào?
13
+ sentences:
14
+ - '[''Bên bán điện ngừng, giảm mức cung cấp điện không khẩn cấp trong các trường
15
+ hợp sau:\n1. Ngừng, giảm mức cung cấp điện theo kế hoạch của bên bán điện khi
16
+ có nhu cầu sửa chữa, bảo dưỡng, đại tu, xây lắp các công trình điện, điều hoà,
17
+ hạn chế phụ tải do thiếu nguồn điện và các nhu cầu khác theo kế hoạch.\n2. Ngừng
18
+ cấp điện theo yêu cầu của tổ chức, cá nhân có liên quan trong trường hợp để đảm
19
+ bảo an toàn phục vụ thi công các công trình.\n3. Ngừng, giảm mức cung cấp điện
20
+ theo yêu cầu của bên mua điện.'']'
21
+ - Bên bán điện ngừng, giảm mức cung cấp điện không khẩn cấp trong các trường hợp
22
+ sau:<unk> 1. Ngừng, giảm mức cung cấp điện theo kế hoạch của bên bán điện khi
23
+ có nhu cầu sửa chữa, bảo dưỡng, đại tu, xây lắp các công trình điện, điều hoà,
24
+ hạn chế phụ tải do thiếu nguồn điện và các nhu cầu khác theo kế hoạch.<unk> 2.
25
+ Ngừng cấp điện theo yêu cầu của tổ chức, cá nhân có liên quan trong trường hợp
26
+ để đảm bảo an toàn phục vụ thi công các công trình.<unk> 3. Ngừng, giảm mức cung
27
+ - '[''22/2020/tt-bct_5'']'
28
+ - source_sentence: Không được công chứng chữ ký thì di chúc miệng được lập ra có hợp
29
+ pháp không?
30
+ sentences:
31
+ - Giải pháp đăng ký sáng kiến được coi là chưa bị bộc lộ công khai trong phạm vi
32
+ cơ sở (theo quy định tại điểm b khoản 1 Điều 4 của Điều lệ Sáng kiến) nếu giải
33
+ pháp đó chưa được biết đến và chưa có giải pháp nào của người khác trùng với giải
34
+ pháp đó được mô tả trong các văn bản, sách báo, tài liệu kỹ thuật dưới bất kỳ
35
+ hình thức nào có thể tiếp cận công khai trong cơ sở đó, đến mức căn cứ vào đó
36
+ có thể thực hiện ngay được.
37
+ - '[''1. Di chúc hợp pháp phải có đủ các điều kiện sau đây:\na) Người lập di chúc
38
+ minh mẫn, sáng suốt trong khi lập di chúc; không bị lừa dối, đe doạ, cưỡng ép;\nb)
39
+ Nội dung của di chúc không vi phạm điều cấm của luật, không trái đạo đức xã hội;
40
+ hình thức di chúc không trái quy định của luật.\n2. Di chúc của người từ đủ mười
41
+ lăm tuổi đến chưa đủ mười tám tuổi phải được lập thành văn bản và phải được cha,
42
+ mẹ hoặc người giám hộ đồng ý về việc lập di chúc.\n3. Di chúc của người bị hạn
43
+ chế về thể chất hoặc của người không biết chữ phải được người làm chứng lập thành
44
+ văn bản và có công chứng hoặc chứng thực.\n4. Di chúc bằng văn bản không có công
45
+ chứng, chứng thực chỉ được coi là hợp pháp, nếu có đủ các điều kiện được quy định
46
+ tại khoản 1 Điều này.\n5. Di chúc miệng được coi là hợp pháp nếu người di chúc
47
+ miệng thể hiện ý chí cuối cùng của mình trước mặt ít nhất hai người làm chứng
48
+ và ngay sau khi người di chúc miệng thể hiện ý chí cuối cùng, người làm chứng
49
+ ghi chép lại, cùng ký tên hoặc điểm chỉ. Trong thời hạn 05 ngày làm việc, kể từ
50
+ ngày người di chúc miệng thể hiện ý chí cuối cùng thì di chúc phải được công chứng
51
+ viên hoặc cơ quan có thẩm quyền chứng thực xác nhận chữ ký hoặc điểm chỉ của người
52
+ làm chứng.'']'
53
+ - '[''91/2015/qh13_630'']'
54
+ - source_sentence: Tiêu chí xây dựng, thực hiện đề án thuộc Chương trình cấp quốc
55
+ gia về xúc tiến thương mại được quy định như thế nào?
56
+ sentences:
57
+ - 1. Nhiệm vụ:<unk> a) Tham mưu đề xuất với cơ quan quản lý nhà nước trong việc
58
+ nghiên cứu, xây dựng và thực hiện các quy định của pháp luật về quản lý thực hiện
59
+ dự án đầu tư xây dựng công trình;<unk> b) Tổ chức biên soạn, hệ thống hóa tiêu
60
+ chuẩn, quy chuẩn, định mức kinh tế - kỹ thuật xây dựng công trình;<unk> c) Tham
61
+ gia nghiên cứu đề xuất các phương án đầu tư khoa học công nghệ, vật liệu xây dựng
62
+ mới và chế độ quản lý kỹ thuật trong xây dựng công trình phù hợp với
63
+ - '[''11/2019/tt-bct_3'', ''28/2018/nđ-cp_8'']'
64
+ - '[''1. Đề án phải phù hợp với các quy định tại Điều 8 Nghị định 28/2018/NĐ-CP
65
+ ngày 01 tháng 3 năm 2018 của Chính phủ.\n2. Đề án là hoạt động xúc tiến thương
66
+ mại cho ngành hàng, sản phẩm có tiềm năng xuất khẩu của quốc gia, vùng kinh tế
67
+ hoặc từ 02 tỉnh/thành phố trực thuộc trung ương trở lên; hoặc sản phẩm đã được
68
+ bảo hộ chỉ dẫn địa lý, nhãn hiệu tập thể, nhãn hiệu chứng nhận.'', ''1. Chương
69
+ trình cấp quốc gia về xúc tiến thương mại (Chương trình) bao gồm các hoạt động
70
+ xúc tiến thương mại được thực hiện theo các tiêu chí\na) Xúc tiến thương mại cho
71
+ sản phẩm, ngành hàng có tiềm năng xuất khẩu của vùng kinh tế, của quốc gia, phát
72
+ triển thị trường xuất khẩu;\nb) Nâng cao hiệu quả nhập khẩu, phục vụ phát triển
73
+ sản xuất trong nước và xuất khẩu;\nc) Phù hợp với chiến lược phát triển kinh tế
74
+ - xã hội, chiến lược ngoại thương theo từng thời kỳ;\nd) Chương trình được Thủ
75
+ tướng Chính phủ ban hành, có cơ chế phối hợp của bộ, ngành; Bộ Công Thương là
76
+ cơ quan chủ trì, đầu mối;\nđ) Xúc tiến thương mại xuất khẩu, nhập khẩu liên kết
77
+ giữa các bộ, ngành; liên kết giữa các ngành hàng hoặc giữa các địa phương;\ne)
78
+ Triển khai thông qua các đề án thực hiện Chương trình cấp quốc gia về xúc tiến
79
+ thương mại do cơ quan có thẩm quyền quy định tại Điều 10 Nghị định này quyết định
80
+ và được ngân sách nhà nước hỗ trợ;\ng) Đơn vị chủ trì đề án phải là các tổ chức
81
+ có uy tín, mang tính đại diện và phải có năng lực tổ chức.\n2. Mục tiêu của Chương
82
+ trình\na) Góp Phần nâng cao năng lực sản xuất, kinh doanh của cộng đồng doanh
83
+ nghiệp;\nb) Hỗ trợ phát triển hạ tầng thương mại, logistics phục vụ hoạt động
84
+ ngoại thương;\nc) Ứng phó kịp thời, hiệu quả với những phản ứng, biến đổi của
85
+ thị trường xuất khẩu, nhập khẩu.\n3. Các đơn vị chủ trì đề án của Chương trình
86
+ gồm (đơn vị chủ trì):\na) Tổ chức xúc tiến thương mại thuộc các bộ, cơ quan ngang
87
+ bộ;\nb) Tổ chức xúc tiến thương mại khác: Hiệp hội ngành hàng, hiệp hội doanh
88
+ nghiệp có phạm vi hoạt động cả nước; liên minh hợp tác xã Việt Nam; hội nông dân
89
+ Việt Nam; tổ chức xúc tiến thương mại của chính quyền địa phương; tổ chức xúc
90
+ tiến thương mại do Thủ tướng Chính phủ quyết định thành lập.\n4. Đơn vị tham gia
91
+ và hưởng lợi từ Chương trình là các doanh nghiệp thuộc mọi thành Phần kinh tế,
92
+ các hợp tác xã, các tổ chức xúc tiến thương mại Việt Nam được thành lập theo quy
93
+ định của pháp luật hiện hành. Đơn vị tham gia và hưởng lợi được hỗ trợ từ Chương
94
+ trình, thực hiện theo các quy định của Nghị định này và có trách nhiệm trong việc
95
+ thực hiện hiệu quả các đề án xúc tiến thương mại mà đơn vị tham gia.\n5. Các đề
96
+ án thực hiện Chương trình phải đáp ứng các yêu cầu sau:\na) Phù hợp với nhu cầu
97
+ thực tiễn của cộng đồng doanh nghiệp;\nb) Phù hợp với định hướng chiến lược xuất
98
+ nhập khẩu và chiến lược phát triển ngành hàng được cấp có thẩm quyền phê duyệt;\nc)
99
+ Phù hợp với chiến lược, quy hoạch phát triển các vùng kinh tế, địa phương;\nd)
100
+ Phù hợp với quy định tại Điều 9, Điều 15 Nghị định này;\nđ) Đảm bảo tính khả thi
101
+ về: Phương thức triển khai; thời gian, tiến độ triển khai; nguồn nhân lực, tài
102
+ chính;\ne) Đối với các đề án mà quá trình thực hiện kéo dài trên 01 năm, đơn vị
103
+ chủ trì phải xây dựng nội dung và kinh phí, thực hiện quyết toán theo từng năm.'']'
104
+ - source_sentence: Điều kiện phát hành hồ sơ mời thầu dự án đầu tư có sử dụng đất
105
+ được quy định như thế nào?
106
+ sentences:
107
+ - 1. Căn cứ lập hồ sơ mời thầu:<unk> a) Danh mục dự án đầu tư có sử đụng đất cần
108
+ lựa chọn nhà đầu tư được công bố theo quy định;<unk> b) Kế hoạch lựa chọn nhà
109
+ đầu tư được duyệt;<unk> c) Quy định hiện hành của pháp luật về đất đai, nhà ở,
110
+ kinh doanh bất động sản, đầu tư, xây dựng và quy định của pháp luật có li��n quan.<unk>
111
+ 2. Nội dung hồ sơ mời thầu:<unk> Hồ sơ mời thầu không được nêu bất cứ điều kiện
112
+ nào nhằm hạn chế sự tham gia của nhà đầu tư
113
+ - '[''Hồ sơ mời thầu chỉ được phát hành để lựa chọn nhà đầu tư dự án đầu tư có sử
114
+ dụng đất khi có đủ các điều kiện sau đây:\n1. Đáp ứng các điều kiện quy định tại
115
+ khoản 2 Điều 7 của Luật Đấu thầu;\n2. Có quy hoạch xây dựng có tỷ lệ 1/2.000 hoặc
116
+ tỷ lệ 1/500 (nếu có) hoặc quy hoạch phân khu đô thị có tỷ lệ 1/2.000 hoặc tỷ lệ
117
+ 1/5.000 được cấp có thẩm quyền phê duyệt theo quy định của pháp luật.'']'
118
+ - '[''25/2020/nđ-cp_50'']'
119
+ - source_sentence: Tiêu chuẩn về trình độ đào tạo của giáo viên THPT hạng II được
120
+ quy định như thế nào?
121
+ sentences:
122
+ - Kinh phí đào tạo người học theo chế độ cử tuyển được cân đối trong dự toán chi
123
+ ngân sách nhà nước của lĩnh vực giáo dục, đào tạo và giáo dục nghề nghiệp hằng
124
+ năm theo phân cấp quản lý ngân sách nhà nước. Trong đó, Học bổng chính sách của
125
+ người học theo chế độ cử tuyển được thực hiện theo quy định tại Nghị định số 84/2020/NĐ-CP
126
+ ngày 17 tháng 7 năm 2020 của Chính phủ Quy định chi tiết một số điều của Luật
127
+ Giáo dục.<unk> Trường hợp người học cử tuyển học các ngành đào tạo giáo viên thì
128
+ chính sách hỗ trợ tiền chi phí sinh hoạt được thực hiện
129
+ - '[''1. Nhiệm vụ\nNgoài những nhiệm vụ của giáo viên trung học phổ thông hạng III,
130
+ giáo viên trung học phổ thông hạng II còn phải thực hiện các nhiệm vụ sau:\na)
131
+ Làm báo cáo viên hoặc dạy minh họa ở các lớp bồi dưỡng giáo viên từ cấp trường
132
+ trở lên hoặc dạy thử nghiệm các mô hình, phương pháp, công nghệ mới; chủ trì các
133
+ nội dung bồi dưỡng và sinh hoạt chuyên đề ở tổ chuyên môn hoặc tham gia xây dựng
134
+ học liệu điện tử;\nb) Tham gia hướng dẫn hoặc đánh giá các sản phẩm nghiên cứu
135
+ khoa học và công nghệ từ cấp trường trở lên;\nc) Tham gia đánh giá ngoài hoặc
136
+ công tác kiểm tra chuyên môn, nghiệp vụ cho giáo viên từ cấp trường trở lên;\nd)
137
+ Tham gia ban giám khảo hội thi giáo viên dạy giỏi hoặc giáo viên chủ nhiệm lớp
138
+ giỏi cấp trường trở lên;\nđ) Tham gia ra đề hoặc chấm thi học sinh giỏi trung
139
+ học phổ thông từ cấp trường trở lên;\ne) Tham gia hướng dẫn hoặc đánh giá các
140
+ hội thi hoặc các sản phẩm nghiên cứu khoa học kỹ thuật của học sinh trung học
141
+ phổ thông từ cấp trường trở lên;\ng)\xa0Tham gia các hoạt động xã hội, phục vụ
142
+ cộng đồng; thu hút sự tham gia của các tổ chức, cá nhân trong việc tổ chức các
143
+ hoạt động dạy học, giáo dục học sinh.\n2. Tiêu chuẩn về đạo đức nghề nghiệp\nNgoài
144
+ các tiêu chuẩn về đạo đức nghề nghiệp của giáo viên trung học phổ thông hạng III,
145
+ giáo viên trung học phổ thông hạng II phải luôn luôn gương mẫu thực hiện các quy
146
+ định về đạo đức nhà giáo.\n3. Tiêu chuẩn về trình độ đào tạo, bồi dưỡng\na) Có
147
+ bằng cử nhân trở lên thuộc ngành đào tạo giáo viên đối với giáo viên trung học
148
+ phổ thông.\nTrường hợp môn học chưa đủ giáo viên có bằng cử nhân thuộc ngành đào
149
+ tạo giáo viên thì phải có bằng cử nhân chuyên ngành phù hợp và có chứng chỉ bồi
150
+ dưỡng nghiệp vụ sư phạm dành cho giáo viên trung học phổ thông theo chương trình
151
+ do Bộ trưởng Bộ Giáo dục và Đào tạo ban hành;\nb) Có chứng chỉ bồi dưỡng theo
152
+ tiêu chuẩn chức danh nghề nghiệp giáo viên trung học phổ thông hạng II.\n4.\xa0Tiêu
153
+ chuẩn về năng lực chuyên môn, nghiệp vụ\na) Nắm vững chủ trương, đường lối, chính
154
+ sách, pháp luật của Đảng, Nhà nước, quy định và yêu cầu của ngành, địa phương
155
+ về giáo dục trung học phổ thông và triển khai thực hiện có kết quả vào nhiệm vụ
156
+ được giao;\nb) Có khả năng điều chỉnh kế hoạch dạy học và giáo dục phù hợp với
157
+ điều kiện thực tế của nhà trường và địa phương; cập nhật, vận dụng linh hoạt và
158
+ hiệu quả các phương pháp dạy học, giáo dục đáp ứng yêu cầu đổi mới, phù hợp với
159
+ điều kiện thực tế;\nc) Có khả năng nghiên cứu, cập nhật kịp thời yêu cầu đối mới
160
+ về kiến thức chuyên môn; vận dụng sáng tạo, phù hợp các hình thức, phương pháp
161
+ và lựa chọn nội dung học tập, bồi dưỡng, nâng cao năng lực chuyên môn của bản
162
+ thân;\nd) Có khả năng đánh giá hoặc hướng dẫn đồng nghiệp nghiên cứu khoa học
163
+ sư phạm ứng dụng; đánh giá sản phẩm nghiên cứu khoa học kỹ thuật của học sinh
164
+ trung học phổ thông từ cấp trường trở lên;\nđ) Có khả năng vận dụng sáng tạo các
165
+ hình thức, phương pháp kiểm tra đánh giá kết quả học tập và sự tiến bộ của học
166
+ sinh theo hướng phát triển phẩm chất, năng lực học sinh;\ne) Có khả năng vận dụng
167
+ có hiệu quả các biện pháp tư vấn tâm lí, hướng nghiệp và công tác xã hội trường
168
+ học phù hợp với từng đối tượng học sinh trong hoạt động dạy học và giáo dục;\ng)
169
+ Có khả năng ứng dụng công nghệ thông tin trong thực hiện các nhiệm vụ của giáo
170
+ viên trung học phổ thông hạng II và có khả năng sử dụng ngoại ngữ hoặc tiếng dân
171
+ tộc thiểu số trong một số nhiệm vụ cụ thể được giao;\nh) Được công nhận là chiến
172
+ sĩ thi đua cơ sở hoặc giáo viên dạy giỏi, giáo viên chủ nhiệm lớp giỏi cấp trường
173
+ trở lên;\ni) Viên chức dự thi hoặc xét thăng hạng chức danh nghề nghiệp giáo viên
174
+ trung học phổ thông hạng II (mã số V.07.05.14) phải có thời gian giữ chức danh
175
+ nghề nghiệp giáo viên trung học phổ thông hạng III (mã số V.07.05.15) hoặc tương
176
+ đương từ đủ 09 (chín) năm trở lên (không kể thời gian tập sự), tính đến thời hạn
177
+ nộp hồ sơ đăng ký dự thi hoặc xét thăng hạng.'']'
178
+ - '[''04/2021/tt-bgdđt_4'']'
179
+ datasets:
180
+ - datht/Legal_Retrieval_2
181
+ pipeline_tag: sentence-similarity
182
+ library_name: sentence-transformers
183
+ metrics:
184
+ - mrr
185
+ - ndcg
186
+ model-index:
187
+ - name: SentenceTransformer based on vinai/phobert-base-v2
188
+ results:
189
+ - task:
190
+ type: ranking
191
+ name: Ranking
192
+ dataset:
193
+ name: Unknown
194
+ type: unknown
195
+ metrics:
196
+ - type: mrr
197
+ value: 0.5355654807761312
198
+ name: Mrr
199
+ - type: ndcg
200
+ value: 0.5806788302958011
201
+ name: Ndcg
202
+ ---
203
+
204
+ # SentenceTransformer based on vinai/phobert-base-v2
205
+
206
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2) on the [legal_retrieval_2](https://huggingface.co/datasets/datht/Legal_Retrieval_2) dataset. It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
207
+
208
+ ## Model Details
209
+
210
+ ### Model Description
211
+ - **Model Type:** Sentence Transformer
212
+ - **Base model:** [vinai/phobert-base-v2](https://huggingface.co/vinai/phobert-base-v2) <!-- at revision e2375d266bdf39c6e8e9a87af16a5da3190b0cc8 -->
213
+ - **Maximum Sequence Length:** 128 tokens
214
+ - **Output Dimensionality:** 768 dimensions
215
+ - **Similarity Function:** Cosine Similarity
216
+ - **Training Dataset:**
217
+ - [legal_retrieval_2](https://huggingface.co/datasets/datht/Legal_Retrieval_2)
218
+ <!-- - **Language:** Unknown -->
219
+ <!-- - **License:** Unknown -->
220
+
221
+ ### Model Sources
222
+
223
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
224
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
225
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
226
+
227
+ ### Full Model Architecture
228
+
229
+ ```
230
+ SentenceTransformer(
231
+ (0): Transformer({'max_seq_length': 128, 'do_lower_case': False}) with Transformer model: RobertaModel
232
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
233
+ )
234
+ ```
235
+
236
+ ## Usage
237
+
238
+ ### Direct Usage (Sentence Transformers)
239
+
240
+ First install the Sentence Transformers library:
241
+
242
+ ```bash
243
+ pip install -U sentence-transformers
244
+ ```
245
+
246
+ Then you can load this model and run inference.
247
+ ```python
248
+ from sentence_transformers import SentenceTransformer
249
+
250
+ # Download from the 🤗 Hub
251
+ model = SentenceTransformer("datht/phobert-base-v2-IR")
252
+ # Run inference
253
+ sentences = [
254
+ 'Tiêu chuẩn về trình độ đào tạo của giáo viên THPT hạng II được quy định như thế nào?',
255
+ "['1. Nhiệm vụ\\nNgoài những nhiệm vụ của giáo viên trung học phổ thông hạng III, giáo viên trung học phổ thông hạng II còn phải thực hiện các nhiệm vụ sau:\\na) Làm báo cáo viên hoặc dạy minh họa ở các lớp bồi dưỡng giáo viên từ cấp trường trở lên hoặc dạy thử nghiệm các mô hình, phương pháp, công nghệ mới; chủ trì các nội dung bồi dưỡng và sinh hoạt chuyên đề ở tổ chuyên môn hoặc tham gia xây dựng học liệu điện tử;\\nb) Tham gia hướng dẫn hoặc đánh giá các sản phẩm nghiên cứu khoa học và công nghệ từ cấp trường trở lên;\\nc) Tham gia đánh giá ngoài hoặc công tác kiểm tra chuyên môn, nghiệp vụ cho giáo viên từ cấp trường trở lên;\\nd) Tham gia ban giám khảo hội thi giáo viên dạy giỏi hoặc giáo viên chủ nhiệm lớp giỏi cấp trường trở lên;\\nđ) Tham gia ra đề hoặc chấm thi học sinh giỏi trung học phổ thông từ cấp trường trở lên;\\ne) Tham gia hướng dẫn hoặc đánh giá các hội thi hoặc các sản phẩm nghiên cứu khoa học kỹ thuật của học sinh trung học phổ thông từ cấp trường trở lên;\\ng)\\xa0Tham gia các hoạt động xã hội, phục vụ cộng đồng; thu hút sự tham gia của các tổ chức, cá nhân trong việc tổ chức các hoạt động dạy học, giáo dục học sinh.\\n2. Tiêu chuẩn về đạo đức nghề nghiệp\\nNgoài các tiêu chuẩn về đạo đức nghề nghiệp của giáo viên trung học phổ thông hạng III, giáo viên trung học phổ thông hạng II phải luôn luôn gương mẫu thực hiện các quy định về đạo đức nhà giáo.\\n3. Tiêu chuẩn về trình độ đào tạo, bồi dưỡng\\na) Có bằng cử nhân trở lên thuộc ngành đào tạo giáo viên đối với giáo viên trung học phổ thông.\\nTrường hợp môn học chưa đủ giáo viên có bằng cử nhân thuộc ngành đào tạo giáo viên thì phải có bằng cử nhân chuyên ngành phù hợp và có chứng chỉ bồi dưỡng nghiệp vụ sư phạm dành cho giáo viên trung học phổ thông theo chương trình do Bộ trưởng Bộ Giáo dục và Đào tạo ban hành;\\nb) Có chứng chỉ bồi dưỡng theo tiêu chuẩn chức danh nghề nghiệp giáo viên trung học phổ thông hạng II.\\n4.\\xa0Tiêu chuẩn về năng lực chuyên môn, nghiệp vụ\\na) Nắm vững chủ trương, đường lối, chính sách, pháp luật của Đảng, Nhà nước, quy định và yêu cầu của ngành, địa phương về giáo dục trung học phổ thông và triển khai thực hiện có kết quả vào nhiệm vụ được giao;\\nb) Có khả năng điều chỉnh kế hoạch dạy học và giáo dục phù hợp với điều kiện thực tế của nhà trường và địa phương; cập nhật, vận dụng linh hoạt và hiệu quả các phương pháp dạy học, giáo dục đáp ứng yêu cầu đổi mới, phù hợp với điều kiện thực tế;\\nc) Có khả năng nghiên cứu, cập nhật kịp thời yêu cầu đối mới về kiến thức chuyên môn; vận dụng sáng tạo, phù hợp các hình thức, phương pháp và lựa chọn nội dung học tập, bồi dưỡng, nâng cao năng lực chuyên môn của bản thân;\\nd) Có khả năng đánh giá hoặc hướng dẫn đồng nghiệp nghiên cứu khoa học sư phạm ứng dụng; đánh giá sản phẩm nghiên cứu khoa học kỹ thuật của học sinh trung học phổ thông từ cấp trường trở lên;\\nđ) Có khả năng vận dụng sáng tạo các hình thức, phương pháp kiểm tra đánh giá kết quả học tập và sự tiến bộ của học sinh theo hướng phát triển phẩm chất, năng lực học sinh;\\ne) Có khả năng vận dụng có hiệu quả các biện pháp tư vấn tâm lí, hướng nghiệp và công tác xã hội trường học phù hợp với từng đối tượng học sinh trong hoạt động dạy học và giáo dục;\\ng) Có khả năng ứng dụng công nghệ thông tin trong thực hiện các nhiệm vụ của giáo viên trung học phổ thông hạng II và có khả năng sử dụng ngoại ngữ hoặc tiếng dân tộc thiểu số trong một số nhiệm vụ cụ thể được giao;\\nh) Được công nhận là chiến sĩ thi đua cơ sở hoặc giáo viên dạy giỏi, giáo viên chủ nhiệm lớp giỏi cấp trường trở lên;\\ni) Viên chức dự thi hoặc xét thăng hạng chức danh nghề nghiệp giáo viên trung học phổ thông hạng II (mã số V.07.05.14) phải có thời gian giữ chức danh nghề nghiệp giáo viên trung học phổ thông hạng III (mã số V.07.05.15) hoặc tương đương từ đủ 09 (chín) năm trở lên (không kể thời gian tập sự), tính đến thời hạn nộp hồ sơ đăng ký dự thi hoặc xét thăng hạng.']",
256
+ 'Kinh phí đào tạo người học theo chế độ cử tuyển được cân đối trong dự toán chi ngân sách nhà nước của lĩnh vực giáo dục, đào tạo và giáo dục nghề nghiệp hằng năm theo phân cấp quản lý ngân sách nhà nước. Trong đó, Học bổng chính sách của người học theo chế độ cử tuyển được thực hiện theo quy định tại Nghị định số 84/2020/NĐ-CP ngày 17 tháng 7 năm 2020 của Chính phủ Quy định chi tiết một số điều của Luật Giáo dục.<unk> Trường hợp người học cử tuyển học các ngành đào tạo giáo viên thì chính sách hỗ trợ tiền chi phí sinh hoạt được thực hiện',
257
+ ]
258
+ embeddings = model.encode(sentences)
259
+ print(embeddings.shape)
260
+ # [3, 768]
261
+
262
+ # Get the similarity scores for the embeddings
263
+ similarities = model.similarity(embeddings, embeddings)
264
+ print(similarities.shape)
265
+ # [3, 3]
266
+ ```
267
+
268
+ <!--
269
+ ### Direct Usage (Transformers)
270
+
271
+ <details><summary>Click to see the direct usage in Transformers</summary>
272
+
273
+ </details>
274
+ -->
275
+
276
+ <!--
277
+ ### Downstream Usage (Sentence Transformers)
278
+
279
+ You can finetune this model on your own dataset.
280
+
281
+ <details><summary>Click to expand</summary>
282
+
283
+ </details>
284
+ -->
285
+
286
+ <!--
287
+ ### Out-of-Scope Use
288
+
289
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
290
+ -->
291
+
292
+ ## Evaluation
293
+
294
+ ### Metrics
295
+
296
+ #### Ranking
297
+
298
+ * Evaluated with <code>evaluator.RankingEvaluator</code>
299
+
300
+ | Metric | Value |
301
+ |:-------|:-------|
302
+ | mrr | 0.5356 |
303
+ | ndcg | 0.5807 |
304
+
305
+ <!--
306
+ ## Bias, Risks and Limitations
307
+
308
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
309
+ -->
310
+
311
+ <!--
312
+ ### Recommendations
313
+
314
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
315
+ -->
316
+
317
+ ## Training Details
318
+
319
+ ### Training Dataset
320
+
321
+ #### legal_retrieval_2
322
+
323
+ * Dataset: [legal_retrieval_2](https://huggingface.co/datasets/datht/Legal_Retrieval_2) at [0520159](https://huggingface.co/datasets/datht/Legal_Retrieval_2/tree/0520159d5e7042120c6c4143ca95e248222a3536)
324
+ * Size: 5,143 training samples
325
+ * Columns: <code>anchor</code>, <code>positive</code>, <code>negative</code>, and <code>positive_id</code>
326
+ * Approximate statistics based on the first 1000 samples:
327
+ | | anchor | positive | negative | positive_id |
328
+ |:--------|:---------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------|
329
+ | type | string | string | string | string |
330
+ | details | <ul><li>min: 8 tokens</li><li>mean: 23.8 tokens</li><li>max: 44 tokens</li></ul> | <ul><li>min: 26 tokens</li><li>mean: 121.23 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 115.91 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 9 tokens</li><li>mean: 11.12 tokens</li><li>max: 28 tokens</li></ul> |
331
+ * Samples:
332
+ | anchor | positive | negative | positive_id |
333
+ |:--------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:-------------------------------|
334
+ | <code>Công bố bản án, quyết định tòa án đối với doanh nghiệp nhỏ và vừa trên cổng thông tin điện tử được quy định như thế nào?</code> | <code>1. Việc công bố bản án, quyết định có hiệu lực pháp luật của tòa án trên cổng thông tin điện tử của tòa án được thực hiện theo Nghị quyết số 03/2017/NQ-HĐTP ngày 16 tháng 3 năm 2017 của Hội đồng Thẩm phán Tòa án nhân dân tối cao về việc công bố bản án, quyết định trên cổng thông tin điện tử của Tòa án hoặc văn bản quy phạm pháp luật sửa đổi, bổ sung hoặc thay thế Nghị quyết này.<br>2. Việc công bố phán quyết, quyết định của trọng tài thương mại được thực hiện theo pháp luật trọng tài thương mại, thỏa thuận của các bên có liên quan đến phán quyết, quyết định đó.<br>3. Việc công bố quyết định xử lý vụ việc cạnh tranh được thực hiện theo quy định của Luật Cạnh tranh và văn bản quy phạm pháp luật quy định chi tiết Luật này.<br>4. Việc công bố quyết định xử lý vi phạm hành chính được thực hiện theo quy định của Luật Xử lý vi phạm hành chính và các văn bản quy phạm pháp luật quy định chi tiết Luật này.<br>5. Bộ, cơ quan ngang bộ, Ủy ban nhân dân cấp tỉnh có trách nhiệm cập nhật và đăng tải các bản án, q...</code> | <code>1. Thành phần hồ sơ quy định tại Điều 8 Thông tư này.<unk> 2. Ngoài thành phần hồ sơ quy định tại khoản 1 Điều này, nhà đầu tư nước ngoài bổ sung các thành phần hồ sơ sau:<unk> a) Văn bản cam kết về việc gắn bó lợi ích lâu dài với tổ chức tín dụng yếu kém, hỗ trợ tổ chức tín dụng yếu kém trong việc áp dụng công nghệ hiện đại; phát triển sản phẩm, dịch vụ ngân hàng; nâng cao năng lực quản trị, điều hành;<unk> b) Phương án mua cổ phần và cơ cấu lại tổ chức tín dụng yếu kém tối</code> | <code>55/2019/nđ-cp_7</code> |
335
+ | <code>Công bố bản án, quyết định tòa án đối với doanh nghiệp nhỏ và vừa trên cổng thông tin điện tử được quy định như thế nào?</code> | <code>1. Việc công bố bản án, quyết định có hiệu lực pháp luật của tòa án trên cổng thông tin điện tử của tòa án được thực hiện theo Nghị quyết số 03/2017/NQ-HĐTP ngày 16 tháng 3 năm 2017 của Hội đồng Thẩm phán Tòa án nhân dân tối cao về việc công bố bản án, quyết định trên cổng thông tin điện tử của Tòa án hoặc văn bản quy phạm pháp luật sửa đổi, bổ sung hoặc thay thế Nghị quyết này.<br>2. Việc công bố phán quyết, quyết định của trọng tài thương mại được thực hiện theo pháp luật trọng tài thương mại, thỏa thuận của các bên có liên quan đến phán quyết, quyết định đó.<br>3. Việc công bố quyết định xử lý vụ việc cạnh tranh được thực hiện theo quy định của Luật Cạnh tranh và văn bản quy phạm pháp luật quy định chi tiết Luật này.<br>4. Việc công bố quyết định xử lý vi phạm hành chính được thực hiện theo quy định của Luật Xử lý vi phạm hành chính và các văn bản quy phạm pháp luật quy định chi tiết Luật này.<br>5. Bộ, cơ quan ngang bộ, Ủy ban nhân dân cấp tỉnh có trách nhiệm cập nhật và đăng tải các bản án, q...</code> | <code>Quy trình tái cơ cấu doanh nghiệp 100% vốn nhà nước để chuyển thành công ty cổ phần quy định cụ thể tại Phụ lục kèm theo Thông tư này, bao gồm các bước cơ bản sau:<unk> 1. Triển khai kế hoạch chuyển doanh nghiệp 100% vốn nhà nước thành công ty cổ phần<unk> a) Thành lập Ban chỉ đạo cổ phần hóa/tái cơ cấu và Tổ giúp việc.<unk> b) Chuẩn bị các hồ sơ, tài liệu.<unk> c) Tổ chức kiểm kê, xử lý những vấn đề về tài chính và tổ chức xác định giá trị doanh nghiệp theo quy định tại Nghị định số 59/2011/NĐ-CP</code> | <code>55/2019/nđ-cp_7</code> |
336
+ | <code>Mức phạt nếu ngồi trên tay lái mô tô, xe gắn máy ?</code> | <code>1. Phạt tiền từ 80.000 đồng đến 100.000 đồng đối với người được chở trên xe đạp, xe đạp máy sử dụng ô (dù).<br>2. Phạt tiền từ 100.000 đồng đến 200.000 đồng đối với cá nhân thực hiện một trong các hành vi vi phạm sau đây:<br>a) Tập trung đông người trái phép, nằm, ngồi trên đường bộ gây cản trở giao thông;<br>b) Đá bóng, đá cầu, chơi cầu lông hoặc các hoạt động thể thao khác trái phép trên đường bộ; sử dụng bàn trượt, pa-tanh, các thiết bị tương tự trên phần đường xe chạy;<br>c) Người được chở trên xe mô tô, xe gắn máy (kể cả xe máy điện), các loại xe tương tự xe mô tô và các loại xe tương tự xe gắn máy sử dụng ô (dù);<br>d) Người được chở trên xe đạp, xe đạp máy bám, kéo, đẩy xe khác, vật khác, mang vác vật cồng kềnh.<br>3. Phạt tiền từ 200.000 đồng đến 300.000 đồng đối với người được chở trên xe mô tô, xe gắn máy (kể cả xe máy điện), các loại xe tương tự xe mô tô, các loại xe tương tự xe gắn máy, xe đạp máy (kể cả xe đạp điện) không đội “mũ bảo hiểm cho người đi mô tô, xe máy” hoặc đội “mũ bảo hiểm ch...</code> | <code>Trong Nghị định này, các từ ngữ dưới đây được hiểu như sau:<unk> 1. Lĩnh vực giao thông đường bộ:<unk> a) Máy kéo là loại xe gồm phần đầu máy tự di chuyển, được lái bằng càng hoặc vô lăng và rơ moóc được kéo theo (có thể tháo rời với phần đầu kéo);<unk> b) Các loại xe tương tự xe ô tô là loại phương tiện giao thông đường bộ chạy bằng động cơ có từ hai trục, bốn bánh xe trở lên, có phần động cơ và thùng hàng (nếu có) lắp trên cùng một xát xi (kể cả loại xe 4 bánh</code> | <code>100/2019/nđ-cp_11</code> |
337
+ * Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
338
+ ```json
339
+ {
340
+ "scale": 20.0,
341
+ "similarity_fct": "cos_sim",
342
+ "mini_batch_size": 32
343
+ }
344
+ ```
345
+
346
+ ### Evaluation Dataset
347
+
348
+ #### legal_retrieval_2
349
+
350
+ * Dataset: [legal_retrieval_2](https://huggingface.co/datasets/datht/Legal_Retrieval_2) at [0520159](https://huggingface.co/datasets/datht/Legal_Retrieval_2/tree/0520159d5e7042120c6c4143ca95e248222a3536)
351
+ * Size: 640 evaluation samples
352
+ * Columns: <code>anchor</code>, <code>positive</code>, <code>negative</code>, and <code>positive_id</code>
353
+ * Approximate statistics based on the first 640 samples:
354
+ | | anchor | positive | negative | positive_id |
355
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------|
356
+ | type | string | string | string | string |
357
+ | details | <ul><li>min: 9 tokens</li><li>mean: 23.77 tokens</li><li>max: 43 tokens</li></ul> | <ul><li>min: 28 tokens</li><li>mean: 120.79 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 21 tokens</li><li>mean: 113.56 tokens</li><li>max: 128 tokens</li></ul> | <ul><li>min: 12 tokens</li><li>mean: 15.53 tokens</li><li>max: 39 tokens</li></ul> |
358
+ * Samples:
359
+ | anchor | positive | negative | positive_id |
360
+ |:---------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------|
361
+ | <code>Tiền lương của người quản lý công ty TNHH một thành viên do VIETTEL nắm giữ 100% vốn điều lệ được quy định như thế nào?</code> | <code>['1. Tiền lương của người quản lý công ty được tính trong đơn giá tiền lương được giao ổn định và quỹ tiền lương thực hiện của công ty trách nhiệm hữu hạn một thành viên do Công ty mẹ - Tập đoàn Viễn thông Quân đội nắm giữ 100% vốn điều lệ theo quy định tại Điều 12 và Điều 13 Thông tư này.\n2. Căn cứ vào quỹ tiền lương thực hiện hằng năm, công ty thực hiện tạm ứng tiền lương và trả lương đối với người quản lý theo quy chế trả lương của công ty.']</code> | <code>Một số từ ngữ trong Thông tư này được hiểu như sau:<unk> 1. Kiểm soát viên công ty TNHH MTV do Nhà nước nắm giữ 100% vốn điều lệ (sau đây gọi là Kiểm soát viên) là cá nhân do cơ quan đại diện chủ sở hữu quyết định bổ nhiệm, bổ nhiệm lại, thực hiện các quyền và nghĩa vụ theo quy định tại Điều 104, 105 và 106 Luật Doanh nghiệp và quy định tại Quy chế hoạt động của Kiểm soát viên công ty TNHH MTV do Nhà nước nắm giữ 100% vốn điều lệ.<unk> 2. Kiểm soát viên tài chính là cá nhân do Bộ trưởng Bộ Tài chính</code> | <code>['33/2016/tt-blđtbxh_14']</code> |
362
+ | <code>Tiền lương của người quản lý công ty TNHH một thành viên do VIETTEL nắm giữ 100% vốn điều lệ được quy định như thế nào?</code> | <code>['1. Tiền lương của người quản lý công ty được tính trong đơn giá tiền lương được giao ổn định và quỹ tiền lương thực hiện của công ty trách nhiệm hữu hạn một thành viên do Công ty mẹ - Tập đoàn Viễn thông Quân đội nắm giữ 100% vốn điều lệ theo quy định tại Điều 12 và Điều 13 Thông tư này.\n2. Căn cứ vào quỹ tiền lương thực hiện hằng năm, công ty thực hiện tạm ứng tiền lương và trả lương đối với người quản lý theo quy chế trả lương của công ty.']</code> | <code>1. Ủy ban Quản lý vốn nhà nước tại doanh nghiệp là cơ quan thuộc Chính phủ (sau đây gọi là Ủy ban); được Chính phủ giao thực hiện quyền, trách nhiệm của đại diện chủ sở hữu nhà nước đối với doanh nghiệp do Nhà nước nắm giữ 100% vốn điều lệ và phần vốn nhà nước đầu tư tại công ty cổ phần, công ty trách nhiệm hữu hạn hai thành viên trở lên theo quy định của pháp luật.<unk> 2. Ủy ban Quản lý vốn nhà nước tại doanh nghiệp có tên giao dịch quốc tế tiếng Anh là Commission for the Management of State Capital at Enterprise</code> | <code>['33/2016/tt-blđtbxh_14']</code> |
363
+ | <code>Điều kiện về nhà xưởng, trang thiết bị của cơ sở sản xuất thức ăn, sản phẩm xử lý môi trường nuôi trồng thủy sản được quy định như thế nào?</code> | <code>['1. Điểm c khoản 1 Điều 32 Luật Thủy sản được quy định cụ thể như sau:\na) Có nhà xưởng kết cấu vững chắc, nền không đọng nước, liên thông và một chiều từ nguyên liệu đến thành phẩm; tường, trần, vách ngăn, cửa bảo đảm yêu cầu về kiểm soát chất lượng, an toàn sinh học; khu chứa trang thiết bị, nguyên liệu vật liệu, thành phẩm bảo đảm không nhiễm chéo lẫn nhau và bảo đảm theo yêu cầu bảo quản của nhà sản xuất, cung cấp;\nb) Trang thiết bị tiếp xúc với nguyên liệu, thành phẩm bảo đảm yêu cầu về kiểm soát chất lượng, an toàn sinh học; thiết bị thu gom và xử lý chất thải không gây ô nhiễm môi trường khu vực sản xuất. Trường hợp cơ sở sản xuất sinh khối vi sinh vật để sản xuất chế phẩm sinh học, vi sinh vật phải có thiết bị tạo môi trường, lưu giữ và nuôi cấy vi sinh vật.\n2. Điểm d khoản 1 Điều 32 Luật Thủy sản được quy định cụ thể như sau: Có phòng thử nghiệm hoặc có thuê phòng thử nghiệm đủ năng lực để kiểm tra chất lượng trong quá trình sản xuất.\n3. Điểm đ khoản 1 Điều 32 Luật Thủy sả...</code> | <code>Cơ sở mua bán, nhập khẩu thức ăn thủy sản, sản phẩm xử lý môi trường nuôi trồng thủy sản phải đáp ứng các điều kiện sau đây:<unk> 1. Nơi bày bán, nơi bảo quản cách biệt với thuốc bảo vệ thực vật, phân bón, hóa chất độc hại;<unk> 2. Có thiết bị, dụng cụ để bảo quản thức ăn thủy sản, sản phẩm xử lý môi trường nuôi trồng thủy sản theo hướng dẫn của nhà sản xuất, nhà cung cấp.</code> | <code>['26/2019/nđ-cp_27']</code> |
364
+ * Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
365
+ ```json
366
+ {
367
+ "scale": 20.0,
368
+ "similarity_fct": "cos_sim",
369
+ "mini_batch_size": 32
370
+ }
371
+ ```
372
+
373
+ ### Training Hyperparameters
374
+ #### Non-Default Hyperparameters
375
+
376
+ - `overwrite_output_dir`: True
377
+ - `do_predict`: True
378
+ - `eval_strategy`: epoch
379
+ - `per_device_train_batch_size`: 32
380
+ - `per_device_eval_batch_size`: 32
381
+ - `eval_accumulation_steps`: 1
382
+ - `num_train_epochs`: 5.0
383
+ - `lr_scheduler_type`: constant
384
+ - `save_only_model`: True
385
+ - `bf16`: True
386
+ - `tf32`: True
387
+ - `disable_tqdm`: True
388
+ - `load_best_model_at_end`: True
389
+ - `optim`: adamw_torch_fused
390
+ - `use_liger_kernel`: True
391
+ - `batch_sampler`: no_duplicates
392
+
393
+ #### All Hyperparameters
394
+ <details><summary>Click to expand</summary>
395
+
396
+ - `overwrite_output_dir`: True
397
+ - `do_predict`: True
398
+ - `eval_strategy`: epoch
399
+ - `prediction_loss_only`: True
400
+ - `per_device_train_batch_size`: 32
401
+ - `per_device_eval_batch_size`: 32
402
+ - `per_gpu_train_batch_size`: None
403
+ - `per_gpu_eval_batch_size`: None
404
+ - `gradient_accumulation_steps`: 1
405
+ - `eval_accumulation_steps`: 1
406
+ - `torch_empty_cache_steps`: None
407
+ - `learning_rate`: 5e-05
408
+ - `weight_decay`: 0.0
409
+ - `adam_beta1`: 0.9
410
+ - `adam_beta2`: 0.999
411
+ - `adam_epsilon`: 1e-08
412
+ - `max_grad_norm`: 1.0
413
+ - `num_train_epochs`: 5.0
414
+ - `max_steps`: -1
415
+ - `lr_scheduler_type`: constant
416
+ - `lr_scheduler_kwargs`: {}
417
+ - `warmup_ratio`: 0.0
418
+ - `warmup_steps`: 0
419
+ - `log_level`: passive
420
+ - `log_level_replica`: warning
421
+ - `log_on_each_node`: True
422
+ - `logging_nan_inf_filter`: True
423
+ - `save_safetensors`: True
424
+ - `save_on_each_node`: False
425
+ - `save_only_model`: True
426
+ - `restore_callback_states_from_checkpoint`: False
427
+ - `no_cuda`: False
428
+ - `use_cpu`: False
429
+ - `use_mps_device`: False
430
+ - `seed`: 42
431
+ - `data_seed`: None
432
+ - `jit_mode_eval`: False
433
+ - `use_ipex`: False
434
+ - `bf16`: True
435
+ - `fp16`: False
436
+ - `fp16_opt_level`: O1
437
+ - `half_precision_backend`: auto
438
+ - `bf16_full_eval`: False
439
+ - `fp16_full_eval`: False
440
+ - `tf32`: True
441
+ - `local_rank`: 0
442
+ - `ddp_backend`: None
443
+ - `tpu_num_cores`: None
444
+ - `tpu_metrics_debug`: False
445
+ - `debug`: []
446
+ - `dataloader_drop_last`: False
447
+ - `dataloader_num_workers`: 0
448
+ - `dataloader_prefetch_factor`: None
449
+ - `past_index`: -1
450
+ - `disable_tqdm`: True
451
+ - `remove_unused_columns`: True
452
+ - `label_names`: None
453
+ - `load_best_model_at_end`: True
454
+ - `ignore_data_skip`: False
455
+ - `fsdp`: []
456
+ - `fsdp_min_num_params`: 0
457
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
458
+ - `tp_size`: 0
459
+ - `fsdp_transformer_layer_cls_to_wrap`: None
460
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
461
+ - `deepspeed`: None
462
+ - `label_smoothing_factor`: 0.0
463
+ - `optim`: adamw_torch_fused
464
+ - `optim_args`: None
465
+ - `adafactor`: False
466
+ - `group_by_length`: False
467
+ - `length_column_name`: length
468
+ - `ddp_find_unused_parameters`: None
469
+ - `ddp_bucket_cap_mb`: None
470
+ - `ddp_broadcast_buffers`: False
471
+ - `dataloader_pin_memory`: True
472
+ - `dataloader_persistent_workers`: False
473
+ - `skip_memory_metrics`: True
474
+ - `use_legacy_prediction_loop`: False
475
+ - `push_to_hub`: False
476
+ - `resume_from_checkpoint`: None
477
+ - `hub_model_id`: None
478
+ - `hub_strategy`: every_save
479
+ - `hub_private_repo`: None
480
+ - `hub_always_push`: False
481
+ - `gradient_checkpointing`: False
482
+ - `gradient_checkpointing_kwargs`: None
483
+ - `include_inputs_for_metrics`: False
484
+ - `include_for_metrics`: []
485
+ - `eval_do_concat_batches`: True
486
+ - `fp16_backend`: auto
487
+ - `push_to_hub_model_id`: None
488
+ - `push_to_hub_organization`: None
489
+ - `mp_parameters`:
490
+ - `auto_find_batch_size`: False
491
+ - `full_determinism`: False
492
+ - `torchdynamo`: None
493
+ - `ray_scope`: last
494
+ - `ddp_timeout`: 1800
495
+ - `torch_compile`: False
496
+ - `torch_compile_backend`: None
497
+ - `torch_compile_mode`: None
498
+ - `dispatch_batches`: None
499
+ - `split_batches`: None
500
+ - `include_tokens_per_second`: False
501
+ - `include_num_input_tokens_seen`: False
502
+ - `neftune_noise_alpha`: None
503
+ - `optim_target_modules`: None
504
+ - `batch_eval_metrics`: False
505
+ - `eval_on_start`: False
506
+ - `use_liger_kernel`: True
507
+ - `eval_use_gather_object`: False
508
+ - `average_tokens_across_devices`: False
509
+ - `prompts`: None
510
+ - `batch_sampler`: no_duplicates
511
+ - `multi_dataset_batch_sampler`: proportional
512
+ - `attn_implementation`: flash_attention_2
513
+
514
+ </details>
515
+
516
+ ### Training Logs
517
+ | Epoch | Step | Training Loss | Validation Loss |
518
+ |:-------:|:-------:|:-------------:|:---------------:|
519
+ | 0.3106 | 50 | 0.9867 | - |
520
+ | 0.6211 | 100 | 0.3767 | - |
521
+ | 0.9317 | 150 | 0.1682 | - |
522
+ | 1.0 | 161 | - | 0.2302 |
523
+ | 1.2422 | 200 | 0.0632 | - |
524
+ | 1.5528 | 250 | 0.0628 | - |
525
+ | 1.8634 | 300 | 0.0503 | - |
526
+ | 2.0 | 322 | - | 0.1976 |
527
+ | 2.1739 | 350 | 0.0369 | - |
528
+ | 2.4845 | 400 | 0.0369 | - |
529
+ | 2.7950 | 450 | 0.0479 | - |
530
+ | **3.0** | **483** | **-** | **0.1819** |
531
+ | 3.1056 | 500 | 0.032 | - |
532
+ | 3.4161 | 550 | 0.0162 | - |
533
+ | 3.7267 | 600 | 0.0229 | - |
534
+ | 4.0 | 644 | - | 0.1896 |
535
+ | 4.0373 | 650 | 0.0151 | - |
536
+ | 4.3478 | 700 | 0.0178 | - |
537
+ | 4.6584 | 750 | 0.0144 | - |
538
+ | 4.9689 | 800 | 0.0144 | - |
539
+ | 5.0 | 805 | - | 0.1846 |
540
+
541
+ * The bold row denotes the saved checkpoint.
542
+
543
+ ### Framework Versions
544
+ - Python: 3.10.12
545
+ - Sentence Transformers: 4.1.0
546
+ - Transformers: 4.50.0
547
+ - PyTorch: 2.6.0+cu124
548
+ - Accelerate: 1.6.0
549
+ - Datasets: 2.21.0
550
+ - Tokenizers: 0.21.1
551
+
552
+ ## Citation
553
+
554
+ ### BibTeX
555
+
556
+ #### Sentence Transformers
557
+ ```bibtex
558
+ @inproceedings{reimers-2019-sentence-bert,
559
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
560
+ author = "Reimers, Nils and Gurevych, Iryna",
561
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
562
+ month = "11",
563
+ year = "2019",
564
+ publisher = "Association for Computational Linguistics",
565
+ url = "https://arxiv.org/abs/1908.10084",
566
+ }
567
+ ```
568
+
569
+ #### CachedMultipleNegativesRankingLoss
570
+ ```bibtex
571
+ @misc{gao2021scaling,
572
+ title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
573
+ author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
574
+ year={2021},
575
+ eprint={2101.06983},
576
+ archivePrefix={arXiv},
577
+ primaryClass={cs.LG}
578
+ }
579
+ ```
580
+
581
+ <!--
582
+ ## Glossary
583
+
584
+ *Clearly define terms in order to be accessible across audiences.*
585
+ -->
586
+
587
+ <!--
588
+ ## Model Card Authors
589
+
590
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
591
+ -->
592
+
593
+ <!--
594
+ ## Model Card Contact
595
+
596
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
597
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "RobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 258,
16
+ "model_type": "roberta",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 1,
20
+ "position_embedding_type": "absolute",
21
+ "tokenizer_class": "PhobertTokenizer",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.50.0",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 64001
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "4.1.0",
4
+ "transformers": "4.50.0",
5
+ "pytorch": "2.6.0+cu124"
6
+ },
7
+ "prompts": {},
8
+ "default_prompt_name": null,
9
+ "similarity_fn_name": "cosine"
10
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:932f4ec17b8655819eefdf3ce93f9131f3211da8bb9d00577a5a0f2d14bfd0bb
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 128,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "cls_token": "<s>",
4
+ "eos_token": "</s>",
5
+ "mask_token": "<mask>",
6
+ "pad_token": "<pad>",
7
+ "sep_token": "</s>",
8
+ "unk_token": "<unk>"
9
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": false,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 1000000000000000019884624838656,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "PhobertTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff