Add new SentenceTransformer model
Browse files- 1_Pooling/config.json +10 -0
- README.md +609 -0
- added_tokens.json +3 -0
- bpe.codes +0 -0
- config.json +27 -0
- config_sentence_transformers.json +14 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer_config.json +55 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
|
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"word_embedding_dimension": 768,
|
| 3 |
+
"pooling_mode_cls_token": false,
|
| 4 |
+
"pooling_mode_mean_tokens": true,
|
| 5 |
+
"pooling_mode_max_tokens": false,
|
| 6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
| 7 |
+
"pooling_mode_weightedmean_tokens": false,
|
| 8 |
+
"pooling_mode_lasttoken": false,
|
| 9 |
+
"include_prompt": true
|
| 10 |
+
}
|
README.md
ADDED
|
@@ -0,0 +1,609 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
tags:
|
| 3 |
+
- sentence-transformers
|
| 4 |
+
- sentence-similarity
|
| 5 |
+
- feature-extraction
|
| 6 |
+
- dense
|
| 7 |
+
- generated_from_trainer
|
| 8 |
+
- dataset_size:16581
|
| 9 |
+
- loss:CachedMultipleNegativesRankingLoss
|
| 10 |
+
base_model: bkai-foundation-models/vietnamese-bi-encoder
|
| 11 |
+
widget:
|
| 12 |
+
- source_sentence: 'Có phải nhiều vĩ nhân đã sinh ra ở Firenze không?
|
| 13 |
+
|
| 14 |
+
'
|
| 15 |
+
sentences:
|
| 16 |
+
- Sau khi thống nhất, Việt Nam tiếp tục gặp khó khăn do sự sụp đổ và tan rã của
|
| 17 |
+
đồng minh Liên Xô cùng Khối phía Đông, các lệnh cấm vận của Hoa Kỳ, chiến tranh
|
| 18 |
+
với Campuchia, biên giới giáp Trung Quốc và hậu quả của chính sách bao cấp sau
|
| 19 |
+
nhiều năm áp dụng. Năm 1986, Đảng Cộng sản ban hành cải cách đổi mới, tạo điều
|
| 20 |
+
kiện hình thành kinh tế thị trường và hội nhập sâu rộng. Cải cách đổi mới kết
|
| 21 |
+
hợp cùng quy mô dân số lớn đưa Việt Nam trở thành một trong những nước đang phát
|
| 22 |
+
triển có tốc độ tăng trưởng thuộc nhóm nhanh nhất thế giới, được coi là Hổ mới
|
| 23 |
+
châu Á dù cho vẫn gặp phải những thách thức như tham nhũng, tội phạm gia tăng,
|
| 24 |
+
ô nhiễm môi trường và phúc lợi xã hội chưa đầy đủ. Ngoài ra, giới bất đồng chính
|
| 25 |
+
kiến, chính phủ một số nước phương Tây và các tổ chức theo dõi nhân quyền có quan
|
| 26 |
+
điểm chỉ trích hồ sơ nhân quyền của Việt Nam liên quan đến các vấn đề tôn giáo,
|
| 27 |
+
kiểm duyệt truyền thông, hạn chế hoạt động ủng hộ nhân quyền cùng các quyền tự
|
| 28 |
+
do dân sự.
|
| 29 |
+
- 'Tuy nhiên, sự thật là không phải tới thời Lorenzo nắm quyền Phục Hưng mới ra
|
| 30 |
+
đời, mà bản thân gia đình Medici cũng chỉ thừa hưởng truyền thống trọng nghệ thuật
|
| 31 |
+
của Firenze và phát huy nó. Một số người cho rằng Firenze trở thành nơi khởi đầu
|
| 32 |
+
Phục Hưng là do may mắn, nghĩa là đơn thuần bởi vì những vĩ nhân ngẫu nhiên sinh
|
| 33 |
+
ra ở đây: cả da Vinci, Botticelli và Michelangelo đều là người xứ Toscana (mà
|
| 34 |
+
Firenze là thủ phủ). Tuy nhiên các nhà sử học khác phản đối ý kiến cho rằng đây
|
| 35 |
+
là sự ngẫu nhiên và quy cho truyền thống trọng nghệ thuật của Firenze.'
|
| 36 |
+
- 'Hệ thống đường sắt Trung Quốc thuộc sở hữu nhà nước, nằm trong số các hệ thống
|
| 37 |
+
nhộn nhịp nhất trên thế giới. Năm 2013, đường sắt Trung Quốc vận chuyển khoảng
|
| 38 |
+
2,106 tỷ lượt hành khách, khoảng 3,967 tỷ tấn hàng hóa. Hệ thống đường sắt cao
|
| 39 |
+
tốc Trung Quốc bắt đầu được xây dựng từ đầu thập niên 2000, xếp hàng đầu thế giới
|
| 40 |
+
về chiều dài với 11.028 kilômét (6.852 dặm) đường ray vào năm 2013. Tính đến năm
|
| 41 |
+
2017, đất nước có 127.000 km (78.914 dặm) đường sắt, xếp thứ hai trên thế giới
|
| 42 |
+
. Đường sắt đáp ứng nhu cầu đi lại khổng lồ của người dân, đặc biệt là trong kỳ
|
| 43 |
+
nghỉ Tết Nguyên đán, thời điểm cuộc di cư hàng năm lớn nhất thế giới của loài
|
| 44 |
+
người diễn ra '
|
| 45 |
+
- source_sentence: 'Eo biển Magalhães nguy hiểm như thế nào, đặc biệt là về sóng,
|
| 46 |
+
gió và đá ngầm?
|
| 47 |
+
|
| 48 |
+
'
|
| 49 |
+
sentences:
|
| 50 |
+
- Thái Bình Dương mỗi một chữ xuất hiện trước nhất vào niên đại 20 thế kỉ XVI, do
|
| 51 |
+
nhà hàng hải trưởng quốc tịch Bồ Đào Nha Fernão de Magalhães và đội thuyền tàu
|
| 52 |
+
của ông đặt tên đầu tiên. Ngày 20 tháng 9 năm 1519, nhà hàng hải Magalhães chỉ
|
| 53 |
+
huy dẫn đạo đội thám hiểm do 270 thủy thủ hợp thành khởi hành từ Tây Ban Nha,
|
| 54 |
+
vượt qua Đại Tây Dương, họ xông pha sóng gió hãi hùng, chịu hết gian khổ, rồi
|
| 55 |
+
đến được mũi phía nam ở châu Nam Mĩ, tiến vào một eo biển. Eo biển này về sau
|
| 56 |
+
đặt tên theo Magalhães vô cùng hiểm trở và ác liệt, đến chỗ đó là sóng lớn gió
|
| 57 |
+
dữ và bãi cạn đá ngầm nguy hiểm. Chiến đấu hăng hái gian khổ trải qua 38 ngày,
|
| 58 |
+
đội thuyền tàu cuối cùng đã đến được mũi phía tây của eo biển Magalhães, nhưng
|
| 59 |
+
mà lúc đó đội thuyền tàu chỉ còn lại ba chiếc tàu, thuyền viên của đội cũng đã
|
| 60 |
+
mất đi một nửa.
|
| 61 |
+
- '"Đúng là nếu chỉ đọc báo chí bên ngoài thì tưởng như Triều Tiên rất đói khổ,
|
| 62 |
+
kiệt quệ. Song nhiều đoàn của Việt Nam và các nước khác sau khi thăm Triều Tiên
|
| 63 |
+
về đều kinh ngạc: Không ngờ Triều Tiên lại phát triển đến như vậy... Về công nghệ
|
| 64 |
+
cao, Triều Tiên có nhiều thành tựu mà ta phải ngưỡng mộ. Tiềm lực của người Triều
|
| 65 |
+
Tiên chính là sức mạnh tinh thần và văn hóa, từ đó dẫn đến tiềm lực quốc phòng
|
| 66 |
+
của họ... Tôi nghĩ ở đây có vấn đề về thông tin. Chẳng hạn như có 100 thông tin,
|
| 67 |
+
hình ảnh đăng tải trên thế giới về Triều Tiên thì có đến 80% là từ báo chí phương
|
| 68 |
+
Tây, hay các nước mà Triều Tiên gọi là thù địch, tức chỉ nói xấu, hay không có
|
| 69 |
+
thì dựng ra là có. Bản thân Triều Tiên cũng ít đưa hình ảnh của mình ra ngoài,
|
| 70 |
+
nên dễ dẫn đến bị nhìn nhận sai lệch. Riêng tôi thấy rằng cần bình tĩnh xem xét
|
| 71 |
+
và đặt lại câu hỏi: “Bao giờ ta có thể làm được như họ?” Trước khi đến, nhiều
|
| 72 |
+
người cứ nghĩ Triều Tiên là quốc gia vô cùng khốn khổ, người dân thì hiếu chiến,
|
| 73 |
+
nhưng đó là bởi họ chưa trực tiếp tham quan Triều Tiên. "Trăm nghe không bằng
|
| 74 |
+
một thấy", nếu tiếp nhận thông tin qua nguồn gián tiếp, sự sai lệch sẽ rất nhiều.'
|
| 75 |
+
- 'Việt Nam có khí hậu nhiệt đới gió mùa, thời tiết có sự biến động. Phía bắc dãy
|
| 76 |
+
Bạch Mã có 2 mùa gió chính: gió mùa Đông Bắc lạnh và khô vào mùa đông tạo nên
|
| 77 |
+
mùa đông lạnh; gió Tây Nam nóng khô và Đông Nam ẩm ướt vào mùa hè. Phía nam có
|
| 78 |
+
gió Đông Bắc vào mùa khô và gió Tây Nam vào mùa mưa. Các dòng biển phần nào đó
|
| 79 |
+
điều hòa khí hậu. Độ ẩm tương đối trung bình là 84% suốt năm. Việt Nam trải qua
|
| 80 |
+
các đợt lụt và bão, có lượng mưa từ 1.200 đến 3.000 mm, số giờ nắng khoảng 1.500
|
| 81 |
+
đến 3.000 giờ/năm và nhiệt độ từ 5 °C đến 37 °C. Nhiệt độ trung bình năm tăng
|
| 82 |
+
khoảng 0,5 độ Celsius trong vòng 50 năm (1964–2014).'
|
| 83 |
+
- source_sentence: 'Vì sao Phúc Kiến, với lịch sử nhập cư đa dạng, lại được xem là
|
| 84 |
+
một trong những khu vực ngôn ngữ phong phú nhất của người Hán ở Trung Quốc?
|
| 85 |
+
|
| 86 |
+
'
|
| 87 |
+
sentences:
|
| 88 |
+
- Do có địa hình đồi núi với nhiều đợt nhập cư đến từ miền Trung Trung Quốc trong
|
| 89 |
+
dòng chảy lịch sử, Phúc Kiến là một trong những nơi đa dạng nhất về ngôn ngữ trong
|
| 90 |
+
số các khu vực người Hán trên toàn quốc. Trong một khoảng cách ngắn, các phương
|
| 91 |
+
ngữ trong cùng một địa phương có thể không hiểu lẫn nhau. Điều này được phản ánh
|
| 92 |
+
trong thành ngữ "nếu bạn đi năm dặm tại Phúc Kiến thì văn hóa sẽ biến đổi, và
|
| 93 |
+
nếu bạn đi mười dặm, ngôn ngữ sẽ khác". Việc phân loại các phương ngữ này khiến
|
| 94 |
+
các nhà ngôn ngữ học lúng túng. Nhìn chung, hầu hết các phương ngữ tại Phúc Kiến
|
| 95 |
+
được xếp thuộc về tiếng Mân, nhóm này lại chia thành tiếng Mân Bắc, tiếng Mân
|
| 96 |
+
Đông, tiếng Mân Trung, tiếng Mân Nam, tiếng Phủ Tiên, và tiếng Thiệu Tương (邵将).
|
| 97 |
+
(phân nhóm thứ bảy của tiếng Mân, tiếng Hải Nam, không nói ở Phúc Kiến.) Phương
|
| 98 |
+
ngữ Phúc Châu thuộc tiếng Mân Đông, song một số nhà ngôn ngữ học lại phân nó thuộc
|
| 99 |
+
tiếng Mân Bắc; tiếng Hạ Môn là một bộ phận của tiếng Mân Nam. Tiếng Khách Gia,
|
| 100 |
+
một phân nhánh khác của tiếng Hán, được người Khách Gia sinh sống quanh Long Nham
|
| 101 |
+
nói. Cũng như các tỉnh khác, ngôn ngữ chính thức tại Phúc Kiến là tiếng Phổ thông,
|
| 102 |
+
được dùng để đàm thoại giữa người dân ở các khu vực khác nhau.
|
| 103 |
+
- 'Hội họa Trung Quốc có lịch sử 5000–6000 năm với các loại hình: bạch họa, bản
|
| 104 |
+
họa, bích họa. Đặc biệt là nghệ thuật vẽ tranh thủy mặc, có ảnh hưởng nhiều tới
|
| 105 |
+
các nước ở Châu Á. Cuốn Lục pháp luận của Tạ Hách đã tổng kết những kinh nghiệm
|
| 106 |
+
hội họa từ đời Hán đến đời Tùy. Tranh phong cảnh được coi là đặc trưng của nền
|
| 107 |
+
hội họa Trung Quốc, mà đã phát triển đỉnh cao từ thời kì Ngũ Đại đến thời Bắc
|
| 108 |
+
Tống (907–1127). Điêu khắc Trung Quốc được phân thành các ngành riêng như: Ngọc
|
| 109 |
+
điêu, thạch điêu, mộc điêu. Những tác phẩm nổi tiếng như cặp tượng Tần ngẫu đời
|
| 110 |
+
Tần, tượng Lạc sơn đại Phật đời Tây Hán (pho tượng cao nhất thế giới), tượng Phật
|
| 111 |
+
nghìn mắt nghìn tay. Không giống như phong cách kiến trúc Phương Tây, kiến trúc
|
| 112 |
+
Trung Hoa chú trọng đến chiều rộng hơn là chiều cao của công trình. Phong thủy
|
| 113 |
+
đóng vai trò rất quan trọng trong quá trình xây dựng.'
|
| 114 |
+
- Tuốt tócCó một nghi lễ rất phổ biến của người Ấn Độ là buộc người phụ n�� phải
|
| 115 |
+
hiến dâng mái tóc của mình cho Chúa. Họ tin rằng càng hiến dâng nhiều tóc thì
|
| 116 |
+
Chúa càng ban phước cho người ấy. Thậm chí những người Kỳ Na Giáo còn tiến hành
|
| 117 |
+
một nghi thức đau đớn và gây phẫn nộ hơn là tuốt tóc của các tu sĩ cho đến khi
|
| 118 |
+
hói, trọc đầu. Các thánh Jain và tu sĩ sẽ tiến hành nghi lễ này một đến hai lần
|
| 119 |
+
trong năm như là một dấu hiệu cho thấy họ đã từ bỏ những thú vui trần tục và có
|
| 120 |
+
sức chịu đựng đau đớn.
|
| 121 |
+
- source_sentence: 'Theo điều tra dân số năm 2010, dân số Cộng hòa Nhân dân Trung
|
| 122 |
+
Hoa là bao nhiêu?
|
| 123 |
+
|
| 124 |
+
'
|
| 125 |
+
sentences:
|
| 126 |
+
- 'Mặc dù nói chung được công nhận như là các đại dương ''tách biệt'', nhưng các
|
| 127 |
+
vùng nước mặn này tạo thành một khối nước nối liền với nhau trên toàn cầu, thường
|
| 128 |
+
được gọi chung là Đại dương thế giới hay đại dương toàn cầu. Khái niệm về đại
|
| 129 |
+
dương toàn cầu như là một khối nước liên tục với sự trao đổi tương đối tự do giữa
|
| 130 |
+
các bộ phận của nó có tầm quan trọng nền tảng cho hải dương học. Các phần đại
|
| 131 |
+
dương chính được định nghĩa một phần dựa vào các châu lục, các quần đảo khác nhau
|
| 132 |
+
cùng các tiêu chí khác: các phần này là (theo trật tự giảm dần của diện tích)
|
| 133 |
+
Thái Bình Dương, Đại Tây Dương, Ấn Độ Dương, Nam Đại Dương (đôi khi được phân
|
| 134 |
+
chia và tạo thành phần phía nam của Thái Bình Dương, Đại Tây Dương và Ấn Độ Dương)
|
| 135 |
+
và Bắc Băng Dương (đôi khi được coi là một biển của Đại Tây Dương). Thái Bình
|
| 136 |
+
Dương và Đại Tây Dương cũng có thể phân chia tiếp bởi đường xích đạo thành các
|
| 137 |
+
phần Bắc và Nam. Các khu vực nhỏ hơn của đại dương được gọi là các biển, vịnh
|
| 138 |
+
hay một số các tên gọi khác. Cũng tồn tại một số khối nước mặn nhỏ hơn trong đất
|
| 139 |
+
liền và không nối với Đại dương thế giới, như biển Aral, Great Salt Lake (Hồ Muối
|
| 140 |
+
Lớn) – mặc dù chúng có thể coi như là các ''biển'', nhưng thực ra chúng là các
|
| 141 |
+
hồ nước mặn. Có 5 đại dương trên thế giới, trong đó Thái Bình Dương là lớn nhất
|
| 142 |
+
và sâu nhất, thứ hai về diện tích và độ sâu là Đại Tây Dương, tiếp theo là Ấn
|
| 143 |
+
Độ Dương, Nam Đại Dương còn nhỏ và nông nhất là Bắc Băng Dương.'
|
| 144 |
+
- Theo kết quả điều tra nhân khẩu toàn quốc năm 2010, dân số nước Cộng hòa Nhân
|
| 145 |
+
dân Trung Hoa là 1.370.536.875. Khoảng 16,60% dân số từ 14 tuổi trở xuống, 70,14%
|
| 146 |
+
từ 15 đến 59 tuổi, và 13,26% từ 60 tuổi trở lên. Do dân số đông và tài nguyên
|
| 147 |
+
thiên nhiên suy giảm, chính phủ Trung Quốc rất quan tâm đến tốc độ tăng trưởng
|
| 148 |
+
dân số, và từ năm 1978 họ đã nỗ lực tiến hành với kết quả khác nhau, nhằm thi
|
| 149 |
+
hành một chính sách kế hoạch hóa gia đình nghiêm ngặt được gọi là "chính sách
|
| 150 |
+
một con." Trước năm 2013, chính sách này tìm cách hạn chế mỗi gia đình có một
|
| 151 |
+
con, ngoại trừ các dân tộc thiểu số và linh hoạt nhất định tại các khu vực nông
|
| 152 |
+
thôn. Một nới lỏng lớn về chính sách được han hành vào tháng 12 năm 2013, cho
|
| 153 |
+
phép các gia đình có hai con nếu một trong song thân là con một. Dữ liệu từ điều
|
| 154 |
+
tra nhân khẩu năm 2010 cho thấy rằng tổng tỷ suất sinh là khoảng 1,4. Chính sách
|
| 155 |
+
một con cùng với truyền thống trọng nam có thể góp phần vào mất cân bằng về tỷ
|
| 156 |
+
suất giới tính khi sinh. Theo điều tra nhân khẩu năm 2010, tỷ suất giới tính khi
|
| 157 |
+
sinh là 118,06 nam/100 nữ, cao hơn mức thông thường là khoảng 105 nam/100 nữ.
|
| 158 |
+
Kết quả điều tra nhân khẩu vào năm 2013 cho thấy nam giới chiếm 51,27% tổng dân
|
| 159 |
+
số. trong khi con số này vào năm 1953 là 51,82%.
|
| 160 |
+
- 'Nguyên tắc chữ Hán giản thể có thể truy lên đề nghị của Tiền Huyền Đồng vào năm
|
| 161 |
+
1922. Tám nguyên tắc giản hoá là: chữ vay mượn, chữ hình thanh, tiêu chuẩn hoá
|
| 162 |
+
Thảo thư, chữ đặc trưng, chữ vành, chữ hội ý, chữ phù hiệu, và chữ bộ thủ. Mặc
|
| 163 |
+
dù ra đời trước Tiền Huyền Đồng và không được rõ ràng để bao hàm các phương pháp
|
| 164 |
+
giản ước chữ Hán cụ thể, các nguyên tắc này đủ điển hình, chính sách giản ước
|
| 165 |
+
dùng không ít.'
|
| 166 |
+
- source_sentence: 'Có phải số lượng sinh viên tốt nghiệp ngành khoa học, công nghệ,
|
| 167 |
+
kỹ thuật và toán học của Mỹ cao gấp đôi so với Trung Quốc, mặc dù dân số Trung
|
| 168 |
+
Quốc hơn Mỹ 4,2 lần?
|
| 169 |
+
|
| 170 |
+
'
|
| 171 |
+
sentences:
|
| 172 |
+
- 'Mặc dù nói chung được công nhận như là các đại dương ''tách biệt'', nhưng các
|
| 173 |
+
vùng nước mặn này tạo thành một khối nước nối liền với nhau trên toàn cầu, thường
|
| 174 |
+
được gọi chung là Đại dương thế giới hay đại dương toàn cầu. Khái niệm về đại
|
| 175 |
+
dương toàn cầu như là một khối nước liên tục với sự trao đổi tương đối tự do giữa
|
| 176 |
+
các bộ phận của nó có tầm quan trọng nền tảng cho hải dương học. Các phần đại
|
| 177 |
+
dương chính được định nghĩa một phần dựa vào các châu lục, các quần đảo khác nhau
|
| 178 |
+
cùng các tiêu chí khác: các phần này là (theo trật tự giảm dần của diện tích)
|
| 179 |
+
Thái Bình Dương, Đại Tây Dương, Ấn Độ Dương, Nam Đại Dương (đôi khi được phân
|
| 180 |
+
chia và tạo thành phần phía nam của Thái Bình Dương, Đại Tây Dương và Ấn Độ Dương)
|
| 181 |
+
và Bắc Băng Dương (đôi khi được coi là một biển của Đại Tây Dương). Thái Bình
|
| 182 |
+
Dương và Đại Tây Dương cũng có thể phân chia tiếp bởi đường xích đạo thành các
|
| 183 |
+
phần Bắc và Nam. Các khu vực nhỏ hơn của đại dương được gọi là các biển, vịnh
|
| 184 |
+
hay một số các tên gọi khác. Cũng tồn tại một số khối nước mặn nhỏ hơn trong đất
|
| 185 |
+
liền và không nối với Đại dương thế giới, như biển Aral, Great Salt Lake (Hồ Muối
|
| 186 |
+
Lớn) – mặc dù chúng có thể coi như là các ''biển'', nhưng thực ra chúng là các
|
| 187 |
+
hồ nước mặn. Có 5 đại dương trên thế giới, trong đó Thái Bình Dương là lớn nhất
|
| 188 |
+
và sâu nhất, thứ hai về diện tích và độ sâu là Đại Tây Dương, tiếp theo là Ấn
|
| 189 |
+
Độ Dương, Nam Đại Dương còn nhỏ và nông nhất là Bắc Băng Dương.'
|
| 190 |
+
- Cơ quan lập pháp dân cử của Nhật Bản là Quốc hội (国会, Kokkai), đặt trụ sở tại
|
| 191 |
+
Chiyoda, Tokyo. Quốc hội hoạt động theo cơ chế lưỡng viện, trong đó Hạ viện (衆議院
|
| 192 |
+
(Chúng Nghị viện), Shūgiin) có 465 ghế, được cử tri bầu chọn sau mỗi bốn năm hoặc
|
| 193 |
+
sau khi giải tán, và Thượng viện (参議院 (Tham Nghị viện), Sangiin) có 245 ghế, được
|
| 194 |
+
cử tri bầu chọn cho nhiệm kỳ sáu năm và cứ mỗi ba năm được bầu lại một nửa số
|
| 195 |
+
thành viên. Quyền bầu cử theo nguyên tắc phổ thông đầu phiếu thuộc về mọi công
|
| 196 |
+
dân Nhật Bản trên 18 tuổi không phân biệt nam-nữ, trong đó áp dụng phương thức
|
| 197 |
+
bỏ phiếu kín tại tất cả đơn vị bầu cử. Các nghị sĩ quốc hội chủ yếu là người của
|
| 198 |
+
Đảng Dân chủ Tự do có khuynh hướng bảo thủ. Đảng Dân chủ Tự do đã liên tiếp giành
|
| 199 |
+
thắng lợi trong các cuộc tổng tuyển cử kể từ năm 1955, ngoại trừ hai giai đoạn
|
| 200 |
+
từ năm 1993–1994 và từ năm 2009–2012. Đảng này chiếm 262 ghế trong Chúng Nghị
|
| 201 |
+
viện và 113 ghế trong Tham Nghị viện.
|
| 202 |
+
- Bên cạnh Huawei, việc công ty thiết bị viễn thông lớn thứ hai Trung Quốc là ZTE
|
| 203 |
+
bị đẩy vào tình trạng khó khăn sau khi bị Mỹ cấm vận công nghệ cho thấy Trung
|
| 204 |
+
Quốc vẫn còn phụ thuộc Mỹ rất lớn về một số công nghệ. Trên tạp chí Forbes, ông
|
| 205 |
+
Jean Baptiste Su, Phó Chủ tịch công ty nghiên cứu thị trường công nghệ Atherton
|
| 206 |
+
Research (Mỹ) cho rằng khó khăn của ZTE sau lệnh cấm vận công nghệ của Mỹ cho
|
| 207 |
+
thấy hầu như tất cả các công ty lớn của Trung Quốc hiện đang phụ thuộc lớn vào
|
| 208 |
+
các công nghệ của Mỹ. Các công ty lớn của Trung Quốc từ Baidu, Alibaba, Tencent,
|
| 209 |
+
Xiaomi, Didi Chuxing cho đến Ngân hàng Trung Quốc (BOC), Ngân hàng Công thương
|
| 210 |
+
Trung Quốc (ICBC), các công ty viễn thông China Mobile, China Telecom, tập đoàn
|
| 211 |
+
dầu khí nhà nước Trung Quốc Petro China, hãng ô tô nhà nước SAIC... đều dựa vào
|
| 212 |
+
công nghệ, linh kiện, phần mềm hoặc tài sản sở hữu trí tuệ của các công ty nước
|
| 213 |
+
ngoài như Apple, Google, Intel, Qualcomm, Cisco, Micron, Microsoft... Tác giả
|
| 214 |
+
cho rằng một lệnh cấm bán công nghệ Mỹ cho các công ty Trung Quốc có thể làm suy
|
| 215 |
+
sụp nền kinh tế Trung QuốcTheo một bài phân tích của Bloomberg, bên cạnh một số
|
| 216 |
+
lĩnh vực không sánh được với Mỹ thì Trung Quốc cũng có những thế mạnh riêng để
|
| 217 |
+
phát triển trong tương lai, như quy mô dân số, số người dùng internet, việc Huawei
|
| 218 |
+
là hãng mạnh nhất về phát triển của công nghệ 5G mà các nhà mạng toàn cầu mới
|
| 219 |
+
bắt đầu triển khai. Năm 2016, Trung Quốc có 4,7 triệu sinh viên tốt nghiệp các
|
| 220 |
+
ngành khoa học, công nghệ, kỹ thuật và toán học gần đây, trong khi Mỹ chỉ có 568.000
|
| 221 |
+
(dân số Trung Quốc gấp 4,2 lần dân số Mỹ, tính theo tỷ lệ dân số thì chỉ số này
|
| 222 |
+
của Trung Quốc cao hơn 2 lần so với Mỹ). Chuỗi lắp ráp, sản xuất tại Trung Quốc
|
| 223 |
+
nhìn chung vẫn nhỉnh hơn Mỹ về mặt tổng sản lượng trong nhiều ngành công nghiệp
|
| 224 |
+
và luôn có chi phí thấp hơn Mỹ. Chiến tranh lạnh về công nghệ ngày càng tăng tiến
|
| 225 |
+
giữa Trung Quốc và Mỹ sẽ rất khó tìm bên chiến thắng rõ ràng.
|
| 226 |
+
pipeline_tag: sentence-similarity
|
| 227 |
+
library_name: sentence-transformers
|
| 228 |
+
---
|
| 229 |
+
|
| 230 |
+
# SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
|
| 231 |
+
|
| 232 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
| 233 |
+
|
| 234 |
+
## Model Details
|
| 235 |
+
|
| 236 |
+
### Model Description
|
| 237 |
+
- **Model Type:** Sentence Transformer
|
| 238 |
+
- **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) <!-- at revision 84f9d9ada0d1a3c37557398b9ae9fcedcdf40be0 -->
|
| 239 |
+
- **Maximum Sequence Length:** 256 tokens
|
| 240 |
+
- **Output Dimensionality:** 768 dimensions
|
| 241 |
+
- **Similarity Function:** Cosine Similarity
|
| 242 |
+
<!-- - **Training Dataset:** Unknown -->
|
| 243 |
+
<!-- - **Language:** Unknown -->
|
| 244 |
+
<!-- - **License:** Unknown -->
|
| 245 |
+
|
| 246 |
+
### Model Sources
|
| 247 |
+
|
| 248 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
| 249 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
|
| 250 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 251 |
+
|
| 252 |
+
### Full Model Architecture
|
| 253 |
+
|
| 254 |
+
```
|
| 255 |
+
SentenceTransformer(
|
| 256 |
+
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
|
| 257 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
| 258 |
+
)
|
| 259 |
+
```
|
| 260 |
+
|
| 261 |
+
## Usage
|
| 262 |
+
|
| 263 |
+
### Direct Usage (Sentence Transformers)
|
| 264 |
+
|
| 265 |
+
First install the Sentence Transformers library:
|
| 266 |
+
|
| 267 |
+
```bash
|
| 268 |
+
pip install -U sentence-transformers
|
| 269 |
+
```
|
| 270 |
+
|
| 271 |
+
Then you can load this model and run inference.
|
| 272 |
+
```python
|
| 273 |
+
from sentence_transformers import SentenceTransformer
|
| 274 |
+
|
| 275 |
+
# Download from the 🤗 Hub
|
| 276 |
+
model = SentenceTransformer("truong1301/bi_encoder_viwiki")
|
| 277 |
+
# Run inference
|
| 278 |
+
sentences = [
|
| 279 |
+
'Có phải số lượng sinh viên tốt nghiệp ngành khoa học, công nghệ, kỹ thuật và toán học của Mỹ cao gấp đôi so với Trung Quốc, mặc dù dân số Trung Quốc hơn Mỹ 4,2 lần?\n',
|
| 280 |
+
'Bên cạnh Huawei, việc công ty thiết bị viễn thông lớn thứ hai Trung Quốc là ZTE bị đẩy vào tình trạng khó khăn sau khi bị Mỹ cấm vận công nghệ cho thấy Trung Quốc vẫn còn phụ thuộc Mỹ rất lớn về một số công nghệ. Trên tạp chí Forbes, ông Jean Baptiste Su, Phó Chủ tịch công ty nghiên cứu thị trường công nghệ Atherton Research (Mỹ) cho rằng khó khăn của ZTE sau lệnh cấm vận công nghệ của Mỹ cho thấy hầu như tất cả các công ty lớn của Trung Quốc hiện đang phụ thuộc lớn vào các công nghệ của Mỹ. Các công ty lớn của Trung Quốc từ Baidu, Alibaba, Tencent, Xiaomi, Didi Chuxing cho đến Ngân hàng Trung Quốc (BOC), Ngân hàng Công thương Trung Quốc (ICBC), các công ty viễn thông China Mobile, China Telecom, tập đoàn dầu khí nhà nước Trung Quốc Petro China, hãng ô tô nhà nước SAIC... đều dựa vào công nghệ, linh kiện, phần mềm hoặc tài sản sở hữu trí tuệ của các công ty nước ngoài như Apple, Google, Intel, Qualcomm, Cisco, Micron, Microsoft... Tác giả cho rằng một lệnh cấm bán công nghệ Mỹ cho các công ty Trung Quốc có thể làm suy sụp nền kinh tế Trung QuốcTheo một bài phân tích của Bloomberg, bên cạnh một số lĩnh vực không sánh được với Mỹ thì Trung Quốc cũng có những thế mạnh riêng để phát triển trong tương lai, như quy mô dân số, số người dùng internet, việc Huawei là hãng mạnh nhất về phát triển của công nghệ 5G mà các nhà mạng toàn cầu mới bắt đầu triển khai. Năm 2016, Trung Quốc có 4,7 triệu sinh viên tốt nghiệp các ngành khoa học, công nghệ, kỹ thuật và toán học gần đây, trong khi Mỹ chỉ có 568.000 (dân số Trung Quốc gấp 4,2 lần dân số Mỹ, tính theo tỷ lệ dân số thì chỉ số này của Trung Quốc cao hơn 2 lần so với Mỹ). Chuỗi lắp ráp, sản xuất tại Trung Quốc nhìn chung vẫn nhỉnh hơn Mỹ về mặt tổng sản lượng trong nhiều ngành công nghiệp và luôn có chi phí thấp hơn Mỹ. Chiến tranh lạnh về công nghệ ngày càng tăng tiến giữa Trung Quốc và Mỹ sẽ rất khó tìm bên chiến thắng rõ ràng.',
|
| 281 |
+
'Cơ quan lập pháp dân cử của Nhật Bản là Quốc hội (国会, Kokkai), đặt trụ sở tại Chiyoda, Tokyo. Quốc hội hoạt động theo cơ chế lưỡng viện, trong đó Hạ viện (衆議院 (Chúng Nghị viện), Shūgiin) có 465 ghế, được cử tri bầu chọn sau mỗi bốn năm hoặc sau khi giải tán, và Thượng viện (参議院 (Tham Nghị viện), Sangiin) có 245 ghế, được cử tri bầu chọn cho nhiệm kỳ sáu năm và cứ mỗi ba năm được bầu lại một nửa số thành viên. Quyền bầu cử theo nguyên tắc phổ thông đầu phiếu thuộc về mọi công dân Nhật Bản trên 18 tuổi không phân biệt nam-nữ, trong đó áp dụng phương thức bỏ phiếu kín tại tất cả đơn vị bầu cử. Các nghị sĩ quốc hội chủ yếu là người của Đảng Dân chủ Tự do có khuynh hướng bảo thủ. Đảng Dân chủ Tự do đã liên tiếp giành thắng lợi trong các cuộc tổng tuyển cử kể từ năm 1955, ngoại trừ hai giai đoạn từ năm 1993–1994 và từ năm 2009–2012. Đảng này chiếm 262 ghế trong Chúng Nghị viện và 113 ghế trong Tham Nghị viện.',
|
| 282 |
+
]
|
| 283 |
+
embeddings = model.encode(sentences)
|
| 284 |
+
print(embeddings.shape)
|
| 285 |
+
# [3, 768]
|
| 286 |
+
|
| 287 |
+
# Get the similarity scores for the embeddings
|
| 288 |
+
similarities = model.similarity(embeddings, embeddings)
|
| 289 |
+
print(similarities)
|
| 290 |
+
# tensor([[ 1.0000, 0.4291, -0.0117],
|
| 291 |
+
# [ 0.4291, 1.0000, -0.0461],
|
| 292 |
+
# [-0.0117, -0.0461, 1.0000]])
|
| 293 |
+
```
|
| 294 |
+
|
| 295 |
+
<!--
|
| 296 |
+
### Direct Usage (Transformers)
|
| 297 |
+
|
| 298 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 299 |
+
|
| 300 |
+
</details>
|
| 301 |
+
-->
|
| 302 |
+
|
| 303 |
+
<!--
|
| 304 |
+
### Downstream Usage (Sentence Transformers)
|
| 305 |
+
|
| 306 |
+
You can finetune this model on your own dataset.
|
| 307 |
+
|
| 308 |
+
<details><summary>Click to expand</summary>
|
| 309 |
+
|
| 310 |
+
</details>
|
| 311 |
+
-->
|
| 312 |
+
|
| 313 |
+
<!--
|
| 314 |
+
### Out-of-Scope Use
|
| 315 |
+
|
| 316 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 317 |
+
-->
|
| 318 |
+
|
| 319 |
+
<!--
|
| 320 |
+
## Bias, Risks and Limitations
|
| 321 |
+
|
| 322 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 323 |
+
-->
|
| 324 |
+
|
| 325 |
+
<!--
|
| 326 |
+
### Recommendations
|
| 327 |
+
|
| 328 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 329 |
+
-->
|
| 330 |
+
|
| 331 |
+
## Training Details
|
| 332 |
+
|
| 333 |
+
### Training Dataset
|
| 334 |
+
|
| 335 |
+
#### Unnamed Dataset
|
| 336 |
+
|
| 337 |
+
* Size: 16,581 training samples
|
| 338 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
| 339 |
+
* Approximate statistics based on the first 1000 samples:
|
| 340 |
+
| | anchor | positive |
|
| 341 |
+
|:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
| 342 |
+
| type | string | string |
|
| 343 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 28.15 tokens</li><li>max: 99 tokens</li></ul> | <ul><li>min: 39 tokens</li><li>mean: 168.05 tokens</li><li>max: 256 tokens</li></ul> |
|
| 344 |
+
* Samples:
|
| 345 |
+
| anchor | positive |
|
| 346 |
+
|:-------------------------------------------------------------------------------------------------------------------------------------------------------|:----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 347 |
+
| <code>Vì sao chế độ quân chủ chuyên chế nhà Thanh không thể bảo vệ Trung Quốc trước sự xâm lược của phương Tây và chủ nghĩa tư bản?<br></code> | <code>Cuối thời nhà Thanh, do sự lạc hậu về khoa học công nghệ, Trung Quốc bị các nước phương Tây (Anh, Đức, Nga, Pháp, Bồ Đào Nha) và cả Nhật Bản xâu xé lãnh thổ. Các nhà sử học Trung Quốc gọi thời kỳ này là Bách niên quốc sỉ (100 năm đất nước bị làm nhục). Chế độ quân chủ chuyên chế đã tỏ ra quá già cỗi, hoàn toàn bất lực trong việc bảo vệ đất nước chống lại chủ nghĩa tư bản phương Tây. Điều này gây bất bình trong đội ngũ trí thức Trung Quốc, một bộ phận kêu gọi tiến hành cách mạng lật đổ chế độ quân chủ chuyên chế của nhà Thanh, thành lập một kiểu nhà nước mới để canh tân đất nước. Năm 1911, cách mạng Tân Hợi nổ ra, hoàng đế cuối cùng của Trung Quốc là Phổ Nghi buộc phải thoái vị.</code> |
|
| 348 |
+
| <code>Cuộc đảo chính lật đổ nền quân chủ Yemen và thành lập Cộng hòa Ả Rập Yemen có phải là nguyên nhân dẫn đến nội chiến ở nước này không?<br></code> | <code>1962: Khủng hoảng tên lửa Cuba. Algérie giành độc lập. Cái chết của Marilyn Monroe. Chiến tranh Indonesia- Malaysia. Một cuộc đảo chính lật đổ nền quân chủ và thành lập nước Cộng hòa Ả Rập Yemen dẫn tới cuộc nội chiến tại nước này. Chiến tranh Trung-Ấn.</code> |
|
| 349 |
+
| <code>Năm 1956, sau khi Pháp rút quân khỏi Việt Nam, ai là người lãnh đạo Quốc gia Việt Nam?<br></code> | <code>Năm 1954 - Hiệp định Genève quy định lấy vĩ tuyến 17 làm ranh giới quân sự tạm thời (bao gồm cả trên đất liền và trên biển). Quần đảo Hoàng Sa nằm ở phía Nam vĩ tuyến 17, được giao cho chính quyền Liên Hiệp Pháp quản lý. Năm 1956, sau khi Pháp hoàn tất rút quân khỏi Việt Nam, Quốc gia Việt Nam (quốc trưởng Bảo Đại đứng đầu) đứng ra quản lý.</code> |
|
| 350 |
+
* Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
|
| 351 |
+
```json
|
| 352 |
+
{
|
| 353 |
+
"scale": 20.0,
|
| 354 |
+
"similarity_fct": "cos_sim",
|
| 355 |
+
"mini_batch_size": 1024,
|
| 356 |
+
"gather_across_devices": false
|
| 357 |
+
}
|
| 358 |
+
```
|
| 359 |
+
|
| 360 |
+
### Evaluation Dataset
|
| 361 |
+
|
| 362 |
+
#### Unnamed Dataset
|
| 363 |
+
|
| 364 |
+
* Size: 2,090 evaluation samples
|
| 365 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
| 366 |
+
* Approximate statistics based on the first 1000 samples:
|
| 367 |
+
| | anchor | positive |
|
| 368 |
+
|:--------|:-----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
| 369 |
+
| type | string | string |
|
| 370 |
+
| details | <ul><li>min: 11 tokens</li><li>mean: 28.29 tokens</li><li>max: 74 tokens</li></ul> | <ul><li>min: 38 tokens</li><li>mean: 166.25 tokens</li><li>max: 256 tokens</li></ul> |
|
| 371 |
+
* Samples:
|
| 372 |
+
| anchor | positive |
|
| 373 |
+
|:-----------------------------------------------------------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 374 |
+
| <code>Liệu sự bất bình đẳng giới giữa con trai và con gái có phải là một vấn đề nghiêm trọng, đặc biệt là ở Ấn Độ không?<br></code> | <code>Phá thai nếu sinh con gáiNhiều gia đình ở Ấn Độ bị áp lực bởi truyền thống trao của hồi môn cho con gái trước khi về nhà chồng, hoặc bị mất danh dự do con gái xấu xí, hoặc đã bị hãm hiếp mà không lấy được chồng, bởi vậy họ không hề muốn sinh con gái. Ngược lại, con trai là người duy trì dòng tộc và mang lại tiền bạc từ của hồi môn của vợ. Kết quả là, việc phá thai nếu chẩn đoán là con gái xảy ra phổ biến ở khắp nơi, kể cả ở thành phố và các gia đình có giáo dục. Cách phá thai phổ biến nhất là ăn một số loại thảo dược. Nếu sinh con rồi, họ có thể dìm con trong sữa cho chết ngạt, hoặc cho con ăn thức ăn quá lớn để chết vì nghẹn, thậm chí chôn sống con.</code> |
|
| 375 |
+
| <code>Sự kiện ly khai của họ Nguyễn và việc chúa Trịnh đem quân đánh vào năm 1627 đã dẫn đến thời kỳ Trịnh-Nguyễn phân tranh kéo dài hơn 40 năm phải không?<br></code> | <code>Biết rằng họ Nguyễn ly khai, không chịu thần phục nữa, tháng 3 năm 1627, chúa Trịnh mang quân đi đánh họ Nguyễn. Sự kiện này đánh dấu sự chia tách hoàn toàn cả về lý thuyết và thực tế của xứ Thuận Quảng tức Đàng Trong của Chúa Nguyễn với Đàng Ngoài của Chúa Trịnh. Nó cũng tạo ra thời kỳ Trịnh-Nguyễn phân tranh kéo dài 45 năm, từ 1627 đến 1672, với 7 cuộc đại chiến của 2 bên. Dân tình quá khổ cực, chán nản, hai họ Trịnh, Nguyễn phải ngừng chiến, lấy sông Gianh làm ranh giới chia cắt lãnh thổ, miền Nam sông Gianh–Rào Nan thuộc quyền chúa Nguyễn, được gọi là Đàng Trong.</code> |
|
| 376 |
+
| <code>Kiến trúc ở Kyoto, Uji có phải là một trong những công trình mang đậm nét sử thi về lịch sử cố đô Kyoto không?<br></code> | <code>Các công trình kiến trúc lịch sử cố đô Kyoto nằm rải rác 17 địa điểm trong đó ba công trình ở Kyoto, Ujin thuộc phủ Kyoto và Otsu ở huyện Shiga. Gồm có 3 chùa phật giáo, 3 đền Thần đạo và một lâu đài. Riêng 38 cơ sở kiến trúc được chính phủ liệt vào danh sách Di sản quốc gia, 160 kiến trúc khác vào danh sách Các công trình văn hóa quan trọng. Tám khu vườn thắng cảnh đặc biệt và bốn với Thắng cảnh đẹp. Công nhận năm 1994.</code> |
|
| 377 |
+
* Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
|
| 378 |
+
```json
|
| 379 |
+
{
|
| 380 |
+
"scale": 20.0,
|
| 381 |
+
"similarity_fct": "cos_sim",
|
| 382 |
+
"mini_batch_size": 1024,
|
| 383 |
+
"gather_across_devices": false
|
| 384 |
+
}
|
| 385 |
+
```
|
| 386 |
+
|
| 387 |
+
### Training Hyperparameters
|
| 388 |
+
#### Non-Default Hyperparameters
|
| 389 |
+
|
| 390 |
+
- `eval_strategy`: steps
|
| 391 |
+
- `per_device_train_batch_size`: 32
|
| 392 |
+
- `per_device_eval_batch_size`: 32
|
| 393 |
+
- `learning_rate`: 2e-05
|
| 394 |
+
- `weight_decay`: 0.01
|
| 395 |
+
- `num_train_epochs`: 5
|
| 396 |
+
- `warmup_ratio`: 0.1
|
| 397 |
+
- `warmup_steps`: 50
|
| 398 |
+
- `fp16`: True
|
| 399 |
+
- `load_best_model_at_end`: True
|
| 400 |
+
- `batch_sampler`: no_duplicates
|
| 401 |
+
|
| 402 |
+
#### All Hyperparameters
|
| 403 |
+
<details><summary>Click to expand</summary>
|
| 404 |
+
|
| 405 |
+
- `overwrite_output_dir`: False
|
| 406 |
+
- `do_predict`: False
|
| 407 |
+
- `eval_strategy`: steps
|
| 408 |
+
- `prediction_loss_only`: True
|
| 409 |
+
- `per_device_train_batch_size`: 32
|
| 410 |
+
- `per_device_eval_batch_size`: 32
|
| 411 |
+
- `per_gpu_train_batch_size`: None
|
| 412 |
+
- `per_gpu_eval_batch_size`: None
|
| 413 |
+
- `gradient_accumulation_steps`: 1
|
| 414 |
+
- `eval_accumulation_steps`: None
|
| 415 |
+
- `torch_empty_cache_steps`: None
|
| 416 |
+
- `learning_rate`: 2e-05
|
| 417 |
+
- `weight_decay`: 0.01
|
| 418 |
+
- `adam_beta1`: 0.9
|
| 419 |
+
- `adam_beta2`: 0.999
|
| 420 |
+
- `adam_epsilon`: 1e-08
|
| 421 |
+
- `max_grad_norm`: 1.0
|
| 422 |
+
- `num_train_epochs`: 5
|
| 423 |
+
- `max_steps`: -1
|
| 424 |
+
- `lr_scheduler_type`: linear
|
| 425 |
+
- `lr_scheduler_kwargs`: {}
|
| 426 |
+
- `warmup_ratio`: 0.1
|
| 427 |
+
- `warmup_steps`: 50
|
| 428 |
+
- `log_level`: passive
|
| 429 |
+
- `log_level_replica`: warning
|
| 430 |
+
- `log_on_each_node`: True
|
| 431 |
+
- `logging_nan_inf_filter`: True
|
| 432 |
+
- `save_safetensors`: True
|
| 433 |
+
- `save_on_each_node`: False
|
| 434 |
+
- `save_only_model`: False
|
| 435 |
+
- `restore_callback_states_from_checkpoint`: False
|
| 436 |
+
- `no_cuda`: False
|
| 437 |
+
- `use_cpu`: False
|
| 438 |
+
- `use_mps_device`: False
|
| 439 |
+
- `seed`: 42
|
| 440 |
+
- `data_seed`: None
|
| 441 |
+
- `jit_mode_eval`: False
|
| 442 |
+
- `use_ipex`: False
|
| 443 |
+
- `bf16`: False
|
| 444 |
+
- `fp16`: True
|
| 445 |
+
- `fp16_opt_level`: O1
|
| 446 |
+
- `half_precision_backend`: auto
|
| 447 |
+
- `bf16_full_eval`: False
|
| 448 |
+
- `fp16_full_eval`: False
|
| 449 |
+
- `tf32`: None
|
| 450 |
+
- `local_rank`: 0
|
| 451 |
+
- `ddp_backend`: None
|
| 452 |
+
- `tpu_num_cores`: None
|
| 453 |
+
- `tpu_metrics_debug`: False
|
| 454 |
+
- `debug`: []
|
| 455 |
+
- `dataloader_drop_last`: False
|
| 456 |
+
- `dataloader_num_workers`: 0
|
| 457 |
+
- `dataloader_prefetch_factor`: None
|
| 458 |
+
- `past_index`: -1
|
| 459 |
+
- `disable_tqdm`: False
|
| 460 |
+
- `remove_unused_columns`: True
|
| 461 |
+
- `label_names`: None
|
| 462 |
+
- `load_best_model_at_end`: True
|
| 463 |
+
- `ignore_data_skip`: False
|
| 464 |
+
- `fsdp`: []
|
| 465 |
+
- `fsdp_min_num_params`: 0
|
| 466 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 467 |
+
- `tp_size`: 0
|
| 468 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 469 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 470 |
+
- `deepspeed`: None
|
| 471 |
+
- `label_smoothing_factor`: 0.0
|
| 472 |
+
- `optim`: adamw_torch
|
| 473 |
+
- `optim_args`: None
|
| 474 |
+
- `adafactor`: False
|
| 475 |
+
- `group_by_length`: False
|
| 476 |
+
- `length_column_name`: length
|
| 477 |
+
- `ddp_find_unused_parameters`: None
|
| 478 |
+
- `ddp_bucket_cap_mb`: None
|
| 479 |
+
- `ddp_broadcast_buffers`: False
|
| 480 |
+
- `dataloader_pin_memory`: True
|
| 481 |
+
- `dataloader_persistent_workers`: False
|
| 482 |
+
- `skip_memory_metrics`: True
|
| 483 |
+
- `use_legacy_prediction_loop`: False
|
| 484 |
+
- `push_to_hub`: False
|
| 485 |
+
- `resume_from_checkpoint`: None
|
| 486 |
+
- `hub_model_id`: None
|
| 487 |
+
- `hub_strategy`: every_save
|
| 488 |
+
- `hub_private_repo`: None
|
| 489 |
+
- `hub_always_push`: False
|
| 490 |
+
- `gradient_checkpointing`: False
|
| 491 |
+
- `gradient_checkpointing_kwargs`: None
|
| 492 |
+
- `include_inputs_for_metrics`: False
|
| 493 |
+
- `include_for_metrics`: []
|
| 494 |
+
- `eval_do_concat_batches`: True
|
| 495 |
+
- `fp16_backend`: auto
|
| 496 |
+
- `push_to_hub_model_id`: None
|
| 497 |
+
- `push_to_hub_organization`: None
|
| 498 |
+
- `mp_parameters`:
|
| 499 |
+
- `auto_find_batch_size`: False
|
| 500 |
+
- `full_determinism`: False
|
| 501 |
+
- `torchdynamo`: None
|
| 502 |
+
- `ray_scope`: last
|
| 503 |
+
- `ddp_timeout`: 1800
|
| 504 |
+
- `torch_compile`: False
|
| 505 |
+
- `torch_compile_backend`: None
|
| 506 |
+
- `torch_compile_mode`: None
|
| 507 |
+
- `include_tokens_per_second`: False
|
| 508 |
+
- `include_num_input_tokens_seen`: False
|
| 509 |
+
- `neftune_noise_alpha`: None
|
| 510 |
+
- `optim_target_modules`: None
|
| 511 |
+
- `batch_eval_metrics`: False
|
| 512 |
+
- `eval_on_start`: False
|
| 513 |
+
- `use_liger_kernel`: False
|
| 514 |
+
- `eval_use_gather_object`: False
|
| 515 |
+
- `average_tokens_across_devices`: False
|
| 516 |
+
- `prompts`: None
|
| 517 |
+
- `batch_sampler`: no_duplicates
|
| 518 |
+
- `multi_dataset_batch_sampler`: proportional
|
| 519 |
+
- `router_mapping`: {}
|
| 520 |
+
- `learning_rate_mapping`: {}
|
| 521 |
+
|
| 522 |
+
</details>
|
| 523 |
+
|
| 524 |
+
### Training Logs
|
| 525 |
+
| Epoch | Step | Training Loss | Validation Loss |
|
| 526 |
+
|:----------:|:--------:|:-------------:|:---------------:|
|
| 527 |
+
| 0.1927 | 100 | 0.3333 | - |
|
| 528 |
+
| 0.3854 | 200 | 0.2494 | - |
|
| 529 |
+
| 0.5780 | 300 | 0.2223 | 0.1975 |
|
| 530 |
+
| 0.7707 | 400 | 0.2037 | - |
|
| 531 |
+
| 0.9634 | 500 | 0.1883 | - |
|
| 532 |
+
| 1.1561 | 600 | 0.1791 | 0.1547 |
|
| 533 |
+
| 1.3487 | 700 | 0.1387 | - |
|
| 534 |
+
| 1.5414 | 800 | 0.1362 | - |
|
| 535 |
+
| 1.7341 | 900 | 0.1324 | 0.1313 |
|
| 536 |
+
| 1.9268 | 1000 | 0.1218 | - |
|
| 537 |
+
| 2.1195 | 1100 | 0.0969 | - |
|
| 538 |
+
| 2.3121 | 1200 | 0.0814 | 0.1127 |
|
| 539 |
+
| 2.5048 | 1300 | 0.09 | - |
|
| 540 |
+
| 2.6975 | 1400 | 0.0859 | - |
|
| 541 |
+
| 2.8902 | 1500 | 0.083 | 0.1069 |
|
| 542 |
+
| 3.0829 | 1600 | 0.0722 | - |
|
| 543 |
+
| 3.2755 | 1700 | 0.054 | - |
|
| 544 |
+
| 3.4682 | 1800 | 0.0446 | 0.1004 |
|
| 545 |
+
| 3.6609 | 1900 | 0.0553 | - |
|
| 546 |
+
| 3.8536 | 2000 | 0.059 | - |
|
| 547 |
+
| 4.0462 | 2100 | 0.0517 | 0.0920 |
|
| 548 |
+
| 4.2389 | 2200 | 0.0303 | - |
|
| 549 |
+
| 4.4316 | 2300 | 0.0362 | - |
|
| 550 |
+
| **4.6243** | **2400** | **0.0352** | **0.0891** |
|
| 551 |
+
| 4.8170 | 2500 | 0.033 | - |
|
| 552 |
+
|
| 553 |
+
* The bold row denotes the saved checkpoint.
|
| 554 |
+
|
| 555 |
+
### Framework Versions
|
| 556 |
+
- Python: 3.11.11
|
| 557 |
+
- Sentence Transformers: 5.1.0
|
| 558 |
+
- Transformers: 4.51.1
|
| 559 |
+
- PyTorch: 2.5.1+cu124
|
| 560 |
+
- Accelerate: 1.3.0
|
| 561 |
+
- Datasets: 3.5.0
|
| 562 |
+
- Tokenizers: 0.21.0
|
| 563 |
+
|
| 564 |
+
## Citation
|
| 565 |
+
|
| 566 |
+
### BibTeX
|
| 567 |
+
|
| 568 |
+
#### Sentence Transformers
|
| 569 |
+
```bibtex
|
| 570 |
+
@inproceedings{reimers-2019-sentence-bert,
|
| 571 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 572 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
| 573 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 574 |
+
month = "11",
|
| 575 |
+
year = "2019",
|
| 576 |
+
publisher = "Association for Computational Linguistics",
|
| 577 |
+
url = "https://arxiv.org/abs/1908.10084",
|
| 578 |
+
}
|
| 579 |
+
```
|
| 580 |
+
|
| 581 |
+
#### CachedMultipleNegativesRankingLoss
|
| 582 |
+
```bibtex
|
| 583 |
+
@misc{gao2021scaling,
|
| 584 |
+
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
|
| 585 |
+
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
|
| 586 |
+
year={2021},
|
| 587 |
+
eprint={2101.06983},
|
| 588 |
+
archivePrefix={arXiv},
|
| 589 |
+
primaryClass={cs.LG}
|
| 590 |
+
}
|
| 591 |
+
```
|
| 592 |
+
|
| 593 |
+
<!--
|
| 594 |
+
## Glossary
|
| 595 |
+
|
| 596 |
+
*Clearly define terms in order to be accessible across audiences.*
|
| 597 |
+
-->
|
| 598 |
+
|
| 599 |
+
<!--
|
| 600 |
+
## Model Card Authors
|
| 601 |
+
|
| 602 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 603 |
+
-->
|
| 604 |
+
|
| 605 |
+
<!--
|
| 606 |
+
## Model Card Contact
|
| 607 |
+
|
| 608 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
| 609 |
+
-->
|
added_tokens.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"<mask>": 64000
|
| 3 |
+
}
|
bpe.codes
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
config.json
ADDED
|
@@ -0,0 +1,27 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"RobertaModel"
|
| 4 |
+
],
|
| 5 |
+
"attention_probs_dropout_prob": 0.1,
|
| 6 |
+
"bos_token_id": 0,
|
| 7 |
+
"classifier_dropout": null,
|
| 8 |
+
"eos_token_id": 2,
|
| 9 |
+
"hidden_act": "gelu",
|
| 10 |
+
"hidden_dropout_prob": 0.1,
|
| 11 |
+
"hidden_size": 768,
|
| 12 |
+
"initializer_range": 0.02,
|
| 13 |
+
"intermediate_size": 3072,
|
| 14 |
+
"layer_norm_eps": 1e-05,
|
| 15 |
+
"max_position_embeddings": 258,
|
| 16 |
+
"model_type": "roberta",
|
| 17 |
+
"num_attention_heads": 12,
|
| 18 |
+
"num_hidden_layers": 12,
|
| 19 |
+
"pad_token_id": 1,
|
| 20 |
+
"position_embedding_type": "absolute",
|
| 21 |
+
"tokenizer_class": "PhobertTokenizer",
|
| 22 |
+
"torch_dtype": "float32",
|
| 23 |
+
"transformers_version": "4.51.1",
|
| 24 |
+
"type_vocab_size": 1,
|
| 25 |
+
"use_cache": true,
|
| 26 |
+
"vocab_size": 64001
|
| 27 |
+
}
|
config_sentence_transformers.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"__version__": {
|
| 3 |
+
"sentence_transformers": "5.1.0",
|
| 4 |
+
"transformers": "4.51.1",
|
| 5 |
+
"pytorch": "2.5.1+cu124"
|
| 6 |
+
},
|
| 7 |
+
"model_type": "SentenceTransformer",
|
| 8 |
+
"prompts": {
|
| 9 |
+
"query": "",
|
| 10 |
+
"document": ""
|
| 11 |
+
},
|
| 12 |
+
"default_prompt_name": null,
|
| 13 |
+
"similarity_fn_name": "cosine"
|
| 14 |
+
}
|
model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:88d7cc95da06ee5c8868eba8ef986df2b77fee41c0d382ed2eef9982307903c0
|
| 3 |
+
size 540015464
|
modules.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
[
|
| 2 |
+
{
|
| 3 |
+
"idx": 0,
|
| 4 |
+
"name": "0",
|
| 5 |
+
"path": "",
|
| 6 |
+
"type": "sentence_transformers.models.Transformer"
|
| 7 |
+
},
|
| 8 |
+
{
|
| 9 |
+
"idx": 1,
|
| 10 |
+
"name": "1",
|
| 11 |
+
"path": "1_Pooling",
|
| 12 |
+
"type": "sentence_transformers.models.Pooling"
|
| 13 |
+
}
|
| 14 |
+
]
|
sentence_bert_config.json
ADDED
|
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"max_seq_length": 256,
|
| 3 |
+
"do_lower_case": false
|
| 4 |
+
}
|
special_tokens_map.json
ADDED
|
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"bos_token": {
|
| 3 |
+
"content": "<s>",
|
| 4 |
+
"lstrip": false,
|
| 5 |
+
"normalized": false,
|
| 6 |
+
"rstrip": false,
|
| 7 |
+
"single_word": false
|
| 8 |
+
},
|
| 9 |
+
"cls_token": {
|
| 10 |
+
"content": "<s>",
|
| 11 |
+
"lstrip": false,
|
| 12 |
+
"normalized": false,
|
| 13 |
+
"rstrip": false,
|
| 14 |
+
"single_word": false
|
| 15 |
+
},
|
| 16 |
+
"eos_token": {
|
| 17 |
+
"content": "</s>",
|
| 18 |
+
"lstrip": false,
|
| 19 |
+
"normalized": false,
|
| 20 |
+
"rstrip": false,
|
| 21 |
+
"single_word": false
|
| 22 |
+
},
|
| 23 |
+
"mask_token": {
|
| 24 |
+
"content": "<mask>",
|
| 25 |
+
"lstrip": false,
|
| 26 |
+
"normalized": false,
|
| 27 |
+
"rstrip": false,
|
| 28 |
+
"single_word": false
|
| 29 |
+
},
|
| 30 |
+
"pad_token": {
|
| 31 |
+
"content": "<pad>",
|
| 32 |
+
"lstrip": false,
|
| 33 |
+
"normalized": false,
|
| 34 |
+
"rstrip": false,
|
| 35 |
+
"single_word": false
|
| 36 |
+
},
|
| 37 |
+
"sep_token": {
|
| 38 |
+
"content": "</s>",
|
| 39 |
+
"lstrip": false,
|
| 40 |
+
"normalized": false,
|
| 41 |
+
"rstrip": false,
|
| 42 |
+
"single_word": false
|
| 43 |
+
},
|
| 44 |
+
"unk_token": {
|
| 45 |
+
"content": "<unk>",
|
| 46 |
+
"lstrip": false,
|
| 47 |
+
"normalized": false,
|
| 48 |
+
"rstrip": false,
|
| 49 |
+
"single_word": false
|
| 50 |
+
}
|
| 51 |
+
}
|
tokenizer_config.json
ADDED
|
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"added_tokens_decoder": {
|
| 3 |
+
"0": {
|
| 4 |
+
"content": "<s>",
|
| 5 |
+
"lstrip": false,
|
| 6 |
+
"normalized": false,
|
| 7 |
+
"rstrip": false,
|
| 8 |
+
"single_word": false,
|
| 9 |
+
"special": true
|
| 10 |
+
},
|
| 11 |
+
"1": {
|
| 12 |
+
"content": "<pad>",
|
| 13 |
+
"lstrip": false,
|
| 14 |
+
"normalized": false,
|
| 15 |
+
"rstrip": false,
|
| 16 |
+
"single_word": false,
|
| 17 |
+
"special": true
|
| 18 |
+
},
|
| 19 |
+
"2": {
|
| 20 |
+
"content": "</s>",
|
| 21 |
+
"lstrip": false,
|
| 22 |
+
"normalized": false,
|
| 23 |
+
"rstrip": false,
|
| 24 |
+
"single_word": false,
|
| 25 |
+
"special": true
|
| 26 |
+
},
|
| 27 |
+
"3": {
|
| 28 |
+
"content": "<unk>",
|
| 29 |
+
"lstrip": false,
|
| 30 |
+
"normalized": false,
|
| 31 |
+
"rstrip": false,
|
| 32 |
+
"single_word": false,
|
| 33 |
+
"special": true
|
| 34 |
+
},
|
| 35 |
+
"64000": {
|
| 36 |
+
"content": "<mask>",
|
| 37 |
+
"lstrip": false,
|
| 38 |
+
"normalized": false,
|
| 39 |
+
"rstrip": false,
|
| 40 |
+
"single_word": false,
|
| 41 |
+
"special": true
|
| 42 |
+
}
|
| 43 |
+
},
|
| 44 |
+
"bos_token": "<s>",
|
| 45 |
+
"clean_up_tokenization_spaces": true,
|
| 46 |
+
"cls_token": "<s>",
|
| 47 |
+
"eos_token": "</s>",
|
| 48 |
+
"extra_special_tokens": {},
|
| 49 |
+
"mask_token": "<mask>",
|
| 50 |
+
"model_max_length": 256,
|
| 51 |
+
"pad_token": "<pad>",
|
| 52 |
+
"sep_token": "</s>",
|
| 53 |
+
"tokenizer_class": "PhobertTokenizer",
|
| 54 |
+
"unk_token": "<unk>"
|
| 55 |
+
}
|
vocab.txt
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|