Add new SentenceTransformer model
Browse files- 1_Pooling/config.json +10 -0
- README.md +922 -0
- added_tokens.json +3 -0
- bpe.codes +0 -0
- config.json +27 -0
- config_sentence_transformers.json +14 -0
- model.safetensors +3 -0
- modules.json +14 -0
- sentence_bert_config.json +4 -0
- special_tokens_map.json +51 -0
- tokenizer_config.json +55 -0
- vocab.txt +0 -0
1_Pooling/config.json
ADDED
|
@@ -0,0 +1,10 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"word_embedding_dimension": 768,
|
| 3 |
+
"pooling_mode_cls_token": false,
|
| 4 |
+
"pooling_mode_mean_tokens": true,
|
| 5 |
+
"pooling_mode_max_tokens": false,
|
| 6 |
+
"pooling_mode_mean_sqrt_len_tokens": false,
|
| 7 |
+
"pooling_mode_weightedmean_tokens": false,
|
| 8 |
+
"pooling_mode_lasttoken": false,
|
| 9 |
+
"include_prompt": true
|
| 10 |
+
}
|
README.md
ADDED
|
@@ -0,0 +1,922 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
---
|
| 2 |
+
tags:
|
| 3 |
+
- sentence-transformers
|
| 4 |
+
- sentence-similarity
|
| 5 |
+
- feature-extraction
|
| 6 |
+
- dense
|
| 7 |
+
- generated_from_trainer
|
| 8 |
+
- dataset_size:2668
|
| 9 |
+
- loss:CachedMultipleNegativesRankingLoss
|
| 10 |
+
base_model: bkai-foundation-models/vietnamese-bi-encoder
|
| 11 |
+
widget:
|
| 12 |
+
- source_sentence: Nguyễn_Đức_Thắng và Trần_Xuân_Bách là 2 học_sinh nhận được huy_chương
|
| 13 |
+
bạc trong cuộc thi .
|
| 14 |
+
sentences:
|
| 15 |
+
- "Theo các đại_lý Hyundai , Venue sẽ bán ra cuối 2023 , bên cạnh hai cái tên khác\
|
| 16 |
+
\ lần đầu_vào thị_trường Việt là Custo và Palisade . Dải_sản_phẩm gầm cao của\
|
| 17 |
+
\ Hyundai tại Việt_Nam sẽ trải dài từ nhỏ ( cỡ A ) đến lớn ( cỡ E ) với những\
|
| 18 |
+
\ cái tên lần_lượt là Venue , Creta , Tucson , Santa_Fe và Palisade . \n Hyundai\
|
| 19 |
+
\ Venue là sản_phẩm toàn_cầu của hãng xe Hàn_Quốc , chia_sẻ nền_tảng khung gầm\
|
| 20 |
+
\ với mẫu xe anh_em Kia_Sonet . Doanh_số Venue trên toàn_cầu chủ_yếu đến từ Ấn_Độ\
|
| 21 |
+
\ với khoảng 70 % thị_phần . \n Kích_thước dài , rộng , cao của Hyundai Venue\
|
| 22 |
+
\ là 4.040 mm , 1.770 mm , 1.585 mm , chiều dài cơ_sở 2.520 mm . Những thông_số\
|
| 23 |
+
\ tương_tự của Toyota_Raize là 4.030 x 1.710 x 1.605 mm , chiều dài cơ_sở 2.525\
|
| 24 |
+
\ mm . Sonet là 4.120 x 1.790 x 1.642 mm , chiều dài cơ_sở 2.500 mm . \n Hyundai\
|
| 25 |
+
\ trang_bị nhiều tùy_chọn động_cơ cho Venue . Tùy_thị_trường , xe có các lựa_chọn\
|
| 26 |
+
\ như máy xăng 1.2 , tăng áp 1.0 hoặc máy dầu 1.5 với công_suất lần_lượt 83 mã_lực\
|
| 27 |
+
\ , 120 mã_lực và 116 mã_lực . Hộp_số sàn 5 cấp , 6 cấp hoặc tự_động 7 cấp ly\
|
| 28 |
+
\ hợp kép . Bên cạnh đó là máy xăng 1.6 công_suất 121 mã_lực . \n Tại Việt_Nam\
|
| 29 |
+
\ , đối_thủ Kia_Sonet do Trường Hải lắp_ráp và phân_phối dùng máy 1.5 công_suất\
|
| 30 |
+
\ 113 mã_lực . Toyota_Raize trang_bị_động_cơ tăng áp 1.0 công_suất 98 mã_lực .\
|
| 31 |
+
\ \n Sự góp_mặt của Venue giúp khách_hàng Việt có thêm lựa_chọn ở phân khúc xe\
|
| 32 |
+
\ gầm cao_giá rẻ đang thu_hút nhiều hãng xe tham_chiến . Xu_hướng chuyển_dịch\
|
| 33 |
+
\ từ hatchback cỡ A lên SUV cùng kích_cỡ dần rõ nét hơn ở Việt_Nam . Sau Raize\
|
| 34 |
+
\ và Sonet , thị_trường mới có thêm chiếc VF 5 Plus thuần điện của VinFast . Nhỏ\
|
| 35 |
+
\ hơn những mẫu xe này còn có Hongguang Mini EV đã bán và VF 3 ra_mắt vào năm\
|
| 36 |
+
\ sau . \n Venue chưa phải là mẫu SUV nhỏ nhất của hãng xe Hàn_Quốc khi còn có\
|
| 37 |
+
\ Exter , Casper . \n"
|
| 38 |
+
- "Tiến_Minh vẫn giữ được độ dẻo_dai của cựu_số 4 thế_giới , khi thắng Tiến_Tuấn\
|
| 39 |
+
\ chỉ sau khoảng 40 phút thi_đấu trong trận chung_kết chiều 2 / 9 . Tay_vợt 22\
|
| 40 |
+
\ tuổi nhỉnh hơn ở những tình_huống đập cầu hay phông cầu , còn đàn_anh mạnh ở\
|
| 41 |
+
\ các pha bỏ_nhỏ hoặc phán_đoán tình_huống . Tiến_Minh biết cách bỏ cầu khi cảm_thấy\
|
| 42 |
+
\ Tiến_Tuấn phông cầu quá lực và đi ra ngoài . Trận_đấu kết_thúc với cú đập cầu\
|
| 43 |
+
\ của tay_vợt trẻ đi ra ngoài . \n Tiến_Minh lần thứ 15 vô_địch giải cầu_lông\
|
| 44 |
+
\ cá_nhân quốc_gia , trong đó có kỷ_lục 11 năm liền đăng_quang giai_đoạn 2002\
|
| 45 |
+
\ - 2013 . Chuỗi này chỉ dừng ở năm 2014 bởi anh không tham_dự . Sau đó , anh\
|
| 46 |
+
\ vô_địch quốc_gia thêm bốn lần nữa năm 2017 , 2019 , 2020 và 2023 . Điều đặc_biệt\
|
| 47 |
+
\ là trong 20 năm qua , Tiến_Minh mỗi khi dự giải đều vào chung_kết . \n Chặng\
|
| 48 |
+
\ đường tới chung_kết của tay_vợt 40 tuổi năm nay khó_khăn hơn , trong đó có thất_bại\
|
| 49 |
+
\ trước chính Tiến_Tuấn ở vòng bảng . Trước đó , Tiến_Minh lần_lượt vượt qua Đồng_Quang_Huy\
|
| 50 |
+
\ và Vũ Hải_Đăng ở vòng_loại , để vào bảng B cùng Tiến_Tuấn , Lê_Minh_Sơn và Phan\
|
| 51 |
+
\ Phúc_Thịnh . Tay_vợt từng đoạt HC đồng thế_giới thắng hai đối_thủ yếu hơn ,\
|
| 52 |
+
\ rồi thua Tiến_Tuấn nhưng vẫn vào bán_kết với vị_trí nhì bảng . \n Tại bán_kết\
|
| 53 |
+
\ tối 1 / 9 , Tiến_Minh gặp tay_vợt số một Việt_Nam Nguyễn Hải_Đăng , nhưng anh\
|
| 54 |
+
\ thắng chỉ sau hai hiệp với tỷ_số 21 - 18 , 21 - 18 . Ở trận bán_kết còn lại\
|
| 55 |
+
\ , Tiến_Tuấn hạ tay_vợt chủ nhà Trần_Quốc_Khánh 22 - 20 , 21 - 15 . Tái_ngộ tại\
|
| 56 |
+
\ chung_kết , Tiến_Minh đòi nợ Tiến_Tuấn thành_công để đăng_quang ở tuổi 40 .\
|
| 57 |
+
\ \n Theo bảng thứ tự cầu_lông thế_giới ( BWF ) , Tiến_Minh đang là tay_vợt số\
|
| 58 |
+
\ ba Việt_Nam sau Nguyễn Hải_Đăng và Lê_Đức_Phát . Tuy_nhiên Đức_Phát không được\
|
| 59 |
+
\ xếp hạt_giống tại giải , vì_thế anh không may khi sớm đụng Hải_Đăng và dừng\
|
| 60 |
+
\ bước trước khi tới vòng bảng . \n Giải cầu_lông cá_nhân quốc_gia 2023 diễn ra\
|
| 61 |
+
\ tại Nhà thi_đấu Bắc_Giang từ 29 / 8 đến 2 / 9 . Các tay_vợt sẽ đấu_loại trực_tiếp\
|
| 62 |
+
\ để chọn tám người vào vòng bảng , chia làm hai bảng , mỗi bảng bốn người . Từ\
|
| 63 |
+
\ đó họ đấu vòng_tròn để chọn ra bốn tay_vợt vào bán_kết . \n Ở đơn nữ , Nguyễn_Thùy_Linh\
|
| 64 |
+
\ thắng dễ Trần_Thị_Phương_Thúy 21 - 12 , 21 - 13 để tiếp_tục thống_trị nội_dung\
|
| 65 |
+
\ này . Tại bán_kết , Thùy_Linh hạ Vũ_Thị_Trang - cựu số một Việt_Nam và cũng\
|
| 66 |
+
\ là vợ Nguyễn_Tiến_Minh . \n Các tay_vợt hàng_đầu Việt_Nam sẽ nghỉ_ngơi trước\
|
| 67 |
+
\ khi dự giải Việt_Nam Mở_rộng từ 12 / 9 đến 17 / 9 tại TP HCM. Đây là giải duy_nhất\
|
| 68 |
+
\ tại Việt_Nam thuộc hệ_thống BWF World Tour , cấp Super 100 . \n"
|
| 69 |
+
- "Ngày 2 / 9 , Bộ Giáo_dục và Đào_tạo cho biết em Nguyễn_Ngọc_Đăng_Khoa , học_sinh\
|
| 70 |
+
\ lớp 11 , trường THPT chuyên Khoa_học Tự_nhiên , Đại_học Quốc_gia Hà_Nội , giành\
|
| 71 |
+
\ huy_chương vàng . \n Hai huy_chương bạc thuộc về Trần_Xuân_Bách , lớp 12 trường\
|
| 72 |
+
\ chuyên Khoa_học Tự_nhiên và Nguyễn_Đức_Thắng , học_sinh lớp 11 , trường THPT\
|
| 73 |
+
\ chuyên Hùng Vương , Phú_Thọ . Nguyễn_Quang_Minh , lớp 12 , trường chuyên Khoa_học\
|
| 74 |
+
\ Tự_nhiên , giành huy_chương đồng . \n Với thành_tích này , đội_tuyển Olympic\
|
| 75 |
+
\ Tin_học Việt_Nam đứng trong nhóm 9 quốc_gia và vùng lãnh_thổ đạt kết_quả cao\
|
| 76 |
+
\ nhất , sau đội Trung_Quốc , Mỹ , Nhật_Bản , Hàn_Quốc , Israel ... \n Kỳ thi\
|
| 77 |
+
\ Olympic quốc_tế lần thứ 35 năm 2023 được tổ_chức từ ngày 28 / 8 đến 4 / 9 tại\
|
| 78 |
+
\ thành_phố Szeged , Hungary , với 351 thí_sinh đến từ 89 quốc_gia và vùng lãnh_thổ\
|
| 79 |
+
\ . \n Kỳ thi có hai ngày thi chính_thức . Trong mỗi ngày thi , các thí_sinh lập_trình\
|
| 80 |
+
\ trên máy_tính trong 5 giờ và giải 3 bài_toán . \n Theo ban tổ_chức , 178 thí_sinh\
|
| 81 |
+
\ đoạt huy_chương , trong đó 30 huy_chương vàng , 58 bạc và 90 đồng , chiếm tỷ_lệ\
|
| 82 |
+
\ 50,7 % số thí_sinh tham_dự . 40 em khác được tặng bằng khen . \n Bộ Giáo_dục\
|
| 83 |
+
\ và Đào_tạo đánh_giá đề thi năm nay khó hơn các năm trước và có một_số dạng bài_toán\
|
| 84 |
+
\ lạ , đòi_hỏi khả_năng vận_dụng kiến_thức linh_hoạt và sự sáng_tạo cao của thí_sinh\
|
| 85 |
+
\ . \n Năm_ngoái , đội_tuyển Việt_Nam dự thi trực_tuyến , giành một huy_chương\
|
| 86 |
+
\ vàng và ba huy_chương bạc . Chủ_nhân tấm huy_chương vàng là Trần_Xuân_Bách ,\
|
| 87 |
+
\ khi đó học lớp 11 trường THPT chuyên Khoa_học Tự_nhiên . \n"
|
| 88 |
+
- source_sentence: Xe điện scooter chỉ được chạy với vận_tốc từ 10 km / h trở xuống
|
| 89 |
+
.
|
| 90 |
+
sentences:
|
| 91 |
+
- "Theo hoạt_động được thiết_kế riêng cho kỳ nghỉ từ 1 / 9 đến 4 / 9 do Sở Du_lịch\
|
| 92 |
+
\ công_bố hôm 30 / 8 , các chương_trình đều miễn_phí vé vào , riêng tour nội_đô\
|
| 93 |
+
\ do các công_ty lữ_hành địa_phương tổ_chức có_giá vé khoảng 300.000 đồng mỗi\
|
| 94 |
+
\ người . Dưới đây là lịch_trình các chương_trình , hoạt_động du_khách có_thể\
|
| 95 |
+
\ tham_khảo để lên kế_hoạch vui_chơi dịp lễ . \n Thời_gian : Ngày 17 / 8 - 6 /\
|
| 96 |
+
\ 9 \n Chương_trình triển_lãm đã diễn ra trước kỳ nghỉ lễ 2 / 9 . Trong kỳ nghỉ\
|
| 97 |
+
\ , du_khách vẫn có_thể tham_quan các tác_phẩm nghệ_thuật . Triển_lãm này nhằm\
|
| 98 |
+
\ kỷ_niệm 78 năm Ngày Cách_mạng Tháng_Tám ( 19 / 8 / 1945 - 19 / 8 / 2023 ) ,\
|
| 99 |
+
\ Quốc_khánh nước Cộng_hòa xã_hội chủ_nghĩa Việt_Nam ( 2 / 9 / 1945 - 2 / 9 /\
|
| 100 |
+
\ 2023 ) và 78 năm ngày Sài_Gòn khởi_nghĩa giành chính_quyền ( 25 / 8 / 1945 -\
|
| 101 |
+
\ 25 / 8 / 2023 ) . Các tác_phẩm được trưng_bày liên_quan đến chiến_thắng lịch_sử\
|
| 102 |
+
\ vào mùa thu năm 1945 và sự phát_triển của đất_nước sau ngày hòa bình đến nay\
|
| 103 |
+
\ . Triển_lãm trải dài đoạn từ_đường Ngô Đức_Kế đến đường Tôn_Đức_Thắng ; đường\
|
| 104 |
+
\ Đồng_Khởi ( phía trước Sở Văn_hóa và Thể_thao , đối_diện công_viên Chi_Lăng\
|
| 105 |
+
\ ) . \n Thời_gian : Ngày 2 - 3 / 9 \n Hoạt_động này diễn ra hai ngày trong các\
|
| 106 |
+
\ khung giờ buổi sáng 6 - 9h , buổi chiều từ 16h30 đến 18h30 . Tối_ngày 2 / 9\
|
| 107 |
+
\ sẽ diễn ra chương_trình đêm hoa_đăng khinh khí_cầu . Các hoạt_động trình_diễn\
|
| 108 |
+
\ khinh khí_cầu trong ngày 3 / 9 chỉ diễn ra vào buổi sáng . Tùy theo điều_kiện\
|
| 109 |
+
\ thời_tiết , thời_gian tổ_chức hoạt_động có_thể tạm dừng hoặc điều_chỉnh cho\
|
| 110 |
+
\ phù_hợp . \n Thời_gian : Ngày 2 / 9 \n Buổi biểu_diễn có sự góp_mặt của các\
|
| 111 |
+
\ đội lân sư rồng , trống_hội , đồng_diễn các bộ_môn võ_thuật như Vovinam , Wushu\
|
| 112 |
+
\ , võ cổ_truyền và Taekwondo . Chương_trình bắt_đầu lúc 18h và kết_thúc lúc 19h15\
|
| 113 |
+
\ , diễn ra trên đoạn từ_đường Tôn Thất_Thiệp đến Huỳnh_Thúc Kháng . \n Thời_gian\
|
| 114 |
+
\ : Ngày 2 / 9 \n Chương_trình nghệ_thuật được chia thành 3 phần . Từ 19h30 đến\
|
| 115 |
+
\ 21h diễn ra chương_trình nghệ_thuật kỷ_niệm 78 năm Ngày Cách_mạng Tháng_Tám\
|
| 116 |
+
\ , Quốc_khánh nước Cộng_hòa xã_hội chủ_nghĩa Việt_Nam và 78 năm Ngày Sài_Gòn\
|
| 117 |
+
\ khởi_nghĩa giành chính_quyền . Từ 21h đến 21h15 , phát trực_tiếp màn_hình lớn\
|
| 118 |
+
\ bắn pháo_hóa nghệ_thuật . Khung giờ từ 21h15 đến 22h15 tiếp_tục các tiết_mục\
|
| 119 |
+
\ biểu_diễn nghệ_thuật . Chương_trình này được tổ_chức ở khúc giao phố đi bộ Nguyễn_Huệ\
|
| 120 |
+
\ với đường Ngô Đức_Kế , phường Bến_Nghé , quận 1 . \n Thời_gian : Ngày 2 / 9\
|
| 121 |
+
\ \n Địa_điểm : Khu_vực đầu đường_hầm sông Sài_Gòn , TP Thủ_Đức và công_viên văn_hóa\
|
| 122 |
+
\ Đầm_Sen , quận 11 \n Hoạt_động bắn pháo_hoa nổ diễn ra vào tối_ngày 2 / 9 ,\
|
| 123 |
+
\ kéo_dài trong 15 phút , từ 21h đến 21h15 và diễn ra cùng lúc tại hai địa_điểm\
|
| 124 |
+
\ . Khu_vực đầu đường_hầm sông Sài_Gòn trình_diễn màn bắn pháo_hoa tầm cao , công_viên\
|
| 125 |
+
\ văn_hoá Đầm_Sen bắn pháo_hoa tầm thấp . Hàng năm , hoạt_động này nhận được sự\
|
| 126 |
+
\ quan_tâm của đông_đảo người dân . Để có vị_trí đẹp , bạn nên đến trước 30 phút\
|
| 127 |
+
\ . \n Đây là tour du_lịch nội_đô được nhiều doanh_nghiệp lữ_hành tại TP HCM phối_hợp\
|
| 128 |
+
\ với Sở Du_lịch tổ_chức . Tour này có mức giá 300.000 đồng với thời_gian_tham_quan\
|
| 129 |
+
\ nửa ngày . Du_khách bắt_đầu hành_trình tham_quan tại Công_viên tượng_đài Bác\
|
| 130 |
+
\ , tại phố đi bộ Nguyễn_Huệ , quận 1 . Sau đó ghé thăm trụ_sở UBND , nhà_hát\
|
| 131 |
+
\ Thành_phố . Đây đều là hai công_trình kiến_trúc Pháp nổi_bật tại TP HCM với\
|
| 132 |
+
\ nhiều câu_chuyện lịch_sử xoay quanh . Hoạt_động cuối của tour là đi xe bus hai\
|
| 133 |
+
\ tầng ngắm thành_phố . \n Sở Du_lịch cho biết kỳ nghỉ lễ 2 / 9 cũng là mùa cao_điểm\
|
| 134 |
+
\ kích_cầu du_lịch mua_sắm . Sở Công_thương TP HCM đã công_bố hàng nghìn sản_phẩm\
|
| 135 |
+
\ với giá khuyến_mãi , du_khách có_thể mua_sắm giá rẻ tại các trung_tâm thương_mại\
|
| 136 |
+
\ trên địa_bàn thành_phố trong kỳ nghỉ . \n Ngoài các sự_kiện và sản_phẩm du_lịch\
|
| 137 |
+
\ được thiết_kế riêng cho dịp lễ 2 / 9 , TP HCM còn nhiều hoạt_động nội_đô khác\
|
| 138 |
+
\ cho du_khách trải nghiệm . Nổi_bật là các tour đường_sông mới đi vào hoạt_động\
|
| 139 |
+
\ hồi đầu tháng 8 . 5 tour có_thể kể đến gồm tuyến du_lịch nội_đô Nhiêu_Lộc -\
|
| 140 |
+
\ Thị_Nghè , tuyến Bình_Quới , tuyến du_lịch Củ_Chi , Cần Giờ ( xuất_phát từ Bến\
|
| 141 |
+
\ Bạch_Đằng ) , tuyến kết_nối đến các tỉnh Đông_Nam_bộ , miền Tây hay sang Campuchia\
|
| 142 |
+
\ . Các tour chủ_yếu diễn ra trong ngày . Du_khách có_thể liên_hệ các công_ty\
|
| 143 |
+
\ du_lịch tại thành_phố để đặt tour . Ngoài_ra , du_khách có_thể ghé các khu_phố\
|
| 144 |
+
\ đi bộ và phố ẩm_thực để thưởng_thức các đặc_sản và hòa mình vào không_khí đa\
|
| 145 |
+
\ văn_hóa tại thành_phố . \n"
|
| 146 |
+
- "Paris là một trong những nơi áp_dụng dịch_vụ cho thuê xe scooter điện sớm nhất\
|
| 147 |
+
\ ở châu Âu . Từ năm 2018 , chính_quyền thủ_đô Pháp cho phép người dân thuê xe\
|
| 148 |
+
\ scooter điện thông_qua các ứng_dụng được quảng_cáo là giải_pháp thay_thế ôtô\
|
| 149 |
+
\ đầy hứa_hẹn , thân_thiện với một thành_phố cần giảm ô_nhiễm . \n Truyền_thông\
|
| 150 |
+
\ Pháp khi đó gọi Paris là \" thủ phủ scooter điện quốc_tế \" và tới năm 2019\
|
| 151 |
+
\ , có tới 12 đơn_vị cho thuê xe scooter điện ở Paris , sở_hữu khoảng 20.000 phương_tiện\
|
| 152 |
+
\ , với các quy_định quản_lý được cho là rất \" thoáng \" . \n Giờ_đây , khi một_số\
|
| 153 |
+
\ thành_phố như London đang gia_hạn hợp_đồng với các đơn_vị cho thuê scooter ,\
|
| 154 |
+
\ Paris lại trở_thành thủ_đô đầu_tiên ở châu Âu cấm hoàn_toàn xe scooter điện\
|
| 155 |
+
\ cho thuê từ 1 / 9 . \n Amanda_Rollins , 33 tuổi , người Mỹ ở Paris thường di_chuyển\
|
| 156 |
+
\ bằng scooter , cho hay vẫn nhớ như in lần đầu loại phương_tiện này xuất_hiện\
|
| 157 |
+
\ trên đường_phố Paris năm 2018 . \" Lúc ấy giống như Giáng_sinh , như_thể ông_già\
|
| 158 |
+
\ Noel vừa ghé qua \" , cô nói . \n Chính_phủ Pháp năm 2019 đưa scooter điện vào\
|
| 159 |
+
\ danh_sách phương_tiện giao_thông cần quản_lý , áp_đặt quy_định trên toàn_quốc\
|
| 160 |
+
\ về tốc_độ và sức chở . \n Cuối năm đó , chính_quyền Paris quyết_định giới_hạn\
|
| 161 |
+
\ số_lượng nhà khai_thác scooter điện còn ba công_ty là Lime , Dott và Tier .\
|
| 162 |
+
\ Mỗi nhà khai_thác chỉ được phép cung_cấp 5.000 xe trên đường_phố thủ_đô . \n\
|
| 163 |
+
\ Đến năm 2021 , một phụ_nữ Italy đi bộ dọc sông Seine trở_thành người thứ ba_bị\
|
| 164 |
+
\ xe scooter điện tông chết . Hai người chở nhau trên chiếc scooter đã đâm trúng\
|
| 165 |
+
\ cô . \n Những tháng tiếp_theo , chính_quyền Paris cân_nhắc cấm hoàn_toàn xe\
|
| 166 |
+
\ scooter điện , nhưng cuối_cùng chỉ ban_hành nhiều quy_định hơn . Các công_ty\
|
| 167 |
+
\ cho thuê scooter điện bị yêu_cầu đặt giới_hạn thiết_bị ở vận_tốc \" chậm \"\
|
| 168 |
+
\ , không quá 10 km / h . \n Hồi tháng 4 , Paris tổ_chức trưng_cầu dân_ý và 90\
|
| 169 |
+
\ % người tham_gia ủng_hộ lệnh cấm scooter điện cho thuê . Lệnh cấm có hiệu_lực\
|
| 170 |
+
\ từ 1 / 9 . \n"
|
| 171 |
+
- "Theo Xinhua , cổ_vật là một trong bảo_bối được chú_ý nhất của Bảo_tàng tỉnh Hồ_Bắc\
|
| 172 |
+
\ , gây tò_mò với nhiều người . Trên Weibo , nhiều khán_giả cho biết khi tới đây\
|
| 173 |
+
\ , họ không_thể không chiêm_ngưỡng tác_phẩm . Kiếm đạt trình_độ cao bậc nhất\
|
| 174 |
+
\ về nghệ_thuật trạm trổ , điêu_khắc thời Xuân_Thu Chiến_Quốc đồng_thời là dấu_son\
|
| 175 |
+
\ của nghệ_thuật thư_pháp , bởi các chữ được khắc trên cổ_vật . \n Hồi tháng 6\
|
| 176 |
+
\ , bài nghiên_cứu lịch_sử thanh kiếm trên CCTV gây sốt , thu_hút hàng triệu lượt\
|
| 177 |
+
\ xem . Tác_phẩm được mệnh_danh \" Thiên_hạ_đệ nhất kiếm \" vì nhiều yếu_tố .\
|
| 178 |
+
\ Khi khai_quật tại ngôi mộ trên núi Vọng ở Giang_Lăng , tỉnh Hồ Bắc năm 1965\
|
| 179 |
+
\ , giới khảo_cổ từng sững_sờ vì khi rút kiếm khỏi bao , cổ_vật vẫn sáng , lưỡi\
|
| 180 |
+
\ kiếm sắc_bén , không hề bị gỉ sét dù trải qua hai thiên_niên_kỷ dưới lòng đất\
|
| 181 |
+
\ . \n Qua khảo_cứu , giới chuyên_môn xác_định hai dòng chữ khắc trên thanh kiếm\
|
| 182 |
+
\ là \" Việt_vương Câu_Tiễn tự tác_dụng kiếm \" , loại chữ là Điểu_Triện . Cổ_vật\
|
| 183 |
+
\ được làm_chủ_yếu từ đồng_điếu , dài 56 cm , rộng 4,6 cm . Phần cán được khảm\
|
| 184 |
+
\ lưu_ly màu lam - một loại đá_quý thời cổ_đại . \n Một trong câu hỏi nhiều người\
|
| 185 |
+
\ thắc_mắc là trong lịch_sử , Việt_Vương sống ở vùng Chiết_Giang , Trung_Quốc\
|
| 186 |
+
\ ngày_nay , vì_sao kiếm của ông lại được phát_hiện ở Hồ_Bắc ? Theo các nhà nghiên_cứu\
|
| 187 |
+
\ , kiếm được tìm thấy trong ngôi mộ điển_hình của người nước Sở . Chủ mộ dòng\
|
| 188 |
+
\ dõi quý_tộc , sống giữa thời Chiến_Quốc . Kiếm là một trong bảo_bối được mai_táng\
|
| 189 |
+
\ cùng nhân_vật này . \n Hiện các học_giả tranh_luận hai lý_do . Lý_do thứ nhất\
|
| 190 |
+
\ liên_quan cuộc hôn_nhân chính_trị . Vua nước Sở từng cưới con_gái của Câu_Tiễn\
|
| 191 |
+
\ làm phi_tần , có_thể Câu_Tiễn trao kiếm cho con làm của hồi_môn , vì_thế thanh\
|
| 192 |
+
\ kiếm chu du sang nước Sở , vào tay thành_viên của vương tộc . \n Một_số học_giả\
|
| 193 |
+
\ lại cho rằng thanh kiếm là chiến lợi_phẩm mà người nước Sở đoạt được từ nước\
|
| 194 |
+
\ Việt . \n Lý_do thanh kiếm sắc_bén cũng được nhiều người quan_tâm . Sau khi\
|
| 195 |
+
\ đưa kiếm ra khỏi ngôi mộ , một nhà khảo_cổ rất cẩn_thận nhưng vô_tình đứt tay\
|
| 196 |
+
\ vì chạm vào lưỡi kiếm . Để thử độ bén , các nhà khảo_cổ xếp chồng 16 trang giấy\
|
| 197 |
+
\ trắng lên nhau , bất_ngờ vì kiếm chém đứt chồng giấy chỉ với một lần chặt .\
|
| 198 |
+
\ \n Hơn_nữa , môi_trường đất ở khu mộ ít oxy , lớp thạch_cao của quan_tài giúp\
|
| 199 |
+
\ ngăn_cách thanh kiếm với thế_giới bên ngoài , bảo_vệ cổ_vật . Đến nay , các\
|
| 200 |
+
\ nhà khoa_học vẫn nghiên_cứu phương_pháp_chế tác , các yếu_tố khiến cổ_vật bất_hủ\
|
| 201 |
+
\ sau hàng nghìn năm . \n Tác_phẩm từng được đưa ra nước_ngoài triển_lãm nhưng\
|
| 202 |
+
\ từ năm 2014 , kiếm Câu_Tiễn được đưa vào danh_sách cổ_vật không được phép xuất_cảnh\
|
| 203 |
+
\ . \n Việt_vương Câu_Tiễn trị_vì từ năm 496 tới 465 trước công_nguyên . Nước\
|
| 204 |
+
\ Việt , còn gọi là Ư Việt , là một chư_hầu của nhà Chu thời Xuân_Thu và Chiến_Quốc\
|
| 205 |
+
\ trong lịch_sử Trung_Quốc . Lãnh_thổ này tương_ứng vùng Chiết_Giang ngày_nay\
|
| 206 |
+
\ . Vào thời Chiến_Quốc , quốc_gia này bị nước Sở tiêu_diệt . \n Có nhiều Việt_vương\
|
| 207 |
+
\ , trong đó Câu_Tiễn nổi_tiếng nhất với điển_tích \" nếm mật nằm gai \" , chỉ\
|
| 208 |
+
\ việc vua nằm ngủ trên gai , nếm vị đắng của mật để không quên nỗi nhục đầu_hàng\
|
| 209 |
+
\ quân Ngô . Nhờ chịu_đựng gian_khổ , Câu_Tiễn đánh_bại nước Ngô , báo_thù cho\
|
| 210 |
+
\ nước Việt . \n"
|
| 211 |
+
- source_sentence: Phu_nhân Mỹ , 33 tuổi , chia_sẻ rằng phu_nhân rất đồng_tình với
|
| 212 |
+
ý_tưởng sử_dụng lụa vụn ghép thành tranh .
|
| 213 |
+
sentences:
|
| 214 |
+
- "Bộ Giáo_dục và Đào_tạo tối nay cho biết trong hơn một triệu thí_sinh dự thi tốt_nghiệp\
|
| 215 |
+
\ THPT năm nay , có hơn 660.000 đăng_ký xét tuyển đại_học . Trong đó , số trúng_tuyển\
|
| 216 |
+
\ đợt 1 là gần 612.300 , chiếm 92,7 % . \n Tính đến 17h ngày 8 / 9 , hạn cuối\
|
| 217 |
+
\ để thí_sinh xác_nhận nhập_học trực_tuyến trên hệ_thống của Bộ , gần 494.500\
|
| 218 |
+
\ em đã thực_hiện , chiếm 80,8 % so với số trúng_tuyển . \n Số thí_sinh không\
|
| 219 |
+
\ xác_nhận nhập_học là gần 118.000 . Theo quy_định của Bộ Giáo_dục và Đào_tạo\
|
| 220 |
+
\ , nếu không có_lý_do chính_đáng , những thí_sinh này coi như từ_chối quyền nhập_học\
|
| 221 |
+
\ . Muốn học đại_học , các em phải tham_gia các đợt xét tuyển bổ_sung hoặc đăng_ký\
|
| 222 |
+
\ xét tuyển lại vào các năm sau . \n Nếu tính trên tổng_thi sinh dự thi tốt_nghiệp\
|
| 223 |
+
\ THPT , số thí_sinh vào đại_học năm nay sau đợt tuyển_sinh đầu_tiên chiếm tỷ_lệ\
|
| 224 |
+
\ 49,3 % . \n Năm_ngoái , trong hơn 567.000 thí_sinh trúng_tuyển đợt 1 , khoảng\
|
| 225 |
+
\ 103.000 bỏ nhập_học . Tỷ_lệ thí_sinh vào đại_học đợt 1 trên tổng_số thi tốt_nghiệp\
|
| 226 |
+
\ là 45,77 % . \n Tại hội_nghị tổng_kết năm_học với giáo_dục đại_học hôm 26 /\
|
| 227 |
+
\ 8 , bà Nguyễn Thu_Thuỷ , Vụ_trưởng Giáo_dục đại_học , Bộ Giáo_dục và Đào_tạo\
|
| 228 |
+
\ , đánh_giá công_tác tuyển_sinh đại_học đã có chuyển_biến tích_cực . Tuy_nhiên\
|
| 229 |
+
\ , các trường có quá nhiều phương_thức , phương_án xét tuyển phức_tạp , nhiều\
|
| 230 |
+
\ nơi chưa đảm_bảo công_bằng , phân_bổ chỉ_tiêu chưa hợp_lý , gây khó_khăn cho\
|
| 231 |
+
\ thí_sinh và hệ_thống xét tuyển của Bộ . \n Ngay sau khi thông_báo điểm_chuẩn\
|
| 232 |
+
\ hôm 24 - 25 / 8 đến đầu tháng 9 , hàng chục trường thông_báo tuyển bổ_sung .\
|
| 233 |
+
\ Với số_lượng bỏ nhập_học lên tới gần 118.000 , dự_kiến số chỉ_tiêu tuyển bổ_sung\
|
| 234 |
+
\ sẽ tiếp_tục tăng . \n Theo quy_định của Bộ Giáo_dục và Đào_tạo , các trường\
|
| 235 |
+
\ được phép tuyển bổ_sung đến tháng 12 nếu thiếu chỉ_tiêu . \n"
|
| 236 |
+
- "Chiều 28 / 8 , bà Lê_Thị_Bích_Trân , phu_nhân Thủ_tướng Phạm_Minh_Chính , và\
|
| 237 |
+
\ bà Hà_Tinh , phu_nhân Thủ_tướng Singapore Lý_Hiển_Long , đã ghé thăm làng lụa\
|
| 238 |
+
\ Vạn_Phúc hơn 1.000 năm_tuổi , nơi được Trung_tâm sách kỷ_lục Việt_Nam công_nhận\
|
| 239 |
+
\ là \" Làng_nghề dệt lụa tơ_tằm lâu_đời nhất còn duy_trì hoạt_động đến ngày_nay\
|
| 240 |
+
\ \" năm 2014 . \n Hai phu_nhân đã trải nghiệm ghép tranh_lụa tại Vụn_Art , hợp_tác_xã\
|
| 241 |
+
\ ( HTX ) làm tranh vải nằm trong Trung_tâm bảo_tồn lụa ở số 16 Phố Lụa , quận\
|
| 242 |
+
\ Hà_Đông . Ở cuối con đường ô nổi_tiếng dẫn vào trong làng , một căn phòng diện_tích\
|
| 243 |
+
\ 40 m2 là nơi giới_thiệu và bán các sản_phẩm tranh_lụa của HTX , cũng là nơi\
|
| 244 |
+
\ hai vị phu_nhân trực_tiếp ghép tranh . \n HTX do anh Lê_Việt_Cường , Chủ_tịch\
|
| 245 |
+
\ Hội người khuyết_tật quận Hà_Đông , sáng_lập năm 2017 . Anh Cường cho biết mục_đích\
|
| 246 |
+
\ thành_lập HTX trước_tiên là để đồng_hành , tạo việc_làm ổn_định cho những người\
|
| 247 |
+
\ khuyết_tật . Hiện HTX có 35 lao_động là người khuyết_tật . Bên cạnh đó , HTX\
|
| 248 |
+
\ cũng hướng tới việc gìn_giữ và quảng_bá các giá_trị văn_hóa , truyền_thống của\
|
| 249 |
+
\ dân_tộc cũng như bảo_vệ môi_trường thông_qua việc tái sử_dụng lụa Vạn_Phúc để\
|
| 250 |
+
\ tạo nên các bức tranh độc_đáo , sáng_tạo . \n Bà Lê_Thị_Bích_Trân , phu_nhân\
|
| 251 |
+
\ Thủ_tướng Phạm_Minh_Chính , và bà Hà_Tinh , phu_nhân Thủ_tướng Singapore Lý_Hiển_Long\
|
| 252 |
+
\ đã ghép tranh vẽ hai biểu_tượng du_lịch của hai nước là hòn Trống_Mái ở vịnh\
|
| 253 |
+
\ Hạ_Long và Công_viên Sư_tử_biển ở Singapore . \n Trương_Thủy_Hoàng_Mỹ ( 33 tuổi\
|
| 254 |
+
\ ) , người hướng_dẫn bà Trân , cho biết trong quá_trình ghép tranh , phu_nhân\
|
| 255 |
+
\ rất hào_hứng vì bà cũng làm ngành may_mặc . Phu_nhân rất ủng_hộ việc dùng lụa\
|
| 256 |
+
\ vụn để ghép tranh , vừa giúp tiết_kiệm vải , lại tạo ra những tác_phẩm tranh\
|
| 257 |
+
\ sáng_tạo , có sức hút . \n \" Sau khi hoàn_thành bức tranh , phu_nhân ( Thủ_tướng\
|
| 258 |
+
\ Singapore ) chia_sẻ bà bất_ngờ khi những mảnh vải đơn_giản có_thể ghép lại thành\
|
| 259 |
+
\ một bức tranh đẹp như_vậy \" , Nguyễn_Thị_Thùy_Linh ( 32 tuổi ) , người hướng_dẫn\
|
| 260 |
+
\ bà Hà_Tinh chia_sẻ . \n Tranh ghép thủ_công từ vải lụa của HTX đang dần trở_thành\
|
| 261 |
+
\ một trong những sản_phẩm lưu_niệm được nhiều du_khách yêu thích , đặc_biệt là\
|
| 262 |
+
\ khách quốc_tế . Không chỉ mua làm_quà , nhiều du_khách đến tận cơ_sở của HTX\
|
| 263 |
+
\ để trải nghiệm ghép tranh trực_tiếp . \n Bà Nguyễn_Thị_Khanh ( 58 tuổi ) , người\
|
| 264 |
+
\ hướng_dẫn các du_khách ghép tranh tại HTX , cho biết khách lẻ hoặc đoàn dưới\
|
| 265 |
+
\ 30 người sẽ trải nghiệm tại cơ_sở của HTX. Đối_với các đoàn trên 30 người như\
|
| 266 |
+
\ đoàn sinh_viên một trường Đại_học nước_ngoài đến vào đầu năm 2023 , cơ_sở mượn\
|
| 267 |
+
\ địa_điểm miếu Vạn_Phúc để tổ_chức hướng_dẫn . \n \" Đoàn khách đông nhất HTX\
|
| 268 |
+
\ đón_tiếp là hơn 100 người , chúng_tôi phải huy_động 80 % lao_động đến hướng_dẫn\
|
| 269 |
+
\ \" , bà nói . \n Một bức tranh ghép lụa phải trải qua nhiều công_đoạn đòi_hỏi\
|
| 270 |
+
\ sự tỉ_mỉ và kiên_nhẫn mới thành_hình . Đầu_tiên , tranh được phác_thảo và in\
|
| 271 |
+
\ trên giấy rồi mới cắt rời từng chi_tiết . Vải được chọn làm tranh được là ủi\
|
| 272 |
+
\ kỹ , phết một lớp keo sữa mỏng rồi đem hong khô để vải phẳng , bền màu và có\
|
| 273 |
+
\ độ cứng , giúp công_đoạn cắt vải dễ_dàng và chính_xác hơn . Dán những chi_tiết\
|
| 274 |
+
\ bằng giấy lên vải rồi cắt theo mép giấy . Từng miếng lụa được dán lên bằng cách\
|
| 275 |
+
\ dùng bàn_là ủi nóng để lớp keo tan ra và bám vào bề_mặt . \n Quan_trọng nhất\
|
| 276 |
+
\ và cũng đòi_hỏi nhiều kỹ_thuật nhất chính là lên màu cho tranh . \" Tranh chân_dung\
|
| 277 |
+
\ đòi_hỏi phải phối_màu sao cho khuôn_mặt sinh_động . Tranh phong_cảnh nhiều chi_tiết\
|
| 278 |
+
\ còn kỳ_công hơn , có những bức thợ phải ngồi tước vải thành từng sợi nhỏ , làm\
|
| 279 |
+
\ mất hai , ba ngày mới xong \" , bà Khanh nói . \n Do lao_động tại HTX đều là\
|
| 280 |
+
\ người khuyết_tật , nên cần nhiều thời_gian hướng_dẫn và phát_sinh nhiều lỗi\
|
| 281 |
+
\ . Việc ghép tranh cũng không đơn_giản mà cần phải có kỹ_năng và con mắt nghệ_thuật\
|
| 282 |
+
\ để cắt tỉa , gắn_kết những mảnh vụn rời_rạc thành một bức tranh hài_hòa . \n\
|
| 283 |
+
\ Thông_thường , du_khách sẽ trải nghiệm các bộ kit nhỏ tại cơ_sở , các chi_tiết\
|
| 284 |
+
\ đã được cắt sẵn và dán bằng keo . Khách cũng có_thể yêu_cầu trải nghiệm dán\
|
| 285 |
+
\ tranh bằng bàn_là hoặc vừa cắt vừa dán , nhưng sẽ mất nhiều thời_gian hơn .\
|
| 286 |
+
\ Bà Khanh ấn_tượng nhất là một nữ du_khách người Anh tên Stella sinh_sống ở Việt_Nam\
|
| 287 |
+
\ 10 năm và \" nói tiếng Việt rất giỏi \" . \" Cô ấy rất thích tranh_lụa nên năm\
|
| 288 |
+
\ nào cũng đưa vài đoàn khách đến trải nghiệm . Trong năm nay cô ấy đã đưa đến\
|
| 289 |
+
\ hai đoàn khách nước_ngoài \" , bà nói . \n Tranh vải có_thể được ghép thành\
|
| 290 |
+
\ khung tranh , trên mặt túi , áo , ví , gối , bình đựng nước . Các sản_phẩm tại\
|
| 291 |
+
\ HTX được làm đa_dạng từ mẫu_mã đến mức giá . Túi dao_động 250.000 - 1,2 triệu\
|
| 292 |
+
\ đồng , tranh từ 700.000 đến 3 triệu đồng . \n"
|
| 293 |
+
- "Sáng 5 / 9 , trường Tiểu_học Yên_Phú , huyện Yên_Định , tổ_chức khai_giảng năm_học\
|
| 294 |
+
\ mới 2023 - 2024 . Để trang_trí cho buổi lễ , các thầy cô trong trường đã chuẩn_bị\
|
| 295 |
+
\ một_số chùm bóng_bay nhiều màu_sắc . \n Sau buổi lễ , các thầy cô cầm chùm bóng_bay\
|
| 296 |
+
\ khoảng 20 quả , chuẩn_bị cắt dây thả lên trời thì một_số học_sinh và phụ_huynh\
|
| 297 |
+
\ chạy vào để giành bóng . Bất_ngờ nhiều tiếng nổ vang lên , sân trường trở_nên\
|
| 298 |
+
\ nhốn_nháo , học_sinh la_hét sợ_hãi . \n Bà Nguyễn_Thị Khuyên , trưởng Phòng\
|
| 299 |
+
\ Giáo_dục và Đào_tạo huyện Yên_Định , cho hay ban giám_hiệu và chính_quyền địa_phương\
|
| 300 |
+
\ đã đưa học_sinh bị bỏng đến Bệnh_viện Đa_khoa Yên_Định cấp_cứu . Ban_đầu , nhà\
|
| 301 |
+
\ chức_trách xác_định có 7 học_sinh bị bỏng . Nguyên_nhân do một phụ_huynh hút\
|
| 302 |
+
\ thuốc_lá , lửa từ điếu thuốc châm vào bóng . \n Tuy_nhiên , đến chiều 5 / 9\
|
| 303 |
+
\ , ông Lê_Xuân_Thành , Phó_chủ_tịch UBND huyện Yên_Định , cho biết người cầm\
|
| 304 |
+
\ thuốc_lá là một thầy_giáo , \" không may quệt phải làm bóng_bay phát_nổ \" .\
|
| 305 |
+
\ \n Vụ nổ khiến 10 học_sinh \" bị bỏng nhẹ \" . Một học_sinh đã về nhà , còn\
|
| 306 |
+
\ 9 em tiếp_tục ở lại viện theo_dõi , điều_trị . \n Sáng 5 / 9 , khoảng 23 triệu\
|
| 307 |
+
\ học_sinh cả nước dự lễ khai_giảng , chính_thức bước vào năm_học mới . Các trường\
|
| 308 |
+
\ được quán_triệt tổ_chức gọn_nhẹ , tiết_kiệm trong thời_gian khoảng 30 - 45 phút\
|
| 309 |
+
\ . \n Trang_trí và thả bóng_bay là hình_ảnh quen_thuộc trong lễ khai_giảng nhiều\
|
| 310 |
+
\ năm qua . Tuy_nhiên , cũng có nơi yêu_cầu các trường_học không thả bóng_bay\
|
| 311 |
+
\ khai_giảng , như Đà_Nẵng . \n"
|
| 312 |
+
- source_sentence: Một_số trường đại_học phải rút_gọn thời khóa biểu còn khoảng 2
|
| 313 |
+
ngày trong một tuần để tạo cơ_hội cho các sinh_viên đi làm thêm .
|
| 314 |
+
sentences:
|
| 315 |
+
- "Vợ_chồng Alicia_Gabriela , giám_đốc marketing người Tây_Ban_Nha đang làm_việc\
|
| 316 |
+
\ tại TP HCM , năm_ngoái hạnh_phúc đón \" thiên_thần nhỏ \" chào_đời . Năm nay\
|
| 317 |
+
\ , khi con_trai chuẩn_bị vào học mầm_non , họ nhắm tới một trường quốc_tế . Nhưng\
|
| 318 |
+
\ khi nhìn bảng học_phí các trường này , Gabriela và chồng người Hà_Lan nhanh_chóng\
|
| 319 |
+
\ đối_mặt nhiều lo_toan . \n Việt_Nam có 33 cơ_sở giáo_dục liên cấp có vốn đầu_tư\
|
| 320 |
+
\ nước_ngoài , thường được gọi là trường quốc_tế , trong đó Hà_Nội có 13 cơ_sở\
|
| 321 |
+
\ , TP HCM có 20 cơ_sở . Các trường này thu học_phí hàng trăm triệu đồng một năm\
|
| 322 |
+
\ , tăng dần từ mầm_non đến cấp trung_học . \n Với các trường quốc_tế ở TP HCM\
|
| 323 |
+
\ đã công_bố tuyển_sinh năm nay , học_phí bậc mầm_non ở mức 124 - 457 triệu đồng\
|
| 324 |
+
\ một năm , tiểu_học 151 - 684 triệu đồng , trung_học 210 - 924 triệu đồng . Trường\
|
| 325 |
+
\ quốc_tế ở Hà_Nội cũng có mức học_phí cao nhất hơn 800 triệu đồng , chưa tính\
|
| 326 |
+
\ các loại phí khác . Dù có thu_nhập cao , vợ_chồng Gabriela cho hay những mức\
|
| 327 |
+
\ học_phí này cao hơn so với dự_tính của họ . \n \" Một năm_học ở TP HCM đắt gấp\
|
| 328 |
+
\ đôi mức học_phí 8.700 USD tôi chi để học đại_học , thạc_sĩ tại một trường kinh_doanh\
|
| 329 |
+
\ hàng_đầu châu Âu . Chúng_tôi kiếm gần 160.000 USD mỗi năm , nhưng việc đóng\
|
| 330 |
+
\ học_phí cho con theo học lâu_dài ở trường quốc_tế có_thể làm xoay_chuyển toàn_bộ\
|
| 331 |
+
\ kế_hoạch tiết_kiệm , đầu_tư , du_lịch của hai vợ_chồng \" , cô nói với VnExpress\
|
| 332 |
+
\ . \n Theo Tổ_chức Lao_động Quốc_tế và Tổng_cục Thống_kê , tính đến tháng 3 /\
|
| 333 |
+
\ 2022 , khoảng 100.000 người nước_ngoài được cấp phép làm_việc tại Việt_Nam ,\
|
| 334 |
+
\ tập_trung chủ_yếu ở những thành_phố lớn như Hà_Nội , TP HCM , Long_An , Đà_Nẵng\
|
| 335 |
+
\ . Nhiều người nước_ngoài sinh con và có kế_hoạch_định_cư lâu_dài ở Việt_Nam\
|
| 336 |
+
\ . \n Adam_Lewis , giáo_viên người Mỹ 60 tuổi từng nhiều năm giảng_dạy tại ba\
|
| 337 |
+
\ trường THPT công_lập hàng_đầu ở TP HCM , cho hay trường công là một lựa_chọn\
|
| 338 |
+
\ thay_thế , nơi có nhiều học_sinh \" thông_minh , tài_năng , ham hiểu_biết và\
|
| 339 |
+
\ học_hỏi \" . \n Tuy_nhiên , con_em người nước_ngoài ở Việt_Nam muốn theo học\
|
| 340 |
+
\ trường công phải đáp_ứng một_số điều_kiện nhất_định . Theo Quy_chế quản_lý người\
|
| 341 |
+
\ nước_ngoài học_tập tại Việt_Nam do Bộ Giáo_dục và Đào_tạo ban_hành , học_sinh\
|
| 342 |
+
\ người nước_ngoài học_tập tại các cơ_sở giáo_dục thuộc hệ_thống giáo_dục quốc\
|
| 343 |
+
\ dân Việt_Nam cần đảm_bảo điều_kiện về học_vấn , sức_khỏe , tuổi và ngôn_ngữ\
|
| 344 |
+
\ . \n Phương_pháp giảng_dạy ở các trường công_lập cũng là vấn_đề khiến một_số\
|
| 345 |
+
\ cha_mẹ ngoại quốc băn_khoăn , ngay cả khi con đủ tiêu_chuẩn . \n Mark , 31 tuổi\
|
| 346 |
+
\ , người_làm giáo_viên tiếng Anh ở TP HCM từ năm 2017 , cho rằng các trường công\
|
| 347 |
+
\ tại TP HCM không phải là lựa_chọn tốt nhất cho con , bởi chương_trình giảng_dạy\
|
| 348 |
+
\ quá nặng , nhiều môn và thiên về lý_thuyết và ít thực_hành . \n Elizabeth_Homfray\
|
| 349 |
+
\ , đồng quản_trị viên một trong những hội nhóm người nước_ngoài lớn nhất tại\
|
| 350 |
+
\ TP HCM , cho hay gần như ngày nào cũng nhận được tin nhắn nhờ tư_vấn từ những\
|
| 351 |
+
\ người nước_ngoài lo_lắng chuyện học cho con_em . \n Sau 16 năm sinh_sống tại\
|
| 352 |
+
\ thành_phố , bà Homfray \" không nhớ nổi \" có bao_nhiêu gia_đình nước_ngoài\
|
| 353 |
+
\ tới đây mà không thực_hiện bất_kỳ nghiên_cứu , tìm_hiểu nào về hệ_thống giáo_dục\
|
| 354 |
+
\ địa_phương cho con_cái . \n \" Họ đinh_ninh rằng có_thể dễ_dàng gửi con đến\
|
| 355 |
+
\ các trường công_lập như ở quê nhà , nhưng đây là suy_nghĩ sai_lầm \" , bà cho\
|
| 356 |
+
\ hay . Điều này khiến nhiều cha_mẹ ngoại quốc gần như coi trường quốc_tế là lựa_chọn\
|
| 357 |
+
\ duy_nhất cho con . \n Vợ_chồng Gabriela cũng cân_nhắc một trường song_ngữ Pháp\
|
| 358 |
+
\ - Việt tại TP HCM. Tuy_nhiên , vợ_chồng cô đã sử_dụng tiếng Tây_Ban_Nha , tiếng\
|
| 359 |
+
\ Anh và tiếng Hà_Lan tại nhà , còn con_trai cũng tiếp_xúc với tiếng Việt nhờ\
|
| 360 |
+
\ môi_trường xung_quanh , nên việc học thêm tiếng Pháp có_thể quá_sức với đứa\
|
| 361 |
+
\ trẻ . \n \" Chúng_tôi không_thể tìm được trường nào hài hòa về ba tiêu_chí giảng_dạy\
|
| 362 |
+
\ , ngôn_ngữ và học_phí \" , cô nói . \" Tình_hình này có_thể buộc chúng_tôi rời\
|
| 363 |
+
\ Việt_Nam trở_lại châu Âu vì tương_lai của con_trai \" . \n Đề_cập đến những\
|
| 364 |
+
\ khó_khăn mà người nước_ngoài gặp phải trong vấn_đề này , bà Homfray kể lại câu_chuyện\
|
| 365 |
+
\ của một ông bố người Anh từng nhắn_tin nhờ bà tư_vấn để tháo_gỡ bế_tắc khi cho\
|
| 366 |
+
\ con_gái theo học tại TP HCM hồi tháng 7 năm_ngoái . \n Cô bé 13 tuổi mang hai\
|
| 367 |
+
\ quốc_tịch Anh - Việt này từng theo học một trường song_ngữ tại TP HCM , nhưng\
|
| 368 |
+
\ trở về Anh học trong ba năm đại_dịch Covid - 19 . \n Sau dịch , gia_đình quay\
|
| 369 |
+
\ lại TP HCM và tìm mọi cách để cho con tiếp_tục theo học tại đây . Nhưng vì cô\
|
| 370 |
+
\ bé đã bỏ lỡ ba năm_học tại Việt_Nam , không cơ_sở giáo_dục nào tiếp_nhận , kể_cả\
|
| 371 |
+
\ trường cũ . \n \" Gia_đình họ sau đó tìm một trường quốc_tế chỉ giảng_dạy tiếng\
|
| 372 |
+
\ Anh , nhưng không_thể kham nổi học_phí gần 500 triệu đồng mỗi năm , chi_phí\
|
| 373 |
+
\ mà họ thậm_chí chưa từng nghĩ đến \" , bà Homfray kể lại . Bà sau đó liên_hệ\
|
| 374 |
+
\ với ông bố để hỏi về hướng giải_quyết của gia_đình , nhưng chưa nhận được câu\
|
| 375 |
+
\ trả_lời . \n Brian , 36 tuổi , lập_trình_viên hoạt_động tự_do tại Nha_Trang\
|
| 376 |
+
\ , cho biết đã phải tính_toán rất nhiều về giáo_dục cho con , bởi đây là chuyện\
|
| 377 |
+
\ hệ_trọng . Anh đánh_giá mô_hình song_ngữ dường_như là lựa_chọn tốt nhất cho\
|
| 378 |
+
\ các bậc cha_mẹ có con ở độ tuổi đi học , khi triển_khai cả chương_trình giảng_dạy\
|
| 379 |
+
\ tiếng nước_ngoài lẫn tiếng Việt . \n"
|
| 380 |
+
- "Từ năm_ngoái , Đại_học De Montfort ở Leicester đã thử_nghiệm thời khóa biểu thu\
|
| 381 |
+
\ gọn . Thay_vì học 4 môn cùng lúc với khoảng hai giờ một môn mỗi tuần , sinh_viên\
|
| 382 |
+
\ sẽ học một môn liên_tục trong nửa kỳ . Như_vậy , họ vẫn đủ 4 môn một năm theo\
|
| 383 |
+
\ quy_định . \n Cách làm này đang được nhiều trường áp_dụng . Các tiết học và\
|
| 384 |
+
\ buổi thảo_luận được sắp_xếp chỉ trong 2 - 3 ngày chứ không rải_rác cả tuần như\
|
| 385 |
+
\ trước . Việc này nhằm giúp sinh_viên có thời_gian đi làm thêm , vượt qua cuộc\
|
| 386 |
+
\ khủng_hoảng sinh_hoạt_phí . \n Nhiều người trẻ ở Anh gặp khó_khăn tài_chính\
|
| 387 |
+
\ khi bước vào kỳ học tới do gia_đình không_thể hỗ_trợ , khoản vay sinh_viên thì\
|
| 388 |
+
\ hầu_như_không đủ trả tiền thuê nhà . Theo UCAS , một tổ_chức hỗ_trợ tuyển_sinh\
|
| 389 |
+
\ đại_học , 2 / 3 sinh_viên năm thứ nhất muốn làm_việc bán thời_gian để duy_trì\
|
| 390 |
+
\ việc học . Nhiều người phải bỏ bữa , làm tăng ca và dựa vào thẻ tín_dụng để\
|
| 391 |
+
\ \" tồn_tại \" . Số sinh_viên đang làm thêm khoảng hơn 50 % , tăng so với tỷ_lệ\
|
| 392 |
+
\ 45 % của năm 2022 và 34 % năm 2021 . \n Tại các khu_vực nghèo nhất của London\
|
| 393 |
+
\ như Barking hay Dagenham , cuộc_sống của nhiều người phụ_thuộc hoàn_toàn vào\
|
| 394 |
+
\ tiền làm thêm . \n \" Họ làm_việc gần 5 ngày mỗi tuần và dành thời_gian còn\
|
| 395 |
+
\ lại để học . Đây không phải công_việc bán thời_gian nữa , mà là toàn thời_gian\
|
| 396 |
+
\ . Sự nỗ_lực của họ rất đáng nể \" , John_Dishman , Phó_hiệu_trưởng kiêm Giám_đốc\
|
| 397 |
+
\ điều_hành Đại_học Conventry , nói . Nhiều trường_thành_viên của đại_học này\
|
| 398 |
+
\ cũng xếp lịch học 2 - 3 ngày mỗi tuần . \n Sự thay_đổi của các trường nhận được\
|
| 399 |
+
\ phản_hồi tích_cực từ sinh_viên . Nhiều cuộc khảo_sát nội_bộ năm_ngoái cho thấy\
|
| 400 |
+
\ sinh_viên học theo thời khóa biểu tập_trung hài_lòng hơn 10 % so với sinh_viên\
|
| 401 |
+
\ học theo lịch thông_thường . \n Ngoài_ra , quy_định mới cũng tạo điều_kiện thuận_lợi\
|
| 402 |
+
\ cho sinh_viên ở xa . Theo Giáo_sư Normington , nếu chỉ cần đến trường một_vài\
|
| 403 |
+
\ buổi nhất_định , sinh_viên sẽ đỡ tốn thời_gian và chi_phí di_chuyển . \n Sinh_hoạt_phí\
|
| 404 |
+
\ hiện là mối lo hàng_đầu của sinh_viên Anh . Theo một khảo_sát , 3 / 4 trong\
|
| 405 |
+
\ số 10.000 người cho rằng vấn_đề sinh_hoạt_phí ảnh_hưởng đến việc học của họ\
|
| 406 |
+
\ , thậm_chí là nguyên_nhân chính khiến họ cân_nhắc bỏ học . \n"
|
| 407 |
+
- "Bị sán dây ký_sinh thường rất tối tệ , nhưng với kiến Temnothorax nylanderi thì\
|
| 408 |
+
\ khác . Nếu một con kiến thuộc loài này gặm phân chim gõ_kiến khi còn là ấu_trùng\
|
| 409 |
+
\ và nhiễm sán dây Anomotaenia brevis , nó có_thể sống lâu hơn đồng_loại gấp ba\
|
| 410 |
+
\ lần , thậm_chí lâu hơn , Science Alert hôm 17 / 6 đưa tin . \n Trong vòng đời\
|
| 411 |
+
\ của sán dây Anomotaenia brevis , kiến không phải nơi cư_trú cuối_cùng . Chúng\
|
| 412 |
+
\ sẽ sống trong cơ_thể của chim gõ_kiến khi trưởng_thành , đồng_nghĩa chúng hưởng\
|
| 413 |
+
\ những lợi_ích nhất_định khi giữ cho kiến trông trẻ_trung , béo_tốt và tươi ngon\
|
| 414 |
+
\ . Nhờ đó , kiến có_thể trở_thành bữa sáng cho chim . \n Vào năm 2021 , Foitzik\
|
| 415 |
+
\ cùng đồng_nghiệp phát_hiện , trong khi kiến Temnothorax nylanderi nhiễm sán\
|
| 416 |
+
\ dây_sống rất nhàn_nhã thì những con khỏe_mạnh trong đàn phải trả_giá . Chúng\
|
| 417 |
+
\ chịu gánh nặng chăm_sóc \" bệnh_nhân \" và chết sớm hơn rất nhiều . Việc kiến\
|
| 418 |
+
\ thợ bận chăm_sóc kiến nhiễm_bệnh và ít quan_tâm đến kiến chúa hơn có_thể gây\
|
| 419 |
+
\ rắc_rối cho cả đàn . \n Trong nghiên_cứu mới , nhóm nhà khoa_học một lần nữa\
|
| 420 |
+
\ so_sánh kiến nhiễm_bệnh với kiến khỏe_mạnh , quan_sát kỹ lượng protein trong\
|
| 421 |
+
\ hemolymph . Họ phát_hiện , các protein của sán dây chiếm một phần đáng_kể trong\
|
| 422 |
+
\ số những protein chảy qua hemolymph của kiến , hai trong số những protein dồi_dào\
|
| 423 |
+
\ nhất là loại chống oxy_hóa . \n Một_số protein khác có_thể giải_thích tại_sao\
|
| 424 |
+
\ kiến nhiễm_bệnh được ưu_ái . Nhóm chuyên_gia tìm thấy lượng lớn protein vitellogenin\
|
| 425 |
+
\ - like A , nhưng không phải do ký_sinh_trùng mà do chính con kiến_tạo ra . Loại\
|
| 426 |
+
\ protein này tham_gia điều_chỉnh sự phân_công_lao_động và sinh_sản trong xã_hội_kiến\
|
| 427 |
+
\ . Nhóm nghiên_cứu cho rằng bằng các nào đó , loại protein này tác_động đến hành_vi\
|
| 428 |
+
\ của kiến , lừa những con khỏe mạnh yêu thích chúng . \n"
|
| 429 |
+
- source_sentence: Madison và Christine đã ra_sức tìm manh_mối để kết_tội kẻ tình_nghi
|
| 430 |
+
Chris_Buonocore đến năm 2018 .
|
| 431 |
+
sentences:
|
| 432 |
+
- "Năm 2013 , Madison_Conradis , nhân_viên tiếp_thị ở Florida , phát_hiện những\
|
| 433 |
+
\ bức ảnh \" nóng \" cô từng chụp khi làm người_mẫu bị rò_rỉ trên mạng . Madison\
|
| 434 |
+
\ đoán kẻ xấu đã xâm_nhập trang_web riêng_tư của nhiếp_ảnh gia và đánh_cắp chúng\
|
| 435 |
+
\ . \n Kẻ xấu lập các tài_khoản Facebook nặc_danh và \" khủng_bố \" cô . Chúng\
|
| 436 |
+
\ yêu_cầu cô gửi thêm ảnh nếu không muốn bị tiếp_tục phát_tán hình_ảnh nhạy_cảm\
|
| 437 |
+
\ khác . Sự_cố khiến Madison gặp hàng_loạt phiền_toái trong cuộc_sống . Khách_hàng\
|
| 438 |
+
\ bắt_đầu bàn_tán sau lưng . Một đồng_nghiệp cũng nhận được ảnh của cô trong hộp_thư\
|
| 439 |
+
\ . Thậm_chí , nhóm hacker còn quấy_rối tài_khoản Instagram của cha cô . \n Năm\
|
| 440 |
+
\ 2016 , Madison vượt qua mặc_cảm và hẹn_hò với Jeffrey_Geiger , một đồng_nghiệp\
|
| 441 |
+
\ ở công_ty đối_tác . Trong lần cả hai nghỉ_mát tại quần_đảo Florida_Keys , cô\
|
| 442 |
+
\ thử đăng một ảnh lên Snapchat sau thời_gian dài tránh xa mạng xã_hội . Tuy_nhiên\
|
| 443 |
+
\ , ngay sáng hôm sau , Madison nhận được tin nhắn từ tài_khoản Facebook của kẻ\
|
| 444 |
+
\ kia : \" Có_vẻ các người đang trải qua một kỳ nghỉ thú_vị nhỉ \" . \n Cho rằng\
|
| 445 |
+
\ mình bị theo_dõi qua ứng_dụng Snapchat , Madison nhanh_chóng chụp màn_hình những\
|
| 446 |
+
\ người đã tương_tác với bài đăng . Sau khi lọc 39 lượt xem , cô thấy một kẻ tình_nghi\
|
| 447 |
+
\ là Christopher_Buonocore , bạn cũ từ thời_đại_học , từng tham_dự đám_cưới của\
|
| 448 |
+
\ người chị Christine . Dù_vậy , Madison vẫn chưa thể khởi_kiện Buonocore do không\
|
| 449 |
+
\ đủ bằng_chứng . \n Cuối 2017 , cô bị sốc khi phát_hiện chính người_tình Geiger\
|
| 450 |
+
\ tiếp_tay cho kẻ xấu . Lần này , Christine cũng trở_thành nạn_nhân vì từng nhờ\
|
| 451 |
+
\ Geiger sao_chép dữ_liệu riêng_tư trên đĩa CD sang nền_tảng lưu_trữ Dropbox .\
|
| 452 |
+
\ Trước_tòa , Geiger nói được nhóm tin_tặc liên_hệ nhưng không biết chúng là ai\
|
| 453 |
+
\ . Đồng_thời , người này giải_thích việc chia_sẻ ảnh nóng của hai chị_em là nhằm\
|
| 454 |
+
\ tạo niềm tin với kẻ xấu để lật_tẩy chúng sau_này . \n Cơ_quan_chức_năng quyết_định\
|
| 455 |
+
\ không khởi_tố Jeffrey_Geiger do chưa thể chứng_minh người này muốn hãm_hại hai\
|
| 456 |
+
\ chị_em Madison . \n Đến năm 2018 , Madison và Christine vẫn cố_gắng tìm chứng_cứ\
|
| 457 |
+
\ để buộc kẻ tình_nghi Chris_Buonocore chịu trách_nhiệm trước pháp_luật . Sau\
|
| 458 |
+
\ nhiều ngày theo_dõi trên một trang Deep Web , họ nhận thấy tài_khoản tên Kik_Messenger\
|
| 459 |
+
\ thường_xuyên đăng ảnh nóng của hai chị_em cùng bốn phụ_nữ khác . Nhóm nạn_nhân\
|
| 460 |
+
\ mới đều quen Buonocore . Trong đó , hai người là bạn gái , một người là bạn\
|
| 461 |
+
\ thời thơ_ấu , người còn lại là họ_hàng và bị phát_tán ảnh riêng_tư từ lúc 14\
|
| 462 |
+
\ tuổi . \n Nhờ phát_hiện này , Madison thuyết_phục cảnh_sát chuyển sự_việc cho\
|
| 463 |
+
\ cơ_quan điều_tra liên_bang . Đồng_thời , các đơn_vị cung_cấp dịch_vụ Internet\
|
| 464 |
+
\ và quản_trị viên trang_web cũng hợp_tác để tìm IP kẻ xấu . Kết_quả , đến tháng\
|
| 465 |
+
\ 7 / 2019 , FBI triệt_phá thành_công đường_dây tội_phạm . \n Tài_liệu tại tòa_án\
|
| 466 |
+
\ cho thấy , trong 7 năm , Buonocore sử_dụng tin nhắn văn_bản , số điện_thoại\
|
| 467 |
+
\ giả , tài_khoản mạng xã_hội để tấn_công mạng và đe_dọa phụ_nữ , bao_gồm trẻ\
|
| 468 |
+
\ vị thành_niên . Ngoài hàng nghìn ảnh nhạy_cảm , Buonocore cũng công_khai tên_tuổi\
|
| 469 |
+
\ , địa_chỉ nhà của nạn_nhân nhằm lôi_kéo nhiều người tham_gia đường_dây . Một_số\
|
| 470 |
+
\ trường_hợp , Buonocore khuyến_khích các thành_viên lên kế_hoạch xâm_hại thân_thể\
|
| 471 |
+
\ hoặc tống_tiền nạn_nhân . \n Theo Washington_Post , kẻ chủ_mưu Buonocore lấy\
|
| 472 |
+
\ lý_do sức_khỏe tâm_thần và lý_lịch trong_sạch để yêu_cầu ngồi_tù dưới 41 tháng\
|
| 473 |
+
\ . Tuy_nhiên , tháng 11 / 2021 , thẩm_phán Thomas Barber ra phán_quyết 15 năm\
|
| 474 |
+
\ tù_giam , nhiều hơn gần 4 năm so với đề_xuất của công_tố_viên . \" Đây không\
|
| 475 |
+
\ phải là một vụ tấn_công mạng đơn_thuần \" , ông nói . \n"
|
| 476 |
+
- "Cách TP HCM 100 - 200 km có nhiều điểm du_lịch phù_hợp kỳ nghỉ 2 / 9 năm nay\
|
| 477 |
+
\ . Các hoạt_động trekking , cắm trại cho du_khách cơ_hội thả mình vào thiên_nhiên\
|
| 478 |
+
\ sau những ngày ở thành_phố khói bụi , chi_phí không quá đắt_đỏ . Tuy_nhiên ,\
|
| 479 |
+
\ các điểm đến này không thích_hợp với du_khách ưa sự tiện_nghi . \n Anh Nguyễn_Hiển\
|
| 480 |
+
\ , hướng_dẫn_viên một công_ty du_lịch ở TP HCM , gợi_ý 5 điểm du_lịch thiên_nhiên\
|
| 481 |
+
\ gần thành_phố . Du_khách có_thể tham_khảo cho chuyến đi một ngày hai đêm với\
|
| 482 |
+
\ kinh_phí tiết_kiệm . \n Cách TP HCM 148 km \n Chi_phí : 1 - 3 triệu đồng \n\
|
| 483 |
+
\ Vườn quốc_gia Cát_Tiên thuộc huyện Tân_Phú , tỉnh Đồng_Nai . Thời_gian di_chuyển\
|
| 484 |
+
\ bằng xe_máy hoặc ôtô từ TP HCM tới đây khoảng 3 giờ . Bàu_Sấu là vùng đầm lầy\
|
| 485 |
+
\ nằm ở phía nam vườn quốc_gia , là nơi sinh_sống của cá_sấu Xiêm , một loài cá_sấu\
|
| 486 |
+
\ nước_ngọt Đông_Nam_Á . \n Hai ngày là vừa đủ để thăm_thú Cát_Tiên với chi_phí\
|
| 487 |
+
\ dưới 3 triệu đồng . Tùy nhu_cầu , du_khách có_thể lưu_trú ở homestay , resort\
|
| 488 |
+
\ hoặc cắm trại một đêm trước ngày trekking xuyên rừng . Ngoài_ra , nhiều du_khách\
|
| 489 |
+
\ cũng lựa_chọn đạp xe khám_phá khu rừng thay_vì trekking . Các hoạt_động thú_vị\
|
| 490 |
+
\ ở Cát_Tiên có_thể kể đến đi thuyền \" săn \" cá_sấu trên vùng đầm lầy Bàu_Sấu\
|
| 491 |
+
\ , check - in cây cổ_thụ , xem thú đêm . Cát_Tiên là nơi duy_nhất ở Việt_Nam\
|
| 492 |
+
\ , bạn có_thể nhìn thấy động_vật hoang_dã ngay trong môi_trường tự_nhiên . \n\
|
| 493 |
+
\ Cách TP HCM 192 km \n Chi_phí : 1 - 2 triệu đồng \n Suối La_Ngâu nằm ở thượng_nguồn\
|
| 494 |
+
\ sông La_Ngà , được bao_bọc bởi rừng Tánh_Linh . Nơi này sở_hữu cảnh_quan nguyên_sơ\
|
| 495 |
+
\ , yên_tĩnh , là địa_điểm lý_tưởng cho những ai muốn ngắt kết_nối với thế_giới\
|
| 496 |
+
\ ảo . Du_khách tới đây chủ_yếu tham_gia hoạt_động cắm trại quanh suối . Tắm suối\
|
| 497 |
+
\ , chèo kayak là hoạt_động được yêu thích . Nên ra suối vào buổi sáng , trời\
|
| 498 |
+
\ mát_mẻ , nắng không quá gắt . Từ 17h hàng ngày nước ở thượng_nguồn thường đổ\
|
| 499 |
+
\ về nhiều , nên tránh ở gần bờ suối . \n Có hai hình_thức là dựng lều tại các\
|
| 500 |
+
\ bãi tự_phát hoặc cắm trại tiện_nghi với dịch_vụ có sẵn ( glamping ) . Anh Đỗ_Hiếu\
|
| 501 |
+
\ , chủ khu cắm trại Boo_Camp , thuộc La_Ngâu chia_sẻ hiện khu_vực này chỉ có\
|
| 502 |
+
\ hai điểm kinh_doanh dịch_vụ cắm trại có giấy_phép hoạt_động , còn lại là các\
|
| 503 |
+
\ bãi tự_phát . Chi_phí cắm trại dịch_vụ trọn_gói có_giá từ 650.000 đồng mỗi khách\
|
| 504 |
+
\ một đêm , đã bao_gồm các bữa ăn . Du_khách cần đặt chỗ trước nếu dự_định cắm\
|
| 505 |
+
\ trại dịch_vụ . Càng gần ngày lễ , lượng lều trống view đẹp càng ít . \n Cách\
|
| 506 |
+
\ TP HCM 190 km \n Chi_phí : 1 - 3 triệu đồng \n Vườn quốc_gia ( VQG ) Bù_Gia_Mập\
|
| 507 |
+
\ ở xã Phú_Nghĩa , huyện Bù_Gia_Mập , phía đông bắc tỉnh Bình_Phước , diện_tích\
|
| 508 |
+
\ hơn 25.000 ha . \n Đến VQG , du_khách có_thể trải nghiệm trekking , ngắm nhìn\
|
| 509 |
+
\ những cánh rừng lồ_ô , cây họ dầu và nhiều loài cây đặc_trưng khác của khu rừng\
|
| 510 |
+
\ chuyển_tiếp từ Tây_Nguyên xuống vùng Đông_Nam_Bộ ; tham_quan trung_tâm cứu_hộ\
|
| 511 |
+
\ bảo_tồn và phát_triển sinh_vật , tìm_hiểu tập_tính sinh_thái và những đặc_điểm\
|
| 512 |
+
\ thú_vị của các loài linh_trưởng và một_số loài động_vật của VQG. \n Các tour\
|
| 513 |
+
\ trekking VQG trọn_gói có_giá khoảng 2,5 triệu đồng , du_khách chỉ cần chuẩn_bị\
|
| 514 |
+
\ đồ_dùng cá_nhân cần_thiết trước khi lên_đường . Trong khi đó , trekking tự_túc\
|
| 515 |
+
\ chi_phí tiết_kiệm hơn nhưng bạn phải mang vác đồ_đạc suốt quá_trình di_chuyển\
|
| 516 |
+
\ , đòi_hỏi kinh_nghiệm đi rừng , thể_lực và sức_bền tốt . \n Cách TP HCM 237\
|
| 517 |
+
\ km \n Chi_phí : 1 - 2 triệu đồng \n Mũi Yến thuộc xã Hòa_Thắng , huyện Bắc_Bình\
|
| 518 |
+
\ , tỉnh Bình_Thuận , cách khu du_lịch Bàu_Trắng khoảng 4 km . Địa_điểm này còn\
|
| 519 |
+
\ hoang_sơ và chưa có các dịch_vụ du_lịch . \n Mũi Yến có địa_hình đồi thoai_thoải\
|
| 520 |
+
\ , những mũi_đất nhô ra biển Hòa_Thắng . Vì chưa phát_triển du_lịch , lại cách\
|
| 521 |
+
\ xa khu dân_cư 15 - 20 km , hoạt_động cắm trại ở đây đều là tự_túc . \n Du_khách\
|
| 522 |
+
\ không thường_xuyên du_lịch dã_ngoại có_thể thuê lều , các đồ_dùng cắm trại kèm\
|
| 523 |
+
\ theo . Chi_phí thuê lều , nệm hơi , ghế_ngồi , quạt tích điện , đèn , dụng_cụ\
|
| 524 |
+
\ nấu_ăn cho 2 người trong 2 ngày khoảng 600.000 - 700.000 đồng . Đồ ăn đem theo\
|
| 525 |
+
\ có_thể chuẩn_bị sẵn hoặc bạn có_thể mua đồ tươi_sống tại các vựa hải_sản ở Hòa_Thắng\
|
| 526 |
+
\ . \n Đường vào Mũi Yến khá khó đi , nhiều dốc cát , đá_dăm , đá_tảng , nên di_chuyển\
|
| 527 |
+
\ bằng ôtô hai cầu nếu tay_lái không đủ vững . \n Cách TP HCM 80 km \n Chi_phí\
|
| 528 |
+
\ : 1 - 2 triệu đồng \n Sau khi đến hồ Dầu_Tiếng , du_khách có_thể qua bến thuyền\
|
| 529 |
+
\ ở ngã ba Bờ Hồ , gần nhà_thờ Suối Đá , thị_trấn Dương Minh_Châu . Đây là bến\
|
| 530 |
+
\ thuyền duy_nhất chở khách ra đảo Nhím . Bạn có_thể gửi ôtô , xe_máy tại nhà\
|
| 531 |
+
\ dân ở gần bến_tàu . Sau đó khi tới đảo , mọi người tiếp_tục trekking , đi bộ\
|
| 532 |
+
\ hoặc đi xe trâu kéo . Bạn lưu số của lái tàu để liên_hệ khi về . \n Nếu không\
|
| 533 |
+
\ mang đồ ăn , bạn có_thể đặt_hàng người dân trên đảo các món gà ta , cá_lăng\
|
| 534 |
+
\ , rau rừng , khoai_lang , khoai_mì nướng ... Chi_phí cho một người khoảng 500.000\
|
| 535 |
+
\ đồng mỗi đêm , đã bao_gồm phí thuê thuyền khứ_hồi giá khoảng 1,5 triệu đồng\
|
| 536 |
+
\ , chở 10 - 15 khách . \n"
|
| 537 |
+
- "Với kích_thước hiện gấp 7 lần Trái_Đất , vết đen Mặt_Trời AR3354 có_thể nhìn\
|
| 538 |
+
\ thấy bằng mắt thường , nhưng cần sử_dụng thiết_bị bảo_vệ mắt . Nhà vật_lý Mặt_Trời\
|
| 539 |
+
\ Keith_Strong chia_sẻ một video timelapse ấn_tượng về vết đen này trên Twitter\
|
| 540 |
+
\ . \n \" Vùng vết đen Mặt_Trời mới đánh_số , AR3354 , đã phát_triển nhanh_chóng\
|
| 541 |
+
\ trong 24 giờ qua . Hai ngày_trước , nó còn chưa ở đó , nhưng giờ thì lớn hơn\
|
| 542 |
+
\ cả Trái_Đất \" , Strong viết trên mạng xã_hội hôm 27 / 6 . Ngoài tăng kích_thước\
|
| 543 |
+
\ , vết đen Mặt_Trời cũng tăng_cường_độ . \n Vết đen có_thể giải_phóng lóa Mặt_Trời\
|
| 544 |
+
\ - một vụ nổ năng_lượng đột_ngột . Sức_mạnh của lóa Mặt_Trời chia thành các cấp\
|
| 545 |
+
\ : A , B , C , M và mạnh nhất là cấp X. Vết đen càng lớn và phức_tạp thì càng\
|
| 546 |
+
\ có khả_năng cao tạo ra lóa Mặt_Trời . \n Strong hôm 28 / 6 chia_sẻ trên Twitter\
|
| 547 |
+
\ video ghi lại lóa Mặt_Trời cấp M phóng ra từ AR3354 . Lóa Mặt_Trời cấp C quá\
|
| 548 |
+
\ yếu nên không ảnh_hưởng đáng_kể đến Trái_Đất , trong khi đó , lóa cấp M có_thể\
|
| 549 |
+
\ làm gián_đoạn liên_lạc vô_tuyến ở các cực Trái_Đất . Lóa cấp X có khả_năng tác_động\
|
| 550 |
+
\ tới vệ_tinh , các hệ_thống liên_lạc , lưới_điện và nghiêm_trọng nhất_là gây\
|
| 551 |
+
\ thiếu điện hoặc mất điện . \n Dù có kích_thước đáng kinh_ngạc , AR3354 không\
|
| 552 |
+
\ có khả_năng gây ra hiện_tượng dữ_dội như cơn bão Mặt_Trời mạnh nhất từng ghi_nhận\
|
| 553 |
+
\ - Sự_kiện Carrington . Ngày 1 / 9 / 1859 , một_số vết đen Mặt_Trời , tổng_kích_thước\
|
| 554 |
+
\ ước_tính lớn tương_đương sao Mộc ( đường_kính sao Mộc gấp 11 lần đường_kính\
|
| 555 |
+
\ Trái_Đất ) , tạo ra bão Mặt_Trời , làm gián_đoạn dịch_vụ điện_báo trên toàn\
|
| 556 |
+
\ thế_giới , đồng_thời gây ra cực_quang sáng và mạnh đến mức có_thể nhìn thấy\
|
| 557 |
+
\ ở nơi rất xa về phía nam như Bahamas . Sự_kiện tạo ra chớp sáng trắng kéo_dài\
|
| 558 |
+
\ khoảng 5 phút và khiến nhà thiên_văn nghiệp_dư Richard_Carrington bị mù tạm_thời\
|
| 559 |
+
\ . \n"
|
| 560 |
+
pipeline_tag: sentence-similarity
|
| 561 |
+
library_name: sentence-transformers
|
| 562 |
+
---
|
| 563 |
+
|
| 564 |
+
# SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
|
| 565 |
+
|
| 566 |
+
This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
|
| 567 |
+
|
| 568 |
+
## Model Details
|
| 569 |
+
|
| 570 |
+
### Model Description
|
| 571 |
+
- **Model Type:** Sentence Transformer
|
| 572 |
+
- **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) <!-- at revision 84f9d9ada0d1a3c37557398b9ae9fcedcdf40be0 -->
|
| 573 |
+
- **Maximum Sequence Length:** 256 tokens
|
| 574 |
+
- **Output Dimensionality:** 768 dimensions
|
| 575 |
+
- **Similarity Function:** Cosine Similarity
|
| 576 |
+
<!-- - **Training Dataset:** Unknown -->
|
| 577 |
+
<!-- - **Language:** Unknown -->
|
| 578 |
+
<!-- - **License:** Unknown -->
|
| 579 |
+
|
| 580 |
+
### Model Sources
|
| 581 |
+
|
| 582 |
+
- **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
|
| 583 |
+
- **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
|
| 584 |
+
- **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
|
| 585 |
+
|
| 586 |
+
### Full Model Architecture
|
| 587 |
+
|
| 588 |
+
```
|
| 589 |
+
SentenceTransformer(
|
| 590 |
+
(0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
|
| 591 |
+
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
|
| 592 |
+
)
|
| 593 |
+
```
|
| 594 |
+
|
| 595 |
+
## Usage
|
| 596 |
+
|
| 597 |
+
### Direct Usage (Sentence Transformers)
|
| 598 |
+
|
| 599 |
+
First install the Sentence Transformers library:
|
| 600 |
+
|
| 601 |
+
```bash
|
| 602 |
+
pip install -U sentence-transformers
|
| 603 |
+
```
|
| 604 |
+
|
| 605 |
+
Then you can load this model and run inference.
|
| 606 |
+
```python
|
| 607 |
+
from sentence_transformers import SentenceTransformer
|
| 608 |
+
|
| 609 |
+
# Download from the 🤗 Hub
|
| 610 |
+
model = SentenceTransformer("truong1301/bi_encoder_vinum")
|
| 611 |
+
# Run inference
|
| 612 |
+
sentences = [
|
| 613 |
+
'Madison và Christine đã ra_sức tìm manh_mối để kết_tội kẻ tình_nghi Chris_Buonocore đến năm 2018 .',
|
| 614 |
+
'Năm 2013 , Madison_Conradis , nhân_viên tiếp_thị ở Florida , phát_hiện những bức ảnh " nóng " cô từng chụp khi làm người_mẫu bị rò_rỉ trên mạng . Madison đoán kẻ xấu đã xâm_nhập trang_web riêng_tư của nhiếp_ảnh gia và đánh_cắp chúng . \n Kẻ xấu lập các tài_khoản Facebook nặc_danh và " khủng_bố " cô . Chúng yêu_cầu cô gửi thêm ảnh nếu không muốn bị tiếp_tục phát_tán hình_ảnh nhạy_cảm khác . Sự_cố khiến Madison gặp hàng_loạt phiền_toái trong cuộc_sống . Khách_hàng bắt_đầu bàn_tán sau lưng . Một đồng_nghiệp cũng nhận được ảnh của cô trong hộp_thư . Thậm_chí , nhóm hacker còn quấy_rối tài_khoản Instagram của cha cô . \n Năm 2016 , Madison vượt qua mặc_cảm và hẹn_hò với Jeffrey_Geiger , một đồng_nghiệp ở công_ty đối_tác . Trong lần cả hai nghỉ_mát tại quần_đảo Florida_Keys , cô thử đăng một ảnh lên Snapchat sau thời_gian dài tránh xa mạng xã_hội . Tuy_nhiên , ngay sáng hôm sau , Madison nhận được tin nhắn từ tài_khoản Facebook của kẻ kia : " Có_vẻ các người đang trải qua một kỳ nghỉ thú_vị nhỉ " . \n Cho rằng mình bị theo_dõi qua ứng_dụng Snapchat , Madison nhanh_chóng chụp màn_hình những người đã tương_tác với bài đăng . Sau khi lọc 39 lượt xem , cô thấy một kẻ tình_nghi là Christopher_Buonocore , bạn cũ từ thời_đại_học , từng tham_dự đám_cưới của người chị Christine . Dù_vậy , Madison vẫn chưa thể khởi_kiện Buonocore do không đủ bằng_chứng . \n Cuối 2017 , cô bị sốc khi phát_hiện chính người_tình Geiger tiếp_tay cho kẻ xấu . Lần này , Christine cũng trở_thành nạn_nhân vì từng nhờ Geiger sao_chép dữ_liệu riêng_tư trên đĩa CD sang nền_tảng lưu_trữ Dropbox . Trước_tòa , Geiger nói được nhóm tin_tặc liên_hệ nhưng không biết chúng là ai . Đồng_thời , người này giải_thích việc chia_sẻ ảnh nóng của hai chị_em là nhằm tạo niềm tin với kẻ xấu để lật_tẩy chúng sau_này . \n Cơ_quan_chức_năng quyết_định không khởi_tố Jeffrey_Geiger do chưa thể chứng_minh người này muốn hãm_hại hai chị_em Madison . \n Đến năm 2018 , Madison và Christine vẫn cố_gắng tìm chứng_cứ để buộc kẻ tình_nghi Chris_Buonocore chịu trách_nhiệm trước pháp_luật . Sau nhiều ngày theo_dõi trên một trang Deep Web , họ nhận thấy tài_khoản tên Kik_Messenger thường_xuyên đăng ảnh nóng của hai chị_em cùng bốn phụ_nữ khác . Nhóm nạn_nhân mới đều quen Buonocore . Trong đó , hai người là bạn gái , một người là bạn thời thơ_ấu , người còn lại là họ_hàng và bị phát_tán ảnh riêng_tư từ lúc 14 tuổi . \n Nhờ phát_hiện này , Madison thuyết_phục cảnh_sát chuyển sự_việc cho cơ_quan điều_tra liên_bang . Đồng_thời , các đơn_vị cung_cấp dịch_vụ Internet và quản_trị viên trang_web cũng hợp_tác để tìm IP kẻ xấu . Kết_quả , đến tháng 7 / 2019 , FBI triệt_phá thành_công đường_dây tội_phạm . \n Tài_liệu tại tòa_án cho thấy , trong 7 năm , Buonocore sử_dụng tin nhắn văn_bản , số điện_thoại giả , tài_khoản mạng xã_hội để tấn_công mạng và đe_dọa phụ_nữ , bao_gồm trẻ vị thành_niên . Ngoài hàng nghìn ảnh nhạy_cảm , Buonocore cũng công_khai tên_tuổi , địa_chỉ nhà của nạn_nhân nhằm lôi_kéo nhiều người tham_gia đường_dây . Một_số trường_hợp , Buonocore khuyến_khích các thành_viên lên kế_hoạch xâm_hại thân_thể hoặc tống_tiền nạn_nhân . \n Theo Washington_Post , kẻ chủ_mưu Buonocore lấy lý_do sức_khỏe tâm_thần và lý_lịch trong_sạch để yêu_cầu ngồi_tù dưới 41 tháng . Tuy_nhiên , tháng 11 / 2021 , thẩm_phán Thomas Barber ra phán_quyết 15 năm tù_giam , nhiều hơn gần 4 năm so với đề_xuất của công_tố_viên . " Đây không phải là một vụ tấn_công mạng đơn_thuần " , ông nói . \n',
|
| 615 |
+
'Cách TP HCM 100 - 200 km có nhiều điểm du_lịch phù_hợp kỳ nghỉ 2 / 9 năm nay . Các hoạt_động trekking , cắm trại cho du_khách cơ_hội thả mình vào thiên_nhiên sau những ngày ở thành_phố khói bụi , chi_phí không quá đắt_đỏ . Tuy_nhiên , các điểm đến này không thích_hợp với du_khách ưa sự tiện_nghi . \n Anh Nguyễn_Hiển , hướng_dẫn_viên một công_ty du_lịch ở TP HCM , gợi_ý 5 điểm du_lịch thiên_nhiên gần thành_phố . Du_khách có_thể tham_khảo cho chuyến đi một ngày hai đêm với kinh_phí tiết_kiệm . \n Cách TP HCM 148 km \n Chi_phí : 1 - 3 triệu đồng \n Vườn quốc_gia Cát_Tiên thuộc huyện Tân_Phú , tỉnh Đồng_Nai . Thời_gian di_chuyển bằng xe_máy hoặc ôtô từ TP HCM tới đây khoảng 3 giờ . Bàu_Sấu là vùng đầm lầy nằm ở phía nam vườn quốc_gia , là nơi sinh_sống của cá_sấu Xiêm , một loài cá_sấu nước_ngọt Đông_Nam_Á . \n Hai ngày là vừa đủ để thăm_thú Cát_Tiên với chi_phí dưới 3 triệu đồng . Tùy nhu_cầu , du_khách có_thể lưu_trú ở homestay , resort hoặc cắm trại một đêm trước ngày trekking xuyên rừng . Ngoài_ra , nhiều du_khách cũng lựa_chọn đạp xe khám_phá khu rừng thay_vì trekking . Các hoạt_động thú_vị ở Cát_Tiên có_thể kể đến đi thuyền " săn " cá_sấu trên vùng đầm lầy Bàu_Sấu , check - in cây cổ_thụ , xem thú đêm . Cát_Tiên là nơi duy_nhất ở Việt_Nam , bạn có_thể nhìn thấy động_vật hoang_dã ngay trong môi_trường tự_nhiên . \n Cách TP HCM 192 km \n Chi_phí : 1 - 2 triệu đồng \n Suối La_Ngâu nằm ở thượng_nguồn sông La_Ngà , được bao_bọc bởi rừng Tánh_Linh . Nơi này sở_hữu cảnh_quan nguyên_sơ , yên_tĩnh , là địa_điểm lý_tưởng cho những ai muốn ngắt kết_nối với thế_giới ảo . Du_khách tới đây chủ_yếu tham_gia hoạt_động cắm trại quanh suối . Tắm suối , chèo kayak là hoạt_động được yêu thích . Nên ra suối vào buổi sáng , trời mát_mẻ , nắng không quá gắt . Từ 17h hàng ngày nước ở thượng_nguồn thường đổ về nhiều , nên tránh ở gần bờ suối . \n Có hai hình_thức là dựng lều tại các bãi tự_phát hoặc cắm trại tiện_nghi với dịch_vụ có sẵn ( glamping ) . Anh Đỗ_Hiếu , chủ khu cắm trại Boo_Camp , thuộc La_Ngâu chia_sẻ hiện khu_vực này chỉ có hai điểm kinh_doanh dịch_vụ cắm trại có giấy_phép hoạt_động , còn lại là các bãi tự_phát . Chi_phí cắm trại dịch_vụ trọn_gói có_giá từ 650.000 đồng mỗi khách một đêm , đã bao_gồm các bữa ăn . Du_khách cần đặt chỗ trước nếu dự_định cắm trại dịch_vụ . Càng gần ngày lễ , lượng lều trống view đẹp càng ít . \n Cách TP HCM 190 km \n Chi_phí : 1 - 3 triệu đồng \n Vườn quốc_gia ( VQG ) Bù_Gia_Mập ở xã Phú_Nghĩa , huyện Bù_Gia_Mập , phía đông bắc tỉnh Bình_Phước , diện_tích hơn 25.000 ha . \n Đến VQG , du_khách có_thể trải nghiệm trekking , ngắm nhìn những cánh rừng lồ_ô , cây họ dầu và nhiều loài cây đặc_trưng khác của khu rừng chuyển_tiếp từ Tây_Nguyên xuống vùng Đông_Nam_Bộ ; tham_quan trung_tâm cứu_hộ bảo_tồn và phát_triển sinh_vật , tìm_hiểu tập_tính sinh_thái và những đặc_điểm thú_vị của các loài linh_trưởng và một_số loài động_vật của VQG. \n Các tour trekking VQG trọn_gói có_giá khoảng 2,5 triệu đồng , du_khách chỉ cần chuẩn_bị đồ_dùng cá_nhân cần_thiết trước khi lên_đường . Trong khi đó , trekking tự_túc chi_phí tiết_kiệm hơn nhưng bạn phải mang vác đồ_đạc suốt quá_trình di_chuyển , đòi_hỏi kinh_nghiệm đi rừng , thể_lực và sức_bền tốt . \n Cách TP HCM 237 km \n Chi_phí : 1 - 2 triệu đồng \n Mũi Yến thuộc xã Hòa_Thắng , huyện Bắc_Bình , tỉnh Bình_Thuận , cách khu du_lịch Bàu_Trắng khoảng 4 km . Địa_điểm này còn hoang_sơ và chưa có các dịch_vụ du_lịch . \n Mũi Yến có địa_hình đồi thoai_thoải , những mũi_đất nhô ra biển Hòa_Thắng . Vì chưa phát_triển du_lịch , lại cách xa khu dân_cư 15 - 20 km , hoạt_động cắm trại ở đây đều là tự_túc . \n Du_khách không thường_xuyên du_lịch dã_ngoại có_thể thuê lều , các đồ_dùng cắm trại kèm theo . Chi_phí thuê lều , nệm hơi , ghế_ngồi , quạt tích điện , đèn , dụng_cụ nấu_ăn cho 2 người trong 2 ngày khoảng 600.000 - 700.000 đồng . Đồ ăn đem theo có_thể chuẩn_bị sẵn hoặc bạn có_thể mua đồ tươi_sống tại các vựa hải_sản ở Hòa_Thắng . \n Đường vào Mũi Yến khá khó đi , nhiều dốc cát , đá_dăm , đá_tảng , nên di_chuyển bằng ôtô hai cầu nếu tay_lái không đủ vững . \n Cách TP HCM 80 km \n Chi_phí : 1 - 2 triệu đồng \n Sau khi đến hồ Dầu_Tiếng , du_khách có_thể qua bến thuyền ở ngã ba Bờ Hồ , gần nhà_thờ Suối Đá , thị_trấn Dương Minh_Châu . Đây là bến thuyền duy_nhất chở khách ra đảo Nhím . Bạn có_thể gửi ôtô , xe_máy tại nhà dân ở gần bến_tàu . Sau đó khi tới đảo , mọi người tiếp_tục trekking , đi bộ hoặc đi xe trâu kéo . Bạn lưu số của lái tàu để liên_hệ khi về . \n Nếu không mang đồ ăn , bạn có_thể đặt_hàng người dân trên đảo các món gà ta , cá_lăng , rau rừng , khoai_lang , khoai_mì nướng ... Chi_phí cho một người khoảng 500.000 đồng mỗi đêm , đã bao_gồm phí thuê thuyền khứ_hồi giá khoảng 1,5 triệu đồng , chở 10 - 15 khách . \n',
|
| 616 |
+
]
|
| 617 |
+
embeddings = model.encode(sentences)
|
| 618 |
+
print(embeddings.shape)
|
| 619 |
+
# [3, 768]
|
| 620 |
+
|
| 621 |
+
# Get the similarity scores for the embeddings
|
| 622 |
+
similarities = model.similarity(embeddings, embeddings)
|
| 623 |
+
print(similarities)
|
| 624 |
+
# tensor([[ 1.0000, 0.6322, 0.0179],
|
| 625 |
+
# [ 0.6322, 1.0000, -0.0044],
|
| 626 |
+
# [ 0.0179, -0.0044, 1.0000]])
|
| 627 |
+
```
|
| 628 |
+
|
| 629 |
+
<!--
|
| 630 |
+
### Direct Usage (Transformers)
|
| 631 |
+
|
| 632 |
+
<details><summary>Click to see the direct usage in Transformers</summary>
|
| 633 |
+
|
| 634 |
+
</details>
|
| 635 |
+
-->
|
| 636 |
+
|
| 637 |
+
<!--
|
| 638 |
+
### Downstream Usage (Sentence Transformers)
|
| 639 |
+
|
| 640 |
+
You can finetune this model on your own dataset.
|
| 641 |
+
|
| 642 |
+
<details><summary>Click to expand</summary>
|
| 643 |
+
|
| 644 |
+
</details>
|
| 645 |
+
-->
|
| 646 |
+
|
| 647 |
+
<!--
|
| 648 |
+
### Out-of-Scope Use
|
| 649 |
+
|
| 650 |
+
*List how the model may foreseeably be misused and address what users ought not to do with the model.*
|
| 651 |
+
-->
|
| 652 |
+
|
| 653 |
+
<!--
|
| 654 |
+
## Bias, Risks and Limitations
|
| 655 |
+
|
| 656 |
+
*What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
|
| 657 |
+
-->
|
| 658 |
+
|
| 659 |
+
<!--
|
| 660 |
+
### Recommendations
|
| 661 |
+
|
| 662 |
+
*What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
|
| 663 |
+
-->
|
| 664 |
+
|
| 665 |
+
## Training Details
|
| 666 |
+
|
| 667 |
+
### Training Dataset
|
| 668 |
+
|
| 669 |
+
#### Unnamed Dataset
|
| 670 |
+
|
| 671 |
+
* Size: 2,668 training samples
|
| 672 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
| 673 |
+
* Approximate statistics based on the first 1000 samples:
|
| 674 |
+
| | anchor | positive |
|
| 675 |
+
|:--------|:-----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
|
| 676 |
+
| type | string | string |
|
| 677 |
+
| details | <ul><li>min: 10 tokens</li><li>mean: 25.22 tokens</li><li>max: 78 tokens</li></ul> | <ul><li>min: 187 tokens</li><li>mean: 255.24 tokens</li><li>max: 256 tokens</li></ul> |
|
| 678 |
+
* Samples:
|
| 679 |
+
| anchor | positive |
|
| 680 |
+
|:---------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 681 |
+
| <code>Võ_sĩ người Việt_Nam Thạch_Kim_Tuấn , một người từng đoạt ba huy_chương vàng hạng cân 56kg .</code> | <code>Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này . <br> Kịch_bản tương_tự tái_hiện ở giải th��_giới ở Arab Saudi hôm 5 / 9 , khi Gia Thành_đạt thành_tích giật 123 kg , đẩy 146 kg và tổng_cử 269 kg để vô_địch . Còn Ngô_Sơn_Đỉnh giành cả ba HC bạc với tổng_cử thấp hơn đồng_đội 8 kg . Lực_sĩ Thái_Lan Thada_Somboon - uan đạt ba HC đồng với tổng_cử 259 kg . <br> Gia_Thành 25 tuổi , người Bắc_Ninh , đã đoạt HC vàng SEA_Games cả ba kỳ gần đây cũng ở hạng cân 55kg với tổng_cử lần_lượt là 264 , 268 và 261 kg . Anh cũng là đô cử duy_nhất của Việt_Nam từng vô_địch SEA_Games ba kỳ liên_tiếp . <br> Hạng cân 55kg hay 56kg đã không còn xuất_hiện trong chương_trình Olympic mùa hè hay Asiad . Lần gần nhất IOC đưa nội_dung này vào Thế vận...</code> |
|
| 682 |
+
| <code>Việt_Nam đã vô_địch ở Arab_Saudi , khi Ngô_Sơn_Đỉnh giành cả ba HC bạc và về nhì .</code> | <code>Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này . <br> Kịch_bản tương_tự tái_hiện ở giải thế_giới ở Arab Saudi hôm 5 / 9 , khi Gia Thành_đạt thành_tích giật 123 kg , đẩy 146 kg và tổng_cử 269 kg để vô_địch . Còn Ngô_Sơn_Đỉnh giành cả ba HC bạc với tổng_cử thấp hơn đồng_đội 8 kg . Lực_sĩ Thái_Lan Thada_Somboon - uan đạt ba HC đồng với tổng_cử 259 kg . <br> Gia_Thành 25 tuổi , người Bắc_Ninh , đã đoạt HC vàng SEA_Games cả ba kỳ gần đây cũng ở hạng cân 55kg với tổng_cử lần_lượt là 264 , 268 và 261 kg . Anh cũng là đô cử duy_nhất của Việt_Nam từng vô_địch SEA_Games ba kỳ liên_tiếp . <br> Hạng cân 55kg hay 56kg đã không còn xuất_hiện trong chương_trình Olympic mùa hè hay Asiad . Lần gần nhất IOC đưa nội_dung này vào Thế vận...</code> |
|
| 683 |
+
| <code>Đô cử duy_nhất của Việt_Nam_Gia_Thành vừa đoạt HC vàng SEA_Games ba kỳ liên_tiếp cũng ở hạng cân 55kg .</code> | <code>Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này . <br> Kịch_bản tương_tự tái_hiện ở giải thế_giới ở Arab Saudi hôm 5 / 9 , khi Gia Thành_đạt thành_tích giật 123 kg , đẩy 146 kg và tổng_cử 269 kg để vô_địch . Còn Ngô_Sơn_Đỉnh giành cả ba HC bạc với tổng_cử thấp hơn đồng_đội 8 kg . Lực_sĩ Thái_Lan Thada_Somboon - uan đạt ba HC đồng với tổng_cử 259 kg . <br> Gia_Thành 25 tuổi , người Bắc_Ninh , đã đoạt HC vàng SEA_Games cả ba kỳ gần đây cũng ở hạng cân 55kg với tổng_cử lần_lượt là 264 , 268 và 261 kg . Anh cũng là đô cử duy_nhất của Việt_Nam từng vô_địch SEA_Games ba kỳ liên_tiếp . <br> Hạng cân 55kg hay 56kg đã không còn xuất_hiện trong chương_trình Olympic mùa hè hay Asiad . Lần gần nhất IOC đưa nội_dung này vào Thế vận...</code> |
|
| 684 |
+
* Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
|
| 685 |
+
```json
|
| 686 |
+
{
|
| 687 |
+
"scale": 20.0,
|
| 688 |
+
"similarity_fct": "cos_sim",
|
| 689 |
+
"mini_batch_size": 1024,
|
| 690 |
+
"gather_across_devices": false
|
| 691 |
+
}
|
| 692 |
+
```
|
| 693 |
+
|
| 694 |
+
### Evaluation Dataset
|
| 695 |
+
|
| 696 |
+
#### Unnamed Dataset
|
| 697 |
+
|
| 698 |
+
* Size: 333 evaluation samples
|
| 699 |
+
* Columns: <code>anchor</code> and <code>positive</code>
|
| 700 |
+
* Approximate statistics based on the first 333 samples:
|
| 701 |
+
| | anchor | positive |
|
| 702 |
+
|:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
|
| 703 |
+
| type | string | string |
|
| 704 |
+
| details | <ul><li>min: 11 tokens</li><li>mean: 24.4 tokens</li><li>max: 71 tokens</li></ul> | <ul><li>min: 70 tokens</li><li>mean: 252.54 tokens</li><li>max: 256 tokens</li></ul> |
|
| 705 |
+
* Samples:
|
| 706 |
+
| anchor | positive |
|
| 707 |
+
|:-------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
|
| 708 |
+
| <code>Nhật_Bản và Việt_Nam đã có cuộc tranh_đấu khi đội Nhật chiến_thắng ở 15 - 11 .</code> | <code>Ở bán_kết , Nhật_Bản tốn sức khi phải thi_đấu năm set và thua Thái_Lan 2 - 3 . Họ cũng có ít thời_gian để nghỉ_ngơi hơn do thi_đấu sau Việt_Nam . Dù thua Trung_Quốc 0 - 3 , việc chỉ thi_đấu ba set giúp các học_trò của HLV Nguyễn_Tuấn_Kiệt phần_nào giữ được thể_lực . <br> Đây là một phần lý_do giúp Việt_Nam nắm ưu_thế trong nhiều thời_điểm quan_trọng ở trận tranh HC đồng chiều nay . Hai đội cũng tạo được thế_trận đôi công đẹp_mắt . Nhưng , đại_diện Đông_Á vẫn tạo được khác_biệt là khả_năng phòng_ngự hàng sau , cùng tay đập Fuyumi_Hawi . <br> Ở set một , Việt_Nam bị dẫn trước phần_lớn thời_gian nhưng cố_gắng bám sát để khoảng_cách không vượt quá hai điểm . Khi tỷ_số là 19 - 20 , Nhật_Bản mắc bốn sai_lầm , trong đó có ba tình_huống đập bóng ra ngoài liên_tiếp , giúp Việt_Nam dẫn 23 - 21 . Sau đó , Hoàng_Thị_Kiều_Trinh tấn_công ghi_điểm thứ 24 , trước khi Trần_Thị Thanh Thuý chắn tốt để thắng 25 - 21 . <br> Sang set hai , Nhật_Bản cải_thiện khả_năng đập bóng với 17 điểm tấn_công để thắng 25 - 14 . ...</code> |
|
| 709 |
+
| <code>Dennis_Schroder , Franz_Wagner và Daniel_Theis là ba cầu_thủ có đóng_góp lớn_lao trong việc giúp Đức thắng cuộc .</code> | <code>Kỳ World_Cup thứ hai liên_tiếp , Mỹ không_thể vào chung_kết . Đây được xem là kết_quả đáng thất_vọng với cường_quốc bóng_rổ số một thế_giới . Với việc thua Đức lần đầu sau bảy lần chạm_trán ở World_Cup và Olympic , Mỹ sẽ phải đấu trận tranh vị_trí thứ ba với Canada vào Chủ_nhật 10 / 9 . Cùng ngày , trong lần đầu_vào chung_kết , Đức sẽ gặp Serbia . <br> Mỹ dẫn 60 - 59 sau hai hiệp đầu , nhưng chơi mất tập_trung trong phòng_ngự và thua 24 - 35 ở hiệp ba . Dàn sao NBA với những Anthony_Edwards , Jalen_Brunson , Austin_Reaves hay Tyrese Haliburton nỗ_lực ở hiệp cuối nhưng không_thể san_lấp cách_biệt , chịu_thua 111 - 113 . <br> Dù không mang đến World_Cup những cầu_thủ hay nhất NBA , Mỹ vẫn được đánh_giá cao nhất giải khi những ngôi_sao kể trên cũng thuộc hàng " số má " ở giải bóng_rổ nhà_nghề Mỹ . Tuyển Đức cũng có những cầu_thủ đang thi_đấu tại NBA như Dennis_Schroder , Franz_Wagner và Daniel_Theis . Bộ ba này đều chơi tốt và góp_phần giúp Đức duy_trì thành_tích bất_bại từ đầu giải . <br> " Bóng_...</code> |
|
| 710 |
+
| <code>Từ nhà chị Hằng đến trường phải mất khoảng thời_gian là gần 50 phút với phương_tiện là xuồng .</code> | <code>Tại Hà_Nội , đường_phố nhộn_nhịp từ 6h30 khi gần 2,3 triệu học_sinh các cấp đi khai_giảng . Đây là địa_phương có số học_sinh và trường , lớp nhiều nhất cả nước . <br> Cổng trường Tiểu_học Yên_Nghĩa , quận Hà_Đông , được trang_hoàng rực_rỡ với cổng bóng và hoa tươi . Trịnh Minh_Khang , lớp 4A1 , đạp xe đi từ nhà lúc 6h . <br> " Tối qua con ngủ chập_chờn , một lúc lại thức dậy vì háo_hức . Hôm_nay con hát hai bài Tiếng trống trường em và Thầy_cô cho em ước_mơ " , Khang nói , cho biết đã cùng các bạn trong đội văn_nghệ tập_luyện cả tuần trước . Em cũng tự tay bọc sách , dán nhãn_vở , thích_thú với bộ học liệu khoa_học công_nghệ , tự tháo ra và lắp_ghép . <br> Ở trường THCS Trần_Duy_Hưng , quận Cầu Giấy , thầy phó hiệu_trưởng Nguyễn_Ngọc_Phúc cho biết khai_giảng bắt_đầu lúc 7h30 , trong khoảng 45 phút , tinh_thần là gọn_nhẹ . <br> " Sau đó , học_sinh_học tiết hai như bình_thường " , thầy Phúc nói . Trường THCS Trần_Duy_Hưng tiếp_tục đặt mục_tiêu phát_triển giáo_dục mũi_nhọn , tiên_tiến trong năm_học m...</code> |
|
| 711 |
+
* Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
|
| 712 |
+
```json
|
| 713 |
+
{
|
| 714 |
+
"scale": 20.0,
|
| 715 |
+
"similarity_fct": "cos_sim",
|
| 716 |
+
"mini_batch_size": 1024,
|
| 717 |
+
"gather_across_devices": false
|
| 718 |
+
}
|
| 719 |
+
```
|
| 720 |
+
|
| 721 |
+
### Training Hyperparameters
|
| 722 |
+
#### Non-Default Hyperparameters
|
| 723 |
+
|
| 724 |
+
- `eval_strategy`: steps
|
| 725 |
+
- `per_device_train_batch_size`: 32
|
| 726 |
+
- `per_device_eval_batch_size`: 32
|
| 727 |
+
- `learning_rate`: 2e-05
|
| 728 |
+
- `weight_decay`: 0.01
|
| 729 |
+
- `num_train_epochs`: 5
|
| 730 |
+
- `warmup_ratio`: 0.1
|
| 731 |
+
- `warmup_steps`: 50
|
| 732 |
+
- `fp16`: True
|
| 733 |
+
- `load_best_model_at_end`: True
|
| 734 |
+
- `batch_sampler`: no_duplicates
|
| 735 |
+
|
| 736 |
+
#### All Hyperparameters
|
| 737 |
+
<details><summary>Click to expand</summary>
|
| 738 |
+
|
| 739 |
+
- `overwrite_output_dir`: False
|
| 740 |
+
- `do_predict`: False
|
| 741 |
+
- `eval_strategy`: steps
|
| 742 |
+
- `prediction_loss_only`: True
|
| 743 |
+
- `per_device_train_batch_size`: 32
|
| 744 |
+
- `per_device_eval_batch_size`: 32
|
| 745 |
+
- `per_gpu_train_batch_size`: None
|
| 746 |
+
- `per_gpu_eval_batch_size`: None
|
| 747 |
+
- `gradient_accumulation_steps`: 1
|
| 748 |
+
- `eval_accumulation_steps`: None
|
| 749 |
+
- `torch_empty_cache_steps`: None
|
| 750 |
+
- `learning_rate`: 2e-05
|
| 751 |
+
- `weight_decay`: 0.01
|
| 752 |
+
- `adam_beta1`: 0.9
|
| 753 |
+
- `adam_beta2`: 0.999
|
| 754 |
+
- `adam_epsilon`: 1e-08
|
| 755 |
+
- `max_grad_norm`: 1.0
|
| 756 |
+
- `num_train_epochs`: 5
|
| 757 |
+
- `max_steps`: -1
|
| 758 |
+
- `lr_scheduler_type`: linear
|
| 759 |
+
- `lr_scheduler_kwargs`: {}
|
| 760 |
+
- `warmup_ratio`: 0.1
|
| 761 |
+
- `warmup_steps`: 50
|
| 762 |
+
- `log_level`: passive
|
| 763 |
+
- `log_level_replica`: warning
|
| 764 |
+
- `log_on_each_node`: True
|
| 765 |
+
- `logging_nan_inf_filter`: True
|
| 766 |
+
- `save_safetensors`: True
|
| 767 |
+
- `save_on_each_node`: False
|
| 768 |
+
- `save_only_model`: False
|
| 769 |
+
- `restore_callback_states_from_checkpoint`: False
|
| 770 |
+
- `no_cuda`: False
|
| 771 |
+
- `use_cpu`: False
|
| 772 |
+
- `use_mps_device`: False
|
| 773 |
+
- `seed`: 42
|
| 774 |
+
- `data_seed`: None
|
| 775 |
+
- `jit_mode_eval`: False
|
| 776 |
+
- `use_ipex`: False
|
| 777 |
+
- `bf16`: False
|
| 778 |
+
- `fp16`: True
|
| 779 |
+
- `fp16_opt_level`: O1
|
| 780 |
+
- `half_precision_backend`: auto
|
| 781 |
+
- `bf16_full_eval`: False
|
| 782 |
+
- `fp16_full_eval`: False
|
| 783 |
+
- `tf32`: None
|
| 784 |
+
- `local_rank`: 0
|
| 785 |
+
- `ddp_backend`: None
|
| 786 |
+
- `tpu_num_cores`: None
|
| 787 |
+
- `tpu_metrics_debug`: False
|
| 788 |
+
- `debug`: []
|
| 789 |
+
- `dataloader_drop_last`: False
|
| 790 |
+
- `dataloader_num_workers`: 0
|
| 791 |
+
- `dataloader_prefetch_factor`: None
|
| 792 |
+
- `past_index`: -1
|
| 793 |
+
- `disable_tqdm`: False
|
| 794 |
+
- `remove_unused_columns`: True
|
| 795 |
+
- `label_names`: None
|
| 796 |
+
- `load_best_model_at_end`: True
|
| 797 |
+
- `ignore_data_skip`: False
|
| 798 |
+
- `fsdp`: []
|
| 799 |
+
- `fsdp_min_num_params`: 0
|
| 800 |
+
- `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
|
| 801 |
+
- `tp_size`: 0
|
| 802 |
+
- `fsdp_transformer_layer_cls_to_wrap`: None
|
| 803 |
+
- `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
|
| 804 |
+
- `deepspeed`: None
|
| 805 |
+
- `label_smoothing_factor`: 0.0
|
| 806 |
+
- `optim`: adamw_torch
|
| 807 |
+
- `optim_args`: None
|
| 808 |
+
- `adafactor`: False
|
| 809 |
+
- `group_by_length`: False
|
| 810 |
+
- `length_column_name`: length
|
| 811 |
+
- `ddp_find_unused_parameters`: None
|
| 812 |
+
- `ddp_bucket_cap_mb`: None
|
| 813 |
+
- `ddp_broadcast_buffers`: False
|
| 814 |
+
- `dataloader_pin_memory`: True
|
| 815 |
+
- `dataloader_persistent_workers`: False
|
| 816 |
+
- `skip_memory_metrics`: True
|
| 817 |
+
- `use_legacy_prediction_loop`: False
|
| 818 |
+
- `push_to_hub`: False
|
| 819 |
+
- `resume_from_checkpoint`: None
|
| 820 |
+
- `hub_model_id`: None
|
| 821 |
+
- `hub_strategy`: every_save
|
| 822 |
+
- `hub_private_repo`: None
|
| 823 |
+
- `hub_always_push`: False
|
| 824 |
+
- `gradient_checkpointing`: False
|
| 825 |
+
- `gradient_checkpointing_kwargs`: None
|
| 826 |
+
- `include_inputs_for_metrics`: False
|
| 827 |
+
- `include_for_metrics`: []
|
| 828 |
+
- `eval_do_concat_batches`: True
|
| 829 |
+
- `fp16_backend`: auto
|
| 830 |
+
- `push_to_hub_model_id`: None
|
| 831 |
+
- `push_to_hub_organization`: None
|
| 832 |
+
- `mp_parameters`:
|
| 833 |
+
- `auto_find_batch_size`: False
|
| 834 |
+
- `full_determinism`: False
|
| 835 |
+
- `torchdynamo`: None
|
| 836 |
+
- `ray_scope`: last
|
| 837 |
+
- `ddp_timeout`: 1800
|
| 838 |
+
- `torch_compile`: False
|
| 839 |
+
- `torch_compile_backend`: None
|
| 840 |
+
- `torch_compile_mode`: None
|
| 841 |
+
- `include_tokens_per_second`: False
|
| 842 |
+
- `include_num_input_tokens_seen`: False
|
| 843 |
+
- `neftune_noise_alpha`: None
|
| 844 |
+
- `optim_target_modules`: None
|
| 845 |
+
- `batch_eval_metrics`: False
|
| 846 |
+
- `eval_on_start`: False
|
| 847 |
+
- `use_liger_kernel`: False
|
| 848 |
+
- `eval_use_gather_object`: False
|
| 849 |
+
- `average_tokens_across_devices`: False
|
| 850 |
+
- `prompts`: None
|
| 851 |
+
- `batch_sampler`: no_duplicates
|
| 852 |
+
- `multi_dataset_batch_sampler`: proportional
|
| 853 |
+
- `router_mapping`: {}
|
| 854 |
+
- `learning_rate_mapping`: {}
|
| 855 |
+
|
| 856 |
+
</details>
|
| 857 |
+
|
| 858 |
+
### Training Logs
|
| 859 |
+
| Epoch | Step | Training Loss | Validation Loss |
|
| 860 |
+
|:----------:|:-------:|:-------------:|:---------------:|
|
| 861 |
+
| 1.1905 | 100 | 0.5895 | - |
|
| 862 |
+
| 2.3810 | 200 | 0.2979 | - |
|
| 863 |
+
| **3.5714** | **300** | **0.1551** | **0.2772** |
|
| 864 |
+
| 4.7619 | 400 | 0.0906 | - |
|
| 865 |
+
|
| 866 |
+
* The bold row denotes the saved checkpoint.
|
| 867 |
+
|
| 868 |
+
### Framework Versions
|
| 869 |
+
- Python: 3.11.11
|
| 870 |
+
- Sentence Transformers: 5.1.2
|
| 871 |
+
- Transformers: 4.51.1
|
| 872 |
+
- PyTorch: 2.5.1+cu124
|
| 873 |
+
- Accelerate: 1.3.0
|
| 874 |
+
- Datasets: 3.5.0
|
| 875 |
+
- Tokenizers: 0.21.0
|
| 876 |
+
|
| 877 |
+
## Citation
|
| 878 |
+
|
| 879 |
+
### BibTeX
|
| 880 |
+
|
| 881 |
+
#### Sentence Transformers
|
| 882 |
+
```bibtex
|
| 883 |
+
@inproceedings{reimers-2019-sentence-bert,
|
| 884 |
+
title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
|
| 885 |
+
author = "Reimers, Nils and Gurevych, Iryna",
|
| 886 |
+
booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
|
| 887 |
+
month = "11",
|
| 888 |
+
year = "2019",
|
| 889 |
+
publisher = "Association for Computational Linguistics",
|
| 890 |
+
url = "https://arxiv.org/abs/1908.10084",
|
| 891 |
+
}
|
| 892 |
+
```
|
| 893 |
+
|
| 894 |
+
#### CachedMultipleNegativesRankingLoss
|
| 895 |
+
```bibtex
|
| 896 |
+
@misc{gao2021scaling,
|
| 897 |
+
title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
|
| 898 |
+
author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
|
| 899 |
+
year={2021},
|
| 900 |
+
eprint={2101.06983},
|
| 901 |
+
archivePrefix={arXiv},
|
| 902 |
+
primaryClass={cs.LG}
|
| 903 |
+
}
|
| 904 |
+
```
|
| 905 |
+
|
| 906 |
+
<!--
|
| 907 |
+
## Glossary
|
| 908 |
+
|
| 909 |
+
*Clearly define terms in order to be accessible across audiences.*
|
| 910 |
+
-->
|
| 911 |
+
|
| 912 |
+
<!--
|
| 913 |
+
## Model Card Authors
|
| 914 |
+
|
| 915 |
+
*Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
|
| 916 |
+
-->
|
| 917 |
+
|
| 918 |
+
<!--
|
| 919 |
+
## Model Card Contact
|
| 920 |
+
|
| 921 |
+
*Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
|
| 922 |
+
-->
|
added_tokens.json
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"<mask>": 64000
|
| 3 |
+
}
|
bpe.codes
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|
config.json
ADDED
|
@@ -0,0 +1,27 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"architectures": [
|
| 3 |
+
"RobertaModel"
|
| 4 |
+
],
|
| 5 |
+
"attention_probs_dropout_prob": 0.1,
|
| 6 |
+
"bos_token_id": 0,
|
| 7 |
+
"classifier_dropout": null,
|
| 8 |
+
"eos_token_id": 2,
|
| 9 |
+
"hidden_act": "gelu",
|
| 10 |
+
"hidden_dropout_prob": 0.1,
|
| 11 |
+
"hidden_size": 768,
|
| 12 |
+
"initializer_range": 0.02,
|
| 13 |
+
"intermediate_size": 3072,
|
| 14 |
+
"layer_norm_eps": 1e-05,
|
| 15 |
+
"max_position_embeddings": 258,
|
| 16 |
+
"model_type": "roberta",
|
| 17 |
+
"num_attention_heads": 12,
|
| 18 |
+
"num_hidden_layers": 12,
|
| 19 |
+
"pad_token_id": 1,
|
| 20 |
+
"position_embedding_type": "absolute",
|
| 21 |
+
"tokenizer_class": "PhobertTokenizer",
|
| 22 |
+
"torch_dtype": "float32",
|
| 23 |
+
"transformers_version": "4.51.1",
|
| 24 |
+
"type_vocab_size": 1,
|
| 25 |
+
"use_cache": true,
|
| 26 |
+
"vocab_size": 64001
|
| 27 |
+
}
|
config_sentence_transformers.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"__version__": {
|
| 3 |
+
"sentence_transformers": "5.1.2",
|
| 4 |
+
"transformers": "4.51.1",
|
| 5 |
+
"pytorch": "2.5.1+cu124"
|
| 6 |
+
},
|
| 7 |
+
"model_type": "SentenceTransformer",
|
| 8 |
+
"prompts": {
|
| 9 |
+
"query": "",
|
| 10 |
+
"document": ""
|
| 11 |
+
},
|
| 12 |
+
"default_prompt_name": null,
|
| 13 |
+
"similarity_fn_name": "cosine"
|
| 14 |
+
}
|
model.safetensors
ADDED
|
@@ -0,0 +1,3 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
version https://git-lfs.github.com/spec/v1
|
| 2 |
+
oid sha256:5831ab236b492160c154b127e3ee2e3040302455dd04662325f3143f904c9e81
|
| 3 |
+
size 540015464
|
modules.json
ADDED
|
@@ -0,0 +1,14 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
[
|
| 2 |
+
{
|
| 3 |
+
"idx": 0,
|
| 4 |
+
"name": "0",
|
| 5 |
+
"path": "",
|
| 6 |
+
"type": "sentence_transformers.models.Transformer"
|
| 7 |
+
},
|
| 8 |
+
{
|
| 9 |
+
"idx": 1,
|
| 10 |
+
"name": "1",
|
| 11 |
+
"path": "1_Pooling",
|
| 12 |
+
"type": "sentence_transformers.models.Pooling"
|
| 13 |
+
}
|
| 14 |
+
]
|
sentence_bert_config.json
ADDED
|
@@ -0,0 +1,4 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"max_seq_length": 256,
|
| 3 |
+
"do_lower_case": false
|
| 4 |
+
}
|
special_tokens_map.json
ADDED
|
@@ -0,0 +1,51 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"bos_token": {
|
| 3 |
+
"content": "<s>",
|
| 4 |
+
"lstrip": false,
|
| 5 |
+
"normalized": false,
|
| 6 |
+
"rstrip": false,
|
| 7 |
+
"single_word": false
|
| 8 |
+
},
|
| 9 |
+
"cls_token": {
|
| 10 |
+
"content": "<s>",
|
| 11 |
+
"lstrip": false,
|
| 12 |
+
"normalized": false,
|
| 13 |
+
"rstrip": false,
|
| 14 |
+
"single_word": false
|
| 15 |
+
},
|
| 16 |
+
"eos_token": {
|
| 17 |
+
"content": "</s>",
|
| 18 |
+
"lstrip": false,
|
| 19 |
+
"normalized": false,
|
| 20 |
+
"rstrip": false,
|
| 21 |
+
"single_word": false
|
| 22 |
+
},
|
| 23 |
+
"mask_token": {
|
| 24 |
+
"content": "<mask>",
|
| 25 |
+
"lstrip": false,
|
| 26 |
+
"normalized": false,
|
| 27 |
+
"rstrip": false,
|
| 28 |
+
"single_word": false
|
| 29 |
+
},
|
| 30 |
+
"pad_token": {
|
| 31 |
+
"content": "<pad>",
|
| 32 |
+
"lstrip": false,
|
| 33 |
+
"normalized": false,
|
| 34 |
+
"rstrip": false,
|
| 35 |
+
"single_word": false
|
| 36 |
+
},
|
| 37 |
+
"sep_token": {
|
| 38 |
+
"content": "</s>",
|
| 39 |
+
"lstrip": false,
|
| 40 |
+
"normalized": false,
|
| 41 |
+
"rstrip": false,
|
| 42 |
+
"single_word": false
|
| 43 |
+
},
|
| 44 |
+
"unk_token": {
|
| 45 |
+
"content": "<unk>",
|
| 46 |
+
"lstrip": false,
|
| 47 |
+
"normalized": false,
|
| 48 |
+
"rstrip": false,
|
| 49 |
+
"single_word": false
|
| 50 |
+
}
|
| 51 |
+
}
|
tokenizer_config.json
ADDED
|
@@ -0,0 +1,55 @@
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
| 1 |
+
{
|
| 2 |
+
"added_tokens_decoder": {
|
| 3 |
+
"0": {
|
| 4 |
+
"content": "<s>",
|
| 5 |
+
"lstrip": false,
|
| 6 |
+
"normalized": false,
|
| 7 |
+
"rstrip": false,
|
| 8 |
+
"single_word": false,
|
| 9 |
+
"special": true
|
| 10 |
+
},
|
| 11 |
+
"1": {
|
| 12 |
+
"content": "<pad>",
|
| 13 |
+
"lstrip": false,
|
| 14 |
+
"normalized": false,
|
| 15 |
+
"rstrip": false,
|
| 16 |
+
"single_word": false,
|
| 17 |
+
"special": true
|
| 18 |
+
},
|
| 19 |
+
"2": {
|
| 20 |
+
"content": "</s>",
|
| 21 |
+
"lstrip": false,
|
| 22 |
+
"normalized": false,
|
| 23 |
+
"rstrip": false,
|
| 24 |
+
"single_word": false,
|
| 25 |
+
"special": true
|
| 26 |
+
},
|
| 27 |
+
"3": {
|
| 28 |
+
"content": "<unk>",
|
| 29 |
+
"lstrip": false,
|
| 30 |
+
"normalized": false,
|
| 31 |
+
"rstrip": false,
|
| 32 |
+
"single_word": false,
|
| 33 |
+
"special": true
|
| 34 |
+
},
|
| 35 |
+
"64000": {
|
| 36 |
+
"content": "<mask>",
|
| 37 |
+
"lstrip": false,
|
| 38 |
+
"normalized": false,
|
| 39 |
+
"rstrip": false,
|
| 40 |
+
"single_word": false,
|
| 41 |
+
"special": true
|
| 42 |
+
}
|
| 43 |
+
},
|
| 44 |
+
"bos_token": "<s>",
|
| 45 |
+
"clean_up_tokenization_spaces": true,
|
| 46 |
+
"cls_token": "<s>",
|
| 47 |
+
"eos_token": "</s>",
|
| 48 |
+
"extra_special_tokens": {},
|
| 49 |
+
"mask_token": "<mask>",
|
| 50 |
+
"model_max_length": 256,
|
| 51 |
+
"pad_token": "<pad>",
|
| 52 |
+
"sep_token": "</s>",
|
| 53 |
+
"tokenizer_class": "PhobertTokenizer",
|
| 54 |
+
"unk_token": "<unk>"
|
| 55 |
+
}
|
vocab.txt
ADDED
|
The diff for this file is too large to render.
See raw diff
|
|
|