truong1301 commited on
Commit
4c5d3d2
·
verified ·
1 Parent(s): f7c2bc3

Add new SentenceTransformer model

Browse files
1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
README.md ADDED
@@ -0,0 +1,922 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:2668
9
+ - loss:CachedMultipleNegativesRankingLoss
10
+ base_model: bkai-foundation-models/vietnamese-bi-encoder
11
+ widget:
12
+ - source_sentence: Nguyễn_Đức_Thắng và Trần_Xuân_Bách là 2 học_sinh nhận được huy_chương
13
+ bạc trong cuộc thi .
14
+ sentences:
15
+ - "Theo các đại_lý Hyundai , Venue sẽ bán ra cuối 2023 , bên cạnh hai cái tên khác\
16
+ \ lần đầu_vào thị_trường Việt là Custo và Palisade . Dải_sản_phẩm gầm cao của\
17
+ \ Hyundai tại Việt_Nam sẽ trải dài từ nhỏ ( cỡ A ) đến lớn ( cỡ E ) với những\
18
+ \ cái tên lần_lượt là Venue , Creta , Tucson , Santa_Fe và Palisade . \n Hyundai\
19
+ \ Venue là sản_phẩm toàn_cầu của hãng xe Hàn_Quốc , chia_sẻ nền_tảng khung gầm\
20
+ \ với mẫu xe anh_em Kia_Sonet . Doanh_số Venue trên toàn_cầu chủ_yếu đến từ Ấn_Độ\
21
+ \ với khoảng 70 % thị_phần . \n Kích_thước dài , rộng , cao của Hyundai Venue\
22
+ \ là 4.040 mm , 1.770 mm , 1.585 mm , chiều dài cơ_sở 2.520 mm . Những thông_số\
23
+ \ tương_tự của Toyota_Raize là 4.030 x 1.710 x 1.605 mm , chiều dài cơ_sở 2.525\
24
+ \ mm . Sonet là 4.120 x 1.790 x 1.642 mm , chiều dài cơ_sở 2.500 mm . \n Hyundai\
25
+ \ trang_bị nhiều tùy_chọn động_cơ cho Venue . Tùy_thị_trường , xe có các lựa_chọn\
26
+ \ như máy xăng 1.2 , tăng áp 1.0 hoặc máy dầu 1.5 với công_suất lần_lượt 83 mã_lực\
27
+ \ , 120 mã_lực và 116 mã_lực . Hộp_số sàn 5 cấp , 6 cấp hoặc tự_động 7 cấp ly\
28
+ \ hợp kép . Bên cạnh đó là máy xăng 1.6 công_suất 121 mã_lực . \n Tại Việt_Nam\
29
+ \ , đối_thủ Kia_Sonet do Trường Hải lắp_ráp và phân_phối dùng máy 1.5 công_suất\
30
+ \ 113 mã_lực . Toyota_Raize trang_bị_động_cơ tăng áp 1.0 công_suất 98 mã_lực .\
31
+ \ \n Sự góp_mặt của Venue giúp khách_hàng Việt có thêm lựa_chọn ở phân khúc xe\
32
+ \ gầm cao_giá rẻ đang thu_hút nhiều hãng xe tham_chiến . Xu_hướng chuyển_dịch\
33
+ \ từ hatchback cỡ A lên SUV cùng kích_cỡ dần rõ nét hơn ở Việt_Nam . Sau Raize\
34
+ \ và Sonet , thị_trường mới có thêm chiếc VF 5 Plus thuần điện của VinFast . Nhỏ\
35
+ \ hơn những mẫu xe này còn có Hongguang Mini EV đã bán và VF 3 ra_mắt vào năm\
36
+ \ sau . \n Venue chưa phải là mẫu SUV nhỏ nhất của hãng xe Hàn_Quốc khi còn có\
37
+ \ Exter , Casper . \n"
38
+ - "Tiến_Minh vẫn giữ được độ dẻo_dai của cựu_số 4 thế_giới , khi thắng Tiến_Tuấn\
39
+ \ chỉ sau khoảng 40 phút thi_đấu trong trận chung_kết chiều 2 / 9 . Tay_vợt 22\
40
+ \ tuổi nhỉnh hơn ở những tình_huống đập cầu hay phông cầu , còn đàn_anh mạnh ở\
41
+ \ các pha bỏ_nhỏ hoặc phán_đoán tình_huống . Tiến_Minh biết cách bỏ cầu khi cảm_thấy\
42
+ \ Tiến_Tuấn phông cầu quá lực và đi ra ngoài . Trận_đấu kết_thúc với cú đập cầu\
43
+ \ của tay_vợt trẻ đi ra ngoài . \n Tiến_Minh lần thứ 15 vô_địch giải cầu_lông\
44
+ \ cá_nhân quốc_gia , trong đó có kỷ_lục 11 năm liền đăng_quang giai_đoạn 2002\
45
+ \ - 2013 . Chuỗi này chỉ dừng ở năm 2014 bởi anh không tham_dự . Sau đó , anh\
46
+ \ vô_địch quốc_gia thêm bốn lần nữa năm 2017 , 2019 , 2020 và 2023 . Điều đặc_biệt\
47
+ \ là trong 20 năm qua , Tiến_Minh mỗi khi dự giải đều vào chung_kết . \n Chặng\
48
+ \ đường tới chung_kết của tay_vợt 40 tuổi năm nay khó_khăn hơn , trong đó có thất_bại\
49
+ \ trước chính Tiến_Tuấn ở vòng bảng . Trước đó , Tiến_Minh lần_lượt vượt qua Đồng_Quang_Huy\
50
+ \ và Vũ Hải_Đăng ở vòng_loại , để vào bảng B cùng Tiến_Tuấn , Lê_Minh_Sơn và Phan\
51
+ \ Phúc_Thịnh . Tay_vợt từng đoạt HC đồng thế_giới thắng hai đối_thủ yếu hơn ,\
52
+ \ rồi thua Tiến_Tuấn nhưng vẫn vào bán_kết với vị_trí nhì bảng . \n Tại bán_kết\
53
+ \ tối 1 / 9 , Tiến_Minh gặp tay_vợt số một Việt_Nam Nguyễn Hải_Đăng , nhưng anh\
54
+ \ thắng chỉ sau hai hiệp với tỷ_số 21 - 18 , 21 - 18 . Ở trận bán_kết còn lại\
55
+ \ , Tiến_Tuấn hạ tay_vợt chủ nhà Trần_Quốc_Khánh 22 - 20 , 21 - 15 . Tái_ngộ tại\
56
+ \ chung_kết , Tiến_Minh đòi nợ Tiến_Tuấn thành_công để đăng_quang ở tuổi 40 .\
57
+ \ \n Theo bảng thứ tự cầu_lông thế_giới ( BWF ) , Tiến_Minh đang là tay_vợt số\
58
+ \ ba Việt_Nam sau Nguyễn Hải_Đăng và Lê_Đức_Phát . Tuy_nhiên Đức_Phát không được\
59
+ \ xếp hạt_giống tại giải , vì_thế anh không may khi sớm đụng Hải_Đăng và dừng\
60
+ \ bước trước khi tới vòng bảng . \n Giải cầu_lông cá_nhân quốc_gia 2023 diễn ra\
61
+ \ tại Nhà thi_đấu Bắc_Giang từ 29 / 8 đến 2 / 9 . Các tay_vợt sẽ đấu_loại trực_tiếp\
62
+ \ để chọn tám người vào vòng bảng , chia làm hai bảng , mỗi bảng bốn người . Từ\
63
+ \ đó họ đấu vòng_tròn để chọn ra bốn tay_vợt vào bán_kết . \n Ở đơn nữ , Nguyễn_Thùy_Linh\
64
+ \ thắng dễ Trần_Thị_Phương_Thúy 21 - 12 , 21 - 13 để tiếp_tục thống_trị nội_dung\
65
+ \ này . Tại bán_kết , Thùy_Linh hạ Vũ_Thị_Trang - cựu số một Việt_Nam và cũng\
66
+ \ là vợ Nguyễn_Tiến_Minh . \n Các tay_vợt hàng_đầu Việt_Nam sẽ nghỉ_ngơi trước\
67
+ \ khi dự giải Việt_Nam Mở_rộng từ 12 / 9 đến 17 / 9 tại TP HCM. Đây là giải duy_nhất\
68
+ \ tại Việt_Nam thuộc hệ_thống BWF World Tour , cấp Super 100 . \n"
69
+ - "Ngày 2 / 9 , Bộ Giáo_dục và Đào_tạo cho biết em Nguyễn_Ngọc_Đăng_Khoa , học_sinh\
70
+ \ lớp 11 , trường THPT chuyên Khoa_học Tự_nhiên , Đại_học Quốc_gia Hà_Nội , giành\
71
+ \ huy_chương vàng . \n Hai huy_chương bạc thuộc về Trần_Xuân_Bách , lớp 12 trường\
72
+ \ chuyên Khoa_học Tự_nhiên và Nguyễn_Đức_Thắng , học_sinh lớp 11 , trường THPT\
73
+ \ chuyên Hùng Vương , Phú_Thọ . Nguyễn_Quang_Minh , lớp 12 , trường chuyên Khoa_học\
74
+ \ Tự_nhiên , giành huy_chương đồng . \n Với thành_tích này , đội_tuyển Olympic\
75
+ \ Tin_học Việt_Nam đứng trong nhóm 9 quốc_gia và vùng lãnh_thổ đạt kết_quả cao\
76
+ \ nhất , sau đội Trung_Quốc , Mỹ , Nhật_Bản , Hàn_Quốc , Israel ... \n Kỳ thi\
77
+ \ Olympic quốc_tế lần thứ 35 năm 2023 được tổ_chức từ ngày 28 / 8 đến 4 / 9 tại\
78
+ \ thành_phố Szeged , Hungary , với 351 thí_sinh đến từ 89 quốc_gia và vùng lãnh_thổ\
79
+ \ . \n Kỳ thi có hai ngày thi chính_thức . Trong mỗi ngày thi , các thí_sinh lập_trình\
80
+ \ trên máy_tính trong 5 giờ và giải 3 bài_toán . \n Theo ban tổ_chức , 178 thí_sinh\
81
+ \ đoạt huy_chương , trong đó 30 huy_chương vàng , 58 bạc và 90 đồng , chiếm tỷ_lệ\
82
+ \ 50,7 % số thí_sinh tham_dự . 40 em khác được tặng bằng khen . \n Bộ Giáo_dục\
83
+ \ và Đào_tạo đánh_giá đề thi năm nay khó hơn các năm trước và có một_số dạng bài_toán\
84
+ \ lạ , đòi_hỏi khả_năng vận_dụng kiến_thức linh_hoạt và sự sáng_tạo cao của thí_sinh\
85
+ \ . \n Năm_ngoái , đội_tuyển Việt_Nam dự thi trực_tuyến , giành một huy_chương\
86
+ \ vàng và ba huy_chương bạc . Chủ_nhân tấm huy_chương vàng là Trần_Xuân_Bách ,\
87
+ \ khi đó học lớp 11 trường THPT chuyên Khoa_học Tự_nhiên . \n"
88
+ - source_sentence: Xe điện scooter chỉ được chạy với vận_tốc từ 10 km / h trở xuống
89
+ .
90
+ sentences:
91
+ - "Theo hoạt_động được thiết_kế riêng cho kỳ nghỉ từ 1 / 9 đến 4 / 9 do Sở Du_lịch\
92
+ \ công_bố hôm 30 / 8 , các chương_trình đều miễn_phí vé vào , riêng tour nội_đô\
93
+ \ do các công_ty lữ_hành địa_phương tổ_chức có_giá vé khoảng 300.000 đồng mỗi\
94
+ \ người . Dưới đây là lịch_trình các chương_trình , hoạt_động du_khách có_thể\
95
+ \ tham_khảo để lên kế_hoạch vui_chơi dịp lễ . \n Thời_gian : Ngày 17 / 8 - 6 /\
96
+ \ 9 \n Chương_trình triển_lãm đã diễn ra trước kỳ nghỉ lễ 2 / 9 . Trong kỳ nghỉ\
97
+ \ , du_khách vẫn có_thể tham_quan các tác_phẩm nghệ_thuật . Triển_lãm này nhằm\
98
+ \ kỷ_niệm 78 năm Ngày Cách_mạng Tháng_Tám ( 19 / 8 / 1945 - 19 / 8 / 2023 ) ,\
99
+ \ Quốc_khánh nước Cộng_hòa xã_hội chủ_nghĩa Việt_Nam ( 2 / 9 / 1945 - 2 / 9 /\
100
+ \ 2023 ) và 78 năm ngày Sài_Gòn khởi_nghĩa giành chính_quyền ( 25 / 8 / 1945 -\
101
+ \ 25 / 8 / 2023 ) . Các tác_phẩm được trưng_bày liên_quan đến chiến_thắng lịch_sử\
102
+ \ vào mùa thu năm 1945 và sự phát_triển của đất_nước sau ngày hòa bình đến nay\
103
+ \ . Triển_lãm trải dài đoạn từ_đường Ngô Đức_Kế đến đường Tôn_Đức_Thắng ; đường\
104
+ \ Đồng_Khởi ( phía trước Sở Văn_hóa và Thể_thao , đối_diện công_viên Chi_Lăng\
105
+ \ ) . \n Thời_gian : Ngày 2 - 3 / 9 \n Hoạt_động này diễn ra hai ngày trong các\
106
+ \ khung giờ buổi sáng 6 - 9h , buổi chiều từ 16h30 đến 18h30 . Tối_ngày 2 / 9\
107
+ \ sẽ diễn ra chương_trình đêm hoa_đăng khinh khí_cầu . Các hoạt_động trình_diễn\
108
+ \ khinh khí_cầu trong ngày 3 / 9 chỉ diễn ra vào buổi sáng . Tùy theo điều_kiện\
109
+ \ thời_tiết , thời_gian tổ_chức hoạt_động có_thể tạm dừng hoặc điều_chỉnh cho\
110
+ \ phù_hợp . \n Thời_gian : Ngày 2 / 9 \n Buổi biểu_diễn có sự góp_mặt của các\
111
+ \ đội lân sư rồng , trống_hội , đồng_diễn các bộ_môn võ_thuật như Vovinam , Wushu\
112
+ \ , võ cổ_truyền và Taekwondo . Chương_trình bắt_đầu lúc 18h và kết_thúc lúc 19h15\
113
+ \ , diễn ra trên đoạn từ_đường Tôn Thất_Thiệp đến Huỳnh_Thúc Kháng . \n Thời_gian\
114
+ \ : Ngày 2 / 9 \n Chương_trình nghệ_thuật được chia thành 3 phần . Từ 19h30 đến\
115
+ \ 21h diễn ra chương_trình nghệ_thuật kỷ_niệm 78 năm Ngày Cách_mạng Tháng_Tám\
116
+ \ , Quốc_khánh nước Cộng_hòa xã_hội chủ_nghĩa Việt_Nam và 78 năm Ngày Sài_Gòn\
117
+ \ khởi_nghĩa giành chính_quyền . Từ 21h đến 21h15 , phát trực_tiếp màn_hình lớn\
118
+ \ bắn pháo_hóa nghệ_thuật . Khung giờ từ 21h15 đến 22h15 tiếp_tục các tiết_mục\
119
+ \ biểu_diễn nghệ_thuật . Chương_trình này được tổ_chức ở khúc giao phố đi bộ Nguyễn_Huệ\
120
+ \ với đường Ngô Đức_Kế , phường Bến_Nghé , quận 1 . \n Thời_gian : Ngày 2 / 9\
121
+ \ \n Địa_điểm : Khu_vực đầu đường_hầm sông Sài_Gòn , TP Thủ_Đức và công_viên văn_hóa\
122
+ \ Đầm_Sen , quận 11 \n Hoạt_động bắn pháo_hoa nổ diễn ra vào tối_ngày 2 / 9 ,\
123
+ \ kéo_dài trong 15 phút , từ 21h đến 21h15 và diễn ra cùng lúc tại hai địa_điểm\
124
+ \ . Khu_vực đầu đường_hầm sông Sài_Gòn trình_diễn màn bắn pháo_hoa tầm cao , công_viên\
125
+ \ văn_hoá Đầm_Sen bắn pháo_hoa tầm thấp . Hàng năm , hoạt_động này nhận được sự\
126
+ \ quan_tâm của đông_đảo người dân . Để có vị_trí đẹp , bạn nên đến trước 30 phút\
127
+ \ . \n Đây là tour du_lịch nội_đô được nhiều doanh_nghiệp lữ_hành tại TP HCM phối_hợp\
128
+ \ với Sở Du_lịch tổ_chức . Tour này có mức giá 300.000 đồng với thời_gian_tham_quan\
129
+ \ nửa ngày . Du_khách bắt_đầu hành_trình tham_quan tại Công_viên tượng_đài Bác\
130
+ \ , tại phố đi bộ Nguyễn_Huệ , quận 1 . Sau đó ghé thăm trụ_sở UBND , nhà_hát\
131
+ \ Thành_phố . Đây đều là hai công_trình kiến_trúc Pháp nổi_bật tại TP HCM với\
132
+ \ nhiều câu_chuyện lịch_sử xoay quanh . Hoạt_động cuối của tour là đi xe bus hai\
133
+ \ tầng ngắm thành_phố . \n Sở Du_lịch cho biết kỳ nghỉ lễ 2 / 9 cũng là mùa cao_điểm\
134
+ \ kích_cầu du_lịch mua_sắm . Sở Công_thương TP HCM đã công_bố hàng nghìn sản_phẩm\
135
+ \ với giá khuyến_mãi , du_khách có_thể mua_sắm giá rẻ tại các trung_tâm thương_mại\
136
+ \ trên địa_bàn thành_phố trong kỳ nghỉ . \n Ngoài các sự_kiện và sản_phẩm du_lịch\
137
+ \ được thiết_kế riêng cho dịp lễ 2 / 9 , TP HCM còn nhiều hoạt_động nội_đô khác\
138
+ \ cho du_khách trải nghiệm . Nổi_bật là các tour đường_sông mới đi vào hoạt_động\
139
+ \ hồi đầu tháng 8 . 5 tour có_thể kể đến gồm tuyến du_lịch nội_đô Nhiêu_Lộc -\
140
+ \ Thị_Nghè , tuyến Bình_Quới , tuyến du_lịch Củ_Chi , Cần Giờ ( xuất_phát từ Bến\
141
+ \ Bạch_Đằng ) , tuyến kết_nối đến các tỉnh Đông_Nam_bộ , miền Tây hay sang Campuchia\
142
+ \ . Các tour chủ_yếu diễn ra trong ngày . Du_khách có_thể liên_hệ các công_ty\
143
+ \ du_lịch tại thành_phố để đặt tour . Ngoài_ra , du_khách có_thể ghé các khu_phố\
144
+ \ đi bộ và phố ẩm_thực để thưởng_thức các đặc_sản và hòa mình vào không_khí đa\
145
+ \ văn_hóa tại thành_phố . \n"
146
+ - "Paris là một trong những nơi áp_dụng dịch_vụ cho thuê xe scooter điện sớm nhất\
147
+ \ ở châu Âu . Từ năm 2018 , chính_quyền thủ_đô Pháp cho phép người dân thuê xe\
148
+ \ scooter điện thông_qua các ứng_dụng được quảng_cáo là giải_pháp thay_thế ôtô\
149
+ \ đầy hứa_hẹn , thân_thiện với một thành_phố cần giảm ô_nhiễm . \n Truyền_thông\
150
+ \ Pháp khi đó gọi Paris là \" thủ phủ scooter điện quốc_tế \" và tới năm 2019\
151
+ \ , có tới 12 đơn_vị cho thuê xe scooter điện ở Paris , sở_hữu khoảng 20.000 phương_tiện\
152
+ \ , với các quy_định quản_lý được cho là rất \" thoáng \" . \n Giờ_đây , khi một_số\
153
+ \ thành_phố như London đang gia_hạn hợp_đồng với các đơn_vị cho thuê scooter ,\
154
+ \ Paris lại trở_thành thủ_đô đầu_tiên ở châu Âu cấm hoàn_toàn xe scooter điện\
155
+ \ cho thuê từ 1 / 9 . \n Amanda_Rollins , 33 tuổi , người Mỹ ở Paris thường di_chuyển\
156
+ \ bằng scooter , cho hay vẫn nhớ như in lần đầu loại phương_tiện này xuất_hiện\
157
+ \ trên đường_phố Paris năm 2018 . \" Lúc ấy giống như Giáng_sinh , như_thể ông_già\
158
+ \ Noel vừa ghé qua \" , cô nói . \n Chính_phủ Pháp năm 2019 đưa scooter điện vào\
159
+ \ danh_sách phương_tiện giao_thông cần quản_lý , áp_đặt quy_định trên toàn_quốc\
160
+ \ về tốc_độ và sức chở . \n Cuối năm đó , chính_quyền Paris quyết_định giới_hạn\
161
+ \ số_lượng nhà khai_thác scooter điện còn ba công_ty là Lime , Dott và Tier .\
162
+ \ Mỗi nhà khai_thác chỉ được phép cung_cấp 5.000 xe trên đường_phố thủ_đô . \n\
163
+ \ Đến năm 2021 , một phụ_nữ Italy đi bộ dọc sông Seine trở_thành người thứ ba_bị\
164
+ \ xe scooter điện tông chết . Hai người chở nhau trên chiếc scooter đã đâm trúng\
165
+ \ cô . \n Những tháng tiếp_theo , chính_quyền Paris cân_nhắc cấm hoàn_toàn xe\
166
+ \ scooter điện , nhưng cuối_cùng chỉ ban_hành nhiều quy_định hơn . Các công_ty\
167
+ \ cho thuê scooter điện bị yêu_cầu đặt giới_hạn thiết_bị ở vận_tốc \" chậm \"\
168
+ \ , không quá 10 km / h . \n Hồi tháng 4 , Paris tổ_chức trưng_cầu dân_ý và 90\
169
+ \ % người tham_gia ủng_hộ lệnh cấm scooter điện cho thuê . Lệnh cấm có hiệu_lực\
170
+ \ từ 1 / 9 . \n"
171
+ - "Theo Xinhua , cổ_vật là một trong bảo_bối được chú_ý nhất của Bảo_tàng tỉnh Hồ_Bắc\
172
+ \ , gây tò_mò với nhiều người . Trên Weibo , nhiều khán_giả cho biết khi tới đây\
173
+ \ , họ không_thể không chiêm_ngưỡng tác_phẩm . Kiếm đạt trình_độ cao bậc nhất\
174
+ \ về nghệ_thuật trạm trổ , điêu_khắc thời Xuân_Thu Chiến_Quốc đồng_thời là dấu_son\
175
+ \ của nghệ_thuật thư_pháp , bởi các chữ được khắc trên cổ_vật . \n Hồi tháng 6\
176
+ \ , bài nghiên_cứu lịch_sử thanh kiếm trên CCTV gây sốt , thu_hút hàng triệu lượt\
177
+ \ xem . Tác_phẩm được mệnh_danh \" Thiên_hạ_đệ nhất kiếm \" vì nhiều yếu_tố .\
178
+ \ Khi khai_quật tại ngôi mộ trên núi Vọng ở Giang_Lăng , tỉnh Hồ Bắc năm 1965\
179
+ \ , giới khảo_cổ từng sững_sờ vì khi rút kiếm khỏi bao , cổ_vật vẫn sáng , lưỡi\
180
+ \ kiếm sắc_bén , không hề bị gỉ sét dù trải qua hai thiên_niên_kỷ dưới lòng đất\
181
+ \ . \n Qua khảo_cứu , giới chuyên_môn xác_định hai dòng chữ khắc trên thanh kiếm\
182
+ \ là \" Việt_vương Câu_Tiễn tự tác_dụng kiếm \" , loại chữ là Điểu_Triện . Cổ_vật\
183
+ \ được làm_chủ_yếu từ đồng_điếu , dài 56 cm , rộng 4,6 cm . Phần cán được khảm\
184
+ \ lưu_ly màu lam - một loại đá_quý thời cổ_đại . \n Một trong câu hỏi nhiều người\
185
+ \ thắc_mắc là trong lịch_sử , Việt_Vương sống ở vùng Chiết_Giang , Trung_Quốc\
186
+ \ ngày_nay , vì_sao kiếm của ông lại được phát_hiện ở Hồ_Bắc ? Theo các nhà nghiên_cứu\
187
+ \ , kiếm được tìm thấy trong ngôi mộ điển_hình của người nước Sở . Chủ mộ dòng\
188
+ \ dõi quý_tộc , sống giữa thời Chiến_Quốc . Kiếm là một trong bảo_bối được mai_táng\
189
+ \ cùng nhân_vật này . \n Hiện các học_giả tranh_luận hai lý_do . Lý_do thứ nhất\
190
+ \ liên_quan cuộc hôn_nhân chính_trị . Vua nước Sở từng cưới con_gái của Câu_Tiễn\
191
+ \ làm phi_tần , có_thể Câu_Tiễn trao kiếm cho con làm của hồi_môn , vì_thế thanh\
192
+ \ kiếm chu du sang nước Sở , vào tay thành_viên của vương tộc . \n Một_số học_giả\
193
+ \ lại cho rằng thanh kiếm là chiến lợi_phẩm mà người nước Sở đoạt được từ nước\
194
+ \ Việt . \n Lý_do thanh kiếm sắc_bén cũng được nhiều người quan_tâm . Sau khi\
195
+ \ đưa kiếm ra khỏi ngôi mộ , một nhà khảo_cổ rất cẩn_thận nhưng vô_tình đứt tay\
196
+ \ vì chạm vào lưỡi kiếm . Để thử độ bén , các nhà khảo_cổ xếp chồng 16 trang giấy\
197
+ \ trắng lên nhau , bất_ngờ vì kiếm chém đứt chồng giấy chỉ với một lần chặt .\
198
+ \ \n Hơn_nữa , môi_trường đất ở khu mộ ít oxy , lớp thạch_cao của quan_tài giúp\
199
+ \ ngăn_cách thanh kiếm với thế_giới bên ngoài , bảo_vệ cổ_vật . Đến nay , các\
200
+ \ nhà khoa_học vẫn nghiên_cứu phương_pháp_chế tác , các yếu_tố khiến cổ_vật bất_hủ\
201
+ \ sau hàng nghìn năm . \n Tác_phẩm từng được đưa ra nước_ngoài triển_lãm nhưng\
202
+ \ từ năm 2014 , kiếm Câu_Tiễn được đưa vào danh_sách cổ_vật không được phép xuất_cảnh\
203
+ \ . \n Việt_vương Câu_Tiễn trị_vì từ năm 496 tới 465 trước công_nguyên . Nước\
204
+ \ Việt , còn gọi là Ư Việt , là một chư_hầu của nhà Chu thời Xuân_Thu và Chiến_Quốc\
205
+ \ trong lịch_sử Trung_Quốc . Lãnh_thổ này tương_ứng vùng Chiết_Giang ngày_nay\
206
+ \ . Vào thời Chiến_Quốc , quốc_gia này bị nước Sở tiêu_diệt . \n Có nhiều Việt_vương\
207
+ \ , trong đó Câu_Tiễn nổi_tiếng nhất với điển_tích \" nếm mật nằm gai \" , chỉ\
208
+ \ việc vua nằm ngủ trên gai , nếm vị đắng của mật để không quên nỗi nhục đầu_hàng\
209
+ \ quân Ngô . Nhờ chịu_đựng gian_khổ , Câu_Tiễn đánh_bại nước Ngô , báo_thù cho\
210
+ \ nước Việt . \n"
211
+ - source_sentence: Phu_nhân Mỹ , 33 tuổi , chia_sẻ rằng phu_nhân rất đồng_tình với
212
+ ý_tưởng sử_dụng lụa vụn ghép thành tranh .
213
+ sentences:
214
+ - "Bộ Giáo_dục và Đào_tạo tối nay cho biết trong hơn một triệu thí_sinh dự thi tốt_nghiệp\
215
+ \ THPT năm nay , có hơn 660.000 đăng_ký xét tuyển đại_học . Trong đó , số trúng_tuyển\
216
+ \ đợt 1 là gần 612.300 , chiếm 92,7 % . \n Tính đến 17h ngày 8 / 9 , hạn cuối\
217
+ \ để thí_sinh xác_nhận nhập_học trực_tuyến trên hệ_thống của Bộ , gần 494.500\
218
+ \ em đã thực_hiện , chiếm 80,8 % so với số trúng_tuyển . \n Số thí_sinh không\
219
+ \ xác_nhận nhập_học là gần 118.000 . Theo quy_định của Bộ Giáo_dục và Đào_tạo\
220
+ \ , nếu không có_lý_do chính_đáng , những thí_sinh này coi như từ_chối quyền nhập_học\
221
+ \ . Muốn học đại_học , các em phải tham_gia các đợt xét tuyển bổ_sung hoặc đăng_ký\
222
+ \ xét tuyển lại vào các năm sau . \n Nếu tính trên tổng_thi sinh dự thi tốt_nghiệp\
223
+ \ THPT , số thí_sinh vào đại_học năm nay sau đợt tuyển_sinh đầu_tiên chiếm tỷ_lệ\
224
+ \ 49,3 % . \n Năm_ngoái , trong hơn 567.000 thí_sinh trúng_tuyển đợt 1 , khoảng\
225
+ \ 103.000 bỏ nhập_học . Tỷ_lệ thí_sinh vào đại_học đợt 1 trên tổng_số thi tốt_nghiệp\
226
+ \ là 45,77 % . \n Tại hội_nghị tổng_kết năm_học với giáo_dục đại_học hôm 26 /\
227
+ \ 8 , bà Nguyễn Thu_Thuỷ , Vụ_trưởng Giáo_dục đại_học , Bộ Giáo_dục và Đào_tạo\
228
+ \ , đánh_giá công_tác tuyển_sinh đại_học đã có chuyển_biến tích_cực . Tuy_nhiên\
229
+ \ , các trường có quá nhiều phương_thức , phương_án xét tuyển phức_tạp , nhiều\
230
+ \ nơi chưa đảm_bảo công_bằng , phân_bổ chỉ_tiêu chưa hợp_lý , gây khó_khăn cho\
231
+ \ thí_sinh và hệ_thống xét tuyển của Bộ . \n Ngay sau khi thông_báo điểm_chuẩn\
232
+ \ hôm 24 - 25 / 8 đến đầu tháng 9 , hàng chục trường thông_báo tuyển bổ_sung .\
233
+ \ Với số_lượng bỏ nhập_học lên tới gần 118.000 , dự_kiến số chỉ_tiêu tuyển bổ_sung\
234
+ \ sẽ tiếp_tục tăng . \n Theo quy_định của Bộ Giáo_dục và Đào_tạo , các trường\
235
+ \ được phép tuyển bổ_sung đến tháng 12 nếu thiếu chỉ_tiêu . \n"
236
+ - "Chiều 28 / 8 , bà Lê_Thị_Bích_Trân , phu_nhân Thủ_tướng Phạm_Minh_Chính , và\
237
+ \ bà Hà_Tinh , phu_nhân Thủ_tướng Singapore Lý_Hiển_Long , đã ghé thăm làng lụa\
238
+ \ Vạn_Phúc hơn 1.000 năm_tuổi , nơi được Trung_tâm sách kỷ_lục Việt_Nam công_nhận\
239
+ \ là \" Làng_nghề dệt lụa tơ_tằm lâu_đời nhất còn duy_trì hoạt_động đến ngày_nay\
240
+ \ \" năm 2014 . \n Hai phu_nhân đã trải nghiệm ghép tranh_lụa tại Vụn_Art , hợp_tác_xã\
241
+ \ ( HTX ) làm tranh vải nằm trong Trung_tâm bảo_tồn lụa ở số 16 Phố Lụa , quận\
242
+ \ Hà_Đông . Ở cuối con đường ô nổi_tiếng dẫn vào trong làng , một căn phòng diện_tích\
243
+ \ 40 m2 là nơi giới_thiệu và bán các sản_phẩm tranh_lụa của HTX , cũng là nơi\
244
+ \ hai vị phu_nhân trực_tiếp ghép tranh . \n HTX do anh Lê_Việt_Cường , Chủ_tịch\
245
+ \ Hội người khuyết_tật quận Hà_Đông , sáng_lập năm 2017 . Anh Cường cho biết mục_đích\
246
+ \ thành_lập HTX trước_tiên là để đồng_hành , tạo việc_làm ổn_định cho những người\
247
+ \ khuyết_tật . Hiện HTX có 35 lao_động là người khuyết_tật . Bên cạnh đó , HTX\
248
+ \ cũng hướng tới việc gìn_giữ và quảng_bá các giá_trị văn_hóa , truyền_thống của\
249
+ \ dân_tộc cũng như bảo_vệ môi_trường thông_qua việc tái sử_dụng lụa Vạn_Phúc để\
250
+ \ tạo nên các bức tranh độc_đáo , sáng_tạo . \n Bà Lê_Thị_Bích_Trân , phu_nhân\
251
+ \ Thủ_tướng Phạm_Minh_Chính , và bà Hà_Tinh , phu_nhân Thủ_tướng Singapore Lý_Hiển_Long\
252
+ \ đã ghép tranh vẽ hai biểu_tượng du_lịch của hai nước là hòn Trống_Mái ở vịnh\
253
+ \ Hạ_Long và Công_viên Sư_tử_biển ở Singapore . \n Trương_Thủy_Hoàng_Mỹ ( 33 tuổi\
254
+ \ ) , người hướng_dẫn bà Trân , cho biết trong quá_trình ghép tranh , phu_nhân\
255
+ \ rất hào_hứng vì bà cũng làm ngành may_mặc . Phu_nhân rất ủng_hộ việc dùng lụa\
256
+ \ vụn để ghép tranh , vừa giúp tiết_kiệm vải , lại tạo ra những tác_phẩm tranh\
257
+ \ sáng_tạo , có sức hút . \n \" Sau khi hoàn_thành bức tranh , phu_nhân ( Thủ_tướng\
258
+ \ Singapore ) chia_sẻ bà bất_ngờ khi những mảnh vải đơn_giản có_thể ghép lại thành\
259
+ \ một bức tranh đẹp như_vậy \" , Nguyễn_Thị_Thùy_Linh ( 32 tuổi ) , người hướng_dẫn\
260
+ \ bà Hà_Tinh chia_sẻ . \n Tranh ghép thủ_công từ vải lụa của HTX đang dần trở_thành\
261
+ \ một trong những sản_phẩm lưu_niệm được nhiều du_khách yêu thích , đặc_biệt là\
262
+ \ khách quốc_tế . Không chỉ mua làm_quà , nhiều du_khách đến tận cơ_sở của HTX\
263
+ \ để trải nghiệm ghép tranh trực_tiếp . \n Bà Nguyễn_Thị_Khanh ( 58 tuổi ) , người\
264
+ \ hướng_dẫn các du_khách ghép tranh tại HTX , cho biết khách lẻ hoặc đoàn dưới\
265
+ \ 30 người sẽ trải nghiệm tại cơ_sở của HTX. Đối_với các đoàn trên 30 người như\
266
+ \ đoàn sinh_viên một trường Đại_học nước_ngoài đến vào đầu năm 2023 , cơ_sở mượn\
267
+ \ địa_điểm miếu Vạn_Phúc để tổ_chức hướng_dẫn . \n \" Đoàn khách đông nhất HTX\
268
+ \ đón_tiếp là hơn 100 người , chúng_tôi phải huy_động 80 % lao_động đến hướng_dẫn\
269
+ \ \" , bà nói . \n Một bức tranh ghép lụa phải trải qua nhiều công_đoạn đòi_hỏi\
270
+ \ sự tỉ_mỉ và kiên_nhẫn mới thành_hình . Đầu_tiên , tranh được phác_thảo và in\
271
+ \ trên giấy rồi mới cắt rời từng chi_tiết . Vải được chọn làm tranh được là ủi\
272
+ \ kỹ , phết một lớp keo sữa mỏng rồi đem hong khô để vải phẳng , bền màu và có\
273
+ \ độ cứng , giúp công_đoạn cắt vải dễ_dàng và chính_xác hơn . Dán những chi_tiết\
274
+ \ bằng giấy lên vải rồi cắt theo mép giấy . Từng miếng lụa được dán lên bằng cách\
275
+ \ dùng bàn_là ủi nóng để lớp keo tan ra và bám vào bề_mặt . \n Quan_trọng nhất\
276
+ \ và cũng đòi_hỏi nhiều kỹ_thuật nhất chính là lên màu cho tranh . \" Tranh chân_dung\
277
+ \ đòi_hỏi phải phối_màu sao cho khuôn_mặt sinh_động . Tranh phong_cảnh nhiều chi_tiết\
278
+ \ còn kỳ_công hơn , có những bức thợ phải ngồi tước vải thành từng sợi nhỏ , làm\
279
+ \ mất hai , ba ngày mới xong \" , bà Khanh nói . \n Do lao_động tại HTX đều là\
280
+ \ người khuyết_tật , nên cần nhiều thời_gian hướng_dẫn và phát_sinh nhiều lỗi\
281
+ \ . Việc ghép tranh cũng không đơn_giản mà cần phải có kỹ_năng và con mắt nghệ_thuật\
282
+ \ để cắt tỉa , gắn_kết những mảnh vụn rời_rạc thành một bức tranh hài_hòa . \n\
283
+ \ Thông_thường , du_khách sẽ trải nghiệm các bộ kit nhỏ tại cơ_sở , các chi_tiết\
284
+ \ đã được cắt sẵn và dán bằng keo . Khách cũng có_thể yêu_cầu trải nghiệm dán\
285
+ \ tranh bằng bàn_là hoặc vừa cắt vừa dán , nhưng sẽ mất nhiều thời_gian hơn .\
286
+ \ Bà Khanh ấn_tượng nhất là một nữ du_khách người Anh tên Stella sinh_sống ở Việt_Nam\
287
+ \ 10 năm và \" nói tiếng Việt rất giỏi \" . \" Cô ấy rất thích tranh_lụa nên năm\
288
+ \ nào cũng đưa vài đoàn khách đến trải nghiệm . Trong năm nay cô ấy đã đưa đến\
289
+ \ hai đoàn khách nước_ngoài \" , bà nói . \n Tranh vải có_thể được ghép thành\
290
+ \ khung tranh , trên mặt túi , áo , ví , gối , bình đựng nước . Các sản_phẩm tại\
291
+ \ HTX được làm đa_dạng từ mẫu_mã đến mức giá . Túi dao_động 250.000 - 1,2 triệu\
292
+ \ đồng , tranh từ 700.000 đến 3 triệu đồng . \n"
293
+ - "Sáng 5 / 9 , trường Tiểu_học Yên_Phú , huyện Yên_Định , tổ_chức khai_giảng năm_học\
294
+ \ mới 2023 - 2024 . Để trang_trí cho buổi lễ , các thầy cô trong trường đã chuẩn_bị\
295
+ \ một_số chùm bóng_bay nhiều màu_sắc . \n Sau buổi lễ , các thầy cô cầm chùm bóng_bay\
296
+ \ khoảng 20 quả , chuẩn_bị cắt dây thả lên trời thì một_số học_sinh và phụ_huynh\
297
+ \ chạy vào để giành bóng . Bất_ngờ nhiều tiếng nổ vang lên , sân trường trở_nên\
298
+ \ nhốn_nháo , học_sinh la_hét sợ_hãi . \n Bà Nguyễn_Thị Khuyên , trưởng Phòng\
299
+ \ Giáo_dục và Đào_tạo huyện Yên_Định , cho hay ban giám_hiệu và chính_quyền địa_phương\
300
+ \ đã đưa học_sinh bị bỏng đến Bệnh_viện Đa_khoa Yên_Định cấp_cứu . Ban_đầu , nhà\
301
+ \ chức_trách xác_định có 7 học_sinh bị bỏng . Nguyên_nhân do một phụ_huynh hút\
302
+ \ thuốc_lá , lửa từ điếu thuốc châm vào bóng . \n Tuy_nhiên , đến chiều 5 / 9\
303
+ \ , ông Lê_Xuân_Thành , Phó_chủ_tịch UBND huyện Yên_Định , cho biết người cầm\
304
+ \ thuốc_lá là một thầy_giáo , \" không may quệt phải làm bóng_bay phát_nổ \" .\
305
+ \ \n Vụ nổ khiến 10 học_sinh \" bị bỏng nhẹ \" . Một học_sinh đã về nhà , còn\
306
+ \ 9 em tiếp_tục ở lại viện theo_dõi , điều_trị . \n Sáng 5 / 9 , khoảng 23 triệu\
307
+ \ học_sinh cả nước dự lễ khai_giảng , chính_thức bước vào năm_học mới . Các trường\
308
+ \ được quán_triệt tổ_chức gọn_nhẹ , tiết_kiệm trong thời_gian khoảng 30 - 45 phút\
309
+ \ . \n Trang_trí và thả bóng_bay là hình_ảnh quen_thuộc trong lễ khai_giảng nhiều\
310
+ \ năm qua . Tuy_nhiên , cũng có nơi yêu_cầu các trường_học không thả bóng_bay\
311
+ \ khai_giảng , như Đà_Nẵng . \n"
312
+ - source_sentence: Một_số trường đại_học phải rút_gọn thời khóa biểu còn khoảng 2
313
+ ngày trong một tuần để tạo cơ_hội cho các sinh_viên đi làm thêm .
314
+ sentences:
315
+ - "Vợ_chồng Alicia_Gabriela , giám_đốc marketing người Tây_Ban_Nha đang làm_việc\
316
+ \ tại TP HCM , năm_ngoái hạnh_phúc đón \" thiên_thần nhỏ \" chào_đời . Năm nay\
317
+ \ , khi con_trai chuẩn_bị vào học mầm_non , họ nhắm tới một trường quốc_tế . Nhưng\
318
+ \ khi nhìn bảng học_phí các trường này , Gabriela và chồng người Hà_Lan nhanh_chóng\
319
+ \ đối_mặt nhiều lo_toan . \n Việt_Nam có 33 cơ_sở giáo_dục liên cấp có vốn đầu_tư\
320
+ \ nước_ngoài , thường được gọi là trường quốc_tế , trong đó Hà_Nội có 13 cơ_sở\
321
+ \ , TP HCM có 20 cơ_sở . Các trường này thu học_phí hàng trăm triệu đồng một năm\
322
+ \ , tăng dần từ mầm_non đến cấp trung_học . \n Với các trường quốc_tế ở TP HCM\
323
+ \ đã công_bố tuyển_sinh năm nay , học_phí bậc mầm_non ở mức 124 - 457 triệu đồng\
324
+ \ một năm , tiểu_học 151 - 684 triệu đồng , trung_học 210 - 924 triệu đồng . Trường\
325
+ \ quốc_tế ở Hà_Nội cũng có mức học_phí cao nhất hơn 800 triệu đồng , chưa tính\
326
+ \ các loại phí khác . Dù có thu_nhập cao , vợ_chồng Gabriela cho hay những mức\
327
+ \ học_phí này cao hơn so với dự_tính của họ . \n \" Một năm_học ở TP HCM đắt gấp\
328
+ \ đôi mức học_phí 8.700 USD tôi chi để học đại_học , thạc_sĩ tại một trường kinh_doanh\
329
+ \ hàng_đầu châu Âu . Chúng_tôi kiếm gần 160.000 USD mỗi năm , nhưng việc đóng\
330
+ \ học_phí cho con theo học lâu_dài ở trường quốc_tế có_thể làm xoay_chuyển toàn_bộ\
331
+ \ kế_hoạch tiết_kiệm , đầu_tư , du_lịch của hai vợ_chồng \" , cô nói với VnExpress\
332
+ \ . \n Theo Tổ_chức Lao_động Quốc_tế và Tổng_cục Thống_kê , tính đến tháng 3 /\
333
+ \ 2022 , khoảng 100.000 người nước_ngoài được cấp phép làm_việc tại Việt_Nam ,\
334
+ \ tập_trung chủ_yếu ở những thành_phố lớn như Hà_Nội , TP HCM , Long_An , Đà_Nẵng\
335
+ \ . Nhiều người nước_ngoài sinh con và có kế_hoạch_định_cư lâu_dài ở Việt_Nam\
336
+ \ . \n Adam_Lewis , giáo_viên người Mỹ 60 tuổi từng nhiều năm giảng_dạy tại ba\
337
+ \ trường THPT công_lập hàng_đầu ở TP HCM , cho hay trường công là một lựa_chọn\
338
+ \ thay_thế , nơi có nhiều học_sinh \" thông_minh , tài_năng , ham hiểu_biết và\
339
+ \ học_hỏi \" . \n Tuy_nhiên , con_em người nước_ngoài ở Việt_Nam muốn theo học\
340
+ \ trường công phải đáp_ứng một_số điều_kiện nhất_định . Theo Quy_chế quản_lý người\
341
+ \ nước_ngoài học_tập tại Việt_Nam do Bộ Giáo_dục và Đào_tạo ban_hành , học_sinh\
342
+ \ người nước_ngoài học_tập tại các cơ_sở giáo_dục thuộc hệ_thống giáo_dục quốc\
343
+ \ dân Việt_Nam cần đảm_bảo điều_kiện về học_vấn , sức_khỏe , tuổi và ngôn_ngữ\
344
+ \ . \n Phương_pháp giảng_dạy ở các trường công_lập cũng là vấn_đề khiến một_số\
345
+ \ cha_mẹ ngoại quốc băn_khoăn , ngay cả khi con đủ tiêu_chuẩn . \n Mark , 31 tuổi\
346
+ \ , người_làm giáo_viên tiếng Anh ở TP HCM từ năm 2017 , cho rằng các trường công\
347
+ \ tại TP HCM không phải là lựa_chọn tốt nhất cho con , bởi chương_trình giảng_dạy\
348
+ \ quá nặng , nhiều môn và thiên về lý_thuyết và ít thực_hành . \n Elizabeth_Homfray\
349
+ \ , đồng quản_trị viên một trong những hội nhóm người nước_ngoài lớn nhất tại\
350
+ \ TP HCM , cho hay gần như ngày nào cũng nhận được tin nhắn nhờ tư_vấn từ những\
351
+ \ người nước_ngoài lo_lắng chuyện học cho con_em . \n Sau 16 năm sinh_sống tại\
352
+ \ thành_phố , bà Homfray \" không nhớ nổi \" có bao_nhiêu gia_đình nước_ngoài\
353
+ \ tới đây mà không thực_hiện bất_kỳ nghiên_cứu , tìm_hiểu nào về hệ_thống giáo_dục\
354
+ \ địa_phương cho con_cái . \n \" Họ đinh_ninh rằng có_thể dễ_dàng gửi con đến\
355
+ \ các trường công_lập như ở quê nhà , nhưng đây là suy_nghĩ sai_lầm \" , bà cho\
356
+ \ hay . Điều này khiến nhiều cha_mẹ ngoại quốc gần như coi trường quốc_tế là lựa_chọn\
357
+ \ duy_nhất cho con . \n Vợ_chồng Gabriela cũng cân_nhắc một trường song_ngữ Pháp\
358
+ \ - Việt tại TP HCM. Tuy_nhiên , vợ_chồng cô đã sử_dụng tiếng Tây_Ban_Nha , tiếng\
359
+ \ Anh và tiếng Hà_Lan tại nhà , còn con_trai cũng tiếp_xúc với tiếng Việt nhờ\
360
+ \ môi_trường xung_quanh , nên việc học thêm tiếng Pháp có_thể quá_sức với đứa\
361
+ \ trẻ . \n \" Chúng_tôi không_thể tìm được trường nào hài hòa về ba tiêu_chí giảng_dạy\
362
+ \ , ngôn_ngữ và học_phí \" , cô nói . \" Tình_hình này có_thể buộc chúng_tôi rời\
363
+ \ Việt_Nam trở_lại châu Âu vì tương_lai của con_trai \" . \n Đề_cập đến những\
364
+ \ khó_khăn mà người nước_ngoài gặp phải trong vấn_đề này , bà Homfray kể lại câu_chuyện\
365
+ \ của một ông bố người Anh từng nhắn_tin nhờ bà tư_vấn để tháo_gỡ bế_tắc khi cho\
366
+ \ con_gái theo học tại TP HCM hồi tháng 7 năm_ngoái . \n Cô bé 13 tuổi mang hai\
367
+ \ quốc_tịch Anh - Việt này từng theo học một trường song_ngữ tại TP HCM , nhưng\
368
+ \ trở về Anh học trong ba năm đại_dịch Covid - 19 . \n Sau dịch , gia_đình quay\
369
+ \ lại TP HCM và tìm mọi cách để cho con tiếp_tục theo học tại đây . Nhưng vì cô\
370
+ \ bé đã bỏ lỡ ba năm_học tại Việt_Nam , không cơ_sở giáo_dục nào tiếp_nhận , kể_cả\
371
+ \ trường cũ . \n \" Gia_đình họ sau đó tìm một trường quốc_tế chỉ giảng_dạy tiếng\
372
+ \ Anh , nhưng không_thể kham nổi học_phí gần 500 triệu đồng mỗi năm , chi_phí\
373
+ \ mà họ thậm_chí chưa từng nghĩ đến \" , bà Homfray kể lại . Bà sau đó liên_hệ\
374
+ \ với ông bố để hỏi về hướng giải_quyết của gia_đình , nhưng chưa nhận được câu\
375
+ \ trả_lời . \n Brian , 36 tuổi , lập_trình_viên hoạt_động tự_do tại Nha_Trang\
376
+ \ , cho biết đã phải tính_toán rất nhiều về giáo_dục cho con , bởi đây là chuyện\
377
+ \ hệ_trọng . Anh đánh_giá mô_hình song_ngữ dường_như là lựa_chọn tốt nhất cho\
378
+ \ các bậc cha_mẹ có con ở độ tuổi đi học , khi triển_khai cả chương_trình giảng_dạy\
379
+ \ tiếng nước_ngoài lẫn tiếng Việt . \n"
380
+ - "Từ năm_ngoái , Đại_học De Montfort ở Leicester đã thử_nghiệm thời khóa biểu thu\
381
+ \ gọn . Thay_vì học 4 môn cùng lúc với khoảng hai giờ một môn mỗi tuần , sinh_viên\
382
+ \ sẽ học một môn liên_tục trong nửa kỳ . Như_vậy , họ vẫn đủ 4 môn một năm theo\
383
+ \ quy_định . \n Cách làm này đang được nhiều trường áp_dụng . Các tiết học và\
384
+ \ buổi thảo_luận được sắp_xếp chỉ trong 2 - 3 ngày chứ không rải_rác cả tuần như\
385
+ \ trước . Việc này nhằm giúp sinh_viên có thời_gian đi làm thêm , vượt qua cuộc\
386
+ \ khủng_hoảng sinh_hoạt_phí . \n Nhiều người trẻ ở Anh gặp khó_khăn tài_chính\
387
+ \ khi bước vào kỳ học tới do gia_đình không_thể hỗ_trợ , khoản vay sinh_viên thì\
388
+ \ hầu_như_không đủ trả tiền thuê nhà . Theo UCAS , một tổ_chức hỗ_trợ tuyển_sinh\
389
+ \ đại_học , 2 / 3 sinh_viên năm thứ nhất muốn làm_việc bán thời_gian để duy_trì\
390
+ \ việc học . Nhiều người phải bỏ bữa , làm tăng ca và dựa vào thẻ tín_dụng để\
391
+ \ \" tồn_tại \" . Số sinh_viên đang làm thêm khoảng hơn 50 % , tăng so với tỷ_lệ\
392
+ \ 45 % của năm 2022 và 34 % năm 2021 . \n Tại các khu_vực nghèo nhất của London\
393
+ \ như Barking hay Dagenham , cuộc_sống của nhiều người phụ_thuộc hoàn_toàn vào\
394
+ \ tiền làm thêm . \n \" Họ làm_việc gần 5 ngày mỗi tuần và dành thời_gian còn\
395
+ \ lại để học . Đây không phải công_việc bán thời_gian nữa , mà là toàn thời_gian\
396
+ \ . Sự nỗ_lực của họ rất đáng nể \" , John_Dishman , Phó_hiệu_trưởng kiêm Giám_đốc\
397
+ \ điều_hành Đại_học Conventry , nói . Nhiều trường_thành_viên của đại_học này\
398
+ \ cũng xếp lịch học 2 - 3 ngày mỗi tuần . \n Sự thay_đổi của các trường nhận được\
399
+ \ phản_hồi tích_cực từ sinh_viên . Nhiều cuộc khảo_sát nội_bộ năm_ngoái cho thấy\
400
+ \ sinh_viên học theo thời khóa biểu tập_trung hài_lòng hơn 10 % so với sinh_viên\
401
+ \ học theo lịch thông_thường . \n Ngoài_ra , quy_định mới cũng tạo điều_kiện thuận_lợi\
402
+ \ cho sinh_viên ở xa . Theo Giáo_sư Normington , nếu chỉ cần đến trường một_vài\
403
+ \ buổi nhất_định , sinh_viên sẽ đỡ tốn thời_gian và chi_phí di_chuyển . \n Sinh_hoạt_phí\
404
+ \ hiện là mối lo hàng_đầu của sinh_viên Anh . Theo một khảo_sát , 3 / 4 trong\
405
+ \ số 10.000 người cho rằng vấn_đề sinh_hoạt_phí ảnh_hưởng đến việc học của họ\
406
+ \ , thậm_chí là nguyên_nhân chính khiến họ cân_nhắc bỏ học . \n"
407
+ - "Bị sán dây ký_sinh thường rất tối tệ , nhưng với kiến Temnothorax nylanderi thì\
408
+ \ khác . Nếu một con kiến thuộc loài này gặm phân chim gõ_kiến khi còn là ấu_trùng\
409
+ \ và nhiễm sán dây Anomotaenia brevis , nó có_thể sống lâu hơn đồng_loại gấp ba\
410
+ \ lần , thậm_chí lâu hơn , Science Alert hôm 17 / 6 đưa tin . \n Trong vòng đời\
411
+ \ của sán dây Anomotaenia brevis , kiến không phải nơi cư_trú cuối_cùng . Chúng\
412
+ \ sẽ sống trong cơ_thể của chim gõ_kiến khi trưởng_thành , đồng_nghĩa chúng hưởng\
413
+ \ những lợi_ích nhất_định khi giữ cho kiến trông trẻ_trung , béo_tốt và tươi ngon\
414
+ \ . Nhờ đó , kiến có_thể trở_thành bữa sáng cho chim . \n Vào năm 2021 , Foitzik\
415
+ \ cùng đồng_nghiệp phát_hiện , trong khi kiến Temnothorax nylanderi nhiễm sán\
416
+ \ dây_sống rất nhàn_nhã thì những con khỏe_mạnh trong đàn phải trả_giá . Chúng\
417
+ \ chịu gánh nặng chăm_sóc \" bệnh_nhân \" và chết sớm hơn rất nhiều . Việc kiến\
418
+ \ thợ bận chăm_sóc kiến nhiễm_bệnh và ít quan_tâm đến kiến chúa hơn có_thể gây\
419
+ \ rắc_rối cho cả đàn . \n Trong nghiên_cứu mới , nhóm nhà khoa_học một lần nữa\
420
+ \ so_sánh kiến nhiễm_bệnh với kiến khỏe_mạnh , quan_sát kỹ lượng protein trong\
421
+ \ hemolymph . Họ phát_hiện , các protein của sán dây chiếm một phần đáng_kể trong\
422
+ \ số những protein chảy qua hemolymph của kiến , hai trong số những protein dồi_dào\
423
+ \ nhất là loại chống oxy_hóa . \n Một_số protein khác có_thể giải_thích tại_sao\
424
+ \ kiến nhiễm_bệnh được ưu_ái . Nhóm chuyên_gia tìm thấy lượng lớn protein vitellogenin\
425
+ \ - like A , nhưng không phải do ký_sinh_trùng mà do chính con kiến_tạo ra . Loại\
426
+ \ protein này tham_gia điều_chỉnh sự phân_công_lao_động và sinh_sản trong xã_hội_kiến\
427
+ \ . Nhóm nghiên_cứu cho rằng bằng các nào đó , loại protein này tác_động đến hành_vi\
428
+ \ của kiến , lừa những con khỏe mạnh yêu thích chúng . \n"
429
+ - source_sentence: Madison và Christine đã ra_sức tìm manh_mối để kết_tội kẻ tình_nghi
430
+ Chris_Buonocore đến năm 2018 .
431
+ sentences:
432
+ - "Năm 2013 , Madison_Conradis , nhân_viên tiếp_thị ở Florida , phát_hiện những\
433
+ \ bức ảnh \" nóng \" cô từng chụp khi làm người_mẫu bị rò_rỉ trên mạng . Madison\
434
+ \ đoán kẻ xấu đã xâm_nhập trang_web riêng_tư của nhiếp_ảnh gia và đánh_cắp chúng\
435
+ \ . \n Kẻ xấu lập các tài_khoản Facebook nặc_danh và \" khủng_bố \" cô . Chúng\
436
+ \ yêu_cầu cô gửi thêm ảnh nếu không muốn bị tiếp_tục phát_tán hình_ảnh nhạy_cảm\
437
+ \ khác . Sự_cố khiến Madison gặp hàng_loạt phiền_toái trong cuộc_sống . Khách_hàng\
438
+ \ bắt_đầu bàn_tán sau lưng . Một đồng_nghiệp cũng nhận được ảnh của cô trong hộp_thư\
439
+ \ . Thậm_chí , nhóm hacker còn quấy_rối tài_khoản Instagram của cha cô . \n Năm\
440
+ \ 2016 , Madison vượt qua mặc_cảm và hẹn_hò với Jeffrey_Geiger , một đồng_nghiệp\
441
+ \ ở công_ty đối_tác . Trong lần cả hai nghỉ_mát tại quần_đảo Florida_Keys , cô\
442
+ \ thử đăng một ảnh lên Snapchat sau thời_gian dài tránh xa mạng xã_hội . Tuy_nhiên\
443
+ \ , ngay sáng hôm sau , Madison nhận được tin nhắn từ tài_khoản Facebook của kẻ\
444
+ \ kia : \" Có_vẻ các người đang trải qua một kỳ nghỉ thú_vị nhỉ \" . \n Cho rằng\
445
+ \ mình bị theo_dõi qua ứng_dụng Snapchat , Madison nhanh_chóng chụp màn_hình những\
446
+ \ người đã tương_tác với bài đăng . Sau khi lọc 39 lượt xem , cô thấy một kẻ tình_nghi\
447
+ \ là Christopher_Buonocore , bạn cũ từ thời_đại_học , từng tham_dự đám_cưới của\
448
+ \ người chị Christine . Dù_vậy , Madison vẫn chưa thể khởi_kiện Buonocore do không\
449
+ \ đủ bằng_chứng . \n Cuối 2017 , cô bị sốc khi phát_hiện chính người_tình Geiger\
450
+ \ tiếp_tay cho kẻ xấu . Lần này , Christine cũng trở_thành nạn_nhân vì từng nhờ\
451
+ \ Geiger sao_chép dữ_liệu riêng_tư trên đĩa CD sang nền_tảng lưu_trữ Dropbox .\
452
+ \ Trước_tòa , Geiger nói được nhóm tin_tặc liên_hệ nhưng không biết chúng là ai\
453
+ \ . Đồng_thời , người này giải_thích việc chia_sẻ ảnh nóng của hai chị_em là nhằm\
454
+ \ tạo niềm tin với kẻ xấu để lật_tẩy chúng sau_này . \n Cơ_quan_chức_năng quyết_định\
455
+ \ không khởi_tố Jeffrey_Geiger do chưa thể chứng_minh người này muốn hãm_hại hai\
456
+ \ chị_em Madison . \n Đến năm 2018 , Madison và Christine vẫn cố_gắng tìm chứng_cứ\
457
+ \ để buộc kẻ tình_nghi Chris_Buonocore chịu trách_nhiệm trước pháp_luật . Sau\
458
+ \ nhiều ngày theo_dõi trên một trang Deep Web , họ nhận thấy tài_khoản tên Kik_Messenger\
459
+ \ thường_xuyên đăng ảnh nóng của hai chị_em cùng bốn phụ_nữ khác . Nhóm nạn_nhân\
460
+ \ mới đều quen Buonocore . Trong đó , hai người là bạn gái , một người là bạn\
461
+ \ thời thơ_ấu , người còn lại là họ_hàng và bị phát_tán ảnh riêng_tư từ lúc 14\
462
+ \ tuổi . \n Nhờ phát_hiện này , Madison thuyết_phục cảnh_sát chuyển sự_việc cho\
463
+ \ cơ_quan điều_tra liên_bang . Đồng_thời , các đơn_vị cung_cấp dịch_vụ Internet\
464
+ \ và quản_trị viên trang_web cũng hợp_tác để tìm IP kẻ xấu . Kết_quả , đến tháng\
465
+ \ 7 / 2019 , FBI triệt_phá thành_công đường_dây tội_phạm . \n Tài_liệu tại tòa_án\
466
+ \ cho thấy , trong 7 năm , Buonocore sử_dụng tin nhắn văn_bản , số điện_thoại\
467
+ \ giả , tài_khoản mạng xã_hội để tấn_công mạng và đe_dọa phụ_nữ , bao_gồm trẻ\
468
+ \ vị thành_niên . Ngoài hàng nghìn ảnh nhạy_cảm , Buonocore cũng công_khai tên_tuổi\
469
+ \ , địa_chỉ nhà của nạn_nhân nhằm lôi_kéo nhiều người tham_gia đường_dây . Một_số\
470
+ \ trường_hợp , Buonocore khuyến_khích các thành_viên lên kế_hoạch xâm_hại thân_thể\
471
+ \ hoặc tống_tiền nạn_nhân . \n Theo Washington_Post , kẻ chủ_mưu Buonocore lấy\
472
+ \ lý_do sức_khỏe tâm_thần và lý_lịch trong_sạch để yêu_cầu ngồi_tù dưới 41 tháng\
473
+ \ . Tuy_nhiên , tháng 11 / 2021 , thẩm_phán Thomas Barber ra phán_quyết 15 năm\
474
+ \ tù_giam , nhiều hơn gần 4 năm so với đề_xuất của công_tố_viên . \" Đây không\
475
+ \ phải là một vụ tấn_công mạng đơn_thuần \" , ông nói . \n"
476
+ - "Cách TP HCM 100 - 200 km có nhiều điểm du_lịch phù_hợp kỳ nghỉ 2 / 9 năm nay\
477
+ \ . Các hoạt_động trekking , cắm trại cho du_khách cơ_hội thả mình vào thiên_nhiên\
478
+ \ sau những ngày ở thành_phố khói bụi , chi_phí không quá đắt_đỏ . Tuy_nhiên ,\
479
+ \ các điểm đến này không thích_hợp với du_khách ưa sự tiện_nghi . \n Anh Nguyễn_Hiển\
480
+ \ , hướng_dẫn_viên một công_ty du_lịch ở TP HCM , gợi_ý 5 điểm du_lịch thiên_nhiên\
481
+ \ gần thành_phố . Du_khách có_thể tham_khảo cho chuyến đi một ngày hai đêm với\
482
+ \ kinh_phí tiết_kiệm . \n Cách TP HCM 148 km \n Chi_phí : 1 - 3 triệu đồng \n\
483
+ \ Vườn quốc_gia Cát_Tiên thuộc huyện Tân_Phú , tỉnh Đồng_Nai . Thời_gian di_chuyển\
484
+ \ bằng xe_máy hoặc ôtô từ TP HCM tới đây khoảng 3 giờ . Bàu_Sấu là vùng đầm lầy\
485
+ \ nằm ở phía nam vườn quốc_gia , là nơi sinh_sống của cá_sấu Xiêm , một loài cá_sấu\
486
+ \ nước_ngọt Đông_Nam_Á . \n Hai ngày là vừa đủ để thăm_thú Cát_Tiên với chi_phí\
487
+ \ dưới 3 triệu đồng . Tùy nhu_cầu , du_khách có_thể lưu_trú ở homestay , resort\
488
+ \ hoặc cắm trại một đêm trước ngày trekking xuyên rừng . Ngoài_ra , nhiều du_khách\
489
+ \ cũng lựa_chọn đạp xe khám_phá khu rừng thay_vì trekking . Các hoạt_động thú_vị\
490
+ \ ở Cát_Tiên có_thể kể đến đi thuyền \" săn \" cá_sấu trên vùng đầm lầy Bàu_Sấu\
491
+ \ , check - in cây cổ_thụ , xem thú đêm . Cát_Tiên là nơi duy_nhất ở Việt_Nam\
492
+ \ , bạn có_thể nhìn thấy động_vật hoang_dã ngay trong môi_trường tự_nhiên . \n\
493
+ \ Cách TP HCM 192 km \n Chi_phí : 1 - 2 triệu đồng \n Suối La_Ngâu nằm ở thượng_nguồn\
494
+ \ sông La_Ngà , được bao_bọc bởi rừng Tánh_Linh . Nơi này sở_hữu cảnh_quan nguyên_sơ\
495
+ \ , yên_tĩnh , là địa_điểm lý_tưởng cho những ai muốn ngắt kết_nối với thế_giới\
496
+ \ ảo . Du_khách tới đây chủ_yếu tham_gia hoạt_động cắm trại quanh suối . Tắm suối\
497
+ \ , chèo kayak là hoạt_động được yêu thích . Nên ra suối vào buổi sáng , trời\
498
+ \ mát_mẻ , nắng không quá gắt . Từ 17h hàng ngày nước ở thượng_nguồn thường đổ\
499
+ \ về nhiều , nên tránh ở gần bờ suối . \n Có hai hình_thức là dựng lều tại các\
500
+ \ bãi tự_phát hoặc cắm trại tiện_nghi với dịch_vụ có sẵn ( glamping ) . Anh Đỗ_Hiếu\
501
+ \ , chủ khu cắm trại Boo_Camp , thuộc La_Ngâu chia_sẻ hiện khu_vực này chỉ có\
502
+ \ hai điểm kinh_doanh dịch_vụ cắm trại có giấy_phép hoạt_động , còn lại là các\
503
+ \ bãi tự_phát . Chi_phí cắm trại dịch_vụ trọn_gói có_giá từ 650.000 đồng mỗi khách\
504
+ \ một đêm , đã bao_gồm các bữa ăn . Du_khách cần đặt chỗ trước nếu dự_định cắm\
505
+ \ trại dịch_vụ . Càng gần ngày lễ , lượng lều trống view đẹp càng ít . \n Cách\
506
+ \ TP HCM 190 km \n Chi_phí : 1 - 3 triệu đồng \n Vườn quốc_gia ( VQG ) Bù_Gia_Mập\
507
+ \ ở xã Phú_Nghĩa , huyện Bù_Gia_Mập , phía đông bắc tỉnh Bình_Phước , diện_tích\
508
+ \ hơn 25.000 ha . \n Đến VQG , du_khách có_thể trải nghiệm trekking , ngắm nhìn\
509
+ \ những cánh rừng lồ_ô , cây họ dầu và nhiều loài cây đặc_trưng khác của khu rừng\
510
+ \ chuyển_tiếp từ Tây_Nguyên xuống vùng Đông_Nam_Bộ ; tham_quan trung_tâm cứu_hộ\
511
+ \ bảo_tồn và phát_triển sinh_vật , tìm_hiểu tập_tính sinh_thái và những đặc_điểm\
512
+ \ thú_vị của các loài linh_trưởng và một_số loài động_vật của VQG. \n Các tour\
513
+ \ trekking VQG trọn_gói có_giá khoảng 2,5 triệu đồng , du_khách chỉ cần chuẩn_bị\
514
+ \ đồ_dùng cá_nhân cần_thiết trước khi lên_đường . Trong khi đó , trekking tự_túc\
515
+ \ chi_phí tiết_kiệm hơn nhưng bạn phải mang vác đồ_đạc suốt quá_trình di_chuyển\
516
+ \ , đòi_hỏi kinh_nghiệm đi rừng , thể_lực và sức_bền tốt . \n Cách TP HCM 237\
517
+ \ km \n Chi_phí : 1 - 2 triệu đồng \n Mũi Yến thuộc xã Hòa_Thắng , huyện Bắc_Bình\
518
+ \ , tỉnh Bình_Thuận , cách khu du_lịch Bàu_Trắng khoảng 4 km . Địa_điểm này còn\
519
+ \ hoang_sơ và chưa có các dịch_vụ du_lịch . \n Mũi Yến có địa_hình đồi thoai_thoải\
520
+ \ , những mũi_đất nhô ra biển Hòa_Thắng . Vì chưa phát_triển du_lịch , lại cách\
521
+ \ xa khu dân_cư 15 - 20 km , hoạt_động cắm trại ở đây đều là tự_túc . \n Du_khách\
522
+ \ không thường_xuyên du_lịch dã_ngoại có_thể thuê lều , các đồ_dùng cắm trại kèm\
523
+ \ theo . Chi_phí thuê lều , nệm hơi , ghế_ngồi , quạt tích điện , đèn , dụng_cụ\
524
+ \ nấu_ăn cho 2 người trong 2 ngày khoảng 600.000 - 700.000 đồng . Đồ ăn đem theo\
525
+ \ có_thể chuẩn_bị sẵn hoặc bạn có_thể mua đồ tươi_sống tại các vựa hải_sản ở Hòa_Thắng\
526
+ \ . \n Đường vào Mũi Yến khá khó đi , nhiều dốc cát , đá_dăm , đá_tảng , nên di_chuyển\
527
+ \ bằng ôtô hai cầu nếu tay_lái không đủ vững . \n Cách TP HCM 80 km \n Chi_phí\
528
+ \ : 1 - 2 triệu đồng \n Sau khi đến hồ Dầu_Tiếng , du_khách có_thể qua bến thuyền\
529
+ \ ở ngã ba Bờ Hồ , gần nhà_thờ Suối Đá , thị_trấn Dương Minh_Châu . Đây là bến\
530
+ \ thuyền duy_nhất chở khách ra đảo Nhím . Bạn có_thể gửi ôtô , xe_máy tại nhà\
531
+ \ dân ở gần bến_tàu . Sau đó khi tới đảo , mọi người tiếp_tục trekking , đi bộ\
532
+ \ hoặc đi xe trâu kéo . Bạn lưu số của lái tàu để liên_hệ khi về . \n Nếu không\
533
+ \ mang đồ ăn , bạn có_thể đặt_hàng người dân trên đảo các món gà ta , cá_lăng\
534
+ \ , rau rừng , khoai_lang , khoai_mì nướng ... Chi_phí cho một người khoảng 500.000\
535
+ \ đồng mỗi đêm , đã bao_gồm phí thuê thuyền khứ_hồi giá khoảng 1,5 triệu đồng\
536
+ \ , chở 10 - 15 khách . \n"
537
+ - "Với kích_thước hiện gấp 7 lần Trái_Đất , vết đen Mặt_Trời AR3354 có_thể nhìn\
538
+ \ thấy bằng mắt thường , nhưng cần sử_dụng thiết_bị bảo_vệ mắt . Nhà vật_lý Mặt_Trời\
539
+ \ Keith_Strong chia_sẻ một video timelapse ấn_tượng về vết đen này trên Twitter\
540
+ \ . \n \" Vùng vết đen Mặt_Trời mới đánh_số , AR3354 , đã phát_triển nhanh_chóng\
541
+ \ trong 24 giờ qua . Hai ngày_trước , nó còn chưa ở đó , nhưng giờ thì lớn hơn\
542
+ \ cả Trái_Đất \" , Strong viết trên mạng xã_hội hôm 27 / 6 . Ngoài tăng kích_thước\
543
+ \ , vết đen Mặt_Trời cũng tăng_cường_độ . \n Vết đen có_thể giải_phóng lóa Mặt_Trời\
544
+ \ - một vụ nổ năng_lượng đột_ngột . Sức_mạnh của lóa Mặt_Trời chia thành các cấp\
545
+ \ : A , B , C , M và mạnh nhất là cấp X. Vết đen càng lớn và phức_tạp thì càng\
546
+ \ có khả_năng cao tạo ra lóa Mặt_Trời . \n Strong hôm 28 / 6 chia_sẻ trên Twitter\
547
+ \ video ghi lại lóa Mặt_Trời cấp M phóng ra từ AR3354 . Lóa Mặt_Trời cấp C quá\
548
+ \ yếu nên không ảnh_hưởng đáng_kể đến Trái_Đất , trong khi đó , lóa cấp M có_thể\
549
+ \ làm gián_đoạn liên_lạc vô_tuyến ở các cực Trái_Đất . Lóa cấp X có khả_năng tác_động\
550
+ \ tới vệ_tinh , các hệ_thống liên_lạc , lưới_điện và nghiêm_trọng nhất_là gây\
551
+ \ thiếu điện hoặc mất điện . \n Dù có kích_thước đáng kinh_ngạc , AR3354 không\
552
+ \ có khả_năng gây ra hiện_tượng dữ_dội như cơn bão Mặt_Trời mạnh nhất từng ghi_nhận\
553
+ \ - Sự_kiện Carrington . Ngày 1 / 9 / 1859 , một_số vết đen Mặt_Trời , tổng_kích_thước\
554
+ \ ước_tính lớn tương_đương sao Mộc ( đường_kính sao Mộc gấp 11 lần đường_kính\
555
+ \ Trái_Đất ) , tạo ra bão Mặt_Trời , làm gián_đoạn dịch_vụ điện_báo trên toàn\
556
+ \ thế_giới , đồng_thời gây ra cực_quang sáng và mạnh đến mức có_thể nhìn thấy\
557
+ \ ở nơi rất xa về phía nam như Bahamas . Sự_kiện tạo ra chớp sáng trắng kéo_dài\
558
+ \ khoảng 5 phút và khiến nhà thiên_văn nghiệp_dư Richard_Carrington bị mù tạm_thời\
559
+ \ . \n"
560
+ pipeline_tag: sentence-similarity
561
+ library_name: sentence-transformers
562
+ ---
563
+
564
+ # SentenceTransformer based on bkai-foundation-models/vietnamese-bi-encoder
565
+
566
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
567
+
568
+ ## Model Details
569
+
570
+ ### Model Description
571
+ - **Model Type:** Sentence Transformer
572
+ - **Base model:** [bkai-foundation-models/vietnamese-bi-encoder](https://huggingface.co/bkai-foundation-models/vietnamese-bi-encoder) <!-- at revision 84f9d9ada0d1a3c37557398b9ae9fcedcdf40be0 -->
573
+ - **Maximum Sequence Length:** 256 tokens
574
+ - **Output Dimensionality:** 768 dimensions
575
+ - **Similarity Function:** Cosine Similarity
576
+ <!-- - **Training Dataset:** Unknown -->
577
+ <!-- - **Language:** Unknown -->
578
+ <!-- - **License:** Unknown -->
579
+
580
+ ### Model Sources
581
+
582
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
583
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
584
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
585
+
586
+ ### Full Model Architecture
587
+
588
+ ```
589
+ SentenceTransformer(
590
+ (0): Transformer({'max_seq_length': 256, 'do_lower_case': False, 'architecture': 'RobertaModel'})
591
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
592
+ )
593
+ ```
594
+
595
+ ## Usage
596
+
597
+ ### Direct Usage (Sentence Transformers)
598
+
599
+ First install the Sentence Transformers library:
600
+
601
+ ```bash
602
+ pip install -U sentence-transformers
603
+ ```
604
+
605
+ Then you can load this model and run inference.
606
+ ```python
607
+ from sentence_transformers import SentenceTransformer
608
+
609
+ # Download from the 🤗 Hub
610
+ model = SentenceTransformer("truong1301/bi_encoder_vinum")
611
+ # Run inference
612
+ sentences = [
613
+ 'Madison và Christine đã ra_sức tìm manh_mối để kết_tội kẻ tình_nghi Chris_Buonocore đến năm 2018 .',
614
+ 'Năm 2013 , Madison_Conradis , nhân_viên tiếp_thị ở Florida , phát_hiện những bức ảnh " nóng " cô từng chụp khi làm người_mẫu bị rò_rỉ trên mạng . Madison đoán kẻ xấu đã xâm_nhập trang_web riêng_tư của nhiếp_ảnh gia và đánh_cắp chúng . \n Kẻ xấu lập các tài_khoản Facebook nặc_danh và " khủng_bố " cô . Chúng yêu_cầu cô gửi thêm ảnh nếu không muốn bị tiếp_tục phát_tán hình_ảnh nhạy_cảm khác . Sự_cố khiến Madison gặp hàng_loạt phiền_toái trong cuộc_sống . Khách_hàng bắt_đầu bàn_tán sau lưng . Một đồng_nghiệp cũng nhận được ảnh của cô trong hộp_thư . Thậm_chí , nhóm hacker còn quấy_rối tài_khoản Instagram của cha cô . \n Năm 2016 , Madison vượt qua mặc_cảm và hẹn_hò với Jeffrey_Geiger , một đồng_nghiệp ở công_ty đối_tác . Trong lần cả hai nghỉ_mát tại quần_đảo Florida_Keys , cô thử đăng một ảnh lên Snapchat sau thời_gian dài tránh xa mạng xã_hội . Tuy_nhiên , ngay sáng hôm sau , Madison nhận được tin nhắn từ tài_khoản Facebook của kẻ kia : " Có_vẻ các người đang trải qua một kỳ nghỉ thú_vị nhỉ " . \n Cho rằng mình bị theo_dõi qua ứng_dụng Snapchat , Madison nhanh_chóng chụp màn_hình những người đã tương_tác với bài đăng . Sau khi lọc 39 lượt xem , cô thấy một kẻ tình_nghi là Christopher_Buonocore , bạn cũ từ thời_đại_học , từng tham_dự đám_cưới của người chị Christine . Dù_vậy , Madison vẫn chưa thể khởi_kiện Buonocore do không đủ bằng_chứng . \n Cuối 2017 , cô bị sốc khi phát_hiện chính người_tình Geiger tiếp_tay cho kẻ xấu . Lần này , Christine cũng trở_thành nạn_nhân vì từng nhờ Geiger sao_chép dữ_liệu riêng_tư trên đĩa CD sang nền_tảng lưu_trữ Dropbox . Trước_tòa , Geiger nói được nhóm tin_tặc liên_hệ nhưng không biết chúng là ai . Đồng_thời , người này giải_thích việc chia_sẻ ảnh nóng của hai chị_em là nhằm tạo niềm tin với kẻ xấu để lật_tẩy chúng sau_này . \n Cơ_quan_chức_năng quyết_định không khởi_tố Jeffrey_Geiger do chưa thể chứng_minh người này muốn hãm_hại hai chị_em Madison . \n Đến năm 2018 , Madison và Christine vẫn cố_gắng tìm chứng_cứ để buộc kẻ tình_nghi Chris_Buonocore chịu trách_nhiệm trước pháp_luật . Sau nhiều ngày theo_dõi trên một trang Deep Web , họ nhận thấy tài_khoản tên Kik_Messenger thường_xuyên đăng ảnh nóng của hai chị_em cùng bốn phụ_nữ khác . Nhóm nạn_nhân mới đều quen Buonocore . Trong đó , hai người là bạn gái , một người là bạn thời thơ_ấu , người còn lại là họ_hàng và bị phát_tán ảnh riêng_tư từ lúc 14 tuổi . \n Nhờ phát_hiện này , Madison thuyết_phục cảnh_sát chuyển sự_việc cho cơ_quan điều_tra liên_bang . Đồng_thời , các đơn_vị cung_cấp dịch_vụ Internet và quản_trị viên trang_web cũng hợp_tác để tìm IP kẻ xấu . Kết_quả , đến tháng 7 / 2019 , FBI triệt_phá thành_công đường_dây tội_phạm . \n Tài_liệu tại tòa_án cho thấy , trong 7 năm , Buonocore sử_dụng tin nhắn văn_bản , số điện_thoại giả , tài_khoản mạng xã_hội để tấn_công mạng và đe_dọa phụ_nữ , bao_gồm trẻ vị thành_niên . Ngoài hàng nghìn ảnh nhạy_cảm , Buonocore cũng công_khai tên_tuổi , địa_chỉ nhà của nạn_nhân nhằm lôi_kéo nhiều người tham_gia đường_dây . Một_số trường_hợp , Buonocore khuyến_khích các thành_viên lên kế_hoạch xâm_hại thân_thể hoặc tống_tiền nạn_nhân . \n Theo Washington_Post , kẻ chủ_mưu Buonocore lấy lý_do sức_khỏe tâm_thần và lý_lịch trong_sạch để yêu_cầu ngồi_tù dưới 41 tháng . Tuy_nhiên , tháng 11 / 2021 , thẩm_phán Thomas Barber ra phán_quyết 15 năm tù_giam , nhiều hơn gần 4 năm so với đề_xuất của công_tố_viên . " Đây không phải là một vụ tấn_công mạng đơn_thuần " , ông nói . \n',
615
+ 'Cách TP HCM 100 - 200 km có nhiều điểm du_lịch phù_hợp kỳ nghỉ 2 / 9 năm nay . Các hoạt_động trekking , cắm trại cho du_khách cơ_hội thả mình vào thiên_nhiên sau những ngày ở thành_phố khói bụi , chi_phí không quá đắt_đỏ . Tuy_nhiên , các điểm đến này không thích_hợp với du_khách ưa sự tiện_nghi . \n Anh Nguyễn_Hiển , hướng_dẫn_viên một công_ty du_lịch ở TP HCM , gợi_ý 5 điểm du_lịch thiên_nhiên gần thành_phố . Du_khách có_thể tham_khảo cho chuyến đi một ngày hai đêm với kinh_phí tiết_kiệm . \n Cách TP HCM 148 km \n Chi_phí : 1 - 3 triệu đồng \n Vườn quốc_gia Cát_Tiên thuộc huyện Tân_Phú , tỉnh Đồng_Nai . Thời_gian di_chuyển bằng xe_máy hoặc ôtô từ TP HCM tới đây khoảng 3 giờ . Bàu_Sấu là vùng đầm lầy nằm ở phía nam vườn quốc_gia , là nơi sinh_sống của cá_sấu Xiêm , một loài cá_sấu nước_ngọt Đông_Nam_Á . \n Hai ngày là vừa đủ để thăm_thú Cát_Tiên với chi_phí dưới 3 triệu đồng . Tùy nhu_cầu , du_khách có_thể lưu_trú ở homestay , resort hoặc cắm trại một đêm trước ngày trekking xuyên rừng . Ngoài_ra , nhiều du_khách cũng lựa_chọn đạp xe khám_phá khu rừng thay_vì trekking . Các hoạt_động thú_vị ở Cát_Tiên có_thể kể đến đi thuyền " săn " cá_sấu trên vùng đầm lầy Bàu_Sấu , check - in cây cổ_thụ , xem thú đêm . Cát_Tiên là nơi duy_nhất ở Việt_Nam , bạn có_thể nhìn thấy động_vật hoang_dã ngay trong môi_trường tự_nhiên . \n Cách TP HCM 192 km \n Chi_phí : 1 - 2 triệu đồng \n Suối La_Ngâu nằm ở thượng_nguồn sông La_Ngà , được bao_bọc bởi rừng Tánh_Linh . Nơi này sở_hữu cảnh_quan nguyên_sơ , yên_tĩnh , là địa_điểm lý_tưởng cho những ai muốn ngắt kết_nối với thế_giới ảo . Du_khách tới đây chủ_yếu tham_gia hoạt_động cắm trại quanh suối . Tắm suối , chèo kayak là hoạt_động được yêu thích . Nên ra suối vào buổi sáng , trời mát_mẻ , nắng không quá gắt . Từ 17h hàng ngày nước ở thượng_nguồn thường đổ về nhiều , nên tránh ở gần bờ suối . \n Có hai hình_thức là dựng lều tại các bãi tự_phát hoặc cắm trại tiện_nghi với dịch_vụ có sẵn ( glamping ) . Anh Đỗ_Hiếu , chủ khu cắm trại Boo_Camp , thuộc La_Ngâu chia_sẻ hiện khu_vực này chỉ có hai điểm kinh_doanh dịch_vụ cắm trại có giấy_phép hoạt_động , còn lại là các bãi tự_phát . Chi_phí cắm trại dịch_vụ trọn_gói có_giá từ 650.000 đồng mỗi khách một đêm , đã bao_gồm các bữa ăn . Du_khách cần đặt chỗ trước nếu dự_định cắm trại dịch_vụ . Càng gần ngày lễ , lượng lều trống view đẹp càng ít . \n Cách TP HCM 190 km \n Chi_phí : 1 - 3 triệu đồng \n Vườn quốc_gia ( VQG ) Bù_Gia_Mập ở xã Phú_Nghĩa , huyện Bù_Gia_Mập , phía đông bắc tỉnh Bình_Phước , diện_tích hơn 25.000 ha . \n Đến VQG , du_khách có_thể trải nghiệm trekking , ngắm nhìn những cánh rừng lồ_ô , cây họ dầu và nhiều loài cây đặc_trưng khác của khu rừng chuyển_tiếp từ Tây_Nguyên xuống vùng Đông_Nam_Bộ ; tham_quan trung_tâm cứu_hộ bảo_tồn và phát_triển sinh_vật , tìm_hiểu tập_tính sinh_thái và những đặc_điểm thú_vị của các loài linh_trưởng và một_số loài động_vật của VQG. \n Các tour trekking VQG trọn_gói có_giá khoảng 2,5 triệu đồng , du_khách chỉ cần chuẩn_bị đồ_dùng cá_nhân cần_thiết trước khi lên_đường . Trong khi đó , trekking tự_túc chi_phí tiết_kiệm hơn nhưng bạn phải mang vác đồ_đạc suốt quá_trình di_chuyển , đòi_hỏi kinh_nghiệm đi rừng , thể_lực và sức_bền tốt . \n Cách TP HCM 237 km \n Chi_phí : 1 - 2 triệu đồng \n Mũi Yến thuộc xã Hòa_Thắng , huyện Bắc_Bình , tỉnh Bình_Thuận , cách khu du_lịch Bàu_Trắng khoảng 4 km . Địa_điểm này còn hoang_sơ và chưa có các dịch_vụ du_lịch . \n Mũi Yến có địa_hình đồi thoai_thoải , những mũi_đất nhô ra biển Hòa_Thắng . Vì chưa phát_triển du_lịch , lại cách xa khu dân_cư 15 - 20 km , hoạt_động cắm trại ở đây đều là tự_túc . \n Du_khách không thường_xuyên du_lịch dã_ngoại có_thể thuê lều , các đồ_dùng cắm trại kèm theo . Chi_phí thuê lều , nệm hơi , ghế_ngồi , quạt tích điện , đèn , dụng_cụ nấu_ăn cho 2 người trong 2 ngày khoảng 600.000 - 700.000 đồng . Đồ ăn đem theo có_thể chuẩn_bị sẵn hoặc bạn có_thể mua đồ tươi_sống tại các vựa hải_sản ở Hòa_Thắng . \n Đường vào Mũi Yến khá khó đi , nhiều dốc cát , đá_dăm , đá_tảng , nên di_chuyển bằng ôtô hai cầu nếu tay_lái không đủ vững . \n Cách TP HCM 80 km \n Chi_phí : 1 - 2 triệu đồng \n Sau khi đến hồ Dầu_Tiếng , du_khách có_thể qua bến thuyền ở ngã ba Bờ Hồ , gần nhà_thờ Suối Đá , thị_trấn Dương Minh_Châu . Đây là bến thuyền duy_nhất chở khách ra đảo Nhím . Bạn có_thể gửi ôtô , xe_máy tại nhà dân ở gần bến_tàu . Sau đó khi tới đảo , mọi người tiếp_tục trekking , đi bộ hoặc đi xe trâu kéo . Bạn lưu số của lái tàu để liên_hệ khi về . \n Nếu không mang đồ ăn , bạn có_thể đặt_hàng người dân trên đảo các món gà ta , cá_lăng , rau rừng , khoai_lang , khoai_mì nướng ... Chi_phí cho một người khoảng 500.000 đồng mỗi đêm , đã bao_gồm phí thuê thuyền khứ_hồi giá khoảng 1,5 triệu đồng , chở 10 - 15 khách . \n',
616
+ ]
617
+ embeddings = model.encode(sentences)
618
+ print(embeddings.shape)
619
+ # [3, 768]
620
+
621
+ # Get the similarity scores for the embeddings
622
+ similarities = model.similarity(embeddings, embeddings)
623
+ print(similarities)
624
+ # tensor([[ 1.0000, 0.6322, 0.0179],
625
+ # [ 0.6322, 1.0000, -0.0044],
626
+ # [ 0.0179, -0.0044, 1.0000]])
627
+ ```
628
+
629
+ <!--
630
+ ### Direct Usage (Transformers)
631
+
632
+ <details><summary>Click to see the direct usage in Transformers</summary>
633
+
634
+ </details>
635
+ -->
636
+
637
+ <!--
638
+ ### Downstream Usage (Sentence Transformers)
639
+
640
+ You can finetune this model on your own dataset.
641
+
642
+ <details><summary>Click to expand</summary>
643
+
644
+ </details>
645
+ -->
646
+
647
+ <!--
648
+ ### Out-of-Scope Use
649
+
650
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
651
+ -->
652
+
653
+ <!--
654
+ ## Bias, Risks and Limitations
655
+
656
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
657
+ -->
658
+
659
+ <!--
660
+ ### Recommendations
661
+
662
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
663
+ -->
664
+
665
+ ## Training Details
666
+
667
+ ### Training Dataset
668
+
669
+ #### Unnamed Dataset
670
+
671
+ * Size: 2,668 training samples
672
+ * Columns: <code>anchor</code> and <code>positive</code>
673
+ * Approximate statistics based on the first 1000 samples:
674
+ | | anchor | positive |
675
+ |:--------|:-----------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------|
676
+ | type | string | string |
677
+ | details | <ul><li>min: 10 tokens</li><li>mean: 25.22 tokens</li><li>max: 78 tokens</li></ul> | <ul><li>min: 187 tokens</li><li>mean: 255.24 tokens</li><li>max: 256 tokens</li></ul> |
678
+ * Samples:
679
+ | anchor | positive |
680
+ |:---------------------------------------------------------------------------------------------------------------------|:------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
681
+ | <code>Võ_sĩ người Việt_Nam Thạch_Kim_Tuấn , một người từng đoạt ba huy_chương vàng hạng cân 56kg .</code> | <code>Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này . <br> Kịch_bản tương_tự tái_hiện ở giải th��_giới ở Arab Saudi hôm 5 / 9 , khi Gia Thành_đạt thành_tích giật 123 kg , đẩy 146 kg và tổng_cử 269 kg để vô_địch . Còn Ngô_Sơn_Đỉnh giành cả ba HC bạc với tổng_cử thấp hơn đồng_đội 8 kg . Lực_sĩ Thái_Lan Thada_Somboon - uan đạt ba HC đồng với tổng_cử 259 kg . <br> Gia_Thành 25 tuổi , người Bắc_Ninh , đã đoạt HC vàng SEA_Games cả ba kỳ gần đây cũng ở hạng cân 55kg với tổng_cử lần_lượt là 264 , 268 và 261 kg . Anh cũng là đô cử duy_nhất của Việt_Nam từng vô_địch SEA_Games ba kỳ liên_tiếp . <br> Hạng cân 55kg hay 56kg đã không còn xuất_hiện trong chương_trình Olympic mùa hè hay Asiad . Lần gần nhất IOC đưa nội_dung này vào Thế vận...</code> |
682
+ | <code>Việt_Nam đã vô_địch ở Arab_Saudi , khi Ngô_Sơn_Đỉnh giành cả ba HC bạc và về nhì .</code> | <code>Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này . <br> Kịch_bản tương_tự tái_hiện ở giải thế_giới ở Arab Saudi hôm 5 / 9 , khi Gia Thành_đạt thành_tích giật 123 kg , đẩy 146 kg và tổng_cử 269 kg để vô_địch . Còn Ngô_Sơn_Đỉnh giành cả ba HC bạc với tổng_cử thấp hơn đồng_đội 8 kg . Lực_sĩ Thái_Lan Thada_Somboon - uan đạt ba HC đồng với tổng_cử 259 kg . <br> Gia_Thành 25 tuổi , người Bắc_Ninh , đã đoạt HC vàng SEA_Games cả ba kỳ gần đây cũng ở hạng cân 55kg với tổng_cử lần_lượt là 264 , 268 và 261 kg . Anh cũng là đô cử duy_nhất của Việt_Nam từng vô_địch SEA_Games ba kỳ liên_tiếp . <br> Hạng cân 55kg hay 56kg đã không còn xuất_hiện trong chương_trình Olympic mùa hè hay Asiad . Lần gần nhất IOC đưa nội_dung này vào Thế vận...</code> |
683
+ | <code>Đô cử duy_nhất của Việt_Nam_Gia_Thành vừa đoạt HC vàng SEA_Games ba kỳ liên_tiếp cũng ở hạng cân 55kg .</code> | <code>Lần đầu_tiên kể từ năm 2017 và là lần thứ hai trong lịch_sử , Việt_Nam có một đô cử vô_địch thế_giới . Bởi sáu năm trước ở Mỹ , Thạch_Kim_Tuấn cũng đoạt cả ba HC vàng hạng 56kg , với thành_tích giật 126 kg , đẩy 153 kg và 279 kg tổng_cử . Khi đó , một võ_sĩ Việt_Nam khác là Trần Lê_Quốc_Toàn cũng đoạt cả ba HC bạc hạng cân này . <br> Kịch_bản tương_tự tái_hiện ở giải thế_giới ở Arab Saudi hôm 5 / 9 , khi Gia Thành_đạt thành_tích giật 123 kg , đẩy 146 kg và tổng_cử 269 kg để vô_địch . Còn Ngô_Sơn_Đỉnh giành cả ba HC bạc với tổng_cử thấp hơn đồng_đội 8 kg . Lực_sĩ Thái_Lan Thada_Somboon - uan đạt ba HC đồng với tổng_cử 259 kg . <br> Gia_Thành 25 tuổi , người Bắc_Ninh , đã đoạt HC vàng SEA_Games cả ba kỳ gần đây cũng ở hạng cân 55kg với tổng_cử lần_lượt là 264 , 268 và 261 kg . Anh cũng là đô cử duy_nhất của Việt_Nam từng vô_địch SEA_Games ba kỳ liên_tiếp . <br> Hạng cân 55kg hay 56kg đã không còn xuất_hiện trong chương_trình Olympic mùa hè hay Asiad . Lần gần nhất IOC đưa nội_dung này vào Thế vận...</code> |
684
+ * Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
685
+ ```json
686
+ {
687
+ "scale": 20.0,
688
+ "similarity_fct": "cos_sim",
689
+ "mini_batch_size": 1024,
690
+ "gather_across_devices": false
691
+ }
692
+ ```
693
+
694
+ ### Evaluation Dataset
695
+
696
+ #### Unnamed Dataset
697
+
698
+ * Size: 333 evaluation samples
699
+ * Columns: <code>anchor</code> and <code>positive</code>
700
+ * Approximate statistics based on the first 333 samples:
701
+ | | anchor | positive |
702
+ |:--------|:----------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
703
+ | type | string | string |
704
+ | details | <ul><li>min: 11 tokens</li><li>mean: 24.4 tokens</li><li>max: 71 tokens</li></ul> | <ul><li>min: 70 tokens</li><li>mean: 252.54 tokens</li><li>max: 256 tokens</li></ul> |
705
+ * Samples:
706
+ | anchor | positive |
707
+ |:-------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
708
+ | <code>Nhật_Bản và Việt_Nam đã có cuộc tranh_đấu khi đội Nhật chiến_thắng ở 15 - 11 .</code> | <code>Ở bán_kết , Nhật_Bản tốn sức khi phải thi_đấu năm set và thua Thái_Lan 2 - 3 . Họ cũng có ít thời_gian để nghỉ_ngơi hơn do thi_đấu sau Việt_Nam . Dù thua Trung_Quốc 0 - 3 , việc chỉ thi_đấu ba set giúp các học_trò của HLV Nguyễn_Tuấn_Kiệt phần_nào giữ được thể_lực . <br> Đây là một phần lý_do giúp Việt_Nam nắm ưu_thế trong nhiều thời_điểm quan_trọng ở trận tranh HC đồng chiều nay . Hai đội cũng tạo được thế_trận đôi công đẹp_mắt . Nhưng , đại_diện Đông_Á vẫn tạo được khác_biệt là khả_năng phòng_ngự hàng sau , cùng tay đập Fuyumi_Hawi . <br> Ở set một , Việt_Nam bị dẫn trước phần_lớn thời_gian nhưng cố_gắng bám sát để khoảng_cách không vượt quá hai điểm . Khi tỷ_số là 19 - 20 , Nhật_Bản mắc bốn sai_lầm , trong đó có ba tình_huống đập bóng ra ngoài liên_tiếp , giúp Việt_Nam dẫn 23 - 21 . Sau đó , Hoàng_Thị_Kiều_Trinh tấn_công ghi_điểm thứ 24 , trước khi Trần_Thị Thanh Thuý chắn tốt để thắng 25 - 21 . <br> Sang set hai , Nhật_Bản cải_thiện khả_năng đập bóng với 17 điểm tấn_công để thắng 25 - 14 . ...</code> |
709
+ | <code>Dennis_Schroder , Franz_Wagner và Daniel_Theis là ba cầu_thủ có đóng_góp lớn_lao trong việc giúp Đức thắng cuộc .</code> | <code>Kỳ World_Cup thứ hai liên_tiếp , Mỹ không_thể vào chung_kết . Đây được xem là kết_quả đáng thất_vọng với cường_quốc bóng_rổ số một thế_giới . Với việc thua Đức lần đầu sau bảy lần chạm_trán ở World_Cup và Olympic , Mỹ sẽ phải đấu trận tranh vị_trí thứ ba với Canada vào Chủ_nhật 10 / 9 . Cùng ngày , trong lần đầu_vào chung_kết , Đức sẽ gặp Serbia . <br> Mỹ dẫn 60 - 59 sau hai hiệp đầu , nhưng chơi mất tập_trung trong phòng_ngự và thua 24 - 35 ở hiệp ba . Dàn sao NBA với những Anthony_Edwards , Jalen_Brunson , Austin_Reaves hay Tyrese Haliburton nỗ_lực ở hiệp cuối nhưng không_thể san_lấp cách_biệt , chịu_thua 111 - 113 . <br> Dù không mang đến World_Cup những cầu_thủ hay nhất NBA , Mỹ vẫn được đánh_giá cao nhất giải khi những ngôi_sao kể trên cũng thuộc hàng " số má " ở giải bóng_rổ nhà_nghề Mỹ . Tuyển Đức cũng có những cầu_thủ đang thi_đấu tại NBA như Dennis_Schroder , Franz_Wagner và Daniel_Theis . Bộ ba này đều chơi tốt và góp_phần giúp Đức duy_trì thành_tích bất_bại từ đầu giải . <br> " Bóng_...</code> |
710
+ | <code>Từ nhà chị Hằng đến trường phải mất khoảng thời_gian là gần 50 phút với phương_tiện là xuồng .</code> | <code>Tại Hà_Nội , đường_phố nhộn_nhịp từ 6h30 khi gần 2,3 triệu học_sinh các cấp đi khai_giảng . Đây là địa_phương có số học_sinh và trường , lớp nhiều nhất cả nước . <br> Cổng trường Tiểu_học Yên_Nghĩa , quận Hà_Đông , được trang_hoàng rực_rỡ với cổng bóng và hoa tươi . Trịnh Minh_Khang , lớp 4A1 , đạp xe đi từ nhà lúc 6h . <br> " Tối qua con ngủ chập_chờn , một lúc lại thức dậy vì háo_hức . Hôm_nay con hát hai bài Tiếng trống trường em và Thầy_cô cho em ước_mơ " , Khang nói , cho biết đã cùng các bạn trong đội văn_nghệ tập_luyện cả tuần trước . Em cũng tự tay bọc sách , dán nhãn_vở , thích_thú với bộ học liệu khoa_học công_nghệ , tự tháo ra và lắp_ghép . <br> Ở trường THCS Trần_Duy_Hưng , quận Cầu Giấy , thầy phó hiệu_trưởng Nguyễn_Ngọc_Phúc cho biết khai_giảng bắt_đầu lúc 7h30 , trong khoảng 45 phút , tinh_thần là gọn_nhẹ . <br> " Sau đó , học_sinh_học tiết hai như bình_thường " , thầy Phúc nói . Trường THCS Trần_Duy_Hưng tiếp_tục đặt mục_tiêu phát_triển giáo_dục mũi_nhọn , tiên_tiến trong năm_học m...</code> |
711
+ * Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
712
+ ```json
713
+ {
714
+ "scale": 20.0,
715
+ "similarity_fct": "cos_sim",
716
+ "mini_batch_size": 1024,
717
+ "gather_across_devices": false
718
+ }
719
+ ```
720
+
721
+ ### Training Hyperparameters
722
+ #### Non-Default Hyperparameters
723
+
724
+ - `eval_strategy`: steps
725
+ - `per_device_train_batch_size`: 32
726
+ - `per_device_eval_batch_size`: 32
727
+ - `learning_rate`: 2e-05
728
+ - `weight_decay`: 0.01
729
+ - `num_train_epochs`: 5
730
+ - `warmup_ratio`: 0.1
731
+ - `warmup_steps`: 50
732
+ - `fp16`: True
733
+ - `load_best_model_at_end`: True
734
+ - `batch_sampler`: no_duplicates
735
+
736
+ #### All Hyperparameters
737
+ <details><summary>Click to expand</summary>
738
+
739
+ - `overwrite_output_dir`: False
740
+ - `do_predict`: False
741
+ - `eval_strategy`: steps
742
+ - `prediction_loss_only`: True
743
+ - `per_device_train_batch_size`: 32
744
+ - `per_device_eval_batch_size`: 32
745
+ - `per_gpu_train_batch_size`: None
746
+ - `per_gpu_eval_batch_size`: None
747
+ - `gradient_accumulation_steps`: 1
748
+ - `eval_accumulation_steps`: None
749
+ - `torch_empty_cache_steps`: None
750
+ - `learning_rate`: 2e-05
751
+ - `weight_decay`: 0.01
752
+ - `adam_beta1`: 0.9
753
+ - `adam_beta2`: 0.999
754
+ - `adam_epsilon`: 1e-08
755
+ - `max_grad_norm`: 1.0
756
+ - `num_train_epochs`: 5
757
+ - `max_steps`: -1
758
+ - `lr_scheduler_type`: linear
759
+ - `lr_scheduler_kwargs`: {}
760
+ - `warmup_ratio`: 0.1
761
+ - `warmup_steps`: 50
762
+ - `log_level`: passive
763
+ - `log_level_replica`: warning
764
+ - `log_on_each_node`: True
765
+ - `logging_nan_inf_filter`: True
766
+ - `save_safetensors`: True
767
+ - `save_on_each_node`: False
768
+ - `save_only_model`: False
769
+ - `restore_callback_states_from_checkpoint`: False
770
+ - `no_cuda`: False
771
+ - `use_cpu`: False
772
+ - `use_mps_device`: False
773
+ - `seed`: 42
774
+ - `data_seed`: None
775
+ - `jit_mode_eval`: False
776
+ - `use_ipex`: False
777
+ - `bf16`: False
778
+ - `fp16`: True
779
+ - `fp16_opt_level`: O1
780
+ - `half_precision_backend`: auto
781
+ - `bf16_full_eval`: False
782
+ - `fp16_full_eval`: False
783
+ - `tf32`: None
784
+ - `local_rank`: 0
785
+ - `ddp_backend`: None
786
+ - `tpu_num_cores`: None
787
+ - `tpu_metrics_debug`: False
788
+ - `debug`: []
789
+ - `dataloader_drop_last`: False
790
+ - `dataloader_num_workers`: 0
791
+ - `dataloader_prefetch_factor`: None
792
+ - `past_index`: -1
793
+ - `disable_tqdm`: False
794
+ - `remove_unused_columns`: True
795
+ - `label_names`: None
796
+ - `load_best_model_at_end`: True
797
+ - `ignore_data_skip`: False
798
+ - `fsdp`: []
799
+ - `fsdp_min_num_params`: 0
800
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
801
+ - `tp_size`: 0
802
+ - `fsdp_transformer_layer_cls_to_wrap`: None
803
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
804
+ - `deepspeed`: None
805
+ - `label_smoothing_factor`: 0.0
806
+ - `optim`: adamw_torch
807
+ - `optim_args`: None
808
+ - `adafactor`: False
809
+ - `group_by_length`: False
810
+ - `length_column_name`: length
811
+ - `ddp_find_unused_parameters`: None
812
+ - `ddp_bucket_cap_mb`: None
813
+ - `ddp_broadcast_buffers`: False
814
+ - `dataloader_pin_memory`: True
815
+ - `dataloader_persistent_workers`: False
816
+ - `skip_memory_metrics`: True
817
+ - `use_legacy_prediction_loop`: False
818
+ - `push_to_hub`: False
819
+ - `resume_from_checkpoint`: None
820
+ - `hub_model_id`: None
821
+ - `hub_strategy`: every_save
822
+ - `hub_private_repo`: None
823
+ - `hub_always_push`: False
824
+ - `gradient_checkpointing`: False
825
+ - `gradient_checkpointing_kwargs`: None
826
+ - `include_inputs_for_metrics`: False
827
+ - `include_for_metrics`: []
828
+ - `eval_do_concat_batches`: True
829
+ - `fp16_backend`: auto
830
+ - `push_to_hub_model_id`: None
831
+ - `push_to_hub_organization`: None
832
+ - `mp_parameters`:
833
+ - `auto_find_batch_size`: False
834
+ - `full_determinism`: False
835
+ - `torchdynamo`: None
836
+ - `ray_scope`: last
837
+ - `ddp_timeout`: 1800
838
+ - `torch_compile`: False
839
+ - `torch_compile_backend`: None
840
+ - `torch_compile_mode`: None
841
+ - `include_tokens_per_second`: False
842
+ - `include_num_input_tokens_seen`: False
843
+ - `neftune_noise_alpha`: None
844
+ - `optim_target_modules`: None
845
+ - `batch_eval_metrics`: False
846
+ - `eval_on_start`: False
847
+ - `use_liger_kernel`: False
848
+ - `eval_use_gather_object`: False
849
+ - `average_tokens_across_devices`: False
850
+ - `prompts`: None
851
+ - `batch_sampler`: no_duplicates
852
+ - `multi_dataset_batch_sampler`: proportional
853
+ - `router_mapping`: {}
854
+ - `learning_rate_mapping`: {}
855
+
856
+ </details>
857
+
858
+ ### Training Logs
859
+ | Epoch | Step | Training Loss | Validation Loss |
860
+ |:----------:|:-------:|:-------------:|:---------------:|
861
+ | 1.1905 | 100 | 0.5895 | - |
862
+ | 2.3810 | 200 | 0.2979 | - |
863
+ | **3.5714** | **300** | **0.1551** | **0.2772** |
864
+ | 4.7619 | 400 | 0.0906 | - |
865
+
866
+ * The bold row denotes the saved checkpoint.
867
+
868
+ ### Framework Versions
869
+ - Python: 3.11.11
870
+ - Sentence Transformers: 5.1.2
871
+ - Transformers: 4.51.1
872
+ - PyTorch: 2.5.1+cu124
873
+ - Accelerate: 1.3.0
874
+ - Datasets: 3.5.0
875
+ - Tokenizers: 0.21.0
876
+
877
+ ## Citation
878
+
879
+ ### BibTeX
880
+
881
+ #### Sentence Transformers
882
+ ```bibtex
883
+ @inproceedings{reimers-2019-sentence-bert,
884
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
885
+ author = "Reimers, Nils and Gurevych, Iryna",
886
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
887
+ month = "11",
888
+ year = "2019",
889
+ publisher = "Association for Computational Linguistics",
890
+ url = "https://arxiv.org/abs/1908.10084",
891
+ }
892
+ ```
893
+
894
+ #### CachedMultipleNegativesRankingLoss
895
+ ```bibtex
896
+ @misc{gao2021scaling,
897
+ title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
898
+ author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
899
+ year={2021},
900
+ eprint={2101.06983},
901
+ archivePrefix={arXiv},
902
+ primaryClass={cs.LG}
903
+ }
904
+ ```
905
+
906
+ <!--
907
+ ## Glossary
908
+
909
+ *Clearly define terms in order to be accessible across audiences.*
910
+ -->
911
+
912
+ <!--
913
+ ## Model Card Authors
914
+
915
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
916
+ -->
917
+
918
+ <!--
919
+ ## Model Card Contact
920
+
921
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
922
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,27 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "RobertaModel"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "eos_token_id": 2,
9
+ "hidden_act": "gelu",
10
+ "hidden_dropout_prob": 0.1,
11
+ "hidden_size": 768,
12
+ "initializer_range": 0.02,
13
+ "intermediate_size": 3072,
14
+ "layer_norm_eps": 1e-05,
15
+ "max_position_embeddings": 258,
16
+ "model_type": "roberta",
17
+ "num_attention_heads": 12,
18
+ "num_hidden_layers": 12,
19
+ "pad_token_id": 1,
20
+ "position_embedding_type": "absolute",
21
+ "tokenizer_class": "PhobertTokenizer",
22
+ "torch_dtype": "float32",
23
+ "transformers_version": "4.51.1",
24
+ "type_vocab_size": 1,
25
+ "use_cache": true,
26
+ "vocab_size": 64001
27
+ }
config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "sentence_transformers": "5.1.2",
4
+ "transformers": "4.51.1",
5
+ "pytorch": "2.5.1+cu124"
6
+ },
7
+ "model_type": "SentenceTransformer",
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5831ab236b492160c154b127e3ee2e3040302455dd04662325f3143f904c9e81
3
+ size 540015464
modules.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ }
14
+ ]
sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 256,
3
+ "do_lower_case": false
4
+ }
special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": false,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": false,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": true,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 256,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "PhobertTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff