truong1301 commited on
Commit
bb78324
·
verified ·
1 Parent(s): 42af99d

Add new CrossEncoder model

Browse files
README.md ADDED
@@ -0,0 +1,382 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - cross-encoder
5
+ - reranker
6
+ - generated_from_trainer
7
+ - dataset_size:56771
8
+ - loss:BinaryCrossEntropyLoss
9
+ base_model: itdainb/PhoRanker
10
+ pipeline_tag: text-ranking
11
+ library_name: sentence-transformers
12
+ metrics:
13
+ - accuracy
14
+ - accuracy_threshold
15
+ - f1
16
+ - f1_threshold
17
+ - precision
18
+ - recall
19
+ - average_precision
20
+ model-index:
21
+ - name: CrossEncoder based on itdainb/PhoRanker
22
+ results:
23
+ - task:
24
+ type: cross-encoder-binary-classification
25
+ name: Cross Encoder Binary Classification
26
+ dataset:
27
+ name: Quora dev
28
+ type: Quora-dev
29
+ metrics:
30
+ - type: accuracy
31
+ value: 1.0
32
+ name: Accuracy
33
+ - type: accuracy_threshold
34
+ value: 0.0001161169057013467
35
+ name: Accuracy Threshold
36
+ - type: f1
37
+ value: 1.0
38
+ name: F1
39
+ - type: f1_threshold
40
+ value: 0.0001161169057013467
41
+ name: F1 Threshold
42
+ - type: precision
43
+ value: 1.0
44
+ name: Precision
45
+ - type: recall
46
+ value: 1.0
47
+ name: Recall
48
+ - type: average_precision
49
+ value: 1.0
50
+ name: Average Precision
51
+ ---
52
+
53
+ # CrossEncoder based on itdainb/PhoRanker
54
+
55
+ This is a [Cross Encoder](https://www.sbert.net/docs/cross_encoder/usage/usage.html) model finetuned from [itdainb/PhoRanker](https://huggingface.co/itdainb/PhoRanker) using the [sentence-transformers](https://www.SBERT.net) library. It computes scores for pairs of texts, which can be used for text reranking and semantic search.
56
+
57
+ ## Model Details
58
+
59
+ ### Model Description
60
+ - **Model Type:** Cross Encoder
61
+ - **Base model:** [itdainb/PhoRanker](https://huggingface.co/itdainb/PhoRanker) <!-- at revision cb3e1f155e71896fb7f6f1e0efbdab0e83e88f10 -->
62
+ - **Maximum Sequence Length:** 256 tokens
63
+ - **Number of Output Labels:** 1 label
64
+ <!-- - **Training Dataset:** Unknown -->
65
+ <!-- - **Language:** Unknown -->
66
+ <!-- - **License:** Unknown -->
67
+
68
+ ### Model Sources
69
+
70
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
71
+ - **Documentation:** [Cross Encoder Documentation](https://www.sbert.net/docs/cross_encoder/usage/usage.html)
72
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/UKPLab/sentence-transformers)
73
+ - **Hugging Face:** [Cross Encoders on Hugging Face](https://huggingface.co/models?library=sentence-transformers&other=cross-encoder)
74
+
75
+ ## Usage
76
+
77
+ ### Direct Usage (Sentence Transformers)
78
+
79
+ First install the Sentence Transformers library:
80
+
81
+ ```bash
82
+ pip install -U sentence-transformers
83
+ ```
84
+
85
+ Then you can load this model and run inference.
86
+ ```python
87
+ from sentence_transformers import CrossEncoder
88
+
89
+ # Download from the 🤗 Hub
90
+ model = CrossEncoder("truong1301/PhoRanker_vifactcheck")
91
+ # Get scores for pairs of texts
92
+ pairs = [
93
+ ['Tính đến sáng ngày 28/3, ba nạn nhân nào đã tử vong trong vụ nổ đầu đạn tại thôn Kon Đao Yôp?\n', '( NLĐO ) – Một người đàn_ông 41 tuổi vừa bị bắt do liên_quan vụ án người_mẫu Hồng_Kông - Trung_Quốc Abby_Choi ( Thái_Thiên_Phượng ) bị giết và phân xác . Đây là người thứ 6 liên_quan bị bắt_giữ Trang_South China_Morning_Post ngày 2 - 3 dẫn một nguồn tin cho biết người đàn_ông này bị bắt vì nghi_ngờ hỗ_trợ , tiếp_tay cho một nghi phạm . Chi_tiết vụ_việc chưa được công_bố . Tin_tức được đưa ra khi hơn 120 cảnh_sát rà_soát bãi rác , tìm_kiếm phần cánh_tay và phần thân của thi_thể Abby_Choi . Việc tìm_kiếm diễn ra suốt 3 ngày qua nhưng chưa tìm thấy những phần thi_thể còn lại của Abby_Choi . Tối 2 - 3 , cảnh_sát quay lại hiện_trường vụ án , tức tầng trệt của ngôi nhà 3 tầng ở làng Lung Mei_Tsuen , quận Tai_Po để tìm_kiếm lần cuối . Đây là nơi cảnh_sát phát_hiện 2 chân phụ_nữ trong tủ_lạnh , một_số vật_dụng của Abby_Choi , 2 nồi súp mà một trong đó có đầu , xương sườn nạn_nhân . Abby_Choi ( Thái_Thiên_Phượng ) bị giết , phân xác ở tuổi 28 Nghi phạm thứ 5 của vụ án là một phụ_nữ 47 tuổi , nhân_viên mát - xa , bị nghi là người_tình của bố chồng cũ Abby_Choi . Cả hai yêu nhau được khoảng 6 tháng . Người này bị_cáo_buộc hỗ_trợ , tiếp_tay cho nghi phạm . Cụ_thể , người phụ_nữ này đã giúp bố chồng cũ Abby Choi thuê căn nhà tại làng Lung Mei_Tsuen . Người này cũng thuê một căn_hộ sang_trọng khác để chồng cũ Abby Choi lẩn_trốn trước khi bị bắt . Người phụ_nữ này đã được tại_ngoại chờ điều_tra thêm nhưng phải đến báo_cáo với cảnh_sát vào cuối tháng . Việc tìm_kiếm đủ các phần thi_thể , đặc_biệt là tay và chân , được đánh_giá rất quan_trọng để xác_định tội_danh của gia_đình chồng cũ nạn_nhân . Ngoài_ra , những vật_dụng như điện_thoại , quần_áo , hung_khí cũng quan_trọng không kém . Nếu cảnh_sát không thu_thập đủ chứng_cứ hữu_hiệu cho vụ án sẽ khó định_tội giết người tại phiên_tòa tiếp_theo . Luật Hồng_Kông - Trung_Quốc có quy_định về nguyên_tắc " nghi điểm lợi_ích thuộc về bị_cáo " . Nghĩa_là nếu trong vụ án có tình_tiết không_thể làm rõ hoặc không chắc_chắn thì sẽ trở_thành điểm có lợi cho bị_cáo . Vì_thế , phía gia_đình chồng cũ của Abby Choi dù bị bắt vẫn quyết không khai địa_điểm giấu các phần thi_thể nạn_nhân . Hiện_trường vụ án - nơi cảnh_sát phát_hiện các phần thi_thể của Abby Choi_Hoa và táo được đặt xung_quanh Cảnh_sát vẫn tích_cực tìm_kiếm các phần còn lại thi_thể Abby Choi Bác_sĩ pháp_y nổi_tiếng người Đài_Loan - Trung_Quốc Cao Đại_Thành lý_giải kẻ sát_nhân hành_động man_rợ với thi_thể nạn_nhân vì muốn gây khó_khăn cho cơ_quan điều_tra trong việc xét_nghiệm ADN. Việc xử_lý phần đầu , tứ_chi là để tăng độ khó khi nhận_dạng , lấy dấu vân tay … Cảnh_sát đã bắt_giữ 5 nghi phạm trong vụ án giết người_mẫu Abby_Choi . Trong đó , ông Kwong_Kau ( 65 tuổi , bố chồng cũ ) , Anthony_Kwong ( 31 tuổi , anh_trai của chồng cũ ) và Alex_Kwon ( 28 tuổi , chồng cũ ) bị buộc_tội giết người . Bà Jenny_Li ( 63 tuổi , mẹ chồng cũ ) bị buộc_tội cản_trở , làm sai_lệch tiến_trình điều_tra . Một phụ_nữ 47 tuổi , bị nghi là người_tình của ông Kwong_Kau , đang bị cảnh_sát thẩm_vấn . Người phụ_nữ này đã giúp ông Kwong Kau thuê tầng trệt ngôi nhà hiện là hiện_trường vụ án và cũng là người đã thuê một căn_hộ khác giúp Alex_Kwon lẩn_trốn . Tòa dự_kiến xét_xử tiếp vụ án vào ngày 8 - 5 .'],
94
+ ['Nguyên nhân dẫn đến việc ông Hoàng giết bà P. là gì?\n', '( NLĐO ) - Thấy bé gái đứng chơi trước nhà mà không có người trông giữ , Thuân đã bắt cháu bé lên nhà và thực_hiện_hành_vi hiếp_dâm đồi_bại . Tại phiên_toà sơ_thẩm ngày 28 - 3 , TAND tỉnh An_Giang tuyên_phạt bị_cáo Nguyễn_Văn_Thuân ( SN 1949 ; ngụ xã Đa_Phước , huyện An_Phú , tỉnh An_Giang ) 13 năm tù về tội " Hiếp_dâm người dưới 16 tuổi " ; đồng_thời buộc bị_cáo bồi_thường tổn_thất tinh_thần cho bị hại 20 triệu đồng . Bị_cáo Nguyễn_Văn_Thuân . Theo cáo_trạng , khoảng 15 giờ ngày 10 - 12 - 2022 , bà Đỗ_Thị S. dẫn cháu nội tên N. ( SN 2018 ) ra cặp bờ sông ( thuộc xã Đa_Phước ) chơi lô_tô . Khoảng 30 phút sau , Thuân thấy cháu N. đang chơi trước cửa_nhà Thuân và không có người trông giữ , nên nảy_sinh ý_định hiếp_dâm cháu N. Quang_cảnh phiên_tòa . Để thực_hiện , Thuân ra bế cháu N. lên hàng ba nhà mình , rồi thực_hiện_hành_vi đồi_bại đối_với cháu bé . Bị đau , cháu bé bỏ chạy ra chỗ bà nội . Khi về đến nhà , bà S. phát_hiện và nghi_ngờ Thuân xâm_hại tình_dục cháu N. nên đến Công_an xã Đa_Phước trình_báo . Ngay sau đó , Thuân bị bắt_giữ . Tại cơ_quan công_an , Thuân thừa_nhận toàn_bộ_hành_vi phạm_tội của mình .'],
95
+ ['Vì sao WHO xếp Việt Nam vào nhóm nguy cơ cao xâm nhập bại liệt vào tháng 11/2022, trong khi các nước khác vẫn ở nhóm cũ?\n', '( NLĐO ) - Về dịch COVID - 19 hôm_nay 22 - 3 , Bộ Y_tế cho biết số ca mắc COVID - 19 lại tăng trong 24 giờ qua . Bộ Y_tế cảnh_báo nguy_cơ xâm_nhập , lây_lan của các tác_nhân gây bệnh luôn tiềm_ẩn Về tình_hình dịch COVID - 19 hôm_nay , Bộ Y_tế cho biết từ 16 giờ ngày 21 - 3 đến 16 giờ ngày 22 - 3 , cả nước ghi_nhận 18 ca mắc , tăng so với ngày trước đó . Kể từ đầu dịch đến nay Việt_Nam có 11.527.175 ca nhiễm , đứng thứ 13 / 230 quốc_gia và vùng lãnh_thổ , trong khi với tỉ_lệ số ca nhiễm / 1 triệu dân , Việt_Nam đứng thứ 117 / 230 quốc_gia và vùng lãnh_thổ ( bình_quân cứ 1 triệu người có 116.491 ca nhiễm ) . Biểu_đồ dịch COVID - 19 Trong ngày , có thêm 14 bệnh_nhân được công_bố khỏi bệnh , nâng tổng_số ca được điều_trị khỏi lên 10.614.875 ca . Số bệnh_nhân đang thở ôxy là 4 ca . Tổng_số ca tử_vong do COVID - 19 tại Việt_Nam_tính đến nay là 43.186 ca , chiếm tỉ_lệ 0,4 % so với tổng_số ca nhiễm . Tổng_số ca tử_vong xếp thứ 26 / 230 vùng lãnh_thổ , số ca tử_vong trên 1 triệu dân xếp thứ 139 / 230 quốc_gia , vùng lãnh_thổ trên thế_giới . Ngày 21 - 3 có 4.878 liều vắc - xin phòng COVID - 19 được tiêm . Như_vậy , tổng_số liều vắc - xin đã được tiêm là 265.927.459 liều . Ngày 22 - 3 , Bộ Y_tế đã có văn_bản gửi UBND các tỉnh , thành_phố về việc tổ_chức triển_khai kế_hoạch phòng , chống dịch_bệnh truyền_nhiễm , nhất_là dịch COVID - 19 . Theo Bộ Y_tế , tình_hình dịch_bệnh truyền_nhiễm trên toàn_cầu hiện_nay được dự_báo vẫn diễn_biến khó lường . Dịch COVID - 19 hiện vẫn là tình_trạng khẩn_cấp về sức_khỏe cộng_đồng quốc_tế , tiềm_ẩn nguy_cơ bùng_phát với các biển thể mới , nhất_là khi các quốc_gia nới lỏng các biện_pháp phòng , chống dịch và thực_hiện các chính_sách mở_cửa để phát_triển kinh_tế xã_hội , giao_thương , du_lịch . Các bệnh truyền_nhiễm nguy_hiểm , mới nổi tiếp_tục xuất_hiện và lây_lan như bệnh Marburg tại khu_vực Châu_Phi , cúm A / H5N1 tại Campuchia ... Các tác_nhân gây bệnh , các chủng virus cúm liên_tục biến_đổi làm giảm khả_năng bảo_vệ của vắc - xin , tiềm_ẩn nguy_cơ đại_dịch . Bộ Y_tế cho biết dịch COVID - 19 và các bệnh truyền_nhiễm khác cơ_bản vẫn đang được kiểm_soát , tuy_nhiên nguy_cơ xâm_nhập , lây_lan của các tác_nhân gây bệnh luôn tiềm_ẩn , nhất_là trong bối_cảnh nhu_cầu giao_thương , du_lịch tăng cao ; đồng_thời một_số bệnh truyền_nhiễm lưu_hành như tay_chân miệng , sốt_xuất_huyết ... có nguy_cơ gia_tăng số mắc .'],
96
+ ['Có phải N. lái xe máy chở bạn đội mũ bảo hiểm vượt đèn đỏ nên bị dân quân tự vệ dùng gậy đánh vào đầu gãy gậy không?\n', 'TPO - Sáng 25 / 3 , lãnh_đạo Công_an quận Hải_Châu ( TP Đà_Nẵng ) cho biết , đã bắt được đối_tượng đập phá cây ATM Ngân_hàng Thương_mại CP Đông_Á trên đường Lê Duẩn . Theo thông_tin ban_đầu , ngay sau khi vào_cuộc điều_tra , Đội cảnh_sát Hình_sự Công_an quận Hải_Châu nắm thông_tin đối_tượng này đang trên xe đi vào phía Nam nên phối_hợp với Công_an tỉnh Phú_Yên bắt_giữ . Danh_tính của nghi phạm chưa được tiết_lộ . Hiện , cơ_quan công_an đang tiến_hành di_lý đối_tượng về Đà_Nẵng để phục_vụ công_tác điều_tra . Trước đó , khoảng 15h ngày 23 / 3 , trong lúc kiểm_tra các cây ATM gặp sự_cố , nhân_viên Ngân_hàng Thương_mại CP Đông_Á phát_hiện trụ ATM trên đường Lê_Duẩn ( quận Hải_Châu ) bị kẻ_gian đập phá nên trình_báo_công_an . Cây ATM bị cạy phá , hư_hỏng hoàn_toàn . Két sắt chứa tiền bị kẻ_gian lấy mất , hệ_thống điện cũng bị sự_cố .'],
97
+ ['Huỳnh Văn Hoàng có bị bắt vì đánh 21 cái khiến một phụ nữ tử vong không?\n', '(NLĐO) – Theo camera của nhà người dân ở tỉnh Tiền Giang ghi lại, Huỳnh Văn Hoàng đã đánh tổng cộng 21 cái vào người bà P. khiến nạn nhân tử vong. Ngày 28-3, Công an huyện Châu Thành, tỉnh Tiền Giang đã bắt khẩn cấp Huỳnh Văn Hoàng (SN 1970; ngụ xã Tân Hương, huyện Châu Thành) để điều tra về hành vi giết người. Hiện trường xảy ra vụ việc. Ảnh cắt ra từ clip Theo thông tin ban đầu, chiều 27-3, bà Trần Ngọc P. (SN 1955) xảy ra mâu thuẫn với Hoàng. Hoàng cầm khúc cây đến nhà bà P. tại đoạn đường nông thôn thuộc ấp Tân Thạnh, xã Tân Hương. Lúc này, bà P. cũng cầm khúc cây thách đánh nhau với Hoàng. Hậu quả, bà P. đã bị Hoàng đánh gục tại chỗ. Theo camera của nhà người dân ghi lại, Hoàng đã đánh tổng cộng 21 cái vào người bà P. Vụ việc chỉ dừng lại khi có người đến can ngăn. Bà P. được đưa đến bệnh viện cấp cứu nhưng tử vong vào khoảng 2 giờ sáng 28-3.'],
98
+ ]
99
+ scores = model.predict(pairs)
100
+ print(scores.shape)
101
+ # (5,)
102
+
103
+ # Or rank different texts based on similarity to a single text
104
+ ranks = model.rank(
105
+ 'Tính đến sáng ngày 28/3, ba nạn nhân nào đã tử vong trong vụ nổ đầu đạn tại thôn Kon Đao Yôp?\n',
106
+ [
107
+ '( NLĐO ) – Một người đàn_ông 41 tuổi vừa bị bắt do liên_quan vụ án người_mẫu Hồng_Kông - Trung_Quốc Abby_Choi ( Thái_Thiên_Phượng ) bị giết và phân xác . Đây là người thứ 6 liên_quan bị bắt_giữ Trang_South China_Morning_Post ngày 2 - 3 dẫn một nguồn tin cho biết người đàn_ông này bị bắt vì nghi_ngờ hỗ_trợ , tiếp_tay cho một nghi phạm . Chi_tiết vụ_việc chưa được công_bố . Tin_tức được đưa ra khi hơn 120 cảnh_sát rà_soát bãi rác , tìm_kiếm phần cánh_tay và phần thân của thi_thể Abby_Choi . Việc tìm_kiếm diễn ra suốt 3 ngày qua nhưng chưa tìm thấy những phần thi_thể còn lại của Abby_Choi . Tối 2 - 3 , cảnh_sát quay lại hiện_trường vụ án , tức tầng trệt của ngôi nhà 3 tầng ở làng Lung Mei_Tsuen , quận Tai_Po để tìm_kiếm lần cuối . Đây là nơi cảnh_sát phát_hiện 2 chân phụ_nữ trong tủ_lạnh , một_số vật_dụng của Abby_Choi , 2 nồi súp mà một trong đó có đầu , xương sườn nạn_nhân . Abby_Choi ( Thái_Thiên_Phượng ) bị giết , phân xác ở tuổi 28 Nghi phạm thứ 5 của vụ án là một phụ_nữ 47 tuổi , nhân_viên mát - xa , bị nghi là người_tình của bố chồng cũ Abby_Choi . Cả hai yêu nhau được khoảng 6 tháng . Người này bị_cáo_buộc hỗ_trợ , tiếp_tay cho nghi phạm . Cụ_thể , người phụ_nữ này đã giúp bố chồng cũ Abby Choi thuê căn nhà tại làng Lung Mei_Tsuen . Người này cũng thuê một căn_hộ sang_trọng khác để chồng cũ Abby Choi lẩn_trốn trước khi bị bắt . Người phụ_nữ này đã được tại_ngoại chờ điều_tra thêm nhưng phải đến báo_cáo với cảnh_sát vào cuối tháng . Việc tìm_kiếm đủ các phần thi_thể , đặc_biệt là tay và chân , được đánh_giá rất quan_trọng để xác_định tội_danh của gia_đình chồng cũ nạn_nhân . Ngoài_ra , những vật_dụng như điện_thoại , quần_áo , hung_khí cũng quan_trọng không kém . Nếu cảnh_sát không thu_thập đủ chứng_cứ hữu_hiệu cho vụ án sẽ khó định_tội giết người tại phiên_tòa tiếp_theo . Luật Hồng_Kông - Trung_Quốc có quy_định về nguyên_tắc " nghi điểm lợi_ích thuộc về bị_cáo " . Nghĩa_là nếu trong vụ án có tình_tiết không_thể làm rõ hoặc không chắc_chắn thì sẽ trở_thành điểm có lợi cho bị_cáo . Vì_thế , phía gia_đình chồng cũ của Abby Choi dù bị bắt vẫn quyết không khai địa_điểm giấu các phần thi_thể nạn_nhân . Hiện_trường vụ án - nơi cảnh_sát phát_hiện các phần thi_thể của Abby Choi_Hoa và táo được đặt xung_quanh Cảnh_sát vẫn tích_cực tìm_kiếm các phần còn lại thi_thể Abby Choi Bác_sĩ pháp_y nổi_tiếng người Đài_Loan - Trung_Quốc Cao Đại_Thành lý_giải kẻ sát_nhân hành_động man_rợ với thi_thể nạn_nhân vì muốn gây khó_khăn cho cơ_quan điều_tra trong việc xét_nghiệm ADN. Việc xử_lý phần đầu , tứ_chi là để tăng độ khó khi nhận_dạng , lấy dấu vân tay … Cảnh_sát đã bắt_giữ 5 nghi phạm trong vụ án giết người_mẫu Abby_Choi . Trong đó , ông Kwong_Kau ( 65 tuổi , bố chồng cũ ) , Anthony_Kwong ( 31 tuổi , anh_trai của chồng cũ ) và Alex_Kwon ( 28 tuổi , chồng cũ ) bị buộc_tội giết người . Bà Jenny_Li ( 63 tuổi , mẹ chồng cũ ) bị buộc_tội cản_trở , làm sai_lệch tiến_trình điều_tra . Một phụ_nữ 47 tuổi , bị nghi là người_tình của ông Kwong_Kau , đang bị cảnh_sát thẩm_vấn . Người phụ_nữ này đã giúp ông Kwong Kau thuê tầng trệt ngôi nhà hiện là hiện_trường vụ án và cũng là người đã thuê một căn_hộ khác giúp Alex_Kwon lẩn_trốn . Tòa dự_kiến xét_xử tiếp vụ án vào ngày 8 - 5 .',
108
+ '( NLĐO ) - Thấy bé gái đứng chơi trước nhà mà không có người trông giữ , Thuân đã bắt cháu bé lên nhà và thực_hiện_hành_vi hiếp_dâm đồi_bại . Tại phiên_toà sơ_thẩm ngày 28 - 3 , TAND tỉnh An_Giang tuyên_phạt bị_cáo Nguyễn_Văn_Thuân ( SN 1949 ; ngụ xã Đa_Phước , huyện An_Phú , tỉnh An_Giang ) 13 năm tù về tội " Hiếp_dâm người dưới 16 tuổi " ; đồng_thời buộc bị_cáo bồi_thường tổn_thất tinh_thần cho bị hại 20 triệu đồng . Bị_cáo Nguyễn_Văn_Thuân . Theo cáo_trạng , khoảng 15 giờ ngày 10 - 12 - 2022 , bà Đỗ_Thị S. dẫn cháu nội tên N. ( SN 2018 ) ra cặp bờ sông ( thuộc xã Đa_Phước ) chơi lô_tô . Khoảng 30 phút sau , Thuân thấy cháu N. đang chơi trước cửa_nhà Thuân và không có người trông giữ , nên nảy_sinh ý_định hiếp_dâm cháu N. Quang_cảnh phiên_tòa . Để thực_hiện , Thuân ra bế cháu N. lên hàng ba nhà mình , rồi thực_hiện_hành_vi đồi_bại đối_với cháu bé . Bị đau , cháu bé bỏ chạy ra chỗ bà nội . Khi về đến nhà , bà S. phát_hiện và nghi_ngờ Thuân xâm_hại tình_dục cháu N. nên đến Công_an xã Đa_Phước trình_báo . Ngay sau đó , Thuân bị bắt_giữ . Tại cơ_quan công_an , Thuân thừa_nhận toàn_bộ_hành_vi phạm_tội của mình .',
109
+ '( NLĐO ) - Về dịch COVID - 19 hôm_nay 22 - 3 , Bộ Y_tế cho biết số ca mắc COVID - 19 lại tăng trong 24 giờ qua . Bộ Y_tế cảnh_báo nguy_cơ xâm_nhập , lây_lan của các tác_nhân gây bệnh luôn tiềm_ẩn Về tình_hình dịch COVID - 19 hôm_nay , Bộ Y_tế cho biết từ 16 giờ ngày 21 - 3 đến 16 giờ ngày 22 - 3 , cả nước ghi_nhận 18 ca mắc , tăng so với ngày trước đó . Kể từ đầu dịch đến nay Việt_Nam có 11.527.175 ca nhiễm , đứng thứ 13 / 230 quốc_gia và vùng lãnh_thổ , trong khi với tỉ_lệ số ca nhiễm / 1 triệu dân , Việt_Nam đứng thứ 117 / 230 quốc_gia và vùng lãnh_thổ ( bình_quân cứ 1 triệu người có 116.491 ca nhiễm ) . Biểu_đồ dịch COVID - 19 Trong ngày , có thêm 14 bệnh_nhân được công_bố khỏi bệnh , nâng tổng_số ca được điều_trị khỏi lên 10.614.875 ca . Số bệnh_nhân đang thở ôxy là 4 ca . Tổng_số ca tử_vong do COVID - 19 tại Việt_Nam_tính đến nay là 43.186 ca , chiếm tỉ_lệ 0,4 % so với tổng_số ca nhiễm . Tổng_số ca tử_vong xếp thứ 26 / 230 vùng lãnh_thổ , số ca tử_vong trên 1 triệu dân xếp thứ 139 / 230 quốc_gia , vùng lãnh_thổ trên thế_giới . Ngày 21 - 3 có 4.878 liều vắc - xin phòng COVID - 19 được tiêm . Như_vậy , tổng_số liều vắc - xin đã được tiêm là 265.927.459 liều . Ngày 22 - 3 , Bộ Y_tế đã có văn_bản gửi UBND các tỉnh , thành_phố về việc tổ_chức triển_khai kế_hoạch phòng , chống dịch_bệnh truyền_nhiễm , nhất_là dịch COVID - 19 . Theo Bộ Y_tế , tình_hình dịch_bệnh truyền_nhiễm trên toàn_cầu hiện_nay được dự_báo vẫn diễn_biến khó lường . Dịch COVID - 19 hiện vẫn là tình_trạng khẩn_cấp về sức_khỏe cộng_đồng quốc_tế , tiềm_ẩn nguy_cơ bùng_phát với các biển thể mới , nhất_là khi các quốc_gia nới lỏng các biện_pháp phòng , chống dịch và thực_hiện các chính_sách mở_cửa để phát_triển kinh_tế xã_hội , giao_thương , du_lịch . Các bệnh truyền_nhiễm nguy_hiểm , mới nổi tiếp_tục xuất_hiện và lây_lan như bệnh Marburg tại khu_vực Châu_Phi , cúm A / H5N1 tại Campuchia ... Các tác_nhân gây bệnh , các chủng virus cúm liên_tục biến_đổi làm giảm khả_năng bảo_vệ của vắc - xin , tiềm_ẩn nguy_cơ đại_dịch . Bộ Y_tế cho biết dịch COVID - 19 và các bệnh truyền_nhiễm khác cơ_bản vẫn đang được kiểm_soát , tuy_nhiên nguy_cơ xâm_nhập , lây_lan của các tác_nhân gây bệnh luôn tiềm_ẩn , nhất_là trong bối_cảnh nhu_cầu giao_thương , du_lịch tăng cao ; đồng_thời một_số bệnh truyền_nhiễm lưu_hành như tay_chân miệng , sốt_xuất_huyết ... có nguy_cơ gia_tăng số mắc .',
110
+ 'TPO - Sáng 25 / 3 , lãnh_đạo Công_an quận Hải_Châu ( TP Đà_Nẵng ) cho biết , đã bắt được đối_tượng đập phá cây ATM Ngân_hàng Thương_mại CP Đông_Á trên đường Lê Duẩn . Theo thông_tin ban_đầu , ngay sau khi vào_cuộc điều_tra , Đội cảnh_sát Hình_sự Công_an quận Hải_Châu nắm thông_tin đối_tượng này đang trên xe đi vào phía Nam nên phối_hợp với Công_an tỉnh Phú_Yên bắt_giữ . Danh_tính của nghi phạm chưa được tiết_lộ . Hiện , cơ_quan công_an đang tiến_hành di_lý đối_tượng về Đà_Nẵng để phục_vụ công_tác điều_tra . Trước đó , khoảng 15h ngày 23 / 3 , trong lúc kiểm_tra các cây ATM gặp sự_cố , nhân_viên Ngân_hàng Thương_mại CP Đông_Á phát_hiện trụ ATM trên đường Lê_Duẩn ( quận Hải_Châu ) bị kẻ_gian đập phá nên trình_báo_công_an . Cây ATM bị cạy phá , hư_hỏng hoàn_toàn . Két sắt chứa tiền bị kẻ_gian lấy mất , hệ_thống điện cũng bị sự_cố .',
111
+ '(NLĐO) – Theo camera của nhà người dân ở tỉnh Tiền Giang ghi lại, Huỳnh Văn Hoàng đã đánh tổng cộng 21 cái vào người bà P. khiến nạn nhân tử vong. Ngày 28-3, Công an huyện Châu Thành, tỉnh Tiền Giang đã bắt khẩn cấp Huỳnh Văn Hoàng (SN 1970; ngụ xã Tân Hương, huyện Châu Thành) để điều tra về hành vi giết người. Hiện trường xảy ra vụ việc. Ảnh cắt ra từ clip Theo thông tin ban đầu, chiều 27-3, bà Trần Ngọc P. (SN 1955) xảy ra mâu thuẫn với Hoàng. Hoàng cầm khúc cây đến nhà bà P. tại đoạn đường nông thôn thuộc ấp Tân Thạnh, xã Tân Hương. Lúc này, bà P. cũng cầm khúc cây thách đánh nhau với Hoàng. Hậu quả, bà P. đã bị Hoàng đánh gục tại chỗ. Theo camera của nhà người dân ghi lại, Hoàng đã đánh tổng cộng 21 cái vào người bà P. Vụ việc chỉ dừng lại khi có người đến can ngăn. Bà P. được đưa đến bệnh viện cấp cứu nhưng tử vong vào khoảng 2 giờ sáng 28-3.',
112
+ ]
113
+ )
114
+ # [{'corpus_id': ..., 'score': ...}, {'corpus_id': ..., 'score': ...}, ...]
115
+ ```
116
+
117
+ <!--
118
+ ### Direct Usage (Transformers)
119
+
120
+ <details><summary>Click to see the direct usage in Transformers</summary>
121
+
122
+ </details>
123
+ -->
124
+
125
+ <!--
126
+ ### Downstream Usage (Sentence Transformers)
127
+
128
+ You can finetune this model on your own dataset.
129
+
130
+ <details><summary>Click to expand</summary>
131
+
132
+ </details>
133
+ -->
134
+
135
+ <!--
136
+ ### Out-of-Scope Use
137
+
138
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
139
+ -->
140
+
141
+ ## Evaluation
142
+
143
+ ### Metrics
144
+
145
+ #### Cross Encoder Binary Classification
146
+
147
+ * Dataset: `Quora-dev`
148
+ * Evaluated with [<code>CEBinaryClassificationEvaluator</code>](https://sbert.net/docs/package_reference/cross_encoder/evaluation.html#sentence_transformers.cross_encoder.evaluation.CEBinaryClassificationEvaluator)
149
+
150
+ | Metric | Value |
151
+ |:----------------------|:--------|
152
+ | accuracy | 1.0 |
153
+ | accuracy_threshold | 0.0001 |
154
+ | f1 | 1.0 |
155
+ | f1_threshold | 0.0001 |
156
+ | precision | 1.0 |
157
+ | recall | 1.0 |
158
+ | **average_precision** | **1.0** |
159
+
160
+ <!--
161
+ ## Bias, Risks and Limitations
162
+
163
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
164
+ -->
165
+
166
+ <!--
167
+ ### Recommendations
168
+
169
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
170
+ -->
171
+
172
+ ## Training Details
173
+
174
+ ### Training Dataset
175
+
176
+ #### Unnamed Dataset
177
+
178
+ * Size: 56,771 training samples
179
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>label</code>
180
+ * Approximate statistics based on the first 1000 samples:
181
+ | | sentence_0 | sentence_1 | label |
182
+ |:--------|:-------------------------------------------------------------------------------------------------|:-----------------------------------------------------------------------------------------------------|:-----------------------------------------------|
183
+ | type | string | string | int |
184
+ | details | <ul><li>min: 36 characters</li><li>mean: 122.05 characters</li><li>max: 276 characters</li></ul> | <ul><li>min: 749 characters</li><li>mean: 3183.01 characters</li><li>max: 15949 characters</li></ul> | <ul><li>0: ~91.00%</li><li>1: ~9.00%</li></ul> |
185
+ * Samples:
186
+ | sentence_0 | sentence_1 | label |
187
+ |:------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------|
188
+ | <code>Tính đến sáng ngày 28/3, ba nạn nhân nào đã tử vong trong vụ nổ đầu đạn tại thôn Kon Đao Yôp?<br></code> | <code>( NLĐO ) – Một người đàn_ông 41 tuổi vừa bị bắt do liên_quan vụ án người_mẫu Hồng_Kông - Trung_Quốc Abby_Choi ( Thái_Thiên_Phượng ) bị giết và phân xác . Đây là người thứ 6 liên_quan bị bắt_giữ Trang_South China_Morning_Post ngày 2 - 3 dẫn một nguồn tin cho biết người đàn_ông này bị bắt vì nghi_ngờ hỗ_trợ , tiếp_tay cho một nghi phạm . Chi_tiết vụ_việc chưa được công_bố . Tin_tức được đưa ra khi hơn 120 cảnh_sát rà_soát bãi rác , tìm_kiếm phần cánh_tay và phần thân của thi_thể Abby_Choi . Việc tìm_kiếm diễn ra suốt 3 ngày qua nhưng chưa tìm thấy những phần thi_thể còn lại của Abby_Choi . Tối 2 - 3 , cảnh_sát quay lại hiện_trường vụ án , tức tầng trệt của ngôi nhà 3 tầng ở làng Lung Mei_Tsuen , quận Tai_Po để tìm_kiếm lần cuối . Đây là nơi cảnh_sát phát_hiện 2 chân phụ_nữ trong tủ_lạnh , một_số vật_dụng của Abby_Choi , 2 nồi súp mà một trong đó có đầu , xương sườn nạn_nhân . Abby_Choi ( Thái_Thiên_Phượng ) bị giết , phân xác ở tuổi 28 Nghi phạm thứ 5 của vụ án là một phụ_nữ 47 tuổi , nh...</code> | <code>0</code> |
189
+ | <code>Nguyên nhân dẫn đến việc ông Hoàng giết bà P. là gì?<br></code> | <code>( NLĐO ) - Thấy bé gái đứng chơi trước nhà mà không có người trông giữ , Thuân đã bắt cháu bé lên nhà và thực_hiện_hành_vi hiếp_dâm đồi_bại . Tại phiên_toà sơ_thẩm ngày 28 - 3 , TAND tỉnh An_Giang tuyên_phạt bị_cáo Nguyễn_Văn_Thuân ( SN 1949 ; ngụ xã Đa_Phước , huyện An_Phú , tỉnh An_Giang ) 13 năm tù về tội " Hiếp_dâm người dưới 16 tuổi " ; đồng_thời buộc bị_cáo bồi_thường tổn_thất tinh_thần cho bị hại 20 triệu đồng . Bị_cáo Nguyễn_Văn_Thuân . Theo cáo_trạng , khoảng 15 giờ ngày 10 - 12 - 2022 , bà Đỗ_Thị S. dẫn cháu nội tên N. ( SN 2018 ) ra cặp bờ sông ( thuộc xã Đa_Phước ) chơi lô_tô . Khoảng 30 phút sau , Thuân thấy cháu N. đang chơi trước cửa_nhà Thuân và không có người trông giữ , nên nảy_sinh ý_định hiếp_dâm cháu N. Quang_cảnh phiên_tòa . Để thực_hiện , Thuân ra bế cháu N. lên hàng ba nhà mình , rồi thực_hiện_hành_vi đồi_bại đối_với cháu bé . Bị đau , cháu bé bỏ chạy ra chỗ bà nội . Khi về đến nhà , bà S. phát_hiện và nghi_ngờ Thuân xâm_hại tình_dục cháu N. nên đến Công_an xã Đ...</code> | <code>0</code> |
190
+ | <code>Vì sao WHO xếp Việt Nam vào nhóm nguy cơ cao xâm nhập bại liệt vào tháng 11/2022, trong khi các nước khác vẫn ở nhóm cũ?<br></code> | <code>( NLĐO ) - Về dịch COVID - 19 hôm_nay 22 - 3 , Bộ Y_tế cho biết số ca mắc COVID - 19 lại tăng trong 24 giờ qua . Bộ Y_tế cảnh_báo nguy_cơ xâm_nhập , lây_lan của các tác_nhân gây bệnh luôn tiềm_ẩn Về tình_hình dịch COVID - 19 hôm_nay , Bộ Y_tế cho biết từ 16 giờ ngày 21 - 3 đến 16 giờ ngày 22 - 3 , cả nước ghi_nhận 18 ca mắc , tăng so với ngày trước đó . Kể từ đầu dịch đến nay Việt_Nam có 11.527.175 ca nhiễm , đứng thứ 13 / 230 quốc_gia và vùng lãnh_thổ , trong khi với tỉ_lệ số ca nhiễm / 1 triệu dân , Việt_Nam đứng thứ 117 / 230 quốc_gia và vùng lãnh_thổ ( bình_quân cứ 1 triệu người có 116.491 ca nhiễm ) . Biểu_đồ dịch COVID - 19 Trong ngày , có thêm 14 bệnh_nhân được công_bố khỏi bệnh , nâng tổng_số ca được điều_trị khỏi lên 10.614.875 ca . Số bệnh_nhân đang thở ôxy là 4 ca . Tổng_số ca tử_vong do COVID - 19 tại Việt_Nam_tính đến nay là 43.186 ca , chiếm tỉ_lệ 0,4 % so với tổng_số ca nhiễm . Tổng_số ca tử_vong xếp thứ 26 / 230 vùng lãnh_thổ , số ca tử_vong trên 1 triệu dân xếp thứ 139...</code> | <code>0</code> |
191
+ * Loss: [<code>BinaryCrossEntropyLoss</code>](https://sbert.net/docs/package_reference/cross_encoder/losses.html#binarycrossentropyloss) with these parameters:
192
+ ```json
193
+ {
194
+ "activation_fn": "torch.nn.modules.linear.Identity",
195
+ "pos_weight": null
196
+ }
197
+ ```
198
+
199
+ ### Training Hyperparameters
200
+ #### Non-Default Hyperparameters
201
+
202
+ - `eval_strategy`: steps
203
+ - `per_device_train_batch_size`: 32
204
+ - `per_device_eval_batch_size`: 32
205
+ - `num_train_epochs`: 1
206
+ - `disable_tqdm`: False
207
+
208
+ #### All Hyperparameters
209
+ <details><summary>Click to expand</summary>
210
+
211
+ - `overwrite_output_dir`: False
212
+ - `do_predict`: False
213
+ - `eval_strategy`: steps
214
+ - `prediction_loss_only`: True
215
+ - `per_device_train_batch_size`: 32
216
+ - `per_device_eval_batch_size`: 32
217
+ - `per_gpu_train_batch_size`: None
218
+ - `per_gpu_eval_batch_size`: None
219
+ - `gradient_accumulation_steps`: 1
220
+ - `eval_accumulation_steps`: None
221
+ - `torch_empty_cache_steps`: None
222
+ - `learning_rate`: 5e-05
223
+ - `weight_decay`: 0.0
224
+ - `adam_beta1`: 0.9
225
+ - `adam_beta2`: 0.999
226
+ - `adam_epsilon`: 1e-08
227
+ - `max_grad_norm`: 1
228
+ - `num_train_epochs`: 1
229
+ - `max_steps`: -1
230
+ - `lr_scheduler_type`: linear
231
+ - `lr_scheduler_kwargs`: {}
232
+ - `warmup_ratio`: 0.0
233
+ - `warmup_steps`: 0
234
+ - `log_level`: passive
235
+ - `log_level_replica`: warning
236
+ - `log_on_each_node`: True
237
+ - `logging_nan_inf_filter`: True
238
+ - `save_safetensors`: True
239
+ - `save_on_each_node`: False
240
+ - `save_only_model`: False
241
+ - `restore_callback_states_from_checkpoint`: False
242
+ - `no_cuda`: False
243
+ - `use_cpu`: False
244
+ - `use_mps_device`: False
245
+ - `seed`: 42
246
+ - `data_seed`: None
247
+ - `jit_mode_eval`: False
248
+ - `use_ipex`: False
249
+ - `bf16`: False
250
+ - `fp16`: False
251
+ - `fp16_opt_level`: O1
252
+ - `half_precision_backend`: auto
253
+ - `bf16_full_eval`: False
254
+ - `fp16_full_eval`: False
255
+ - `tf32`: None
256
+ - `local_rank`: 0
257
+ - `ddp_backend`: None
258
+ - `tpu_num_cores`: None
259
+ - `tpu_metrics_debug`: False
260
+ - `debug`: []
261
+ - `dataloader_drop_last`: False
262
+ - `dataloader_num_workers`: 0
263
+ - `dataloader_prefetch_factor`: None
264
+ - `past_index`: -1
265
+ - `disable_tqdm`: False
266
+ - `remove_unused_columns`: True
267
+ - `label_names`: None
268
+ - `load_best_model_at_end`: False
269
+ - `ignore_data_skip`: False
270
+ - `fsdp`: []
271
+ - `fsdp_min_num_params`: 0
272
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
273
+ - `fsdp_transformer_layer_cls_to_wrap`: None
274
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
275
+ - `deepspeed`: None
276
+ - `label_smoothing_factor`: 0.0
277
+ - `optim`: adamw_torch
278
+ - `optim_args`: None
279
+ - `adafactor`: False
280
+ - `group_by_length`: False
281
+ - `length_column_name`: length
282
+ - `ddp_find_unused_parameters`: None
283
+ - `ddp_bucket_cap_mb`: None
284
+ - `ddp_broadcast_buffers`: False
285
+ - `dataloader_pin_memory`: True
286
+ - `dataloader_persistent_workers`: False
287
+ - `skip_memory_metrics`: True
288
+ - `use_legacy_prediction_loop`: False
289
+ - `push_to_hub`: False
290
+ - `resume_from_checkpoint`: None
291
+ - `hub_model_id`: None
292
+ - `hub_strategy`: every_save
293
+ - `hub_private_repo`: None
294
+ - `hub_always_push`: False
295
+ - `gradient_checkpointing`: False
296
+ - `gradient_checkpointing_kwargs`: None
297
+ - `include_inputs_for_metrics`: False
298
+ - `include_for_metrics`: []
299
+ - `eval_do_concat_batches`: True
300
+ - `fp16_backend`: auto
301
+ - `push_to_hub_model_id`: None
302
+ - `push_to_hub_organization`: None
303
+ - `mp_parameters`:
304
+ - `auto_find_batch_size`: False
305
+ - `full_determinism`: False
306
+ - `torchdynamo`: None
307
+ - `ray_scope`: last
308
+ - `ddp_timeout`: 1800
309
+ - `torch_compile`: False
310
+ - `torch_compile_backend`: None
311
+ - `torch_compile_mode`: None
312
+ - `dispatch_batches`: None
313
+ - `split_batches`: None
314
+ - `include_tokens_per_second`: False
315
+ - `include_num_input_tokens_seen`: False
316
+ - `neftune_noise_alpha`: None
317
+ - `optim_target_modules`: None
318
+ - `batch_eval_metrics`: False
319
+ - `eval_on_start`: False
320
+ - `use_liger_kernel`: False
321
+ - `eval_use_gather_object`: False
322
+ - `average_tokens_across_devices`: False
323
+ - `prompts`: None
324
+ - `batch_sampler`: batch_sampler
325
+ - `multi_dataset_batch_sampler`: proportional
326
+ - `router_mapping`: {}
327
+ - `learning_rate_mapping`: {}
328
+
329
+ </details>
330
+
331
+ ### Training Logs
332
+ | Epoch | Step | Training Loss | Quora-dev_average_precision |
333
+ |:------:|:----:|:-------------:|:---------------------------:|
334
+ | 0.2817 | 500 | 0.1006 | 0.9776 |
335
+ | 0.5634 | 1000 | 0.0097 | 0.9997 |
336
+ | 0.8451 | 1500 | 0.0018 | 1.0000 |
337
+ | 1.0 | 1775 | - | 1.0 |
338
+
339
+
340
+ ### Framework Versions
341
+ - Python: 3.10.12
342
+ - Sentence Transformers: 5.1.0
343
+ - Transformers: 4.47.0
344
+ - PyTorch: 2.5.1+cu121
345
+ - Accelerate: 1.2.1
346
+ - Datasets: 3.2.0
347
+ - Tokenizers: 0.21.0
348
+
349
+ ## Citation
350
+
351
+ ### BibTeX
352
+
353
+ #### Sentence Transformers
354
+ ```bibtex
355
+ @inproceedings{reimers-2019-sentence-bert,
356
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
357
+ author = "Reimers, Nils and Gurevych, Iryna",
358
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
359
+ month = "11",
360
+ year = "2019",
361
+ publisher = "Association for Computational Linguistics",
362
+ url = "https://arxiv.org/abs/1908.10084",
363
+ }
364
+ ```
365
+
366
+ <!--
367
+ ## Glossary
368
+
369
+ *Clearly define terms in order to be accessible across audiences.*
370
+ -->
371
+
372
+ <!--
373
+ ## Model Card Authors
374
+
375
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
376
+ -->
377
+
378
+ <!--
379
+ ## Model Card Contact
380
+
381
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
382
+ -->
added_tokens.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ {
2
+ "<mask>": 64000
3
+ }
bpe.codes ADDED
The diff for this file is too large to render. See raw diff
 
config.json ADDED
@@ -0,0 +1,38 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "_name_or_path": "itdainb/PhoRanker",
3
+ "architectures": [
4
+ "RobertaForSequenceClassification"
5
+ ],
6
+ "attention_probs_dropout_prob": 0.1,
7
+ "bos_token_id": 0,
8
+ "classifier_dropout": null,
9
+ "eos_token_id": 2,
10
+ "hidden_act": "gelu",
11
+ "hidden_dropout_prob": 0.1,
12
+ "hidden_size": 768,
13
+ "id2label": {
14
+ "0": "LABEL_0"
15
+ },
16
+ "initializer_range": 0.02,
17
+ "intermediate_size": 3072,
18
+ "label2id": {
19
+ "LABEL_0": 0
20
+ },
21
+ "layer_norm_eps": 1e-05,
22
+ "max_position_embeddings": 258,
23
+ "model_type": "roberta",
24
+ "num_attention_heads": 12,
25
+ "num_hidden_layers": 12,
26
+ "pad_token_id": 1,
27
+ "position_embedding_type": "absolute",
28
+ "sentence_transformers": {
29
+ "activation_fn": "torch.nn.modules.activation.Sigmoid",
30
+ "version": "5.1.0"
31
+ },
32
+ "tokenizer_class": "PhobertTokenizer",
33
+ "torch_dtype": "float32",
34
+ "transformers_version": "4.47.0",
35
+ "type_vocab_size": 1,
36
+ "use_cache": true,
37
+ "vocab_size": 64001
38
+ }
model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f5413dce1201c7c8ff1df8d4ae622f4c48acef60cee228964ae8879430d8a260
3
+ size 540020308
special_tokens_map.json ADDED
@@ -0,0 +1,9 @@
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": "<s>",
3
+ "cls_token": "<s>",
4
+ "eos_token": "</s>",
5
+ "mask_token": "<mask>",
6
+ "pad_token": "<pad>",
7
+ "sep_token": "</s>",
8
+ "unk_token": "<unk>"
9
+ }
tokenizer_config.json ADDED
@@ -0,0 +1,55 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "<s>",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "<pad>",
13
+ "lstrip": false,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "</s>",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "<unk>",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "64000": {
36
+ "content": "<mask>",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ }
43
+ },
44
+ "bos_token": "<s>",
45
+ "clean_up_tokenization_spaces": false,
46
+ "cls_token": "<s>",
47
+ "eos_token": "</s>",
48
+ "extra_special_tokens": {},
49
+ "mask_token": "<mask>",
50
+ "model_max_length": 256,
51
+ "pad_token": "<pad>",
52
+ "sep_token": "</s>",
53
+ "tokenizer_class": "PhobertTokenizer",
54
+ "unk_token": "<unk>"
55
+ }
vocab.txt ADDED
The diff for this file is too large to render. See raw diff