quockhangdev commited on
Commit
86545ee
·
verified ·
1 Parent(s): bfd78a1

jina-v5-small-retrieval full

Browse files
Files changed (30) hide show
  1. .gitattributes +2 -0
  2. jina-v5-small-vilegal-r-stage1/1_Pooling/config.json +5 -0
  3. jina-v5-small-vilegal-r-stage1/README.md +513 -0
  4. jina-v5-small-vilegal-r-stage1/chat_template.jinja +89 -0
  5. jina-v5-small-vilegal-r-stage1/checkpoint-123/1_Pooling/config.json +5 -0
  6. jina-v5-small-vilegal-r-stage1/checkpoint-123/README.md +513 -0
  7. jina-v5-small-vilegal-r-stage1/checkpoint-123/chat_template.jinja +89 -0
  8. jina-v5-small-vilegal-r-stage1/checkpoint-123/config.json +69 -0
  9. jina-v5-small-vilegal-r-stage1/checkpoint-123/config_sentence_transformers.json +14 -0
  10. jina-v5-small-vilegal-r-stage1/checkpoint-123/model.safetensors +3 -0
  11. jina-v5-small-vilegal-r-stage1/checkpoint-123/modules.json +20 -0
  12. jina-v5-small-vilegal-r-stage1/checkpoint-123/optimizer.pt +3 -0
  13. jina-v5-small-vilegal-r-stage1/checkpoint-123/rng_state_0.pth +3 -0
  14. jina-v5-small-vilegal-r-stage1/checkpoint-123/rng_state_1.pth +3 -0
  15. jina-v5-small-vilegal-r-stage1/checkpoint-123/rng_state_2.pth +3 -0
  16. jina-v5-small-vilegal-r-stage1/checkpoint-123/rng_state_3.pth +3 -0
  17. jina-v5-small-vilegal-r-stage1/checkpoint-123/scheduler.pt +3 -0
  18. jina-v5-small-vilegal-r-stage1/checkpoint-123/sentence_bert_config.json +10 -0
  19. jina-v5-small-vilegal-r-stage1/checkpoint-123/tokenizer.json +3 -0
  20. jina-v5-small-vilegal-r-stage1/checkpoint-123/tokenizer_config.json +29 -0
  21. jina-v5-small-vilegal-r-stage1/checkpoint-123/trainer_state.json +118 -0
  22. jina-v5-small-vilegal-r-stage1/checkpoint-123/training_args.bin +3 -0
  23. jina-v5-small-vilegal-r-stage1/config.json +69 -0
  24. jina-v5-small-vilegal-r-stage1/config_sentence_transformers.json +14 -0
  25. jina-v5-small-vilegal-r-stage1/model.safetensors +3 -0
  26. jina-v5-small-vilegal-r-stage1/modules.json +20 -0
  27. jina-v5-small-vilegal-r-stage1/sentence_bert_config.json +10 -0
  28. jina-v5-small-vilegal-r-stage1/tokenizer.json +3 -0
  29. jina-v5-small-vilegal-r-stage1/tokenizer_config.json +29 -0
  30. jina-v5-small-vilegal-r-stage1/training_args.bin +3 -0
.gitattributes CHANGED
@@ -40,3 +40,5 @@ jina-v5-nano-vilegal-r-stage1/tokenizer.json filter=lfs diff=lfs merge=lfs -text
40
  jina-v5-nano-vilegal-r-stage2/checkpoint-101/tokenizer.json filter=lfs diff=lfs merge=lfs -text
41
  jina-v5-nano-vilegal-r-stage2/tokenizer.json filter=lfs diff=lfs merge=lfs -text
42
  embeddinggemma-300m-vilegal-stage2/tokenizer.json filter=lfs diff=lfs merge=lfs -text
 
 
 
40
  jina-v5-nano-vilegal-r-stage2/checkpoint-101/tokenizer.json filter=lfs diff=lfs merge=lfs -text
41
  jina-v5-nano-vilegal-r-stage2/tokenizer.json filter=lfs diff=lfs merge=lfs -text
42
  embeddinggemma-300m-vilegal-stage2/tokenizer.json filter=lfs diff=lfs merge=lfs -text
43
+ jina-v5-small-vilegal-r-stage1/checkpoint-123/tokenizer.json filter=lfs diff=lfs merge=lfs -text
44
+ jina-v5-small-vilegal-r-stage1/tokenizer.json filter=lfs diff=lfs merge=lfs -text
jina-v5-small-vilegal-r-stage1/1_Pooling/config.json ADDED
@@ -0,0 +1,5 @@
 
 
 
 
 
 
1
+ {
2
+ "embedding_dimension": 1024,
3
+ "pooling_mode": "lasttoken",
4
+ "include_prompt": true
5
+ }
jina-v5-small-vilegal-r-stage1/README.md ADDED
@@ -0,0 +1,513 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:507152
8
+ - loss:CachedMultipleNegativesRankingLoss
9
+ base_model: jinaai/jina-embeddings-v5-text-small-retrieval
10
+ widget:
11
+ - source_sentence: Nếu một người vi phạm các quy định về vệ sinh nơi công cộng, họ
12
+ sẽ bị xử lý như thế nào?
13
+ sentences:
14
+ - 'Document: 2. Kiểm tra, xác nhận các nội dung liên quan đến công tác quay số mở
15
+ thưởng bao gồm: a) Đối với hình thức quay số mở thưởng bằng lồng cầu: - Kiểm tra,
16
+ xác nhận Hội đồng giám sát xổ số đã thực hiện nhiệm vụ kiểm tra việc khóa máy
17
+ chủ để đảm bảo toàn bộ hệ thống không phát hành được vé ngay sau thời điểm kết
18
+ thúc thời gian phát hành; - Kiểm tra, xác nhận việc tuân thủ quy trình quay số
19
+ mở thưởng được quy định tại Thể lệ quay số mở thưởng đã được công bố công khai
20
+ và quy định tại Thông tư này; - Kiểm tra, xác nhận công ty xổ số điện toán ký
21
+ xác nhận bảng tổng hợp doanh thu; - Kiểm tra, xác nhận việc sao lưu và niêm phong
22
+ dữ liệu bộ số dự thưởng của các kỳ quay số mở thưởng; - Kiểm tra, xác nhận việc
23
+ xác nhận kết quả quay số mở thưởng của Hội đồng giám sát trùng khớp với kết quả
24
+ quay số mở thưởng trên thực tế.'
25
+ - 'Document: Chương 10. KHEN THƯỞNG VÀ XỬ LÝ CÁC VI PHẠM Điều 52. Khen thưởng..
26
+ Địa phương, đơn vị, cá nhân có thành tích trong công tác bảo vệ sức khoẻ nhân
27
+ dân được Nhà nước khen thưởng vật chất và tinh thần. Thầy thuốc, lương y, dược
28
+ sĩ và nhân viên y tế khác có nhiều cống hiến trong sự nghiệp bảo vệ sức khoẻ nhân
29
+ dân, có trình độ nghiệp vụ, chuyên môn kỹ thuật giỏi, có đạo đức, được nhân dân
30
+ và đồng nghiệp tín nhiệm thì được xét tặng danh hiệu cao quý của Nhà nước. Điều
31
+ 53. Xử lý các vi phạm. Người nào có những hành vi sau đây thì tuỳ theo mức độ
32
+ nhẹ hoặc nặng sẽ bị xứ lý kỷ luật, bị xử lý hành chính hoặc bị truy cứu trách
33
+ nhiệm hình sự. 1- Vi phạm các quy định về giữ gìn vệ sinh nơi công cộng, phòng
34
+ và chống dịch, bệnh. 2- Vi phạm các quy định về khám bệnh, chữa bệnh, sản xuất
35
+ thuốc và bán thuốc. 3- Vi phạm các quy định về vệ sinh lương thực, thực phẩm,
36
+ vệ sinh lao động và các quy định khác của Luật bảo vệ sức khoẻ nhân dân.'
37
+ - 'Document: Điều 4. Mẫu các văn bản ban hành kèm theo Thông tư liên tịch 1. Đơn
38
+ xin hoãn, miễn chấp hành án phạt tù (Mẫu số 01). 2. Quyết định hoãn chấp hành
39
+ án phạt tù (Mẫu số 02). 3. Quyết định hủy Quyết định hoãn chấp hành án phạt tù
40
+ (Mẫu số 03). 4. Quyết định hủy Quyết định hoãn chấp hành án phạt tù và áp dụng
41
+ biện pháp bắt buộc chữa bệnh (Mẫu số 04). 5. Quyết định mở phiên họp xem xét miễn
42
+ chấp hành án phạt tù (Mẫu số 05). 6. Quyết định về việc xét miễn chấp hành án
43
+ phạt tù (Mẫu số 06).'
44
+ - source_sentence: Trước khi tiến hành nhận dạng, thực nghiệm điều tra, nhận biết
45
+ giọng nói, Điều tra viên phải thông báo cho Kiểm sát viên biết trước bao nhiêu
46
+ giờ?
47
+ sentences:
48
+ - 'Document: Khoản 1. Việc nhận dạng, thực nghiệm điều tra, nhận biết giọng nói
49
+ được thực hiện theo quy định tại các điều 190, 191, 204 và 421 của Bộ luật Tố
50
+ tụng hình sự. Chậm nhất 24 giờ trước khi tiến hành, Điều tra viên báo cho Kiểm
51
+ sát viên biết thời gian, địa điểm nhận dạng, thực nghiệm điều tra, nhận biết giọng
52
+ nói. Kiểm sát viên phải có mặt để kiểm sát. Điều tra viên và Kiểm sát viên phối
53
+ hợp kiểm tra, đánh giá kết quả nhận dạng, thực nghiệm điều tra, nhận biết giọng
54
+ nói để đề ra các yêu cầu điều tra tiếp theo. Trường hợp vì lý do khách quan không
55
+ có mặt để kiểm sát trực tiếp thì Kiểm sát viên báo cho Điều tra viên trước khi
56
+ tiến hành 02 giờ.'
57
+ - 'Document: Khoản 2. Giám định viên, tổ chức được trưng cầu giám định có trách
58
+ nhiệm như sau: a) Giám định và ban hành kết luận giám định trong thời hạn 05 ngày
59
+ kể từ ngày nhận được quyết định trưng cầu giám định. Trường hợp không thể tiến
60
+ hành trong thời hạn thì kịp th���i thông báo bằng văn bản để cơ quan trưng cầu giám
61
+ định biết, nêu rõ lý do, thời gian dự kiến ban hành kết luận giám định; b) Gửi
62
+ kết luận giám định cho cơ quan đã trưng cầu giám định trong thời hạn quy định
63
+ tại khoản 2 Điều 213 của Bộ luật Tố tụng hình sự; c) Kịp thời có mặt để thực hiện
64
+ kiểm tra dấu vết, thu mẫu giám định trong trường hợp quy định tại điểm a khoản
65
+ 1 Điều này; trường hợp không thể có mặt thì phải thông báo ngay và nêu rõ lý do
66
+ cho Điều tra viên biết; d) Khi tiến hành giám định, nếu thấy nội dung yêu cầu
67
+ giám định chưa rõ ràng thì yêu cầu cơ quan trưng cầu giám định giải thích và bổ
68
+ sung tài liệu. Khi cơ quan trưng cầu đề nghị, Giám định viên kịp thời giải thích
69
+ cụ thể các vấn đề trong kết luận giám định.'
70
+ - 'Document: Điều 19. Hệ thống quay số mở thưởng điện tử 1. Hệ thống quay số mở
71
+ thưởng điện tử bao gồm: a) Thiết bị quay số mở thưởng tự động, bao gồm: Hệ thống
72
+ phần cứng và phần mềm quay số tự động; b) Hệ thống camera, màn hình phục vụ cho
73
+ việc giám sát được thiết bị quay số mở thưởng tự động. 2. Yêu cầu đối với thiết
74
+ bị quay số mở thưởng tự động: a) Có xuất xứ rõ ràng, đảm bảo các tiêu chuẩn và
75
+ thông số kỹ thuật theo đúng thiết kế của nhà sản xuất và được kiểm định bởi công
76
+ ty kiểm định độc lập; b) Vận hành an toàn, ổn định và đảm bảo hoàn toàn ngẫu nhiên,
77
+ không có bất kỳ sự can thiệp nào từ bên ngoài vào kết quả mở thưởng; c) Có ít
78
+ nhất một (01) thiết bị dự phòng; d) Được lắp đặt và vận hành tại khu vực riêng
79
+ biệt và được niêm phong trong suốt quá trình hoạt động để đảm bảo tất cả các đối
80
+ tượng không có nhiệm vụ không được can thiệp vào phần cứng, phần mềm của thiết
81
+ bị quay số mở thưởng tự động;'
82
+ - source_sentence: Bộ Tài chính quy định thế nào về thành phần và cấu trúc của Hội
83
+ đồng giám sát xổ số trong công ty xổ số điện toán?
84
+ sentences:
85
+ - 'Document: Khoản 2. Thành phần Hội đồng giám sát xổ số bao gồm Chủ tịch, một số
86
+ Phó chủ tịch và các thành viên Hội đồng giám sát xổ số như sau: a) Chủ tịch Hội
87
+ đồng giám sát xổ số: là Chủ tịch hoặc Tổng giám đốc của công ty xổ số điện toán;
88
+ b) Phó chủ tịch Hội đồng giám sát xổ số: là Phó tổng giám đốc hoặc Kế toán trưởng
89
+ của công ty xổ số điện toán; c) Các thành viên Hội đồng giám sát xổ số: là lãnh
90
+ đạo một số phòng, ban nghiệp vụ của công ty xổ số điện toán; d) Công ty xổ số
91
+ điện toán có thể mời đại diện một số tổ chức chính trị - xã hội tham gia Hội đồng
92
+ giám sát xổ số với vai trò là thành viên Hội đồng giám sát xổ số.'
93
+ - 'Document: Điều 9. Công nhận điều chỉnh hạng, công nhận lại hạng nhà chung cư
94
+ 1. Việc công nhận điều chỉnh hạng hoặc công nhận lại hạng nhà chung cư được thực
95
+ hiện theo đề nghị của tổ chức, cá nhân quy định tại Điều 4 của Thông tư này. 2.
96
+ Trường hợp quyết định công nhận hạng nhà chung cư chưa hết thời hạn theo quy định
97
+ mà tổ chức, cá nhân quy định tại Điều 4 của Thông tư có nhu cầu điều chỉnh hạng
98
+ nhà chung cư thì phải nộp 01 bộ hồ sơ quy định tại Khoản 3 Điều này tại Sở Xây
99
+ dựng để được xem xét, kiểm tra và công nhận điều chỉnh hạng nhà chung cư. Trình
100
+ tự, thủ tục công nhận điều chỉnh hạng nhà chung cư được thực hiện theo quy định
101
+ tại Khoản 2 Điều 8 của Thông tư này. Khi giao quyết định công nhận hạng nhà chung
102
+ cư (đã điều chỉnh), Sở Xây dựng phải thu hồi bản gốc quyết định công nhận hạng
103
+ đang còn thời hạn để lưu hồ sơ và đăng tải thông tin, văn bản quyết định trên
104
+ Cổng thông tin điện tử của Sở Xây dựng. 3. Hồ sơ đề nghị điều chỉnh hạng nhà chung
105
+ cư bao gồm: a) Đơn đề nghị điều chỉnh hạng nhà chung cư theo mẫu hướng dẫn tham
106
+ khảo quy định tại phụ lục số 03 ban hành kèm theo Thông tư này;'
107
+ - 'Document: Điều 7. Hồ sơ đề nghị công nhận hạng nhà chung cư 1. Đơn đề nghị công
108
+ nhận hạng nhà chung cư theo mẫu hướng dẫn tham khảo quy định tại phụ lục số 03
109
+ ban hành kèm theo Thông tư này. 2. Bản sao có chứng thực Giấy phép xây dựng nhà
110
+ chung cư (đối với nhà chung cư thuộc diện phải có Giấy phép xây dựng theo quy
111
+ định của pháp luật về xây dựng). 3. Bản sao có chứng thực quyết định phê duyệt
112
+ quy hoạch chi tiết tỷ lệ 1/500 hoặc văn bản chấp thuận tổng mặt bằng khu vực có
113
+ nhà chung cư (đối với trường hợp không phải lập quy hoạch chi tiết tỷ lệ 1/500)
114
+ kèm theo bản vẽ tổng mặt bằng nhà chung cư đã được cơ quan có thẩm quyền phê duyệt.
115
+ 4. Bản sao có chứng thực văn bản thẩm định của cơ quan có thẩm quyền kèm theo
116
+ bản vẽ thiết kế cơ sở nhà chung cư theo quy định của pháp luật về xây dựng. 5.
117
+ Bản sao có chứng thực văn bản thông báo kết quả kiểm tra công tác nghiệm thu hoàn
118
+ thành công trình nhà chung cư của cơ quan chuyên môn về xây dựng. 6. Bản tự kê
119
+ khai, đánh giá phân hạng nhà chung cư của tổ chức, cá nhân đề nghị công nhận hạng
120
+ nhà chung cư theo mẫu hướng dẫn tham khảo quy định tại phụ lục số 04 ban hành
121
+ kèm theo Thông tư này.'
122
+ - source_sentence: Nếu đại lý xổ số tự chọn số điện toán không vận hành thiết bị bán
123
+ vé đúng hướng dẫn, họ sẽ phải chịu trách nhiệm gì?
124
+ sentences:
125
+ - 'Document: Khoản 1. Tổ chức vận hành hệ thống xổ số tự chọn số điện toán: a) Công
126
+ ty xổ số điện toán chịu trách nhiệm tổ chức quản lý và vận hành hệ thống xổ số
127
+ tự chọn số điện toán theo quy định của pháp luật. Các đại lý xổ số tự chọn số
128
+ điện toán vận hành các thiết bị bán vé xổ số tự chọn số điện toán theo hướng dẫn
129
+ của công ty xổ số điện toán và chịu trách nhiệm về các thiết bị được giao quản
130
+ lý theo hợp đồng ký kết giữa các bên. Các doanh nghiệp cung cấp dịch vụ mạng xã
131
+ hội trực tuyến, doanh nghiệp viễn thông tham gia vào hoạt động kinh doanh xổ số
132
+ tự chọn số điện toán chịu trách nhiệm đảm bảo an ninh mạng, an toàn thông tin
133
+ theo quy định của pháp luật; b) Hệ thống xổ số tự chọn số điện toán (máy chủ,
134
+ thiết bị đầu cuối và các thiết bị đồng bộ khác) phải được kiểm tra, bảo dưỡng,
135
+ bảo trì theo khuyến cáo của nhà sản xuất và quy định của công ty xổ số điện toán
136
+ để đảm bảo yêu cầu vận hành an toàn, chính xác;'
137
+ - 'Document: 2. Kiểm tra, xác nhận các nội dung liên quan đến công tác quay số mở
138
+ thưởng bao gồm: a) Đối với hình thức quay số mở thưởng bằng lồng cầu: - Kiểm tra,
139
+ xác nhận Hội đồng giám sát xổ số đã thực hiện nhiệm vụ kiểm tra việc khóa máy
140
+ chủ để đảm bảo toàn bộ hệ thống không phát hành được vé ngay sau thời điểm kết
141
+ thúc thời gian phát hành; - Kiểm tra, xác nhận việc tuân thủ quy trình quay số
142
+ mở thưởng được quy định tại Thể lệ quay số mở thưởng đã được công bố công khai
143
+ và quy định tại Thông tư này; - Kiểm tra, xác nhận công ty xổ số điện toán ký
144
+ xác nhận bảng tổng hợp doanh thu; - Kiểm tra, xác nhận việc sao lưu và niêm phong
145
+ dữ liệu bộ số dự thưởng của các kỳ quay số mở thưởng; - Kiểm tra, xác nhận việc
146
+ xác nhận kết quả quay số mở thưởng của Hội đồng giám sát trùng khớp với kết quả
147
+ quay số mở thưởng trên thực tế.'
148
+ - 'Document: Khoản 3. Cấp công trình của một tổ hợp các công trình hoặc một dây
149
+ chuyền công nghệ gồm nhiều hạng mục được xác định như sau: a) Trường hợp tổ hợp
150
+ các công trình hoặc dây chuyền công nghệ gồm nhiều hạng mục có quy định trong
151
+ Phụ lục I Thông tư này thì cấp công trình được xác định theo Phụ lục I Thông tư
152
+ này; b) Trường hợp tổ hợp các công trình hoặc dây chuyền công nghệ gồm nhiều hạng
153
+ mục không quy định trong Phụ lục I Thông tư này thì cấp công trình được xác định
154
+ theo cấp của công trình chính (thuộc tổ hợp các công trình hoặc dây chuyền công
155
+ nghệ) có cấp cao nhất. Cấp của công trình chính xác định theo quy định tại khoản
156
+ 2 Điều này.'
157
+ - source_sentence: Bộ Tài chính quy định công ty xổ số điện toán phải kiểm tra, b��o
158
+ dưỡng hệ thống xổ số điện toán bao nhiêu lần trong một năm?
159
+ sentences:
160
+ - 'Document: Điều 10. Tổ chức kiểm tra việc phân hạng và công nhận hạng nhà chung
161
+ cư 1. Cục Quản lý nhà và thị trường bất động sản tổ chức thực hiện kiểm tra hoặc
162
+ chủ trì, phối hợp với các cơ quan, đơn vị chức năng thuộc Bộ Xây dựng và các Bộ,
163
+ ngành có liên quan tổ chức kiểm tra định kỳ hoặc đột xuất việc phân hạng và công
164
+ nhận hạng nhà chung cư trên phạm vi cả nước. 2. Sở Xây dựng các tỉnh, thành phố
165
+ trực thuộc trung ương tổ chức thực hiện kiểm tra hoặc chủ trì, phối hợp với các
166
+ cơ quan chức năng tại địa phương tổ chức kiểm tra định kỳ hoặc đột xuất việc phân
167
+ hạng và công nhận hạng nhà chung cư trên địa bàn.'
168
+ - 'Document: đ) Được công ty xổ số điện toán kiểm tra, bảo dưỡng định kỳ theo khuyến
169
+ cáo của nhà sản xuất và quy định của công ty xổ số điện toán nhưng tối đa sáu
170
+ (06) tháng một lần. 3. Hệ thống camera, màn hình để phục vụ cho việc giám sát
171
+ quay số mở thưởng điện tử được bố trí ở những vị trí đảm bảo có thể giám sát quay
172
+ số mở thưởng. Hình ảnh theo dõi qua camera được lưu giữ trong thời gian tối thiểu
173
+ là sáu mươi (60) ngày, kể từ ngày quay số mở thưởng.'
174
+ - 'Document: Khoản 1. Cấp công trình quy định tại Thông tư này được xác định theo
175
+ các tiêu chí sau: a) Mức độ quan trọng, quy mô công suất: Áp dụng cho từng công
176
+ trình độc lập hoặc một tổ hợp các công trình hoặc một dây chuyền công nghệ gồm
177
+ nhiều hạng mục thuộc dự án đầu tư xây dựng công trình theo các loại công trình
178
+ quy định tại Phụ lục I Thông tư này; b) Quy mô kết cấu: Áp dụng cho từng công
179
+ trình độc lập thuộc dự án đầu tư xây dựng công trình theo các loại kết cấu quy
180
+ định tại Phụ lục II Thông tư này.'
181
+ pipeline_tag: sentence-similarity
182
+ library_name: sentence-transformers
183
+ ---
184
+
185
+ # SentenceTransformer based on jinaai/jina-embeddings-v5-text-small-retrieval
186
+
187
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [jinaai/jina-embeddings-v5-text-small-retrieval](https://huggingface.co/jinaai/jina-embeddings-v5-text-small-retrieval). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for retrieval.
188
+
189
+ ## Model Details
190
+
191
+ ### Model Description
192
+ - **Model Type:** Sentence Transformer
193
+ - **Base model:** [jinaai/jina-embeddings-v5-text-small-retrieval](https://huggingface.co/jinaai/jina-embeddings-v5-text-small-retrieval) <!-- at revision 6856e76bb72982e58de0620458a4e8b3614da340 -->
194
+ - **Maximum Sequence Length:** 32768 tokens
195
+ - **Output Dimensionality:** 1024 dimensions
196
+ - **Similarity Function:** Cosine Similarity
197
+ - **Supported Modality:** Text
198
+ <!-- - **Training Dataset:** Unknown -->
199
+ <!-- - **Language:** Unknown -->
200
+ <!-- - **License:** Unknown -->
201
+
202
+ ### Model Sources
203
+
204
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
205
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
206
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
207
+
208
+ ### Full Model Architecture
209
+
210
+ ```
211
+ SentenceTransformer(
212
+ (0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'Qwen3Model'})
213
+ (1): Pooling({'embedding_dimension': 1024, 'pooling_mode': 'lasttoken', 'include_prompt': True})
214
+ (2): Normalize({})
215
+ )
216
+ ```
217
+
218
+ ## Usage
219
+
220
+ ### Direct Usage (Sentence Transformers)
221
+
222
+ First install the Sentence Transformers library:
223
+
224
+ ```bash
225
+ pip install -U sentence-transformers
226
+ ```
227
+ Then you can load this model and run inference.
228
+ ```python
229
+ from sentence_transformers import SentenceTransformer
230
+
231
+ # Download from the 🤗 Hub
232
+ model = SentenceTransformer("sentence_transformers_model_id")
233
+ # Run inference
234
+ queries = [
235
+ 'Bộ Tài chính quy định công ty xổ số điện toán phải kiểm tra, bảo dưỡng hệ thống xổ số điện toán bao nhiêu lần trong một năm?',
236
+ ]
237
+ documents = [
238
+ 'Document: đ) Được công ty xổ số điện toán kiểm tra, bảo dưỡng định kỳ theo khuyến cáo của nhà sản xuất và quy định của công ty xổ số điện toán nhưng tối đa sáu (06) tháng một lần. 3. Hệ thống camera, màn hình để phục vụ cho việc giám sát quay số mở thưởng điện tử được bố trí ở những vị trí đảm bảo có thể giám sát quay số mở thưởng. Hình ảnh theo dõi qua camera được lưu giữ trong thời gian tối thiểu là sáu mươi (60) ngày, kể từ ngày quay số mở thưởng.',
239
+ 'Document: Khoản 1. Cấp công trình quy định tại Thông tư này được xác định theo các tiêu chí sau: a) Mức độ quan trọng, quy mô công suất: Áp dụng cho từng công trình độc lập hoặc một tổ hợp các công trình hoặc một dây chuyền công nghệ gồm nhiều hạng mục thuộc dự án đầu tư xây dựng công trình theo các loại công trình quy định tại Phụ lục I Thông tư này; b) Quy mô kết cấu: Áp dụng cho từng công trình độc lập thuộc dự án đầu tư xây dựng công trình theo các loại kết cấu quy định tại Phụ lục II Thông tư này.',
240
+ 'Document: Điều 10. Tổ chức kiểm tra việc phân hạng và công nhận hạng nhà chung cư 1. Cục Quản lý nhà và thị trường bất động sản tổ chức thực hiện kiểm tra hoặc chủ trì, phối hợp với các cơ quan, đơn vị chức năng thuộc Bộ Xây dựng và các Bộ, ngành có liên quan tổ chức kiểm tra định kỳ hoặc đột xuất việc phân hạng và công nhận hạng nhà chung cư trên phạm vi cả nước. 2. Sở Xây dựng các tỉnh, thành phố trực thuộc trung ương tổ chức thực hiện kiểm tra hoặc chủ trì, phối hợp với các cơ quan chức năng tại địa phương tổ chức kiểm tra định kỳ hoặc đột xuất việc phân hạng và công nhận hạng nhà chung cư trên địa bàn.',
241
+ ]
242
+ query_embeddings = model.encode_query(queries)
243
+ document_embeddings = model.encode_document(documents)
244
+ print(query_embeddings.shape, document_embeddings.shape)
245
+ # [1, 1024] [3, 1024]
246
+
247
+ # Get the similarity scores for the embeddings
248
+ similarities = model.similarity(query_embeddings, document_embeddings)
249
+ print(similarities)
250
+ # tensor([[ 0.7191, -0.0666, 0.1296]])
251
+ ```
252
+ <!--
253
+ ### Direct Usage (Transformers)
254
+
255
+ <details><summary>Click to see the direct usage in Transformers</summary>
256
+
257
+ </details>
258
+ -->
259
+
260
+ <!--
261
+ ### Downstream Usage (Sentence Transformers)
262
+
263
+ You can finetune this model on your own dataset.
264
+
265
+ <details><summary>Click to expand</summary>
266
+
267
+ </details>
268
+ -->
269
+
270
+ <!--
271
+ ### Out-of-Scope Use
272
+
273
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
274
+ -->
275
+
276
+ <!--
277
+ ## Bias, Risks and Limitations
278
+
279
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
280
+ -->
281
+
282
+ <!--
283
+ ### Recommendations
284
+
285
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
286
+ -->
287
+
288
+ ## Training Details
289
+
290
+ ### Training Dataset
291
+
292
+ #### Unnamed Dataset
293
+
294
+ * Size: 507,152 training samples
295
+ * Columns: <code>anchor</code> and <code>positive</code>
296
+ * Approximate statistics based on the first 1000 samples:
297
+ | | anchor | positive |
298
+ |:--------|:-------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------|
299
+ | type | string | string |
300
+ | details | <ul><li>min: 43 characters</li><li>mean: 117.84 characters</li><li>max: 318 characters</li></ul> | <ul><li>min: 454 characters</li><li>mean: 800.51 characters</li><li>max: 1205 characters</li></ul> |
301
+ * Samples:
302
+ | anchor | positive |
303
+ |:--------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
304
+ | <code>Bộ Giao thông vận tải quy định các đơn vị kinh doanh vận tải nào phải lắp đặt thiết bị giám sát hành trình trên xe ô tô?</code> | <code>Document: Chương I. QUY ĐỊNH CHUNG Điều 1. Phạm vi điều chỉnh. Thông tư này quy định về cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô sau (sau đây gọi chung là thiết bị giám sát hành trình). Điều 2. Đối tượng áp dụng. Thông tư này áp dụng đối với các đơn vị kinh doanh vận tải, bến xe khách, bến xe hàng, các đơn vị cung cấp dịch vụ giám sát hành trình và các cơ quan, tổ chức, cá nhân có liên quan đến việc cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô trong phạm vi toàn quốc. Điều 3. Giải thích từ ngữ. Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau: 1. Hệ thống thông tin: là tập hợp các thiết bị phần cứng, phần mềm và đường truyền dùng để thu nhận, quản lý, khai thác dữ liệu từ thiết bị giám sát hành trình. 2. Dữ liệu: là tập hợp các thông tin có cấu trúc được truyền từ thiết bị giám sát hành trình về máy chủ dịch vụ và từ máy chủ dịch vụ truyền về Tổng cục Đường bộ Việt Nam.</code> |
305
+ | <code>Bộ Giao thông vận tải giải thích như thế nào về các từ ngữ như 'hệ thống thông tin' và 'dữ liệu' trong quy định về thiết bị giám sát hành trình?</code> | <code>Document: Chương I. QUY ĐỊNH CHUNG Điều 1. Phạm vi điều chỉnh. Thông tư này quy định về cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô sau (sau đây gọi chung là thiết bị giám sát hành trình). Điều 2. Đối tượng áp dụng. Thông tư này áp dụng đối với các đơn vị kinh doanh vận tải, bến xe khách, bến xe hàng, các đơn vị cung cấp dịch vụ giám sát hành trình và các cơ quan, tổ chức, cá nhân có liên quan đến việc cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô trong phạm vi toàn quốc. Điều 3. Giải thích từ ngữ. Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau: 1. Hệ thống thông tin: là tập hợp các thiết bị phần cứng, phần mềm và đường truyền dùng để thu nhận, quản lý, khai thác dữ liệu từ thiết bị giám sát hành trình. 2. Dữ liệu: là tập hợp các thông tin có cấu trúc được truyền từ thiết bị giám sát hành trình về máy chủ dịch vụ và từ máy chủ dịch vụ truyền về Tổng cục Đường bộ Việt Nam.</code> |
306
+ | <code>Pháp luật quy định như thế nào về việc thu nhận, quản lý và khai thác dữ liệu từ thiết bị giám sát hành trình của xe ô tô?</code> | <code>Document: Chương I. QUY ĐỊNH CHUNG Điều 1. Phạm vi điều chỉnh. Thông tư này quy định về cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô sau (sau đây gọi chung là thiết bị giám sát hành trình). Điều 2. Đối tượng áp dụng. Thông tư này áp dụng đối với các đơn vị kinh doanh vận tải, bến xe khách, bến xe hàng, các đơn vị cung cấp dịch vụ giám sát hành trình và các cơ quan, tổ chức, cá nhân có liên quan đến việc cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô trong phạm vi toàn quốc. Điều 3. Giải thích từ ngữ. Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau: 1. Hệ thống thông tin: là tập hợp các thiết bị phần cứng, phần mềm và đường truyền dùng để thu nhận, quản lý, khai thác dữ liệu từ thiết bị giám sát hành trình. 2. Dữ liệu: là tập hợp các thông tin có cấu trúc được truyền từ thiết bị giám sát hành trình về máy chủ dịch vụ và từ máy chủ dịch vụ truyền về Tổng cục Đường bộ Việt Nam.</code> |
307
+ * Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
308
+ ```json
309
+ {
310
+ "scale": 20.0,
311
+ "similarity_fct": "cos_sim",
312
+ "mini_batch_size": 16,
313
+ "gather_across_devices": false,
314
+ "directions": [
315
+ "query_to_doc"
316
+ ],
317
+ "partition_mode": "joint",
318
+ "hardness_mode": null,
319
+ "hardness_strength": 0.0
320
+ }
321
+ ```
322
+
323
+ ### Training Hyperparameters
324
+ #### Non-Default Hyperparameters
325
+
326
+ - `per_device_train_batch_size`: 1024
327
+ - `num_train_epochs`: 1
328
+ - `learning_rate`: 2e-05
329
+ - `warmup_steps`: 0.1
330
+ - `bf16`: True
331
+ - `dataloader_num_workers`: 8
332
+ - `dataloader_persistent_workers`: True
333
+ - `remove_unused_columns`: False
334
+ - `ddp_find_unused_parameters`: False
335
+ - `prompts`: Query:
336
+
337
+ #### All Hyperparameters
338
+ <details><summary>Click to expand</summary>
339
+
340
+ - `per_device_train_batch_size`: 1024
341
+ - `num_train_epochs`: 1
342
+ - `max_steps`: -1
343
+ - `learning_rate`: 2e-05
344
+ - `lr_scheduler_type`: linear
345
+ - `lr_scheduler_kwargs`: None
346
+ - `warmup_steps`: 0.1
347
+ - `optim`: adamw_torch_fused
348
+ - `optim_args`: None
349
+ - `weight_decay`: 0.0
350
+ - `adam_beta1`: 0.9
351
+ - `adam_beta2`: 0.999
352
+ - `adam_epsilon`: 1e-08
353
+ - `optim_target_modules`: None
354
+ - `gradient_accumulation_steps`: 1
355
+ - `average_tokens_across_devices`: True
356
+ - `max_grad_norm`: 1.0
357
+ - `label_smoothing_factor`: 0.0
358
+ - `bf16`: True
359
+ - `fp16`: False
360
+ - `bf16_full_eval`: False
361
+ - `fp16_full_eval`: False
362
+ - `tf32`: None
363
+ - `gradient_checkpointing`: False
364
+ - `gradient_checkpointing_kwargs`: None
365
+ - `torch_compile`: False
366
+ - `torch_compile_backend`: None
367
+ - `torch_compile_mode`: None
368
+ - `use_liger_kernel`: False
369
+ - `liger_kernel_config`: None
370
+ - `use_cache`: False
371
+ - `neftune_noise_alpha`: None
372
+ - `torch_empty_cache_steps`: None
373
+ - `auto_find_batch_size`: False
374
+ - `log_on_each_node`: True
375
+ - `logging_nan_inf_filter`: True
376
+ - `include_num_input_tokens_seen`: no
377
+ - `log_level`: passive
378
+ - `log_level_replica`: warning
379
+ - `disable_tqdm`: False
380
+ - `project`: huggingface
381
+ - `trackio_space_id`: trackio
382
+ - `per_device_eval_batch_size`: 8
383
+ - `prediction_loss_only`: True
384
+ - `eval_on_start`: False
385
+ - `eval_do_concat_batches`: True
386
+ - `eval_use_gather_object`: False
387
+ - `eval_accumulation_steps`: None
388
+ - `include_for_metrics`: []
389
+ - `batch_eval_metrics`: False
390
+ - `save_only_model`: False
391
+ - `save_on_each_node`: False
392
+ - `enable_jit_checkpoint`: False
393
+ - `push_to_hub`: False
394
+ - `hub_private_repo`: None
395
+ - `hub_model_id`: None
396
+ - `hub_strategy`: every_save
397
+ - `hub_always_push`: False
398
+ - `hub_revision`: None
399
+ - `load_best_model_at_end`: False
400
+ - `ignore_data_skip`: False
401
+ - `restore_callback_states_from_checkpoint`: False
402
+ - `full_determinism`: False
403
+ - `seed`: 42
404
+ - `data_seed`: None
405
+ - `use_cpu`: False
406
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
407
+ - `parallelism_config`: None
408
+ - `dataloader_drop_last`: True
409
+ - `dataloader_num_workers`: 8
410
+ - `dataloader_pin_memory`: True
411
+ - `dataloader_persistent_workers`: True
412
+ - `dataloader_prefetch_factor`: None
413
+ - `remove_unused_columns`: False
414
+ - `label_names`: None
415
+ - `train_sampling_strategy`: random
416
+ - `length_column_name`: length
417
+ - `ddp_find_unused_parameters`: False
418
+ - `ddp_bucket_cap_mb`: None
419
+ - `ddp_broadcast_buffers`: False
420
+ - `ddp_backend`: None
421
+ - `ddp_timeout`: 1800
422
+ - `fsdp`: []
423
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
424
+ - `deepspeed`: None
425
+ - `debug`: []
426
+ - `skip_memory_metrics`: True
427
+ - `do_predict`: False
428
+ - `resume_from_checkpoint`: None
429
+ - `warmup_ratio`: None
430
+ - `local_rank`: -1
431
+ - `prompts`: Query:
432
+ - `batch_sampler`: batch_sampler
433
+ - `multi_dataset_batch_sampler`: proportional
434
+ - `router_mapping`: {}
435
+ - `learning_rate_mapping`: {}
436
+
437
+ </details>
438
+
439
+ ### Training Logs
440
+ | Epoch | Step | Training Loss |
441
+ |:------:|:----:|:-------------:|
442
+ | 0.0813 | 10 | 0.4425 |
443
+ | 0.1626 | 20 | 0.2380 |
444
+ | 0.2439 | 30 | 0.1780 |
445
+ | 0.3252 | 40 | 0.1593 |
446
+ | 0.4065 | 50 | 0.1526 |
447
+ | 0.4878 | 60 | 0.1563 |
448
+ | 0.5691 | 70 | 0.1427 |
449
+ | 0.6504 | 80 | 0.1461 |
450
+ | 0.7317 | 90 | 0.1420 |
451
+ | 0.8130 | 100 | 0.1447 |
452
+ | 0.8943 | 110 | 0.1422 |
453
+ | 0.9756 | 120 | 0.1396 |
454
+
455
+
456
+ ### Training Time
457
+ - **Training**: 30.5 minutes
458
+
459
+ ### Framework Versions
460
+ - Python: 3.10.20
461
+ - Sentence Transformers: 5.4.1
462
+ - Transformers: 5.5.4
463
+ - PyTorch: 2.9.1+cu130
464
+ - Accelerate: 1.13.0
465
+ - Datasets: 4.8.4
466
+ - Tokenizers: 0.22.2
467
+
468
+ ## Citation
469
+
470
+ ### BibTeX
471
+
472
+ #### Sentence Transformers
473
+ ```bibtex
474
+ @inproceedings{reimers-2019-sentence-bert,
475
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
476
+ author = "Reimers, Nils and Gurevych, Iryna",
477
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
478
+ month = "11",
479
+ year = "2019",
480
+ publisher = "Association for Computational Linguistics",
481
+ url = "https://arxiv.org/abs/1908.10084",
482
+ }
483
+ ```
484
+
485
+ #### CachedMultipleNegativesRankingLoss
486
+ ```bibtex
487
+ @misc{gao2021scaling,
488
+ title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
489
+ author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
490
+ year={2021},
491
+ eprint={2101.06983},
492
+ archivePrefix={arXiv},
493
+ primaryClass={cs.LG}
494
+ }
495
+ ```
496
+
497
+ <!--
498
+ ## Glossary
499
+
500
+ *Clearly define terms in order to be accessible across audiences.*
501
+ -->
502
+
503
+ <!--
504
+ ## Model Card Authors
505
+
506
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
507
+ -->
508
+
509
+ <!--
510
+ ## Model Card Contact
511
+
512
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
513
+ -->
jina-v5-small-vilegal-r-stage1/chat_template.jinja ADDED
@@ -0,0 +1,89 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {%- if tools %}
2
+ {{- '<|im_start|>system\n' }}
3
+ {%- if messages[0].role == 'system' %}
4
+ {{- messages[0].content + '\n\n' }}
5
+ {%- endif %}
6
+ {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
7
+ {%- for tool in tools %}
8
+ {{- "\n" }}
9
+ {{- tool | tojson }}
10
+ {%- endfor %}
11
+ {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
12
+ {%- else %}
13
+ {%- if messages[0].role == 'system' %}
14
+ {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
15
+ {%- endif %}
16
+ {%- endif %}
17
+ {%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
18
+ {%- for message in messages[::-1] %}
19
+ {%- set index = (messages|length - 1) - loop.index0 %}
20
+ {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
21
+ {%- set ns.multi_step_tool = false %}
22
+ {%- set ns.last_query_index = index %}
23
+ {%- endif %}
24
+ {%- endfor %}
25
+ {%- for message in messages %}
26
+ {%- if message.content is string %}
27
+ {%- set content = message.content %}
28
+ {%- else %}
29
+ {%- set content = '' %}
30
+ {%- endif %}
31
+ {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
32
+ {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
33
+ {%- elif message.role == "assistant" %}
34
+ {%- set reasoning_content = '' %}
35
+ {%- if message.reasoning_content is string %}
36
+ {%- set reasoning_content = message.reasoning_content %}
37
+ {%- else %}
38
+ {%- if '</think>' in content %}
39
+ {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
40
+ {%- set content = content.split('</think>')[-1].lstrip('\n') %}
41
+ {%- endif %}
42
+ {%- endif %}
43
+ {%- if loop.index0 > ns.last_query_index %}
44
+ {%- if loop.last or (not loop.last and reasoning_content) %}
45
+ {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
46
+ {%- else %}
47
+ {{- '<|im_start|>' + message.role + '\n' + content }}
48
+ {%- endif %}
49
+ {%- else %}
50
+ {{- '<|im_start|>' + message.role + '\n' + content }}
51
+ {%- endif %}
52
+ {%- if message.tool_calls %}
53
+ {%- for tool_call in message.tool_calls %}
54
+ {%- if (loop.first and content) or (not loop.first) %}
55
+ {{- '\n' }}
56
+ {%- endif %}
57
+ {%- if tool_call.function %}
58
+ {%- set tool_call = tool_call.function %}
59
+ {%- endif %}
60
+ {{- '<tool_call>\n{"name": "' }}
61
+ {{- tool_call.name }}
62
+ {{- '", "arguments": ' }}
63
+ {%- if tool_call.arguments is string %}
64
+ {{- tool_call.arguments }}
65
+ {%- else %}
66
+ {{- tool_call.arguments | tojson }}
67
+ {%- endif %}
68
+ {{- '}\n</tool_call>' }}
69
+ {%- endfor %}
70
+ {%- endif %}
71
+ {{- '<|im_end|>\n' }}
72
+ {%- elif message.role == "tool" %}
73
+ {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
74
+ {{- '<|im_start|>user' }}
75
+ {%- endif %}
76
+ {{- '\n<tool_response>\n' }}
77
+ {{- content }}
78
+ {{- '\n</tool_response>' }}
79
+ {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
80
+ {{- '<|im_end|>\n' }}
81
+ {%- endif %}
82
+ {%- endif %}
83
+ {%- endfor %}
84
+ {%- if add_generation_prompt %}
85
+ {{- '<|im_start|>assistant\n' }}
86
+ {%- if enable_thinking is defined and enable_thinking is false %}
87
+ {{- '<think>\n\n</think>\n\n' }}
88
+ {%- endif %}
89
+ {%- endif %}
jina-v5-small-vilegal-r-stage1/checkpoint-123/1_Pooling/config.json ADDED
@@ -0,0 +1,5 @@
 
 
 
 
 
 
1
+ {
2
+ "embedding_dimension": 1024,
3
+ "pooling_mode": "lasttoken",
4
+ "include_prompt": true
5
+ }
jina-v5-small-vilegal-r-stage1/checkpoint-123/README.md ADDED
@@ -0,0 +1,513 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - generated_from_trainer
7
+ - dataset_size:507152
8
+ - loss:CachedMultipleNegativesRankingLoss
9
+ base_model: jinaai/jina-embeddings-v5-text-small-retrieval
10
+ widget:
11
+ - source_sentence: Nếu một người vi phạm các quy định về vệ sinh nơi công cộng, họ
12
+ sẽ bị xử lý như thế nào?
13
+ sentences:
14
+ - 'Document: 2. Kiểm tra, xác nhận các nội dung liên quan đến công tác quay số mở
15
+ thưởng bao gồm: a) Đối với hình thức quay số mở thưởng bằng lồng cầu: - Kiểm tra,
16
+ xác nhận Hội đồng giám sát xổ số đã thực hiện nhiệm vụ kiểm tra việc khóa máy
17
+ chủ để đảm bảo toàn bộ hệ thống không phát hành được vé ngay sau thời điểm kết
18
+ thúc thời gian phát hành; - Kiểm tra, xác nhận việc tuân thủ quy trình quay số
19
+ mở thưởng được quy định tại Thể lệ quay số mở thưởng đã được công bố công khai
20
+ và quy định tại Thông tư này; - Kiểm tra, xác nhận công ty xổ số điện toán ký
21
+ xác nhận bảng tổng hợp doanh thu; - Kiểm tra, xác nhận việc sao lưu và niêm phong
22
+ dữ liệu bộ số dự thưởng của các kỳ quay số mở thưởng; - Kiểm tra, xác nhận việc
23
+ xác nhận kết quả quay số mở thưởng của Hội đồng giám sát trùng khớp với kết quả
24
+ quay số mở thưởng trên thực tế.'
25
+ - 'Document: Chương 10. KHEN THƯỞNG VÀ XỬ LÝ CÁC VI PHẠM Điều 52. Khen thưởng..
26
+ Địa phương, đơn vị, cá nhân có thành tích trong công tác bảo vệ sức khoẻ nhân
27
+ dân được Nhà nước khen thưởng vật chất và tinh thần. Thầy thuốc, lương y, dược
28
+ sĩ và nhân viên y tế khác có nhiều cống hiến trong sự nghiệp bảo vệ sức khoẻ nhân
29
+ dân, có trình độ nghiệp vụ, chuyên môn kỹ thuật giỏi, có đạo đức, được nhân dân
30
+ và đồng nghiệp tín nhiệm thì được xét tặng danh hiệu cao quý của Nhà nước. Điều
31
+ 53. Xử lý các vi phạm. Người nào có những hành vi sau đây thì tuỳ theo mức độ
32
+ nhẹ hoặc nặng sẽ bị xứ lý kỷ luật, bị xử lý hành chính hoặc bị truy cứu trách
33
+ nhiệm hình sự. 1- Vi phạm các quy định về giữ gìn vệ sinh nơi công cộng, phòng
34
+ và chống dịch, bệnh. 2- Vi phạm các quy định về khám bệnh, chữa bệnh, sản xuất
35
+ thuốc và bán thuốc. 3- Vi phạm các quy định về vệ sinh lương thực, thực phẩm,
36
+ vệ sinh lao động và các quy định khác của Luật bảo vệ sức khoẻ nhân dân.'
37
+ - 'Document: Điều 4. Mẫu các văn bản ban hành kèm theo Thông tư liên tịch 1. Đơn
38
+ xin hoãn, miễn chấp hành án phạt tù (Mẫu số 01). 2. Quyết định hoãn chấp hành
39
+ án phạt tù (Mẫu số 02). 3. Quyết định hủy Quyết định hoãn chấp hành án phạt tù
40
+ (Mẫu số 03). 4. Quyết định hủy Quyết định hoãn chấp hành án phạt tù và áp dụng
41
+ biện pháp bắt buộc chữa bệnh (Mẫu số 04). 5. Quyết định mở phiên họp xem xét miễn
42
+ chấp hành án phạt tù (Mẫu số 05). 6. Quyết định về việc xét miễn chấp hành án
43
+ phạt tù (Mẫu số 06).'
44
+ - source_sentence: Trước khi tiến hành nhận dạng, thực nghiệm điều tra, nhận biết
45
+ giọng nói, Điều tra viên phải thông báo cho Kiểm sát viên biết trước bao nhiêu
46
+ giờ?
47
+ sentences:
48
+ - 'Document: Khoản 1. Việc nhận dạng, thực nghiệm điều tra, nhận biết giọng nói
49
+ được thực hiện theo quy định tại các điều 190, 191, 204 và 421 của Bộ luật Tố
50
+ tụng hình sự. Chậm nhất 24 giờ trước khi tiến hành, Điều tra viên báo cho Kiểm
51
+ sát viên biết thời gian, địa điểm nhận dạng, thực nghiệm điều tra, nhận biết giọng
52
+ nói. Kiểm sát viên phải có mặt để kiểm sát. Điều tra viên và Kiểm sát viên phối
53
+ hợp kiểm tra, đánh giá kết quả nhận dạng, thực nghiệm điều tra, nhận biết giọng
54
+ nói để đề ra các yêu cầu điều tra tiếp theo. Trường hợp vì lý do khách quan không
55
+ có mặt để kiểm sát trực tiếp thì Kiểm sát viên báo cho Điều tra viên trước khi
56
+ tiến hành 02 giờ.'
57
+ - 'Document: Khoản 2. Giám định viên, tổ chức được trưng cầu giám định có trách
58
+ nhiệm như sau: a) Giám định và ban hành kết luận giám định trong thời hạn 05 ngày
59
+ kể từ ngày nhận được quyết định trưng cầu giám định. Trường hợp không thể tiến
60
+ hành trong thời hạn thì kịp th���i thông báo bằng văn bản để cơ quan trưng cầu giám
61
+ định biết, nêu rõ lý do, thời gian dự kiến ban hành kết luận giám định; b) Gửi
62
+ kết luận giám định cho cơ quan đã trưng cầu giám định trong thời hạn quy định
63
+ tại khoản 2 Điều 213 của Bộ luật Tố tụng hình sự; c) Kịp thời có mặt để thực hiện
64
+ kiểm tra dấu vết, thu mẫu giám định trong trường hợp quy định tại điểm a khoản
65
+ 1 Điều này; trường hợp không thể có mặt thì phải thông báo ngay và nêu rõ lý do
66
+ cho Điều tra viên biết; d) Khi tiến hành giám định, nếu thấy nội dung yêu cầu
67
+ giám định chưa rõ ràng thì yêu cầu cơ quan trưng cầu giám định giải thích và bổ
68
+ sung tài liệu. Khi cơ quan trưng cầu đề nghị, Giám định viên kịp thời giải thích
69
+ cụ thể các vấn đề trong kết luận giám định.'
70
+ - 'Document: Điều 19. Hệ thống quay số mở thưởng điện tử 1. Hệ thống quay số mở
71
+ thưởng điện tử bao gồm: a) Thiết bị quay số mở thưởng tự động, bao gồm: Hệ thống
72
+ phần cứng và phần mềm quay số tự động; b) Hệ thống camera, màn hình phục vụ cho
73
+ việc giám sát được thiết bị quay số mở thưởng tự động. 2. Yêu cầu đối với thiết
74
+ bị quay số mở thưởng tự động: a) Có xuất xứ rõ ràng, đảm bảo các tiêu chuẩn và
75
+ thông số kỹ thuật theo đúng thiết kế của nhà sản xuất và được kiểm định bởi công
76
+ ty kiểm định độc lập; b) Vận hành an toàn, ổn định và đảm bảo hoàn toàn ngẫu nhiên,
77
+ không có bất kỳ sự can thiệp nào từ bên ngoài vào kết quả mở thưởng; c) Có ít
78
+ nhất một (01) thiết bị dự phòng; d) Được lắp đặt và vận hành tại khu vực riêng
79
+ biệt và được niêm phong trong suốt quá trình hoạt động để đảm bảo tất cả các đối
80
+ tượng không có nhiệm vụ không được can thiệp vào phần cứng, phần mềm của thiết
81
+ bị quay số mở thưởng tự động;'
82
+ - source_sentence: Bộ Tài chính quy định thế nào về thành phần và cấu trúc của Hội
83
+ đồng giám sát xổ số trong công ty xổ số điện toán?
84
+ sentences:
85
+ - 'Document: Khoản 2. Thành phần Hội đồng giám sát xổ số bao gồm Chủ tịch, một số
86
+ Phó chủ tịch và các thành viên Hội đồng giám sát xổ số như sau: a) Chủ tịch Hội
87
+ đồng giám sát xổ số: là Chủ tịch hoặc Tổng giám đốc của công ty xổ số điện toán;
88
+ b) Phó chủ tịch Hội đồng giám sát xổ số: là Phó tổng giám đốc hoặc Kế toán trưởng
89
+ của công ty xổ số điện toán; c) Các thành viên Hội đồng giám sát xổ số: là lãnh
90
+ đạo một số phòng, ban nghiệp vụ của công ty xổ số điện toán; d) Công ty xổ số
91
+ điện toán có thể mời đại diện một số tổ chức chính trị - xã hội tham gia Hội đồng
92
+ giám sát xổ số với vai trò là thành viên Hội đồng giám sát xổ số.'
93
+ - 'Document: Điều 9. Công nhận điều chỉnh hạng, công nhận lại hạng nhà chung cư
94
+ 1. Việc công nhận điều chỉnh hạng hoặc công nhận lại hạng nhà chung cư được thực
95
+ hiện theo đề nghị của tổ chức, cá nhân quy định tại Điều 4 của Thông tư này. 2.
96
+ Trường hợp quyết định công nhận hạng nhà chung cư chưa hết thời hạn theo quy định
97
+ mà tổ chức, cá nhân quy định tại Điều 4 của Thông tư có nhu cầu điều chỉnh hạng
98
+ nhà chung cư thì phải nộp 01 bộ hồ sơ quy định tại Khoản 3 Điều này tại Sở Xây
99
+ dựng để được xem xét, kiểm tra và công nhận điều chỉnh hạng nhà chung cư. Trình
100
+ tự, thủ tục công nhận điều chỉnh hạng nhà chung cư được thực hiện theo quy định
101
+ tại Khoản 2 Điều 8 của Thông tư này. Khi giao quyết định công nhận hạng nhà chung
102
+ cư (đã điều chỉnh), Sở Xây dựng phải thu hồi bản gốc quyết định công nhận hạng
103
+ đang còn thời hạn để lưu hồ sơ và đăng tải thông tin, văn bản quyết định trên
104
+ Cổng thông tin điện tử của Sở Xây dựng. 3. Hồ sơ đề nghị điều chỉnh hạng nhà chung
105
+ cư bao gồm: a) Đơn đề nghị điều chỉnh hạng nhà chung cư theo mẫu hướng dẫn tham
106
+ khảo quy định tại phụ lục số 03 ban hành kèm theo Thông tư này;'
107
+ - 'Document: Điều 7. Hồ sơ đề nghị công nhận hạng nhà chung cư 1. Đơn đề nghị công
108
+ nhận hạng nhà chung cư theo mẫu hướng dẫn tham khảo quy định tại phụ lục số 03
109
+ ban hành kèm theo Thông tư này. 2. Bản sao có chứng thực Giấy phép xây dựng nhà
110
+ chung cư (đối với nhà chung cư thuộc diện phải có Giấy phép xây dựng theo quy
111
+ định của pháp luật về xây dựng). 3. Bản sao có chứng thực quyết định phê duyệt
112
+ quy hoạch chi tiết tỷ lệ 1/500 hoặc văn bản chấp thuận tổng mặt bằng khu vực có
113
+ nhà chung cư (đối với trường hợp không phải lập quy hoạch chi tiết tỷ lệ 1/500)
114
+ kèm theo bản vẽ tổng mặt bằng nhà chung cư đã được cơ quan có thẩm quyền phê duyệt.
115
+ 4. Bản sao có chứng thực văn bản thẩm định của cơ quan có thẩm quyền kèm theo
116
+ bản vẽ thiết kế cơ sở nhà chung cư theo quy định của pháp luật về xây dựng. 5.
117
+ Bản sao có chứng thực văn bản thông báo kết quả kiểm tra công tác nghiệm thu hoàn
118
+ thành công trình nhà chung cư của cơ quan chuyên môn về xây dựng. 6. Bản tự kê
119
+ khai, đánh giá phân hạng nhà chung cư của tổ chức, cá nhân đề nghị công nhận hạng
120
+ nhà chung cư theo mẫu hướng dẫn tham khảo quy định tại phụ lục số 04 ban hành
121
+ kèm theo Thông tư này.'
122
+ - source_sentence: Nếu đại lý xổ số tự chọn số điện toán không vận hành thiết bị bán
123
+ vé đúng hướng dẫn, họ sẽ phải chịu trách nhiệm gì?
124
+ sentences:
125
+ - 'Document: Khoản 1. Tổ chức vận hành hệ thống xổ số tự chọn số điện toán: a) Công
126
+ ty xổ số điện toán chịu trách nhiệm tổ chức quản lý và vận hành hệ thống xổ số
127
+ tự chọn số điện toán theo quy định của pháp luật. Các đại lý xổ số tự chọn số
128
+ điện toán vận hành các thiết bị bán vé xổ số tự chọn số điện toán theo hướng dẫn
129
+ của công ty xổ số điện toán và chịu trách nhiệm về các thiết bị được giao quản
130
+ lý theo hợp đồng ký kết giữa các bên. Các doanh nghiệp cung cấp dịch vụ mạng xã
131
+ hội trực tuyến, doanh nghiệp viễn thông tham gia vào hoạt động kinh doanh xổ số
132
+ tự chọn số điện toán chịu trách nhiệm đảm bảo an ninh mạng, an toàn thông tin
133
+ theo quy định của pháp luật; b) Hệ thống xổ số tự chọn số điện toán (máy chủ,
134
+ thiết bị đầu cuối và các thiết bị đồng bộ khác) phải được kiểm tra, bảo dưỡng,
135
+ bảo trì theo khuyến cáo của nhà sản xuất và quy định của công ty xổ số điện toán
136
+ để đảm bảo yêu cầu vận hành an toàn, chính xác;'
137
+ - 'Document: 2. Kiểm tra, xác nhận các nội dung liên quan đến công tác quay số mở
138
+ thưởng bao gồm: a) Đối với hình thức quay số mở thưởng bằng lồng cầu: - Kiểm tra,
139
+ xác nhận Hội đồng giám sát xổ số đã thực hiện nhiệm vụ kiểm tra việc khóa máy
140
+ chủ để đảm bảo toàn bộ hệ thống không phát hành được vé ngay sau thời điểm kết
141
+ thúc thời gian phát hành; - Kiểm tra, xác nhận việc tuân thủ quy trình quay số
142
+ mở thưởng được quy định tại Thể lệ quay số mở thưởng đã được công bố công khai
143
+ và quy định tại Thông tư này; - Kiểm tra, xác nhận công ty xổ số điện toán ký
144
+ xác nhận bảng tổng hợp doanh thu; - Kiểm tra, xác nhận việc sao lưu và niêm phong
145
+ dữ liệu bộ số dự thưởng của các kỳ quay số mở thưởng; - Kiểm tra, xác nhận việc
146
+ xác nhận kết quả quay số mở thưởng của Hội đồng giám sát trùng khớp với kết quả
147
+ quay số mở thưởng trên thực tế.'
148
+ - 'Document: Khoản 3. Cấp công trình của một tổ hợp các công trình hoặc một dây
149
+ chuyền công nghệ gồm nhiều hạng mục được xác định như sau: a) Trường hợp tổ hợp
150
+ các công trình hoặc dây chuyền công nghệ gồm nhiều hạng mục có quy định trong
151
+ Phụ lục I Thông tư này thì cấp công trình được xác định theo Phụ lục I Thông tư
152
+ này; b) Trường hợp tổ hợp các công trình hoặc dây chuyền công nghệ gồm nhiều hạng
153
+ mục không quy định trong Phụ lục I Thông tư này thì cấp công trình được xác định
154
+ theo cấp của công trình chính (thuộc tổ hợp các công trình hoặc dây chuyền công
155
+ nghệ) có cấp cao nhất. Cấp của công trình chính xác định theo quy định tại khoản
156
+ 2 Điều này.'
157
+ - source_sentence: Bộ Tài chính quy định công ty xổ số điện toán phải kiểm tra, b��o
158
+ dưỡng hệ thống xổ số điện toán bao nhiêu lần trong một năm?
159
+ sentences:
160
+ - 'Document: Điều 10. Tổ chức kiểm tra việc phân hạng và công nhận hạng nhà chung
161
+ cư 1. Cục Quản lý nhà và thị trường bất động sản tổ chức thực hiện kiểm tra hoặc
162
+ chủ trì, phối hợp với các cơ quan, đơn vị chức năng thuộc Bộ Xây dựng và các Bộ,
163
+ ngành có liên quan tổ chức kiểm tra định kỳ hoặc đột xuất việc phân hạng và công
164
+ nhận hạng nhà chung cư trên phạm vi cả nước. 2. Sở Xây dựng các tỉnh, thành phố
165
+ trực thuộc trung ương tổ chức thực hiện kiểm tra hoặc chủ trì, phối hợp với các
166
+ cơ quan chức năng tại địa phương tổ chức kiểm tra định kỳ hoặc đột xuất việc phân
167
+ hạng và công nhận hạng nhà chung cư trên địa bàn.'
168
+ - 'Document: đ) Được công ty xổ số điện toán kiểm tra, bảo dưỡng định kỳ theo khuyến
169
+ cáo của nhà sản xuất và quy định của công ty xổ số điện toán nhưng tối đa sáu
170
+ (06) tháng một lần. 3. Hệ thống camera, màn hình để phục vụ cho việc giám sát
171
+ quay số mở thưởng điện tử được bố trí ở những vị trí đảm bảo có thể giám sát quay
172
+ số mở thưởng. Hình ảnh theo dõi qua camera được lưu giữ trong thời gian tối thiểu
173
+ là sáu mươi (60) ngày, kể từ ngày quay số mở thưởng.'
174
+ - 'Document: Khoản 1. Cấp công trình quy định tại Thông tư này được xác định theo
175
+ các tiêu chí sau: a) Mức độ quan trọng, quy mô công suất: Áp dụng cho từng công
176
+ trình độc lập hoặc một tổ hợp các công trình hoặc một dây chuyền công nghệ gồm
177
+ nhiều hạng mục thuộc dự án đầu tư xây dựng công trình theo các loại công trình
178
+ quy định tại Phụ lục I Thông tư này; b) Quy mô kết cấu: Áp dụng cho từng công
179
+ trình độc lập thuộc dự án đầu tư xây dựng công trình theo các loại kết cấu quy
180
+ định tại Phụ lục II Thông tư này.'
181
+ pipeline_tag: sentence-similarity
182
+ library_name: sentence-transformers
183
+ ---
184
+
185
+ # SentenceTransformer based on jinaai/jina-embeddings-v5-text-small-retrieval
186
+
187
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [jinaai/jina-embeddings-v5-text-small-retrieval](https://huggingface.co/jinaai/jina-embeddings-v5-text-small-retrieval). It maps sentences & paragraphs to a 1024-dimensional dense vector space and can be used for retrieval.
188
+
189
+ ## Model Details
190
+
191
+ ### Model Description
192
+ - **Model Type:** Sentence Transformer
193
+ - **Base model:** [jinaai/jina-embeddings-v5-text-small-retrieval](https://huggingface.co/jinaai/jina-embeddings-v5-text-small-retrieval) <!-- at revision 6856e76bb72982e58de0620458a4e8b3614da340 -->
194
+ - **Maximum Sequence Length:** 32768 tokens
195
+ - **Output Dimensionality:** 1024 dimensions
196
+ - **Similarity Function:** Cosine Similarity
197
+ - **Supported Modality:** Text
198
+ <!-- - **Training Dataset:** Unknown -->
199
+ <!-- - **Language:** Unknown -->
200
+ <!-- - **License:** Unknown -->
201
+
202
+ ### Model Sources
203
+
204
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
205
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
206
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
207
+
208
+ ### Full Model Architecture
209
+
210
+ ```
211
+ SentenceTransformer(
212
+ (0): Transformer({'transformer_task': 'feature-extraction', 'modality_config': {'text': {'method': 'forward', 'method_output_name': 'last_hidden_state'}}, 'module_output_name': 'token_embeddings', 'architecture': 'Qwen3Model'})
213
+ (1): Pooling({'embedding_dimension': 1024, 'pooling_mode': 'lasttoken', 'include_prompt': True})
214
+ (2): Normalize({})
215
+ )
216
+ ```
217
+
218
+ ## Usage
219
+
220
+ ### Direct Usage (Sentence Transformers)
221
+
222
+ First install the Sentence Transformers library:
223
+
224
+ ```bash
225
+ pip install -U sentence-transformers
226
+ ```
227
+ Then you can load this model and run inference.
228
+ ```python
229
+ from sentence_transformers import SentenceTransformer
230
+
231
+ # Download from the 🤗 Hub
232
+ model = SentenceTransformer("sentence_transformers_model_id")
233
+ # Run inference
234
+ queries = [
235
+ 'Bộ Tài chính quy định công ty xổ số điện toán phải kiểm tra, bảo dưỡng hệ thống xổ số điện toán bao nhiêu lần trong một năm?',
236
+ ]
237
+ documents = [
238
+ 'Document: đ) Được công ty xổ số điện toán kiểm tra, bảo dưỡng định kỳ theo khuyến cáo của nhà sản xuất và quy định của công ty xổ số điện toán nhưng tối đa sáu (06) tháng một lần. 3. Hệ thống camera, màn hình để phục vụ cho việc giám sát quay số mở thưởng điện tử được bố trí ở những vị trí đảm bảo có thể giám sát quay số mở thưởng. Hình ảnh theo dõi qua camera được lưu giữ trong thời gian tối thiểu là sáu mươi (60) ngày, kể từ ngày quay số mở thưởng.',
239
+ 'Document: Khoản 1. Cấp công trình quy định tại Thông tư này được xác định theo các tiêu chí sau: a) Mức độ quan trọng, quy mô công suất: Áp dụng cho từng công trình độc lập hoặc một tổ hợp các công trình hoặc một dây chuyền công nghệ gồm nhiều hạng mục thuộc dự án đầu tư xây dựng công trình theo các loại công trình quy định tại Phụ lục I Thông tư này; b) Quy mô kết cấu: Áp dụng cho từng công trình độc lập thuộc dự án đầu tư xây dựng công trình theo các loại kết cấu quy định tại Phụ lục II Thông tư này.',
240
+ 'Document: Điều 10. Tổ chức kiểm tra việc phân hạng và công nhận hạng nhà chung cư 1. Cục Quản lý nhà và thị trường bất động sản tổ chức thực hiện kiểm tra hoặc chủ trì, phối hợp với các cơ quan, đơn vị chức năng thuộc Bộ Xây dựng và các Bộ, ngành có liên quan tổ chức kiểm tra định kỳ hoặc đột xuất việc phân hạng và công nhận hạng nhà chung cư trên phạm vi cả nước. 2. Sở Xây dựng các tỉnh, thành phố trực thuộc trung ương tổ chức thực hiện kiểm tra hoặc chủ trì, phối hợp với các cơ quan chức năng tại địa phương tổ chức kiểm tra định kỳ hoặc đột xuất việc phân hạng và công nhận hạng nhà chung cư trên địa bàn.',
241
+ ]
242
+ query_embeddings = model.encode_query(queries)
243
+ document_embeddings = model.encode_document(documents)
244
+ print(query_embeddings.shape, document_embeddings.shape)
245
+ # [1, 1024] [3, 1024]
246
+
247
+ # Get the similarity scores for the embeddings
248
+ similarities = model.similarity(query_embeddings, document_embeddings)
249
+ print(similarities)
250
+ # tensor([[ 0.7191, -0.0666, 0.1296]])
251
+ ```
252
+ <!--
253
+ ### Direct Usage (Transformers)
254
+
255
+ <details><summary>Click to see the direct usage in Transformers</summary>
256
+
257
+ </details>
258
+ -->
259
+
260
+ <!--
261
+ ### Downstream Usage (Sentence Transformers)
262
+
263
+ You can finetune this model on your own dataset.
264
+
265
+ <details><summary>Click to expand</summary>
266
+
267
+ </details>
268
+ -->
269
+
270
+ <!--
271
+ ### Out-of-Scope Use
272
+
273
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
274
+ -->
275
+
276
+ <!--
277
+ ## Bias, Risks and Limitations
278
+
279
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
280
+ -->
281
+
282
+ <!--
283
+ ### Recommendations
284
+
285
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
286
+ -->
287
+
288
+ ## Training Details
289
+
290
+ ### Training Dataset
291
+
292
+ #### Unnamed Dataset
293
+
294
+ * Size: 507,152 training samples
295
+ * Columns: <code>anchor</code> and <code>positive</code>
296
+ * Approximate statistics based on the first 1000 samples:
297
+ | | anchor | positive |
298
+ |:--------|:-------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------|
299
+ | type | string | string |
300
+ | details | <ul><li>min: 43 characters</li><li>mean: 117.84 characters</li><li>max: 318 characters</li></ul> | <ul><li>min: 454 characters</li><li>mean: 800.51 characters</li><li>max: 1205 characters</li></ul> |
301
+ * Samples:
302
+ | anchor | positive |
303
+ |:--------------------------------------------------------------------------------------------------------------------------------------------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
304
+ | <code>Bộ Giao thông vận tải quy định các đơn vị kinh doanh vận tải nào phải lắp đặt thiết bị giám sát hành trình trên xe ô tô?</code> | <code>Document: Chương I. QUY ĐỊNH CHUNG Điều 1. Phạm vi điều chỉnh. Thông tư này quy định về cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô sau (sau đây gọi chung là thiết bị giám sát hành trình). Điều 2. Đối tượng áp dụng. Thông tư này áp dụng đối với các đơn vị kinh doanh vận tải, bến xe khách, bến xe hàng, các đơn vị cung cấp dịch vụ giám sát hành trình và các cơ quan, tổ chức, cá nhân có liên quan đến việc cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô trong phạm vi toàn quốc. Điều 3. Giải thích từ ngữ. Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau: 1. Hệ thống thông tin: là tập hợp các thiết bị phần cứng, phần mềm và đường truyền dùng để thu nhận, quản lý, khai thác dữ liệu từ thiết bị giám sát hành trình. 2. Dữ liệu: là tập hợp các thông tin có cấu trúc được truyền từ thiết bị giám sát hành trình về máy chủ dịch vụ và từ máy chủ dịch vụ truyền về Tổng cục Đường bộ Việt Nam.</code> |
305
+ | <code>Bộ Giao thông vận tải giải thích như thế nào về các từ ngữ như 'hệ thống thông tin' và 'dữ liệu' trong quy định về thiết bị giám sát hành trình?</code> | <code>Document: Chương I. QUY ĐỊNH CHUNG Điều 1. Phạm vi điều chỉnh. Thông tư này quy định về cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô sau (sau đây gọi chung là thiết bị giám sát hành trình). Điều 2. Đối tượng áp dụng. Thông tư này áp dụng đối với các đơn vị kinh doanh vận tải, bến xe khách, bến xe hàng, các đơn vị cung cấp dịch vụ giám sát hành trình và các cơ quan, tổ chức, cá nhân có liên quan đến việc cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô trong phạm vi toàn quốc. Điều 3. Giải thích từ ngữ. Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau: 1. Hệ thống thông tin: là tập hợp các thiết bị phần cứng, phần mềm và đường truyền dùng để thu nhận, quản lý, khai thác dữ liệu từ thiết bị giám sát hành trình. 2. Dữ liệu: là tập hợp các thông tin có cấu trúc được truyền từ thiết bị giám sát hành trình về máy chủ dịch vụ và từ máy chủ dịch vụ truyền về Tổng cục Đường bộ Việt Nam.</code> |
306
+ | <code>Pháp luật quy định như thế nào về việc thu nhận, quản lý và khai thác dữ liệu từ thiết bị giám sát hành trình của xe ô tô?</code> | <code>Document: Chương I. QUY ĐỊNH CHUNG Điều 1. Phạm vi điều chỉnh. Thông tư này quy định về cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô sau (sau đây gọi chung là thiết bị giám sát hành trình). Điều 2. Đối tượng áp dụng. Thông tư này áp dụng đối với các đơn vị kinh doanh vận tải, bến xe khách, bến xe hàng, các đơn vị cung cấp dịch vụ giám sát hành trình và các cơ quan, tổ chức, cá nhân có liên quan đến việc cung cấp, quản lý và sử dụng dữ liệu từ thiết bị giám sát hành trình của xe ô tô trong phạm vi toàn quốc. Điều 3. Giải thích từ ngữ. Trong Thông tư này, các từ ngữ dưới đây được hiểu như sau: 1. Hệ thống thông tin: là tập hợp các thiết bị phần cứng, phần mềm và đường truyền dùng để thu nhận, quản lý, khai thác dữ liệu từ thiết bị giám sát hành trình. 2. Dữ liệu: là tập hợp các thông tin có cấu trúc được truyền từ thiết bị giám sát hành trình về máy chủ dịch vụ và từ máy chủ dịch vụ truyền về Tổng cục Đường bộ Việt Nam.</code> |
307
+ * Loss: [<code>CachedMultipleNegativesRankingLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#cachedmultiplenegativesrankingloss) with these parameters:
308
+ ```json
309
+ {
310
+ "scale": 20.0,
311
+ "similarity_fct": "cos_sim",
312
+ "mini_batch_size": 16,
313
+ "gather_across_devices": false,
314
+ "directions": [
315
+ "query_to_doc"
316
+ ],
317
+ "partition_mode": "joint",
318
+ "hardness_mode": null,
319
+ "hardness_strength": 0.0
320
+ }
321
+ ```
322
+
323
+ ### Training Hyperparameters
324
+ #### Non-Default Hyperparameters
325
+
326
+ - `per_device_train_batch_size`: 1024
327
+ - `num_train_epochs`: 1
328
+ - `learning_rate`: 2e-05
329
+ - `warmup_steps`: 0.1
330
+ - `bf16`: True
331
+ - `dataloader_num_workers`: 8
332
+ - `dataloader_persistent_workers`: True
333
+ - `remove_unused_columns`: False
334
+ - `ddp_find_unused_parameters`: False
335
+ - `prompts`: Query:
336
+
337
+ #### All Hyperparameters
338
+ <details><summary>Click to expand</summary>
339
+
340
+ - `per_device_train_batch_size`: 1024
341
+ - `num_train_epochs`: 1
342
+ - `max_steps`: -1
343
+ - `learning_rate`: 2e-05
344
+ - `lr_scheduler_type`: linear
345
+ - `lr_scheduler_kwargs`: None
346
+ - `warmup_steps`: 0.1
347
+ - `optim`: adamw_torch_fused
348
+ - `optim_args`: None
349
+ - `weight_decay`: 0.0
350
+ - `adam_beta1`: 0.9
351
+ - `adam_beta2`: 0.999
352
+ - `adam_epsilon`: 1e-08
353
+ - `optim_target_modules`: None
354
+ - `gradient_accumulation_steps`: 1
355
+ - `average_tokens_across_devices`: True
356
+ - `max_grad_norm`: 1.0
357
+ - `label_smoothing_factor`: 0.0
358
+ - `bf16`: True
359
+ - `fp16`: False
360
+ - `bf16_full_eval`: False
361
+ - `fp16_full_eval`: False
362
+ - `tf32`: None
363
+ - `gradient_checkpointing`: False
364
+ - `gradient_checkpointing_kwargs`: None
365
+ - `torch_compile`: False
366
+ - `torch_compile_backend`: None
367
+ - `torch_compile_mode`: None
368
+ - `use_liger_kernel`: False
369
+ - `liger_kernel_config`: None
370
+ - `use_cache`: False
371
+ - `neftune_noise_alpha`: None
372
+ - `torch_empty_cache_steps`: None
373
+ - `auto_find_batch_size`: False
374
+ - `log_on_each_node`: True
375
+ - `logging_nan_inf_filter`: True
376
+ - `include_num_input_tokens_seen`: no
377
+ - `log_level`: passive
378
+ - `log_level_replica`: warning
379
+ - `disable_tqdm`: False
380
+ - `project`: huggingface
381
+ - `trackio_space_id`: trackio
382
+ - `per_device_eval_batch_size`: 8
383
+ - `prediction_loss_only`: True
384
+ - `eval_on_start`: False
385
+ - `eval_do_concat_batches`: True
386
+ - `eval_use_gather_object`: False
387
+ - `eval_accumulation_steps`: None
388
+ - `include_for_metrics`: []
389
+ - `batch_eval_metrics`: False
390
+ - `save_only_model`: False
391
+ - `save_on_each_node`: False
392
+ - `enable_jit_checkpoint`: False
393
+ - `push_to_hub`: False
394
+ - `hub_private_repo`: None
395
+ - `hub_model_id`: None
396
+ - `hub_strategy`: every_save
397
+ - `hub_always_push`: False
398
+ - `hub_revision`: None
399
+ - `load_best_model_at_end`: False
400
+ - `ignore_data_skip`: False
401
+ - `restore_callback_states_from_checkpoint`: False
402
+ - `full_determinism`: False
403
+ - `seed`: 42
404
+ - `data_seed`: None
405
+ - `use_cpu`: False
406
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
407
+ - `parallelism_config`: None
408
+ - `dataloader_drop_last`: True
409
+ - `dataloader_num_workers`: 8
410
+ - `dataloader_pin_memory`: True
411
+ - `dataloader_persistent_workers`: True
412
+ - `dataloader_prefetch_factor`: None
413
+ - `remove_unused_columns`: False
414
+ - `label_names`: None
415
+ - `train_sampling_strategy`: random
416
+ - `length_column_name`: length
417
+ - `ddp_find_unused_parameters`: False
418
+ - `ddp_bucket_cap_mb`: None
419
+ - `ddp_broadcast_buffers`: False
420
+ - `ddp_backend`: None
421
+ - `ddp_timeout`: 1800
422
+ - `fsdp`: []
423
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
424
+ - `deepspeed`: None
425
+ - `debug`: []
426
+ - `skip_memory_metrics`: True
427
+ - `do_predict`: False
428
+ - `resume_from_checkpoint`: None
429
+ - `warmup_ratio`: None
430
+ - `local_rank`: -1
431
+ - `prompts`: Query:
432
+ - `batch_sampler`: batch_sampler
433
+ - `multi_dataset_batch_sampler`: proportional
434
+ - `router_mapping`: {}
435
+ - `learning_rate_mapping`: {}
436
+
437
+ </details>
438
+
439
+ ### Training Logs
440
+ | Epoch | Step | Training Loss |
441
+ |:------:|:----:|:-------------:|
442
+ | 0.0813 | 10 | 0.4425 |
443
+ | 0.1626 | 20 | 0.2380 |
444
+ | 0.2439 | 30 | 0.1780 |
445
+ | 0.3252 | 40 | 0.1593 |
446
+ | 0.4065 | 50 | 0.1526 |
447
+ | 0.4878 | 60 | 0.1563 |
448
+ | 0.5691 | 70 | 0.1427 |
449
+ | 0.6504 | 80 | 0.1461 |
450
+ | 0.7317 | 90 | 0.1420 |
451
+ | 0.8130 | 100 | 0.1447 |
452
+ | 0.8943 | 110 | 0.1422 |
453
+ | 0.9756 | 120 | 0.1396 |
454
+
455
+
456
+ ### Training Time
457
+ - **Training**: 30.3 minutes
458
+
459
+ ### Framework Versions
460
+ - Python: 3.10.20
461
+ - Sentence Transformers: 5.4.1
462
+ - Transformers: 5.5.4
463
+ - PyTorch: 2.9.1+cu130
464
+ - Accelerate: 1.13.0
465
+ - Datasets: 4.8.4
466
+ - Tokenizers: 0.22.2
467
+
468
+ ## Citation
469
+
470
+ ### BibTeX
471
+
472
+ #### Sentence Transformers
473
+ ```bibtex
474
+ @inproceedings{reimers-2019-sentence-bert,
475
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
476
+ author = "Reimers, Nils and Gurevych, Iryna",
477
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
478
+ month = "11",
479
+ year = "2019",
480
+ publisher = "Association for Computational Linguistics",
481
+ url = "https://arxiv.org/abs/1908.10084",
482
+ }
483
+ ```
484
+
485
+ #### CachedMultipleNegativesRankingLoss
486
+ ```bibtex
487
+ @misc{gao2021scaling,
488
+ title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
489
+ author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
490
+ year={2021},
491
+ eprint={2101.06983},
492
+ archivePrefix={arXiv},
493
+ primaryClass={cs.LG}
494
+ }
495
+ ```
496
+
497
+ <!--
498
+ ## Glossary
499
+
500
+ *Clearly define terms in order to be accessible across audiences.*
501
+ -->
502
+
503
+ <!--
504
+ ## Model Card Authors
505
+
506
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
507
+ -->
508
+
509
+ <!--
510
+ ## Model Card Contact
511
+
512
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
513
+ -->
jina-v5-small-vilegal-r-stage1/checkpoint-123/chat_template.jinja ADDED
@@ -0,0 +1,89 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {%- if tools %}
2
+ {{- '<|im_start|>system\n' }}
3
+ {%- if messages[0].role == 'system' %}
4
+ {{- messages[0].content + '\n\n' }}
5
+ {%- endif %}
6
+ {{- "# Tools\n\nYou may call one or more functions to assist with the user query.\n\nYou are provided with function signatures within <tools></tools> XML tags:\n<tools>" }}
7
+ {%- for tool in tools %}
8
+ {{- "\n" }}
9
+ {{- tool | tojson }}
10
+ {%- endfor %}
11
+ {{- "\n</tools>\n\nFor each function call, return a json object with function name and arguments within <tool_call></tool_call> XML tags:\n<tool_call>\n{\"name\": <function-name>, \"arguments\": <args-json-object>}\n</tool_call><|im_end|>\n" }}
12
+ {%- else %}
13
+ {%- if messages[0].role == 'system' %}
14
+ {{- '<|im_start|>system\n' + messages[0].content + '<|im_end|>\n' }}
15
+ {%- endif %}
16
+ {%- endif %}
17
+ {%- set ns = namespace(multi_step_tool=true, last_query_index=messages|length - 1) %}
18
+ {%- for message in messages[::-1] %}
19
+ {%- set index = (messages|length - 1) - loop.index0 %}
20
+ {%- if ns.multi_step_tool and message.role == "user" and message.content is string and not(message.content.startswith('<tool_response>') and message.content.endswith('</tool_response>')) %}
21
+ {%- set ns.multi_step_tool = false %}
22
+ {%- set ns.last_query_index = index %}
23
+ {%- endif %}
24
+ {%- endfor %}
25
+ {%- for message in messages %}
26
+ {%- if message.content is string %}
27
+ {%- set content = message.content %}
28
+ {%- else %}
29
+ {%- set content = '' %}
30
+ {%- endif %}
31
+ {%- if (message.role == "user") or (message.role == "system" and not loop.first) %}
32
+ {{- '<|im_start|>' + message.role + '\n' + content + '<|im_end|>' + '\n' }}
33
+ {%- elif message.role == "assistant" %}
34
+ {%- set reasoning_content = '' %}
35
+ {%- if message.reasoning_content is string %}
36
+ {%- set reasoning_content = message.reasoning_content %}
37
+ {%- else %}
38
+ {%- if '</think>' in content %}
39
+ {%- set reasoning_content = content.split('</think>')[0].rstrip('\n').split('<think>')[-1].lstrip('\n') %}
40
+ {%- set content = content.split('</think>')[-1].lstrip('\n') %}
41
+ {%- endif %}
42
+ {%- endif %}
43
+ {%- if loop.index0 > ns.last_query_index %}
44
+ {%- if loop.last or (not loop.last and reasoning_content) %}
45
+ {{- '<|im_start|>' + message.role + '\n<think>\n' + reasoning_content.strip('\n') + '\n</think>\n\n' + content.lstrip('\n') }}
46
+ {%- else %}
47
+ {{- '<|im_start|>' + message.role + '\n' + content }}
48
+ {%- endif %}
49
+ {%- else %}
50
+ {{- '<|im_start|>' + message.role + '\n' + content }}
51
+ {%- endif %}
52
+ {%- if message.tool_calls %}
53
+ {%- for tool_call in message.tool_calls %}
54
+ {%- if (loop.first and content) or (not loop.first) %}
55
+ {{- '\n' }}
56
+ {%- endif %}
57
+ {%- if tool_call.function %}
58
+ {%- set tool_call = tool_call.function %}
59
+ {%- endif %}
60
+ {{- '<tool_call>\n{"name": "' }}
61
+ {{- tool_call.name }}
62
+ {{- '", "arguments": ' }}
63
+ {%- if tool_call.arguments is string %}
64
+ {{- tool_call.arguments }}
65
+ {%- else %}
66
+ {{- tool_call.arguments | tojson }}
67
+ {%- endif %}
68
+ {{- '}\n</tool_call>' }}
69
+ {%- endfor %}
70
+ {%- endif %}
71
+ {{- '<|im_end|>\n' }}
72
+ {%- elif message.role == "tool" %}
73
+ {%- if loop.first or (messages[loop.index0 - 1].role != "tool") %}
74
+ {{- '<|im_start|>user' }}
75
+ {%- endif %}
76
+ {{- '\n<tool_response>\n' }}
77
+ {{- content }}
78
+ {{- '\n</tool_response>' }}
79
+ {%- if loop.last or (messages[loop.index0 + 1].role != "tool") %}
80
+ {{- '<|im_end|>\n' }}
81
+ {%- endif %}
82
+ {%- endif %}
83
+ {%- endfor %}
84
+ {%- if add_generation_prompt %}
85
+ {{- '<|im_start|>assistant\n' }}
86
+ {%- if enable_thinking is defined and enable_thinking is false %}
87
+ {{- '<think>\n\n</think>\n\n' }}
88
+ {%- endif %}
89
+ {%- endif %}
jina-v5-small-vilegal-r-stage1/checkpoint-123/config.json ADDED
@@ -0,0 +1,69 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "Qwen3Model"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": 151643,
8
+ "dtype": "bfloat16",
9
+ "eos_token_id": 151645,
10
+ "head_dim": 128,
11
+ "hidden_act": "silu",
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_types": [
16
+ "full_attention",
17
+ "full_attention",
18
+ "full_attention",
19
+ "full_attention",
20
+ "full_attention",
21
+ "full_attention",
22
+ "full_attention",
23
+ "full_attention",
24
+ "full_attention",
25
+ "full_attention",
26
+ "full_attention",
27
+ "full_attention",
28
+ "full_attention",
29
+ "full_attention",
30
+ "full_attention",
31
+ "full_attention",
32
+ "full_attention",
33
+ "full_attention",
34
+ "full_attention",
35
+ "full_attention",
36
+ "full_attention",
37
+ "full_attention",
38
+ "full_attention",
39
+ "full_attention",
40
+ "full_attention",
41
+ "full_attention",
42
+ "full_attention",
43
+ "full_attention"
44
+ ],
45
+ "max_position_embeddings": 32768,
46
+ "max_window_layers": 28,
47
+ "model_type": "qwen3",
48
+ "num_attention_heads": 16,
49
+ "num_hidden_layers": 28,
50
+ "num_key_value_heads": 8,
51
+ "pad_token_id": null,
52
+ "rms_norm_eps": 1e-06,
53
+ "rope_parameters": {
54
+ "rope_theta": 3500000,
55
+ "rope_type": "default"
56
+ },
57
+ "sliding_window": null,
58
+ "task_names": [
59
+ "retrieval",
60
+ "text-matching",
61
+ "clustering",
62
+ "classification"
63
+ ],
64
+ "tie_word_embeddings": true,
65
+ "transformers_version": "5.5.4",
66
+ "use_cache": true,
67
+ "use_sliding_window": false,
68
+ "vocab_size": 151936
69
+ }
jina-v5-small-vilegal-r-stage1/checkpoint-123/config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "pytorch": "2.9.1+cu130",
4
+ "sentence_transformers": "5.4.1",
5
+ "transformers": "5.5.4"
6
+ },
7
+ "default_prompt_name": null,
8
+ "model_type": "SentenceTransformer",
9
+ "prompts": {
10
+ "document": "Document: ",
11
+ "query": "Query: "
12
+ },
13
+ "similarity_fn_name": "cosine"
14
+ }
jina-v5-small-vilegal-r-stage1/checkpoint-123/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e68e0fb5fe18cb6aa85a2d2cd404e9fe16daa214ee07408c929a696f2d6a0604
3
+ size 1192133232
jina-v5-small-vilegal-r-stage1/checkpoint-123/modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.base.modules.transformer.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.sentence_transformer.modules.pooling.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.sentence_transformer.modules.normalize.Normalize"
19
+ }
20
+ ]
jina-v5-small-vilegal-r-stage1/checkpoint-123/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2e57bf1bd4cd67996ec35829cb566c4d40780ebd09b71ca6f301f8c9bb381c20
3
+ size 2384464715
jina-v5-small-vilegal-r-stage1/checkpoint-123/rng_state_0.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6754f664f73efa70f79c00b99567d387234384820b8fe10b313e462de77b8495
3
+ size 15365
jina-v5-small-vilegal-r-stage1/checkpoint-123/rng_state_1.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:db75971c39cd9a194e48b017859bc96478c7734213705d9213b5bb398c16cf54
3
+ size 15365
jina-v5-small-vilegal-r-stage1/checkpoint-123/rng_state_2.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:606bca044465082465b0f44b2f8315a6df4e738e2a406d5b81b59cc5aadf2667
3
+ size 15365
jina-v5-small-vilegal-r-stage1/checkpoint-123/rng_state_3.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6dfefabd447bd433f4faeee2129889d982e2f2585380bd4ee0e3378aa632419a
3
+ size 15365
jina-v5-small-vilegal-r-stage1/checkpoint-123/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b3a38ea645cf49fd2e34d6eefe52d7bad644ca9586fa456fe3f99240f85f9501
3
+ size 1465
jina-v5-small-vilegal-r-stage1/checkpoint-123/sentence_bert_config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "transformer_task": "feature-extraction",
3
+ "modality_config": {
4
+ "text": {
5
+ "method": "forward",
6
+ "method_output_name": "last_hidden_state"
7
+ }
8
+ },
9
+ "module_output_name": "token_embeddings"
10
+ }
jina-v5-small-vilegal-r-stage1/checkpoint-123/tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:40333783d1bcb4a8e972fecf5dfc68e786e5539c915045082f390f3fc3a55bbf
3
+ size 11422750
jina-v5-small-vilegal-r-stage1/checkpoint-123/tokenizer_config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "backend": "tokenizers",
4
+ "bos_token": null,
5
+ "clean_up_tokenization_spaces": false,
6
+ "eos_token": "<|im_end|>",
7
+ "errors": "replace",
8
+ "extra_special_tokens": [
9
+ "<|im_start|>",
10
+ "<|im_end|>",
11
+ "<|object_ref_start|>",
12
+ "<|object_ref_end|>",
13
+ "<|box_start|>",
14
+ "<|box_end|>",
15
+ "<|quad_start|>",
16
+ "<|quad_end|>",
17
+ "<|vision_start|>",
18
+ "<|vision_end|>",
19
+ "<|vision_pad|>",
20
+ "<|image_pad|>",
21
+ "<|video_pad|>"
22
+ ],
23
+ "is_local": false,
24
+ "model_max_length": 32768,
25
+ "pad_token": "<|endoftext|>",
26
+ "split_special_tokens": false,
27
+ "tokenizer_class": "Qwen2Tokenizer",
28
+ "unk_token": null
29
+ }
jina-v5-small-vilegal-r-stage1/checkpoint-123/trainer_state.json ADDED
@@ -0,0 +1,118 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": null,
3
+ "best_metric": null,
4
+ "best_model_checkpoint": null,
5
+ "epoch": 1.0,
6
+ "eval_steps": 500,
7
+ "global_step": 123,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.08130081300813008,
14
+ "grad_norm": 3.046875,
15
+ "learning_rate": 1.3846153846153847e-05,
16
+ "loss": 0.44248089790344236,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.16260162601626016,
21
+ "grad_norm": 0.8671875,
22
+ "learning_rate": 1.8909090909090912e-05,
23
+ "loss": 0.23797144889831542,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.24390243902439024,
28
+ "grad_norm": 0.6796875,
29
+ "learning_rate": 1.7090909090909092e-05,
30
+ "loss": 0.17798490524291993,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.3252032520325203,
35
+ "grad_norm": 0.5859375,
36
+ "learning_rate": 1.5272727272727276e-05,
37
+ "loss": 0.15926207304000856,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.4065040650406504,
42
+ "grad_norm": 0.62109375,
43
+ "learning_rate": 1.3454545454545455e-05,
44
+ "loss": 0.15256037712097167,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.4878048780487805,
49
+ "grad_norm": 0.5859375,
50
+ "learning_rate": 1.1636363636363637e-05,
51
+ "loss": 0.1563356876373291,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.5691056910569106,
56
+ "grad_norm": 0.5546875,
57
+ "learning_rate": 9.81818181818182e-06,
58
+ "loss": 0.14271848201751708,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.6504065040650406,
63
+ "grad_norm": 0.546875,
64
+ "learning_rate": 8.000000000000001e-06,
65
+ "loss": 0.14607776403427125,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.7317073170731707,
70
+ "grad_norm": 0.59375,
71
+ "learning_rate": 6.181818181818182e-06,
72
+ "loss": 0.14201995134353637,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.8130081300813008,
77
+ "grad_norm": 0.58984375,
78
+ "learning_rate": 4.363636363636364e-06,
79
+ "loss": 0.1447291374206543,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.8943089430894309,
84
+ "grad_norm": 0.5390625,
85
+ "learning_rate": 2.5454545454545456e-06,
86
+ "loss": 0.14224294424057007,
87
+ "step": 110
88
+ },
89
+ {
90
+ "epoch": 0.975609756097561,
91
+ "grad_norm": 0.55078125,
92
+ "learning_rate": 7.272727272727273e-07,
93
+ "loss": 0.1396009922027588,
94
+ "step": 120
95
+ }
96
+ ],
97
+ "logging_steps": 10,
98
+ "max_steps": 123,
99
+ "num_input_tokens_seen": 0,
100
+ "num_train_epochs": 1,
101
+ "save_steps": 500,
102
+ "stateful_callbacks": {
103
+ "TrainerControl": {
104
+ "args": {
105
+ "should_epoch_stop": false,
106
+ "should_evaluate": false,
107
+ "should_log": false,
108
+ "should_save": true,
109
+ "should_training_stop": true
110
+ },
111
+ "attributes": {}
112
+ }
113
+ },
114
+ "total_flos": 0.0,
115
+ "train_batch_size": 1024,
116
+ "trial_name": null,
117
+ "trial_params": null
118
+ }
jina-v5-small-vilegal-r-stage1/checkpoint-123/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8ecc2740e95dd9f2d00b9b0f9f41ce69faf33dd32d9d196ce3d5d307fb6b89f9
3
+ size 5521
jina-v5-small-vilegal-r-stage1/config.json ADDED
@@ -0,0 +1,69 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "Qwen3Model"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": 151643,
8
+ "dtype": "bfloat16",
9
+ "eos_token_id": 151645,
10
+ "head_dim": 128,
11
+ "hidden_act": "silu",
12
+ "hidden_size": 1024,
13
+ "initializer_range": 0.02,
14
+ "intermediate_size": 3072,
15
+ "layer_types": [
16
+ "full_attention",
17
+ "full_attention",
18
+ "full_attention",
19
+ "full_attention",
20
+ "full_attention",
21
+ "full_attention",
22
+ "full_attention",
23
+ "full_attention",
24
+ "full_attention",
25
+ "full_attention",
26
+ "full_attention",
27
+ "full_attention",
28
+ "full_attention",
29
+ "full_attention",
30
+ "full_attention",
31
+ "full_attention",
32
+ "full_attention",
33
+ "full_attention",
34
+ "full_attention",
35
+ "full_attention",
36
+ "full_attention",
37
+ "full_attention",
38
+ "full_attention",
39
+ "full_attention",
40
+ "full_attention",
41
+ "full_attention",
42
+ "full_attention",
43
+ "full_attention"
44
+ ],
45
+ "max_position_embeddings": 32768,
46
+ "max_window_layers": 28,
47
+ "model_type": "qwen3",
48
+ "num_attention_heads": 16,
49
+ "num_hidden_layers": 28,
50
+ "num_key_value_heads": 8,
51
+ "pad_token_id": null,
52
+ "rms_norm_eps": 1e-06,
53
+ "rope_parameters": {
54
+ "rope_theta": 3500000,
55
+ "rope_type": "default"
56
+ },
57
+ "sliding_window": null,
58
+ "task_names": [
59
+ "retrieval",
60
+ "text-matching",
61
+ "clustering",
62
+ "classification"
63
+ ],
64
+ "tie_word_embeddings": true,
65
+ "transformers_version": "5.5.4",
66
+ "use_cache": true,
67
+ "use_sliding_window": false,
68
+ "vocab_size": 151936
69
+ }
jina-v5-small-vilegal-r-stage1/config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "__version__": {
3
+ "pytorch": "2.9.1+cu130",
4
+ "sentence_transformers": "5.4.1",
5
+ "transformers": "5.5.4"
6
+ },
7
+ "default_prompt_name": null,
8
+ "model_type": "SentenceTransformer",
9
+ "prompts": {
10
+ "document": "Document: ",
11
+ "query": "Query: "
12
+ },
13
+ "similarity_fn_name": "cosine"
14
+ }
jina-v5-small-vilegal-r-stage1/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e68e0fb5fe18cb6aa85a2d2cd404e9fe16daa214ee07408c929a696f2d6a0604
3
+ size 1192133232
jina-v5-small-vilegal-r-stage1/modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.base.modules.transformer.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.sentence_transformer.modules.pooling.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.sentence_transformer.modules.normalize.Normalize"
19
+ }
20
+ ]
jina-v5-small-vilegal-r-stage1/sentence_bert_config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "transformer_task": "feature-extraction",
3
+ "modality_config": {
4
+ "text": {
5
+ "method": "forward",
6
+ "method_output_name": "last_hidden_state"
7
+ }
8
+ },
9
+ "module_output_name": "token_embeddings"
10
+ }
jina-v5-small-vilegal-r-stage1/tokenizer.json ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:40333783d1bcb4a8e972fecf5dfc68e786e5539c915045082f390f3fc3a55bbf
3
+ size 11422750
jina-v5-small-vilegal-r-stage1/tokenizer_config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "backend": "tokenizers",
4
+ "bos_token": null,
5
+ "clean_up_tokenization_spaces": false,
6
+ "eos_token": "<|im_end|>",
7
+ "errors": "replace",
8
+ "extra_special_tokens": [
9
+ "<|im_start|>",
10
+ "<|im_end|>",
11
+ "<|object_ref_start|>",
12
+ "<|object_ref_end|>",
13
+ "<|box_start|>",
14
+ "<|box_end|>",
15
+ "<|quad_start|>",
16
+ "<|quad_end|>",
17
+ "<|vision_start|>",
18
+ "<|vision_end|>",
19
+ "<|vision_pad|>",
20
+ "<|image_pad|>",
21
+ "<|video_pad|>"
22
+ ],
23
+ "is_local": false,
24
+ "model_max_length": 32768,
25
+ "pad_token": "<|endoftext|>",
26
+ "split_special_tokens": false,
27
+ "tokenizer_class": "Qwen2Tokenizer",
28
+ "unk_token": null
29
+ }
jina-v5-small-vilegal-r-stage1/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8ecc2740e95dd9f2d00b9b0f9f41ce69faf33dd32d9d196ce3d5d307fb6b89f9
3
+ size 5521