QuangDuy commited on
Commit
2059b0d
·
verified ·
1 Parent(s): afde0b5

Upload checkpoint-2100

Browse files
checkpoints/checkpoint-2100/1_Pooling/config.json ADDED
@@ -0,0 +1,10 @@
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "word_embedding_dimension": 768,
3
+ "pooling_mode_cls_token": false,
4
+ "pooling_mode_mean_tokens": true,
5
+ "pooling_mode_max_tokens": false,
6
+ "pooling_mode_mean_sqrt_len_tokens": false,
7
+ "pooling_mode_weightedmean_tokens": false,
8
+ "pooling_mode_lasttoken": false,
9
+ "include_prompt": true
10
+ }
checkpoints/checkpoint-2100/README.md ADDED
@@ -0,0 +1,482 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ ---
2
+ tags:
3
+ - sentence-transformers
4
+ - sentence-similarity
5
+ - feature-extraction
6
+ - dense
7
+ - generated_from_trainer
8
+ - dataset_size:541248
9
+ - loss:MatryoshkaLoss
10
+ - loss:MultipleNegativesRankingLoss
11
+ base_model: QuangDuy/bert-base-stage2-hf
12
+ widget:
13
+ - source_sentence: aoa là gì
14
+ sentences:
15
+ - AOA tăng do đường hợp âm hiệu dụng, chạy từ mép trước của cánh đến mép sau của
16
+ cánh, xoay lên trên. Điều này làm tăng góc giữa đường hợp âm và gió tương đối
17
+ (AOA). Kết quả là gì? Sự gia tăng độ khum này và AOA tạo ra nhiều lực nâng hơn.
18
+ Vì cánh lật xuống có độ khum hơn so với cánh sạch, nó tạo ra cùng một lực nâng
19
+ ở AOA nhỏ hơn. Máy bay hạ cánh lúc này bay ở AOA nhỏ hơn để cân bằng bốn lực bay.
20
+ - AOA ủng hộ ủy ban, tiếp tục kêu gọi nó xem xét tất cả các lựa chọn dựa trên sự
21
+ tăng trưởng của sân bay, kêu gọi nó tuân theo thời gian biểu của việc gửi báo
22
+ cáo cuối cùng của mình không muộn hơn mùa hè năm 2015, và khuyến khích các đảng
23
+ chính trị cam kết hành động theo ủy ban. những phát hiện.
24
+ - Cháy là một phản ứng hóa học tỏa ra ánh sáng và sức nóng. Nó là một ví dụ về quá
25
+ trình hóa học của quá trình oxy hóa.
26
+ - source_sentence: utms là gì
27
+ sentences:
28
+ - UMTS là một trong những hệ thống di động thế hệ thứ ba (3G) đang được phát triển
29
+ trong khuôn khổ IMT-2000 của ITU. Đó là sự hiện thực hóa thế hệ công nghệ viễn
30
+ thông di động đa phương tiện băng thông rộng mới. Phạm vi phủ sóng của việc cung
31
+ cấp dịch vụ sẽ rộng khắp thế giới dưới hình thức FLMTS (Dịch vụ Viễn thông Di
32
+ động của Future Land và hiện nay được gọi là IMT2000).
33
+ - Bổ sung bla là gì, tài liệu bổ sung bla là gì, tải toàn bộ tài liệu bổ sung bla
34
+ là gì về máy tính của bạn.
35
+ - Dị dạng động mạch (AVM) là một kết nối bất thường giữa động mạch và tĩnh mạch,
36
+ bỏ qua hệ thống mao mạch. Dị tật mạch máu này được biết đến rộng rãi vì nó xảy
37
+ ra ở hệ thần kinh trung ương, nhưng có thể xuất hiện ở bất kỳ vị trí nào. Các
38
+ kiểu lây truyền di truyền của AVM, nếu có, vẫn chưa được biết. AVM thường không
39
+ được cho là một rối loạn di truyền, trừ khi trong bối cảnh của một hội chứng di
40
+ truyền cụ thể.
41
+ - source_sentence: hph là gì
42
+ sentences:
43
+ - HPH là nhà đầu tư, phát triển và khai thác cảng hàng đầu thế giới, có lợi ích
44
+ tại 22 quốc gia trên khắp Châu Á, Trung Đông, Châu Phi, Châu Âu và Châu Mỹ.
45
+ - Một từ khác cho oxit boric là gì? Một từ khác cho borickites là gì? Một từ khác
46
+ cho borickite là gì? Một từ khác cho axit boric là gì? Một từ khác cho axit boric
47
+ là gì? Một từ khác cho vi sinh vật là gì? Một từ khác cho ngao ngán là gì? Một
48
+ từ khác cho ngao nhàm chán là gì? Một từ khác cho nhàm chán là gì? Một từ khác
49
+ cho nhàm chán nhất là gì? Một từ khác cho nhàm chán là gì?
50
+ - Nếu bác sĩ trị liệu của bạn có các chữ cái MPT hoặc MSPT, điều này cho thấy bằng
51
+ thạc sĩ về vật lý trị liệu. Hầu hết các chương trình ngày nay đều đào tạo các
52
+ nhà trị liệu để lấy bằng DPT, viết tắt của tiến sĩ vật lý trị liệu. Ngoài các
53
+ chứng chỉ giáo dục cơ bản này, bạn có thể tìm thấy một loạt các kết hợp chữ cái
54
+ khác.
55
+ - source_sentence: kani là gì
56
+ sentences:
57
+ - 1 Rối loạn ám ảnh cưỡng chế (OCD) là một chứng rối loạn lo âu được đặc trưng bởi
58
+ những suy nghĩ hoặc hình ảnh không thể cưỡng lại được (ám ảnh) và / hoặc những
59
+ nghi thức / hành vi cứng nhắc có thể bị thúc đẩy bởi những ám ảnh (cưỡng chế).
60
+ - Tobitama (Tôi thích sự giòn tan của món tobiko nhỏ bé!) Món chay Tempura Roll.
61
+ Crispy Cobra - tôm tempura, bơ, w / kani phủ lên trên và giòn. Sexy Roll - bơ,
62
+ thịt cua, phủ trên cùng với lươn nướng. Rattlesnake Roll - cua, tôm tempura phủ
63
+ trên cùng với lươn nướng, bơ & sốt đặc biệt.
64
+ - Hỏi và đáp cộng đồng. Kani là thuật ngữ tiếng Nhật để chỉ cua, được dùng trong
65
+ món sushi. Món salad rau nhẹ này tạo ra món khai vị hoặc bữa trưa hoàn hảo trong
66
+ một ngày mát mẻ. Hãy thử công thức salad kani này.
67
+ - source_sentence: akni là gì
68
+ sentences:
69
+ - Akni là một loại gạo Ấn Độ một nồi cay được làm từ thịt c��u, thịt gà hoặc thịt
70
+ cừu với hương vị tương tự như rượu bia. 1 KNORR Rice Mate Mild Breyani Kết hợp
71
+ hoàn hảo với tôm, trong cà ri gà hoặc bất kỳ món ăn nào bao gồm trái cây, đặc
72
+ biệt là mơ. Kni là một loại gạo Ấn Độ một nồi cay được làm từ thịt cừu, thịt gà
73
+ hoặc thịt cừu với hương vị tương tự như hương vị của rượu bia. 1 KNORR Rice Mate
74
+ Mild Breyani Kết hợp hoàn hảo với tôm, trong cà ri gà hoặc bất kỳ món ăn nào có
75
+ trái cây, đặc biệt là mơ.
76
+ - 'Cụm từ tìm kiếm liên quan: Máy bơm ly tâm là gì, Máy bơm không cánh là gì, Máy
77
+ bơm hóa chất là gì, Máy bơm công nghiệp là gì, Máy bơm hóa dầu là gì, Máy bơm
78
+ chạy cạn là gì, Máy bơm chống ăn mòn là gì, Bơm truyền động từ là gì, Bơm truyền
79
+ động từ là gì.'
80
+ - 0C là điểm đóng băng của nước (hay chính xác hơn là điểm tan chảy của nước đá)
81
+ và nó là 32F. Thay đổi 1 độ C là 1,8 độ F thay đổi trong khi thay đổi 1 độ C chuyển
82
+ thành 0,55 độ C. Đây là một trong những cách dễ nhất để chuyển đổi chúng nếu bạn
83
+ biết rằng 0C = 32F.
84
+ pipeline_tag: sentence-similarity
85
+ library_name: sentence-transformers
86
+ ---
87
+
88
+ # SentenceTransformer based on QuangDuy/bert-base-stage2-hf
89
+
90
+ This is a [sentence-transformers](https://www.SBERT.net) model finetuned from [QuangDuy/bert-base-stage2-hf](https://huggingface.co/QuangDuy/bert-base-stage2-hf). It maps sentences & paragraphs to a 768-dimensional dense vector space and can be used for semantic textual similarity, semantic search, paraphrase mining, text classification, clustering, and more.
91
+
92
+ ## Model Details
93
+
94
+ ### Model Description
95
+ - **Model Type:** Sentence Transformer
96
+ - **Base model:** [QuangDuy/bert-base-stage2-hf](https://huggingface.co/QuangDuy/bert-base-stage2-hf) <!-- at revision 6a6ac1ff59259c4fe29b121488afa79d0bfe3e6a -->
97
+ - **Maximum Sequence Length:** 512 tokens
98
+ - **Output Dimensionality:** 768 dimensions
99
+ - **Similarity Function:** Cosine Similarity
100
+ <!-- - **Training Dataset:** Unknown -->
101
+ <!-- - **Language:** Unknown -->
102
+ <!-- - **License:** Unknown -->
103
+
104
+ ### Model Sources
105
+
106
+ - **Documentation:** [Sentence Transformers Documentation](https://sbert.net)
107
+ - **Repository:** [Sentence Transformers on GitHub](https://github.com/huggingface/sentence-transformers)
108
+ - **Hugging Face:** [Sentence Transformers on Hugging Face](https://huggingface.co/models?library=sentence-transformers)
109
+
110
+ ### Full Model Architecture
111
+
112
+ ```
113
+ SentenceTransformer(
114
+ (0): Transformer({'max_seq_length': 512, 'do_lower_case': False, 'architecture': 'ModernBertModel'})
115
+ (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
116
+ (2): Normalize()
117
+ )
118
+ ```
119
+
120
+ ## Usage
121
+
122
+ ### Direct Usage (Sentence Transformers)
123
+
124
+ First install the Sentence Transformers library:
125
+
126
+ ```bash
127
+ pip install -U sentence-transformers
128
+ ```
129
+
130
+ Then you can load this model and run inference.
131
+ ```python
132
+ from sentence_transformers import SentenceTransformer
133
+
134
+ # Download from the 🤗 Hub
135
+ model = SentenceTransformer("sentence_transformers_model_id")
136
+ # Run inference
137
+ sentences = [
138
+ 'akni là gì',
139
+ 'Akni là một loại gạo Ấn Độ một nồi cay được làm từ thịt cừu, thịt gà hoặc thịt cừu với hương vị tương tự như rượu bia. 1 KNORR Rice Mate Mild Breyani Kết hợp hoàn hảo với tôm, trong cà ri gà hoặc bất kỳ món ăn nào bao gồm trái cây, đặc biệt là mơ. Kni là một loại gạo Ấn Độ một nồi cay được làm từ thịt cừu, thịt gà hoặc thịt cừu với hương vị tương tự như hương vị của rượu bia. 1 KNORR Rice Mate Mild Breyani Kết hợp hoàn hảo với tôm, trong cà ri gà hoặc bất kỳ món ăn nào có trái cây, đặc biệt là mơ.',
140
+ 'Cụm từ tìm kiếm liên quan: Máy bơm ly tâm là gì, Máy bơm không cánh là gì, Máy bơm hóa chất là gì, Máy bơm công nghiệp là gì, Máy bơm hóa dầu là gì, Máy bơm chạy cạn là gì, Máy bơm chống ăn mòn là gì, Bơm truyền động từ là gì, Bơm truyền động từ là gì.',
141
+ ]
142
+ embeddings = model.encode(sentences)
143
+ print(embeddings.shape)
144
+ # [3, 768]
145
+
146
+ # Get the similarity scores for the embeddings
147
+ similarities = model.similarity(embeddings, embeddings)
148
+ print(similarities)
149
+ # tensor([[1.0000, 0.6081, 0.0269],
150
+ # [0.6081, 1.0000, 0.0362],
151
+ # [0.0269, 0.0362, 1.0000]])
152
+ ```
153
+
154
+ <!--
155
+ ### Direct Usage (Transformers)
156
+
157
+ <details><summary>Click to see the direct usage in Transformers</summary>
158
+
159
+ </details>
160
+ -->
161
+
162
+ <!--
163
+ ### Downstream Usage (Sentence Transformers)
164
+
165
+ You can finetune this model on your own dataset.
166
+
167
+ <details><summary>Click to expand</summary>
168
+
169
+ </details>
170
+ -->
171
+
172
+ <!--
173
+ ### Out-of-Scope Use
174
+
175
+ *List how the model may foreseeably be misused and address what users ought not to do with the model.*
176
+ -->
177
+
178
+ <!--
179
+ ## Bias, Risks and Limitations
180
+
181
+ *What are the known or foreseeable issues stemming from this model? You could also flag here known failure cases or weaknesses of the model.*
182
+ -->
183
+
184
+ <!--
185
+ ### Recommendations
186
+
187
+ *What are recommendations with respect to the foreseeable issues? For example, filtering explicit content.*
188
+ -->
189
+
190
+ ## Training Details
191
+
192
+ ### Training Dataset
193
+
194
+ #### Unnamed Dataset
195
+
196
+ * Size: 541,248 training samples
197
+ * Columns: <code>sentence_0</code>, <code>sentence_1</code>, and <code>sentence_2</code>
198
+ * Approximate statistics based on the first 1000 samples:
199
+ | | sentence_0 | sentence_1 | sentence_2 |
200
+ |:--------|:--------------------------------------------------------------------------------|:------------------------------------------------------------------------------------|:-------------------------------------------------------------------------------------|
201
+ | type | string | string | string |
202
+ | details | <ul><li>min: 4 tokens</li><li>mean: 5.92 tokens</li><li>max: 8 tokens</li></ul> | <ul><li>min: 23 tokens</li><li>mean: 95.98 tokens</li><li>max: 512 tokens</li></ul> | <ul><li>min: 25 tokens</li><li>mean: 103.41 tokens</li><li>max: 512 tokens</li></ul> |
203
+ * Samples:
204
+ | sentence_0 | sentence_1 | sentence_2 |
205
+ |:-------------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|:--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
206
+ | <code>svt là gì?</code> | <code>Nhịp tim nhanh trên thất là một loạt các nhịp tim nhanh bắt đầu trong hoặc liên quan đến các buồng trên (tâm nhĩ) của tim. SVT có thể khiến tim đập rất nhanh hoặc thất thường. Kết quả là tim có thể đập không hiệu quả và cơ thể có thể nhận được nguồn cung cấp máu không đủ.</code> | <code>Mustang SVT Cobra là một phương tiện có thể rất đắt. Thông thường, chiếc xe được gọi là Mustang SVT Cobra có thể có giá từ 25.000 đến 50.000 đô la Mỹ.</code> |
207
+ | <code>cây màu gì</code> | <code>Thông thường, thân cây được cho là có nhiều màu nâu khác nhau. Tuy nhiên, chúng có thể có nhiều màu sắc khác nhau. Màu xám là màu phổ biến ở các thân cây, cũng như màu xanh lục khi chúng còn nhỏ. Các loài cây cụ thể thường có màu vỏ cụ thể vào những thời điểm cụ thể trong năm, vì vậy bạn nên tìm kiếm những cây mà bạn quan tâm nếu bạn cần thêm thông tin. Thông thường thân cây được coi là có nhiều màu nâu khác nhau. Tuy nhiên, chúng có thể có nhiều màu sắc khác nhau.</code> | <code>Câu ví dụ cho mận. 1 Tôi tỉa khi cây còn nhỏ; thì vết thương không ảnh hưởng nhiều đến chúng; nó trả tiền, và rất cần thiết. 2 Màu dâu tằm, giống như màu mà chúng ta gọi là màu mận hoặc mận khô. 3 Khi đó năng lượng của cây ở mức tối thiểu và bạn có thể cắt tỉa an toàn hơn bất kỳ lúc nào khác.</code> |
208
+ | <code>ootd là gì?</code> | <code>OOTD có nghĩa là gì? Dưới đây là những ý nghĩa phổ biến nhất của OOTD: Outfit Of The Day. OOTD (Outfit Of The Day) thường được sử dụng trên các trang web thời trang hoặc trên các tạp chí (thường dành cho phụ nữ) để thể hiện trang phục đặc trưng của ngày hôm nay. Ý kiến ​​của Ngày. OOTD (Opinion Of The Day) thường được sử dụng như một lời cảnh báo để đưa ra một khẳng định có vẻ ít thẳng thắn hơn.</code> | <code>(OOTD) Ngày 24 tháng 10 năm 2014: Mặc dù gặp phải một số tuyết trong chuyến đi gần đây của chúng tôi đếnࢠ€¦ (xem toàn bộ câu chuyện) (OOTD) Ngày 13 tháng 10 năm 2014: Chỉ cần đánh giá nhanh về hai mục Gần đây tôi đã nhận hàng tại Ann Taylorࢠ€¦ (xem toàn bộ câu chuyện) A BIG DEAL: Mua sắm toàn bộ danh sách bán hàng lớn nhất và tốt nhất vào Thứ Hai Điện Tử năm 2016 hiện nayࢠ€¦ . (OOTD) Ngày 7 tháng 7 năm 2015: Chỉ là một bài đăng nhanh về trang phục cho ngày hôm nay! Đây là những gì tôi đã mặc cho bbq của chúng tôi vào ngày thứ 4ࢠ€¦ (xem toàn bộ câu chuyện) (OOTD) Ngày 3 tháng 8 năm 2015: Giữ cho nó đơn giản hơn hôm nay với Anthropolgieࢠ€Â⠄của Pina Lace topࢠ€¦ (xem toàn bộ câu chuyện)</code> |
209
+ * Loss: [<code>MatryoshkaLoss</code>](https://sbert.net/docs/package_reference/sentence_transformer/losses.html#matryoshkaloss) with these parameters:
210
+ ```json
211
+ {
212
+ "loss": "MultipleNegativesRankingLoss",
213
+ "matryoshka_dims": [
214
+ 768,
215
+ 512,
216
+ 256,
217
+ 128
218
+ ],
219
+ "matryoshka_weights": [
220
+ 1,
221
+ 1,
222
+ 1,
223
+ 1
224
+ ],
225
+ "n_dims_per_step": -1
226
+ }
227
+ ```
228
+
229
+ ### Training Hyperparameters
230
+ #### Non-Default Hyperparameters
231
+
232
+ - `eval_strategy`: steps
233
+ - `per_device_train_batch_size`: 64
234
+ - `per_device_eval_batch_size`: 64
235
+ - `weight_decay`: 0.01
236
+ - `num_train_epochs`: 5
237
+ - `warmup_steps`: 4229
238
+ - `bf16`: True
239
+ - `gradient_checkpointing`: True
240
+ - `gradient_checkpointing_kwargs`: {'use_reentrant': False}
241
+ - `batch_sampler`: no_duplicates
242
+
243
+ #### All Hyperparameters
244
+ <details><summary>Click to expand</summary>
245
+
246
+ - `overwrite_output_dir`: False
247
+ - `do_predict`: False
248
+ - `eval_strategy`: steps
249
+ - `prediction_loss_only`: True
250
+ - `per_device_train_batch_size`: 64
251
+ - `per_device_eval_batch_size`: 64
252
+ - `per_gpu_train_batch_size`: None
253
+ - `per_gpu_eval_batch_size`: None
254
+ - `gradient_accumulation_steps`: 1
255
+ - `eval_accumulation_steps`: None
256
+ - `torch_empty_cache_steps`: None
257
+ - `learning_rate`: 5e-05
258
+ - `weight_decay`: 0.01
259
+ - `adam_beta1`: 0.9
260
+ - `adam_beta2`: 0.999
261
+ - `adam_epsilon`: 1e-08
262
+ - `max_grad_norm`: 1.0
263
+ - `num_train_epochs`: 5
264
+ - `max_steps`: -1
265
+ - `lr_scheduler_type`: linear
266
+ - `lr_scheduler_kwargs`: None
267
+ - `warmup_ratio`: 0.0
268
+ - `warmup_steps`: 4229
269
+ - `log_level`: passive
270
+ - `log_level_replica`: warning
271
+ - `log_on_each_node`: True
272
+ - `logging_nan_inf_filter`: True
273
+ - `save_safetensors`: True
274
+ - `save_on_each_node`: False
275
+ - `save_only_model`: False
276
+ - `restore_callback_states_from_checkpoint`: False
277
+ - `no_cuda`: False
278
+ - `use_cpu`: False
279
+ - `use_mps_device`: False
280
+ - `seed`: 42
281
+ - `data_seed`: None
282
+ - `jit_mode_eval`: False
283
+ - `bf16`: True
284
+ - `fp16`: False
285
+ - `fp16_opt_level`: O1
286
+ - `half_precision_backend`: auto
287
+ - `bf16_full_eval`: False
288
+ - `fp16_full_eval`: False
289
+ - `tf32`: None
290
+ - `local_rank`: 0
291
+ - `ddp_backend`: None
292
+ - `tpu_num_cores`: None
293
+ - `tpu_metrics_debug`: False
294
+ - `debug`: []
295
+ - `dataloader_drop_last`: True
296
+ - `dataloader_num_workers`: 0
297
+ - `dataloader_prefetch_factor`: None
298
+ - `past_index`: -1
299
+ - `disable_tqdm`: False
300
+ - `remove_unused_columns`: True
301
+ - `label_names`: None
302
+ - `load_best_model_at_end`: False
303
+ - `ignore_data_skip`: False
304
+ - `fsdp`: []
305
+ - `fsdp_min_num_params`: 0
306
+ - `fsdp_config`: {'min_num_params': 0, 'xla': False, 'xla_fsdp_v2': False, 'xla_fsdp_grad_ckpt': False}
307
+ - `fsdp_transformer_layer_cls_to_wrap`: None
308
+ - `accelerator_config`: {'split_batches': False, 'dispatch_batches': None, 'even_batches': True, 'use_seedable_sampler': True, 'non_blocking': False, 'gradient_accumulation_kwargs': None}
309
+ - `parallelism_config`: None
310
+ - `deepspeed`: None
311
+ - `label_smoothing_factor`: 0.0
312
+ - `optim`: adamw_torch_fused
313
+ - `optim_args`: None
314
+ - `adafactor`: False
315
+ - `group_by_length`: False
316
+ - `length_column_name`: length
317
+ - `project`: huggingface
318
+ - `trackio_space_id`: trackio
319
+ - `ddp_find_unused_parameters`: None
320
+ - `ddp_bucket_cap_mb`: None
321
+ - `ddp_broadcast_buffers`: False
322
+ - `dataloader_pin_memory`: True
323
+ - `dataloader_persistent_workers`: False
324
+ - `skip_memory_metrics`: True
325
+ - `use_legacy_prediction_loop`: False
326
+ - `push_to_hub`: False
327
+ - `resume_from_checkpoint`: None
328
+ - `hub_model_id`: None
329
+ - `hub_strategy`: every_save
330
+ - `hub_private_repo`: None
331
+ - `hub_always_push`: False
332
+ - `hub_revision`: None
333
+ - `gradient_checkpointing`: True
334
+ - `gradient_checkpointing_kwargs`: {'use_reentrant': False}
335
+ - `include_inputs_for_metrics`: False
336
+ - `include_for_metrics`: []
337
+ - `eval_do_concat_batches`: True
338
+ - `fp16_backend`: auto
339
+ - `push_to_hub_model_id`: None
340
+ - `push_to_hub_organization`: None
341
+ - `mp_parameters`:
342
+ - `auto_find_batch_size`: False
343
+ - `full_determinism`: False
344
+ - `torchdynamo`: None
345
+ - `ray_scope`: last
346
+ - `ddp_timeout`: 1800
347
+ - `torch_compile`: False
348
+ - `torch_compile_backend`: None
349
+ - `torch_compile_mode`: None
350
+ - `include_tokens_per_second`: False
351
+ - `include_num_input_tokens_seen`: no
352
+ - `neftune_noise_alpha`: None
353
+ - `optim_target_modules`: None
354
+ - `batch_eval_metrics`: False
355
+ - `eval_on_start`: False
356
+ - `use_liger_kernel`: False
357
+ - `liger_kernel_config`: None
358
+ - `eval_use_gather_object`: False
359
+ - `average_tokens_across_devices`: True
360
+ - `prompts`: None
361
+ - `batch_sampler`: no_duplicates
362
+ - `multi_dataset_batch_sampler`: proportional
363
+ - `router_mapping`: {}
364
+ - `learning_rate_mapping`: {}
365
+
366
+ </details>
367
+
368
+ ### Training Logs
369
+ | Epoch | Step | Training Loss | validation loss |
370
+ |:------:|:----:|:-------------:|:---------------:|
371
+ | 0.0118 | 50 | 15.9603 | - |
372
+ | 0.0237 | 100 | 14.7061 | - |
373
+ | 0.0355 | 150 | 12.797 | - |
374
+ | 0.0473 | 200 | 10.4224 | - |
375
+ | 0.0591 | 250 | 7.7023 | - |
376
+ | 0.0710 | 300 | 6.1814 | - |
377
+ | 0.0828 | 350 | 5.1295 | - |
378
+ | 0.0946 | 400 | 4.5724 | - |
379
+ | 0.1064 | 450 | 4.3299 | - |
380
+ | 0.1183 | 500 | 3.9241 | - |
381
+ | 0.1301 | 550 | 3.7726 | - |
382
+ | 0.1419 | 600 | 3.5488 | - |
383
+ | 0.1537 | 650 | 3.4224 | - |
384
+ | 0.1656 | 700 | 3.1461 | - |
385
+ | 0.1774 | 750 | 3.091 | - |
386
+ | 0.1892 | 800 | 3.0397 | - |
387
+ | 0.2010 | 850 | 2.7937 | - |
388
+ | 0.2129 | 900 | 2.7832 | - |
389
+ | 0.2247 | 950 | 2.7144 | - |
390
+ | 0.2365 | 1000 | 2.4957 | - |
391
+ | 0.2483 | 1050 | 2.5517 | - |
392
+ | 0.2602 | 1100 | 2.571 | - |
393
+ | 0.2720 | 1150 | 2.5598 | - |
394
+ | 0.2838 | 1200 | 2.4329 | - |
395
+ | 0.2956 | 1250 | 2.443 | - |
396
+ | 0.3075 | 1300 | 2.3928 | - |
397
+ | 0.3193 | 1350 | 2.3792 | - |
398
+ | 0.3311 | 1400 | 2.2843 | - |
399
+ | 0.3430 | 1450 | 2.1745 | - |
400
+ | 0.3548 | 1500 | 2.2979 | - |
401
+ | 0.3666 | 1550 | 2.2486 | - |
402
+ | 0.3784 | 1600 | 2.0867 | - |
403
+ | 0.3903 | 1650 | 2.2764 | - |
404
+ | 0.4021 | 1700 | 2.1324 | - |
405
+ | 0.4139 | 1750 | 2.0987 | - |
406
+ | 0.4257 | 1800 | 2.1326 | - |
407
+ | 0.4376 | 1850 | 2.0193 | - |
408
+ | 0.4494 | 1900 | 2.0284 | - |
409
+ | 0.4612 | 1950 | 2.0608 | - |
410
+ | 0.4730 | 2000 | 2.0469 | - |
411
+ | 0.4849 | 2050 | 2.0067 | - |
412
+ | 0.4967 | 2100 | 2.0569 | 3.4283 |
413
+
414
+
415
+ ### Framework Versions
416
+ - Python: 3.11.15
417
+ - Sentence Transformers: 5.3.0
418
+ - Transformers: 4.57.6
419
+ - PyTorch: 2.11.0+cu130
420
+ - Accelerate: 1.13.0
421
+ - Datasets: 3.6.0
422
+ - Tokenizers: 0.22.2
423
+
424
+ ## Citation
425
+
426
+ ### BibTeX
427
+
428
+ #### Sentence Transformers
429
+ ```bibtex
430
+ @inproceedings{reimers-2019-sentence-bert,
431
+ title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
432
+ author = "Reimers, Nils and Gurevych, Iryna",
433
+ booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
434
+ month = "11",
435
+ year = "2019",
436
+ publisher = "Association for Computational Linguistics",
437
+ url = "https://arxiv.org/abs/1908.10084",
438
+ }
439
+ ```
440
+
441
+ #### MatryoshkaLoss
442
+ ```bibtex
443
+ @misc{kusupati2024matryoshka,
444
+ title={Matryoshka Representation Learning},
445
+ author={Aditya Kusupati and Gantavya Bhatt and Aniket Rege and Matthew Wallingford and Aditya Sinha and Vivek Ramanujan and William Howard-Snyder and Kaifeng Chen and Sham Kakade and Prateek Jain and Ali Farhadi},
446
+ year={2024},
447
+ eprint={2205.13147},
448
+ archivePrefix={arXiv},
449
+ primaryClass={cs.LG}
450
+ }
451
+ ```
452
+
453
+ #### MultipleNegativesRankingLoss
454
+ ```bibtex
455
+ @misc{oord2019representationlearningcontrastivepredictive,
456
+ title={Representation Learning with Contrastive Predictive Coding},
457
+ author={Aaron van den Oord and Yazhe Li and Oriol Vinyals},
458
+ year={2019},
459
+ eprint={1807.03748},
460
+ archivePrefix={arXiv},
461
+ primaryClass={cs.LG},
462
+ url={https://arxiv.org/abs/1807.03748},
463
+ }
464
+ ```
465
+
466
+ <!--
467
+ ## Glossary
468
+
469
+ *Clearly define terms in order to be accessible across audiences.*
470
+ -->
471
+
472
+ <!--
473
+ ## Model Card Authors
474
+
475
+ *Lists the people who create the model card, providing recognition and accountability for the detailed work that goes into its construction.*
476
+ -->
477
+
478
+ <!--
479
+ ## Model Card Contact
480
+
481
+ *Provides a way for people who have updates to the Model Card, suggestions, or questions, to contact the Model Card authors.*
482
+ -->
checkpoints/checkpoint-2100/config.json ADDED
@@ -0,0 +1,45 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "ModernBertModel"
4
+ ],
5
+ "attention_bias": false,
6
+ "attention_dropout": 0.0,
7
+ "bos_token_id": 0,
8
+ "classifier_activation": "silu",
9
+ "classifier_bias": false,
10
+ "classifier_dropout": 0.0,
11
+ "classifier_pooling": "mean",
12
+ "cls_token_id": 0,
13
+ "decoder_bias": true,
14
+ "deterministic_flash_attn": false,
15
+ "dtype": "float32",
16
+ "embedding_dropout": 0.0,
17
+ "eos_token_id": 3,
18
+ "global_attn_every_n_layers": 3,
19
+ "global_rope_theta": 160000.0,
20
+ "gradient_checkpointing": false,
21
+ "hidden_activation": "gelu",
22
+ "hidden_size": 768,
23
+ "initializer_cutoff_factor": 2.0,
24
+ "initializer_range": 0.02,
25
+ "intermediate_size": 1152,
26
+ "layer_norm_eps": 1e-05,
27
+ "local_attention": 128,
28
+ "local_rope_theta": 160000.0,
29
+ "max_position_embeddings": 4096,
30
+ "mlp_bias": false,
31
+ "mlp_dropout": 0.0,
32
+ "model_type": "modernbert",
33
+ "norm_bias": false,
34
+ "norm_eps": 1e-05,
35
+ "num_attention_heads": 12,
36
+ "num_hidden_layers": 22,
37
+ "pad_token_id": 2,
38
+ "position_embedding_type": "absolute",
39
+ "repad_logits_with_grad": false,
40
+ "sep_token_id": 3,
41
+ "sparse_pred_ignore_index": -100,
42
+ "sparse_prediction": false,
43
+ "transformers_version": "4.57.6",
44
+ "vocab_size": 32064
45
+ }
checkpoints/checkpoint-2100/config_sentence_transformers.json ADDED
@@ -0,0 +1,14 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "model_type": "SentenceTransformer",
3
+ "__version__": {
4
+ "sentence_transformers": "5.3.0",
5
+ "transformers": "4.57.6",
6
+ "pytorch": "2.11.0+cu130"
7
+ },
8
+ "prompts": {
9
+ "query": "",
10
+ "document": ""
11
+ },
12
+ "default_prompt_name": null,
13
+ "similarity_fn_name": "cosine"
14
+ }
checkpoints/checkpoint-2100/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:18ebe519bc9a02e147f059d3a1f4b45236dfbc1712f46f9d3e9ae63734a85c5c
3
+ size 539840248
checkpoints/checkpoint-2100/modules.json ADDED
@@ -0,0 +1,20 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ [
2
+ {
3
+ "idx": 0,
4
+ "name": "0",
5
+ "path": "",
6
+ "type": "sentence_transformers.models.Transformer"
7
+ },
8
+ {
9
+ "idx": 1,
10
+ "name": "1",
11
+ "path": "1_Pooling",
12
+ "type": "sentence_transformers.models.Pooling"
13
+ },
14
+ {
15
+ "idx": 2,
16
+ "name": "2",
17
+ "path": "2_Normalize",
18
+ "type": "sentence_transformers.models.Normalize"
19
+ }
20
+ ]
checkpoints/checkpoint-2100/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5ab660154566ed8861c1cb8d361c408fb464eec3c8b792af6ec455eb6468844d
3
+ size 1079769611
checkpoints/checkpoint-2100/rng_state_0.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:60c96e0ca9dd9b4c5d2d91984ff4a9d05c40210daf3462a66de8857ef83eeb27
3
+ size 14917
checkpoints/checkpoint-2100/rng_state_1.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9b9c6aaa284dbb69b674c875130bd71b0c1166b0387f9efc946ea9ed97ea3008
3
+ size 14917
checkpoints/checkpoint-2100/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:aadc679658086766ea02f05873ddcc45db90da2c7048b354cc84214ed4c15db0
3
+ size 1465
checkpoints/checkpoint-2100/sentence_bert_config.json ADDED
@@ -0,0 +1,4 @@
 
 
 
 
 
1
+ {
2
+ "max_seq_length": 512,
3
+ "do_lower_case": false
4
+ }
checkpoints/checkpoint-2100/special_tokens_map.json ADDED
@@ -0,0 +1,37 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "cls_token": {
3
+ "content": "[CLS]",
4
+ "lstrip": false,
5
+ "normalized": false,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "mask_token": {
10
+ "content": "[MASK]",
11
+ "lstrip": true,
12
+ "normalized": false,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "pad_token": {
17
+ "content": "[PAD]",
18
+ "lstrip": false,
19
+ "normalized": false,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "sep_token": {
24
+ "content": "[SEP]",
25
+ "lstrip": false,
26
+ "normalized": false,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "unk_token": {
31
+ "content": "[UNK]",
32
+ "lstrip": false,
33
+ "normalized": false,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ }
37
+ }
checkpoints/checkpoint-2100/tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoints/checkpoint-2100/tokenizer_config.json ADDED
@@ -0,0 +1,569 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "added_tokens_decoder": {
3
+ "0": {
4
+ "content": "[CLS]",
5
+ "lstrip": false,
6
+ "normalized": false,
7
+ "rstrip": false,
8
+ "single_word": false,
9
+ "special": true
10
+ },
11
+ "1": {
12
+ "content": "[MASK]",
13
+ "lstrip": true,
14
+ "normalized": false,
15
+ "rstrip": false,
16
+ "single_word": false,
17
+ "special": true
18
+ },
19
+ "2": {
20
+ "content": "[PAD]",
21
+ "lstrip": false,
22
+ "normalized": false,
23
+ "rstrip": false,
24
+ "single_word": false,
25
+ "special": true
26
+ },
27
+ "3": {
28
+ "content": "[SEP]",
29
+ "lstrip": false,
30
+ "normalized": false,
31
+ "rstrip": false,
32
+ "single_word": false,
33
+ "special": true
34
+ },
35
+ "4": {
36
+ "content": "[UNK]",
37
+ "lstrip": false,
38
+ "normalized": false,
39
+ "rstrip": false,
40
+ "single_word": false,
41
+ "special": true
42
+ },
43
+ "32000": {
44
+ "content": "[unused1]",
45
+ "lstrip": false,
46
+ "normalized": false,
47
+ "rstrip": false,
48
+ "single_word": false,
49
+ "special": true
50
+ },
51
+ "32001": {
52
+ "content": "[unused2]",
53
+ "lstrip": false,
54
+ "normalized": false,
55
+ "rstrip": false,
56
+ "single_word": false,
57
+ "special": true
58
+ },
59
+ "32002": {
60
+ "content": "[unused3]",
61
+ "lstrip": false,
62
+ "normalized": false,
63
+ "rstrip": false,
64
+ "single_word": false,
65
+ "special": true
66
+ },
67
+ "32003": {
68
+ "content": "[unused4]",
69
+ "lstrip": false,
70
+ "normalized": false,
71
+ "rstrip": false,
72
+ "single_word": false,
73
+ "special": true
74
+ },
75
+ "32004": {
76
+ "content": "[unused5]",
77
+ "lstrip": false,
78
+ "normalized": false,
79
+ "rstrip": false,
80
+ "single_word": false,
81
+ "special": true
82
+ },
83
+ "32005": {
84
+ "content": "[unused6]",
85
+ "lstrip": false,
86
+ "normalized": false,
87
+ "rstrip": false,
88
+ "single_word": false,
89
+ "special": true
90
+ },
91
+ "32006": {
92
+ "content": "[unused7]",
93
+ "lstrip": false,
94
+ "normalized": false,
95
+ "rstrip": false,
96
+ "single_word": false,
97
+ "special": true
98
+ },
99
+ "32007": {
100
+ "content": "[unused8]",
101
+ "lstrip": false,
102
+ "normalized": false,
103
+ "rstrip": false,
104
+ "single_word": false,
105
+ "special": true
106
+ },
107
+ "32008": {
108
+ "content": "[unused9]",
109
+ "lstrip": false,
110
+ "normalized": false,
111
+ "rstrip": false,
112
+ "single_word": false,
113
+ "special": true
114
+ },
115
+ "32009": {
116
+ "content": "[unused10]",
117
+ "lstrip": false,
118
+ "normalized": false,
119
+ "rstrip": false,
120
+ "single_word": false,
121
+ "special": true
122
+ },
123
+ "32010": {
124
+ "content": "[unused11]",
125
+ "lstrip": false,
126
+ "normalized": false,
127
+ "rstrip": false,
128
+ "single_word": false,
129
+ "special": true
130
+ },
131
+ "32011": {
132
+ "content": "[unused12]",
133
+ "lstrip": false,
134
+ "normalized": false,
135
+ "rstrip": false,
136
+ "single_word": false,
137
+ "special": true
138
+ },
139
+ "32012": {
140
+ "content": "[unused13]",
141
+ "lstrip": false,
142
+ "normalized": false,
143
+ "rstrip": false,
144
+ "single_word": false,
145
+ "special": true
146
+ },
147
+ "32013": {
148
+ "content": "[unused14]",
149
+ "lstrip": false,
150
+ "normalized": false,
151
+ "rstrip": false,
152
+ "single_word": false,
153
+ "special": true
154
+ },
155
+ "32014": {
156
+ "content": "[unused15]",
157
+ "lstrip": false,
158
+ "normalized": false,
159
+ "rstrip": false,
160
+ "single_word": false,
161
+ "special": true
162
+ },
163
+ "32015": {
164
+ "content": "[unused16]",
165
+ "lstrip": false,
166
+ "normalized": false,
167
+ "rstrip": false,
168
+ "single_word": false,
169
+ "special": true
170
+ },
171
+ "32016": {
172
+ "content": "[unused17]",
173
+ "lstrip": false,
174
+ "normalized": false,
175
+ "rstrip": false,
176
+ "single_word": false,
177
+ "special": true
178
+ },
179
+ "32017": {
180
+ "content": "[unused18]",
181
+ "lstrip": false,
182
+ "normalized": false,
183
+ "rstrip": false,
184
+ "single_word": false,
185
+ "special": true
186
+ },
187
+ "32018": {
188
+ "content": "[unused19]",
189
+ "lstrip": false,
190
+ "normalized": false,
191
+ "rstrip": false,
192
+ "single_word": false,
193
+ "special": true
194
+ },
195
+ "32019": {
196
+ "content": "[unused20]",
197
+ "lstrip": false,
198
+ "normalized": false,
199
+ "rstrip": false,
200
+ "single_word": false,
201
+ "special": true
202
+ },
203
+ "32020": {
204
+ "content": "[unused21]",
205
+ "lstrip": false,
206
+ "normalized": false,
207
+ "rstrip": false,
208
+ "single_word": false,
209
+ "special": true
210
+ },
211
+ "32021": {
212
+ "content": "[unused22]",
213
+ "lstrip": false,
214
+ "normalized": false,
215
+ "rstrip": false,
216
+ "single_word": false,
217
+ "special": true
218
+ },
219
+ "32022": {
220
+ "content": "[unused23]",
221
+ "lstrip": false,
222
+ "normalized": false,
223
+ "rstrip": false,
224
+ "single_word": false,
225
+ "special": true
226
+ },
227
+ "32023": {
228
+ "content": "[unused24]",
229
+ "lstrip": false,
230
+ "normalized": false,
231
+ "rstrip": false,
232
+ "single_word": false,
233
+ "special": true
234
+ },
235
+ "32024": {
236
+ "content": "[unused25]",
237
+ "lstrip": false,
238
+ "normalized": false,
239
+ "rstrip": false,
240
+ "single_word": false,
241
+ "special": true
242
+ },
243
+ "32025": {
244
+ "content": "[unused26]",
245
+ "lstrip": false,
246
+ "normalized": false,
247
+ "rstrip": false,
248
+ "single_word": false,
249
+ "special": true
250
+ },
251
+ "32026": {
252
+ "content": "[unused27]",
253
+ "lstrip": false,
254
+ "normalized": false,
255
+ "rstrip": false,
256
+ "single_word": false,
257
+ "special": true
258
+ },
259
+ "32027": {
260
+ "content": "[unused28]",
261
+ "lstrip": false,
262
+ "normalized": false,
263
+ "rstrip": false,
264
+ "single_word": false,
265
+ "special": true
266
+ },
267
+ "32028": {
268
+ "content": "[unused29]",
269
+ "lstrip": false,
270
+ "normalized": false,
271
+ "rstrip": false,
272
+ "single_word": false,
273
+ "special": true
274
+ },
275
+ "32029": {
276
+ "content": "[unused30]",
277
+ "lstrip": false,
278
+ "normalized": false,
279
+ "rstrip": false,
280
+ "single_word": false,
281
+ "special": true
282
+ },
283
+ "32030": {
284
+ "content": "[unused31]",
285
+ "lstrip": false,
286
+ "normalized": false,
287
+ "rstrip": false,
288
+ "single_word": false,
289
+ "special": true
290
+ },
291
+ "32031": {
292
+ "content": "[unused32]",
293
+ "lstrip": false,
294
+ "normalized": false,
295
+ "rstrip": false,
296
+ "single_word": false,
297
+ "special": true
298
+ },
299
+ "32032": {
300
+ "content": "[unused33]",
301
+ "lstrip": false,
302
+ "normalized": false,
303
+ "rstrip": false,
304
+ "single_word": false,
305
+ "special": true
306
+ },
307
+ "32033": {
308
+ "content": "[unused34]",
309
+ "lstrip": false,
310
+ "normalized": false,
311
+ "rstrip": false,
312
+ "single_word": false,
313
+ "special": true
314
+ },
315
+ "32034": {
316
+ "content": "[unused35]",
317
+ "lstrip": false,
318
+ "normalized": false,
319
+ "rstrip": false,
320
+ "single_word": false,
321
+ "special": true
322
+ },
323
+ "32035": {
324
+ "content": "[unused36]",
325
+ "lstrip": false,
326
+ "normalized": false,
327
+ "rstrip": false,
328
+ "single_word": false,
329
+ "special": true
330
+ },
331
+ "32036": {
332
+ "content": "[unused37]",
333
+ "lstrip": false,
334
+ "normalized": false,
335
+ "rstrip": false,
336
+ "single_word": false,
337
+ "special": true
338
+ },
339
+ "32037": {
340
+ "content": "[unused38]",
341
+ "lstrip": false,
342
+ "normalized": false,
343
+ "rstrip": false,
344
+ "single_word": false,
345
+ "special": true
346
+ },
347
+ "32038": {
348
+ "content": "[unused39]",
349
+ "lstrip": false,
350
+ "normalized": false,
351
+ "rstrip": false,
352
+ "single_word": false,
353
+ "special": true
354
+ },
355
+ "32039": {
356
+ "content": "[unused40]",
357
+ "lstrip": false,
358
+ "normalized": false,
359
+ "rstrip": false,
360
+ "single_word": false,
361
+ "special": true
362
+ },
363
+ "32040": {
364
+ "content": "[unused41]",
365
+ "lstrip": false,
366
+ "normalized": false,
367
+ "rstrip": false,
368
+ "single_word": false,
369
+ "special": true
370
+ },
371
+ "32041": {
372
+ "content": "[unused42]",
373
+ "lstrip": false,
374
+ "normalized": false,
375
+ "rstrip": false,
376
+ "single_word": false,
377
+ "special": true
378
+ },
379
+ "32042": {
380
+ "content": "[unused43]",
381
+ "lstrip": false,
382
+ "normalized": false,
383
+ "rstrip": false,
384
+ "single_word": false,
385
+ "special": true
386
+ },
387
+ "32043": {
388
+ "content": "[unused44]",
389
+ "lstrip": false,
390
+ "normalized": false,
391
+ "rstrip": false,
392
+ "single_word": false,
393
+ "special": true
394
+ },
395
+ "32044": {
396
+ "content": "[unused45]",
397
+ "lstrip": false,
398
+ "normalized": false,
399
+ "rstrip": false,
400
+ "single_word": false,
401
+ "special": true
402
+ },
403
+ "32045": {
404
+ "content": "[unused46]",
405
+ "lstrip": false,
406
+ "normalized": false,
407
+ "rstrip": false,
408
+ "single_word": false,
409
+ "special": true
410
+ },
411
+ "32046": {
412
+ "content": "[unused47]",
413
+ "lstrip": false,
414
+ "normalized": false,
415
+ "rstrip": false,
416
+ "single_word": false,
417
+ "special": true
418
+ },
419
+ "32047": {
420
+ "content": "[unused48]",
421
+ "lstrip": false,
422
+ "normalized": false,
423
+ "rstrip": false,
424
+ "single_word": false,
425
+ "special": true
426
+ },
427
+ "32048": {
428
+ "content": "[unused49]",
429
+ "lstrip": false,
430
+ "normalized": false,
431
+ "rstrip": false,
432
+ "single_word": false,
433
+ "special": true
434
+ },
435
+ "32049": {
436
+ "content": "[unused50]",
437
+ "lstrip": false,
438
+ "normalized": false,
439
+ "rstrip": false,
440
+ "single_word": false,
441
+ "special": true
442
+ },
443
+ "32050": {
444
+ "content": "[unused51]",
445
+ "lstrip": false,
446
+ "normalized": false,
447
+ "rstrip": false,
448
+ "single_word": false,
449
+ "special": true
450
+ },
451
+ "32051": {
452
+ "content": "[unused52]",
453
+ "lstrip": false,
454
+ "normalized": false,
455
+ "rstrip": false,
456
+ "single_word": false,
457
+ "special": true
458
+ },
459
+ "32052": {
460
+ "content": "[unused53]",
461
+ "lstrip": false,
462
+ "normalized": false,
463
+ "rstrip": false,
464
+ "single_word": false,
465
+ "special": true
466
+ },
467
+ "32053": {
468
+ "content": "[unused54]",
469
+ "lstrip": false,
470
+ "normalized": false,
471
+ "rstrip": false,
472
+ "single_word": false,
473
+ "special": true
474
+ },
475
+ "32054": {
476
+ "content": "[unused55]",
477
+ "lstrip": false,
478
+ "normalized": false,
479
+ "rstrip": false,
480
+ "single_word": false,
481
+ "special": true
482
+ },
483
+ "32055": {
484
+ "content": "[unused56]",
485
+ "lstrip": false,
486
+ "normalized": false,
487
+ "rstrip": false,
488
+ "single_word": false,
489
+ "special": true
490
+ },
491
+ "32056": {
492
+ "content": "[unused57]",
493
+ "lstrip": false,
494
+ "normalized": false,
495
+ "rstrip": false,
496
+ "single_word": false,
497
+ "special": true
498
+ },
499
+ "32057": {
500
+ "content": "[unused58]",
501
+ "lstrip": false,
502
+ "normalized": false,
503
+ "rstrip": false,
504
+ "single_word": false,
505
+ "special": true
506
+ },
507
+ "32058": {
508
+ "content": "[unused59]",
509
+ "lstrip": false,
510
+ "normalized": false,
511
+ "rstrip": false,
512
+ "single_word": false,
513
+ "special": true
514
+ },
515
+ "32059": {
516
+ "content": "[unused60]",
517
+ "lstrip": false,
518
+ "normalized": false,
519
+ "rstrip": false,
520
+ "single_word": false,
521
+ "special": true
522
+ },
523
+ "32060": {
524
+ "content": "[unused61]",
525
+ "lstrip": false,
526
+ "normalized": false,
527
+ "rstrip": false,
528
+ "single_word": false,
529
+ "special": true
530
+ },
531
+ "32061": {
532
+ "content": "[unused62]",
533
+ "lstrip": false,
534
+ "normalized": false,
535
+ "rstrip": false,
536
+ "single_word": false,
537
+ "special": true
538
+ },
539
+ "32062": {
540
+ "content": "[unused63]",
541
+ "lstrip": false,
542
+ "normalized": false,
543
+ "rstrip": false,
544
+ "single_word": false,
545
+ "special": true
546
+ },
547
+ "32063": {
548
+ "content": "[unused64]",
549
+ "lstrip": false,
550
+ "normalized": false,
551
+ "rstrip": false,
552
+ "single_word": false,
553
+ "special": true
554
+ }
555
+ },
556
+ "clean_up_tokenization_spaces": true,
557
+ "cls_token": "[CLS]",
558
+ "extra_special_tokens": {},
559
+ "mask_token": "[MASK]",
560
+ "model_input_names": [
561
+ "input_ids",
562
+ "attention_mask"
563
+ ],
564
+ "model_max_length": 512,
565
+ "pad_token": "[PAD]",
566
+ "sep_token": "[SEP]",
567
+ "tokenizer_class": "PreTrainedTokenizerFast",
568
+ "unk_token": "[UNK]"
569
+ }
checkpoints/checkpoint-2100/trainer_state.json ADDED
@@ -0,0 +1,336 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 2100,
3
+ "best_metric": 3.428261561244058,
4
+ "best_model_checkpoint": "outputs/bert-base-stage2-sbert/checkpoints/checkpoint-2100",
5
+ "epoch": 0.4966887417218543,
6
+ "eval_steps": 2100,
7
+ "global_step": 2100,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.011825922421948912,
14
+ "grad_norm": 37.17527770996094,
15
+ "learning_rate": 5.79333175691653e-07,
16
+ "loss": 15.9603,
17
+ "step": 50
18
+ },
19
+ {
20
+ "epoch": 0.023651844843897825,
21
+ "grad_norm": 46.39728927612305,
22
+ "learning_rate": 1.1704894774178294e-06,
23
+ "loss": 14.7061,
24
+ "step": 100
25
+ },
26
+ {
27
+ "epoch": 0.035477767265846734,
28
+ "grad_norm": 28.315404891967773,
29
+ "learning_rate": 1.761645779144006e-06,
30
+ "loss": 12.797,
31
+ "step": 150
32
+ },
33
+ {
34
+ "epoch": 0.04730368968779565,
35
+ "grad_norm": 35.562313079833984,
36
+ "learning_rate": 2.352802080870182e-06,
37
+ "loss": 10.4224,
38
+ "step": 200
39
+ },
40
+ {
41
+ "epoch": 0.05912961210974456,
42
+ "grad_norm": 32.73415756225586,
43
+ "learning_rate": 2.9439583825963587e-06,
44
+ "loss": 7.7023,
45
+ "step": 250
46
+ },
47
+ {
48
+ "epoch": 0.07095553453169347,
49
+ "grad_norm": 47.77512741088867,
50
+ "learning_rate": 3.535114684322535e-06,
51
+ "loss": 6.1814,
52
+ "step": 300
53
+ },
54
+ {
55
+ "epoch": 0.08278145695364239,
56
+ "grad_norm": 22.523290634155273,
57
+ "learning_rate": 4.126270986048711e-06,
58
+ "loss": 5.1295,
59
+ "step": 350
60
+ },
61
+ {
62
+ "epoch": 0.0946073793755913,
63
+ "grad_norm": 23.141721725463867,
64
+ "learning_rate": 4.717427287774888e-06,
65
+ "loss": 4.5724,
66
+ "step": 400
67
+ },
68
+ {
69
+ "epoch": 0.10643330179754021,
70
+ "grad_norm": 19.452104568481445,
71
+ "learning_rate": 5.308583589501064e-06,
72
+ "loss": 4.3299,
73
+ "step": 450
74
+ },
75
+ {
76
+ "epoch": 0.11825922421948912,
77
+ "grad_norm": 233.05697631835938,
78
+ "learning_rate": 5.899739891227241e-06,
79
+ "loss": 3.9241,
80
+ "step": 500
81
+ },
82
+ {
83
+ "epoch": 0.13008514664143803,
84
+ "grad_norm": 24.122013092041016,
85
+ "learning_rate": 6.4908961929534175e-06,
86
+ "loss": 3.7726,
87
+ "step": 550
88
+ },
89
+ {
90
+ "epoch": 0.14191106906338694,
91
+ "grad_norm": 25.219341278076172,
92
+ "learning_rate": 7.082052494679593e-06,
93
+ "loss": 3.5488,
94
+ "step": 600
95
+ },
96
+ {
97
+ "epoch": 0.15373699148533584,
98
+ "grad_norm": 20.27418327331543,
99
+ "learning_rate": 7.673208796405771e-06,
100
+ "loss": 3.4224,
101
+ "step": 650
102
+ },
103
+ {
104
+ "epoch": 0.16556291390728478,
105
+ "grad_norm": 18.39457130432129,
106
+ "learning_rate": 8.264365098131946e-06,
107
+ "loss": 3.1461,
108
+ "step": 700
109
+ },
110
+ {
111
+ "epoch": 0.1773888363292337,
112
+ "grad_norm": 15.472208023071289,
113
+ "learning_rate": 8.855521399858123e-06,
114
+ "loss": 3.091,
115
+ "step": 750
116
+ },
117
+ {
118
+ "epoch": 0.1892147587511826,
119
+ "grad_norm": 14.311614036560059,
120
+ "learning_rate": 9.4466777015843e-06,
121
+ "loss": 3.0397,
122
+ "step": 800
123
+ },
124
+ {
125
+ "epoch": 0.2010406811731315,
126
+ "grad_norm": 15.130672454833984,
127
+ "learning_rate": 1.0037834003310476e-05,
128
+ "loss": 2.7937,
129
+ "step": 850
130
+ },
131
+ {
132
+ "epoch": 0.21286660359508042,
133
+ "grad_norm": 16.500473022460938,
134
+ "learning_rate": 1.0628990305036653e-05,
135
+ "loss": 2.7832,
136
+ "step": 900
137
+ },
138
+ {
139
+ "epoch": 0.22469252601702933,
140
+ "grad_norm": 15.874606132507324,
141
+ "learning_rate": 1.1220146606762828e-05,
142
+ "loss": 2.7144,
143
+ "step": 950
144
+ },
145
+ {
146
+ "epoch": 0.23651844843897823,
147
+ "grad_norm": 17.386566162109375,
148
+ "learning_rate": 1.1811302908489005e-05,
149
+ "loss": 2.4957,
150
+ "step": 1000
151
+ },
152
+ {
153
+ "epoch": 0.24834437086092714,
154
+ "grad_norm": 16.52501106262207,
155
+ "learning_rate": 1.2402459210215181e-05,
156
+ "loss": 2.5517,
157
+ "step": 1050
158
+ },
159
+ {
160
+ "epoch": 0.26017029328287605,
161
+ "grad_norm": 21.434019088745117,
162
+ "learning_rate": 1.2993615511941356e-05,
163
+ "loss": 2.571,
164
+ "step": 1100
165
+ },
166
+ {
167
+ "epoch": 0.27199621570482496,
168
+ "grad_norm": 15.858635902404785,
169
+ "learning_rate": 1.3584771813667535e-05,
170
+ "loss": 2.5598,
171
+ "step": 1150
172
+ },
173
+ {
174
+ "epoch": 0.28382213812677387,
175
+ "grad_norm": 14.342907905578613,
176
+ "learning_rate": 1.417592811539371e-05,
177
+ "loss": 2.4329,
178
+ "step": 1200
179
+ },
180
+ {
181
+ "epoch": 0.2956480605487228,
182
+ "grad_norm": 13.743053436279297,
183
+ "learning_rate": 1.4767084417119887e-05,
184
+ "loss": 2.443,
185
+ "step": 1250
186
+ },
187
+ {
188
+ "epoch": 0.3074739829706717,
189
+ "grad_norm": 29.751502990722656,
190
+ "learning_rate": 1.5358240718846065e-05,
191
+ "loss": 2.3928,
192
+ "step": 1300
193
+ },
194
+ {
195
+ "epoch": 0.3192999053926206,
196
+ "grad_norm": 12.822844505310059,
197
+ "learning_rate": 1.594939702057224e-05,
198
+ "loss": 2.3792,
199
+ "step": 1350
200
+ },
201
+ {
202
+ "epoch": 0.33112582781456956,
203
+ "grad_norm": 13.577836036682129,
204
+ "learning_rate": 1.6540553322298415e-05,
205
+ "loss": 2.2843,
206
+ "step": 1400
207
+ },
208
+ {
209
+ "epoch": 0.34295175023651847,
210
+ "grad_norm": 16.76645278930664,
211
+ "learning_rate": 1.713170962402459e-05,
212
+ "loss": 2.1745,
213
+ "step": 1450
214
+ },
215
+ {
216
+ "epoch": 0.3547776726584674,
217
+ "grad_norm": 16.578153610229492,
218
+ "learning_rate": 1.772286592575077e-05,
219
+ "loss": 2.2979,
220
+ "step": 1500
221
+ },
222
+ {
223
+ "epoch": 0.3666035950804163,
224
+ "grad_norm": 13.334796905517578,
225
+ "learning_rate": 1.8314022227476947e-05,
226
+ "loss": 2.2486,
227
+ "step": 1550
228
+ },
229
+ {
230
+ "epoch": 0.3784295175023652,
231
+ "grad_norm": 17.563169479370117,
232
+ "learning_rate": 1.8905178529203122e-05,
233
+ "loss": 2.0867,
234
+ "step": 1600
235
+ },
236
+ {
237
+ "epoch": 0.3902554399243141,
238
+ "grad_norm": 20.97819709777832,
239
+ "learning_rate": 1.94963348309293e-05,
240
+ "loss": 2.2764,
241
+ "step": 1650
242
+ },
243
+ {
244
+ "epoch": 0.402081362346263,
245
+ "grad_norm": 15.547277450561523,
246
+ "learning_rate": 2.0087491132655476e-05,
247
+ "loss": 2.1324,
248
+ "step": 1700
249
+ },
250
+ {
251
+ "epoch": 0.4139072847682119,
252
+ "grad_norm": 11.580471992492676,
253
+ "learning_rate": 2.067864743438165e-05,
254
+ "loss": 2.0987,
255
+ "step": 1750
256
+ },
257
+ {
258
+ "epoch": 0.42573320719016083,
259
+ "grad_norm": 12.84550666809082,
260
+ "learning_rate": 2.1269803736107826e-05,
261
+ "loss": 2.1326,
262
+ "step": 1800
263
+ },
264
+ {
265
+ "epoch": 0.43755912961210974,
266
+ "grad_norm": 12.020867347717285,
267
+ "learning_rate": 2.1860960037834004e-05,
268
+ "loss": 2.0193,
269
+ "step": 1850
270
+ },
271
+ {
272
+ "epoch": 0.44938505203405865,
273
+ "grad_norm": 10.422323226928711,
274
+ "learning_rate": 2.245211633956018e-05,
275
+ "loss": 2.0284,
276
+ "step": 1900
277
+ },
278
+ {
279
+ "epoch": 0.46121097445600756,
280
+ "grad_norm": 12.45924186706543,
281
+ "learning_rate": 2.3043272641286358e-05,
282
+ "loss": 2.0608,
283
+ "step": 1950
284
+ },
285
+ {
286
+ "epoch": 0.47303689687795647,
287
+ "grad_norm": 10.701308250427246,
288
+ "learning_rate": 2.3634428943012536e-05,
289
+ "loss": 2.0469,
290
+ "step": 2000
291
+ },
292
+ {
293
+ "epoch": 0.4848628192999054,
294
+ "grad_norm": 11.961787223815918,
295
+ "learning_rate": 2.422558524473871e-05,
296
+ "loss": 2.0067,
297
+ "step": 2050
298
+ },
299
+ {
300
+ "epoch": 0.4966887417218543,
301
+ "grad_norm": 11.067811965942383,
302
+ "learning_rate": 2.4816741546464886e-05,
303
+ "loss": 2.0569,
304
+ "step": 2100
305
+ },
306
+ {
307
+ "epoch": 0.4966887417218543,
308
+ "eval_runtime": 124.5236,
309
+ "eval_samples_per_second": 0.0,
310
+ "eval_steps_per_second": 0.0,
311
+ "eval_validation_loss": 3.428261561244058,
312
+ "step": 2100
313
+ }
314
+ ],
315
+ "logging_steps": 50,
316
+ "max_steps": 21140,
317
+ "num_input_tokens_seen": 0,
318
+ "num_train_epochs": 5,
319
+ "save_steps": 2100,
320
+ "stateful_callbacks": {
321
+ "TrainerControl": {
322
+ "args": {
323
+ "should_epoch_stop": false,
324
+ "should_evaluate": false,
325
+ "should_log": false,
326
+ "should_save": true,
327
+ "should_training_stop": false
328
+ },
329
+ "attributes": {}
330
+ }
331
+ },
332
+ "total_flos": 0.0,
333
+ "train_batch_size": 64,
334
+ "trial_name": null,
335
+ "trial_params": null
336
+ }
checkpoints/checkpoint-2100/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cc7b272d45391513ca51baa876ef22de7a259e4d04c7ed5ec6b8d40e591e2db5
3
+ size 6225