dzungpham commited on
Commit
5e11e3c
·
verified ·
1 Parent(s): 78ab7dd

Upload training checkpoints and best model

Browse files
checkpoint-1000/config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "RobertaForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 1026,
18
+ "model_type": "roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "output_past": true,
22
+ "pad_token_id": 1,
23
+ "position_embedding_type": "absolute",
24
+ "problem_type": "single_label_classification",
25
+ "transformers_version": "4.56.0",
26
+ "type_vocab_size": 10,
27
+ "use_cache": true,
28
+ "vocab_size": 51416
29
+ }
checkpoint-1000/merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-1000/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6d51378b54e35c00d17c3ac2006f9e9fdbd7cc12e52e1278758b6df39d27a87a
3
+ size 503749208
checkpoint-1000/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cce9d35e3077c44ed259aba54f709f632f5bf67a59fa794ed03bf3be1f17490a
3
+ size 1007621899
checkpoint-1000/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c9681354556c442279f8d15fdd4995c6180c0aa2fc961cc72bad8bdd7491d3e7
3
+ size 14645
checkpoint-1000/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1ca762945532cf70776f01dc50c979557aef924ea20456b955387653adde5a87
3
+ size 1977
checkpoint-1000/special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": true,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": true,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": true,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": true,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": true,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": true,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": true,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
checkpoint-1000/tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-1000/tokenizer_config.json ADDED
@@ -0,0 +1,58 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "added_tokens_decoder": {
4
+ "0": {
5
+ "content": "<s>",
6
+ "lstrip": false,
7
+ "normalized": true,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "1": {
13
+ "content": "<pad>",
14
+ "lstrip": false,
15
+ "normalized": true,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "2": {
21
+ "content": "</s>",
22
+ "lstrip": false,
23
+ "normalized": true,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ },
28
+ "3": {
29
+ "content": "<unk>",
30
+ "lstrip": false,
31
+ "normalized": true,
32
+ "rstrip": false,
33
+ "single_word": false,
34
+ "special": true
35
+ },
36
+ "4": {
37
+ "content": "<mask>",
38
+ "lstrip": true,
39
+ "normalized": true,
40
+ "rstrip": false,
41
+ "single_word": false,
42
+ "special": true
43
+ }
44
+ },
45
+ "bos_token": "<s>",
46
+ "clean_up_tokenization_spaces": false,
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "errors": "replace",
50
+ "extra_special_tokens": {},
51
+ "mask_token": "<mask>",
52
+ "model_max_length": 1000000000000000019884624838656,
53
+ "pad_token": "<pad>",
54
+ "sep_token": "</s>",
55
+ "tokenizer_class": "RobertaTokenizer",
56
+ "trim_offsets": true,
57
+ "unk_token": "<unk>"
58
+ }
checkpoint-1000/trainer_state.json ADDED
@@ -0,0 +1,769 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 1000,
3
+ "best_metric": 0.9613078781032101,
4
+ "best_model_checkpoint": "taskA-unixcoder-focal/checkpoint-1000",
5
+ "epoch": 0.064,
6
+ "eval_steps": 500,
7
+ "global_step": 1000,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.00064,
14
+ "grad_norm": 3.3732223510742188,
15
+ "learning_rate": 9.6e-08,
16
+ "loss": 0.2065,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.00128,
21
+ "grad_norm": 2.8028833866119385,
22
+ "learning_rate": 2.0266666666666668e-07,
23
+ "loss": 0.2003,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.00192,
28
+ "grad_norm": 3.137962818145752,
29
+ "learning_rate": 3.0933333333333335e-07,
30
+ "loss": 0.2119,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.00256,
35
+ "grad_norm": 2.2841057777404785,
36
+ "learning_rate": 4.16e-07,
37
+ "loss": 0.1858,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.0032,
42
+ "grad_norm": 2.4040842056274414,
43
+ "learning_rate": 5.226666666666667e-07,
44
+ "loss": 0.1755,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.00384,
49
+ "grad_norm": 2.1078808307647705,
50
+ "learning_rate": 6.293333333333334e-07,
51
+ "loss": 0.1836,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.00448,
56
+ "grad_norm": 2.1723551750183105,
57
+ "learning_rate": 7.36e-07,
58
+ "loss": 0.182,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.00512,
63
+ "grad_norm": 3.8697516918182373,
64
+ "learning_rate": 8.426666666666668e-07,
65
+ "loss": 0.1893,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.00576,
70
+ "grad_norm": 2.2711849212646484,
71
+ "learning_rate": 9.493333333333334e-07,
72
+ "loss": 0.1645,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.0064,
77
+ "grad_norm": 2.9138245582580566,
78
+ "learning_rate": 1.0560000000000001e-06,
79
+ "loss": 0.1753,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.00704,
84
+ "grad_norm": 2.136301279067993,
85
+ "learning_rate": 1.1626666666666667e-06,
86
+ "loss": 0.1639,
87
+ "step": 110
88
+ },
89
+ {
90
+ "epoch": 0.00768,
91
+ "grad_norm": 3.216343641281128,
92
+ "learning_rate": 1.2693333333333335e-06,
93
+ "loss": 0.1623,
94
+ "step": 120
95
+ },
96
+ {
97
+ "epoch": 0.00832,
98
+ "grad_norm": 3.192094326019287,
99
+ "learning_rate": 1.376e-06,
100
+ "loss": 0.1607,
101
+ "step": 130
102
+ },
103
+ {
104
+ "epoch": 0.00896,
105
+ "grad_norm": 4.722238540649414,
106
+ "learning_rate": 1.4826666666666666e-06,
107
+ "loss": 0.1653,
108
+ "step": 140
109
+ },
110
+ {
111
+ "epoch": 0.0096,
112
+ "grad_norm": 4.088972568511963,
113
+ "learning_rate": 1.5893333333333336e-06,
114
+ "loss": 0.1557,
115
+ "step": 150
116
+ },
117
+ {
118
+ "epoch": 0.01024,
119
+ "grad_norm": 2.2773237228393555,
120
+ "learning_rate": 1.6960000000000002e-06,
121
+ "loss": 0.1634,
122
+ "step": 160
123
+ },
124
+ {
125
+ "epoch": 0.01088,
126
+ "grad_norm": 2.53987193107605,
127
+ "learning_rate": 1.8026666666666667e-06,
128
+ "loss": 0.1435,
129
+ "step": 170
130
+ },
131
+ {
132
+ "epoch": 0.01152,
133
+ "grad_norm": 3.688382387161255,
134
+ "learning_rate": 1.9093333333333335e-06,
135
+ "loss": 0.1396,
136
+ "step": 180
137
+ },
138
+ {
139
+ "epoch": 0.01216,
140
+ "grad_norm": 1.8855538368225098,
141
+ "learning_rate": 2.0160000000000003e-06,
142
+ "loss": 0.1476,
143
+ "step": 190
144
+ },
145
+ {
146
+ "epoch": 0.0128,
147
+ "grad_norm": 2.2272040843963623,
148
+ "learning_rate": 2.1226666666666666e-06,
149
+ "loss": 0.144,
150
+ "step": 200
151
+ },
152
+ {
153
+ "epoch": 0.01344,
154
+ "grad_norm": 3.505934476852417,
155
+ "learning_rate": 2.229333333333334e-06,
156
+ "loss": 0.1306,
157
+ "step": 210
158
+ },
159
+ {
160
+ "epoch": 0.01408,
161
+ "grad_norm": 1.8632491827011108,
162
+ "learning_rate": 2.336e-06,
163
+ "loss": 0.1504,
164
+ "step": 220
165
+ },
166
+ {
167
+ "epoch": 0.01472,
168
+ "grad_norm": 2.191713333129883,
169
+ "learning_rate": 2.442666666666667e-06,
170
+ "loss": 0.1346,
171
+ "step": 230
172
+ },
173
+ {
174
+ "epoch": 0.01536,
175
+ "grad_norm": 1.9042261838912964,
176
+ "learning_rate": 2.5493333333333337e-06,
177
+ "loss": 0.135,
178
+ "step": 240
179
+ },
180
+ {
181
+ "epoch": 0.016,
182
+ "grad_norm": 2.266148090362549,
183
+ "learning_rate": 2.656e-06,
184
+ "loss": 0.1356,
185
+ "step": 250
186
+ },
187
+ {
188
+ "epoch": 0.01664,
189
+ "grad_norm": 2.4776418209075928,
190
+ "learning_rate": 2.762666666666667e-06,
191
+ "loss": 0.129,
192
+ "step": 260
193
+ },
194
+ {
195
+ "epoch": 0.01728,
196
+ "grad_norm": 2.340693712234497,
197
+ "learning_rate": 2.8693333333333336e-06,
198
+ "loss": 0.1236,
199
+ "step": 270
200
+ },
201
+ {
202
+ "epoch": 0.01792,
203
+ "grad_norm": 1.6849262714385986,
204
+ "learning_rate": 2.976e-06,
205
+ "loss": 0.1152,
206
+ "step": 280
207
+ },
208
+ {
209
+ "epoch": 0.01856,
210
+ "grad_norm": 3.5535154342651367,
211
+ "learning_rate": 3.082666666666667e-06,
212
+ "loss": 0.1335,
213
+ "step": 290
214
+ },
215
+ {
216
+ "epoch": 0.0192,
217
+ "grad_norm": 2.9307031631469727,
218
+ "learning_rate": 3.1893333333333335e-06,
219
+ "loss": 0.1136,
220
+ "step": 300
221
+ },
222
+ {
223
+ "epoch": 0.01984,
224
+ "grad_norm": 3.0100226402282715,
225
+ "learning_rate": 3.2960000000000003e-06,
226
+ "loss": 0.1186,
227
+ "step": 310
228
+ },
229
+ {
230
+ "epoch": 0.02048,
231
+ "grad_norm": 2.088911771774292,
232
+ "learning_rate": 3.402666666666667e-06,
233
+ "loss": 0.1051,
234
+ "step": 320
235
+ },
236
+ {
237
+ "epoch": 0.02112,
238
+ "grad_norm": 4.332556247711182,
239
+ "learning_rate": 3.5093333333333334e-06,
240
+ "loss": 0.1075,
241
+ "step": 330
242
+ },
243
+ {
244
+ "epoch": 0.02176,
245
+ "grad_norm": 2.954036235809326,
246
+ "learning_rate": 3.616e-06,
247
+ "loss": 0.11,
248
+ "step": 340
249
+ },
250
+ {
251
+ "epoch": 0.0224,
252
+ "grad_norm": 2.262308359146118,
253
+ "learning_rate": 3.7226666666666674e-06,
254
+ "loss": 0.1057,
255
+ "step": 350
256
+ },
257
+ {
258
+ "epoch": 0.02304,
259
+ "grad_norm": 1.5145989656448364,
260
+ "learning_rate": 3.829333333333334e-06,
261
+ "loss": 0.1049,
262
+ "step": 360
263
+ },
264
+ {
265
+ "epoch": 0.02368,
266
+ "grad_norm": 1.740663766860962,
267
+ "learning_rate": 3.936e-06,
268
+ "loss": 0.0964,
269
+ "step": 370
270
+ },
271
+ {
272
+ "epoch": 0.02432,
273
+ "grad_norm": 1.7438851594924927,
274
+ "learning_rate": 4.042666666666667e-06,
275
+ "loss": 0.0936,
276
+ "step": 380
277
+ },
278
+ {
279
+ "epoch": 0.02496,
280
+ "grad_norm": 3.946115493774414,
281
+ "learning_rate": 4.149333333333334e-06,
282
+ "loss": 0.1038,
283
+ "step": 390
284
+ },
285
+ {
286
+ "epoch": 0.0256,
287
+ "grad_norm": 5.289428234100342,
288
+ "learning_rate": 4.256e-06,
289
+ "loss": 0.1015,
290
+ "step": 400
291
+ },
292
+ {
293
+ "epoch": 0.02624,
294
+ "grad_norm": 1.9344863891601562,
295
+ "learning_rate": 4.362666666666667e-06,
296
+ "loss": 0.0855,
297
+ "step": 410
298
+ },
299
+ {
300
+ "epoch": 0.02688,
301
+ "grad_norm": 7.482412338256836,
302
+ "learning_rate": 4.469333333333334e-06,
303
+ "loss": 0.1031,
304
+ "step": 420
305
+ },
306
+ {
307
+ "epoch": 0.02752,
308
+ "grad_norm": 2.5646328926086426,
309
+ "learning_rate": 4.576000000000001e-06,
310
+ "loss": 0.0777,
311
+ "step": 430
312
+ },
313
+ {
314
+ "epoch": 0.02816,
315
+ "grad_norm": 1.473496437072754,
316
+ "learning_rate": 4.682666666666667e-06,
317
+ "loss": 0.0854,
318
+ "step": 440
319
+ },
320
+ {
321
+ "epoch": 0.0288,
322
+ "grad_norm": 2.204341411590576,
323
+ "learning_rate": 4.7893333333333334e-06,
324
+ "loss": 0.0739,
325
+ "step": 450
326
+ },
327
+ {
328
+ "epoch": 0.02944,
329
+ "grad_norm": 3.1363987922668457,
330
+ "learning_rate": 4.896e-06,
331
+ "loss": 0.0886,
332
+ "step": 460
333
+ },
334
+ {
335
+ "epoch": 0.03008,
336
+ "grad_norm": 2.0473029613494873,
337
+ "learning_rate": 5.002666666666667e-06,
338
+ "loss": 0.0794,
339
+ "step": 470
340
+ },
341
+ {
342
+ "epoch": 0.03072,
343
+ "grad_norm": 1.6088207960128784,
344
+ "learning_rate": 5.109333333333334e-06,
345
+ "loss": 0.0604,
346
+ "step": 480
347
+ },
348
+ {
349
+ "epoch": 0.03136,
350
+ "grad_norm": 2.974717617034912,
351
+ "learning_rate": 5.216e-06,
352
+ "loss": 0.0827,
353
+ "step": 490
354
+ },
355
+ {
356
+ "epoch": 0.032,
357
+ "grad_norm": 6.114630699157715,
358
+ "learning_rate": 5.322666666666667e-06,
359
+ "loss": 0.0631,
360
+ "step": 500
361
+ },
362
+ {
363
+ "epoch": 0.032,
364
+ "eval_accuracy": 0.88603,
365
+ "eval_f1_weighted": 0.8857328199768308,
366
+ "eval_loss": 0.08366190642118454,
367
+ "eval_macro_f1": 0.8859061279979327,
368
+ "eval_precision": 0.8966428429175579,
369
+ "eval_recall": 0.88603,
370
+ "eval_runtime": 1629.6546,
371
+ "eval_samples_per_second": 61.363,
372
+ "eval_steps_per_second": 0.959,
373
+ "step": 500
374
+ },
375
+ {
376
+ "epoch": 0.03264,
377
+ "grad_norm": 1.4639947414398193,
378
+ "learning_rate": 5.429333333333334e-06,
379
+ "loss": 0.0724,
380
+ "step": 510
381
+ },
382
+ {
383
+ "epoch": 0.03328,
384
+ "grad_norm": 4.234114646911621,
385
+ "learning_rate": 5.536e-06,
386
+ "loss": 0.0737,
387
+ "step": 520
388
+ },
389
+ {
390
+ "epoch": 0.03392,
391
+ "grad_norm": 1.9391822814941406,
392
+ "learning_rate": 5.642666666666668e-06,
393
+ "loss": 0.0875,
394
+ "step": 530
395
+ },
396
+ {
397
+ "epoch": 0.03456,
398
+ "grad_norm": 2.0388095378875732,
399
+ "learning_rate": 5.7493333333333336e-06,
400
+ "loss": 0.0661,
401
+ "step": 540
402
+ },
403
+ {
404
+ "epoch": 0.0352,
405
+ "grad_norm": 1.9697074890136719,
406
+ "learning_rate": 5.856e-06,
407
+ "loss": 0.0647,
408
+ "step": 550
409
+ },
410
+ {
411
+ "epoch": 0.03584,
412
+ "grad_norm": 3.9906229972839355,
413
+ "learning_rate": 5.962666666666666e-06,
414
+ "loss": 0.0696,
415
+ "step": 560
416
+ },
417
+ {
418
+ "epoch": 0.03648,
419
+ "grad_norm": 1.5516153573989868,
420
+ "learning_rate": 6.069333333333334e-06,
421
+ "loss": 0.0576,
422
+ "step": 570
423
+ },
424
+ {
425
+ "epoch": 0.03712,
426
+ "grad_norm": 3.5216825008392334,
427
+ "learning_rate": 6.176000000000001e-06,
428
+ "loss": 0.0793,
429
+ "step": 580
430
+ },
431
+ {
432
+ "epoch": 0.03776,
433
+ "grad_norm": 6.22791051864624,
434
+ "learning_rate": 6.282666666666667e-06,
435
+ "loss": 0.0757,
436
+ "step": 590
437
+ },
438
+ {
439
+ "epoch": 0.0384,
440
+ "grad_norm": 1.8255369663238525,
441
+ "learning_rate": 6.389333333333334e-06,
442
+ "loss": 0.0602,
443
+ "step": 600
444
+ },
445
+ {
446
+ "epoch": 0.03904,
447
+ "grad_norm": 2.506188154220581,
448
+ "learning_rate": 6.496e-06,
449
+ "loss": 0.0643,
450
+ "step": 610
451
+ },
452
+ {
453
+ "epoch": 0.03968,
454
+ "grad_norm": 1.5877528190612793,
455
+ "learning_rate": 6.602666666666667e-06,
456
+ "loss": 0.0501,
457
+ "step": 620
458
+ },
459
+ {
460
+ "epoch": 0.04032,
461
+ "grad_norm": 2.1468632221221924,
462
+ "learning_rate": 6.7093333333333345e-06,
463
+ "loss": 0.0521,
464
+ "step": 630
465
+ },
466
+ {
467
+ "epoch": 0.04096,
468
+ "grad_norm": 2.6225597858428955,
469
+ "learning_rate": 6.8160000000000005e-06,
470
+ "loss": 0.068,
471
+ "step": 640
472
+ },
473
+ {
474
+ "epoch": 0.0416,
475
+ "grad_norm": 3.1171772480010986,
476
+ "learning_rate": 6.922666666666667e-06,
477
+ "loss": 0.0644,
478
+ "step": 650
479
+ },
480
+ {
481
+ "epoch": 0.04224,
482
+ "grad_norm": 2.7589240074157715,
483
+ "learning_rate": 7.029333333333333e-06,
484
+ "loss": 0.0763,
485
+ "step": 660
486
+ },
487
+ {
488
+ "epoch": 0.04288,
489
+ "grad_norm": 2.3155124187469482,
490
+ "learning_rate": 7.136000000000001e-06,
491
+ "loss": 0.0451,
492
+ "step": 670
493
+ },
494
+ {
495
+ "epoch": 0.04352,
496
+ "grad_norm": 0.9795209169387817,
497
+ "learning_rate": 7.242666666666667e-06,
498
+ "loss": 0.0552,
499
+ "step": 680
500
+ },
501
+ {
502
+ "epoch": 0.04416,
503
+ "grad_norm": 6.224135398864746,
504
+ "learning_rate": 7.3493333333333335e-06,
505
+ "loss": 0.0614,
506
+ "step": 690
507
+ },
508
+ {
509
+ "epoch": 0.0448,
510
+ "grad_norm": 1.9188823699951172,
511
+ "learning_rate": 7.456000000000001e-06,
512
+ "loss": 0.0539,
513
+ "step": 700
514
+ },
515
+ {
516
+ "epoch": 0.04544,
517
+ "grad_norm": 2.0834364891052246,
518
+ "learning_rate": 7.562666666666667e-06,
519
+ "loss": 0.0545,
520
+ "step": 710
521
+ },
522
+ {
523
+ "epoch": 0.04608,
524
+ "grad_norm": 2.081609010696411,
525
+ "learning_rate": 7.669333333333335e-06,
526
+ "loss": 0.0563,
527
+ "step": 720
528
+ },
529
+ {
530
+ "epoch": 0.04672,
531
+ "grad_norm": 1.461228370666504,
532
+ "learning_rate": 7.776e-06,
533
+ "loss": 0.0495,
534
+ "step": 730
535
+ },
536
+ {
537
+ "epoch": 0.04736,
538
+ "grad_norm": 2.7746951580047607,
539
+ "learning_rate": 7.882666666666667e-06,
540
+ "loss": 0.0517,
541
+ "step": 740
542
+ },
543
+ {
544
+ "epoch": 0.048,
545
+ "grad_norm": 1.2801299095153809,
546
+ "learning_rate": 7.989333333333335e-06,
547
+ "loss": 0.034,
548
+ "step": 750
549
+ },
550
+ {
551
+ "epoch": 0.04864,
552
+ "grad_norm": 3.921491861343384,
553
+ "learning_rate": 8.096e-06,
554
+ "loss": 0.0537,
555
+ "step": 760
556
+ },
557
+ {
558
+ "epoch": 0.04928,
559
+ "grad_norm": 1.9986109733581543,
560
+ "learning_rate": 8.202666666666667e-06,
561
+ "loss": 0.0444,
562
+ "step": 770
563
+ },
564
+ {
565
+ "epoch": 0.04992,
566
+ "grad_norm": 4.678001403808594,
567
+ "learning_rate": 8.309333333333334e-06,
568
+ "loss": 0.0589,
569
+ "step": 780
570
+ },
571
+ {
572
+ "epoch": 0.05056,
573
+ "grad_norm": 1.7302327156066895,
574
+ "learning_rate": 8.416e-06,
575
+ "loss": 0.043,
576
+ "step": 790
577
+ },
578
+ {
579
+ "epoch": 0.0512,
580
+ "grad_norm": 2.5643601417541504,
581
+ "learning_rate": 8.522666666666667e-06,
582
+ "loss": 0.0671,
583
+ "step": 800
584
+ },
585
+ {
586
+ "epoch": 0.05184,
587
+ "grad_norm": 2.8869082927703857,
588
+ "learning_rate": 8.629333333333334e-06,
589
+ "loss": 0.0565,
590
+ "step": 810
591
+ },
592
+ {
593
+ "epoch": 0.05248,
594
+ "grad_norm": 3.723088264465332,
595
+ "learning_rate": 8.736e-06,
596
+ "loss": 0.0428,
597
+ "step": 820
598
+ },
599
+ {
600
+ "epoch": 0.05312,
601
+ "grad_norm": 4.387404441833496,
602
+ "learning_rate": 8.842666666666667e-06,
603
+ "loss": 0.0559,
604
+ "step": 830
605
+ },
606
+ {
607
+ "epoch": 0.05376,
608
+ "grad_norm": 1.889413833618164,
609
+ "learning_rate": 8.949333333333334e-06,
610
+ "loss": 0.0405,
611
+ "step": 840
612
+ },
613
+ {
614
+ "epoch": 0.0544,
615
+ "grad_norm": 1.4773402214050293,
616
+ "learning_rate": 9.056000000000001e-06,
617
+ "loss": 0.0414,
618
+ "step": 850
619
+ },
620
+ {
621
+ "epoch": 0.05504,
622
+ "grad_norm": 0.4495583176612854,
623
+ "learning_rate": 9.162666666666668e-06,
624
+ "loss": 0.0446,
625
+ "step": 860
626
+ },
627
+ {
628
+ "epoch": 0.05568,
629
+ "grad_norm": 1.158181071281433,
630
+ "learning_rate": 9.269333333333335e-06,
631
+ "loss": 0.0432,
632
+ "step": 870
633
+ },
634
+ {
635
+ "epoch": 0.05632,
636
+ "grad_norm": 2.434063196182251,
637
+ "learning_rate": 9.376000000000001e-06,
638
+ "loss": 0.0502,
639
+ "step": 880
640
+ },
641
+ {
642
+ "epoch": 0.05696,
643
+ "grad_norm": 1.2009385824203491,
644
+ "learning_rate": 9.482666666666668e-06,
645
+ "loss": 0.0473,
646
+ "step": 890
647
+ },
648
+ {
649
+ "epoch": 0.0576,
650
+ "grad_norm": 3.9361023902893066,
651
+ "learning_rate": 9.589333333333333e-06,
652
+ "loss": 0.046,
653
+ "step": 900
654
+ },
655
+ {
656
+ "epoch": 0.05824,
657
+ "grad_norm": 2.926988124847412,
658
+ "learning_rate": 9.696000000000002e-06,
659
+ "loss": 0.0464,
660
+ "step": 910
661
+ },
662
+ {
663
+ "epoch": 0.05888,
664
+ "grad_norm": 2.215726375579834,
665
+ "learning_rate": 9.802666666666667e-06,
666
+ "loss": 0.0471,
667
+ "step": 920
668
+ },
669
+ {
670
+ "epoch": 0.05952,
671
+ "grad_norm": 2.4104645252227783,
672
+ "learning_rate": 9.909333333333334e-06,
673
+ "loss": 0.0482,
674
+ "step": 930
675
+ },
676
+ {
677
+ "epoch": 0.06016,
678
+ "grad_norm": 5.664385795593262,
679
+ "learning_rate": 1.0016000000000002e-05,
680
+ "loss": 0.044,
681
+ "step": 940
682
+ },
683
+ {
684
+ "epoch": 0.0608,
685
+ "grad_norm": 1.7977851629257202,
686
+ "learning_rate": 1.0122666666666667e-05,
687
+ "loss": 0.0429,
688
+ "step": 950
689
+ },
690
+ {
691
+ "epoch": 0.06144,
692
+ "grad_norm": 2.953789472579956,
693
+ "learning_rate": 1.0229333333333334e-05,
694
+ "loss": 0.0533,
695
+ "step": 960
696
+ },
697
+ {
698
+ "epoch": 0.06208,
699
+ "grad_norm": 1.6272608041763306,
700
+ "learning_rate": 1.0336000000000002e-05,
701
+ "loss": 0.0307,
702
+ "step": 970
703
+ },
704
+ {
705
+ "epoch": 0.06272,
706
+ "grad_norm": 2.8621678352355957,
707
+ "learning_rate": 1.0442666666666667e-05,
708
+ "loss": 0.0461,
709
+ "step": 980
710
+ },
711
+ {
712
+ "epoch": 0.06336,
713
+ "grad_norm": 3.70019793510437,
714
+ "learning_rate": 1.0549333333333334e-05,
715
+ "loss": 0.0546,
716
+ "step": 990
717
+ },
718
+ {
719
+ "epoch": 0.064,
720
+ "grad_norm": 1.1777608394622803,
721
+ "learning_rate": 1.0656000000000003e-05,
722
+ "loss": 0.0508,
723
+ "step": 1000
724
+ },
725
+ {
726
+ "epoch": 0.064,
727
+ "eval_accuracy": 0.96139,
728
+ "eval_f1_weighted": 0.9613900534763816,
729
+ "eval_loss": 0.031560152769088745,
730
+ "eval_macro_f1": 0.9613078781032101,
731
+ "eval_precision": 0.9613901086866451,
732
+ "eval_recall": 0.96139,
733
+ "eval_runtime": 1630.3285,
734
+ "eval_samples_per_second": 61.337,
735
+ "eval_steps_per_second": 0.959,
736
+ "step": 1000
737
+ }
738
+ ],
739
+ "logging_steps": 10,
740
+ "max_steps": 15625,
741
+ "num_input_tokens_seen": 0,
742
+ "num_train_epochs": 1,
743
+ "save_steps": 500,
744
+ "stateful_callbacks": {
745
+ "EarlyStoppingCallback": {
746
+ "args": {
747
+ "early_stopping_patience": 3,
748
+ "early_stopping_threshold": 0.0
749
+ },
750
+ "attributes": {
751
+ "early_stopping_patience_counter": 0
752
+ }
753
+ },
754
+ "TrainerControl": {
755
+ "args": {
756
+ "should_epoch_stop": false,
757
+ "should_evaluate": false,
758
+ "should_log": false,
759
+ "should_save": true,
760
+ "should_training_stop": false
761
+ },
762
+ "attributes": {}
763
+ }
764
+ },
765
+ "total_flos": 8415459105720960.0,
766
+ "train_batch_size": 32,
767
+ "trial_name": null,
768
+ "trial_params": null
769
+ }
checkpoint-1000/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0256e15114b0df6f165bb3e6d75f279805d6f125574ac927fca7a602f9449f4a
3
+ size 5777
checkpoint-1000/vocab.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-1500/config.json ADDED
@@ -0,0 +1,29 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "architectures": [
3
+ "RobertaForSequenceClassification"
4
+ ],
5
+ "attention_probs_dropout_prob": 0.1,
6
+ "bos_token_id": 0,
7
+ "classifier_dropout": null,
8
+ "dtype": "float32",
9
+ "eos_token_id": 2,
10
+ "gradient_checkpointing": false,
11
+ "hidden_act": "gelu",
12
+ "hidden_dropout_prob": 0.1,
13
+ "hidden_size": 768,
14
+ "initializer_range": 0.02,
15
+ "intermediate_size": 3072,
16
+ "layer_norm_eps": 1e-05,
17
+ "max_position_embeddings": 1026,
18
+ "model_type": "roberta",
19
+ "num_attention_heads": 12,
20
+ "num_hidden_layers": 12,
21
+ "output_past": true,
22
+ "pad_token_id": 1,
23
+ "position_embedding_type": "absolute",
24
+ "problem_type": "single_label_classification",
25
+ "transformers_version": "4.56.0",
26
+ "type_vocab_size": 10,
27
+ "use_cache": true,
28
+ "vocab_size": 51416
29
+ }
checkpoint-1500/merges.txt ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-1500/model.safetensors ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:34ece475069d40c0d3602879a9d44cacccb53d92fdcf843008331c0076805e1a
3
+ size 503749208
checkpoint-1500/optimizer.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d198b2916f97edec4db8f6e6e1de0fbe2238e1e5f87ecbe27e73cd142a9bec33
3
+ size 1007621899
checkpoint-1500/rng_state.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:20c3b034723ddd19d4164d9ddced831b3a9857904fd0f88d784b134000843f0a
3
+ size 14645
checkpoint-1500/scheduler.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0690ce65a5c08741822b66ea60503c9fbb2e04d3b8bd9a51620fb356f773ab32
3
+ size 1977
checkpoint-1500/special_tokens_map.json ADDED
@@ -0,0 +1,51 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "bos_token": {
3
+ "content": "<s>",
4
+ "lstrip": false,
5
+ "normalized": true,
6
+ "rstrip": false,
7
+ "single_word": false
8
+ },
9
+ "cls_token": {
10
+ "content": "<s>",
11
+ "lstrip": false,
12
+ "normalized": true,
13
+ "rstrip": false,
14
+ "single_word": false
15
+ },
16
+ "eos_token": {
17
+ "content": "</s>",
18
+ "lstrip": false,
19
+ "normalized": true,
20
+ "rstrip": false,
21
+ "single_word": false
22
+ },
23
+ "mask_token": {
24
+ "content": "<mask>",
25
+ "lstrip": true,
26
+ "normalized": true,
27
+ "rstrip": false,
28
+ "single_word": false
29
+ },
30
+ "pad_token": {
31
+ "content": "<pad>",
32
+ "lstrip": false,
33
+ "normalized": true,
34
+ "rstrip": false,
35
+ "single_word": false
36
+ },
37
+ "sep_token": {
38
+ "content": "</s>",
39
+ "lstrip": false,
40
+ "normalized": true,
41
+ "rstrip": false,
42
+ "single_word": false
43
+ },
44
+ "unk_token": {
45
+ "content": "<unk>",
46
+ "lstrip": false,
47
+ "normalized": true,
48
+ "rstrip": false,
49
+ "single_word": false
50
+ }
51
+ }
checkpoint-1500/tokenizer.json ADDED
The diff for this file is too large to render. See raw diff
 
checkpoint-1500/tokenizer_config.json ADDED
@@ -0,0 +1,58 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "add_prefix_space": false,
3
+ "added_tokens_decoder": {
4
+ "0": {
5
+ "content": "<s>",
6
+ "lstrip": false,
7
+ "normalized": true,
8
+ "rstrip": false,
9
+ "single_word": false,
10
+ "special": true
11
+ },
12
+ "1": {
13
+ "content": "<pad>",
14
+ "lstrip": false,
15
+ "normalized": true,
16
+ "rstrip": false,
17
+ "single_word": false,
18
+ "special": true
19
+ },
20
+ "2": {
21
+ "content": "</s>",
22
+ "lstrip": false,
23
+ "normalized": true,
24
+ "rstrip": false,
25
+ "single_word": false,
26
+ "special": true
27
+ },
28
+ "3": {
29
+ "content": "<unk>",
30
+ "lstrip": false,
31
+ "normalized": true,
32
+ "rstrip": false,
33
+ "single_word": false,
34
+ "special": true
35
+ },
36
+ "4": {
37
+ "content": "<mask>",
38
+ "lstrip": true,
39
+ "normalized": true,
40
+ "rstrip": false,
41
+ "single_word": false,
42
+ "special": true
43
+ }
44
+ },
45
+ "bos_token": "<s>",
46
+ "clean_up_tokenization_spaces": false,
47
+ "cls_token": "<s>",
48
+ "eos_token": "</s>",
49
+ "errors": "replace",
50
+ "extra_special_tokens": {},
51
+ "mask_token": "<mask>",
52
+ "model_max_length": 1000000000000000019884624838656,
53
+ "pad_token": "<pad>",
54
+ "sep_token": "</s>",
55
+ "tokenizer_class": "RobertaTokenizer",
56
+ "trim_offsets": true,
57
+ "unk_token": "<unk>"
58
+ }
checkpoint-1500/trainer_state.json ADDED
@@ -0,0 +1,1132 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_global_step": 1500,
3
+ "best_metric": 0.9698851462608304,
4
+ "best_model_checkpoint": "taskA-unixcoder-focal/checkpoint-1500",
5
+ "epoch": 0.096,
6
+ "eval_steps": 500,
7
+ "global_step": 1500,
8
+ "is_hyper_param_search": false,
9
+ "is_local_process_zero": true,
10
+ "is_world_process_zero": true,
11
+ "log_history": [
12
+ {
13
+ "epoch": 0.00064,
14
+ "grad_norm": 3.3732223510742188,
15
+ "learning_rate": 9.6e-08,
16
+ "loss": 0.2065,
17
+ "step": 10
18
+ },
19
+ {
20
+ "epoch": 0.00128,
21
+ "grad_norm": 2.8028833866119385,
22
+ "learning_rate": 2.0266666666666668e-07,
23
+ "loss": 0.2003,
24
+ "step": 20
25
+ },
26
+ {
27
+ "epoch": 0.00192,
28
+ "grad_norm": 3.137962818145752,
29
+ "learning_rate": 3.0933333333333335e-07,
30
+ "loss": 0.2119,
31
+ "step": 30
32
+ },
33
+ {
34
+ "epoch": 0.00256,
35
+ "grad_norm": 2.2841057777404785,
36
+ "learning_rate": 4.16e-07,
37
+ "loss": 0.1858,
38
+ "step": 40
39
+ },
40
+ {
41
+ "epoch": 0.0032,
42
+ "grad_norm": 2.4040842056274414,
43
+ "learning_rate": 5.226666666666667e-07,
44
+ "loss": 0.1755,
45
+ "step": 50
46
+ },
47
+ {
48
+ "epoch": 0.00384,
49
+ "grad_norm": 2.1078808307647705,
50
+ "learning_rate": 6.293333333333334e-07,
51
+ "loss": 0.1836,
52
+ "step": 60
53
+ },
54
+ {
55
+ "epoch": 0.00448,
56
+ "grad_norm": 2.1723551750183105,
57
+ "learning_rate": 7.36e-07,
58
+ "loss": 0.182,
59
+ "step": 70
60
+ },
61
+ {
62
+ "epoch": 0.00512,
63
+ "grad_norm": 3.8697516918182373,
64
+ "learning_rate": 8.426666666666668e-07,
65
+ "loss": 0.1893,
66
+ "step": 80
67
+ },
68
+ {
69
+ "epoch": 0.00576,
70
+ "grad_norm": 2.2711849212646484,
71
+ "learning_rate": 9.493333333333334e-07,
72
+ "loss": 0.1645,
73
+ "step": 90
74
+ },
75
+ {
76
+ "epoch": 0.0064,
77
+ "grad_norm": 2.9138245582580566,
78
+ "learning_rate": 1.0560000000000001e-06,
79
+ "loss": 0.1753,
80
+ "step": 100
81
+ },
82
+ {
83
+ "epoch": 0.00704,
84
+ "grad_norm": 2.136301279067993,
85
+ "learning_rate": 1.1626666666666667e-06,
86
+ "loss": 0.1639,
87
+ "step": 110
88
+ },
89
+ {
90
+ "epoch": 0.00768,
91
+ "grad_norm": 3.216343641281128,
92
+ "learning_rate": 1.2693333333333335e-06,
93
+ "loss": 0.1623,
94
+ "step": 120
95
+ },
96
+ {
97
+ "epoch": 0.00832,
98
+ "grad_norm": 3.192094326019287,
99
+ "learning_rate": 1.376e-06,
100
+ "loss": 0.1607,
101
+ "step": 130
102
+ },
103
+ {
104
+ "epoch": 0.00896,
105
+ "grad_norm": 4.722238540649414,
106
+ "learning_rate": 1.4826666666666666e-06,
107
+ "loss": 0.1653,
108
+ "step": 140
109
+ },
110
+ {
111
+ "epoch": 0.0096,
112
+ "grad_norm": 4.088972568511963,
113
+ "learning_rate": 1.5893333333333336e-06,
114
+ "loss": 0.1557,
115
+ "step": 150
116
+ },
117
+ {
118
+ "epoch": 0.01024,
119
+ "grad_norm": 2.2773237228393555,
120
+ "learning_rate": 1.6960000000000002e-06,
121
+ "loss": 0.1634,
122
+ "step": 160
123
+ },
124
+ {
125
+ "epoch": 0.01088,
126
+ "grad_norm": 2.53987193107605,
127
+ "learning_rate": 1.8026666666666667e-06,
128
+ "loss": 0.1435,
129
+ "step": 170
130
+ },
131
+ {
132
+ "epoch": 0.01152,
133
+ "grad_norm": 3.688382387161255,
134
+ "learning_rate": 1.9093333333333335e-06,
135
+ "loss": 0.1396,
136
+ "step": 180
137
+ },
138
+ {
139
+ "epoch": 0.01216,
140
+ "grad_norm": 1.8855538368225098,
141
+ "learning_rate": 2.0160000000000003e-06,
142
+ "loss": 0.1476,
143
+ "step": 190
144
+ },
145
+ {
146
+ "epoch": 0.0128,
147
+ "grad_norm": 2.2272040843963623,
148
+ "learning_rate": 2.1226666666666666e-06,
149
+ "loss": 0.144,
150
+ "step": 200
151
+ },
152
+ {
153
+ "epoch": 0.01344,
154
+ "grad_norm": 3.505934476852417,
155
+ "learning_rate": 2.229333333333334e-06,
156
+ "loss": 0.1306,
157
+ "step": 210
158
+ },
159
+ {
160
+ "epoch": 0.01408,
161
+ "grad_norm": 1.8632491827011108,
162
+ "learning_rate": 2.336e-06,
163
+ "loss": 0.1504,
164
+ "step": 220
165
+ },
166
+ {
167
+ "epoch": 0.01472,
168
+ "grad_norm": 2.191713333129883,
169
+ "learning_rate": 2.442666666666667e-06,
170
+ "loss": 0.1346,
171
+ "step": 230
172
+ },
173
+ {
174
+ "epoch": 0.01536,
175
+ "grad_norm": 1.9042261838912964,
176
+ "learning_rate": 2.5493333333333337e-06,
177
+ "loss": 0.135,
178
+ "step": 240
179
+ },
180
+ {
181
+ "epoch": 0.016,
182
+ "grad_norm": 2.266148090362549,
183
+ "learning_rate": 2.656e-06,
184
+ "loss": 0.1356,
185
+ "step": 250
186
+ },
187
+ {
188
+ "epoch": 0.01664,
189
+ "grad_norm": 2.4776418209075928,
190
+ "learning_rate": 2.762666666666667e-06,
191
+ "loss": 0.129,
192
+ "step": 260
193
+ },
194
+ {
195
+ "epoch": 0.01728,
196
+ "grad_norm": 2.340693712234497,
197
+ "learning_rate": 2.8693333333333336e-06,
198
+ "loss": 0.1236,
199
+ "step": 270
200
+ },
201
+ {
202
+ "epoch": 0.01792,
203
+ "grad_norm": 1.6849262714385986,
204
+ "learning_rate": 2.976e-06,
205
+ "loss": 0.1152,
206
+ "step": 280
207
+ },
208
+ {
209
+ "epoch": 0.01856,
210
+ "grad_norm": 3.5535154342651367,
211
+ "learning_rate": 3.082666666666667e-06,
212
+ "loss": 0.1335,
213
+ "step": 290
214
+ },
215
+ {
216
+ "epoch": 0.0192,
217
+ "grad_norm": 2.9307031631469727,
218
+ "learning_rate": 3.1893333333333335e-06,
219
+ "loss": 0.1136,
220
+ "step": 300
221
+ },
222
+ {
223
+ "epoch": 0.01984,
224
+ "grad_norm": 3.0100226402282715,
225
+ "learning_rate": 3.2960000000000003e-06,
226
+ "loss": 0.1186,
227
+ "step": 310
228
+ },
229
+ {
230
+ "epoch": 0.02048,
231
+ "grad_norm": 2.088911771774292,
232
+ "learning_rate": 3.402666666666667e-06,
233
+ "loss": 0.1051,
234
+ "step": 320
235
+ },
236
+ {
237
+ "epoch": 0.02112,
238
+ "grad_norm": 4.332556247711182,
239
+ "learning_rate": 3.5093333333333334e-06,
240
+ "loss": 0.1075,
241
+ "step": 330
242
+ },
243
+ {
244
+ "epoch": 0.02176,
245
+ "grad_norm": 2.954036235809326,
246
+ "learning_rate": 3.616e-06,
247
+ "loss": 0.11,
248
+ "step": 340
249
+ },
250
+ {
251
+ "epoch": 0.0224,
252
+ "grad_norm": 2.262308359146118,
253
+ "learning_rate": 3.7226666666666674e-06,
254
+ "loss": 0.1057,
255
+ "step": 350
256
+ },
257
+ {
258
+ "epoch": 0.02304,
259
+ "grad_norm": 1.5145989656448364,
260
+ "learning_rate": 3.829333333333334e-06,
261
+ "loss": 0.1049,
262
+ "step": 360
263
+ },
264
+ {
265
+ "epoch": 0.02368,
266
+ "grad_norm": 1.740663766860962,
267
+ "learning_rate": 3.936e-06,
268
+ "loss": 0.0964,
269
+ "step": 370
270
+ },
271
+ {
272
+ "epoch": 0.02432,
273
+ "grad_norm": 1.7438851594924927,
274
+ "learning_rate": 4.042666666666667e-06,
275
+ "loss": 0.0936,
276
+ "step": 380
277
+ },
278
+ {
279
+ "epoch": 0.02496,
280
+ "grad_norm": 3.946115493774414,
281
+ "learning_rate": 4.149333333333334e-06,
282
+ "loss": 0.1038,
283
+ "step": 390
284
+ },
285
+ {
286
+ "epoch": 0.0256,
287
+ "grad_norm": 5.289428234100342,
288
+ "learning_rate": 4.256e-06,
289
+ "loss": 0.1015,
290
+ "step": 400
291
+ },
292
+ {
293
+ "epoch": 0.02624,
294
+ "grad_norm": 1.9344863891601562,
295
+ "learning_rate": 4.362666666666667e-06,
296
+ "loss": 0.0855,
297
+ "step": 410
298
+ },
299
+ {
300
+ "epoch": 0.02688,
301
+ "grad_norm": 7.482412338256836,
302
+ "learning_rate": 4.469333333333334e-06,
303
+ "loss": 0.1031,
304
+ "step": 420
305
+ },
306
+ {
307
+ "epoch": 0.02752,
308
+ "grad_norm": 2.5646328926086426,
309
+ "learning_rate": 4.576000000000001e-06,
310
+ "loss": 0.0777,
311
+ "step": 430
312
+ },
313
+ {
314
+ "epoch": 0.02816,
315
+ "grad_norm": 1.473496437072754,
316
+ "learning_rate": 4.682666666666667e-06,
317
+ "loss": 0.0854,
318
+ "step": 440
319
+ },
320
+ {
321
+ "epoch": 0.0288,
322
+ "grad_norm": 2.204341411590576,
323
+ "learning_rate": 4.7893333333333334e-06,
324
+ "loss": 0.0739,
325
+ "step": 450
326
+ },
327
+ {
328
+ "epoch": 0.02944,
329
+ "grad_norm": 3.1363987922668457,
330
+ "learning_rate": 4.896e-06,
331
+ "loss": 0.0886,
332
+ "step": 460
333
+ },
334
+ {
335
+ "epoch": 0.03008,
336
+ "grad_norm": 2.0473029613494873,
337
+ "learning_rate": 5.002666666666667e-06,
338
+ "loss": 0.0794,
339
+ "step": 470
340
+ },
341
+ {
342
+ "epoch": 0.03072,
343
+ "grad_norm": 1.6088207960128784,
344
+ "learning_rate": 5.109333333333334e-06,
345
+ "loss": 0.0604,
346
+ "step": 480
347
+ },
348
+ {
349
+ "epoch": 0.03136,
350
+ "grad_norm": 2.974717617034912,
351
+ "learning_rate": 5.216e-06,
352
+ "loss": 0.0827,
353
+ "step": 490
354
+ },
355
+ {
356
+ "epoch": 0.032,
357
+ "grad_norm": 6.114630699157715,
358
+ "learning_rate": 5.322666666666667e-06,
359
+ "loss": 0.0631,
360
+ "step": 500
361
+ },
362
+ {
363
+ "epoch": 0.032,
364
+ "eval_accuracy": 0.88603,
365
+ "eval_f1_weighted": 0.8857328199768308,
366
+ "eval_loss": 0.08366190642118454,
367
+ "eval_macro_f1": 0.8859061279979327,
368
+ "eval_precision": 0.8966428429175579,
369
+ "eval_recall": 0.88603,
370
+ "eval_runtime": 1629.6546,
371
+ "eval_samples_per_second": 61.363,
372
+ "eval_steps_per_second": 0.959,
373
+ "step": 500
374
+ },
375
+ {
376
+ "epoch": 0.03264,
377
+ "grad_norm": 1.4639947414398193,
378
+ "learning_rate": 5.429333333333334e-06,
379
+ "loss": 0.0724,
380
+ "step": 510
381
+ },
382
+ {
383
+ "epoch": 0.03328,
384
+ "grad_norm": 4.234114646911621,
385
+ "learning_rate": 5.536e-06,
386
+ "loss": 0.0737,
387
+ "step": 520
388
+ },
389
+ {
390
+ "epoch": 0.03392,
391
+ "grad_norm": 1.9391822814941406,
392
+ "learning_rate": 5.642666666666668e-06,
393
+ "loss": 0.0875,
394
+ "step": 530
395
+ },
396
+ {
397
+ "epoch": 0.03456,
398
+ "grad_norm": 2.0388095378875732,
399
+ "learning_rate": 5.7493333333333336e-06,
400
+ "loss": 0.0661,
401
+ "step": 540
402
+ },
403
+ {
404
+ "epoch": 0.0352,
405
+ "grad_norm": 1.9697074890136719,
406
+ "learning_rate": 5.856e-06,
407
+ "loss": 0.0647,
408
+ "step": 550
409
+ },
410
+ {
411
+ "epoch": 0.03584,
412
+ "grad_norm": 3.9906229972839355,
413
+ "learning_rate": 5.962666666666666e-06,
414
+ "loss": 0.0696,
415
+ "step": 560
416
+ },
417
+ {
418
+ "epoch": 0.03648,
419
+ "grad_norm": 1.5516153573989868,
420
+ "learning_rate": 6.069333333333334e-06,
421
+ "loss": 0.0576,
422
+ "step": 570
423
+ },
424
+ {
425
+ "epoch": 0.03712,
426
+ "grad_norm": 3.5216825008392334,
427
+ "learning_rate": 6.176000000000001e-06,
428
+ "loss": 0.0793,
429
+ "step": 580
430
+ },
431
+ {
432
+ "epoch": 0.03776,
433
+ "grad_norm": 6.22791051864624,
434
+ "learning_rate": 6.282666666666667e-06,
435
+ "loss": 0.0757,
436
+ "step": 590
437
+ },
438
+ {
439
+ "epoch": 0.0384,
440
+ "grad_norm": 1.8255369663238525,
441
+ "learning_rate": 6.389333333333334e-06,
442
+ "loss": 0.0602,
443
+ "step": 600
444
+ },
445
+ {
446
+ "epoch": 0.03904,
447
+ "grad_norm": 2.506188154220581,
448
+ "learning_rate": 6.496e-06,
449
+ "loss": 0.0643,
450
+ "step": 610
451
+ },
452
+ {
453
+ "epoch": 0.03968,
454
+ "grad_norm": 1.5877528190612793,
455
+ "learning_rate": 6.602666666666667e-06,
456
+ "loss": 0.0501,
457
+ "step": 620
458
+ },
459
+ {
460
+ "epoch": 0.04032,
461
+ "grad_norm": 2.1468632221221924,
462
+ "learning_rate": 6.7093333333333345e-06,
463
+ "loss": 0.0521,
464
+ "step": 630
465
+ },
466
+ {
467
+ "epoch": 0.04096,
468
+ "grad_norm": 2.6225597858428955,
469
+ "learning_rate": 6.8160000000000005e-06,
470
+ "loss": 0.068,
471
+ "step": 640
472
+ },
473
+ {
474
+ "epoch": 0.0416,
475
+ "grad_norm": 3.1171772480010986,
476
+ "learning_rate": 6.922666666666667e-06,
477
+ "loss": 0.0644,
478
+ "step": 650
479
+ },
480
+ {
481
+ "epoch": 0.04224,
482
+ "grad_norm": 2.7589240074157715,
483
+ "learning_rate": 7.029333333333333e-06,
484
+ "loss": 0.0763,
485
+ "step": 660
486
+ },
487
+ {
488
+ "epoch": 0.04288,
489
+ "grad_norm": 2.3155124187469482,
490
+ "learning_rate": 7.136000000000001e-06,
491
+ "loss": 0.0451,
492
+ "step": 670
493
+ },
494
+ {
495
+ "epoch": 0.04352,
496
+ "grad_norm": 0.9795209169387817,
497
+ "learning_rate": 7.242666666666667e-06,
498
+ "loss": 0.0552,
499
+ "step": 680
500
+ },
501
+ {
502
+ "epoch": 0.04416,
503
+ "grad_norm": 6.224135398864746,
504
+ "learning_rate": 7.3493333333333335e-06,
505
+ "loss": 0.0614,
506
+ "step": 690
507
+ },
508
+ {
509
+ "epoch": 0.0448,
510
+ "grad_norm": 1.9188823699951172,
511
+ "learning_rate": 7.456000000000001e-06,
512
+ "loss": 0.0539,
513
+ "step": 700
514
+ },
515
+ {
516
+ "epoch": 0.04544,
517
+ "grad_norm": 2.0834364891052246,
518
+ "learning_rate": 7.562666666666667e-06,
519
+ "loss": 0.0545,
520
+ "step": 710
521
+ },
522
+ {
523
+ "epoch": 0.04608,
524
+ "grad_norm": 2.081609010696411,
525
+ "learning_rate": 7.669333333333335e-06,
526
+ "loss": 0.0563,
527
+ "step": 720
528
+ },
529
+ {
530
+ "epoch": 0.04672,
531
+ "grad_norm": 1.461228370666504,
532
+ "learning_rate": 7.776e-06,
533
+ "loss": 0.0495,
534
+ "step": 730
535
+ },
536
+ {
537
+ "epoch": 0.04736,
538
+ "grad_norm": 2.7746951580047607,
539
+ "learning_rate": 7.882666666666667e-06,
540
+ "loss": 0.0517,
541
+ "step": 740
542
+ },
543
+ {
544
+ "epoch": 0.048,
545
+ "grad_norm": 1.2801299095153809,
546
+ "learning_rate": 7.989333333333335e-06,
547
+ "loss": 0.034,
548
+ "step": 750
549
+ },
550
+ {
551
+ "epoch": 0.04864,
552
+ "grad_norm": 3.921491861343384,
553
+ "learning_rate": 8.096e-06,
554
+ "loss": 0.0537,
555
+ "step": 760
556
+ },
557
+ {
558
+ "epoch": 0.04928,
559
+ "grad_norm": 1.9986109733581543,
560
+ "learning_rate": 8.202666666666667e-06,
561
+ "loss": 0.0444,
562
+ "step": 770
563
+ },
564
+ {
565
+ "epoch": 0.04992,
566
+ "grad_norm": 4.678001403808594,
567
+ "learning_rate": 8.309333333333334e-06,
568
+ "loss": 0.0589,
569
+ "step": 780
570
+ },
571
+ {
572
+ "epoch": 0.05056,
573
+ "grad_norm": 1.7302327156066895,
574
+ "learning_rate": 8.416e-06,
575
+ "loss": 0.043,
576
+ "step": 790
577
+ },
578
+ {
579
+ "epoch": 0.0512,
580
+ "grad_norm": 2.5643601417541504,
581
+ "learning_rate": 8.522666666666667e-06,
582
+ "loss": 0.0671,
583
+ "step": 800
584
+ },
585
+ {
586
+ "epoch": 0.05184,
587
+ "grad_norm": 2.8869082927703857,
588
+ "learning_rate": 8.629333333333334e-06,
589
+ "loss": 0.0565,
590
+ "step": 810
591
+ },
592
+ {
593
+ "epoch": 0.05248,
594
+ "grad_norm": 3.723088264465332,
595
+ "learning_rate": 8.736e-06,
596
+ "loss": 0.0428,
597
+ "step": 820
598
+ },
599
+ {
600
+ "epoch": 0.05312,
601
+ "grad_norm": 4.387404441833496,
602
+ "learning_rate": 8.842666666666667e-06,
603
+ "loss": 0.0559,
604
+ "step": 830
605
+ },
606
+ {
607
+ "epoch": 0.05376,
608
+ "grad_norm": 1.889413833618164,
609
+ "learning_rate": 8.949333333333334e-06,
610
+ "loss": 0.0405,
611
+ "step": 840
612
+ },
613
+ {
614
+ "epoch": 0.0544,
615
+ "grad_norm": 1.4773402214050293,
616
+ "learning_rate": 9.056000000000001e-06,
617
+ "loss": 0.0414,
618
+ "step": 850
619
+ },
620
+ {
621
+ "epoch": 0.05504,
622
+ "grad_norm": 0.4495583176612854,
623
+ "learning_rate": 9.162666666666668e-06,
624
+ "loss": 0.0446,
625
+ "step": 860
626
+ },
627
+ {
628
+ "epoch": 0.05568,
629
+ "grad_norm": 1.158181071281433,
630
+ "learning_rate": 9.269333333333335e-06,
631
+ "loss": 0.0432,
632
+ "step": 870
633
+ },
634
+ {
635
+ "epoch": 0.05632,
636
+ "grad_norm": 2.434063196182251,
637
+ "learning_rate": 9.376000000000001e-06,
638
+ "loss": 0.0502,
639
+ "step": 880
640
+ },
641
+ {
642
+ "epoch": 0.05696,
643
+ "grad_norm": 1.2009385824203491,
644
+ "learning_rate": 9.482666666666668e-06,
645
+ "loss": 0.0473,
646
+ "step": 890
647
+ },
648
+ {
649
+ "epoch": 0.0576,
650
+ "grad_norm": 3.9361023902893066,
651
+ "learning_rate": 9.589333333333333e-06,
652
+ "loss": 0.046,
653
+ "step": 900
654
+ },
655
+ {
656
+ "epoch": 0.05824,
657
+ "grad_norm": 2.926988124847412,
658
+ "learning_rate": 9.696000000000002e-06,
659
+ "loss": 0.0464,
660
+ "step": 910
661
+ },
662
+ {
663
+ "epoch": 0.05888,
664
+ "grad_norm": 2.215726375579834,
665
+ "learning_rate": 9.802666666666667e-06,
666
+ "loss": 0.0471,
667
+ "step": 920
668
+ },
669
+ {
670
+ "epoch": 0.05952,
671
+ "grad_norm": 2.4104645252227783,
672
+ "learning_rate": 9.909333333333334e-06,
673
+ "loss": 0.0482,
674
+ "step": 930
675
+ },
676
+ {
677
+ "epoch": 0.06016,
678
+ "grad_norm": 5.664385795593262,
679
+ "learning_rate": 1.0016000000000002e-05,
680
+ "loss": 0.044,
681
+ "step": 940
682
+ },
683
+ {
684
+ "epoch": 0.0608,
685
+ "grad_norm": 1.7977851629257202,
686
+ "learning_rate": 1.0122666666666667e-05,
687
+ "loss": 0.0429,
688
+ "step": 950
689
+ },
690
+ {
691
+ "epoch": 0.06144,
692
+ "grad_norm": 2.953789472579956,
693
+ "learning_rate": 1.0229333333333334e-05,
694
+ "loss": 0.0533,
695
+ "step": 960
696
+ },
697
+ {
698
+ "epoch": 0.06208,
699
+ "grad_norm": 1.6272608041763306,
700
+ "learning_rate": 1.0336000000000002e-05,
701
+ "loss": 0.0307,
702
+ "step": 970
703
+ },
704
+ {
705
+ "epoch": 0.06272,
706
+ "grad_norm": 2.8621678352355957,
707
+ "learning_rate": 1.0442666666666667e-05,
708
+ "loss": 0.0461,
709
+ "step": 980
710
+ },
711
+ {
712
+ "epoch": 0.06336,
713
+ "grad_norm": 3.70019793510437,
714
+ "learning_rate": 1.0549333333333334e-05,
715
+ "loss": 0.0546,
716
+ "step": 990
717
+ },
718
+ {
719
+ "epoch": 0.064,
720
+ "grad_norm": 1.1777608394622803,
721
+ "learning_rate": 1.0656000000000003e-05,
722
+ "loss": 0.0508,
723
+ "step": 1000
724
+ },
725
+ {
726
+ "epoch": 0.064,
727
+ "eval_accuracy": 0.96139,
728
+ "eval_f1_weighted": 0.9613900534763816,
729
+ "eval_loss": 0.031560152769088745,
730
+ "eval_macro_f1": 0.9613078781032101,
731
+ "eval_precision": 0.9613901086866451,
732
+ "eval_recall": 0.96139,
733
+ "eval_runtime": 1630.3285,
734
+ "eval_samples_per_second": 61.337,
735
+ "eval_steps_per_second": 0.959,
736
+ "step": 1000
737
+ },
738
+ {
739
+ "epoch": 0.06464,
740
+ "grad_norm": 1.070363163948059,
741
+ "learning_rate": 1.0762666666666668e-05,
742
+ "loss": 0.0383,
743
+ "step": 1010
744
+ },
745
+ {
746
+ "epoch": 0.06528,
747
+ "grad_norm": 1.6929458379745483,
748
+ "learning_rate": 1.0869333333333335e-05,
749
+ "loss": 0.0411,
750
+ "step": 1020
751
+ },
752
+ {
753
+ "epoch": 0.06592,
754
+ "grad_norm": 3.4057459831237793,
755
+ "learning_rate": 1.0976e-05,
756
+ "loss": 0.0366,
757
+ "step": 1030
758
+ },
759
+ {
760
+ "epoch": 0.06656,
761
+ "grad_norm": 4.279348850250244,
762
+ "learning_rate": 1.1082666666666668e-05,
763
+ "loss": 0.0518,
764
+ "step": 1040
765
+ },
766
+ {
767
+ "epoch": 0.0672,
768
+ "grad_norm": 2.8239481449127197,
769
+ "learning_rate": 1.1189333333333335e-05,
770
+ "loss": 0.0628,
771
+ "step": 1050
772
+ },
773
+ {
774
+ "epoch": 0.06784,
775
+ "grad_norm": 0.6896284222602844,
776
+ "learning_rate": 1.1296e-05,
777
+ "loss": 0.0326,
778
+ "step": 1060
779
+ },
780
+ {
781
+ "epoch": 0.06848,
782
+ "grad_norm": 2.390023946762085,
783
+ "learning_rate": 1.1402666666666668e-05,
784
+ "loss": 0.023,
785
+ "step": 1070
786
+ },
787
+ {
788
+ "epoch": 0.06912,
789
+ "grad_norm": 4.928287506103516,
790
+ "learning_rate": 1.1509333333333335e-05,
791
+ "loss": 0.054,
792
+ "step": 1080
793
+ },
794
+ {
795
+ "epoch": 0.06976,
796
+ "grad_norm": 0.56038498878479,
797
+ "learning_rate": 1.1616e-05,
798
+ "loss": 0.0455,
799
+ "step": 1090
800
+ },
801
+ {
802
+ "epoch": 0.0704,
803
+ "grad_norm": 1.9952913522720337,
804
+ "learning_rate": 1.1722666666666667e-05,
805
+ "loss": 0.0498,
806
+ "step": 1100
807
+ },
808
+ {
809
+ "epoch": 0.07104,
810
+ "grad_norm": 3.672297239303589,
811
+ "learning_rate": 1.1829333333333335e-05,
812
+ "loss": 0.0316,
813
+ "step": 1110
814
+ },
815
+ {
816
+ "epoch": 0.07168,
817
+ "grad_norm": 1.2902151346206665,
818
+ "learning_rate": 1.1936e-05,
819
+ "loss": 0.0307,
820
+ "step": 1120
821
+ },
822
+ {
823
+ "epoch": 0.07232,
824
+ "grad_norm": 3.4965603351593018,
825
+ "learning_rate": 1.2042666666666667e-05,
826
+ "loss": 0.0276,
827
+ "step": 1130
828
+ },
829
+ {
830
+ "epoch": 0.07296,
831
+ "grad_norm": 2.104722261428833,
832
+ "learning_rate": 1.2149333333333336e-05,
833
+ "loss": 0.0418,
834
+ "step": 1140
835
+ },
836
+ {
837
+ "epoch": 0.0736,
838
+ "grad_norm": 3.112037420272827,
839
+ "learning_rate": 1.2256000000000001e-05,
840
+ "loss": 0.0273,
841
+ "step": 1150
842
+ },
843
+ {
844
+ "epoch": 0.07424,
845
+ "grad_norm": 3.404317855834961,
846
+ "learning_rate": 1.2362666666666668e-05,
847
+ "loss": 0.05,
848
+ "step": 1160
849
+ },
850
+ {
851
+ "epoch": 0.07488,
852
+ "grad_norm": 3.429887056350708,
853
+ "learning_rate": 1.2469333333333333e-05,
854
+ "loss": 0.0373,
855
+ "step": 1170
856
+ },
857
+ {
858
+ "epoch": 0.07552,
859
+ "grad_norm": 3.0430426597595215,
860
+ "learning_rate": 1.2576000000000001e-05,
861
+ "loss": 0.0416,
862
+ "step": 1180
863
+ },
864
+ {
865
+ "epoch": 0.07616,
866
+ "grad_norm": 0.9473117589950562,
867
+ "learning_rate": 1.2682666666666668e-05,
868
+ "loss": 0.0386,
869
+ "step": 1190
870
+ },
871
+ {
872
+ "epoch": 0.0768,
873
+ "grad_norm": 3.2402405738830566,
874
+ "learning_rate": 1.2789333333333333e-05,
875
+ "loss": 0.0483,
876
+ "step": 1200
877
+ },
878
+ {
879
+ "epoch": 0.07744,
880
+ "grad_norm": 0.6574758291244507,
881
+ "learning_rate": 1.2896000000000002e-05,
882
+ "loss": 0.0325,
883
+ "step": 1210
884
+ },
885
+ {
886
+ "epoch": 0.07808,
887
+ "grad_norm": 1.2989708185195923,
888
+ "learning_rate": 1.3002666666666668e-05,
889
+ "loss": 0.0317,
890
+ "step": 1220
891
+ },
892
+ {
893
+ "epoch": 0.07872,
894
+ "grad_norm": 2.3091909885406494,
895
+ "learning_rate": 1.3109333333333333e-05,
896
+ "loss": 0.0333,
897
+ "step": 1230
898
+ },
899
+ {
900
+ "epoch": 0.07936,
901
+ "grad_norm": 1.9569207429885864,
902
+ "learning_rate": 1.3216000000000002e-05,
903
+ "loss": 0.0551,
904
+ "step": 1240
905
+ },
906
+ {
907
+ "epoch": 0.08,
908
+ "grad_norm": 1.9818898439407349,
909
+ "learning_rate": 1.3322666666666669e-05,
910
+ "loss": 0.0456,
911
+ "step": 1250
912
+ },
913
+ {
914
+ "epoch": 0.08064,
915
+ "grad_norm": 1.6688885688781738,
916
+ "learning_rate": 1.3429333333333334e-05,
917
+ "loss": 0.0282,
918
+ "step": 1260
919
+ },
920
+ {
921
+ "epoch": 0.08128,
922
+ "grad_norm": 3.399576425552368,
923
+ "learning_rate": 1.3536e-05,
924
+ "loss": 0.0272,
925
+ "step": 1270
926
+ },
927
+ {
928
+ "epoch": 0.08192,
929
+ "grad_norm": 1.1946886777877808,
930
+ "learning_rate": 1.3642666666666669e-05,
931
+ "loss": 0.0286,
932
+ "step": 1280
933
+ },
934
+ {
935
+ "epoch": 0.08256,
936
+ "grad_norm": 0.6542123556137085,
937
+ "learning_rate": 1.3749333333333334e-05,
938
+ "loss": 0.0402,
939
+ "step": 1290
940
+ },
941
+ {
942
+ "epoch": 0.0832,
943
+ "grad_norm": 0.3911895453929901,
944
+ "learning_rate": 1.3856e-05,
945
+ "loss": 0.0233,
946
+ "step": 1300
947
+ },
948
+ {
949
+ "epoch": 0.08384,
950
+ "grad_norm": 2.623258352279663,
951
+ "learning_rate": 1.396266666666667e-05,
952
+ "loss": 0.032,
953
+ "step": 1310
954
+ },
955
+ {
956
+ "epoch": 0.08448,
957
+ "grad_norm": 0.648289144039154,
958
+ "learning_rate": 1.4069333333333334e-05,
959
+ "loss": 0.0228,
960
+ "step": 1320
961
+ },
962
+ {
963
+ "epoch": 0.08512,
964
+ "grad_norm": 3.750211000442505,
965
+ "learning_rate": 1.4176000000000001e-05,
966
+ "loss": 0.0502,
967
+ "step": 1330
968
+ },
969
+ {
970
+ "epoch": 0.08576,
971
+ "grad_norm": 2.802426815032959,
972
+ "learning_rate": 1.4282666666666666e-05,
973
+ "loss": 0.0287,
974
+ "step": 1340
975
+ },
976
+ {
977
+ "epoch": 0.0864,
978
+ "grad_norm": 1.0664188861846924,
979
+ "learning_rate": 1.4389333333333335e-05,
980
+ "loss": 0.0385,
981
+ "step": 1350
982
+ },
983
+ {
984
+ "epoch": 0.08704,
985
+ "grad_norm": 3.218820571899414,
986
+ "learning_rate": 1.4496000000000001e-05,
987
+ "loss": 0.0515,
988
+ "step": 1360
989
+ },
990
+ {
991
+ "epoch": 0.08768,
992
+ "grad_norm": 1.9482243061065674,
993
+ "learning_rate": 1.4602666666666667e-05,
994
+ "loss": 0.0258,
995
+ "step": 1370
996
+ },
997
+ {
998
+ "epoch": 0.08832,
999
+ "grad_norm": 0.695675253868103,
1000
+ "learning_rate": 1.4709333333333335e-05,
1001
+ "loss": 0.0422,
1002
+ "step": 1380
1003
+ },
1004
+ {
1005
+ "epoch": 0.08896,
1006
+ "grad_norm": 0.9671708941459656,
1007
+ "learning_rate": 1.4816000000000002e-05,
1008
+ "loss": 0.0319,
1009
+ "step": 1390
1010
+ },
1011
+ {
1012
+ "epoch": 0.0896,
1013
+ "grad_norm": 0.8047491908073425,
1014
+ "learning_rate": 1.4922666666666667e-05,
1015
+ "loss": 0.0423,
1016
+ "step": 1400
1017
+ },
1018
+ {
1019
+ "epoch": 0.09024,
1020
+ "grad_norm": 1.894417643547058,
1021
+ "learning_rate": 1.5029333333333334e-05,
1022
+ "loss": 0.0327,
1023
+ "step": 1410
1024
+ },
1025
+ {
1026
+ "epoch": 0.09088,
1027
+ "grad_norm": 3.023747444152832,
1028
+ "learning_rate": 1.5136000000000002e-05,
1029
+ "loss": 0.0356,
1030
+ "step": 1420
1031
+ },
1032
+ {
1033
+ "epoch": 0.09152,
1034
+ "grad_norm": 1.0697004795074463,
1035
+ "learning_rate": 1.5242666666666667e-05,
1036
+ "loss": 0.038,
1037
+ "step": 1430
1038
+ },
1039
+ {
1040
+ "epoch": 0.09216,
1041
+ "grad_norm": 1.0740805864334106,
1042
+ "learning_rate": 1.5349333333333332e-05,
1043
+ "loss": 0.037,
1044
+ "step": 1440
1045
+ },
1046
+ {
1047
+ "epoch": 0.0928,
1048
+ "grad_norm": 1.7463656663894653,
1049
+ "learning_rate": 1.5456000000000002e-05,
1050
+ "loss": 0.0277,
1051
+ "step": 1450
1052
+ },
1053
+ {
1054
+ "epoch": 0.09344,
1055
+ "grad_norm": 0.6604284644126892,
1056
+ "learning_rate": 1.556266666666667e-05,
1057
+ "loss": 0.0259,
1058
+ "step": 1460
1059
+ },
1060
+ {
1061
+ "epoch": 0.09408,
1062
+ "grad_norm": 2.2307727336883545,
1063
+ "learning_rate": 1.5669333333333333e-05,
1064
+ "loss": 0.0311,
1065
+ "step": 1470
1066
+ },
1067
+ {
1068
+ "epoch": 0.09472,
1069
+ "grad_norm": 0.47977620363235474,
1070
+ "learning_rate": 1.5776e-05,
1071
+ "loss": 0.0184,
1072
+ "step": 1480
1073
+ },
1074
+ {
1075
+ "epoch": 0.09536,
1076
+ "grad_norm": 1.1453766822814941,
1077
+ "learning_rate": 1.588266666666667e-05,
1078
+ "loss": 0.0303,
1079
+ "step": 1490
1080
+ },
1081
+ {
1082
+ "epoch": 0.096,
1083
+ "grad_norm": 2.8183929920196533,
1084
+ "learning_rate": 1.5989333333333333e-05,
1085
+ "loss": 0.0498,
1086
+ "step": 1500
1087
+ },
1088
+ {
1089
+ "epoch": 0.096,
1090
+ "eval_accuracy": 0.96992,
1091
+ "eval_f1_weighted": 0.9699323760484765,
1092
+ "eval_loss": 0.029355797916650772,
1093
+ "eval_macro_f1": 0.9698851462608304,
1094
+ "eval_precision": 0.9702279455514112,
1095
+ "eval_recall": 0.96992,
1096
+ "eval_runtime": 1629.7849,
1097
+ "eval_samples_per_second": 61.358,
1098
+ "eval_steps_per_second": 0.959,
1099
+ "step": 1500
1100
+ }
1101
+ ],
1102
+ "logging_steps": 10,
1103
+ "max_steps": 15625,
1104
+ "num_input_tokens_seen": 0,
1105
+ "num_train_epochs": 1,
1106
+ "save_steps": 500,
1107
+ "stateful_callbacks": {
1108
+ "EarlyStoppingCallback": {
1109
+ "args": {
1110
+ "early_stopping_patience": 3,
1111
+ "early_stopping_threshold": 0.0
1112
+ },
1113
+ "attributes": {
1114
+ "early_stopping_patience_counter": 0
1115
+ }
1116
+ },
1117
+ "TrainerControl": {
1118
+ "args": {
1119
+ "should_epoch_stop": false,
1120
+ "should_evaluate": false,
1121
+ "should_log": false,
1122
+ "should_save": true,
1123
+ "should_training_stop": false
1124
+ },
1125
+ "attributes": {}
1126
+ }
1127
+ },
1128
+ "total_flos": 1.262245688095872e+16,
1129
+ "train_batch_size": 32,
1130
+ "trial_name": null,
1131
+ "trial_params": null
1132
+ }
checkpoint-1500/training_args.bin ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0256e15114b0df6f165bb3e6d75f279805d6f125574ac927fca7a602f9449f4a
3
+ size 5777
checkpoint-1500/vocab.json ADDED
The diff for this file is too large to render. See raw diff