Shawon16 commited on
Commit
71e9292
·
verified ·
1 Parent(s): 5dd560d

End of training

Browse files
Files changed (3) hide show
  1. all_results.json +6 -0
  2. test_results.json +6 -0
  3. trainer_state.json +740 -0
all_results.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "accuracy": 0.9153605015673981,
3
+ "f1": 0.913735921309191,
4
+ "precision": 0.9325578764839285,
5
+ "recall": 0.9153605015673981
6
+ }
test_results.json ADDED
@@ -0,0 +1,6 @@
 
 
 
 
 
 
 
1
+ {
2
+ "accuracy": 0.9153605015673981,
3
+ "f1": 0.913735921309191,
4
+ "precision": 0.9325578764839285,
5
+ "recall": 0.9153605015673981
6
+ }
trainer_state.json ADDED
@@ -0,0 +1,740 @@
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1
+ {
2
+ "best_metric": 0.9766666666666667,
3
+ "best_model_checkpoint": "/media/cse/HDD/Shawon/shawon/MY DATA/VideoMAE_BdSLW60_SR_8_kineticsFinetuned_withoutAug/checkpoint-3716",
4
+ "epoch": 8.050053879310346,
5
+ "eval_steps": 500,
6
+ "global_step": 8361,
7
+ "is_hyper_param_search": false,
8
+ "is_local_process_zero": true,
9
+ "is_world_process_zero": true,
10
+ "log_history": [
11
+ {
12
+ "epoch": 0.005387931034482759,
13
+ "grad_norm": 20.11014747619629,
14
+ "learning_rate": 2.6670258620689655e-06,
15
+ "loss": 16.4554,
16
+ "step": 100
17
+ },
18
+ {
19
+ "epoch": 0.010775862068965518,
20
+ "grad_norm": 26.971817016601562,
21
+ "learning_rate": 5.360991379310345e-06,
22
+ "loss": 16.1745,
23
+ "step": 200
24
+ },
25
+ {
26
+ "epoch": 0.016163793103448277,
27
+ "grad_norm": 41.51228713989258,
28
+ "learning_rate": 8.028017241379311e-06,
29
+ "loss": 15.3342,
30
+ "step": 300
31
+ },
32
+ {
33
+ "epoch": 0.021551724137931036,
34
+ "grad_norm": 51.878631591796875,
35
+ "learning_rate": 1.072198275862069e-05,
36
+ "loss": 13.6057,
37
+ "step": 400
38
+ },
39
+ {
40
+ "epoch": 0.02693965517241379,
41
+ "grad_norm": 52.984981536865234,
42
+ "learning_rate": 1.3415948275862069e-05,
43
+ "loss": 11.1741,
44
+ "step": 500
45
+ },
46
+ {
47
+ "epoch": 0.032327586206896554,
48
+ "grad_norm": 50.443359375,
49
+ "learning_rate": 1.610991379310345e-05,
50
+ "loss": 8.8003,
51
+ "step": 600
52
+ },
53
+ {
54
+ "epoch": 0.03771551724137931,
55
+ "grad_norm": 50.93900680541992,
56
+ "learning_rate": 1.880387931034483e-05,
57
+ "loss": 6.2116,
58
+ "step": 700
59
+ },
60
+ {
61
+ "epoch": 0.04310344827586207,
62
+ "grad_norm": 40.679100036621094,
63
+ "learning_rate": 2.149784482758621e-05,
64
+ "loss": 4.3287,
65
+ "step": 800
66
+ },
67
+ {
68
+ "epoch": 0.04849137931034483,
69
+ "grad_norm": 37.3469123840332,
70
+ "learning_rate": 2.4191810344827586e-05,
71
+ "loss": 2.859,
72
+ "step": 900
73
+ },
74
+ {
75
+ "epoch": 0.05005387931034483,
76
+ "eval_accuracy": 0.9183333333333333,
77
+ "eval_f1": 0.9087385884819826,
78
+ "eval_loss": 0.8475048542022705,
79
+ "eval_precision": 0.9240348890875206,
80
+ "eval_recall": 0.9183333333333333,
81
+ "eval_runtime": 192.0614,
82
+ "eval_samples_per_second": 3.124,
83
+ "eval_steps_per_second": 1.562,
84
+ "step": 929
85
+ },
86
+ {
87
+ "epoch": 1.0038254310344827,
88
+ "grad_norm": 19.420085906982422,
89
+ "learning_rate": 2.688577586206897e-05,
90
+ "loss": 1.5587,
91
+ "step": 1000
92
+ },
93
+ {
94
+ "epoch": 1.0092133620689656,
95
+ "grad_norm": 17.20052146911621,
96
+ "learning_rate": 2.9579741379310345e-05,
97
+ "loss": 0.9491,
98
+ "step": 1100
99
+ },
100
+ {
101
+ "epoch": 1.0146012931034483,
102
+ "grad_norm": 24.49296760559082,
103
+ "learning_rate": 3.2273706896551725e-05,
104
+ "loss": 0.6366,
105
+ "step": 1200
106
+ },
107
+ {
108
+ "epoch": 1.0199892241379311,
109
+ "grad_norm": 43.13790512084961,
110
+ "learning_rate": 3.496767241379311e-05,
111
+ "loss": 0.4445,
112
+ "step": 1300
113
+ },
114
+ {
115
+ "epoch": 1.0253771551724138,
116
+ "grad_norm": 1.7655223608016968,
117
+ "learning_rate": 3.7661637931034485e-05,
118
+ "loss": 0.2924,
119
+ "step": 1400
120
+ },
121
+ {
122
+ "epoch": 1.0307650862068964,
123
+ "grad_norm": 2.0372657775878906,
124
+ "learning_rate": 4.035560344827586e-05,
125
+ "loss": 0.1758,
126
+ "step": 1500
127
+ },
128
+ {
129
+ "epoch": 1.0361530172413793,
130
+ "grad_norm": 1.5986464023590088,
131
+ "learning_rate": 4.3049568965517245e-05,
132
+ "loss": 0.2277,
133
+ "step": 1600
134
+ },
135
+ {
136
+ "epoch": 1.041540948275862,
137
+ "grad_norm": 1.0040245056152344,
138
+ "learning_rate": 4.574353448275862e-05,
139
+ "loss": 0.1491,
140
+ "step": 1700
141
+ },
142
+ {
143
+ "epoch": 1.0469288793103448,
144
+ "grad_norm": 2.6459920406341553,
145
+ "learning_rate": 4.8437500000000005e-05,
146
+ "loss": 0.0555,
147
+ "step": 1800
148
+ },
149
+ {
150
+ "epoch": 1.0500538793103449,
151
+ "eval_accuracy": 0.9216666666666666,
152
+ "eval_f1": 0.9093368000230129,
153
+ "eval_loss": 0.30231231451034546,
154
+ "eval_precision": 0.9317002164502166,
155
+ "eval_recall": 0.9216666666666666,
156
+ "eval_runtime": 187.0802,
157
+ "eval_samples_per_second": 3.207,
158
+ "eval_steps_per_second": 1.604,
159
+ "step": 1858
160
+ },
161
+ {
162
+ "epoch": 2.002262931034483,
163
+ "grad_norm": 0.5840566158294678,
164
+ "learning_rate": 4.9874281609195405e-05,
165
+ "loss": 0.0647,
166
+ "step": 1900
167
+ },
168
+ {
169
+ "epoch": 2.0076508620689655,
170
+ "grad_norm": 0.16274438798427582,
171
+ "learning_rate": 4.95749521072797e-05,
172
+ "loss": 0.0725,
173
+ "step": 2000
174
+ },
175
+ {
176
+ "epoch": 2.013038793103448,
177
+ "grad_norm": 0.10402801632881165,
178
+ "learning_rate": 4.9275622605363985e-05,
179
+ "loss": 0.0139,
180
+ "step": 2100
181
+ },
182
+ {
183
+ "epoch": 2.0184267241379312,
184
+ "grad_norm": 0.0963917076587677,
185
+ "learning_rate": 4.897629310344828e-05,
186
+ "loss": 0.0206,
187
+ "step": 2200
188
+ },
189
+ {
190
+ "epoch": 2.023814655172414,
191
+ "grad_norm": 0.08095109462738037,
192
+ "learning_rate": 4.867696360153257e-05,
193
+ "loss": 0.0499,
194
+ "step": 2300
195
+ },
196
+ {
197
+ "epoch": 2.0292025862068965,
198
+ "grad_norm": 1.0376495122909546,
199
+ "learning_rate": 4.837763409961686e-05,
200
+ "loss": 0.0105,
201
+ "step": 2400
202
+ },
203
+ {
204
+ "epoch": 2.034590517241379,
205
+ "grad_norm": 0.027790505439043045,
206
+ "learning_rate": 4.808129789272031e-05,
207
+ "loss": 0.0226,
208
+ "step": 2500
209
+ },
210
+ {
211
+ "epoch": 2.0399784482758623,
212
+ "grad_norm": 0.031076578423380852,
213
+ "learning_rate": 4.778496168582376e-05,
214
+ "loss": 0.0359,
215
+ "step": 2600
216
+ },
217
+ {
218
+ "epoch": 2.045366379310345,
219
+ "grad_norm": 0.02143680490553379,
220
+ "learning_rate": 4.748563218390804e-05,
221
+ "loss": 0.0025,
222
+ "step": 2700
223
+ },
224
+ {
225
+ "epoch": 2.0500538793103447,
226
+ "eval_accuracy": 0.935,
227
+ "eval_f1": 0.927261710739568,
228
+ "eval_loss": 0.2999415695667267,
229
+ "eval_precision": 0.9378208874458874,
230
+ "eval_recall": 0.935,
231
+ "eval_runtime": 186.5359,
232
+ "eval_samples_per_second": 3.217,
233
+ "eval_steps_per_second": 1.608,
234
+ "step": 2787
235
+ },
236
+ {
237
+ "epoch": 3.000700431034483,
238
+ "grad_norm": 0.044046301394701004,
239
+ "learning_rate": 4.7186302681992336e-05,
240
+ "loss": 0.2036,
241
+ "step": 2800
242
+ },
243
+ {
244
+ "epoch": 3.0060883620689656,
245
+ "grad_norm": 0.02674109861254692,
246
+ "learning_rate": 4.688697318007663e-05,
247
+ "loss": 0.0227,
248
+ "step": 2900
249
+ },
250
+ {
251
+ "epoch": 3.011476293103448,
252
+ "grad_norm": 0.604284405708313,
253
+ "learning_rate": 4.658764367816092e-05,
254
+ "loss": 0.0018,
255
+ "step": 3000
256
+ },
257
+ {
258
+ "epoch": 3.016864224137931,
259
+ "grad_norm": 0.012123900465667248,
260
+ "learning_rate": 4.6288314176245215e-05,
261
+ "loss": 0.0013,
262
+ "step": 3100
263
+ },
264
+ {
265
+ "epoch": 3.022252155172414,
266
+ "grad_norm": 0.17276327311992645,
267
+ "learning_rate": 4.598898467432951e-05,
268
+ "loss": 0.0304,
269
+ "step": 3200
270
+ },
271
+ {
272
+ "epoch": 3.0276400862068966,
273
+ "grad_norm": 0.01406328845769167,
274
+ "learning_rate": 4.5689655172413794e-05,
275
+ "loss": 0.0529,
276
+ "step": 3300
277
+ },
278
+ {
279
+ "epoch": 3.0330280172413793,
280
+ "grad_norm": 0.026818769052624702,
281
+ "learning_rate": 4.539032567049809e-05,
282
+ "loss": 0.0059,
283
+ "step": 3400
284
+ },
285
+ {
286
+ "epoch": 3.038415948275862,
287
+ "grad_norm": 0.022273056209087372,
288
+ "learning_rate": 4.509099616858238e-05,
289
+ "loss": 0.0431,
290
+ "step": 3500
291
+ },
292
+ {
293
+ "epoch": 3.043803879310345,
294
+ "grad_norm": 0.008690926246345043,
295
+ "learning_rate": 4.4791666666666673e-05,
296
+ "loss": 0.001,
297
+ "step": 3600
298
+ },
299
+ {
300
+ "epoch": 3.0491918103448277,
301
+ "grad_norm": 0.009022524580359459,
302
+ "learning_rate": 4.449233716475096e-05,
303
+ "loss": 0.0009,
304
+ "step": 3700
305
+ },
306
+ {
307
+ "epoch": 3.0500538793103447,
308
+ "eval_accuracy": 0.9766666666666667,
309
+ "eval_f1": 0.9761724029000916,
310
+ "eval_loss": 0.08761004358530045,
311
+ "eval_precision": 0.9809054834054833,
312
+ "eval_recall": 0.9766666666666667,
313
+ "eval_runtime": 184.6188,
314
+ "eval_samples_per_second": 3.25,
315
+ "eval_steps_per_second": 1.625,
316
+ "step": 3716
317
+ },
318
+ {
319
+ "epoch": 4.004525862068966,
320
+ "grad_norm": 0.007579015102237463,
321
+ "learning_rate": 4.419300766283525e-05,
322
+ "loss": 0.0007,
323
+ "step": 3800
324
+ },
325
+ {
326
+ "epoch": 4.009913793103448,
327
+ "grad_norm": 0.010904570110142231,
328
+ "learning_rate": 4.3893678160919546e-05,
329
+ "loss": 0.0395,
330
+ "step": 3900
331
+ },
332
+ {
333
+ "epoch": 4.015301724137931,
334
+ "grad_norm": 0.006146453786641359,
335
+ "learning_rate": 4.359434865900383e-05,
336
+ "loss": 0.0006,
337
+ "step": 4000
338
+ },
339
+ {
340
+ "epoch": 4.020689655172414,
341
+ "grad_norm": 0.013002044521272182,
342
+ "learning_rate": 4.3295019157088125e-05,
343
+ "loss": 0.0011,
344
+ "step": 4100
345
+ },
346
+ {
347
+ "epoch": 4.026077586206896,
348
+ "grad_norm": 0.12733735144138336,
349
+ "learning_rate": 4.299568965517242e-05,
350
+ "loss": 0.0451,
351
+ "step": 4200
352
+ },
353
+ {
354
+ "epoch": 4.031465517241379,
355
+ "grad_norm": 11.122708320617676,
356
+ "learning_rate": 4.269636015325671e-05,
357
+ "loss": 0.305,
358
+ "step": 4300
359
+ },
360
+ {
361
+ "epoch": 4.0368534482758625,
362
+ "grad_norm": 0.13978660106658936,
363
+ "learning_rate": 4.2397030651341e-05,
364
+ "loss": 0.2215,
365
+ "step": 4400
366
+ },
367
+ {
368
+ "epoch": 4.042241379310345,
369
+ "grad_norm": 0.37221765518188477,
370
+ "learning_rate": 4.209770114942529e-05,
371
+ "loss": 0.1446,
372
+ "step": 4500
373
+ },
374
+ {
375
+ "epoch": 4.047629310344828,
376
+ "grad_norm": 20.41011619567871,
377
+ "learning_rate": 4.1801364942528733e-05,
378
+ "loss": 0.1355,
379
+ "step": 4600
380
+ },
381
+ {
382
+ "epoch": 4.050053879310345,
383
+ "eval_accuracy": 0.9266666666666666,
384
+ "eval_f1": 0.9146410798064111,
385
+ "eval_loss": 0.25398045778274536,
386
+ "eval_precision": 0.9182419154919156,
387
+ "eval_recall": 0.9266666666666666,
388
+ "eval_runtime": 176.3808,
389
+ "eval_samples_per_second": 3.402,
390
+ "eval_steps_per_second": 1.701,
391
+ "step": 4645
392
+ },
393
+ {
394
+ "epoch": 5.002963362068965,
395
+ "grad_norm": 0.017676187679171562,
396
+ "learning_rate": 4.1502035440613026e-05,
397
+ "loss": 0.1491,
398
+ "step": 4700
399
+ },
400
+ {
401
+ "epoch": 5.008351293103448,
402
+ "grad_norm": 1.5707539319992065,
403
+ "learning_rate": 4.120270593869732e-05,
404
+ "loss": 0.0298,
405
+ "step": 4800
406
+ },
407
+ {
408
+ "epoch": 5.013739224137931,
409
+ "grad_norm": 0.08283871412277222,
410
+ "learning_rate": 4.090337643678161e-05,
411
+ "loss": 0.1471,
412
+ "step": 4900
413
+ },
414
+ {
415
+ "epoch": 5.019127155172414,
416
+ "grad_norm": 0.0916813537478447,
417
+ "learning_rate": 4.0604046934865905e-05,
418
+ "loss": 0.1646,
419
+ "step": 5000
420
+ },
421
+ {
422
+ "epoch": 5.024515086206897,
423
+ "grad_norm": 0.012382575310766697,
424
+ "learning_rate": 4.03047174329502e-05,
425
+ "loss": 0.015,
426
+ "step": 5100
427
+ },
428
+ {
429
+ "epoch": 5.029903017241379,
430
+ "grad_norm": 0.008144189603626728,
431
+ "learning_rate": 4.000838122605364e-05,
432
+ "loss": 0.1365,
433
+ "step": 5200
434
+ },
435
+ {
436
+ "epoch": 5.035290948275862,
437
+ "grad_norm": 0.021491670981049538,
438
+ "learning_rate": 3.9709051724137935e-05,
439
+ "loss": 0.0302,
440
+ "step": 5300
441
+ },
442
+ {
443
+ "epoch": 5.040678879310345,
444
+ "grad_norm": 0.03770313411951065,
445
+ "learning_rate": 3.940972222222222e-05,
446
+ "loss": 0.1047,
447
+ "step": 5400
448
+ },
449
+ {
450
+ "epoch": 5.046066810344827,
451
+ "grad_norm": 0.0966072753071785,
452
+ "learning_rate": 3.9110392720306514e-05,
453
+ "loss": 0.099,
454
+ "step": 5500
455
+ },
456
+ {
457
+ "epoch": 5.050053879310345,
458
+ "eval_accuracy": 0.9633333333333334,
459
+ "eval_f1": 0.9578282624655623,
460
+ "eval_loss": 0.26155975461006165,
461
+ "eval_precision": 0.956979842282474,
462
+ "eval_recall": 0.9633333333333334,
463
+ "eval_runtime": 178.9094,
464
+ "eval_samples_per_second": 3.354,
465
+ "eval_steps_per_second": 1.677,
466
+ "step": 5574
467
+ },
468
+ {
469
+ "epoch": 6.001400862068966,
470
+ "grad_norm": 0.0034083151258528233,
471
+ "learning_rate": 3.881106321839081e-05,
472
+ "loss": 0.0444,
473
+ "step": 5600
474
+ },
475
+ {
476
+ "epoch": 6.006788793103448,
477
+ "grad_norm": 0.0034083956852555275,
478
+ "learning_rate": 3.851173371647509e-05,
479
+ "loss": 0.0439,
480
+ "step": 5700
481
+ },
482
+ {
483
+ "epoch": 6.012176724137931,
484
+ "grad_norm": 0.004689768888056278,
485
+ "learning_rate": 3.8212404214559386e-05,
486
+ "loss": 0.0007,
487
+ "step": 5800
488
+ },
489
+ {
490
+ "epoch": 6.017564655172414,
491
+ "grad_norm": 0.004528137389570475,
492
+ "learning_rate": 3.791307471264368e-05,
493
+ "loss": 0.0529,
494
+ "step": 5900
495
+ },
496
+ {
497
+ "epoch": 6.022952586206896,
498
+ "grad_norm": 0.005246564745903015,
499
+ "learning_rate": 3.7613745210727965e-05,
500
+ "loss": 0.0016,
501
+ "step": 6000
502
+ },
503
+ {
504
+ "epoch": 6.0283405172413795,
505
+ "grad_norm": 0.003063632408156991,
506
+ "learning_rate": 3.731441570881226e-05,
507
+ "loss": 0.0002,
508
+ "step": 6100
509
+ },
510
+ {
511
+ "epoch": 6.033728448275862,
512
+ "grad_norm": 0.002391215180978179,
513
+ "learning_rate": 3.701508620689655e-05,
514
+ "loss": 0.0002,
515
+ "step": 6200
516
+ },
517
+ {
518
+ "epoch": 6.039116379310345,
519
+ "grad_norm": 0.0016633198829367757,
520
+ "learning_rate": 3.6715756704980844e-05,
521
+ "loss": 0.0002,
522
+ "step": 6300
523
+ },
524
+ {
525
+ "epoch": 6.044504310344828,
526
+ "grad_norm": 0.013642443343997002,
527
+ "learning_rate": 3.641642720306514e-05,
528
+ "loss": 0.0002,
529
+ "step": 6400
530
+ },
531
+ {
532
+ "epoch": 6.04989224137931,
533
+ "grad_norm": 0.0030818418599665165,
534
+ "learning_rate": 3.611709770114943e-05,
535
+ "loss": 0.0656,
536
+ "step": 6500
537
+ },
538
+ {
539
+ "epoch": 6.050053879310345,
540
+ "eval_accuracy": 0.9616666666666667,
541
+ "eval_f1": 0.9597682298955686,
542
+ "eval_loss": 0.20607294142246246,
543
+ "eval_precision": 0.9674627687127687,
544
+ "eval_recall": 0.9616666666666667,
545
+ "eval_runtime": 184.33,
546
+ "eval_samples_per_second": 3.255,
547
+ "eval_steps_per_second": 1.628,
548
+ "step": 6503
549
+ },
550
+ {
551
+ "epoch": 7.005226293103449,
552
+ "grad_norm": 0.003281041979789734,
553
+ "learning_rate": 3.5817768199233717e-05,
554
+ "loss": 0.0108,
555
+ "step": 6600
556
+ },
557
+ {
558
+ "epoch": 7.010614224137931,
559
+ "grad_norm": 0.06187641620635986,
560
+ "learning_rate": 3.551843869731801e-05,
561
+ "loss": 0.0458,
562
+ "step": 6700
563
+ },
564
+ {
565
+ "epoch": 7.016002155172414,
566
+ "grad_norm": 0.6124621033668518,
567
+ "learning_rate": 3.52191091954023e-05,
568
+ "loss": 0.0931,
569
+ "step": 6800
570
+ },
571
+ {
572
+ "epoch": 7.021390086206897,
573
+ "grad_norm": 0.013154719024896622,
574
+ "learning_rate": 3.4919779693486596e-05,
575
+ "loss": 0.2289,
576
+ "step": 6900
577
+ },
578
+ {
579
+ "epoch": 7.026778017241379,
580
+ "grad_norm": 0.33358174562454224,
581
+ "learning_rate": 3.462045019157089e-05,
582
+ "loss": 0.0804,
583
+ "step": 7000
584
+ },
585
+ {
586
+ "epoch": 7.032165948275862,
587
+ "grad_norm": 0.010887747630476952,
588
+ "learning_rate": 3.4321120689655175e-05,
589
+ "loss": 0.0032,
590
+ "step": 7100
591
+ },
592
+ {
593
+ "epoch": 7.0375538793103445,
594
+ "grad_norm": 0.26187142729759216,
595
+ "learning_rate": 3.402179118773947e-05,
596
+ "loss": 0.0134,
597
+ "step": 7200
598
+ },
599
+ {
600
+ "epoch": 7.042941810344828,
601
+ "grad_norm": 0.01975095644593239,
602
+ "learning_rate": 3.372246168582376e-05,
603
+ "loss": 0.0507,
604
+ "step": 7300
605
+ },
606
+ {
607
+ "epoch": 7.048329741379311,
608
+ "grad_norm": 0.004032758995890617,
609
+ "learning_rate": 3.342313218390805e-05,
610
+ "loss": 0.0314,
611
+ "step": 7400
612
+ },
613
+ {
614
+ "epoch": 7.050053879310345,
615
+ "eval_accuracy": 0.9533333333333334,
616
+ "eval_f1": 0.9526073505957408,
617
+ "eval_loss": 0.20366963744163513,
618
+ "eval_precision": 0.9623829642579644,
619
+ "eval_recall": 0.9533333333333334,
620
+ "eval_runtime": 186.0707,
621
+ "eval_samples_per_second": 3.225,
622
+ "eval_steps_per_second": 1.612,
623
+ "step": 7432
624
+ },
625
+ {
626
+ "epoch": 8.003663793103449,
627
+ "grad_norm": 0.003311087377369404,
628
+ "learning_rate": 3.312380268199234e-05,
629
+ "loss": 0.0496,
630
+ "step": 7500
631
+ },
632
+ {
633
+ "epoch": 8.009051724137931,
634
+ "grad_norm": 0.03303457051515579,
635
+ "learning_rate": 3.282447318007663e-05,
636
+ "loss": 0.0004,
637
+ "step": 7600
638
+ },
639
+ {
640
+ "epoch": 8.014439655172414,
641
+ "grad_norm": 0.0018716267077252269,
642
+ "learning_rate": 3.252514367816092e-05,
643
+ "loss": 0.0002,
644
+ "step": 7700
645
+ },
646
+ {
647
+ "epoch": 8.019827586206896,
648
+ "grad_norm": 0.0035127492155879736,
649
+ "learning_rate": 3.222581417624521e-05,
650
+ "loss": 0.1371,
651
+ "step": 7800
652
+ },
653
+ {
654
+ "epoch": 8.02521551724138,
655
+ "grad_norm": 0.009622437879443169,
656
+ "learning_rate": 3.1926484674329505e-05,
657
+ "loss": 0.0445,
658
+ "step": 7900
659
+ },
660
+ {
661
+ "epoch": 8.030603448275862,
662
+ "grad_norm": 0.0022457086015492678,
663
+ "learning_rate": 3.163014846743295e-05,
664
+ "loss": 0.0073,
665
+ "step": 8000
666
+ },
667
+ {
668
+ "epoch": 8.035991379310344,
669
+ "grad_norm": 0.002641331171616912,
670
+ "learning_rate": 3.133081896551724e-05,
671
+ "loss": 0.0007,
672
+ "step": 8100
673
+ },
674
+ {
675
+ "epoch": 8.041379310344828,
676
+ "grad_norm": 0.004722919315099716,
677
+ "learning_rate": 3.1031489463601535e-05,
678
+ "loss": 0.0721,
679
+ "step": 8200
680
+ },
681
+ {
682
+ "epoch": 8.04676724137931,
683
+ "grad_norm": 0.0021432852372527122,
684
+ "learning_rate": 3.073215996168583e-05,
685
+ "loss": 0.0874,
686
+ "step": 8300
687
+ },
688
+ {
689
+ "epoch": 8.050053879310346,
690
+ "eval_accuracy": 0.95,
691
+ "eval_f1": 0.9457895216400736,
692
+ "eval_loss": 0.219703808426857,
693
+ "eval_precision": 0.9611800144300143,
694
+ "eval_recall": 0.95,
695
+ "eval_runtime": 186.2504,
696
+ "eval_samples_per_second": 3.221,
697
+ "eval_steps_per_second": 1.611,
698
+ "step": 8361
699
+ },
700
+ {
701
+ "epoch": 8.050053879310346,
702
+ "step": 8361,
703
+ "total_flos": 8.337990588259369e+19,
704
+ "train_loss": 1.2332628082536137,
705
+ "train_runtime": 25272.533,
706
+ "train_samples_per_second": 5.875,
707
+ "train_steps_per_second": 0.734
708
+ }
709
+ ],
710
+ "logging_steps": 100,
711
+ "max_steps": 18560,
712
+ "num_input_tokens_seen": 0,
713
+ "num_train_epochs": 9223372036854775807,
714
+ "save_steps": 500,
715
+ "stateful_callbacks": {
716
+ "EarlyStoppingCallback": {
717
+ "args": {
718
+ "early_stopping_patience": 5,
719
+ "early_stopping_threshold": 0.0
720
+ },
721
+ "attributes": {
722
+ "early_stopping_patience_counter": 5
723
+ }
724
+ },
725
+ "TrainerControl": {
726
+ "args": {
727
+ "should_epoch_stop": false,
728
+ "should_evaluate": false,
729
+ "should_log": false,
730
+ "should_save": true,
731
+ "should_training_stop": true
732
+ },
733
+ "attributes": {}
734
+ }
735
+ },
736
+ "total_flos": 8.337990588259369e+19,
737
+ "train_batch_size": 2,
738
+ "trial_name": null,
739
+ "trial_params": null
740
+ }