Pamreth commited on
Commit
b4f3f5f
·
verified ·
1 Parent(s): 5d6536a

🍻 cheers

Browse files
README.md CHANGED
@@ -3,6 +3,7 @@ library_name: transformers
3
  license: apache-2.0
4
  base_model: facebook/deit-base-distilled-patch16-224
5
  tags:
 
6
  - generated_from_trainer
7
  metrics:
8
  - accuracy
@@ -16,7 +17,7 @@ should probably proofread and complete it, then remove this comment. -->
16
 
17
  # deit-ena24
18
 
19
- This model is a fine-tuned version of [facebook/deit-base-distilled-patch16-224](https://huggingface.co/facebook/deit-base-distilled-patch16-224) on an unknown dataset.
20
  It achieves the following results on the evaluation set:
21
  - Loss: 0.0999
22
  - Accuracy: 0.9763
 
3
  license: apache-2.0
4
  base_model: facebook/deit-base-distilled-patch16-224
5
  tags:
6
+ - image-classification
7
  - generated_from_trainer
8
  metrics:
9
  - accuracy
 
17
 
18
  # deit-ena24
19
 
20
+ This model is a fine-tuned version of [facebook/deit-base-distilled-patch16-224](https://huggingface.co/facebook/deit-base-distilled-patch16-224) on the ena24 dataset.
21
  It achieves the following results on the evaluation set:
22
  - Loss: 0.0999
23
  - Accuracy: 0.9763
all_results.json CHANGED
@@ -1,13 +1,13 @@
1
  {
2
- "epoch": 1.0,
3
- "eval_accuracy": 0.9541984732824428,
4
- "eval_loss": 0.18305547535419464,
5
- "eval_runtime": 81.3613,
6
- "eval_samples_per_second": 16.101,
7
- "eval_steps_per_second": 2.016,
8
- "total_flos": 4.7604963762671616e+17,
9
- "train_loss": 0.6042932469863445,
10
- "train_runtime": 1047.5566,
11
- "train_samples_per_second": 5.863,
12
- "train_steps_per_second": 0.733
13
  }
 
1
  {
2
+ "epoch": 2.0,
3
+ "eval_accuracy": 0.9763358778625955,
4
+ "eval_loss": 0.09990814328193665,
5
+ "eval_runtime": 73.9296,
6
+ "eval_samples_per_second": 17.72,
7
+ "eval_steps_per_second": 2.218,
8
+ "total_flos": 9.520992752534323e+17,
9
+ "train_loss": 0.37781994496223587,
10
+ "train_runtime": 2217.5006,
11
+ "train_samples_per_second": 5.54,
12
+ "train_steps_per_second": 0.693
13
  }
eval_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 1.0,
3
- "eval_accuracy": 0.9541984732824428,
4
- "eval_loss": 0.18305547535419464,
5
- "eval_runtime": 81.3613,
6
- "eval_samples_per_second": 16.101,
7
- "eval_steps_per_second": 2.016
8
  }
 
1
  {
2
+ "epoch": 2.0,
3
+ "eval_accuracy": 0.9763358778625955,
4
+ "eval_loss": 0.09990814328193665,
5
+ "eval_runtime": 73.9296,
6
+ "eval_samples_per_second": 17.72,
7
+ "eval_steps_per_second": 2.218
8
  }
runs/Apr14_21-54-08_6575159b613a/events.out.tfevents.1744669968.6575159b613a.962.1 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b19e21154dfc7cbe336cdff02e37fd6175a03b3b57d95f99c7d256c9aefda4eb
3
+ size 411
train_results.json CHANGED
@@ -1,8 +1,8 @@
1
  {
2
- "epoch": 1.0,
3
- "total_flos": 4.7604963762671616e+17,
4
- "train_loss": 0.6042932469863445,
5
- "train_runtime": 1047.5566,
6
- "train_samples_per_second": 5.863,
7
- "train_steps_per_second": 0.733
8
  }
 
1
  {
2
+ "epoch": 2.0,
3
+ "total_flos": 9.520992752534323e+17,
4
+ "train_loss": 0.37781994496223587,
5
+ "train_runtime": 2217.5006,
6
+ "train_samples_per_second": 5.54,
7
+ "train_steps_per_second": 0.693
8
  }
trainer_state.json CHANGED
@@ -1,623 +1,1234 @@
1
  {
2
- "best_global_step": 700,
3
- "best_metric": 0.18305547535419464,
4
- "best_model_checkpoint": "./deit-ena24/checkpoint-700",
5
- "epoch": 1.0,
6
  "eval_steps": 100,
7
- "global_step": 768,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
  "epoch": 0.013020833333333334,
14
- "grad_norm": 13.260034561157227,
15
- "learning_rate": 0.0001979166666666667,
16
- "loss": 2.8732,
17
  "step": 10
18
  },
19
  {
20
  "epoch": 0.026041666666666668,
21
- "grad_norm": 9.820590019226074,
22
- "learning_rate": 0.0001953125,
23
- "loss": 2.4629,
24
  "step": 20
25
  },
26
  {
27
  "epoch": 0.0390625,
28
- "grad_norm": 10.095938682556152,
29
- "learning_rate": 0.00019270833333333333,
30
- "loss": 2.0921,
31
  "step": 30
32
  },
33
  {
34
  "epoch": 0.052083333333333336,
35
- "grad_norm": 12.057257652282715,
36
- "learning_rate": 0.00019010416666666668,
37
- "loss": 1.8719,
38
  "step": 40
39
  },
40
  {
41
  "epoch": 0.06510416666666667,
42
- "grad_norm": 13.049660682678223,
43
- "learning_rate": 0.0001875,
44
- "loss": 1.5668,
45
  "step": 50
46
  },
47
  {
48
  "epoch": 0.078125,
49
- "grad_norm": 11.265847206115723,
50
- "learning_rate": 0.00018515625000000002,
51
- "loss": 1.3715,
52
  "step": 60
53
  },
54
  {
55
  "epoch": 0.09114583333333333,
56
- "grad_norm": 9.338308334350586,
57
- "learning_rate": 0.00018255208333333334,
58
- "loss": 1.0822,
59
  "step": 70
60
  },
61
  {
62
  "epoch": 0.10416666666666667,
63
- "grad_norm": 9.89381217956543,
64
- "learning_rate": 0.0001799479166666667,
65
- "loss": 1.0687,
66
  "step": 80
67
  },
68
  {
69
  "epoch": 0.1171875,
70
- "grad_norm": 11.900596618652344,
71
- "learning_rate": 0.00017734375,
72
- "loss": 1.23,
73
  "step": 90
74
  },
75
  {
76
  "epoch": 0.13020833333333334,
77
- "grad_norm": 11.67223072052002,
78
- "learning_rate": 0.00017473958333333333,
79
- "loss": 1.3013,
80
  "step": 100
81
  },
82
  {
83
  "epoch": 0.13020833333333334,
84
- "eval_accuracy": 0.7145038167938931,
85
- "eval_loss": 0.9782444834709167,
86
- "eval_runtime": 82.9835,
87
- "eval_samples_per_second": 15.786,
88
- "eval_steps_per_second": 1.976,
89
  "step": 100
90
  },
91
  {
92
  "epoch": 0.14322916666666666,
93
- "grad_norm": 4.8917670249938965,
94
- "learning_rate": 0.00017213541666666668,
95
- "loss": 0.7945,
96
  "step": 110
97
  },
98
  {
99
  "epoch": 0.15625,
100
- "grad_norm": 5.368461608886719,
101
- "learning_rate": 0.00016953125,
102
- "loss": 0.9363,
103
  "step": 120
104
  },
105
  {
106
  "epoch": 0.16927083333333334,
107
- "grad_norm": 12.348027229309082,
108
- "learning_rate": 0.00016692708333333333,
109
- "loss": 1.0411,
110
  "step": 130
111
  },
112
  {
113
  "epoch": 0.18229166666666666,
114
- "grad_norm": 8.018155097961426,
115
- "learning_rate": 0.00016432291666666668,
116
- "loss": 1.1303,
117
  "step": 140
118
  },
119
  {
120
  "epoch": 0.1953125,
121
- "grad_norm": 8.59954833984375,
122
- "learning_rate": 0.00016171875,
123
- "loss": 0.9403,
124
  "step": 150
125
  },
126
  {
127
  "epoch": 0.20833333333333334,
128
- "grad_norm": 7.333462715148926,
129
- "learning_rate": 0.00015911458333333335,
130
- "loss": 1.0405,
131
  "step": 160
132
  },
133
  {
134
  "epoch": 0.22135416666666666,
135
- "grad_norm": 9.870811462402344,
136
- "learning_rate": 0.00015651041666666667,
137
- "loss": 0.8883,
138
  "step": 170
139
  },
140
  {
141
  "epoch": 0.234375,
142
- "grad_norm": 12.272759437561035,
143
- "learning_rate": 0.00015390625000000002,
144
- "loss": 0.8909,
145
  "step": 180
146
  },
147
  {
148
  "epoch": 0.24739583333333334,
149
- "grad_norm": 11.775607109069824,
150
- "learning_rate": 0.00015130208333333334,
151
- "loss": 0.865,
152
  "step": 190
153
  },
154
  {
155
  "epoch": 0.2604166666666667,
156
- "grad_norm": 6.171130180358887,
157
- "learning_rate": 0.0001486979166666667,
158
- "loss": 0.8173,
159
  "step": 200
160
  },
161
  {
162
  "epoch": 0.2604166666666667,
163
- "eval_accuracy": 0.8557251908396947,
164
- "eval_loss": 0.5562589168548584,
165
- "eval_runtime": 74.7249,
166
- "eval_samples_per_second": 17.531,
167
- "eval_steps_per_second": 2.195,
168
  "step": 200
169
  },
170
  {
171
  "epoch": 0.2734375,
172
- "grad_norm": 6.6932806968688965,
173
- "learning_rate": 0.00014609375,
174
- "loss": 0.5124,
175
  "step": 210
176
  },
177
  {
178
  "epoch": 0.2864583333333333,
179
- "grad_norm": 16.43584442138672,
180
- "learning_rate": 0.00014348958333333333,
181
- "loss": 0.9,
182
  "step": 220
183
  },
184
  {
185
  "epoch": 0.2994791666666667,
186
- "grad_norm": 7.73850679397583,
187
- "learning_rate": 0.00014088541666666668,
188
- "loss": 0.521,
189
  "step": 230
190
  },
191
  {
192
  "epoch": 0.3125,
193
- "grad_norm": 9.52759838104248,
194
- "learning_rate": 0.00013828125,
195
- "loss": 0.4835,
196
  "step": 240
197
  },
198
  {
199
  "epoch": 0.3255208333333333,
200
- "grad_norm": 11.618107795715332,
201
- "learning_rate": 0.00013567708333333333,
202
- "loss": 0.7698,
203
  "step": 250
204
  },
205
  {
206
  "epoch": 0.3385416666666667,
207
- "grad_norm": 8.700807571411133,
208
- "learning_rate": 0.00013307291666666667,
209
- "loss": 0.6306,
210
  "step": 260
211
  },
212
  {
213
  "epoch": 0.3515625,
214
- "grad_norm": 4.3553032875061035,
215
- "learning_rate": 0.00013046875,
216
- "loss": 0.7666,
217
  "step": 270
218
  },
219
  {
220
  "epoch": 0.3645833333333333,
221
- "grad_norm": 12.448610305786133,
222
- "learning_rate": 0.00012786458333333332,
223
- "loss": 0.5738,
224
  "step": 280
225
  },
226
  {
227
  "epoch": 0.3776041666666667,
228
- "grad_norm": 9.840099334716797,
229
- "learning_rate": 0.00012526041666666667,
230
- "loss": 0.8134,
231
  "step": 290
232
  },
233
  {
234
  "epoch": 0.390625,
235
- "grad_norm": 7.528562545776367,
236
- "learning_rate": 0.00012265625000000002,
237
- "loss": 0.3854,
238
  "step": 300
239
  },
240
  {
241
  "epoch": 0.390625,
242
- "eval_accuracy": 0.8290076335877863,
243
- "eval_loss": 0.5590693950653076,
244
- "eval_runtime": 74.2435,
245
- "eval_samples_per_second": 17.645,
246
- "eval_steps_per_second": 2.209,
247
  "step": 300
248
  },
249
  {
250
  "epoch": 0.4036458333333333,
251
- "grad_norm": 15.404702186584473,
252
- "learning_rate": 0.00012005208333333333,
253
- "loss": 0.3826,
254
  "step": 310
255
  },
256
  {
257
  "epoch": 0.4166666666666667,
258
- "grad_norm": 12.3324556350708,
259
- "learning_rate": 0.00011744791666666667,
260
- "loss": 0.671,
261
  "step": 320
262
  },
263
  {
264
  "epoch": 0.4296875,
265
- "grad_norm": 7.279428482055664,
266
- "learning_rate": 0.00011484375000000001,
267
- "loss": 0.6104,
268
  "step": 330
269
  },
270
  {
271
  "epoch": 0.4427083333333333,
272
- "grad_norm": 4.391035556793213,
273
- "learning_rate": 0.00011223958333333333,
274
- "loss": 0.2654,
275
  "step": 340
276
  },
277
  {
278
  "epoch": 0.4557291666666667,
279
- "grad_norm": 8.39172077178955,
280
- "learning_rate": 0.00010963541666666668,
281
- "loss": 0.3805,
282
  "step": 350
283
  },
284
  {
285
  "epoch": 0.46875,
286
- "grad_norm": 12.371193885803223,
287
- "learning_rate": 0.00010703125,
288
- "loss": 0.6499,
289
  "step": 360
290
  },
291
  {
292
  "epoch": 0.4817708333333333,
293
- "grad_norm": 12.96164608001709,
294
- "learning_rate": 0.00010442708333333332,
295
- "loss": 0.479,
296
  "step": 370
297
  },
298
  {
299
  "epoch": 0.4947916666666667,
300
- "grad_norm": 7.882753849029541,
301
- "learning_rate": 0.00010182291666666667,
302
- "loss": 0.4378,
303
  "step": 380
304
  },
305
  {
306
  "epoch": 0.5078125,
307
- "grad_norm": 8.277647018432617,
308
- "learning_rate": 9.921875000000001e-05,
309
- "loss": 0.2082,
310
  "step": 390
311
  },
312
  {
313
  "epoch": 0.5208333333333334,
314
- "grad_norm": 0.7365554571151733,
315
- "learning_rate": 9.661458333333335e-05,
316
- "loss": 0.4819,
317
  "step": 400
318
  },
319
  {
320
  "epoch": 0.5208333333333334,
321
- "eval_accuracy": 0.8916030534351145,
322
- "eval_loss": 0.42133229970932007,
323
- "eval_runtime": 73.4397,
324
- "eval_samples_per_second": 17.838,
325
- "eval_steps_per_second": 2.233,
326
  "step": 400
327
  },
328
  {
329
  "epoch": 0.5338541666666666,
330
- "grad_norm": 0.28731444478034973,
331
- "learning_rate": 9.401041666666667e-05,
332
- "loss": 0.3491,
333
  "step": 410
334
  },
335
  {
336
  "epoch": 0.546875,
337
- "grad_norm": 3.7821755409240723,
338
- "learning_rate": 9.140625e-05,
339
- "loss": 0.1838,
340
  "step": 420
341
  },
342
  {
343
  "epoch": 0.5598958333333334,
344
- "grad_norm": 3.5339951515197754,
345
- "learning_rate": 8.880208333333334e-05,
346
- "loss": 0.3314,
347
  "step": 430
348
  },
349
  {
350
  "epoch": 0.5729166666666666,
351
- "grad_norm": 6.025645732879639,
352
- "learning_rate": 8.619791666666667e-05,
353
- "loss": 0.1585,
354
  "step": 440
355
  },
356
  {
357
  "epoch": 0.5859375,
358
- "grad_norm": 0.45756229758262634,
359
- "learning_rate": 8.359375000000001e-05,
360
- "loss": 0.2913,
361
  "step": 450
362
  },
363
  {
364
  "epoch": 0.5989583333333334,
365
- "grad_norm": 0.4419526755809784,
366
- "learning_rate": 8.098958333333334e-05,
367
- "loss": 0.5086,
368
  "step": 460
369
  },
370
  {
371
  "epoch": 0.6119791666666666,
372
- "grad_norm": 2.3669064044952393,
373
- "learning_rate": 7.838541666666667e-05,
374
- "loss": 0.3715,
375
  "step": 470
376
  },
377
  {
378
  "epoch": 0.625,
379
- "grad_norm": 5.0602335929870605,
380
- "learning_rate": 7.578125e-05,
381
- "loss": 0.1702,
382
  "step": 480
383
  },
384
  {
385
  "epoch": 0.6380208333333334,
386
- "grad_norm": 1.94741690158844,
387
- "learning_rate": 7.317708333333334e-05,
388
- "loss": 0.1096,
389
  "step": 490
390
  },
391
  {
392
  "epoch": 0.6510416666666666,
393
- "grad_norm": 0.24792739748954773,
394
- "learning_rate": 7.057291666666666e-05,
395
- "loss": 0.5078,
396
  "step": 500
397
  },
398
  {
399
  "epoch": 0.6510416666666666,
400
- "eval_accuracy": 0.9145038167938931,
401
- "eval_loss": 0.30997681617736816,
402
- "eval_runtime": 73.9129,
403
- "eval_samples_per_second": 17.724,
404
- "eval_steps_per_second": 2.219,
405
  "step": 500
406
  },
407
  {
408
  "epoch": 0.6640625,
409
- "grad_norm": 0.9492112398147583,
410
- "learning_rate": 6.796875000000001e-05,
411
- "loss": 0.2944,
412
  "step": 510
413
  },
414
  {
415
  "epoch": 0.6770833333333334,
416
- "grad_norm": 12.045668601989746,
417
- "learning_rate": 6.536458333333334e-05,
418
- "loss": 0.4413,
419
  "step": 520
420
  },
421
  {
422
  "epoch": 0.6901041666666666,
423
- "grad_norm": 1.8837093114852905,
424
- "learning_rate": 6.276041666666667e-05,
425
- "loss": 0.5431,
426
  "step": 530
427
  },
428
  {
429
  "epoch": 0.703125,
430
- "grad_norm": 7.727165222167969,
431
- "learning_rate": 6.015625e-05,
432
- "loss": 0.1183,
433
  "step": 540
434
  },
435
  {
436
  "epoch": 0.7161458333333334,
437
- "grad_norm": 8.092196464538574,
438
- "learning_rate": 5.755208333333334e-05,
439
- "loss": 0.2362,
440
  "step": 550
441
  },
442
  {
443
  "epoch": 0.7291666666666666,
444
- "grad_norm": 15.029434204101562,
445
- "learning_rate": 5.4947916666666666e-05,
446
- "loss": 0.4467,
447
  "step": 560
448
  },
449
  {
450
  "epoch": 0.7421875,
451
- "grad_norm": 4.014970302581787,
452
- "learning_rate": 5.234375e-05,
453
- "loss": 0.2989,
454
  "step": 570
455
  },
456
  {
457
  "epoch": 0.7552083333333334,
458
- "grad_norm": 4.193512916564941,
459
- "learning_rate": 4.973958333333333e-05,
460
- "loss": 0.1541,
461
  "step": 580
462
  },
463
  {
464
  "epoch": 0.7682291666666666,
465
- "grad_norm": 13.539695739746094,
466
- "learning_rate": 4.713541666666667e-05,
467
- "loss": 0.1179,
468
  "step": 590
469
  },
470
  {
471
  "epoch": 0.78125,
472
- "grad_norm": 19.648563385009766,
473
- "learning_rate": 4.453125e-05,
474
- "loss": 0.3561,
475
  "step": 600
476
  },
477
  {
478
  "epoch": 0.78125,
479
- "eval_accuracy": 0.9358778625954198,
480
- "eval_loss": 0.23049861192703247,
481
- "eval_runtime": 74.509,
482
- "eval_samples_per_second": 17.582,
483
- "eval_steps_per_second": 2.201,
484
  "step": 600
485
  },
486
  {
487
  "epoch": 0.7942708333333334,
488
- "grad_norm": 0.04181066155433655,
489
- "learning_rate": 4.192708333333333e-05,
490
- "loss": 0.0591,
491
  "step": 610
492
  },
493
  {
494
  "epoch": 0.8072916666666666,
495
- "grad_norm": 11.094377517700195,
496
- "learning_rate": 3.932291666666667e-05,
497
- "loss": 0.2947,
498
  "step": 620
499
  },
500
  {
501
  "epoch": 0.8203125,
502
- "grad_norm": 7.612452983856201,
503
- "learning_rate": 3.671875e-05,
504
- "loss": 0.2272,
505
  "step": 630
506
  },
507
  {
508
  "epoch": 0.8333333333333334,
509
- "grad_norm": 0.9280955791473389,
510
- "learning_rate": 3.411458333333333e-05,
511
- "loss": 0.2866,
512
  "step": 640
513
  },
514
  {
515
  "epoch": 0.8463541666666666,
516
- "grad_norm": 13.93165111541748,
517
- "learning_rate": 3.151041666666667e-05,
518
- "loss": 0.2116,
519
  "step": 650
520
  },
521
  {
522
  "epoch": 0.859375,
523
- "grad_norm": 1.5849241018295288,
524
- "learning_rate": 2.890625e-05,
525
- "loss": 0.1249,
526
  "step": 660
527
  },
528
  {
529
  "epoch": 0.8723958333333334,
530
- "grad_norm": 2.543943166732788,
531
- "learning_rate": 2.6302083333333333e-05,
532
- "loss": 0.1475,
533
  "step": 670
534
  },
535
  {
536
  "epoch": 0.8854166666666666,
537
- "grad_norm": 9.006084442138672,
538
- "learning_rate": 2.3697916666666666e-05,
539
- "loss": 0.2498,
540
  "step": 680
541
  },
542
  {
543
  "epoch": 0.8984375,
544
- "grad_norm": 6.0855488777160645,
545
- "learning_rate": 2.109375e-05,
546
- "loss": 0.1729,
547
  "step": 690
548
  },
549
  {
550
  "epoch": 0.9114583333333334,
551
- "grad_norm": 3.486813545227051,
552
- "learning_rate": 1.8489583333333337e-05,
553
- "loss": 0.1739,
554
  "step": 700
555
  },
556
  {
557
  "epoch": 0.9114583333333334,
558
- "eval_accuracy": 0.9541984732824428,
559
- "eval_loss": 0.18305547535419464,
560
- "eval_runtime": 74.4827,
561
- "eval_samples_per_second": 17.588,
562
- "eval_steps_per_second": 2.202,
563
  "step": 700
564
  },
565
  {
566
  "epoch": 0.9244791666666666,
567
- "grad_norm": 9.733048439025879,
568
- "learning_rate": 1.5885416666666665e-05,
569
- "loss": 0.3438,
570
  "step": 710
571
  },
572
  {
573
  "epoch": 0.9375,
574
- "grad_norm": 8.05999755859375,
575
- "learning_rate": 1.3281250000000001e-05,
576
- "loss": 0.2341,
577
  "step": 720
578
  },
579
  {
580
  "epoch": 0.9505208333333334,
581
- "grad_norm": 1.3342446088790894,
582
- "learning_rate": 1.0677083333333333e-05,
583
- "loss": 0.0848,
584
  "step": 730
585
  },
586
  {
587
  "epoch": 0.9635416666666666,
588
- "grad_norm": 1.0999221801757812,
589
- "learning_rate": 8.072916666666667e-06,
590
- "loss": 0.2429,
591
  "step": 740
592
  },
593
  {
594
  "epoch": 0.9765625,
595
- "grad_norm": 0.9648075699806213,
596
- "learning_rate": 5.46875e-06,
597
- "loss": 0.046,
598
  "step": 750
599
  },
600
  {
601
  "epoch": 0.9895833333333334,
602
- "grad_norm": 6.7523956298828125,
603
- "learning_rate": 2.8645833333333334e-06,
604
- "loss": 0.1141,
605
  "step": 760
606
  },
607
  {
608
- "epoch": 1.0,
609
- "step": 768,
610
- "total_flos": 4.7604963762671616e+17,
611
- "train_loss": 0.6042932469863445,
612
- "train_runtime": 1047.5566,
613
- "train_samples_per_second": 5.863,
614
- "train_steps_per_second": 0.733
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
615
  }
616
  ],
617
  "logging_steps": 10,
618
- "max_steps": 768,
619
  "num_input_tokens_seen": 0,
620
- "num_train_epochs": 1,
621
  "save_steps": 100,
622
  "stateful_callbacks": {
623
  "TrainerControl": {
@@ -631,7 +1242,7 @@
631
  "attributes": {}
632
  }
633
  },
634
- "total_flos": 4.7604963762671616e+17,
635
  "train_batch_size": 8,
636
  "trial_name": null,
637
  "trial_params": null
 
1
  {
2
+ "best_global_step": 1500,
3
+ "best_metric": 0.09990814328193665,
4
+ "best_model_checkpoint": "./deit-ena24/checkpoint-1500",
5
+ "epoch": 2.0,
6
  "eval_steps": 100,
7
+ "global_step": 1536,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
  "epoch": 0.013020833333333334,
14
+ "grad_norm": 14.254265785217285,
15
+ "learning_rate": 0.000198828125,
16
+ "loss": 2.9884,
17
  "step": 10
18
  },
19
  {
20
  "epoch": 0.026041666666666668,
21
+ "grad_norm": 9.068739891052246,
22
+ "learning_rate": 0.00019752604166666668,
23
+ "loss": 2.4096,
24
  "step": 20
25
  },
26
  {
27
  "epoch": 0.0390625,
28
+ "grad_norm": 13.04211139678955,
29
+ "learning_rate": 0.00019635416666666667,
30
+ "loss": 2.0258,
31
  "step": 30
32
  },
33
  {
34
  "epoch": 0.052083333333333336,
35
+ "grad_norm": 10.427019119262695,
36
+ "learning_rate": 0.00019505208333333335,
37
+ "loss": 1.8002,
38
  "step": 40
39
  },
40
  {
41
  "epoch": 0.06510416666666667,
42
+ "grad_norm": 14.92846965789795,
43
+ "learning_rate": 0.00019375000000000002,
44
+ "loss": 1.4203,
45
  "step": 50
46
  },
47
  {
48
  "epoch": 0.078125,
49
+ "grad_norm": 13.101774215698242,
50
+ "learning_rate": 0.00019257812500000001,
51
+ "loss": 1.333,
52
  "step": 60
53
  },
54
  {
55
  "epoch": 0.09114583333333333,
56
+ "grad_norm": 11.586206436157227,
57
+ "learning_rate": 0.0001912760416666667,
58
+ "loss": 1.4012,
59
  "step": 70
60
  },
61
  {
62
  "epoch": 0.10416666666666667,
63
+ "grad_norm": 10.456829071044922,
64
+ "learning_rate": 0.00018997395833333334,
65
+ "loss": 0.9635,
66
  "step": 80
67
  },
68
  {
69
  "epoch": 0.1171875,
70
+ "grad_norm": 11.61454963684082,
71
+ "learning_rate": 0.000188671875,
72
+ "loss": 1.0177,
73
  "step": 90
74
  },
75
  {
76
  "epoch": 0.13020833333333334,
77
+ "grad_norm": 13.899850845336914,
78
+ "learning_rate": 0.00018736979166666668,
79
+ "loss": 1.2545,
80
  "step": 100
81
  },
82
  {
83
  "epoch": 0.13020833333333334,
84
+ "eval_accuracy": 0.7122137404580152,
85
+ "eval_loss": 0.9921107888221741,
86
+ "eval_runtime": 85.2392,
87
+ "eval_samples_per_second": 15.369,
88
+ "eval_steps_per_second": 1.924,
89
  "step": 100
90
  },
91
  {
92
  "epoch": 0.14322916666666666,
93
+ "grad_norm": 5.766229629516602,
94
+ "learning_rate": 0.00018606770833333333,
95
+ "loss": 0.9139,
96
  "step": 110
97
  },
98
  {
99
  "epoch": 0.15625,
100
+ "grad_norm": 5.574714183807373,
101
+ "learning_rate": 0.000184765625,
102
+ "loss": 0.9618,
103
  "step": 120
104
  },
105
  {
106
  "epoch": 0.16927083333333334,
107
+ "grad_norm": 13.56793212890625,
108
+ "learning_rate": 0.00018346354166666668,
109
+ "loss": 1.1131,
110
  "step": 130
111
  },
112
  {
113
  "epoch": 0.18229166666666666,
114
+ "grad_norm": 8.038383483886719,
115
+ "learning_rate": 0.00018216145833333333,
116
+ "loss": 0.8377,
117
  "step": 140
118
  },
119
  {
120
  "epoch": 0.1953125,
121
+ "grad_norm": 11.770642280578613,
122
+ "learning_rate": 0.000180859375,
123
+ "loss": 0.9098,
124
  "step": 150
125
  },
126
  {
127
  "epoch": 0.20833333333333334,
128
+ "grad_norm": 7.951399803161621,
129
+ "learning_rate": 0.00017955729166666668,
130
+ "loss": 1.1005,
131
  "step": 160
132
  },
133
  {
134
  "epoch": 0.22135416666666666,
135
+ "grad_norm": 8.963672637939453,
136
+ "learning_rate": 0.00017825520833333333,
137
+ "loss": 1.0716,
138
  "step": 170
139
  },
140
  {
141
  "epoch": 0.234375,
142
+ "grad_norm": 8.31511402130127,
143
+ "learning_rate": 0.000176953125,
144
+ "loss": 0.9231,
145
  "step": 180
146
  },
147
  {
148
  "epoch": 0.24739583333333334,
149
+ "grad_norm": 11.787638664245605,
150
+ "learning_rate": 0.00017565104166666667,
151
+ "loss": 0.8794,
152
  "step": 190
153
  },
154
  {
155
  "epoch": 0.2604166666666667,
156
+ "grad_norm": 8.950199127197266,
157
+ "learning_rate": 0.00017434895833333332,
158
+ "loss": 0.8766,
159
  "step": 200
160
  },
161
  {
162
  "epoch": 0.2604166666666667,
163
+ "eval_accuracy": 0.8442748091603054,
164
+ "eval_loss": 0.5768096446990967,
165
+ "eval_runtime": 76.5082,
166
+ "eval_samples_per_second": 17.122,
167
+ "eval_steps_per_second": 2.144,
168
  "step": 200
169
  },
170
  {
171
  "epoch": 0.2734375,
172
+ "grad_norm": 8.455012321472168,
173
+ "learning_rate": 0.000173046875,
174
+ "loss": 0.5924,
175
  "step": 210
176
  },
177
  {
178
  "epoch": 0.2864583333333333,
179
+ "grad_norm": 13.688481330871582,
180
+ "learning_rate": 0.00017174479166666667,
181
+ "loss": 0.8901,
182
  "step": 220
183
  },
184
  {
185
  "epoch": 0.2994791666666667,
186
+ "grad_norm": 7.238300323486328,
187
+ "learning_rate": 0.00017044270833333335,
188
+ "loss": 0.6618,
189
  "step": 230
190
  },
191
  {
192
  "epoch": 0.3125,
193
+ "grad_norm": 14.064223289489746,
194
+ "learning_rate": 0.00016914062500000002,
195
+ "loss": 0.5885,
196
  "step": 240
197
  },
198
  {
199
  "epoch": 0.3255208333333333,
200
+ "grad_norm": 10.471748352050781,
201
+ "learning_rate": 0.0001678385416666667,
202
+ "loss": 0.7282,
203
  "step": 250
204
  },
205
  {
206
  "epoch": 0.3385416666666667,
207
+ "grad_norm": 14.036811828613281,
208
+ "learning_rate": 0.00016653645833333334,
209
+ "loss": 0.6805,
210
  "step": 260
211
  },
212
  {
213
  "epoch": 0.3515625,
214
+ "grad_norm": 4.001175880432129,
215
+ "learning_rate": 0.00016523437500000002,
216
+ "loss": 0.798,
217
  "step": 270
218
  },
219
  {
220
  "epoch": 0.3645833333333333,
221
+ "grad_norm": 7.733170032501221,
222
+ "learning_rate": 0.0001639322916666667,
223
+ "loss": 0.8256,
224
  "step": 280
225
  },
226
  {
227
  "epoch": 0.3776041666666667,
228
+ "grad_norm": 13.877567291259766,
229
+ "learning_rate": 0.00016263020833333334,
230
+ "loss": 0.8026,
231
  "step": 290
232
  },
233
  {
234
  "epoch": 0.390625,
235
+ "grad_norm": 6.910639762878418,
236
+ "learning_rate": 0.000161328125,
237
+ "loss": 0.5148,
238
  "step": 300
239
  },
240
  {
241
  "epoch": 0.390625,
242
+ "eval_accuracy": 0.8618320610687022,
243
+ "eval_loss": 0.447169691324234,
244
+ "eval_runtime": 75.8803,
245
+ "eval_samples_per_second": 17.264,
246
+ "eval_steps_per_second": 2.161,
247
  "step": 300
248
  },
249
  {
250
  "epoch": 0.4036458333333333,
251
+ "grad_norm": 8.244635581970215,
252
+ "learning_rate": 0.0001600260416666667,
253
+ "loss": 0.5423,
254
  "step": 310
255
  },
256
  {
257
  "epoch": 0.4166666666666667,
258
+ "grad_norm": 2.3077194690704346,
259
+ "learning_rate": 0.00015872395833333334,
260
+ "loss": 0.2741,
261
  "step": 320
262
  },
263
  {
264
  "epoch": 0.4296875,
265
+ "grad_norm": 7.123690128326416,
266
+ "learning_rate": 0.000157421875,
267
+ "loss": 0.6976,
268
  "step": 330
269
  },
270
  {
271
  "epoch": 0.4427083333333333,
272
+ "grad_norm": 5.03502082824707,
273
+ "learning_rate": 0.00015611979166666668,
274
+ "loss": 0.1724,
275
  "step": 340
276
  },
277
  {
278
  "epoch": 0.4557291666666667,
279
+ "grad_norm": 10.38921070098877,
280
+ "learning_rate": 0.00015481770833333333,
281
+ "loss": 0.5339,
282
  "step": 350
283
  },
284
  {
285
  "epoch": 0.46875,
286
+ "grad_norm": 15.144037246704102,
287
+ "learning_rate": 0.000153515625,
288
+ "loss": 0.7088,
289
  "step": 360
290
  },
291
  {
292
  "epoch": 0.4817708333333333,
293
+ "grad_norm": 12.410104751586914,
294
+ "learning_rate": 0.00015221354166666668,
295
+ "loss": 0.4032,
296
  "step": 370
297
  },
298
  {
299
  "epoch": 0.4947916666666667,
300
+ "grad_norm": 12.73668098449707,
301
+ "learning_rate": 0.00015091145833333333,
302
+ "loss": 0.608,
303
  "step": 380
304
  },
305
  {
306
  "epoch": 0.5078125,
307
+ "grad_norm": 11.428128242492676,
308
+ "learning_rate": 0.000149609375,
309
+ "loss": 0.4807,
310
  "step": 390
311
  },
312
  {
313
  "epoch": 0.5208333333333334,
314
+ "grad_norm": 1.5439820289611816,
315
+ "learning_rate": 0.00014830729166666668,
316
+ "loss": 0.4511,
317
  "step": 400
318
  },
319
  {
320
  "epoch": 0.5208333333333334,
321
+ "eval_accuracy": 0.8778625954198473,
322
+ "eval_loss": 0.47862082719802856,
323
+ "eval_runtime": 77.1268,
324
+ "eval_samples_per_second": 16.985,
325
+ "eval_steps_per_second": 2.126,
326
  "step": 400
327
  },
328
  {
329
  "epoch": 0.5338541666666666,
330
+ "grad_norm": 2.8190579414367676,
331
+ "learning_rate": 0.00014700520833333332,
332
+ "loss": 0.4902,
333
  "step": 410
334
  },
335
  {
336
  "epoch": 0.546875,
337
+ "grad_norm": 8.657638549804688,
338
+ "learning_rate": 0.000145703125,
339
+ "loss": 0.4453,
340
  "step": 420
341
  },
342
  {
343
  "epoch": 0.5598958333333334,
344
+ "grad_norm": 8.562153816223145,
345
+ "learning_rate": 0.00014440104166666667,
346
+ "loss": 0.4765,
347
  "step": 430
348
  },
349
  {
350
  "epoch": 0.5729166666666666,
351
+ "grad_norm": 10.900357246398926,
352
+ "learning_rate": 0.00014309895833333332,
353
+ "loss": 0.2885,
354
  "step": 440
355
  },
356
  {
357
  "epoch": 0.5859375,
358
+ "grad_norm": 1.7712116241455078,
359
+ "learning_rate": 0.000141796875,
360
+ "loss": 0.3364,
361
  "step": 450
362
  },
363
  {
364
  "epoch": 0.5989583333333334,
365
+ "grad_norm": 10.570148468017578,
366
+ "learning_rate": 0.00014049479166666667,
367
+ "loss": 0.7942,
368
  "step": 460
369
  },
370
  {
371
  "epoch": 0.6119791666666666,
372
+ "grad_norm": 3.171020984649658,
373
+ "learning_rate": 0.00013919270833333334,
374
+ "loss": 0.4288,
375
  "step": 470
376
  },
377
  {
378
  "epoch": 0.625,
379
+ "grad_norm": 5.04898738861084,
380
+ "learning_rate": 0.00013789062500000002,
381
+ "loss": 0.3496,
382
  "step": 480
383
  },
384
  {
385
  "epoch": 0.6380208333333334,
386
+ "grad_norm": 2.6155598163604736,
387
+ "learning_rate": 0.0001365885416666667,
388
+ "loss": 0.2348,
389
  "step": 490
390
  },
391
  {
392
  "epoch": 0.6510416666666666,
393
+ "grad_norm": 1.5771807432174683,
394
+ "learning_rate": 0.00013528645833333334,
395
+ "loss": 0.4874,
396
  "step": 500
397
  },
398
  {
399
  "epoch": 0.6510416666666666,
400
+ "eval_accuracy": 0.8862595419847328,
401
+ "eval_loss": 0.408286988735199,
402
+ "eval_runtime": 76.7885,
403
+ "eval_samples_per_second": 17.06,
404
+ "eval_steps_per_second": 2.136,
405
  "step": 500
406
  },
407
  {
408
  "epoch": 0.6640625,
409
+ "grad_norm": 1.126064419746399,
410
+ "learning_rate": 0.00013398437500000002,
411
+ "loss": 0.3431,
412
  "step": 510
413
  },
414
  {
415
  "epoch": 0.6770833333333334,
416
+ "grad_norm": 10.946215629577637,
417
+ "learning_rate": 0.0001326822916666667,
418
+ "loss": 0.5422,
419
  "step": 520
420
  },
421
  {
422
  "epoch": 0.6901041666666666,
423
+ "grad_norm": 10.152504920959473,
424
+ "learning_rate": 0.00013138020833333334,
425
+ "loss": 0.654,
426
  "step": 530
427
  },
428
  {
429
  "epoch": 0.703125,
430
+ "grad_norm": 10.196568489074707,
431
+ "learning_rate": 0.000130078125,
432
+ "loss": 0.3061,
433
  "step": 540
434
  },
435
  {
436
  "epoch": 0.7161458333333334,
437
+ "grad_norm": 18.616979598999023,
438
+ "learning_rate": 0.0001287760416666667,
439
+ "loss": 0.2963,
440
  "step": 550
441
  },
442
  {
443
  "epoch": 0.7291666666666666,
444
+ "grad_norm": 10.364749908447266,
445
+ "learning_rate": 0.00012747395833333333,
446
+ "loss": 0.5747,
447
  "step": 560
448
  },
449
  {
450
  "epoch": 0.7421875,
451
+ "grad_norm": 6.650425910949707,
452
+ "learning_rate": 0.000126171875,
453
+ "loss": 0.4145,
454
  "step": 570
455
  },
456
  {
457
  "epoch": 0.7552083333333334,
458
+ "grad_norm": 3.4692835807800293,
459
+ "learning_rate": 0.00012486979166666668,
460
+ "loss": 0.1143,
461
  "step": 580
462
  },
463
  {
464
  "epoch": 0.7682291666666666,
465
+ "grad_norm": 10.982894897460938,
466
+ "learning_rate": 0.00012356770833333333,
467
+ "loss": 0.2723,
468
  "step": 590
469
  },
470
  {
471
  "epoch": 0.78125,
472
+ "grad_norm": 13.571615219116211,
473
+ "learning_rate": 0.000122265625,
474
+ "loss": 0.5794,
475
  "step": 600
476
  },
477
  {
478
  "epoch": 0.78125,
479
+ "eval_accuracy": 0.8977099236641222,
480
+ "eval_loss": 0.3512656092643738,
481
+ "eval_runtime": 76.0132,
482
+ "eval_samples_per_second": 17.234,
483
+ "eval_steps_per_second": 2.158,
484
  "step": 600
485
  },
486
  {
487
  "epoch": 0.7942708333333334,
488
+ "grad_norm": 10.244173049926758,
489
+ "learning_rate": 0.00012096354166666668,
490
+ "loss": 0.1669,
491
  "step": 610
492
  },
493
  {
494
  "epoch": 0.8072916666666666,
495
+ "grad_norm": 9.398392677307129,
496
+ "learning_rate": 0.00011966145833333333,
497
+ "loss": 0.3262,
498
  "step": 620
499
  },
500
  {
501
  "epoch": 0.8203125,
502
+ "grad_norm": 8.680326461791992,
503
+ "learning_rate": 0.000118359375,
504
+ "loss": 0.3688,
505
  "step": 630
506
  },
507
  {
508
  "epoch": 0.8333333333333334,
509
+ "grad_norm": 2.6575496196746826,
510
+ "learning_rate": 0.00011705729166666668,
511
+ "loss": 0.3672,
512
  "step": 640
513
  },
514
  {
515
  "epoch": 0.8463541666666666,
516
+ "grad_norm": 10.259125709533691,
517
+ "learning_rate": 0.00011575520833333334,
518
+ "loss": 0.4929,
519
  "step": 650
520
  },
521
  {
522
  "epoch": 0.859375,
523
+ "grad_norm": 10.977476119995117,
524
+ "learning_rate": 0.00011445312500000001,
525
+ "loss": 0.2888,
526
  "step": 660
527
  },
528
  {
529
  "epoch": 0.8723958333333334,
530
+ "grad_norm": 0.2373678833246231,
531
+ "learning_rate": 0.00011315104166666667,
532
+ "loss": 0.1836,
533
  "step": 670
534
  },
535
  {
536
  "epoch": 0.8854166666666666,
537
+ "grad_norm": 8.054667472839355,
538
+ "learning_rate": 0.00011184895833333333,
539
+ "loss": 0.1984,
540
  "step": 680
541
  },
542
  {
543
  "epoch": 0.8984375,
544
+ "grad_norm": 4.308763027191162,
545
+ "learning_rate": 0.00011054687500000001,
546
+ "loss": 0.2421,
547
  "step": 690
548
  },
549
  {
550
  "epoch": 0.9114583333333334,
551
+ "grad_norm": 0.2590220272541046,
552
+ "learning_rate": 0.00010924479166666668,
553
+ "loss": 0.3324,
554
  "step": 700
555
  },
556
  {
557
  "epoch": 0.9114583333333334,
558
+ "eval_accuracy": 0.9282442748091603,
559
+ "eval_loss": 0.23950977623462677,
560
+ "eval_runtime": 76.106,
561
+ "eval_samples_per_second": 17.213,
562
+ "eval_steps_per_second": 2.155,
563
  "step": 700
564
  },
565
  {
566
  "epoch": 0.9244791666666666,
567
+ "grad_norm": 11.796812057495117,
568
+ "learning_rate": 0.00010794270833333333,
569
+ "loss": 0.4767,
570
  "step": 710
571
  },
572
  {
573
  "epoch": 0.9375,
574
+ "grad_norm": 14.937353134155273,
575
+ "learning_rate": 0.000106640625,
576
+ "loss": 0.4462,
577
  "step": 720
578
  },
579
  {
580
  "epoch": 0.9505208333333334,
581
+ "grad_norm": 2.598228931427002,
582
+ "learning_rate": 0.00010533854166666668,
583
+ "loss": 0.1408,
584
  "step": 730
585
  },
586
  {
587
  "epoch": 0.9635416666666666,
588
+ "grad_norm": 7.975482940673828,
589
+ "learning_rate": 0.00010403645833333333,
590
+ "loss": 0.3842,
591
  "step": 740
592
  },
593
  {
594
  "epoch": 0.9765625,
595
+ "grad_norm": 13.985623359680176,
596
+ "learning_rate": 0.000102734375,
597
+ "loss": 0.2015,
598
  "step": 750
599
  },
600
  {
601
  "epoch": 0.9895833333333334,
602
+ "grad_norm": 6.4967169761657715,
603
+ "learning_rate": 0.00010143229166666668,
604
+ "loss": 0.1178,
605
  "step": 760
606
  },
607
  {
608
+ "epoch": 1.0026041666666667,
609
+ "grad_norm": 2.3705174922943115,
610
+ "learning_rate": 0.00010013020833333334,
611
+ "loss": 0.3769,
612
+ "step": 770
613
+ },
614
+ {
615
+ "epoch": 1.015625,
616
+ "grad_norm": 1.5413340330123901,
617
+ "learning_rate": 9.8828125e-05,
618
+ "loss": 0.0929,
619
+ "step": 780
620
+ },
621
+ {
622
+ "epoch": 1.0286458333333333,
623
+ "grad_norm": 0.045080412179231644,
624
+ "learning_rate": 9.752604166666667e-05,
625
+ "loss": 0.1167,
626
+ "step": 790
627
+ },
628
+ {
629
+ "epoch": 1.0416666666666667,
630
+ "grad_norm": 0.6813530921936035,
631
+ "learning_rate": 9.622395833333335e-05,
632
+ "loss": 0.0975,
633
+ "step": 800
634
+ },
635
+ {
636
+ "epoch": 1.0416666666666667,
637
+ "eval_accuracy": 0.9473282442748091,
638
+ "eval_loss": 0.2091217041015625,
639
+ "eval_runtime": 76.9014,
640
+ "eval_samples_per_second": 17.035,
641
+ "eval_steps_per_second": 2.133,
642
+ "step": 800
643
+ },
644
+ {
645
+ "epoch": 1.0546875,
646
+ "grad_norm": 0.1403409093618393,
647
+ "learning_rate": 9.492187500000001e-05,
648
+ "loss": 0.1571,
649
+ "step": 810
650
+ },
651
+ {
652
+ "epoch": 1.0677083333333333,
653
+ "grad_norm": 0.45783254504203796,
654
+ "learning_rate": 9.361979166666667e-05,
655
+ "loss": 0.0216,
656
+ "step": 820
657
+ },
658
+ {
659
+ "epoch": 1.0807291666666667,
660
+ "grad_norm": 8.578229904174805,
661
+ "learning_rate": 9.231770833333334e-05,
662
+ "loss": 0.039,
663
+ "step": 830
664
+ },
665
+ {
666
+ "epoch": 1.09375,
667
+ "grad_norm": 10.040135383605957,
668
+ "learning_rate": 9.1015625e-05,
669
+ "loss": 0.1932,
670
+ "step": 840
671
+ },
672
+ {
673
+ "epoch": 1.1067708333333333,
674
+ "grad_norm": 1.2970826625823975,
675
+ "learning_rate": 8.971354166666667e-05,
676
+ "loss": 0.0537,
677
+ "step": 850
678
+ },
679
+ {
680
+ "epoch": 1.1197916666666667,
681
+ "grad_norm": 0.9889762997627258,
682
+ "learning_rate": 8.841145833333334e-05,
683
+ "loss": 0.0471,
684
+ "step": 860
685
+ },
686
+ {
687
+ "epoch": 1.1328125,
688
+ "grad_norm": 0.07918990403413773,
689
+ "learning_rate": 8.7109375e-05,
690
+ "loss": 0.2681,
691
+ "step": 870
692
+ },
693
+ {
694
+ "epoch": 1.1458333333333333,
695
+ "grad_norm": 0.010387329384684563,
696
+ "learning_rate": 8.580729166666666e-05,
697
+ "loss": 0.2494,
698
+ "step": 880
699
+ },
700
+ {
701
+ "epoch": 1.1588541666666667,
702
+ "grad_norm": 10.086416244506836,
703
+ "learning_rate": 8.450520833333334e-05,
704
+ "loss": 0.2706,
705
+ "step": 890
706
+ },
707
+ {
708
+ "epoch": 1.171875,
709
+ "grad_norm": 0.24107152223587036,
710
+ "learning_rate": 8.3203125e-05,
711
+ "loss": 0.0579,
712
+ "step": 900
713
+ },
714
+ {
715
+ "epoch": 1.171875,
716
+ "eval_accuracy": 0.9419847328244275,
717
+ "eval_loss": 0.19194655120372772,
718
+ "eval_runtime": 77.4264,
719
+ "eval_samples_per_second": 16.919,
720
+ "eval_steps_per_second": 2.118,
721
+ "step": 900
722
+ },
723
+ {
724
+ "epoch": 1.1848958333333333,
725
+ "grad_norm": 8.108233451843262,
726
+ "learning_rate": 8.190104166666667e-05,
727
+ "loss": 0.052,
728
+ "step": 910
729
+ },
730
+ {
731
+ "epoch": 1.1979166666666667,
732
+ "grad_norm": 8.147061347961426,
733
+ "learning_rate": 8.059895833333335e-05,
734
+ "loss": 0.1775,
735
+ "step": 920
736
+ },
737
+ {
738
+ "epoch": 1.2109375,
739
+ "grad_norm": 9.907308578491211,
740
+ "learning_rate": 7.929687500000001e-05,
741
+ "loss": 0.2054,
742
+ "step": 930
743
+ },
744
+ {
745
+ "epoch": 1.2239583333333333,
746
+ "grad_norm": 0.03491589426994324,
747
+ "learning_rate": 7.799479166666667e-05,
748
+ "loss": 0.1212,
749
+ "step": 940
750
+ },
751
+ {
752
+ "epoch": 1.2369791666666667,
753
+ "grad_norm": 14.554330825805664,
754
+ "learning_rate": 7.669270833333334e-05,
755
+ "loss": 0.0365,
756
+ "step": 950
757
+ },
758
+ {
759
+ "epoch": 1.25,
760
+ "grad_norm": 6.551287651062012,
761
+ "learning_rate": 7.5390625e-05,
762
+ "loss": 0.0244,
763
+ "step": 960
764
+ },
765
+ {
766
+ "epoch": 1.2630208333333333,
767
+ "grad_norm": 0.03951248526573181,
768
+ "learning_rate": 7.408854166666667e-05,
769
+ "loss": 0.0573,
770
+ "step": 970
771
+ },
772
+ {
773
+ "epoch": 1.2760416666666667,
774
+ "grad_norm": 0.014379375614225864,
775
+ "learning_rate": 7.278645833333334e-05,
776
+ "loss": 0.0535,
777
+ "step": 980
778
+ },
779
+ {
780
+ "epoch": 1.2890625,
781
+ "grad_norm": 8.54177474975586,
782
+ "learning_rate": 7.1484375e-05,
783
+ "loss": 0.1362,
784
+ "step": 990
785
+ },
786
+ {
787
+ "epoch": 1.3020833333333333,
788
+ "grad_norm": 3.608940839767456,
789
+ "learning_rate": 7.018229166666666e-05,
790
+ "loss": 0.2113,
791
+ "step": 1000
792
+ },
793
+ {
794
+ "epoch": 1.3020833333333333,
795
+ "eval_accuracy": 0.9610687022900763,
796
+ "eval_loss": 0.17562778294086456,
797
+ "eval_runtime": 77.267,
798
+ "eval_samples_per_second": 16.954,
799
+ "eval_steps_per_second": 2.123,
800
+ "step": 1000
801
+ },
802
+ {
803
+ "epoch": 1.3151041666666667,
804
+ "grad_norm": 0.4334266185760498,
805
+ "learning_rate": 6.888020833333334e-05,
806
+ "loss": 0.0837,
807
+ "step": 1010
808
+ },
809
+ {
810
+ "epoch": 1.328125,
811
+ "grad_norm": 1.7467626333236694,
812
+ "learning_rate": 6.7578125e-05,
813
+ "loss": 0.1298,
814
+ "step": 1020
815
+ },
816
+ {
817
+ "epoch": 1.3411458333333333,
818
+ "grad_norm": 0.09293239563703537,
819
+ "learning_rate": 6.627604166666667e-05,
820
+ "loss": 0.0307,
821
+ "step": 1030
822
+ },
823
+ {
824
+ "epoch": 1.3541666666666667,
825
+ "grad_norm": 0.6930071711540222,
826
+ "learning_rate": 6.497395833333335e-05,
827
+ "loss": 0.1656,
828
+ "step": 1040
829
+ },
830
+ {
831
+ "epoch": 1.3671875,
832
+ "grad_norm": 0.061571307480335236,
833
+ "learning_rate": 6.367187500000001e-05,
834
+ "loss": 0.0357,
835
+ "step": 1050
836
+ },
837
+ {
838
+ "epoch": 1.3802083333333333,
839
+ "grad_norm": 0.14721141755580902,
840
+ "learning_rate": 6.236979166666667e-05,
841
+ "loss": 0.0677,
842
+ "step": 1060
843
+ },
844
+ {
845
+ "epoch": 1.3932291666666667,
846
+ "grad_norm": 0.015600386075675488,
847
+ "learning_rate": 6.106770833333334e-05,
848
+ "loss": 0.0887,
849
+ "step": 1070
850
+ },
851
+ {
852
+ "epoch": 1.40625,
853
+ "grad_norm": 0.025986164808273315,
854
+ "learning_rate": 5.9765625000000004e-05,
855
+ "loss": 0.0937,
856
+ "step": 1080
857
+ },
858
+ {
859
+ "epoch": 1.4192708333333333,
860
+ "grad_norm": 13.869457244873047,
861
+ "learning_rate": 5.8463541666666665e-05,
862
+ "loss": 0.1568,
863
+ "step": 1090
864
+ },
865
+ {
866
+ "epoch": 1.4322916666666667,
867
+ "grad_norm": 0.11318224668502808,
868
+ "learning_rate": 5.716145833333334e-05,
869
+ "loss": 0.0301,
870
+ "step": 1100
871
+ },
872
+ {
873
+ "epoch": 1.4322916666666667,
874
+ "eval_accuracy": 0.966412213740458,
875
+ "eval_loss": 0.1411714106798172,
876
+ "eval_runtime": 76.9438,
877
+ "eval_samples_per_second": 17.025,
878
+ "eval_steps_per_second": 2.131,
879
+ "step": 1100
880
+ },
881
+ {
882
+ "epoch": 1.4453125,
883
+ "grad_norm": 5.520286560058594,
884
+ "learning_rate": 5.5859375e-05,
885
+ "loss": 0.0151,
886
+ "step": 1110
887
+ },
888
+ {
889
+ "epoch": 1.4583333333333333,
890
+ "grad_norm": 9.024094581604004,
891
+ "learning_rate": 5.455729166666667e-05,
892
+ "loss": 0.1358,
893
+ "step": 1120
894
+ },
895
+ {
896
+ "epoch": 1.4713541666666667,
897
+ "grad_norm": 8.022049903869629,
898
+ "learning_rate": 5.3255208333333336e-05,
899
+ "loss": 0.0736,
900
+ "step": 1130
901
+ },
902
+ {
903
+ "epoch": 1.484375,
904
+ "grad_norm": 0.03531012311577797,
905
+ "learning_rate": 5.1953125000000004e-05,
906
+ "loss": 0.0978,
907
+ "step": 1140
908
+ },
909
+ {
910
+ "epoch": 1.4973958333333333,
911
+ "grad_norm": 0.30647599697113037,
912
+ "learning_rate": 5.0651041666666665e-05,
913
+ "loss": 0.0766,
914
+ "step": 1150
915
+ },
916
+ {
917
+ "epoch": 1.5104166666666665,
918
+ "grad_norm": 0.5959821939468384,
919
+ "learning_rate": 4.934895833333333e-05,
920
+ "loss": 0.0845,
921
+ "step": 1160
922
+ },
923
+ {
924
+ "epoch": 1.5234375,
925
+ "grad_norm": 0.040372032672166824,
926
+ "learning_rate": 4.8046875e-05,
927
+ "loss": 0.0896,
928
+ "step": 1170
929
+ },
930
+ {
931
+ "epoch": 1.5364583333333335,
932
+ "grad_norm": 0.016574544832110405,
933
+ "learning_rate": 4.674479166666667e-05,
934
+ "loss": 0.087,
935
+ "step": 1180
936
+ },
937
+ {
938
+ "epoch": 1.5494791666666665,
939
+ "grad_norm": 3.529259204864502,
940
+ "learning_rate": 4.5442708333333336e-05,
941
+ "loss": 0.0194,
942
+ "step": 1190
943
+ },
944
+ {
945
+ "epoch": 1.5625,
946
+ "grad_norm": 0.06897322833538055,
947
+ "learning_rate": 4.4140625000000004e-05,
948
+ "loss": 0.0534,
949
+ "step": 1200
950
+ },
951
+ {
952
+ "epoch": 1.5625,
953
+ "eval_accuracy": 0.9687022900763359,
954
+ "eval_loss": 0.13458263874053955,
955
+ "eval_runtime": 75.3914,
956
+ "eval_samples_per_second": 17.376,
957
+ "eval_steps_per_second": 2.175,
958
+ "step": 1200
959
+ },
960
+ {
961
+ "epoch": 1.5755208333333335,
962
+ "grad_norm": 0.307174414396286,
963
+ "learning_rate": 4.283854166666667e-05,
964
+ "loss": 0.0311,
965
+ "step": 1210
966
+ },
967
+ {
968
+ "epoch": 1.5885416666666665,
969
+ "grad_norm": 0.02322992868721485,
970
+ "learning_rate": 4.153645833333333e-05,
971
+ "loss": 0.1793,
972
+ "step": 1220
973
+ },
974
+ {
975
+ "epoch": 1.6015625,
976
+ "grad_norm": 0.014354332350194454,
977
+ "learning_rate": 4.0234375e-05,
978
+ "loss": 0.0013,
979
+ "step": 1230
980
+ },
981
+ {
982
+ "epoch": 1.6145833333333335,
983
+ "grad_norm": 0.01764397881925106,
984
+ "learning_rate": 3.893229166666667e-05,
985
+ "loss": 0.0435,
986
+ "step": 1240
987
+ },
988
+ {
989
+ "epoch": 1.6276041666666665,
990
+ "grad_norm": 0.17532891035079956,
991
+ "learning_rate": 3.7630208333333336e-05,
992
+ "loss": 0.0829,
993
+ "step": 1250
994
+ },
995
+ {
996
+ "epoch": 1.640625,
997
+ "grad_norm": 13.797767639160156,
998
+ "learning_rate": 3.6328125000000004e-05,
999
+ "loss": 0.1418,
1000
+ "step": 1260
1001
+ },
1002
+ {
1003
+ "epoch": 1.6536458333333335,
1004
+ "grad_norm": 0.02218351885676384,
1005
+ "learning_rate": 3.502604166666667e-05,
1006
+ "loss": 0.0241,
1007
+ "step": 1270
1008
+ },
1009
+ {
1010
+ "epoch": 1.6666666666666665,
1011
+ "grad_norm": 0.04145214706659317,
1012
+ "learning_rate": 3.372395833333333e-05,
1013
+ "loss": 0.004,
1014
+ "step": 1280
1015
+ },
1016
+ {
1017
+ "epoch": 1.6796875,
1018
+ "grad_norm": 3.2447264194488525,
1019
+ "learning_rate": 3.2421875e-05,
1020
+ "loss": 0.0053,
1021
+ "step": 1290
1022
+ },
1023
+ {
1024
+ "epoch": 1.6927083333333335,
1025
+ "grad_norm": 11.00242805480957,
1026
+ "learning_rate": 3.111979166666667e-05,
1027
+ "loss": 0.0868,
1028
+ "step": 1300
1029
+ },
1030
+ {
1031
+ "epoch": 1.6927083333333335,
1032
+ "eval_accuracy": 0.9687022900763359,
1033
+ "eval_loss": 0.12921789288520813,
1034
+ "eval_runtime": 76.1446,
1035
+ "eval_samples_per_second": 17.204,
1036
+ "eval_steps_per_second": 2.154,
1037
+ "step": 1300
1038
+ },
1039
+ {
1040
+ "epoch": 1.7057291666666665,
1041
+ "grad_norm": 0.017809266224503517,
1042
+ "learning_rate": 2.9817708333333332e-05,
1043
+ "loss": 0.0474,
1044
+ "step": 1310
1045
+ },
1046
+ {
1047
+ "epoch": 1.71875,
1048
+ "grad_norm": 0.02033165469765663,
1049
+ "learning_rate": 2.8515625e-05,
1050
+ "loss": 0.1071,
1051
+ "step": 1320
1052
+ },
1053
+ {
1054
+ "epoch": 1.7317708333333335,
1055
+ "grad_norm": 0.022759564220905304,
1056
+ "learning_rate": 2.721354166666667e-05,
1057
+ "loss": 0.0824,
1058
+ "step": 1330
1059
+ },
1060
+ {
1061
+ "epoch": 1.7447916666666665,
1062
+ "grad_norm": 0.019711025059223175,
1063
+ "learning_rate": 2.5911458333333332e-05,
1064
+ "loss": 0.0616,
1065
+ "step": 1340
1066
+ },
1067
+ {
1068
+ "epoch": 1.7578125,
1069
+ "grad_norm": 0.11359129846096039,
1070
+ "learning_rate": 2.4609375e-05,
1071
+ "loss": 0.0106,
1072
+ "step": 1350
1073
+ },
1074
+ {
1075
+ "epoch": 1.7708333333333335,
1076
+ "grad_norm": 0.09237557649612427,
1077
+ "learning_rate": 2.3307291666666668e-05,
1078
+ "loss": 0.0129,
1079
+ "step": 1360
1080
+ },
1081
+ {
1082
+ "epoch": 1.7838541666666665,
1083
+ "grad_norm": 0.007784575689584017,
1084
+ "learning_rate": 2.2005208333333336e-05,
1085
+ "loss": 0.0877,
1086
+ "step": 1370
1087
+ },
1088
+ {
1089
+ "epoch": 1.796875,
1090
+ "grad_norm": 0.009522438049316406,
1091
+ "learning_rate": 2.0703125e-05,
1092
+ "loss": 0.0095,
1093
+ "step": 1380
1094
+ },
1095
+ {
1096
+ "epoch": 1.8098958333333335,
1097
+ "grad_norm": 0.009628471918404102,
1098
+ "learning_rate": 1.9401041666666668e-05,
1099
+ "loss": 0.0038,
1100
+ "step": 1390
1101
+ },
1102
+ {
1103
+ "epoch": 1.8229166666666665,
1104
+ "grad_norm": 0.7344593405723572,
1105
+ "learning_rate": 1.8098958333333336e-05,
1106
+ "loss": 0.0623,
1107
+ "step": 1400
1108
+ },
1109
+ {
1110
+ "epoch": 1.8229166666666665,
1111
+ "eval_accuracy": 0.9763358778625955,
1112
+ "eval_loss": 0.10858321189880371,
1113
+ "eval_runtime": 77.5151,
1114
+ "eval_samples_per_second": 16.9,
1115
+ "eval_steps_per_second": 2.116,
1116
+ "step": 1400
1117
+ },
1118
+ {
1119
+ "epoch": 1.8359375,
1120
+ "grad_norm": 3.2703933715820312,
1121
+ "learning_rate": 1.6796875e-05,
1122
+ "loss": 0.0251,
1123
+ "step": 1410
1124
+ },
1125
+ {
1126
+ "epoch": 1.8489583333333335,
1127
+ "grad_norm": 0.013623889535665512,
1128
+ "learning_rate": 1.5494791666666668e-05,
1129
+ "loss": 0.0583,
1130
+ "step": 1420
1131
+ },
1132
+ {
1133
+ "epoch": 1.8619791666666665,
1134
+ "grad_norm": 14.402461051940918,
1135
+ "learning_rate": 1.4192708333333336e-05,
1136
+ "loss": 0.1874,
1137
+ "step": 1430
1138
+ },
1139
+ {
1140
+ "epoch": 1.875,
1141
+ "grad_norm": 0.14863599836826324,
1142
+ "learning_rate": 1.2890625e-05,
1143
+ "loss": 0.0116,
1144
+ "step": 1440
1145
+ },
1146
+ {
1147
+ "epoch": 1.8880208333333335,
1148
+ "grad_norm": 0.21350590884685516,
1149
+ "learning_rate": 1.1588541666666668e-05,
1150
+ "loss": 0.0009,
1151
+ "step": 1450
1152
+ },
1153
+ {
1154
+ "epoch": 1.9010416666666665,
1155
+ "grad_norm": 2.0455312728881836,
1156
+ "learning_rate": 1.0286458333333334e-05,
1157
+ "loss": 0.055,
1158
+ "step": 1460
1159
+ },
1160
+ {
1161
+ "epoch": 1.9140625,
1162
+ "grad_norm": 0.020870625972747803,
1163
+ "learning_rate": 8.984375e-06,
1164
+ "loss": 0.1927,
1165
+ "step": 1470
1166
+ },
1167
+ {
1168
+ "epoch": 1.9270833333333335,
1169
+ "grad_norm": 0.04342105984687805,
1170
+ "learning_rate": 7.682291666666668e-06,
1171
+ "loss": 0.0033,
1172
+ "step": 1480
1173
+ },
1174
+ {
1175
+ "epoch": 1.9401041666666665,
1176
+ "grad_norm": 0.010561387054622173,
1177
+ "learning_rate": 6.380208333333333e-06,
1178
+ "loss": 0.0465,
1179
+ "step": 1490
1180
+ },
1181
+ {
1182
+ "epoch": 1.953125,
1183
+ "grad_norm": 0.024927057325839996,
1184
+ "learning_rate": 5.078125000000001e-06,
1185
+ "loss": 0.1078,
1186
+ "step": 1500
1187
+ },
1188
+ {
1189
+ "epoch": 1.953125,
1190
+ "eval_accuracy": 0.9763358778625955,
1191
+ "eval_loss": 0.09990814328193665,
1192
+ "eval_runtime": 76.08,
1193
+ "eval_samples_per_second": 17.219,
1194
+ "eval_steps_per_second": 2.156,
1195
+ "step": 1500
1196
+ },
1197
+ {
1198
+ "epoch": 1.9661458333333335,
1199
+ "grad_norm": 9.230520248413086,
1200
+ "learning_rate": 3.7760416666666667e-06,
1201
+ "loss": 0.134,
1202
+ "step": 1510
1203
+ },
1204
+ {
1205
+ "epoch": 1.9791666666666665,
1206
+ "grad_norm": 0.05698850750923157,
1207
+ "learning_rate": 2.473958333333333e-06,
1208
+ "loss": 0.0115,
1209
+ "step": 1520
1210
+ },
1211
+ {
1212
+ "epoch": 1.9921875,
1213
+ "grad_norm": 0.005129971541464329,
1214
+ "learning_rate": 1.1718750000000001e-06,
1215
+ "loss": 0.0615,
1216
+ "step": 1530
1217
+ },
1218
+ {
1219
+ "epoch": 2.0,
1220
+ "step": 1536,
1221
+ "total_flos": 9.520992752534323e+17,
1222
+ "train_loss": 0.37781994496223587,
1223
+ "train_runtime": 2217.5006,
1224
+ "train_samples_per_second": 5.54,
1225
+ "train_steps_per_second": 0.693
1226
  }
1227
  ],
1228
  "logging_steps": 10,
1229
+ "max_steps": 1536,
1230
  "num_input_tokens_seen": 0,
1231
+ "num_train_epochs": 2,
1232
  "save_steps": 100,
1233
  "stateful_callbacks": {
1234
  "TrainerControl": {
 
1242
  "attributes": {}
1243
  }
1244
  },
1245
+ "total_flos": 9.520992752534323e+17,
1246
  "train_batch_size": 8,
1247
  "trial_name": null,
1248
  "trial_params": null