minpeter commited on
Commit
539539c
·
verified ·
1 Parent(s): 8a82363

Training in progress, step 100, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9e709ea6f76b0776c7bbe5eae80a3e9178a1c043e233fbaa34cd9bde90c821e2
3
  size 373077376
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9192a84227fca2aac03205fb395d6ce7c4837e98cd36fa369ddb920a8bff5939
3
  size 373077376
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f03c53c4589c3d523b6a9c7c3fdc019f7639c483159414c7257ab70520689c15
3
  size 422377867
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:591d7feb697303f84a724edf4dec4e8afa84368269c2c44266862f6235dde6a9
3
  size 422377867
last-checkpoint/rng_state_0.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:18bb6b6e7da6250d22c25b95c64287be4aea598d9d97ef67b0fd69b9be869ed7
3
+ size 15365
last-checkpoint/rng_state_1.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3cff16289615ba210b601be2162794d1949cb1d62132099a4cf62330c43649a5
3
+ size 15365
last-checkpoint/rng_state_2.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c6caa3980c911491b74ec2e96e48a78cd7c3365dd32116c61642a4b6839a2da1
3
+ size 15365
last-checkpoint/rng_state_3.pth ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4e93d0d6464a92d227e9235c134b2224cf28ea45ba375cf82e6949c632e2b0d5
3
+ size 15365
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:124f55b960efe2a7ce3398d1651bd3ad09df81f13a3e39e6091a372c5c008d2c
3
  size 1401
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c8f74ef64bb62eb0db7b90ee83cd7b2ecc127cfca56e27af0bc348a6066ee6ce
3
  size 1401
last-checkpoint/trainer_state.json CHANGED
@@ -2,7 +2,7 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.10384215991692627,
6
  "eval_steps": 100,
7
  "global_step": 100,
8
  "is_hyper_param_search": false,
@@ -10,716 +10,715 @@
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
- "epoch": 0.0010384215991692627,
14
- "grad_norm": 1.7265625,
15
  "learning_rate": 0.0,
16
- "loss": 10.8665,
17
  "step": 1
18
  },
19
  {
20
- "epoch": 0.0020768431983385254,
21
- "grad_norm": 1.78125,
22
- "learning_rate": 2.0408163265306123e-05,
23
- "loss": 10.8771,
24
  "step": 2
25
  },
26
  {
27
- "epoch": 0.003115264797507788,
28
- "grad_norm": 1.71875,
29
- "learning_rate": 4.0816326530612245e-05,
30
- "loss": 10.8809,
31
  "step": 3
32
  },
33
  {
34
- "epoch": 0.004153686396677051,
35
- "grad_norm": 1.6953125,
36
- "learning_rate": 6.122448979591836e-05,
37
- "loss": 10.881,
38
  "step": 4
39
  },
40
  {
41
- "epoch": 0.005192107995846314,
42
- "grad_norm": 1.7109375,
43
- "learning_rate": 8.163265306122449e-05,
44
- "loss": 10.8689,
45
  "step": 5
46
  },
47
  {
48
- "epoch": 0.006230529595015576,
49
- "grad_norm": 1.6015625,
50
- "learning_rate": 0.00010204081632653062,
51
- "loss": 10.8573,
52
  "step": 6
53
  },
54
  {
55
- "epoch": 0.007268951194184839,
56
- "grad_norm": 1.5390625,
57
- "learning_rate": 0.00012244897959183673,
58
- "loss": 10.8544,
59
  "step": 7
60
  },
61
  {
62
- "epoch": 0.008307372793354102,
63
- "grad_norm": 1.5234375,
64
- "learning_rate": 0.00014285714285714284,
65
- "loss": 10.828,
66
  "step": 8
67
  },
68
  {
69
- "epoch": 0.009345794392523364,
70
- "grad_norm": 1.7421875,
71
- "learning_rate": 0.00016326530612244898,
72
- "loss": 10.8025,
73
  "step": 9
74
  },
75
  {
76
- "epoch": 0.010384215991692628,
77
- "grad_norm": 1.6484375,
78
- "learning_rate": 0.00018367346938775512,
79
- "loss": 10.7755,
80
  "step": 10
81
  },
82
  {
83
- "epoch": 0.01142263759086189,
84
- "grad_norm": 1.890625,
85
- "learning_rate": 0.00020408163265306123,
86
- "loss": 10.762,
87
  "step": 11
88
  },
89
  {
90
- "epoch": 0.012461059190031152,
91
- "grad_norm": 1.859375,
92
- "learning_rate": 0.00022448979591836734,
93
- "loss": 10.7136,
94
  "step": 12
95
  },
96
  {
97
- "epoch": 0.013499480789200415,
98
- "grad_norm": 1.921875,
99
- "learning_rate": 0.00024489795918367346,
100
- "loss": 10.652,
101
  "step": 13
102
  },
103
  {
104
- "epoch": 0.014537902388369679,
105
- "grad_norm": 2.125,
106
- "learning_rate": 0.0002653061224489796,
107
- "loss": 10.5645,
108
  "step": 14
109
  },
110
  {
111
- "epoch": 0.01557632398753894,
112
- "grad_norm": 2.296875,
113
- "learning_rate": 0.0002857142857142857,
114
- "loss": 10.4862,
115
  "step": 15
116
  },
117
  {
118
- "epoch": 0.016614745586708203,
119
- "grad_norm": 2.390625,
120
- "learning_rate": 0.0003061224489795919,
121
- "loss": 10.4193,
122
  "step": 16
123
  },
124
  {
125
- "epoch": 0.017653167185877467,
126
- "grad_norm": 2.5,
127
- "learning_rate": 0.00032653061224489796,
128
- "loss": 10.2264,
129
  "step": 17
130
  },
131
  {
132
- "epoch": 0.018691588785046728,
133
- "grad_norm": 2.546875,
134
- "learning_rate": 0.0003469387755102041,
135
- "loss": 10.1162,
136
  "step": 18
137
  },
138
  {
139
- "epoch": 0.01973001038421599,
140
- "grad_norm": 2.734375,
141
- "learning_rate": 0.00036734693877551024,
142
- "loss": 9.9658,
143
  "step": 19
144
  },
145
  {
146
- "epoch": 0.020768431983385256,
147
- "grad_norm": 2.40625,
148
- "learning_rate": 0.0003877551020408163,
149
- "loss": 9.7941,
150
  "step": 20
151
  },
152
  {
153
- "epoch": 0.021806853582554516,
154
- "grad_norm": 2.34375,
155
- "learning_rate": 0.00040816326530612246,
156
- "loss": 9.5882,
157
  "step": 21
158
  },
159
  {
160
- "epoch": 0.02284527518172378,
161
- "grad_norm": 2.28125,
162
- "learning_rate": 0.00042857142857142855,
163
- "loss": 9.4191,
164
  "step": 22
165
  },
166
  {
167
- "epoch": 0.023883696780893044,
168
- "grad_norm": 2.078125,
169
- "learning_rate": 0.0004489795918367347,
170
- "loss": 9.2386,
171
  "step": 23
172
  },
173
  {
174
- "epoch": 0.024922118380062305,
175
- "grad_norm": 1.6328125,
176
- "learning_rate": 0.00046938775510204083,
177
- "loss": 9.1101,
178
  "step": 24
179
  },
180
  {
181
- "epoch": 0.02596053997923157,
182
- "grad_norm": 1.2890625,
183
- "learning_rate": 0.0004897959183673469,
184
- "loss": 8.9569,
185
  "step": 25
186
  },
187
  {
188
- "epoch": 0.02699896157840083,
189
- "grad_norm": 1.3671875,
190
- "learning_rate": 0.0005102040816326531,
191
- "loss": 8.8046,
192
  "step": 26
193
  },
194
  {
195
- "epoch": 0.028037383177570093,
196
- "grad_norm": 0.98046875,
197
- "learning_rate": 0.0005306122448979592,
198
- "loss": 8.6394,
199
  "step": 27
200
  },
201
  {
202
- "epoch": 0.029075804776739357,
203
- "grad_norm": 0.7578125,
204
- "learning_rate": 0.0005510204081632653,
205
- "loss": 8.5832,
206
  "step": 28
207
  },
208
  {
209
- "epoch": 0.030114226375908618,
210
- "grad_norm": 0.79296875,
211
- "learning_rate": 0.0005714285714285714,
212
- "loss": 8.4092,
213
  "step": 29
214
  },
215
  {
216
- "epoch": 0.03115264797507788,
217
- "grad_norm": 0.66015625,
218
- "learning_rate": 0.0005918367346938776,
219
- "loss": 8.364,
220
  "step": 30
221
  },
222
  {
223
- "epoch": 0.032191069574247146,
224
- "grad_norm": 0.875,
225
- "learning_rate": 0.0006122448979591838,
226
- "loss": 8.2433,
227
  "step": 31
228
  },
229
  {
230
- "epoch": 0.033229491173416406,
231
- "grad_norm": 8.875,
232
- "learning_rate": 0.0006326530612244898,
233
- "loss": 8.5265,
234
  "step": 32
235
  },
236
  {
237
- "epoch": 0.03426791277258567,
238
- "grad_norm": 0.73046875,
239
- "learning_rate": 0.0006530612244897959,
240
- "loss": 8.2092,
241
  "step": 33
242
  },
243
  {
244
- "epoch": 0.035306334371754934,
245
- "grad_norm": 0.70703125,
246
- "learning_rate": 0.000673469387755102,
247
- "loss": 8.2644,
248
  "step": 34
249
  },
250
  {
251
- "epoch": 0.036344755970924195,
252
- "grad_norm": 0.671875,
253
- "learning_rate": 0.0006938775510204082,
254
- "loss": 8.3096,
255
  "step": 35
256
  },
257
  {
258
- "epoch": 0.037383177570093455,
259
- "grad_norm": 0.71484375,
260
- "learning_rate": 0.0007142857142857143,
261
- "loss": 8.2509,
262
  "step": 36
263
  },
264
  {
265
- "epoch": 0.03842159916926272,
266
- "grad_norm": 0.7109375,
267
- "learning_rate": 0.0007346938775510205,
268
- "loss": 8.3452,
269
  "step": 37
270
  },
271
  {
272
- "epoch": 0.03946002076843198,
273
- "grad_norm": 0.5625,
274
- "learning_rate": 0.0007551020408163265,
275
- "loss": 8.1782,
276
  "step": 38
277
  },
278
  {
279
- "epoch": 0.040498442367601244,
280
- "grad_norm": 0.5390625,
281
- "learning_rate": 0.0007755102040816326,
282
- "loss": 8.2422,
283
  "step": 39
284
  },
285
  {
286
- "epoch": 0.04153686396677051,
287
- "grad_norm": 0.6640625,
288
- "learning_rate": 0.0007959183673469387,
289
- "loss": 8.2454,
290
  "step": 40
291
  },
292
  {
293
- "epoch": 0.04257528556593977,
294
- "grad_norm": 0.6328125,
295
- "learning_rate": 0.0008163265306122449,
296
- "loss": 8.1751,
297
  "step": 41
298
  },
299
  {
300
- "epoch": 0.04361370716510903,
301
- "grad_norm": 0.4609375,
302
- "learning_rate": 0.0008367346938775511,
303
- "loss": 8.1872,
304
  "step": 42
305
  },
306
  {
307
- "epoch": 0.0446521287642783,
308
- "grad_norm": 6.03125,
309
- "learning_rate": 0.0008571428571428571,
310
- "loss": 8.0279,
311
  "step": 43
312
  },
313
  {
314
- "epoch": 0.04569055036344756,
315
- "grad_norm": 0.57421875,
316
- "learning_rate": 0.0008775510204081633,
317
- "loss": 8.1868,
318
  "step": 44
319
  },
320
  {
321
- "epoch": 0.04672897196261682,
322
- "grad_norm": 1.640625,
323
- "learning_rate": 0.0008979591836734694,
324
- "loss": 8.1969,
325
  "step": 45
326
  },
327
  {
328
- "epoch": 0.04776739356178609,
329
- "grad_norm": 1.25,
330
- "learning_rate": 0.0009183673469387756,
331
- "loss": 8.1478,
332
  "step": 46
333
  },
334
  {
335
- "epoch": 0.04880581516095535,
336
- "grad_norm": 0.8984375,
337
- "learning_rate": 0.0009387755102040817,
338
- "loss": 8.1154,
339
  "step": 47
340
  },
341
  {
342
- "epoch": 0.04984423676012461,
343
- "grad_norm": 1.109375,
344
- "learning_rate": 0.0009591836734693877,
345
- "loss": 8.1156,
346
  "step": 48
347
  },
348
  {
349
- "epoch": 0.05088265835929388,
350
- "grad_norm": 1.328125,
351
- "learning_rate": 0.0009795918367346938,
352
- "loss": 8.0631,
353
  "step": 49
354
  },
355
  {
356
- "epoch": 0.05192107995846314,
357
- "grad_norm": 0.82421875,
358
- "learning_rate": 0.001,
359
- "loss": 8.0943,
360
  "step": 50
361
  },
362
  {
363
- "epoch": 0.0529595015576324,
364
- "grad_norm": 0.9140625,
365
- "learning_rate": 0.0009999970464322657,
366
- "loss": 7.9754,
367
  "step": 51
368
  },
369
  {
370
- "epoch": 0.05399792315680166,
371
- "grad_norm": 0.6953125,
372
- "learning_rate": 0.0009999881857639566,
373
- "loss": 8.0153,
374
  "step": 52
375
  },
376
  {
377
- "epoch": 0.055036344755970926,
378
- "grad_norm": 0.53125,
379
- "learning_rate": 0.0009999734180997555,
380
- "loss": 7.9965,
381
  "step": 53
382
  },
383
  {
384
- "epoch": 0.056074766355140186,
385
- "grad_norm": 0.66796875,
386
- "learning_rate": 0.0009999527436141311,
387
- "loss": 7.911,
388
  "step": 54
389
  },
390
  {
391
- "epoch": 0.05711318795430945,
392
- "grad_norm": 0.82421875,
393
- "learning_rate": 0.0009999261625513378,
394
- "loss": 7.9039,
395
  "step": 55
396
  },
397
  {
398
- "epoch": 0.058151609553478714,
399
- "grad_norm": 0.7421875,
400
- "learning_rate": 0.0009998936752254111,
401
- "loss": 7.9147,
402
  "step": 56
403
  },
404
  {
405
- "epoch": 0.059190031152647975,
406
- "grad_norm": 0.80859375,
407
- "learning_rate": 0.0009998552820201655,
408
- "loss": 7.9948,
409
  "step": 57
410
  },
411
  {
412
- "epoch": 0.060228452751817235,
413
- "grad_norm": 1.0546875,
414
- "learning_rate": 0.0009998109833891883,
415
- "loss": 7.9213,
416
  "step": 58
417
  },
418
  {
419
- "epoch": 0.0612668743509865,
420
- "grad_norm": 0.84375,
421
- "learning_rate": 0.0009997607798558359,
422
- "loss": 7.8629,
423
  "step": 59
424
  },
425
  {
426
- "epoch": 0.06230529595015576,
427
- "grad_norm": 1.0546875,
428
- "learning_rate": 0.0009997046720132262,
429
- "loss": 7.8418,
430
  "step": 60
431
  },
432
  {
433
- "epoch": 0.06334371754932502,
434
- "grad_norm": 0.7265625,
435
- "learning_rate": 0.0009996426605242323,
436
- "loss": 7.9071,
437
  "step": 61
438
  },
439
  {
440
- "epoch": 0.06438213914849429,
441
- "grad_norm": 1.0078125,
442
- "learning_rate": 0.0009995747461214752,
443
- "loss": 7.8148,
444
  "step": 62
445
  },
446
  {
447
- "epoch": 0.06542056074766354,
448
- "grad_norm": 0.82421875,
449
- "learning_rate": 0.0009995009296073138,
450
- "loss": 7.8949,
451
  "step": 63
452
  },
453
  {
454
- "epoch": 0.06645898234683281,
455
- "grad_norm": 0.8515625,
456
- "learning_rate": 0.0009994212118538365,
457
- "loss": 7.7507,
458
  "step": 64
459
  },
460
  {
461
- "epoch": 0.06749740394600208,
462
- "grad_norm": 0.74609375,
463
- "learning_rate": 0.00099933559380285,
464
- "loss": 7.8288,
465
  "step": 65
466
  },
467
  {
468
- "epoch": 0.06853582554517133,
469
- "grad_norm": 0.75390625,
470
- "learning_rate": 0.0009992440764658697,
471
- "loss": 7.6728,
472
  "step": 66
473
  },
474
  {
475
- "epoch": 0.0695742471443406,
476
- "grad_norm": 0.8984375,
477
- "learning_rate": 0.000999146660924106,
478
- "loss": 7.65,
479
  "step": 67
480
  },
481
  {
482
- "epoch": 0.07061266874350987,
483
- "grad_norm": 1.2890625,
484
- "learning_rate": 0.0009990433483284527,
485
- "loss": 7.5908,
486
  "step": 68
487
  },
488
  {
489
- "epoch": 0.07165109034267912,
490
- "grad_norm": 0.7109375,
491
- "learning_rate": 0.0009989341398994724,
492
- "loss": 7.5341,
493
  "step": 69
494
  },
495
  {
496
- "epoch": 0.07268951194184839,
497
- "grad_norm": 0.9375,
498
- "learning_rate": 0.0009988190369273832,
499
- "loss": 7.4824,
500
  "step": 70
501
  },
502
  {
503
- "epoch": 0.07372793354101766,
504
- "grad_norm": 0.91015625,
505
- "learning_rate": 0.000998698040772043,
506
- "loss": 7.489,
507
  "step": 71
508
  },
509
  {
510
- "epoch": 0.07476635514018691,
511
- "grad_norm": 1.0546875,
512
- "learning_rate": 0.000998571152862933,
513
- "loss": 7.3756,
514
  "step": 72
515
  },
516
  {
517
- "epoch": 0.07580477673935618,
518
- "grad_norm": 0.5625,
519
- "learning_rate": 0.0009984383746991417,
520
- "loss": 7.3947,
521
  "step": 73
522
  },
523
  {
524
- "epoch": 0.07684319833852545,
525
- "grad_norm": 0.6171875,
526
- "learning_rate": 0.0009982997078493456,
527
- "loss": 7.3367,
528
  "step": 74
529
  },
530
  {
531
- "epoch": 0.0778816199376947,
532
- "grad_norm": 0.90625,
533
- "learning_rate": 0.0009981551539517929,
534
- "loss": 7.359,
535
  "step": 75
536
  },
537
  {
538
- "epoch": 0.07892004153686397,
539
- "grad_norm": 0.74609375,
540
- "learning_rate": 0.0009980047147142824,
541
- "loss": 7.1188,
542
  "step": 76
543
  },
544
  {
545
- "epoch": 0.07995846313603323,
546
- "grad_norm": 0.66796875,
547
- "learning_rate": 0.0009978483919141441,
548
- "loss": 7.3683,
549
  "step": 77
550
  },
551
  {
552
- "epoch": 0.08099688473520249,
553
- "grad_norm": 0.92578125,
554
- "learning_rate": 0.0009976861873982176,
555
- "loss": 7.2359,
556
  "step": 78
557
  },
558
  {
559
- "epoch": 0.08203530633437175,
560
- "grad_norm": 1.46875,
561
- "learning_rate": 0.0009975181030828317,
562
- "loss": 7.1375,
563
  "step": 79
564
  },
565
  {
566
- "epoch": 0.08307372793354102,
567
- "grad_norm": 0.52734375,
568
- "learning_rate": 0.0009973441409537793,
569
- "loss": 7.0958,
570
  "step": 80
571
  },
572
  {
573
- "epoch": 0.08411214953271028,
574
- "grad_norm": 0.62890625,
575
- "learning_rate": 0.0009971643030662965,
576
- "loss": 7.1365,
577
  "step": 81
578
  },
579
  {
580
- "epoch": 0.08515057113187954,
581
- "grad_norm": 0.8046875,
582
- "learning_rate": 0.0009969785915450366,
583
- "loss": 7.122,
584
  "step": 82
585
  },
586
  {
587
- "epoch": 0.08618899273104881,
588
- "grad_norm": 1.0546875,
589
- "learning_rate": 0.0009967870085840463,
590
- "loss": 7.0849,
591
  "step": 83
592
  },
593
  {
594
- "epoch": 0.08722741433021806,
595
- "grad_norm": 0.458984375,
596
- "learning_rate": 0.000996589556446738,
597
- "loss": 7.0815,
598
  "step": 84
599
  },
600
  {
601
- "epoch": 0.08826583592938733,
602
- "grad_norm": 0.72265625,
603
- "learning_rate": 0.000996386237465865,
604
- "loss": 7.109,
605
  "step": 85
606
  },
607
  {
608
- "epoch": 0.0893042575285566,
609
- "grad_norm": 0.7734375,
610
- "learning_rate": 0.000996177054043493,
611
- "loss": 6.9565,
612
  "step": 86
613
  },
614
  {
615
- "epoch": 0.09034267912772585,
616
- "grad_norm": 0.609375,
617
- "learning_rate": 0.0009959620086509714,
618
- "loss": 7.0025,
619
  "step": 87
620
  },
621
  {
622
- "epoch": 0.09138110072689512,
623
- "grad_norm": 0.546875,
624
- "learning_rate": 0.0009957411038289047,
625
- "loss": 7.002,
626
  "step": 88
627
  },
628
  {
629
- "epoch": 0.09241952232606439,
630
- "grad_norm": 0.5078125,
631
- "learning_rate": 0.0009955143421871227,
632
- "loss": 6.6959,
633
  "step": 89
634
  },
635
  {
636
- "epoch": 0.09345794392523364,
637
- "grad_norm": 0.53515625,
638
- "learning_rate": 0.0009952817264046484,
639
- "loss": 6.7453,
640
  "step": 90
641
  },
642
  {
643
- "epoch": 0.09449636552440291,
644
- "grad_norm": 0.5546875,
645
- "learning_rate": 0.000995043259229668,
646
- "loss": 6.734,
647
  "step": 91
648
  },
649
  {
650
- "epoch": 0.09553478712357218,
651
- "grad_norm": 0.52734375,
652
- "learning_rate": 0.0009947989434794973,
653
- "loss": 6.8088,
654
  "step": 92
655
  },
656
  {
657
- "epoch": 0.09657320872274143,
658
- "grad_norm": 0.80859375,
659
- "learning_rate": 0.0009945487820405485,
660
- "loss": 6.8563,
661
  "step": 93
662
  },
663
  {
664
- "epoch": 0.0976116303219107,
665
- "grad_norm": 0.7734375,
666
- "learning_rate": 0.0009942927778682968,
667
- "loss": 6.5181,
668
  "step": 94
669
  },
670
  {
671
- "epoch": 0.09865005192107996,
672
- "grad_norm": 0.60546875,
673
- "learning_rate": 0.0009940309339872449,
674
- "loss": 6.8268,
675
  "step": 95
676
  },
677
  {
678
- "epoch": 0.09968847352024922,
679
- "grad_norm": 0.625,
680
- "learning_rate": 0.000993763253490887,
681
- "loss": 6.7739,
682
  "step": 96
683
  },
684
  {
685
- "epoch": 0.10072689511941849,
686
- "grad_norm": 0.54296875,
687
- "learning_rate": 0.0009934897395416737,
688
- "loss": 6.6782,
689
  "step": 97
690
  },
691
  {
692
- "epoch": 0.10176531671858775,
693
- "grad_norm": 0.5625,
694
- "learning_rate": 0.0009932103953709723,
695
- "loss": 6.727,
696
  "step": 98
697
  },
698
  {
699
- "epoch": 0.102803738317757,
700
- "grad_norm": 0.5625,
701
- "learning_rate": 0.0009929252242790309,
702
- "loss": 6.7222,
703
  "step": 99
704
  },
705
  {
706
- "epoch": 0.10384215991692627,
707
- "grad_norm": 0.5234375,
708
- "learning_rate": 0.0009926342296349379,
709
- "loss": 6.5565,
710
  "step": 100
711
  },
712
  {
713
- "epoch": 0.10384215991692627,
714
- "eval_loss": 6.583271503448486,
715
- "eval_runtime": 2.5831,
716
- "eval_samples_per_second": 6.194,
717
- "eval_steps_per_second": 0.774,
718
  "step": 100
719
  }
720
  ],
721
  "logging_steps": 1,
722
- "max_steps": 963,
723
  "num_input_tokens_seen": 0,
724
  "num_train_epochs": 1,
725
  "save_steps": 100,
@@ -735,7 +734,7 @@
735
  "attributes": {}
736
  }
737
  },
738
- "total_flos": 1.27361819344896e+16,
739
  "train_batch_size": 16,
740
  "trial_name": null,
741
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.4166666666666667,
6
  "eval_steps": 100,
7
  "global_step": 100,
8
  "is_hyper_param_search": false,
 
10
  "is_world_process_zero": true,
11
  "log_history": [
12
  {
13
+ "epoch": 0.004166666666666667,
14
+ "grad_norm": 1.1015625,
15
  "learning_rate": 0.0,
16
+ "loss": 10.881,
17
  "step": 1
18
  },
19
  {
20
+ "epoch": 0.008333333333333333,
21
+ "grad_norm": 1.0859375,
22
+ "learning_rate": 8.333333333333333e-05,
23
+ "loss": 10.8796,
24
  "step": 2
25
  },
26
  {
27
+ "epoch": 0.0125,
28
+ "grad_norm": 1.109375,
29
+ "learning_rate": 0.00016666666666666666,
30
+ "loss": 10.8717,
31
  "step": 3
32
  },
33
  {
34
+ "epoch": 0.016666666666666666,
35
+ "grad_norm": 1.1640625,
36
+ "learning_rate": 0.00025,
37
+ "loss": 10.8356,
38
  "step": 4
39
  },
40
  {
41
+ "epoch": 0.020833333333333332,
42
+ "grad_norm": 1.1640625,
43
+ "learning_rate": 0.0003333333333333333,
44
+ "loss": 10.7809,
45
  "step": 5
46
  },
47
  {
48
+ "epoch": 0.025,
49
+ "grad_norm": 1.4140625,
50
+ "learning_rate": 0.0004166666666666667,
51
+ "loss": 10.6851,
52
  "step": 6
53
  },
54
  {
55
+ "epoch": 0.029166666666666667,
56
+ "grad_norm": 1.828125,
57
+ "learning_rate": 0.0005,
58
+ "loss": 10.5276,
59
  "step": 7
60
  },
61
  {
62
+ "epoch": 0.03333333333333333,
63
+ "grad_norm": 3.0625,
64
+ "learning_rate": 0.0005833333333333334,
65
+ "loss": 10.3051,
66
  "step": 8
67
  },
68
  {
69
+ "epoch": 0.0375,
70
+ "grad_norm": 2.484375,
71
+ "learning_rate": 0.0006666666666666666,
72
+ "loss": 9.9923,
73
  "step": 9
74
  },
75
  {
76
+ "epoch": 0.041666666666666664,
77
+ "grad_norm": 2.171875,
78
+ "learning_rate": 0.00075,
79
+ "loss": 9.6341,
80
  "step": 10
81
  },
82
  {
83
+ "epoch": 0.04583333333333333,
84
+ "grad_norm": 1.78125,
85
+ "learning_rate": 0.0008333333333333334,
86
+ "loss": 9.2877,
87
  "step": 11
88
  },
89
  {
90
+ "epoch": 0.05,
91
+ "grad_norm": 1.21875,
92
+ "learning_rate": 0.0009166666666666666,
93
+ "loss": 8.9598,
94
  "step": 12
95
  },
96
  {
97
+ "epoch": 0.05416666666666667,
98
+ "grad_norm": 1.0625,
99
+ "learning_rate": 0.001,
100
+ "loss": 8.6453,
101
  "step": 13
102
  },
103
  {
104
+ "epoch": 0.058333333333333334,
105
+ "grad_norm": 1.921875,
106
+ "learning_rate": 0.0009999525361252997,
107
+ "loss": 8.3812,
108
  "step": 14
109
  },
110
  {
111
+ "epoch": 0.0625,
112
+ "grad_norm": 0.75,
113
+ "learning_rate": 0.0009998101535124758,
114
+ "loss": 8.3837,
115
  "step": 15
116
  },
117
  {
118
+ "epoch": 0.06666666666666667,
119
+ "grad_norm": 0.65234375,
120
+ "learning_rate": 0.0009995728791936504,
121
+ "loss": 8.2473,
122
  "step": 16
123
  },
124
  {
125
+ "epoch": 0.07083333333333333,
126
+ "grad_norm": 0.65234375,
127
+ "learning_rate": 0.000999240758216658,
128
+ "loss": 8.2098,
129
  "step": 17
130
  },
131
  {
132
+ "epoch": 0.075,
133
+ "grad_norm": 0.59375,
134
+ "learning_rate": 0.0009988138536364923,
135
+ "loss": 8.2186,
136
  "step": 18
137
  },
138
  {
139
+ "epoch": 0.07916666666666666,
140
+ "grad_norm": 0.62109375,
141
+ "learning_rate": 0.000998292246503335,
142
+ "loss": 8.1986,
143
  "step": 19
144
  },
145
  {
146
+ "epoch": 0.08333333333333333,
147
+ "grad_norm": 0.75,
148
+ "learning_rate": 0.0009976760358471686,
149
+ "loss": 8.1657,
150
  "step": 20
151
  },
152
  {
153
+ "epoch": 0.0875,
154
+ "grad_norm": 1.2421875,
155
+ "learning_rate": 0.0009969653386589748,
156
+ "loss": 8.2456,
157
  "step": 21
158
  },
159
  {
160
+ "epoch": 0.09166666666666666,
161
+ "grad_norm": 1.171875,
162
+ "learning_rate": 0.0009961602898685225,
163
+ "loss": 8.2377,
164
  "step": 22
165
  },
166
  {
167
+ "epoch": 0.09583333333333334,
168
+ "grad_norm": 0.68359375,
169
+ "learning_rate": 0.0009952610423187517,
170
+ "loss": 8.2126,
171
  "step": 23
172
  },
173
  {
174
+ "epoch": 0.1,
175
+ "grad_norm": 1.0390625,
176
+ "learning_rate": 0.000994267766736754,
177
+ "loss": 8.1222,
178
  "step": 24
179
  },
180
  {
181
+ "epoch": 0.10416666666666667,
182
+ "grad_norm": 3.78125,
183
+ "learning_rate": 0.0009931806517013613,
184
+ "loss": 8.1486,
185
  "step": 25
186
  },
187
  {
188
+ "epoch": 0.10833333333333334,
189
+ "grad_norm": 0.8203125,
190
+ "learning_rate": 0.00099199990360734,
191
+ "loss": 8.0777,
192
  "step": 26
193
  },
194
  {
195
+ "epoch": 0.1125,
196
+ "grad_norm": 1.5859375,
197
+ "learning_rate": 0.000990725746626209,
198
+ "loss": 8.0794,
199
  "step": 27
200
  },
201
  {
202
+ "epoch": 0.11666666666666667,
203
+ "grad_norm": 1.078125,
204
+ "learning_rate": 0.0009893584226636774,
205
+ "loss": 8.0899,
206
  "step": 28
207
  },
208
  {
209
+ "epoch": 0.12083333333333333,
210
+ "grad_norm": 1.2265625,
211
+ "learning_rate": 0.0009878981913137178,
212
+ "loss": 8.0234,
213
  "step": 29
214
  },
215
  {
216
+ "epoch": 0.125,
217
+ "grad_norm": 0.9296875,
218
+ "learning_rate": 0.000986345329809282,
219
+ "loss": 7.9849,
220
  "step": 30
221
  },
222
  {
223
+ "epoch": 0.12916666666666668,
224
+ "grad_norm": 0.98828125,
225
+ "learning_rate": 0.0009847001329696653,
226
+ "loss": 7.9992,
227
  "step": 31
228
  },
229
  {
230
+ "epoch": 0.13333333333333333,
231
+ "grad_norm": 0.9140625,
232
+ "learning_rate": 0.0009829629131445341,
233
+ "loss": 7.9987,
234
  "step": 32
235
  },
236
  {
237
+ "epoch": 0.1375,
238
+ "grad_norm": 0.87890625,
239
+ "learning_rate": 0.0009811340001546253,
240
+ "loss": 7.8286,
241
  "step": 33
242
  },
243
  {
244
+ "epoch": 0.14166666666666666,
245
+ "grad_norm": 0.65625,
246
+ "learning_rate": 0.0009792137412291265,
247
+ "loss": 7.906,
248
  "step": 34
249
  },
250
  {
251
+ "epoch": 0.14583333333333334,
252
+ "grad_norm": 0.890625,
253
+ "learning_rate": 0.0009772025009397538,
254
+ "loss": 7.9067,
255
  "step": 35
256
  },
257
  {
258
+ "epoch": 0.15,
259
+ "grad_norm": 1.0,
260
+ "learning_rate": 0.0009751006611315356,
261
+ "loss": 7.8334,
262
  "step": 36
263
  },
264
  {
265
+ "epoch": 0.15416666666666667,
266
+ "grad_norm": 0.83984375,
267
+ "learning_rate": 0.0009729086208503173,
268
+ "loss": 7.7849,
269
  "step": 37
270
  },
271
  {
272
+ "epoch": 0.15833333333333333,
273
+ "grad_norm": 0.8125,
274
+ "learning_rate": 0.0009706267962669998,
275
+ "loss": 7.8273,
276
  "step": 38
277
  },
278
  {
279
+ "epoch": 0.1625,
280
+ "grad_norm": 0.84765625,
281
+ "learning_rate": 0.0009682556205985273,
282
+ "loss": 7.8163,
283
  "step": 39
284
  },
285
  {
286
+ "epoch": 0.16666666666666666,
287
+ "grad_norm": 0.83984375,
288
+ "learning_rate": 0.0009657955440256395,
289
+ "loss": 7.8286,
290
  "step": 40
291
  },
292
  {
293
+ "epoch": 0.17083333333333334,
294
+ "grad_norm": 0.765625,
295
+ "learning_rate": 0.0009632470336074008,
296
+ "loss": 7.6952,
297
  "step": 41
298
  },
299
  {
300
+ "epoch": 0.175,
301
+ "grad_norm": 0.8828125,
302
+ "learning_rate": 0.0009606105731925284,
303
+ "loss": 7.6126,
304
  "step": 42
305
  },
306
  {
307
+ "epoch": 0.17916666666666667,
308
+ "grad_norm": 0.73046875,
309
+ "learning_rate": 0.0009578866633275287,
310
+ "loss": 7.669,
311
  "step": 43
312
  },
313
  {
314
+ "epoch": 0.18333333333333332,
315
+ "grad_norm": 0.9296875,
316
+ "learning_rate": 0.0009550758211616684,
317
+ "loss": 7.6147,
318
  "step": 44
319
  },
320
  {
321
+ "epoch": 0.1875,
322
+ "grad_norm": 1.0234375,
323
+ "learning_rate": 0.0009521785803487888,
324
+ "loss": 7.5326,
325
  "step": 45
326
  },
327
  {
328
+ "epoch": 0.19166666666666668,
329
+ "grad_norm": 0.87109375,
330
+ "learning_rate": 0.0009491954909459895,
331
+ "loss": 7.6062,
332
  "step": 46
333
  },
334
  {
335
+ "epoch": 0.19583333333333333,
336
+ "grad_norm": 0.890625,
337
+ "learning_rate": 0.000946127119309197,
338
+ "loss": 7.5237,
339
  "step": 47
340
  },
341
  {
342
+ "epoch": 0.2,
343
+ "grad_norm": 0.9453125,
344
+ "learning_rate": 0.000942974047985639,
345
+ "loss": 7.3882,
346
  "step": 48
347
  },
348
  {
349
+ "epoch": 0.20416666666666666,
350
+ "grad_norm": 0.86328125,
351
+ "learning_rate": 0.0009397368756032445,
352
+ "loss": 7.3524,
353
  "step": 49
354
  },
355
  {
356
+ "epoch": 0.20833333333333334,
357
+ "grad_norm": 1.2109375,
358
+ "learning_rate": 0.0009364162167569907,
359
+ "loss": 7.3997,
360
  "step": 50
361
  },
362
  {
363
+ "epoch": 0.2125,
364
+ "grad_norm": 0.984375,
365
+ "learning_rate": 0.0009330127018922195,
366
+ "loss": 7.3773,
367
  "step": 51
368
  },
369
  {
370
+ "epoch": 0.21666666666666667,
371
+ "grad_norm": 1.0234375,
372
+ "learning_rate": 0.0009295269771849426,
373
+ "loss": 7.226,
374
  "step": 52
375
  },
376
  {
377
+ "epoch": 0.22083333333333333,
378
+ "grad_norm": 0.83203125,
379
+ "learning_rate": 0.0009259597044191636,
380
+ "loss": 7.1442,
381
  "step": 53
382
  },
383
  {
384
+ "epoch": 0.225,
385
+ "grad_norm": 0.7734375,
386
+ "learning_rate": 0.0009223115608612324,
387
+ "loss": 7.1719,
388
  "step": 54
389
  },
390
  {
391
+ "epoch": 0.22916666666666666,
392
+ "grad_norm": 0.70703125,
393
+ "learning_rate": 0.0009185832391312643,
394
+ "loss": 7.1881,
395
  "step": 55
396
  },
397
  {
398
+ "epoch": 0.23333333333333334,
399
+ "grad_norm": 0.7890625,
400
+ "learning_rate": 0.0009147754470716407,
401
+ "loss": 7.0652,
402
  "step": 56
403
  },
404
  {
405
+ "epoch": 0.2375,
406
+ "grad_norm": 0.90625,
407
+ "learning_rate": 0.0009108889076126225,
408
+ "loss": 7.0871,
409
  "step": 57
410
  },
411
  {
412
+ "epoch": 0.24166666666666667,
413
+ "grad_norm": 0.80859375,
414
+ "learning_rate": 0.0009069243586350975,
415
+ "loss": 7.0031,
416
  "step": 58
417
  },
418
  {
419
+ "epoch": 0.24583333333333332,
420
+ "grad_norm": 0.8984375,
421
+ "learning_rate": 0.0009028825528304891,
422
+ "loss": 6.9444,
423
  "step": 59
424
  },
425
  {
426
+ "epoch": 0.25,
427
+ "grad_norm": 0.83984375,
428
+ "learning_rate": 0.0008987642575578545,
429
+ "loss": 6.9711,
430
  "step": 60
431
  },
432
  {
433
+ "epoch": 0.25416666666666665,
434
+ "grad_norm": 0.78125,
435
+ "learning_rate": 0.0008945702546981969,
436
+ "loss": 6.9405,
437
  "step": 61
438
  },
439
  {
440
+ "epoch": 0.25833333333333336,
441
+ "grad_norm": 0.7421875,
442
+ "learning_rate": 0.0008903013405060211,
443
+ "loss": 6.8948,
444
  "step": 62
445
  },
446
  {
447
+ "epoch": 0.2625,
448
+ "grad_norm": 0.7890625,
449
+ "learning_rate": 0.0008859583254581605,
450
+ "loss": 6.7929,
451
  "step": 63
452
  },
453
  {
454
+ "epoch": 0.26666666666666666,
455
+ "grad_norm": 0.62890625,
456
+ "learning_rate": 0.0008815420340999033,
457
+ "loss": 6.7925,
458
  "step": 64
459
  },
460
  {
461
+ "epoch": 0.2708333333333333,
462
+ "grad_norm": 0.60546875,
463
+ "learning_rate": 0.0008770533048884482,
464
+ "loss": 6.6973,
465
  "step": 65
466
  },
467
  {
468
+ "epoch": 0.275,
469
+ "grad_norm": 0.75,
470
+ "learning_rate": 0.0008724929900337185,
471
+ "loss": 6.6246,
472
  "step": 66
473
  },
474
  {
475
+ "epoch": 0.2791666666666667,
476
+ "grad_norm": 1.015625,
477
+ "learning_rate": 0.0008678619553365659,
478
+ "loss": 6.5833,
479
  "step": 67
480
  },
481
  {
482
+ "epoch": 0.2833333333333333,
483
+ "grad_norm": 0.8671875,
484
+ "learning_rate": 0.0008631610800243925,
485
+ "loss": 6.6018,
486
  "step": 68
487
  },
488
  {
489
+ "epoch": 0.2875,
490
+ "grad_norm": 0.78125,
491
+ "learning_rate": 0.0008583912565842257,
492
+ "loss": 6.5557,
493
  "step": 69
494
  },
495
  {
496
+ "epoch": 0.2916666666666667,
497
+ "grad_norm": 0.79296875,
498
+ "learning_rate": 0.0008535533905932737,
499
+ "loss": 6.6141,
500
  "step": 70
501
  },
502
  {
503
+ "epoch": 0.29583333333333334,
504
+ "grad_norm": 0.6171875,
505
+ "learning_rate": 0.0008486484005469976,
506
+ "loss": 6.562,
507
  "step": 71
508
  },
509
  {
510
+ "epoch": 0.3,
511
+ "grad_norm": 0.5703125,
512
+ "learning_rate": 0.0008436772176847294,
513
+ "loss": 6.5793,
514
  "step": 72
515
  },
516
  {
517
+ "epoch": 0.30416666666666664,
518
+ "grad_norm": 0.55078125,
519
+ "learning_rate": 0.0008386407858128706,
520
+ "loss": 6.433,
521
  "step": 73
522
  },
523
  {
524
+ "epoch": 0.30833333333333335,
525
+ "grad_norm": 0.67578125,
526
+ "learning_rate": 0.0008335400611257067,
527
+ "loss": 6.4203,
528
  "step": 74
529
  },
530
  {
531
+ "epoch": 0.3125,
532
+ "grad_norm": 0.6640625,
533
+ "learning_rate": 0.0008283760120238673,
534
+ "loss": 6.5618,
535
  "step": 75
536
  },
537
  {
538
+ "epoch": 0.31666666666666665,
539
+ "grad_norm": 0.609375,
540
+ "learning_rate": 0.0008231496189304704,
541
+ "loss": 6.4164,
542
  "step": 76
543
  },
544
  {
545
+ "epoch": 0.32083333333333336,
546
+ "grad_norm": 0.64453125,
547
+ "learning_rate": 0.0008178618741049842,
548
+ "loss": 6.3843,
549
  "step": 77
550
  },
551
  {
552
+ "epoch": 0.325,
553
+ "grad_norm": 0.625,
554
+ "learning_rate": 0.0008125137814548394,
555
+ "loss": 6.3645,
556
  "step": 78
557
  },
558
  {
559
+ "epoch": 0.32916666666666666,
560
+ "grad_norm": 0.53125,
561
+ "learning_rate": 0.000807106356344834,
562
+ "loss": 6.3801,
563
  "step": 79
564
  },
565
  {
566
+ "epoch": 0.3333333333333333,
567
+ "grad_norm": 0.58203125,
568
+ "learning_rate": 0.0008016406254043594,
569
+ "loss": 6.3006,
570
  "step": 80
571
  },
572
  {
573
+ "epoch": 0.3375,
574
+ "grad_norm": 0.6015625,
575
+ "learning_rate": 0.00079611762633249,
576
+ "loss": 6.2757,
577
  "step": 81
578
  },
579
  {
580
+ "epoch": 0.3416666666666667,
581
+ "grad_norm": 1.0078125,
582
+ "learning_rate": 0.0007905384077009691,
583
+ "loss": 6.2913,
584
  "step": 82
585
  },
586
  {
587
+ "epoch": 0.3458333333333333,
588
+ "grad_norm": 0.462890625,
589
+ "learning_rate": 0.0007849040287551332,
590
+ "loss": 6.295,
591
  "step": 83
592
  },
593
  {
594
+ "epoch": 0.35,
595
+ "grad_norm": 0.66015625,
596
+ "learning_rate": 0.000779215559212807,
597
+ "loss": 6.2215,
598
  "step": 84
599
  },
600
  {
601
+ "epoch": 0.3541666666666667,
602
+ "grad_norm": 0.65234375,
603
+ "learning_rate": 0.0007734740790612135,
604
+ "loss": 6.2537,
605
  "step": 85
606
  },
607
  {
608
+ "epoch": 0.35833333333333334,
609
+ "grad_norm": 0.58984375,
610
+ "learning_rate": 0.0007676806783519304,
611
+ "loss": 6.2715,
612
  "step": 86
613
  },
614
  {
615
+ "epoch": 0.3625,
616
+ "grad_norm": 0.58984375,
617
+ "learning_rate": 0.000761836456993939,
618
+ "loss": 6.2149,
619
  "step": 87
620
  },
621
  {
622
+ "epoch": 0.36666666666666664,
623
+ "grad_norm": 0.59765625,
624
+ "learning_rate": 0.0007559425245448005,
625
+ "loss": 6.2037,
626
  "step": 88
627
  },
628
  {
629
+ "epoch": 0.37083333333333335,
630
+ "grad_norm": 0.67578125,
631
+ "learning_rate": 0.00075,
632
+ "loss": 6.2202,
633
  "step": 89
634
  },
635
  {
636
+ "epoch": 0.375,
637
+ "grad_norm": 0.65625,
638
+ "learning_rate": 0.0007440100115804991,
639
+ "loss": 6.2024,
640
  "step": 90
641
  },
642
  {
643
+ "epoch": 0.37916666666666665,
644
+ "grad_norm": 0.47265625,
645
+ "learning_rate": 0.0007379736965185368,
646
+ "loss": 6.2019,
647
  "step": 91
648
  },
649
  {
650
+ "epoch": 0.38333333333333336,
651
+ "grad_norm": 0.56640625,
652
+ "learning_rate": 0.0007318922008417203,
653
+ "loss": 6.1304,
654
  "step": 92
655
  },
656
  {
657
+ "epoch": 0.3875,
658
+ "grad_norm": 0.5390625,
659
+ "learning_rate": 0.0007257666791554447,
660
+ "loss": 6.0814,
661
  "step": 93
662
  },
663
  {
664
+ "epoch": 0.39166666666666666,
665
+ "grad_norm": 0.4921875,
666
+ "learning_rate": 0.0007195982944236852,
667
+ "loss": 6.1203,
668
  "step": 94
669
  },
670
  {
671
+ "epoch": 0.3958333333333333,
672
+ "grad_norm": 0.640625,
673
+ "learning_rate": 0.0007133882177482019,
674
+ "loss": 6.1719,
675
  "step": 95
676
  },
677
  {
678
+ "epoch": 0.4,
679
+ "grad_norm": 0.51953125,
680
+ "learning_rate": 0.0007071376281461994,
681
+ "loss": 5.9558,
682
  "step": 96
683
  },
684
  {
685
+ "epoch": 0.4041666666666667,
686
+ "grad_norm": 0.49609375,
687
+ "learning_rate": 0.0007008477123264848,
688
+ "loss": 6.1545,
689
  "step": 97
690
  },
691
  {
692
+ "epoch": 0.4083333333333333,
693
+ "grad_norm": 0.5234375,
694
+ "learning_rate": 0.000694519664464163,
695
+ "loss": 5.9916,
696
  "step": 98
697
  },
698
  {
699
+ "epoch": 0.4125,
700
+ "grad_norm": 0.453125,
701
+ "learning_rate": 0.0006881546859739178,
702
+ "loss": 6.0438,
703
  "step": 99
704
  },
705
  {
706
+ "epoch": 0.4166666666666667,
707
+ "grad_norm": 0.515625,
708
+ "learning_rate": 0.0006817539852819149,
709
+ "loss": 6.001,
710
  "step": 100
711
  },
712
  {
713
+ "epoch": 0.4166666666666667,
714
+ "eval_runtime": 0.9237,
715
+ "eval_samples_per_second": 17.321,
716
+ "eval_steps_per_second": 1.083,
 
717
  "step": 100
718
  }
719
  ],
720
  "logging_steps": 1,
721
+ "max_steps": 240,
722
  "num_input_tokens_seen": 0,
723
  "num_train_epochs": 1,
724
  "save_steps": 100,
 
734
  "attributes": {}
735
  }
736
  },
737
+ "total_flos": 5.09447277379584e+16,
738
  "train_batch_size": 16,
739
  "trial_name": null,
740
  "trial_params": null
last-checkpoint/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dc5a31b8ae5225fca43733042563fe6dbbeacbc0f16c9eff3b3cd7db55c1e18c
3
  size 5777
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cb23c7ba2f5151957c796dd5ebc30696f031660827ec28f130d474ca43c7179c
3
  size 5777