eekay commited on
Commit
30478b0
·
verified ·
1 Parent(s): 48e89c0

Training in progress, step 338, checkpoint

Browse files
checkpoint-338/adapter_config.json CHANGED
@@ -33,13 +33,13 @@
33
  "rank_pattern": {},
34
  "revision": null,
35
  "target_modules": [
36
- "gate_proj",
37
- "o_proj",
38
  "q_proj",
39
- "v_proj",
 
40
  "k_proj",
 
41
  "up_proj",
42
- "down_proj"
43
  ],
44
  "target_parameters": null,
45
  "task_type": "CAUSAL_LM",
 
33
  "rank_pattern": {},
34
  "revision": null,
35
  "target_modules": [
 
 
36
  "q_proj",
37
+ "down_proj",
38
+ "gate_proj",
39
  "k_proj",
40
+ "o_proj",
41
  "up_proj",
42
+ "v_proj"
43
  ],
44
  "target_parameters": null,
45
  "task_type": "CAUSAL_LM",
checkpoint-338/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:074fae3917a9af896b12d7b25128c89a50949a581dde6418407dc0473a53565f
3
  size 550593184
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:863cd485a07ec47beacb1d9c7a66d147bcef59ce4952b437e957c18fbd6aa8b9
3
  size 550593184
checkpoint-338/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b5c488a52cdf581baf9072ba15c6fcda8067f707bc190c69adde91c1f0d77551
3
  size 280349285
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:88bbc45fd5e1b603798197831427656851a891b7d9fc81e33d1cbabb829d972d
3
  size 280349285
checkpoint-338/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8f9eb7ed9496f1eabf84daf3ff6d17b429875c5b68e7e4060a97162f4057dd50
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6188fa82cfe12362753ceda20c0780cd93b0d548a6bce0d48ce1507f84a84360
3
  size 1465
checkpoint-338/trainer_state.json CHANGED
@@ -11,2416 +11,2416 @@
11
  "log_history": [
12
  {
13
  "epoch": 0.002962962962962963,
14
- "grad_norm": 11.747225761413574,
15
  "learning_rate": 0.0,
16
  "loss": 1.4603,
17
  "step": 1
18
  },
19
  {
20
  "epoch": 0.005925925925925926,
21
- "grad_norm": 12.557908058166504,
22
- "learning_rate": 8.000000000000001e-06,
23
  "loss": 1.662,
24
  "step": 2
25
  },
26
  {
27
  "epoch": 0.008888888888888889,
28
- "grad_norm": 10.49173355102539,
29
- "learning_rate": 1.6000000000000003e-05,
30
- "loss": 1.4669,
31
  "step": 3
32
  },
33
  {
34
  "epoch": 0.011851851851851851,
35
- "grad_norm": 7.624536991119385,
36
- "learning_rate": 2.4e-05,
37
- "loss": 1.1085,
38
  "step": 4
39
  },
40
  {
41
  "epoch": 0.014814814814814815,
42
- "grad_norm": 5.771530628204346,
43
- "learning_rate": 3.2000000000000005e-05,
44
- "loss": 0.648,
45
  "step": 5
46
  },
47
  {
48
  "epoch": 0.017777777777777778,
49
- "grad_norm": 6.592231273651123,
50
- "learning_rate": 4e-05,
51
- "loss": 0.534,
52
  "step": 6
53
  },
54
  {
55
  "epoch": 0.02074074074074074,
56
- "grad_norm": 3.5064260959625244,
57
- "learning_rate": 3.987987987987988e-05,
58
- "loss": 0.3462,
59
  "step": 7
60
  },
61
  {
62
  "epoch": 0.023703703703703703,
63
- "grad_norm": 4.9306321144104,
64
- "learning_rate": 3.975975975975976e-05,
65
- "loss": 0.3713,
66
  "step": 8
67
  },
68
  {
69
  "epoch": 0.02666666666666667,
70
- "grad_norm": 1.3183547258377075,
71
- "learning_rate": 3.963963963963964e-05,
72
- "loss": 0.2743,
73
  "step": 9
74
  },
75
  {
76
  "epoch": 0.02962962962962963,
77
- "grad_norm": 1.0412150621414185,
78
- "learning_rate": 3.9519519519519525e-05,
79
- "loss": 0.2836,
80
  "step": 10
81
  },
82
  {
83
  "epoch": 0.03259259259259259,
84
- "grad_norm": 0.8688263893127441,
85
- "learning_rate": 3.9399399399399404e-05,
86
- "loss": 0.2243,
87
  "step": 11
88
  },
89
  {
90
  "epoch": 0.035555555555555556,
91
- "grad_norm": 0.9391494393348694,
92
- "learning_rate": 3.927927927927928e-05,
93
- "loss": 0.3139,
94
  "step": 12
95
  },
96
  {
97
  "epoch": 0.03851851851851852,
98
- "grad_norm": 0.6055777668952942,
99
- "learning_rate": 3.915915915915916e-05,
100
- "loss": 0.1601,
101
  "step": 13
102
  },
103
  {
104
  "epoch": 0.04148148148148148,
105
- "grad_norm": 0.9309234023094177,
106
- "learning_rate": 3.903903903903904e-05,
107
- "loss": 0.2967,
108
  "step": 14
109
  },
110
  {
111
  "epoch": 0.044444444444444446,
112
- "grad_norm": 0.6655858159065247,
113
- "learning_rate": 3.8918918918918926e-05,
114
- "loss": 0.1862,
115
  "step": 15
116
  },
117
  {
118
  "epoch": 0.047407407407407405,
119
- "grad_norm": 0.8664730787277222,
120
- "learning_rate": 3.8798798798798805e-05,
121
- "loss": 0.2625,
122
  "step": 16
123
  },
124
  {
125
  "epoch": 0.05037037037037037,
126
- "grad_norm": 0.842773973941803,
127
- "learning_rate": 3.8678678678678684e-05,
128
- "loss": 0.2555,
129
  "step": 17
130
  },
131
  {
132
  "epoch": 0.05333333333333334,
133
- "grad_norm": 0.8274593949317932,
134
- "learning_rate": 3.855855855855856e-05,
135
- "loss": 0.1371,
136
  "step": 18
137
  },
138
  {
139
  "epoch": 0.056296296296296296,
140
- "grad_norm": 0.9902053475379944,
141
- "learning_rate": 3.843843843843844e-05,
142
- "loss": 0.2563,
143
  "step": 19
144
  },
145
  {
146
  "epoch": 0.05925925925925926,
147
- "grad_norm": 1.0866427421569824,
148
- "learning_rate": 3.831831831831832e-05,
149
- "loss": 0.2975,
150
  "step": 20
151
  },
152
  {
153
  "epoch": 0.06222222222222222,
154
- "grad_norm": 0.7955232858657837,
155
- "learning_rate": 3.81981981981982e-05,
156
- "loss": 0.1746,
157
  "step": 21
158
  },
159
  {
160
  "epoch": 0.06518518518518518,
161
- "grad_norm": 1.0192737579345703,
162
- "learning_rate": 3.807807807807808e-05,
163
- "loss": 0.2809,
164
  "step": 22
165
  },
166
  {
167
  "epoch": 0.06814814814814815,
168
- "grad_norm": 0.8968512415885925,
169
- "learning_rate": 3.7957957957957963e-05,
170
- "loss": 0.3068,
171
  "step": 23
172
  },
173
  {
174
  "epoch": 0.07111111111111111,
175
- "grad_norm": 0.9458790421485901,
176
- "learning_rate": 3.783783783783784e-05,
177
- "loss": 0.3132,
178
  "step": 24
179
  },
180
  {
181
  "epoch": 0.07407407407407407,
182
- "grad_norm": 0.7506158351898193,
183
- "learning_rate": 3.771771771771772e-05,
184
- "loss": 0.1879,
185
  "step": 25
186
  },
187
  {
188
  "epoch": 0.07703703703703704,
189
- "grad_norm": 0.8008959889411926,
190
- "learning_rate": 3.75975975975976e-05,
191
- "loss": 0.2693,
192
  "step": 26
193
  },
194
  {
195
  "epoch": 0.08,
196
- "grad_norm": 0.9693251252174377,
197
- "learning_rate": 3.747747747747748e-05,
198
- "loss": 0.3102,
199
  "step": 27
200
  },
201
  {
202
  "epoch": 0.08296296296296296,
203
- "grad_norm": 0.9088997840881348,
204
- "learning_rate": 3.7357357357357364e-05,
205
- "loss": 0.3234,
206
  "step": 28
207
  },
208
  {
209
  "epoch": 0.08592592592592592,
210
- "grad_norm": 0.7519783973693848,
211
- "learning_rate": 3.723723723723724e-05,
212
- "loss": 0.2399,
213
  "step": 29
214
  },
215
  {
216
  "epoch": 0.08888888888888889,
217
- "grad_norm": 0.6314326524734497,
218
- "learning_rate": 3.711711711711712e-05,
219
- "loss": 0.1891,
220
  "step": 30
221
  },
222
  {
223
  "epoch": 0.09185185185185185,
224
- "grad_norm": 0.621271550655365,
225
- "learning_rate": 3.6996996996997e-05,
226
- "loss": 0.1652,
227
  "step": 31
228
  },
229
  {
230
  "epoch": 0.09481481481481481,
231
- "grad_norm": 0.41306257247924805,
232
- "learning_rate": 3.687687687687688e-05,
233
- "loss": 0.085,
234
  "step": 32
235
  },
236
  {
237
  "epoch": 0.09777777777777778,
238
- "grad_norm": 0.5936337113380432,
239
- "learning_rate": 3.6756756756756765e-05,
240
- "loss": 0.1531,
241
  "step": 33
242
  },
243
  {
244
  "epoch": 0.10074074074074074,
245
- "grad_norm": 0.6805059909820557,
246
- "learning_rate": 3.663663663663664e-05,
247
  "loss": 0.1996,
248
  "step": 34
249
  },
250
  {
251
  "epoch": 0.1037037037037037,
252
- "grad_norm": 0.8764992356300354,
253
- "learning_rate": 3.6516516516516516e-05,
254
- "loss": 0.2906,
255
  "step": 35
256
  },
257
  {
258
  "epoch": 0.10666666666666667,
259
- "grad_norm": 0.7588603496551514,
260
- "learning_rate": 3.63963963963964e-05,
261
- "loss": 0.1871,
262
  "step": 36
263
  },
264
  {
265
  "epoch": 0.10962962962962963,
266
- "grad_norm": 0.7029653191566467,
267
- "learning_rate": 3.627627627627628e-05,
268
- "loss": 0.222,
269
  "step": 37
270
  },
271
  {
272
  "epoch": 0.11259259259259259,
273
- "grad_norm": 0.7220181822776794,
274
- "learning_rate": 3.615615615615616e-05,
275
- "loss": 0.2048,
276
  "step": 38
277
  },
278
  {
279
  "epoch": 0.11555555555555555,
280
- "grad_norm": 0.6436210870742798,
281
- "learning_rate": 3.603603603603604e-05,
282
- "loss": 0.1504,
283
  "step": 39
284
  },
285
  {
286
  "epoch": 0.11851851851851852,
287
- "grad_norm": 0.7571479082107544,
288
- "learning_rate": 3.591591591591592e-05,
289
- "loss": 0.1721,
290
  "step": 40
291
  },
292
  {
293
  "epoch": 0.12148148148148148,
294
- "grad_norm": 0.7263619899749756,
295
- "learning_rate": 3.57957957957958e-05,
296
- "loss": 0.2218,
297
  "step": 41
298
  },
299
  {
300
  "epoch": 0.12444444444444444,
301
- "grad_norm": 0.9982202649116516,
302
- "learning_rate": 3.567567567567568e-05,
303
- "loss": 0.3047,
304
  "step": 42
305
  },
306
  {
307
  "epoch": 0.1274074074074074,
308
- "grad_norm": 0.5471473336219788,
309
- "learning_rate": 3.555555555555555e-05,
310
- "loss": 0.1223,
311
  "step": 43
312
  },
313
  {
314
  "epoch": 0.13037037037037036,
315
- "grad_norm": 0.7390595078468323,
316
- "learning_rate": 3.543543543543544e-05,
317
- "loss": 0.1707,
318
  "step": 44
319
  },
320
  {
321
  "epoch": 0.13333333333333333,
322
- "grad_norm": 0.743986189365387,
323
- "learning_rate": 3.531531531531532e-05,
324
- "loss": 0.2172,
325
  "step": 45
326
  },
327
  {
328
  "epoch": 0.1362962962962963,
329
- "grad_norm": 0.7863553166389465,
330
- "learning_rate": 3.5195195195195196e-05,
331
- "loss": 0.2524,
332
  "step": 46
333
  },
334
  {
335
  "epoch": 0.13925925925925925,
336
- "grad_norm": 1.1191259622573853,
337
- "learning_rate": 3.5075075075075075e-05,
338
- "loss": 0.3553,
339
  "step": 47
340
  },
341
  {
342
  "epoch": 0.14222222222222222,
343
- "grad_norm": 0.5163149833679199,
344
- "learning_rate": 3.4954954954954954e-05,
345
- "loss": 0.1194,
346
  "step": 48
347
  },
348
  {
349
  "epoch": 0.1451851851851852,
350
- "grad_norm": 0.7675026655197144,
351
- "learning_rate": 3.483483483483484e-05,
352
- "loss": 0.1903,
353
  "step": 49
354
  },
355
  {
356
  "epoch": 0.14814814814814814,
357
- "grad_norm": 0.5858408808708191,
358
- "learning_rate": 3.471471471471472e-05,
359
- "loss": 0.1517,
360
  "step": 50
361
  },
362
  {
363
  "epoch": 0.14814814814814814,
364
- "eval_loss": 0.17985521256923676,
365
- "eval_runtime": 14.4704,
366
- "eval_samples_per_second": 41.464,
367
- "eval_steps_per_second": 5.183,
368
  "step": 50
369
  },
370
  {
371
  "epoch": 0.1511111111111111,
372
- "grad_norm": 0.8751776814460754,
373
- "learning_rate": 3.45945945945946e-05,
374
- "loss": 0.2801,
375
  "step": 51
376
  },
377
  {
378
  "epoch": 0.15407407407407409,
379
- "grad_norm": 0.7462249398231506,
380
- "learning_rate": 3.4474474474474476e-05,
381
- "loss": 0.2342,
382
  "step": 52
383
  },
384
  {
385
  "epoch": 0.15703703703703703,
386
- "grad_norm": 0.7532960176467896,
387
- "learning_rate": 3.4354354354354355e-05,
388
- "loss": 0.2506,
389
  "step": 53
390
  },
391
  {
392
  "epoch": 0.16,
393
- "grad_norm": 0.8023353815078735,
394
- "learning_rate": 3.423423423423424e-05,
395
- "loss": 0.2207,
396
  "step": 54
397
  },
398
  {
399
  "epoch": 0.16296296296296298,
400
- "grad_norm": 0.546542227268219,
401
- "learning_rate": 3.411411411411412e-05,
402
- "loss": 0.1284,
403
  "step": 55
404
  },
405
  {
406
  "epoch": 0.16592592592592592,
407
- "grad_norm": 0.8409852385520935,
408
- "learning_rate": 3.3993993993994e-05,
409
- "loss": 0.1891,
410
  "step": 56
411
  },
412
  {
413
  "epoch": 0.1688888888888889,
414
- "grad_norm": 0.579382061958313,
415
- "learning_rate": 3.387387387387388e-05,
416
- "loss": 0.1514,
417
  "step": 57
418
  },
419
  {
420
  "epoch": 0.17185185185185184,
421
- "grad_norm": 0.4799129366874695,
422
- "learning_rate": 3.3753753753753756e-05,
423
- "loss": 0.1062,
424
  "step": 58
425
  },
426
  {
427
  "epoch": 0.1748148148148148,
428
- "grad_norm": 0.71538245677948,
429
- "learning_rate": 3.3633633633633635e-05,
430
- "loss": 0.2272,
431
  "step": 59
432
  },
433
  {
434
  "epoch": 0.17777777777777778,
435
- "grad_norm": 0.6138031482696533,
436
- "learning_rate": 3.351351351351351e-05,
437
- "loss": 0.1918,
438
  "step": 60
439
  },
440
  {
441
  "epoch": 0.18074074074074073,
442
- "grad_norm": 0.5683690905570984,
443
- "learning_rate": 3.339339339339339e-05,
444
- "loss": 0.1722,
445
  "step": 61
446
  },
447
  {
448
  "epoch": 0.1837037037037037,
449
- "grad_norm": 0.4844490885734558,
450
- "learning_rate": 3.327327327327328e-05,
451
- "loss": 0.1418,
452
  "step": 62
453
  },
454
  {
455
  "epoch": 0.18666666666666668,
456
- "grad_norm": 0.790242612361908,
457
- "learning_rate": 3.3153153153153157e-05,
458
- "loss": 0.2596,
459
  "step": 63
460
  },
461
  {
462
  "epoch": 0.18962962962962962,
463
- "grad_norm": 0.564995288848877,
464
- "learning_rate": 3.3033033033033035e-05,
465
- "loss": 0.1831,
466
  "step": 64
467
  },
468
  {
469
  "epoch": 0.1925925925925926,
470
- "grad_norm": 0.7386176586151123,
471
- "learning_rate": 3.2912912912912914e-05,
472
- "loss": 0.2123,
473
  "step": 65
474
  },
475
  {
476
  "epoch": 0.19555555555555557,
477
- "grad_norm": 0.6375231146812439,
478
- "learning_rate": 3.279279279279279e-05,
479
- "loss": 0.1628,
480
  "step": 66
481
  },
482
  {
483
  "epoch": 0.1985185185185185,
484
- "grad_norm": 0.6983979940414429,
485
- "learning_rate": 3.267267267267268e-05,
486
- "loss": 0.2467,
487
  "step": 67
488
  },
489
  {
490
  "epoch": 0.20148148148148148,
491
- "grad_norm": 0.8679549694061279,
492
- "learning_rate": 3.255255255255256e-05,
493
- "loss": 0.2919,
494
  "step": 68
495
  },
496
  {
497
  "epoch": 0.20444444444444446,
498
- "grad_norm": 0.6858684420585632,
499
- "learning_rate": 3.2432432432432436e-05,
500
- "loss": 0.2078,
501
  "step": 69
502
  },
503
  {
504
  "epoch": 0.2074074074074074,
505
- "grad_norm": 0.47773656249046326,
506
- "learning_rate": 3.2312312312312315e-05,
507
- "loss": 0.1181,
508
  "step": 70
509
  },
510
  {
511
  "epoch": 0.21037037037037037,
512
- "grad_norm": 0.688381552696228,
513
- "learning_rate": 3.2192192192192194e-05,
514
- "loss": 0.2229,
515
  "step": 71
516
  },
517
  {
518
  "epoch": 0.21333333333333335,
519
- "grad_norm": 0.7971948385238647,
520
- "learning_rate": 3.207207207207207e-05,
521
- "loss": 0.2301,
522
  "step": 72
523
  },
524
  {
525
  "epoch": 0.2162962962962963,
526
- "grad_norm": 0.5303283929824829,
527
- "learning_rate": 3.195195195195195e-05,
528
- "loss": 0.1422,
529
  "step": 73
530
  },
531
  {
532
  "epoch": 0.21925925925925926,
533
- "grad_norm": 0.4964320659637451,
534
- "learning_rate": 3.183183183183184e-05,
535
- "loss": 0.1205,
536
  "step": 74
537
  },
538
  {
539
  "epoch": 0.2222222222222222,
540
- "grad_norm": 0.6263095736503601,
541
- "learning_rate": 3.1711711711711716e-05,
542
- "loss": 0.1641,
543
  "step": 75
544
  },
545
  {
546
  "epoch": 0.22518518518518518,
547
- "grad_norm": 0.6107733249664307,
548
- "learning_rate": 3.1591591591591595e-05,
549
- "loss": 0.1913,
550
  "step": 76
551
  },
552
  {
553
  "epoch": 0.22814814814814816,
554
- "grad_norm": 0.758079469203949,
555
- "learning_rate": 3.1471471471471473e-05,
556
- "loss": 0.2201,
557
  "step": 77
558
  },
559
  {
560
  "epoch": 0.2311111111111111,
561
- "grad_norm": 0.708204448223114,
562
- "learning_rate": 3.135135135135135e-05,
563
- "loss": 0.226,
564
  "step": 78
565
  },
566
  {
567
  "epoch": 0.23407407407407407,
568
- "grad_norm": 0.502569317817688,
569
- "learning_rate": 3.123123123123123e-05,
570
- "loss": 0.1286,
571
  "step": 79
572
  },
573
  {
574
  "epoch": 0.23703703703703705,
575
- "grad_norm": 0.8294786810874939,
576
- "learning_rate": 3.111111111111112e-05,
577
- "loss": 0.2052,
578
  "step": 80
579
  },
580
  {
581
  "epoch": 0.24,
582
- "grad_norm": 0.5511760711669922,
583
- "learning_rate": 3.0990990990990995e-05,
584
- "loss": 0.1842,
585
  "step": 81
586
  },
587
  {
588
  "epoch": 0.24296296296296296,
589
- "grad_norm": 0.5849724411964417,
590
- "learning_rate": 3.0870870870870874e-05,
591
- "loss": 0.1467,
592
  "step": 82
593
  },
594
  {
595
  "epoch": 0.24592592592592594,
596
- "grad_norm": 0.4981459081172943,
597
- "learning_rate": 3.075075075075075e-05,
598
- "loss": 0.1291,
599
  "step": 83
600
  },
601
  {
602
  "epoch": 0.24888888888888888,
603
- "grad_norm": 0.6950924396514893,
604
- "learning_rate": 3.063063063063063e-05,
605
- "loss": 0.2034,
606
  "step": 84
607
  },
608
  {
609
  "epoch": 0.2518518518518518,
610
- "grad_norm": 0.6645966172218323,
611
- "learning_rate": 3.0510510510510514e-05,
612
- "loss": 0.2185,
613
  "step": 85
614
  },
615
  {
616
  "epoch": 0.2548148148148148,
617
- "grad_norm": 0.5428280234336853,
618
- "learning_rate": 3.0390390390390393e-05,
619
- "loss": 0.1651,
620
  "step": 86
621
  },
622
  {
623
  "epoch": 0.2577777777777778,
624
- "grad_norm": 0.9371675252914429,
625
- "learning_rate": 3.0270270270270275e-05,
626
- "loss": 0.3161,
627
  "step": 87
628
  },
629
  {
630
  "epoch": 0.2607407407407407,
631
- "grad_norm": 0.7100166082382202,
632
- "learning_rate": 3.0150150150150154e-05,
633
- "loss": 0.2376,
634
  "step": 88
635
  },
636
  {
637
  "epoch": 0.2637037037037037,
638
- "grad_norm": 0.49957698583602905,
639
- "learning_rate": 3.003003003003003e-05,
640
- "loss": 0.1474,
641
  "step": 89
642
  },
643
  {
644
  "epoch": 0.26666666666666666,
645
- "grad_norm": 0.5702934265136719,
646
- "learning_rate": 2.9909909909909915e-05,
647
- "loss": 0.174,
648
  "step": 90
649
  },
650
  {
651
  "epoch": 0.2696296296296296,
652
- "grad_norm": 0.6299387812614441,
653
- "learning_rate": 2.978978978978979e-05,
654
- "loss": 0.2465,
655
  "step": 91
656
  },
657
  {
658
  "epoch": 0.2725925925925926,
659
- "grad_norm": 0.5322492122650146,
660
- "learning_rate": 2.9669669669669673e-05,
661
- "loss": 0.1472,
662
  "step": 92
663
  },
664
  {
665
  "epoch": 0.27555555555555555,
666
- "grad_norm": 0.43722474575042725,
667
- "learning_rate": 2.954954954954955e-05,
668
- "loss": 0.1049,
669
  "step": 93
670
  },
671
  {
672
  "epoch": 0.2785185185185185,
673
- "grad_norm": 0.7664565443992615,
674
- "learning_rate": 2.942942942942943e-05,
675
- "loss": 0.2713,
676
  "step": 94
677
  },
678
  {
679
  "epoch": 0.2814814814814815,
680
- "grad_norm": 0.6068233251571655,
681
- "learning_rate": 2.9309309309309312e-05,
682
- "loss": 0.2159,
683
  "step": 95
684
  },
685
  {
686
  "epoch": 0.28444444444444444,
687
- "grad_norm": 0.6480595469474792,
688
- "learning_rate": 2.918918918918919e-05,
689
- "loss": 0.2071,
690
  "step": 96
691
  },
692
  {
693
  "epoch": 0.2874074074074074,
694
- "grad_norm": 0.6186113953590393,
695
- "learning_rate": 2.9069069069069073e-05,
696
- "loss": 0.2365,
697
  "step": 97
698
  },
699
  {
700
  "epoch": 0.2903703703703704,
701
- "grad_norm": 0.6083658933639526,
702
- "learning_rate": 2.8948948948948952e-05,
703
- "loss": 0.1898,
704
  "step": 98
705
  },
706
  {
707
  "epoch": 0.29333333333333333,
708
- "grad_norm": 0.7463049292564392,
709
- "learning_rate": 2.882882882882883e-05,
710
- "loss": 0.3135,
711
  "step": 99
712
  },
713
  {
714
  "epoch": 0.2962962962962963,
715
- "grad_norm": 0.5493142008781433,
716
- "learning_rate": 2.8708708708708713e-05,
717
- "loss": 0.2166,
718
  "step": 100
719
  },
720
  {
721
  "epoch": 0.2962962962962963,
722
- "eval_loss": 0.16767765581607819,
723
- "eval_runtime": 14.1302,
724
- "eval_samples_per_second": 42.462,
725
- "eval_steps_per_second": 5.308,
726
  "step": 100
727
  },
728
  {
729
  "epoch": 0.2992592592592593,
730
- "grad_norm": 0.5095804333686829,
731
- "learning_rate": 2.8588588588588592e-05,
732
- "loss": 0.1298,
733
  "step": 101
734
  },
735
  {
736
  "epoch": 0.3022222222222222,
737
- "grad_norm": 0.6043511629104614,
738
- "learning_rate": 2.8468468468468467e-05,
739
- "loss": 0.1826,
740
  "step": 102
741
  },
742
  {
743
  "epoch": 0.30518518518518517,
744
- "grad_norm": 0.7711830139160156,
745
- "learning_rate": 2.834834834834835e-05,
746
- "loss": 0.273,
747
  "step": 103
748
  },
749
  {
750
  "epoch": 0.30814814814814817,
751
- "grad_norm": 0.5526314377784729,
752
- "learning_rate": 2.822822822822823e-05,
753
- "loss": 0.1644,
754
  "step": 104
755
  },
756
  {
757
  "epoch": 0.3111111111111111,
758
- "grad_norm": 0.6714263558387756,
759
- "learning_rate": 2.810810810810811e-05,
760
- "loss": 0.2607,
761
  "step": 105
762
  },
763
  {
764
  "epoch": 0.31407407407407406,
765
- "grad_norm": 0.4602699279785156,
766
- "learning_rate": 2.798798798798799e-05,
767
- "loss": 0.1335,
768
  "step": 106
769
  },
770
  {
771
  "epoch": 0.31703703703703706,
772
- "grad_norm": 0.6891474723815918,
773
- "learning_rate": 2.786786786786787e-05,
774
- "loss": 0.1646,
775
  "step": 107
776
  },
777
  {
778
  "epoch": 0.32,
779
- "grad_norm": 0.5244479775428772,
780
- "learning_rate": 2.774774774774775e-05,
781
- "loss": 0.1636,
782
  "step": 108
783
  },
784
  {
785
  "epoch": 0.32296296296296295,
786
- "grad_norm": 0.7349796891212463,
787
- "learning_rate": 2.762762762762763e-05,
788
- "loss": 0.2181,
789
  "step": 109
790
  },
791
  {
792
  "epoch": 0.32592592592592595,
793
- "grad_norm": 0.5978707075119019,
794
- "learning_rate": 2.750750750750751e-05,
795
- "loss": 0.1991,
796
  "step": 110
797
  },
798
  {
799
  "epoch": 0.3288888888888889,
800
- "grad_norm": 0.8242323398590088,
801
- "learning_rate": 2.738738738738739e-05,
802
- "loss": 0.2332,
803
  "step": 111
804
  },
805
  {
806
  "epoch": 0.33185185185185184,
807
- "grad_norm": 0.5923279523849487,
808
- "learning_rate": 2.726726726726727e-05,
809
- "loss": 0.1782,
810
  "step": 112
811
  },
812
  {
813
  "epoch": 0.3348148148148148,
814
- "grad_norm": 0.5389938950538635,
815
- "learning_rate": 2.714714714714715e-05,
816
- "loss": 0.1608,
817
  "step": 113
818
  },
819
  {
820
  "epoch": 0.3377777777777778,
821
- "grad_norm": 0.6583391427993774,
822
- "learning_rate": 2.702702702702703e-05,
823
- "loss": 0.2307,
824
  "step": 114
825
  },
826
  {
827
  "epoch": 0.34074074074074073,
828
- "grad_norm": 0.5539864897727966,
829
- "learning_rate": 2.6906906906906912e-05,
830
  "loss": 0.1768,
831
  "step": 115
832
  },
833
  {
834
  "epoch": 0.3437037037037037,
835
- "grad_norm": 0.8394659757614136,
836
- "learning_rate": 2.6786786786786788e-05,
837
- "loss": 0.2814,
838
  "step": 116
839
  },
840
  {
841
  "epoch": 0.3466666666666667,
842
- "grad_norm": 0.6727206707000732,
843
- "learning_rate": 2.6666666666666667e-05,
844
- "loss": 0.1835,
845
  "step": 117
846
  },
847
  {
848
  "epoch": 0.3496296296296296,
849
- "grad_norm": 0.6486957669258118,
850
- "learning_rate": 2.654654654654655e-05,
851
- "loss": 0.2394,
852
  "step": 118
853
  },
854
  {
855
  "epoch": 0.35259259259259257,
856
- "grad_norm": 0.6837694048881531,
857
- "learning_rate": 2.6426426426426428e-05,
858
- "loss": 0.2617,
859
  "step": 119
860
  },
861
  {
862
  "epoch": 0.35555555555555557,
863
- "grad_norm": 0.562615692615509,
864
- "learning_rate": 2.630630630630631e-05,
865
- "loss": 0.1839,
866
  "step": 120
867
  },
868
  {
869
  "epoch": 0.3585185185185185,
870
- "grad_norm": 0.5606096982955933,
871
- "learning_rate": 2.618618618618619e-05,
872
- "loss": 0.2057,
873
  "step": 121
874
  },
875
  {
876
  "epoch": 0.36148148148148146,
877
- "grad_norm": 0.48456883430480957,
878
- "learning_rate": 2.6066066066066067e-05,
879
- "loss": 0.1709,
880
  "step": 122
881
  },
882
  {
883
  "epoch": 0.36444444444444446,
884
- "grad_norm": 0.5486953854560852,
885
- "learning_rate": 2.594594594594595e-05,
886
- "loss": 0.1633,
887
  "step": 123
888
  },
889
  {
890
  "epoch": 0.3674074074074074,
891
- "grad_norm": 0.7700474858283997,
892
- "learning_rate": 2.582582582582583e-05,
893
- "loss": 0.258,
894
  "step": 124
895
  },
896
  {
897
  "epoch": 0.37037037037037035,
898
- "grad_norm": 0.6863111853599548,
899
- "learning_rate": 2.5705705705705707e-05,
900
- "loss": 0.2053,
901
  "step": 125
902
  },
903
  {
904
  "epoch": 0.37333333333333335,
905
- "grad_norm": 0.7012767791748047,
906
- "learning_rate": 2.558558558558559e-05,
907
- "loss": 0.2447,
908
  "step": 126
909
  },
910
  {
911
  "epoch": 0.3762962962962963,
912
- "grad_norm": 0.6480976939201355,
913
- "learning_rate": 2.5465465465465465e-05,
914
- "loss": 0.1563,
915
  "step": 127
916
  },
917
  {
918
  "epoch": 0.37925925925925924,
919
- "grad_norm": 0.49570271372795105,
920
- "learning_rate": 2.534534534534535e-05,
921
- "loss": 0.1434,
922
  "step": 128
923
  },
924
  {
925
  "epoch": 0.38222222222222224,
926
- "grad_norm": 0.6165283918380737,
927
- "learning_rate": 2.5225225225225226e-05,
928
- "loss": 0.1591,
929
  "step": 129
930
  },
931
  {
932
  "epoch": 0.3851851851851852,
933
- "grad_norm": 0.5810244679450989,
934
- "learning_rate": 2.5105105105105105e-05,
935
- "loss": 0.1333,
936
  "step": 130
937
  },
938
  {
939
  "epoch": 0.38814814814814813,
940
- "grad_norm": 0.6348748803138733,
941
- "learning_rate": 2.4984984984984987e-05,
942
- "loss": 0.1973,
943
  "step": 131
944
  },
945
  {
946
  "epoch": 0.39111111111111113,
947
- "grad_norm": 0.6725711822509766,
948
- "learning_rate": 2.4864864864864866e-05,
949
- "loss": 0.1752,
950
  "step": 132
951
  },
952
  {
953
  "epoch": 0.3940740740740741,
954
- "grad_norm": 0.6859322190284729,
955
- "learning_rate": 2.4744744744744748e-05,
956
- "loss": 0.2351,
957
  "step": 133
958
  },
959
  {
960
  "epoch": 0.397037037037037,
961
- "grad_norm": 0.6769847869873047,
962
- "learning_rate": 2.4624624624624627e-05,
963
- "loss": 0.2136,
964
  "step": 134
965
  },
966
  {
967
  "epoch": 0.4,
968
- "grad_norm": 0.5582964420318604,
969
- "learning_rate": 2.4504504504504506e-05,
970
- "loss": 0.1858,
971
  "step": 135
972
  },
973
  {
974
  "epoch": 0.40296296296296297,
975
- "grad_norm": 0.5090504288673401,
976
- "learning_rate": 2.4384384384384388e-05,
977
- "loss": 0.1215,
978
  "step": 136
979
  },
980
  {
981
  "epoch": 0.4059259259259259,
982
- "grad_norm": 0.616152822971344,
983
- "learning_rate": 2.4264264264264267e-05,
984
- "loss": 0.1417,
985
  "step": 137
986
  },
987
  {
988
  "epoch": 0.4088888888888889,
989
- "grad_norm": 0.5968357920646667,
990
- "learning_rate": 2.414414414414415e-05,
991
- "loss": 0.1622,
992
  "step": 138
993
  },
994
  {
995
  "epoch": 0.41185185185185186,
996
- "grad_norm": 0.6175573468208313,
997
- "learning_rate": 2.4024024024024028e-05,
998
  "loss": 0.1839,
999
  "step": 139
1000
  },
1001
  {
1002
  "epoch": 0.4148148148148148,
1003
- "grad_norm": 0.8995670080184937,
1004
- "learning_rate": 2.3903903903903903e-05,
1005
- "loss": 0.3006,
1006
  "step": 140
1007
  },
1008
  {
1009
  "epoch": 0.4177777777777778,
1010
- "grad_norm": 0.6890435814857483,
1011
- "learning_rate": 2.378378378378379e-05,
1012
- "loss": 0.2441,
1013
  "step": 141
1014
  },
1015
  {
1016
  "epoch": 0.42074074074074075,
1017
- "grad_norm": 0.6117643117904663,
1018
- "learning_rate": 2.3663663663663664e-05,
1019
- "loss": 0.1425,
1020
  "step": 142
1021
  },
1022
  {
1023
  "epoch": 0.4237037037037037,
1024
- "grad_norm": 0.6578068733215332,
1025
- "learning_rate": 2.3543543543543543e-05,
1026
- "loss": 0.2287,
1027
  "step": 143
1028
  },
1029
  {
1030
  "epoch": 0.4266666666666667,
1031
- "grad_norm": 0.6515300869941711,
1032
- "learning_rate": 2.3423423423423425e-05,
1033
- "loss": 0.1984,
1034
  "step": 144
1035
  },
1036
  {
1037
  "epoch": 0.42962962962962964,
1038
- "grad_norm": 0.628122866153717,
1039
- "learning_rate": 2.3303303303303304e-05,
1040
- "loss": 0.145,
1041
  "step": 145
1042
  },
1043
  {
1044
  "epoch": 0.4325925925925926,
1045
- "grad_norm": 0.3916088044643402,
1046
- "learning_rate": 2.3183183183183186e-05,
1047
- "loss": 0.0963,
1048
  "step": 146
1049
  },
1050
  {
1051
  "epoch": 0.43555555555555553,
1052
- "grad_norm": 0.56316739320755,
1053
- "learning_rate": 2.3063063063063065e-05,
1054
- "loss": 0.1422,
1055
  "step": 147
1056
  },
1057
  {
1058
  "epoch": 0.43851851851851853,
1059
- "grad_norm": 0.547531008720398,
1060
- "learning_rate": 2.2942942942942944e-05,
1061
- "loss": 0.1815,
1062
  "step": 148
1063
  },
1064
  {
1065
  "epoch": 0.4414814814814815,
1066
- "grad_norm": 0.5757408738136292,
1067
- "learning_rate": 2.2822822822822826e-05,
1068
- "loss": 0.1833,
1069
  "step": 149
1070
  },
1071
  {
1072
  "epoch": 0.4444444444444444,
1073
- "grad_norm": 0.6631596088409424,
1074
- "learning_rate": 2.2702702702702705e-05,
1075
- "loss": 0.2398,
1076
  "step": 150
1077
  },
1078
  {
1079
  "epoch": 0.4444444444444444,
1080
- "eval_loss": 0.16065554320812225,
1081
- "eval_runtime": 14.1088,
1082
- "eval_samples_per_second": 42.527,
1083
- "eval_steps_per_second": 5.316,
1084
  "step": 150
1085
  },
1086
  {
1087
  "epoch": 0.4474074074074074,
1088
- "grad_norm": 0.7583733201026917,
1089
- "learning_rate": 2.2582582582582587e-05,
1090
- "loss": 0.2489,
1091
  "step": 151
1092
  },
1093
  {
1094
  "epoch": 0.45037037037037037,
1095
- "grad_norm": 0.4186091423034668,
1096
- "learning_rate": 2.2462462462462466e-05,
1097
- "loss": 0.1358,
1098
  "step": 152
1099
  },
1100
  {
1101
  "epoch": 0.4533333333333333,
1102
- "grad_norm": 0.5600216388702393,
1103
- "learning_rate": 2.234234234234234e-05,
1104
- "loss": 0.1475,
1105
  "step": 153
1106
  },
1107
  {
1108
  "epoch": 0.4562962962962963,
1109
- "grad_norm": 0.6411682367324829,
1110
- "learning_rate": 2.2222222222222227e-05,
1111
- "loss": 0.1898,
1112
  "step": 154
1113
  },
1114
  {
1115
  "epoch": 0.45925925925925926,
1116
- "grad_norm": 0.4687032699584961,
1117
- "learning_rate": 2.2102102102102102e-05,
1118
- "loss": 0.1176,
1119
  "step": 155
1120
  },
1121
  {
1122
  "epoch": 0.4622222222222222,
1123
- "grad_norm": 0.31947872042655945,
1124
- "learning_rate": 2.1981981981981984e-05,
1125
- "loss": 0.0459,
1126
  "step": 156
1127
  },
1128
  {
1129
  "epoch": 0.4651851851851852,
1130
- "grad_norm": 0.7368238568305969,
1131
- "learning_rate": 2.1861861861861863e-05,
1132
- "loss": 0.2111,
1133
  "step": 157
1134
  },
1135
  {
1136
  "epoch": 0.46814814814814815,
1137
- "grad_norm": 0.5117512345314026,
1138
- "learning_rate": 2.1741741741741742e-05,
1139
- "loss": 0.1495,
1140
  "step": 158
1141
  },
1142
  {
1143
  "epoch": 0.4711111111111111,
1144
- "grad_norm": 0.6600438356399536,
1145
- "learning_rate": 2.1621621621621624e-05,
1146
- "loss": 0.2158,
1147
  "step": 159
1148
  },
1149
  {
1150
  "epoch": 0.4740740740740741,
1151
- "grad_norm": 0.5293194651603699,
1152
- "learning_rate": 2.1501501501501503e-05,
1153
- "loss": 0.1241,
1154
  "step": 160
1155
  },
1156
  {
1157
  "epoch": 0.47703703703703704,
1158
- "grad_norm": 0.5923362374305725,
1159
- "learning_rate": 2.1381381381381385e-05,
1160
- "loss": 0.1866,
1161
  "step": 161
1162
  },
1163
  {
1164
  "epoch": 0.48,
1165
- "grad_norm": 0.5781977772712708,
1166
- "learning_rate": 2.1261261261261264e-05,
1167
- "loss": 0.1311,
1168
  "step": 162
1169
  },
1170
  {
1171
  "epoch": 0.482962962962963,
1172
- "grad_norm": 0.6506317257881165,
1173
- "learning_rate": 2.1141141141141143e-05,
1174
- "loss": 0.1979,
1175
  "step": 163
1176
  },
1177
  {
1178
  "epoch": 0.48592592592592593,
1179
- "grad_norm": 0.5056810975074768,
1180
- "learning_rate": 2.1021021021021025e-05,
1181
- "loss": 0.1109,
1182
  "step": 164
1183
  },
1184
  {
1185
  "epoch": 0.4888888888888889,
1186
- "grad_norm": 0.5627763271331787,
1187
- "learning_rate": 2.0900900900900904e-05,
1188
- "loss": 0.1865,
1189
  "step": 165
1190
  },
1191
  {
1192
  "epoch": 0.4918518518518519,
1193
- "grad_norm": 0.4840238690376282,
1194
- "learning_rate": 2.078078078078078e-05,
1195
- "loss": 0.128,
1196
  "step": 166
1197
  },
1198
  {
1199
  "epoch": 0.4948148148148148,
1200
- "grad_norm": 0.5423092246055603,
1201
- "learning_rate": 2.066066066066066e-05,
1202
- "loss": 0.142,
1203
  "step": 167
1204
  },
1205
  {
1206
  "epoch": 0.49777777777777776,
1207
- "grad_norm": 0.7371445298194885,
1208
- "learning_rate": 2.054054054054054e-05,
1209
- "loss": 0.2711,
1210
  "step": 168
1211
  },
1212
  {
1213
  "epoch": 0.5007407407407407,
1214
- "grad_norm": 0.6141533255577087,
1215
- "learning_rate": 2.0420420420420422e-05,
1216
- "loss": 0.158,
1217
  "step": 169
1218
  },
1219
  {
1220
  "epoch": 0.5037037037037037,
1221
- "grad_norm": 0.6740570664405823,
1222
- "learning_rate": 2.03003003003003e-05,
1223
- "loss": 0.2177,
1224
  "step": 170
1225
  },
1226
  {
1227
  "epoch": 0.5066666666666667,
1228
- "grad_norm": 0.6324515342712402,
1229
- "learning_rate": 2.018018018018018e-05,
1230
- "loss": 0.2066,
1231
  "step": 171
1232
  },
1233
  {
1234
  "epoch": 0.5096296296296297,
1235
- "grad_norm": 0.7439907193183899,
1236
- "learning_rate": 2.0060060060060062e-05,
1237
- "loss": 0.2352,
1238
  "step": 172
1239
  },
1240
  {
1241
  "epoch": 0.5125925925925926,
1242
- "grad_norm": 0.6101221442222595,
1243
- "learning_rate": 1.993993993993994e-05,
1244
- "loss": 0.2124,
1245
  "step": 173
1246
  },
1247
  {
1248
  "epoch": 0.5155555555555555,
1249
- "grad_norm": 0.6820063591003418,
1250
- "learning_rate": 1.981981981981982e-05,
1251
- "loss": 0.1965,
1252
  "step": 174
1253
  },
1254
  {
1255
  "epoch": 0.5185185185185185,
1256
- "grad_norm": 0.6233490705490112,
1257
- "learning_rate": 1.9699699699699702e-05,
1258
- "loss": 0.1848,
1259
  "step": 175
1260
  },
1261
  {
1262
  "epoch": 0.5214814814814814,
1263
- "grad_norm": 0.706933319568634,
1264
- "learning_rate": 1.957957957957958e-05,
1265
- "loss": 0.2325,
1266
  "step": 176
1267
  },
1268
  {
1269
  "epoch": 0.5244444444444445,
1270
- "grad_norm": 0.5026968121528625,
1271
- "learning_rate": 1.9459459459459463e-05,
1272
- "loss": 0.1275,
1273
  "step": 177
1274
  },
1275
  {
1276
  "epoch": 0.5274074074074074,
1277
- "grad_norm": 0.5824692845344543,
1278
- "learning_rate": 1.9339339339339342e-05,
1279
- "loss": 0.1734,
1280
  "step": 178
1281
  },
1282
  {
1283
  "epoch": 0.5303703703703704,
1284
- "grad_norm": 0.6086130142211914,
1285
- "learning_rate": 1.921921921921922e-05,
1286
- "loss": 0.1921,
1287
  "step": 179
1288
  },
1289
  {
1290
  "epoch": 0.5333333333333333,
1291
- "grad_norm": 0.5344895124435425,
1292
- "learning_rate": 1.90990990990991e-05,
1293
- "loss": 0.146,
1294
  "step": 180
1295
  },
1296
  {
1297
  "epoch": 0.5362962962962963,
1298
- "grad_norm": 0.5795409679412842,
1299
- "learning_rate": 1.8978978978978982e-05,
1300
- "loss": 0.1705,
1301
  "step": 181
1302
  },
1303
  {
1304
  "epoch": 0.5392592592592592,
1305
- "grad_norm": 0.5902035236358643,
1306
- "learning_rate": 1.885885885885886e-05,
1307
- "loss": 0.1648,
1308
  "step": 182
1309
  },
1310
  {
1311
  "epoch": 0.5422222222222223,
1312
- "grad_norm": 0.5111947655677795,
1313
- "learning_rate": 1.873873873873874e-05,
1314
- "loss": 0.1337,
1315
  "step": 183
1316
  },
1317
  {
1318
  "epoch": 0.5451851851851852,
1319
- "grad_norm": 0.7619656920433044,
1320
- "learning_rate": 1.861861861861862e-05,
1321
- "loss": 0.2576,
1322
  "step": 184
1323
  },
1324
  {
1325
  "epoch": 0.5481481481481482,
1326
- "grad_norm": 0.47247859835624695,
1327
- "learning_rate": 1.84984984984985e-05,
1328
- "loss": 0.1128,
1329
  "step": 185
1330
  },
1331
  {
1332
  "epoch": 0.5511111111111111,
1333
- "grad_norm": 0.6518752574920654,
1334
- "learning_rate": 1.8378378378378383e-05,
1335
- "loss": 0.2079,
1336
  "step": 186
1337
  },
1338
  {
1339
  "epoch": 0.554074074074074,
1340
- "grad_norm": 0.7276027798652649,
1341
- "learning_rate": 1.8258258258258258e-05,
1342
- "loss": 0.2548,
1343
  "step": 187
1344
  },
1345
  {
1346
  "epoch": 0.557037037037037,
1347
- "grad_norm": 0.543479323387146,
1348
- "learning_rate": 1.813813813813814e-05,
1349
- "loss": 0.1767,
1350
  "step": 188
1351
  },
1352
  {
1353
  "epoch": 0.56,
1354
- "grad_norm": 0.6526920199394226,
1355
- "learning_rate": 1.801801801801802e-05,
1356
- "loss": 0.2091,
1357
  "step": 189
1358
  },
1359
  {
1360
  "epoch": 0.562962962962963,
1361
- "grad_norm": 0.7054211497306824,
1362
- "learning_rate": 1.78978978978979e-05,
1363
- "loss": 0.2065,
1364
  "step": 190
1365
  },
1366
  {
1367
  "epoch": 0.5659259259259259,
1368
- "grad_norm": 0.553644061088562,
1369
- "learning_rate": 1.7777777777777777e-05,
1370
- "loss": 0.1777,
1371
  "step": 191
1372
  },
1373
  {
1374
  "epoch": 0.5688888888888889,
1375
- "grad_norm": 0.5198735594749451,
1376
- "learning_rate": 1.765765765765766e-05,
1377
- "loss": 0.1418,
1378
  "step": 192
1379
  },
1380
  {
1381
  "epoch": 0.5718518518518518,
1382
- "grad_norm": 0.61697918176651,
1383
- "learning_rate": 1.7537537537537538e-05,
1384
- "loss": 0.2363,
1385
  "step": 193
1386
  },
1387
  {
1388
  "epoch": 0.5748148148148148,
1389
- "grad_norm": 0.6052483320236206,
1390
- "learning_rate": 1.741741741741742e-05,
1391
- "loss": 0.2172,
1392
  "step": 194
1393
  },
1394
  {
1395
  "epoch": 0.5777777777777777,
1396
- "grad_norm": 0.5388604998588562,
1397
- "learning_rate": 1.72972972972973e-05,
1398
- "loss": 0.1419,
1399
  "step": 195
1400
  },
1401
  {
1402
  "epoch": 0.5807407407407408,
1403
- "grad_norm": 0.49259111285209656,
1404
- "learning_rate": 1.7177177177177177e-05,
1405
- "loss": 0.1467,
1406
  "step": 196
1407
  },
1408
  {
1409
  "epoch": 0.5837037037037037,
1410
- "grad_norm": 0.5621329545974731,
1411
- "learning_rate": 1.705705705705706e-05,
1412
- "loss": 0.1956,
1413
  "step": 197
1414
  },
1415
  {
1416
  "epoch": 0.5866666666666667,
1417
- "grad_norm": 0.5689987540245056,
1418
- "learning_rate": 1.693693693693694e-05,
1419
- "loss": 0.1849,
1420
  "step": 198
1421
  },
1422
  {
1423
  "epoch": 0.5896296296296296,
1424
- "grad_norm": 0.5497093796730042,
1425
- "learning_rate": 1.6816816816816817e-05,
1426
- "loss": 0.1547,
1427
  "step": 199
1428
  },
1429
  {
1430
  "epoch": 0.5925925925925926,
1431
- "grad_norm": 0.4982491731643677,
1432
- "learning_rate": 1.6696696696696696e-05,
1433
- "loss": 0.1293,
1434
  "step": 200
1435
  },
1436
  {
1437
  "epoch": 0.5925925925925926,
1438
- "eval_loss": 0.15613213181495667,
1439
- "eval_runtime": 14.1556,
1440
- "eval_samples_per_second": 42.386,
1441
- "eval_steps_per_second": 5.298,
1442
  "step": 200
1443
  },
1444
  {
1445
  "epoch": 0.5955555555555555,
1446
- "grad_norm": 0.8712307214736938,
1447
- "learning_rate": 1.6576576576576578e-05,
1448
- "loss": 0.2965,
1449
  "step": 201
1450
  },
1451
  {
1452
  "epoch": 0.5985185185185186,
1453
- "grad_norm": 0.5411877036094666,
1454
- "learning_rate": 1.6456456456456457e-05,
1455
- "loss": 0.1625,
1456
  "step": 202
1457
  },
1458
  {
1459
  "epoch": 0.6014814814814815,
1460
- "grad_norm": 0.4603814482688904,
1461
- "learning_rate": 1.633633633633634e-05,
1462
- "loss": 0.1036,
1463
  "step": 203
1464
  },
1465
  {
1466
  "epoch": 0.6044444444444445,
1467
- "grad_norm": 0.7661665678024292,
1468
- "learning_rate": 1.6216216216216218e-05,
1469
- "loss": 0.2506,
1470
  "step": 204
1471
  },
1472
  {
1473
  "epoch": 0.6074074074074074,
1474
- "grad_norm": 0.8952736854553223,
1475
- "learning_rate": 1.6096096096096097e-05,
1476
- "loss": 0.2339,
1477
  "step": 205
1478
  },
1479
  {
1480
  "epoch": 0.6103703703703703,
1481
- "grad_norm": 0.46338915824890137,
1482
- "learning_rate": 1.5975975975975976e-05,
1483
- "loss": 0.1297,
1484
  "step": 206
1485
  },
1486
  {
1487
  "epoch": 0.6133333333333333,
1488
- "grad_norm": 0.450524240732193,
1489
- "learning_rate": 1.5855855855855858e-05,
1490
- "loss": 0.0894,
1491
  "step": 207
1492
  },
1493
  {
1494
  "epoch": 0.6162962962962963,
1495
- "grad_norm": 0.460003525018692,
1496
- "learning_rate": 1.5735735735735737e-05,
1497
- "loss": 0.1209,
1498
  "step": 208
1499
  },
1500
  {
1501
  "epoch": 0.6192592592592593,
1502
- "grad_norm": 0.4915820062160492,
1503
- "learning_rate": 1.5615615615615616e-05,
1504
- "loss": 0.1734,
1505
  "step": 209
1506
  },
1507
  {
1508
  "epoch": 0.6222222222222222,
1509
- "grad_norm": 0.5420538187026978,
1510
- "learning_rate": 1.5495495495495498e-05,
1511
- "loss": 0.1814,
1512
  "step": 210
1513
  },
1514
  {
1515
  "epoch": 0.6251851851851852,
1516
- "grad_norm": 0.6205902099609375,
1517
- "learning_rate": 1.5375375375375377e-05,
1518
- "loss": 0.212,
1519
  "step": 211
1520
  },
1521
  {
1522
  "epoch": 0.6281481481481481,
1523
- "grad_norm": 0.5994094014167786,
1524
- "learning_rate": 1.5255255255255257e-05,
1525
- "loss": 0.1902,
1526
  "step": 212
1527
  },
1528
  {
1529
  "epoch": 0.6311111111111111,
1530
- "grad_norm": 0.5871707201004028,
1531
- "learning_rate": 1.5135135135135138e-05,
1532
- "loss": 0.1904,
1533
  "step": 213
1534
  },
1535
  {
1536
  "epoch": 0.6340740740740741,
1537
- "grad_norm": 0.46261611580848694,
1538
- "learning_rate": 1.5015015015015015e-05,
1539
- "loss": 0.1447,
1540
  "step": 214
1541
  },
1542
  {
1543
  "epoch": 0.6370370370370371,
1544
- "grad_norm": 0.46806660294532776,
1545
- "learning_rate": 1.4894894894894895e-05,
1546
- "loss": 0.1213,
1547
  "step": 215
1548
  },
1549
  {
1550
  "epoch": 0.64,
1551
- "grad_norm": 0.5208348035812378,
1552
- "learning_rate": 1.4774774774774776e-05,
1553
- "loss": 0.1593,
1554
  "step": 216
1555
  },
1556
  {
1557
  "epoch": 0.642962962962963,
1558
- "grad_norm": 0.4936933219432831,
1559
- "learning_rate": 1.4654654654654656e-05,
1560
- "loss": 0.1601,
1561
  "step": 217
1562
  },
1563
  {
1564
  "epoch": 0.6459259259259259,
1565
- "grad_norm": 0.4549473524093628,
1566
- "learning_rate": 1.4534534534534537e-05,
1567
- "loss": 0.1223,
1568
  "step": 218
1569
  },
1570
  {
1571
  "epoch": 0.6488888888888888,
1572
- "grad_norm": 0.6784427165985107,
1573
- "learning_rate": 1.4414414414414416e-05,
1574
- "loss": 0.2252,
1575
  "step": 219
1576
  },
1577
  {
1578
  "epoch": 0.6518518518518519,
1579
- "grad_norm": 0.5663540363311768,
1580
- "learning_rate": 1.4294294294294296e-05,
1581
- "loss": 0.1536,
1582
  "step": 220
1583
  },
1584
  {
1585
  "epoch": 0.6548148148148148,
1586
- "grad_norm": 0.5406184196472168,
1587
- "learning_rate": 1.4174174174174175e-05,
1588
- "loss": 0.1761,
1589
  "step": 221
1590
  },
1591
  {
1592
  "epoch": 0.6577777777777778,
1593
- "grad_norm": 0.6471010446548462,
1594
- "learning_rate": 1.4054054054054055e-05,
1595
- "loss": 0.1861,
1596
  "step": 222
1597
  },
1598
  {
1599
  "epoch": 0.6607407407407407,
1600
- "grad_norm": 1.054510235786438,
1601
- "learning_rate": 1.3933933933933934e-05,
1602
- "loss": 0.1393,
1603
  "step": 223
1604
  },
1605
  {
1606
  "epoch": 0.6637037037037037,
1607
- "grad_norm": 0.4873356521129608,
1608
- "learning_rate": 1.3813813813813815e-05,
1609
- "loss": 0.1048,
1610
  "step": 224
1611
  },
1612
  {
1613
  "epoch": 0.6666666666666666,
1614
- "grad_norm": 0.43850815296173096,
1615
- "learning_rate": 1.3693693693693695e-05,
1616
- "loss": 0.1121,
1617
  "step": 225
1618
  },
1619
  {
1620
  "epoch": 0.6696296296296296,
1621
- "grad_norm": 0.6335077285766602,
1622
- "learning_rate": 1.3573573573573576e-05,
1623
- "loss": 0.1376,
1624
  "step": 226
1625
  },
1626
  {
1627
  "epoch": 0.6725925925925926,
1628
- "grad_norm": 0.8401551246643066,
1629
- "learning_rate": 1.3453453453453456e-05,
1630
- "loss": 0.2692,
1631
  "step": 227
1632
  },
1633
  {
1634
  "epoch": 0.6755555555555556,
1635
- "grad_norm": 0.3907381296157837,
1636
- "learning_rate": 1.3333333333333333e-05,
1637
- "loss": 0.0975,
1638
  "step": 228
1639
  },
1640
  {
1641
  "epoch": 0.6785185185185185,
1642
- "grad_norm": 0.4379754364490509,
1643
- "learning_rate": 1.3213213213213214e-05,
1644
- "loss": 0.1044,
1645
  "step": 229
1646
  },
1647
  {
1648
  "epoch": 0.6814814814814815,
1649
- "grad_norm": 0.45303910970687866,
1650
- "learning_rate": 1.3093093093093094e-05,
1651
- "loss": 0.1237,
1652
  "step": 230
1653
  },
1654
  {
1655
  "epoch": 0.6844444444444444,
1656
- "grad_norm": 0.6874549388885498,
1657
- "learning_rate": 1.2972972972972975e-05,
1658
- "loss": 0.2133,
1659
  "step": 231
1660
  },
1661
  {
1662
  "epoch": 0.6874074074074074,
1663
- "grad_norm": 0.5216095447540283,
1664
- "learning_rate": 1.2852852852852854e-05,
1665
- "loss": 0.1624,
1666
  "step": 232
1667
  },
1668
  {
1669
  "epoch": 0.6903703703703704,
1670
- "grad_norm": 0.5089921951293945,
1671
- "learning_rate": 1.2732732732732732e-05,
1672
- "loss": 0.1402,
1673
  "step": 233
1674
  },
1675
  {
1676
  "epoch": 0.6933333333333334,
1677
- "grad_norm": 0.4672398865222931,
1678
- "learning_rate": 1.2612612612612613e-05,
1679
- "loss": 0.1001,
1680
  "step": 234
1681
  },
1682
  {
1683
  "epoch": 0.6962962962962963,
1684
- "grad_norm": 0.7822880148887634,
1685
- "learning_rate": 1.2492492492492493e-05,
1686
- "loss": 0.1654,
1687
  "step": 235
1688
  },
1689
  {
1690
  "epoch": 0.6992592592592592,
1691
- "grad_norm": 0.6954054236412048,
1692
- "learning_rate": 1.2372372372372374e-05,
1693
- "loss": 0.1925,
1694
  "step": 236
1695
  },
1696
  {
1697
  "epoch": 0.7022222222222222,
1698
- "grad_norm": 0.616158127784729,
1699
- "learning_rate": 1.2252252252252253e-05,
1700
- "loss": 0.1848,
1701
  "step": 237
1702
  },
1703
  {
1704
  "epoch": 0.7051851851851851,
1705
- "grad_norm": 0.5877567529678345,
1706
- "learning_rate": 1.2132132132132133e-05,
1707
- "loss": 0.1558,
1708
  "step": 238
1709
  },
1710
  {
1711
  "epoch": 0.7081481481481482,
1712
- "grad_norm": 0.5112048387527466,
1713
- "learning_rate": 1.2012012012012014e-05,
1714
- "loss": 0.1271,
1715
  "step": 239
1716
  },
1717
  {
1718
  "epoch": 0.7111111111111111,
1719
- "grad_norm": 0.6919586062431335,
1720
- "learning_rate": 1.1891891891891894e-05,
1721
- "loss": 0.2025,
1722
  "step": 240
1723
  },
1724
  {
1725
  "epoch": 0.7140740740740741,
1726
- "grad_norm": 0.6366375684738159,
1727
- "learning_rate": 1.1771771771771771e-05,
1728
- "loss": 0.1876,
1729
  "step": 241
1730
  },
1731
  {
1732
  "epoch": 0.717037037037037,
1733
- "grad_norm": 0.5530580282211304,
1734
- "learning_rate": 1.1651651651651652e-05,
1735
- "loss": 0.1584,
1736
  "step": 242
1737
  },
1738
  {
1739
  "epoch": 0.72,
1740
- "grad_norm": 0.695169985294342,
1741
- "learning_rate": 1.1531531531531532e-05,
1742
- "loss": 0.2448,
1743
  "step": 243
1744
  },
1745
  {
1746
  "epoch": 0.7229629629629629,
1747
- "grad_norm": 0.5245233774185181,
1748
- "learning_rate": 1.1411411411411413e-05,
1749
- "loss": 0.1295,
1750
  "step": 244
1751
  },
1752
  {
1753
  "epoch": 0.725925925925926,
1754
- "grad_norm": 0.49458956718444824,
1755
- "learning_rate": 1.1291291291291293e-05,
1756
- "loss": 0.106,
1757
  "step": 245
1758
  },
1759
  {
1760
  "epoch": 0.7288888888888889,
1761
- "grad_norm": 0.6384578943252563,
1762
- "learning_rate": 1.117117117117117e-05,
1763
- "loss": 0.201,
1764
  "step": 246
1765
  },
1766
  {
1767
  "epoch": 0.7318518518518519,
1768
- "grad_norm": 0.5231572389602661,
1769
- "learning_rate": 1.1051051051051051e-05,
1770
- "loss": 0.1125,
1771
  "step": 247
1772
  },
1773
  {
1774
  "epoch": 0.7348148148148148,
1775
- "grad_norm": 0.5725231170654297,
1776
- "learning_rate": 1.0930930930930932e-05,
1777
- "loss": 0.1339,
1778
  "step": 248
1779
  },
1780
  {
1781
  "epoch": 0.7377777777777778,
1782
- "grad_norm": 0.7527248859405518,
1783
- "learning_rate": 1.0810810810810812e-05,
1784
- "loss": 0.2313,
1785
  "step": 249
1786
  },
1787
  {
1788
  "epoch": 0.7407407407407407,
1789
- "grad_norm": 0.6336560249328613,
1790
- "learning_rate": 1.0690690690690693e-05,
1791
- "loss": 0.1783,
1792
  "step": 250
1793
  },
1794
  {
1795
  "epoch": 0.7407407407407407,
1796
- "eval_loss": 0.15331809222698212,
1797
- "eval_runtime": 14.162,
1798
- "eval_samples_per_second": 42.367,
1799
- "eval_steps_per_second": 5.296,
1800
  "step": 250
1801
  },
1802
  {
1803
  "epoch": 0.7437037037037038,
1804
- "grad_norm": 0.571017861366272,
1805
- "learning_rate": 1.0570570570570571e-05,
1806
- "loss": 0.157,
1807
  "step": 251
1808
  },
1809
  {
1810
  "epoch": 0.7466666666666667,
1811
- "grad_norm": 0.4841454029083252,
1812
- "learning_rate": 1.0450450450450452e-05,
1813
- "loss": 0.1407,
1814
  "step": 252
1815
  },
1816
  {
1817
  "epoch": 0.7496296296296296,
1818
- "grad_norm": 0.6806753873825073,
1819
- "learning_rate": 1.033033033033033e-05,
1820
- "loss": 0.1965,
1821
  "step": 253
1822
  },
1823
  {
1824
  "epoch": 0.7525925925925926,
1825
- "grad_norm": 0.5572500824928284,
1826
- "learning_rate": 1.0210210210210211e-05,
1827
  "loss": 0.1413,
1828
  "step": 254
1829
  },
1830
  {
1831
  "epoch": 0.7555555555555555,
1832
- "grad_norm": 0.6399625539779663,
1833
- "learning_rate": 1.009009009009009e-05,
1834
- "loss": 0.205,
1835
  "step": 255
1836
  },
1837
  {
1838
  "epoch": 0.7585185185185185,
1839
- "grad_norm": 0.5794781446456909,
1840
- "learning_rate": 9.96996996996997e-06,
1841
- "loss": 0.1728,
1842
  "step": 256
1843
  },
1844
  {
1845
  "epoch": 0.7614814814814815,
1846
- "grad_norm": 0.5406576991081238,
1847
- "learning_rate": 9.849849849849851e-06,
1848
- "loss": 0.2012,
1849
  "step": 257
1850
  },
1851
  {
1852
  "epoch": 0.7644444444444445,
1853
- "grad_norm": 0.6478751301765442,
1854
- "learning_rate": 9.729729729729732e-06,
1855
- "loss": 0.1839,
1856
  "step": 258
1857
  },
1858
  {
1859
  "epoch": 0.7674074074074074,
1860
- "grad_norm": 0.6257129907608032,
1861
- "learning_rate": 9.60960960960961e-06,
1862
- "loss": 0.1845,
1863
  "step": 259
1864
  },
1865
  {
1866
  "epoch": 0.7703703703703704,
1867
- "grad_norm": 0.5679949522018433,
1868
- "learning_rate": 9.489489489489491e-06,
1869
- "loss": 0.1645,
1870
  "step": 260
1871
  },
1872
  {
1873
  "epoch": 0.7733333333333333,
1874
- "grad_norm": 0.7256799340248108,
1875
- "learning_rate": 9.36936936936937e-06,
1876
- "loss": 0.2294,
1877
  "step": 261
1878
  },
1879
  {
1880
  "epoch": 0.7762962962962963,
1881
- "grad_norm": 0.7504456043243408,
1882
- "learning_rate": 9.24924924924925e-06,
1883
- "loss": 0.2136,
1884
  "step": 262
1885
  },
1886
  {
1887
  "epoch": 0.7792592592592592,
1888
- "grad_norm": 0.765540361404419,
1889
- "learning_rate": 9.129129129129129e-06,
1890
- "loss": 0.2449,
1891
  "step": 263
1892
  },
1893
  {
1894
  "epoch": 0.7822222222222223,
1895
- "grad_norm": 0.4951387047767639,
1896
- "learning_rate": 9.00900900900901e-06,
1897
- "loss": 0.1152,
1898
  "step": 264
1899
  },
1900
  {
1901
  "epoch": 0.7851851851851852,
1902
- "grad_norm": 0.5278469920158386,
1903
- "learning_rate": 8.888888888888888e-06,
1904
- "loss": 0.1178,
1905
  "step": 265
1906
  },
1907
  {
1908
  "epoch": 0.7881481481481482,
1909
- "grad_norm": 0.47035062313079834,
1910
- "learning_rate": 8.768768768768769e-06,
1911
- "loss": 0.1235,
1912
  "step": 266
1913
  },
1914
  {
1915
  "epoch": 0.7911111111111111,
1916
- "grad_norm": 0.5930572748184204,
1917
- "learning_rate": 8.64864864864865e-06,
1918
- "loss": 0.1905,
1919
  "step": 267
1920
  },
1921
  {
1922
  "epoch": 0.794074074074074,
1923
- "grad_norm": 0.65501868724823,
1924
- "learning_rate": 8.52852852852853e-06,
1925
- "loss": 0.1711,
1926
  "step": 268
1927
  },
1928
  {
1929
  "epoch": 0.797037037037037,
1930
- "grad_norm": 0.6682934761047363,
1931
- "learning_rate": 8.408408408408409e-06,
1932
- "loss": 0.1876,
1933
  "step": 269
1934
  },
1935
  {
1936
  "epoch": 0.8,
1937
- "grad_norm": 0.7851743698120117,
1938
- "learning_rate": 8.288288288288289e-06,
1939
- "loss": 0.2633,
1940
  "step": 270
1941
  },
1942
  {
1943
  "epoch": 0.802962962962963,
1944
- "grad_norm": 0.5856854915618896,
1945
- "learning_rate": 8.16816816816817e-06,
1946
- "loss": 0.1597,
1947
  "step": 271
1948
  },
1949
  {
1950
  "epoch": 0.8059259259259259,
1951
- "grad_norm": 0.7132943272590637,
1952
- "learning_rate": 8.048048048048048e-06,
1953
- "loss": 0.2031,
1954
  "step": 272
1955
  },
1956
  {
1957
  "epoch": 0.8088888888888889,
1958
- "grad_norm": 0.7559059858322144,
1959
- "learning_rate": 7.927927927927929e-06,
1960
- "loss": 0.2463,
1961
  "step": 273
1962
  },
1963
  {
1964
  "epoch": 0.8118518518518518,
1965
- "grad_norm": 0.4045116901397705,
1966
- "learning_rate": 7.807807807807808e-06,
1967
- "loss": 0.0895,
1968
  "step": 274
1969
  },
1970
  {
1971
  "epoch": 0.8148148148148148,
1972
- "grad_norm": 0.6170985102653503,
1973
- "learning_rate": 7.687687687687688e-06,
1974
- "loss": 0.2118,
1975
  "step": 275
1976
  },
1977
  {
1978
  "epoch": 0.8177777777777778,
1979
- "grad_norm": 0.8078508377075195,
1980
- "learning_rate": 7.567567567567569e-06,
1981
- "loss": 0.2322,
1982
  "step": 276
1983
  },
1984
  {
1985
  "epoch": 0.8207407407407408,
1986
- "grad_norm": 0.5983420610427856,
1987
- "learning_rate": 7.447447447447448e-06,
1988
- "loss": 0.1695,
1989
  "step": 277
1990
  },
1991
  {
1992
  "epoch": 0.8237037037037037,
1993
- "grad_norm": 0.4243724048137665,
1994
- "learning_rate": 7.327327327327328e-06,
1995
- "loss": 0.0947,
1996
  "step": 278
1997
  },
1998
  {
1999
  "epoch": 0.8266666666666667,
2000
- "grad_norm": 0.5851766467094421,
2001
- "learning_rate": 7.207207207207208e-06,
2002
- "loss": 0.1528,
2003
  "step": 279
2004
  },
2005
  {
2006
  "epoch": 0.8296296296296296,
2007
- "grad_norm": 0.7343803644180298,
2008
- "learning_rate": 7.087087087087087e-06,
2009
- "loss": 0.2355,
2010
  "step": 280
2011
  },
2012
  {
2013
  "epoch": 0.8325925925925926,
2014
- "grad_norm": 0.4519592225551605,
2015
- "learning_rate": 6.966966966966967e-06,
2016
- "loss": 0.103,
2017
  "step": 281
2018
  },
2019
  {
2020
  "epoch": 0.8355555555555556,
2021
- "grad_norm": 0.6761317849159241,
2022
- "learning_rate": 6.846846846846848e-06,
2023
- "loss": 0.199,
2024
  "step": 282
2025
  },
2026
  {
2027
  "epoch": 0.8385185185185186,
2028
- "grad_norm": 0.5260489583015442,
2029
- "learning_rate": 6.726726726726728e-06,
2030
- "loss": 0.148,
2031
  "step": 283
2032
  },
2033
  {
2034
  "epoch": 0.8414814814814815,
2035
- "grad_norm": 0.6167539954185486,
2036
- "learning_rate": 6.606606606606607e-06,
2037
- "loss": 0.1646,
2038
  "step": 284
2039
  },
2040
  {
2041
  "epoch": 0.8444444444444444,
2042
- "grad_norm": 0.566779613494873,
2043
- "learning_rate": 6.486486486486487e-06,
2044
- "loss": 0.1233,
2045
  "step": 285
2046
  },
2047
  {
2048
  "epoch": 0.8474074074074074,
2049
- "grad_norm": 0.4536038637161255,
2050
- "learning_rate": 6.366366366366366e-06,
2051
- "loss": 0.1249,
2052
  "step": 286
2053
  },
2054
  {
2055
  "epoch": 0.8503703703703703,
2056
- "grad_norm": 0.5566939115524292,
2057
- "learning_rate": 6.246246246246247e-06,
2058
  "loss": 0.1248,
2059
  "step": 287
2060
  },
2061
  {
2062
  "epoch": 0.8533333333333334,
2063
- "grad_norm": 0.45816588401794434,
2064
- "learning_rate": 6.126126126126126e-06,
2065
- "loss": 0.1085,
2066
  "step": 288
2067
  },
2068
  {
2069
  "epoch": 0.8562962962962963,
2070
- "grad_norm": 0.5317875742912292,
2071
- "learning_rate": 6.006006006006007e-06,
2072
- "loss": 0.1607,
2073
  "step": 289
2074
  },
2075
  {
2076
  "epoch": 0.8592592592592593,
2077
- "grad_norm": 0.4422662556171417,
2078
- "learning_rate": 5.885885885885886e-06,
2079
- "loss": 0.0947,
2080
  "step": 290
2081
  },
2082
  {
2083
  "epoch": 0.8622222222222222,
2084
- "grad_norm": 0.4851950705051422,
2085
- "learning_rate": 5.765765765765766e-06,
2086
- "loss": 0.1223,
2087
  "step": 291
2088
  },
2089
  {
2090
  "epoch": 0.8651851851851852,
2091
- "grad_norm": 0.46948176622390747,
2092
- "learning_rate": 5.645645645645647e-06,
2093
  "loss": 0.1234,
2094
  "step": 292
2095
  },
2096
  {
2097
  "epoch": 0.8681481481481481,
2098
- "grad_norm": 0.519067108631134,
2099
- "learning_rate": 5.5255255255255255e-06,
2100
- "loss": 0.1134,
2101
  "step": 293
2102
  },
2103
  {
2104
  "epoch": 0.8711111111111111,
2105
- "grad_norm": 0.711076557636261,
2106
- "learning_rate": 5.405405405405406e-06,
2107
- "loss": 0.2262,
2108
  "step": 294
2109
  },
2110
  {
2111
  "epoch": 0.8740740740740741,
2112
- "grad_norm": 0.4156275689601898,
2113
- "learning_rate": 5.285285285285286e-06,
2114
- "loss": 0.1186,
2115
  "step": 295
2116
  },
2117
  {
2118
  "epoch": 0.8770370370370371,
2119
- "grad_norm": 0.6329057812690735,
2120
- "learning_rate": 5.165165165165165e-06,
2121
- "loss": 0.1551,
2122
  "step": 296
2123
  },
2124
  {
2125
  "epoch": 0.88,
2126
- "grad_norm": 0.5040969252586365,
2127
- "learning_rate": 5.045045045045045e-06,
2128
- "loss": 0.1319,
2129
  "step": 297
2130
  },
2131
  {
2132
  "epoch": 0.882962962962963,
2133
- "grad_norm": 0.5534515380859375,
2134
- "learning_rate": 4.9249249249249255e-06,
2135
- "loss": 0.1774,
2136
  "step": 298
2137
  },
2138
  {
2139
  "epoch": 0.8859259259259259,
2140
- "grad_norm": 0.4600047171115875,
2141
- "learning_rate": 4.804804804804805e-06,
2142
- "loss": 0.1293,
2143
  "step": 299
2144
  },
2145
  {
2146
  "epoch": 0.8888888888888888,
2147
- "grad_norm": 0.45221608877182007,
2148
- "learning_rate": 4.684684684684685e-06,
2149
- "loss": 0.1121,
2150
  "step": 300
2151
  },
2152
  {
2153
  "epoch": 0.8888888888888888,
2154
- "eval_loss": 0.15030579268932343,
2155
- "eval_runtime": 14.1488,
2156
- "eval_samples_per_second": 42.406,
2157
- "eval_steps_per_second": 5.301,
2158
  "step": 300
2159
  },
2160
  {
2161
  "epoch": 0.8918518518518519,
2162
- "grad_norm": 0.6437437534332275,
2163
- "learning_rate": 4.5645645645645645e-06,
2164
- "loss": 0.1875,
2165
  "step": 301
2166
  },
2167
  {
2168
  "epoch": 0.8948148148148148,
2169
- "grad_norm": 0.6835086345672607,
2170
- "learning_rate": 4.444444444444444e-06,
2171
- "loss": 0.1656,
2172
  "step": 302
2173
  },
2174
  {
2175
  "epoch": 0.8977777777777778,
2176
- "grad_norm": 0.44174015522003174,
2177
- "learning_rate": 4.324324324324325e-06,
2178
- "loss": 0.0864,
2179
  "step": 303
2180
  },
2181
  {
2182
  "epoch": 0.9007407407407407,
2183
- "grad_norm": 0.6070652008056641,
2184
- "learning_rate": 4.204204204204204e-06,
2185
- "loss": 0.2062,
2186
  "step": 304
2187
  },
2188
  {
2189
  "epoch": 0.9037037037037037,
2190
- "grad_norm": 0.5331738591194153,
2191
- "learning_rate": 4.084084084084085e-06,
2192
- "loss": 0.1067,
2193
  "step": 305
2194
  },
2195
  {
2196
  "epoch": 0.9066666666666666,
2197
- "grad_norm": 0.6096631288528442,
2198
- "learning_rate": 3.9639639639639645e-06,
2199
- "loss": 0.129,
2200
  "step": 306
2201
  },
2202
  {
2203
  "epoch": 0.9096296296296297,
2204
- "grad_norm": 0.4424182176589966,
2205
- "learning_rate": 3.843843843843844e-06,
2206
- "loss": 0.1138,
2207
  "step": 307
2208
  },
2209
  {
2210
  "epoch": 0.9125925925925926,
2211
- "grad_norm": 0.636680006980896,
2212
- "learning_rate": 3.723723723723724e-06,
2213
- "loss": 0.2071,
2214
  "step": 308
2215
  },
2216
  {
2217
  "epoch": 0.9155555555555556,
2218
- "grad_norm": 0.6847959756851196,
2219
- "learning_rate": 3.603603603603604e-06,
2220
- "loss": 0.2153,
2221
  "step": 309
2222
  },
2223
  {
2224
  "epoch": 0.9185185185185185,
2225
- "grad_norm": 0.608707845211029,
2226
- "learning_rate": 3.4834834834834835e-06,
2227
- "loss": 0.1663,
2228
  "step": 310
2229
  },
2230
  {
2231
  "epoch": 0.9214814814814815,
2232
- "grad_norm": 0.36671656370162964,
2233
- "learning_rate": 3.363363363363364e-06,
2234
- "loss": 0.0907,
2235
  "step": 311
2236
  },
2237
  {
2238
  "epoch": 0.9244444444444444,
2239
- "grad_norm": 0.47958606481552124,
2240
- "learning_rate": 3.2432432432432437e-06,
2241
- "loss": 0.1316,
2242
  "step": 312
2243
  },
2244
  {
2245
  "epoch": 0.9274074074074075,
2246
- "grad_norm": 0.6266390085220337,
2247
- "learning_rate": 3.1231231231231234e-06,
2248
- "loss": 0.1894,
2249
  "step": 313
2250
  },
2251
  {
2252
  "epoch": 0.9303703703703704,
2253
- "grad_norm": 0.45007410645484924,
2254
- "learning_rate": 3.0030030030030034e-06,
2255
- "loss": 0.1002,
2256
  "step": 314
2257
  },
2258
  {
2259
  "epoch": 0.9333333333333333,
2260
- "grad_norm": 0.6055171489715576,
2261
- "learning_rate": 2.882882882882883e-06,
2262
- "loss": 0.1693,
2263
  "step": 315
2264
  },
2265
  {
2266
  "epoch": 0.9362962962962963,
2267
- "grad_norm": 0.5571359395980835,
2268
- "learning_rate": 2.7627627627627628e-06,
2269
- "loss": 0.19,
2270
  "step": 316
2271
  },
2272
  {
2273
  "epoch": 0.9392592592592592,
2274
- "grad_norm": 0.5865700244903564,
2275
- "learning_rate": 2.642642642642643e-06,
2276
- "loss": 0.1477,
2277
  "step": 317
2278
  },
2279
  {
2280
  "epoch": 0.9422222222222222,
2281
- "grad_norm": 0.5800295472145081,
2282
- "learning_rate": 2.5225225225225225e-06,
2283
- "loss": 0.1541,
2284
  "step": 318
2285
  },
2286
  {
2287
  "epoch": 0.9451851851851852,
2288
- "grad_norm": 0.48500728607177734,
2289
- "learning_rate": 2.4024024024024026e-06,
2290
- "loss": 0.1543,
2291
  "step": 319
2292
  },
2293
  {
2294
  "epoch": 0.9481481481481482,
2295
- "grad_norm": 0.5297741293907166,
2296
- "learning_rate": 2.2822822822822822e-06,
2297
- "loss": 0.1386,
2298
  "step": 320
2299
  },
2300
  {
2301
  "epoch": 0.9511111111111111,
2302
- "grad_norm": 0.5396517515182495,
2303
- "learning_rate": 2.1621621621621623e-06,
2304
- "loss": 0.1409,
2305
  "step": 321
2306
  },
2307
  {
2308
  "epoch": 0.9540740740740741,
2309
- "grad_norm": 0.5130207538604736,
2310
- "learning_rate": 2.0420420420420424e-06,
2311
- "loss": 0.1588,
2312
  "step": 322
2313
  },
2314
  {
2315
  "epoch": 0.957037037037037,
2316
- "grad_norm": 0.46411725878715515,
2317
- "learning_rate": 1.921921921921922e-06,
2318
- "loss": 0.1384,
2319
  "step": 323
2320
  },
2321
  {
2322
  "epoch": 0.96,
2323
- "grad_norm": 0.4843505024909973,
2324
- "learning_rate": 1.801801801801802e-06,
2325
- "loss": 0.106,
2326
  "step": 324
2327
  },
2328
  {
2329
  "epoch": 0.9629629629629629,
2330
- "grad_norm": 0.4346297085285187,
2331
- "learning_rate": 1.681681681681682e-06,
2332
- "loss": 0.1088,
2333
  "step": 325
2334
  },
2335
  {
2336
  "epoch": 0.965925925925926,
2337
- "grad_norm": 0.6445417404174805,
2338
- "learning_rate": 1.5615615615615617e-06,
2339
- "loss": 0.2073,
2340
  "step": 326
2341
  },
2342
  {
2343
  "epoch": 0.9688888888888889,
2344
- "grad_norm": 0.44274792075157166,
2345
- "learning_rate": 1.4414414414414416e-06,
2346
- "loss": 0.1078,
2347
  "step": 327
2348
  },
2349
  {
2350
  "epoch": 0.9718518518518519,
2351
- "grad_norm": 0.5982376933097839,
2352
- "learning_rate": 1.3213213213213214e-06,
2353
- "loss": 0.174,
2354
  "step": 328
2355
  },
2356
  {
2357
  "epoch": 0.9748148148148148,
2358
- "grad_norm": 0.7146595120429993,
2359
- "learning_rate": 1.2012012012012013e-06,
2360
- "loss": 0.1864,
2361
  "step": 329
2362
  },
2363
  {
2364
  "epoch": 0.9777777777777777,
2365
- "grad_norm": 0.5940850973129272,
2366
- "learning_rate": 1.0810810810810812e-06,
2367
- "loss": 0.1094,
2368
  "step": 330
2369
  },
2370
  {
2371
  "epoch": 0.9807407407407407,
2372
- "grad_norm": 0.7017959952354431,
2373
- "learning_rate": 9.60960960960961e-07,
2374
- "loss": 0.2235,
2375
  "step": 331
2376
  },
2377
  {
2378
  "epoch": 0.9837037037037037,
2379
- "grad_norm": 0.5169268846511841,
2380
- "learning_rate": 8.40840840840841e-07,
2381
- "loss": 0.1617,
2382
  "step": 332
2383
  },
2384
  {
2385
  "epoch": 0.9866666666666667,
2386
- "grad_norm": 0.4670327305793762,
2387
- "learning_rate": 7.207207207207208e-07,
2388
- "loss": 0.1226,
2389
  "step": 333
2390
  },
2391
  {
2392
  "epoch": 0.9896296296296296,
2393
- "grad_norm": 0.4512961208820343,
2394
- "learning_rate": 6.006006006006006e-07,
2395
- "loss": 0.1149,
2396
  "step": 334
2397
  },
2398
  {
2399
  "epoch": 0.9925925925925926,
2400
- "grad_norm": 0.6011990904808044,
2401
- "learning_rate": 4.804804804804805e-07,
2402
- "loss": 0.1816,
2403
  "step": 335
2404
  },
2405
  {
2406
  "epoch": 0.9955555555555555,
2407
- "grad_norm": 0.6501447558403015,
2408
- "learning_rate": 3.603603603603604e-07,
2409
- "loss": 0.1982,
2410
  "step": 336
2411
  },
2412
  {
2413
  "epoch": 0.9985185185185185,
2414
- "grad_norm": 0.6634663939476013,
2415
- "learning_rate": 2.4024024024024026e-07,
2416
- "loss": 0.1787,
2417
  "step": 337
2418
  },
2419
  {
2420
  "epoch": 1.0,
2421
- "grad_norm": 0.8305102586746216,
2422
- "learning_rate": 1.2012012012012013e-07,
2423
- "loss": 0.1724,
2424
  "step": 338
2425
  }
2426
  ],
 
11
  "log_history": [
12
  {
13
  "epoch": 0.002962962962962963,
14
+ "grad_norm": 11.746185302734375,
15
  "learning_rate": 0.0,
16
  "loss": 1.4603,
17
  "step": 1
18
  },
19
  {
20
  "epoch": 0.005925925925925926,
21
+ "grad_norm": 12.557947158813477,
22
+ "learning_rate": 6e-06,
23
  "loss": 1.662,
24
  "step": 2
25
  },
26
  {
27
  "epoch": 0.008888888888888889,
28
+ "grad_norm": 10.80350112915039,
29
+ "learning_rate": 1.2e-05,
30
+ "loss": 1.482,
31
  "step": 3
32
  },
33
  {
34
  "epoch": 0.011851851851851851,
35
+ "grad_norm": 8.621623992919922,
36
+ "learning_rate": 1.8e-05,
37
+ "loss": 1.1961,
38
  "step": 4
39
  },
40
  {
41
  "epoch": 0.014814814814814815,
42
+ "grad_norm": 5.72680139541626,
43
+ "learning_rate": 2.4e-05,
44
+ "loss": 0.7526,
45
  "step": 5
46
  },
47
  {
48
  "epoch": 0.017777777777777778,
49
+ "grad_norm": 8.962793350219727,
50
+ "learning_rate": 3e-05,
51
+ "loss": 0.7239,
52
  "step": 6
53
  },
54
  {
55
  "epoch": 0.02074074074074074,
56
+ "grad_norm": 4.835477828979492,
57
+ "learning_rate": 2.9909909909909908e-05,
58
+ "loss": 0.4284,
59
  "step": 7
60
  },
61
  {
62
  "epoch": 0.023703703703703703,
63
+ "grad_norm": 2.002763032913208,
64
+ "learning_rate": 2.9819819819819822e-05,
65
+ "loss": 0.3711,
66
  "step": 8
67
  },
68
  {
69
  "epoch": 0.02666666666666667,
70
+ "grad_norm": 1.270501971244812,
71
+ "learning_rate": 2.972972972972973e-05,
72
+ "loss": 0.285,
73
  "step": 9
74
  },
75
  {
76
  "epoch": 0.02962962962962963,
77
+ "grad_norm": 1.124094843864441,
78
+ "learning_rate": 2.963963963963964e-05,
79
+ "loss": 0.2939,
80
  "step": 10
81
  },
82
  {
83
  "epoch": 0.03259259259259259,
84
+ "grad_norm": 0.8928890824317932,
85
+ "learning_rate": 2.954954954954955e-05,
86
+ "loss": 0.2322,
87
  "step": 11
88
  },
89
  {
90
  "epoch": 0.035555555555555556,
91
+ "grad_norm": 1.1215291023254395,
92
+ "learning_rate": 2.945945945945946e-05,
93
+ "loss": 0.3284,
94
  "step": 12
95
  },
96
  {
97
  "epoch": 0.03851851851851852,
98
+ "grad_norm": 0.6896376609802246,
99
+ "learning_rate": 2.936936936936937e-05,
100
+ "loss": 0.1688,
101
  "step": 13
102
  },
103
  {
104
  "epoch": 0.04148148148148148,
105
+ "grad_norm": 0.9925211668014526,
106
+ "learning_rate": 2.927927927927928e-05,
107
+ "loss": 0.3048,
108
  "step": 14
109
  },
110
  {
111
  "epoch": 0.044444444444444446,
112
+ "grad_norm": 0.7719022631645203,
113
+ "learning_rate": 2.918918918918919e-05,
114
+ "loss": 0.1955,
115
  "step": 15
116
  },
117
  {
118
  "epoch": 0.047407407407407405,
119
+ "grad_norm": 0.887997031211853,
120
+ "learning_rate": 2.90990990990991e-05,
121
+ "loss": 0.2717,
122
  "step": 16
123
  },
124
  {
125
  "epoch": 0.05037037037037037,
126
+ "grad_norm": 0.8488534092903137,
127
+ "learning_rate": 2.900900900900901e-05,
128
+ "loss": 0.2596,
129
  "step": 17
130
  },
131
  {
132
  "epoch": 0.05333333333333334,
133
+ "grad_norm": 0.7735264897346497,
134
+ "learning_rate": 2.891891891891892e-05,
135
+ "loss": 0.1438,
136
  "step": 18
137
  },
138
  {
139
  "epoch": 0.056296296296296296,
140
+ "grad_norm": 0.9446486234664917,
141
+ "learning_rate": 2.8828828828828828e-05,
142
+ "loss": 0.2588,
143
  "step": 19
144
  },
145
  {
146
  "epoch": 0.05925925925925926,
147
+ "grad_norm": 1.0172632932662964,
148
+ "learning_rate": 2.873873873873874e-05,
149
+ "loss": 0.3043,
150
  "step": 20
151
  },
152
  {
153
  "epoch": 0.06222222222222222,
154
+ "grad_norm": 0.9288851618766785,
155
+ "learning_rate": 2.864864864864865e-05,
156
+ "loss": 0.178,
157
  "step": 21
158
  },
159
  {
160
  "epoch": 0.06518518518518518,
161
+ "grad_norm": 1.0964614152908325,
162
+ "learning_rate": 2.855855855855856e-05,
163
+ "loss": 0.2958,
164
  "step": 22
165
  },
166
  {
167
  "epoch": 0.06814814814814815,
168
+ "grad_norm": 0.925119936466217,
169
+ "learning_rate": 2.846846846846847e-05,
170
+ "loss": 0.3181,
171
  "step": 23
172
  },
173
  {
174
  "epoch": 0.07111111111111111,
175
+ "grad_norm": 1.1452863216400146,
176
+ "learning_rate": 2.8378378378378378e-05,
177
+ "loss": 0.3221,
178
  "step": 24
179
  },
180
  {
181
  "epoch": 0.07407407407407407,
182
+ "grad_norm": 0.737485408782959,
183
+ "learning_rate": 2.828828828828829e-05,
184
+ "loss": 0.191,
185
  "step": 25
186
  },
187
  {
188
  "epoch": 0.07703703703703704,
189
+ "grad_norm": 0.8521791696548462,
190
+ "learning_rate": 2.81981981981982e-05,
191
+ "loss": 0.2746,
192
  "step": 26
193
  },
194
  {
195
  "epoch": 0.08,
196
+ "grad_norm": 1.0057052373886108,
197
+ "learning_rate": 2.8108108108108107e-05,
198
+ "loss": 0.3188,
199
  "step": 27
200
  },
201
  {
202
  "epoch": 0.08296296296296296,
203
+ "grad_norm": 0.9865684509277344,
204
+ "learning_rate": 2.801801801801802e-05,
205
+ "loss": 0.3238,
206
  "step": 28
207
  },
208
  {
209
  "epoch": 0.08592592592592592,
210
+ "grad_norm": 0.7946491837501526,
211
+ "learning_rate": 2.792792792792793e-05,
212
+ "loss": 0.2466,
213
  "step": 29
214
  },
215
  {
216
  "epoch": 0.08888888888888889,
217
+ "grad_norm": 0.650829553604126,
218
+ "learning_rate": 2.7837837837837836e-05,
219
+ "loss": 0.1926,
220
  "step": 30
221
  },
222
  {
223
  "epoch": 0.09185185185185185,
224
+ "grad_norm": 0.646949291229248,
225
+ "learning_rate": 2.774774774774775e-05,
226
+ "loss": 0.1657,
227
  "step": 31
228
  },
229
  {
230
  "epoch": 0.09481481481481481,
231
+ "grad_norm": 0.43284088373184204,
232
+ "learning_rate": 2.7657657657657658e-05,
233
+ "loss": 0.0852,
234
  "step": 32
235
  },
236
  {
237
  "epoch": 0.09777777777777778,
238
+ "grad_norm": 0.597963809967041,
239
+ "learning_rate": 2.756756756756757e-05,
240
+ "loss": 0.1536,
241
  "step": 33
242
  },
243
  {
244
  "epoch": 0.10074074074074074,
245
+ "grad_norm": 0.706259548664093,
246
+ "learning_rate": 2.747747747747748e-05,
247
  "loss": 0.1996,
248
  "step": 34
249
  },
250
  {
251
  "epoch": 0.1037037037037037,
252
+ "grad_norm": 0.9260814189910889,
253
+ "learning_rate": 2.7387387387387387e-05,
254
+ "loss": 0.291,
255
  "step": 35
256
  },
257
  {
258
  "epoch": 0.10666666666666667,
259
+ "grad_norm": 0.7700441479682922,
260
+ "learning_rate": 2.7297297297297298e-05,
261
+ "loss": 0.1879,
262
  "step": 36
263
  },
264
  {
265
  "epoch": 0.10962962962962963,
266
+ "grad_norm": 0.7443490624427795,
267
+ "learning_rate": 2.720720720720721e-05,
268
+ "loss": 0.2275,
269
  "step": 37
270
  },
271
  {
272
  "epoch": 0.11259259259259259,
273
+ "grad_norm": 0.7297588586807251,
274
+ "learning_rate": 2.7117117117117116e-05,
275
+ "loss": 0.2054,
276
  "step": 38
277
  },
278
  {
279
  "epoch": 0.11555555555555555,
280
+ "grad_norm": 0.7750630974769592,
281
+ "learning_rate": 2.7027027027027027e-05,
282
+ "loss": 0.1496,
283
  "step": 39
284
  },
285
  {
286
  "epoch": 0.11851851851851852,
287
+ "grad_norm": 0.8763120770454407,
288
+ "learning_rate": 2.6936936936936938e-05,
289
+ "loss": 0.171,
290
  "step": 40
291
  },
292
  {
293
  "epoch": 0.12148148148148148,
294
+ "grad_norm": 0.9478317499160767,
295
+ "learning_rate": 2.684684684684685e-05,
296
+ "loss": 0.2252,
297
  "step": 41
298
  },
299
  {
300
  "epoch": 0.12444444444444444,
301
+ "grad_norm": 1.028319239616394,
302
+ "learning_rate": 2.6756756756756756e-05,
303
+ "loss": 0.3022,
304
  "step": 42
305
  },
306
  {
307
  "epoch": 0.1274074074074074,
308
+ "grad_norm": 0.5855357050895691,
309
+ "learning_rate": 2.6666666666666667e-05,
310
+ "loss": 0.1266,
311
  "step": 43
312
  },
313
  {
314
  "epoch": 0.13037037037037036,
315
+ "grad_norm": 0.7112776637077332,
316
+ "learning_rate": 2.6576576576576577e-05,
317
+ "loss": 0.1682,
318
  "step": 44
319
  },
320
  {
321
  "epoch": 0.13333333333333333,
322
+ "grad_norm": 0.7943480610847473,
323
+ "learning_rate": 2.6486486486486485e-05,
324
+ "loss": 0.2211,
325
  "step": 45
326
  },
327
  {
328
  "epoch": 0.1362962962962963,
329
+ "grad_norm": 0.8550866842269897,
330
+ "learning_rate": 2.63963963963964e-05,
331
+ "loss": 0.2552,
332
  "step": 46
333
  },
334
  {
335
  "epoch": 0.13925925925925925,
336
+ "grad_norm": 1.2403337955474854,
337
+ "learning_rate": 2.6306306306306306e-05,
338
+ "loss": 0.3602,
339
  "step": 47
340
  },
341
  {
342
  "epoch": 0.14222222222222222,
343
+ "grad_norm": 0.5785015821456909,
344
+ "learning_rate": 2.6216216216216217e-05,
345
+ "loss": 0.1206,
346
  "step": 48
347
  },
348
  {
349
  "epoch": 0.1451851851851852,
350
+ "grad_norm": 0.8272493481636047,
351
+ "learning_rate": 2.6126126126126128e-05,
352
+ "loss": 0.1927,
353
  "step": 49
354
  },
355
  {
356
  "epoch": 0.14814814814814814,
357
+ "grad_norm": 0.6352198719978333,
358
+ "learning_rate": 2.6036036036036035e-05,
359
+ "loss": 0.1525,
360
  "step": 50
361
  },
362
  {
363
  "epoch": 0.14814814814814814,
364
+ "eval_loss": 0.18184001743793488,
365
+ "eval_runtime": 14.3322,
366
+ "eval_samples_per_second": 41.864,
367
+ "eval_steps_per_second": 5.233,
368
  "step": 50
369
  },
370
  {
371
  "epoch": 0.1511111111111111,
372
+ "grad_norm": 0.9342156648635864,
373
+ "learning_rate": 2.594594594594595e-05,
374
+ "loss": 0.2809,
375
  "step": 51
376
  },
377
  {
378
  "epoch": 0.15407407407407409,
379
+ "grad_norm": 0.8072832822799683,
380
+ "learning_rate": 2.5855855855855857e-05,
381
+ "loss": 0.2345,
382
  "step": 52
383
  },
384
  {
385
  "epoch": 0.15703703703703703,
386
+ "grad_norm": 0.8556937575340271,
387
+ "learning_rate": 2.5765765765765764e-05,
388
+ "loss": 0.2537,
389
  "step": 53
390
  },
391
  {
392
  "epoch": 0.16,
393
+ "grad_norm": 0.8798084855079651,
394
+ "learning_rate": 2.567567567567568e-05,
395
+ "loss": 0.2227,
396
  "step": 54
397
  },
398
  {
399
  "epoch": 0.16296296296296298,
400
+ "grad_norm": 0.5890814661979675,
401
+ "learning_rate": 2.5585585585585586e-05,
402
+ "loss": 0.1339,
403
  "step": 55
404
  },
405
  {
406
  "epoch": 0.16592592592592592,
407
+ "grad_norm": 0.7949811816215515,
408
+ "learning_rate": 2.5495495495495497e-05,
409
+ "loss": 0.1882,
410
  "step": 56
411
  },
412
  {
413
  "epoch": 0.1688888888888889,
414
+ "grad_norm": 0.6133240461349487,
415
+ "learning_rate": 2.5405405405405408e-05,
416
+ "loss": 0.1554,
417
  "step": 57
418
  },
419
  {
420
  "epoch": 0.17185185185185184,
421
+ "grad_norm": 0.508789598941803,
422
+ "learning_rate": 2.5315315315315315e-05,
423
+ "loss": 0.1072,
424
  "step": 58
425
  },
426
  {
427
  "epoch": 0.1748148148148148,
428
+ "grad_norm": 0.7848381996154785,
429
+ "learning_rate": 2.5225225225225226e-05,
430
+ "loss": 0.2298,
431
  "step": 59
432
  },
433
  {
434
  "epoch": 0.17777777777777778,
435
+ "grad_norm": 0.6376358270645142,
436
+ "learning_rate": 2.5135135135135137e-05,
437
+ "loss": 0.1922,
438
  "step": 60
439
  },
440
  {
441
  "epoch": 0.18074074074074073,
442
+ "grad_norm": 0.5989100337028503,
443
+ "learning_rate": 2.5045045045045044e-05,
444
+ "loss": 0.1713,
445
  "step": 61
446
  },
447
  {
448
  "epoch": 0.1837037037037037,
449
+ "grad_norm": 0.5262016654014587,
450
+ "learning_rate": 2.4954954954954955e-05,
451
+ "loss": 0.1425,
452
  "step": 62
453
  },
454
  {
455
  "epoch": 0.18666666666666668,
456
+ "grad_norm": 0.8312467336654663,
457
+ "learning_rate": 2.4864864864864866e-05,
458
+ "loss": 0.2618,
459
  "step": 63
460
  },
461
  {
462
  "epoch": 0.18962962962962962,
463
+ "grad_norm": 0.6138928532600403,
464
+ "learning_rate": 2.4774774774774777e-05,
465
+ "loss": 0.1872,
466
  "step": 64
467
  },
468
  {
469
  "epoch": 0.1925925925925926,
470
+ "grad_norm": 0.7495738863945007,
471
+ "learning_rate": 2.4684684684684684e-05,
472
+ "loss": 0.2121,
473
  "step": 65
474
  },
475
  {
476
  "epoch": 0.19555555555555557,
477
+ "grad_norm": 0.7085468769073486,
478
+ "learning_rate": 2.4594594594594595e-05,
479
+ "loss": 0.1641,
480
  "step": 66
481
  },
482
  {
483
  "epoch": 0.1985185185185185,
484
+ "grad_norm": 0.7193159461021423,
485
+ "learning_rate": 2.4504504504504506e-05,
486
+ "loss": 0.2518,
487
  "step": 67
488
  },
489
  {
490
  "epoch": 0.20148148148148148,
491
+ "grad_norm": 0.964632511138916,
492
+ "learning_rate": 2.4414414414414413e-05,
493
+ "loss": 0.2928,
494
  "step": 68
495
  },
496
  {
497
  "epoch": 0.20444444444444446,
498
+ "grad_norm": 0.7328157424926758,
499
+ "learning_rate": 2.4324324324324327e-05,
500
+ "loss": 0.2096,
501
  "step": 69
502
  },
503
  {
504
  "epoch": 0.2074074074074074,
505
+ "grad_norm": 0.5567067861557007,
506
+ "learning_rate": 2.4234234234234235e-05,
507
+ "loss": 0.118,
508
  "step": 70
509
  },
510
  {
511
  "epoch": 0.21037037037037037,
512
+ "grad_norm": 0.754827618598938,
513
+ "learning_rate": 2.4144144144144142e-05,
514
+ "loss": 0.2237,
515
  "step": 71
516
  },
517
  {
518
  "epoch": 0.21333333333333335,
519
+ "grad_norm": 0.8856765031814575,
520
+ "learning_rate": 2.4054054054054056e-05,
521
+ "loss": 0.2326,
522
  "step": 72
523
  },
524
  {
525
  "epoch": 0.2162962962962963,
526
+ "grad_norm": 0.6610215902328491,
527
+ "learning_rate": 2.3963963963963964e-05,
528
+ "loss": 0.1446,
529
  "step": 73
530
  },
531
  {
532
  "epoch": 0.21925925925925926,
533
+ "grad_norm": 0.5447685122489929,
534
+ "learning_rate": 2.3873873873873874e-05,
535
+ "loss": 0.1208,
536
  "step": 74
537
  },
538
  {
539
  "epoch": 0.2222222222222222,
540
+ "grad_norm": 0.692625105381012,
541
+ "learning_rate": 2.3783783783783785e-05,
542
+ "loss": 0.1657,
543
  "step": 75
544
  },
545
  {
546
  "epoch": 0.22518518518518518,
547
+ "grad_norm": 0.6857089996337891,
548
+ "learning_rate": 2.3693693693693693e-05,
549
+ "loss": 0.1906,
550
  "step": 76
551
  },
552
  {
553
  "epoch": 0.22814814814814816,
554
+ "grad_norm": 0.815542995929718,
555
+ "learning_rate": 2.3603603603603607e-05,
556
+ "loss": 0.2234,
557
  "step": 77
558
  },
559
  {
560
  "epoch": 0.2311111111111111,
561
+ "grad_norm": 0.8306949138641357,
562
+ "learning_rate": 2.3513513513513514e-05,
563
+ "loss": 0.227,
564
  "step": 78
565
  },
566
  {
567
  "epoch": 0.23407407407407407,
568
+ "grad_norm": 0.575930118560791,
569
+ "learning_rate": 2.342342342342342e-05,
570
+ "loss": 0.1329,
571
  "step": 79
572
  },
573
  {
574
  "epoch": 0.23703703703703705,
575
+ "grad_norm": 0.7562434673309326,
576
+ "learning_rate": 2.3333333333333336e-05,
577
+ "loss": 0.2114,
578
  "step": 80
579
  },
580
  {
581
  "epoch": 0.24,
582
+ "grad_norm": 0.6087313294410706,
583
+ "learning_rate": 2.3243243243243243e-05,
584
+ "loss": 0.1878,
585
  "step": 81
586
  },
587
  {
588
  "epoch": 0.24296296296296296,
589
+ "grad_norm": 0.6526697874069214,
590
+ "learning_rate": 2.3153153153153154e-05,
591
+ "loss": 0.1527,
592
  "step": 82
593
  },
594
  {
595
  "epoch": 0.24592592592592594,
596
+ "grad_norm": 0.5339913964271545,
597
+ "learning_rate": 2.3063063063063065e-05,
598
+ "loss": 0.1332,
599
  "step": 83
600
  },
601
  {
602
  "epoch": 0.24888888888888888,
603
+ "grad_norm": 0.7385029196739197,
604
+ "learning_rate": 2.2972972972972972e-05,
605
+ "loss": 0.205,
606
  "step": 84
607
  },
608
  {
609
  "epoch": 0.2518518518518518,
610
+ "grad_norm": 0.721841037273407,
611
+ "learning_rate": 2.2882882882882883e-05,
612
+ "loss": 0.2236,
613
  "step": 85
614
  },
615
  {
616
  "epoch": 0.2548148148148148,
617
+ "grad_norm": 0.5965892672538757,
618
+ "learning_rate": 2.2792792792792794e-05,
619
+ "loss": 0.1677,
620
  "step": 86
621
  },
622
  {
623
  "epoch": 0.2577777777777778,
624
+ "grad_norm": 1.0791587829589844,
625
+ "learning_rate": 2.2702702702702705e-05,
626
+ "loss": 0.3187,
627
  "step": 87
628
  },
629
  {
630
  "epoch": 0.2607407407407407,
631
+ "grad_norm": 0.7455445528030396,
632
+ "learning_rate": 2.2612612612612612e-05,
633
+ "loss": 0.2389,
634
  "step": 88
635
  },
636
  {
637
  "epoch": 0.2637037037037037,
638
+ "grad_norm": 0.5387834310531616,
639
+ "learning_rate": 2.2522522522522523e-05,
640
+ "loss": 0.148,
641
  "step": 89
642
  },
643
  {
644
  "epoch": 0.26666666666666666,
645
+ "grad_norm": 0.6185374855995178,
646
+ "learning_rate": 2.2432432432432434e-05,
647
+ "loss": 0.1763,
648
  "step": 90
649
  },
650
  {
651
  "epoch": 0.2696296296296296,
652
+ "grad_norm": 0.6860742568969727,
653
+ "learning_rate": 2.234234234234234e-05,
654
+ "loss": 0.2481,
655
  "step": 91
656
  },
657
  {
658
  "epoch": 0.2725925925925926,
659
+ "grad_norm": 0.5713387131690979,
660
+ "learning_rate": 2.2252252252252255e-05,
661
+ "loss": 0.1486,
662
  "step": 92
663
  },
664
  {
665
  "epoch": 0.27555555555555555,
666
+ "grad_norm": 0.4434517025947571,
667
+ "learning_rate": 2.2162162162162163e-05,
668
+ "loss": 0.1053,
669
  "step": 93
670
  },
671
  {
672
  "epoch": 0.2785185185185185,
673
+ "grad_norm": 0.7606307864189148,
674
+ "learning_rate": 2.207207207207207e-05,
675
+ "loss": 0.2736,
676
  "step": 94
677
  },
678
  {
679
  "epoch": 0.2814814814814815,
680
+ "grad_norm": 0.6613526940345764,
681
+ "learning_rate": 2.1981981981981984e-05,
682
+ "loss": 0.2177,
683
  "step": 95
684
  },
685
  {
686
  "epoch": 0.28444444444444444,
687
+ "grad_norm": 0.7913828492164612,
688
+ "learning_rate": 2.1891891891891892e-05,
689
+ "loss": 0.2088,
690
  "step": 96
691
  },
692
  {
693
  "epoch": 0.2874074074074074,
694
+ "grad_norm": 0.6992068886756897,
695
+ "learning_rate": 2.1801801801801803e-05,
696
+ "loss": 0.2376,
697
  "step": 97
698
  },
699
  {
700
  "epoch": 0.2903703703703704,
701
+ "grad_norm": 0.6808008551597595,
702
+ "learning_rate": 2.1711711711711713e-05,
703
+ "loss": 0.1901,
704
  "step": 98
705
  },
706
  {
707
  "epoch": 0.29333333333333333,
708
+ "grad_norm": 0.8115521669387817,
709
+ "learning_rate": 2.162162162162162e-05,
710
+ "loss": 0.3181,
711
  "step": 99
712
  },
713
  {
714
  "epoch": 0.2962962962962963,
715
+ "grad_norm": 0.6143046021461487,
716
+ "learning_rate": 2.153153153153153e-05,
717
+ "loss": 0.2197,
718
  "step": 100
719
  },
720
  {
721
  "epoch": 0.2962962962962963,
722
+ "eval_loss": 0.1685572862625122,
723
+ "eval_runtime": 14.0722,
724
+ "eval_samples_per_second": 42.637,
725
+ "eval_steps_per_second": 5.33,
726
  "step": 100
727
  },
728
  {
729
  "epoch": 0.2992592592592593,
730
+ "grad_norm": 0.5645914673805237,
731
+ "learning_rate": 2.1441441441441442e-05,
732
+ "loss": 0.1305,
733
  "step": 101
734
  },
735
  {
736
  "epoch": 0.3022222222222222,
737
+ "grad_norm": 0.6650404334068298,
738
+ "learning_rate": 2.135135135135135e-05,
739
+ "loss": 0.186,
740
  "step": 102
741
  },
742
  {
743
  "epoch": 0.30518518518518517,
744
+ "grad_norm": 0.8169294595718384,
745
+ "learning_rate": 2.126126126126126e-05,
746
+ "loss": 0.2747,
747
  "step": 103
748
  },
749
  {
750
  "epoch": 0.30814814814814817,
751
+ "grad_norm": 0.6059281826019287,
752
+ "learning_rate": 2.117117117117117e-05,
753
+ "loss": 0.1654,
754
  "step": 104
755
  },
756
  {
757
  "epoch": 0.3111111111111111,
758
+ "grad_norm": 0.7298572659492493,
759
+ "learning_rate": 2.1081081081081082e-05,
760
+ "loss": 0.2615,
761
  "step": 105
762
  },
763
  {
764
  "epoch": 0.31407407407407406,
765
+ "grad_norm": 0.47728487849235535,
766
+ "learning_rate": 2.0990990990990993e-05,
767
+ "loss": 0.1333,
768
  "step": 106
769
  },
770
  {
771
  "epoch": 0.31703703703703706,
772
+ "grad_norm": 0.7812051773071289,
773
+ "learning_rate": 2.09009009009009e-05,
774
+ "loss": 0.1698,
775
  "step": 107
776
  },
777
  {
778
  "epoch": 0.32,
779
+ "grad_norm": 0.604000985622406,
780
+ "learning_rate": 2.081081081081081e-05,
781
+ "loss": 0.1674,
782
  "step": 108
783
  },
784
  {
785
  "epoch": 0.32296296296296295,
786
+ "grad_norm": 0.7859566807746887,
787
+ "learning_rate": 2.0720720720720722e-05,
788
+ "loss": 0.2189,
789
  "step": 109
790
  },
791
  {
792
  "epoch": 0.32592592592592595,
793
+ "grad_norm": 0.6453425288200378,
794
+ "learning_rate": 2.0630630630630633e-05,
795
+ "loss": 0.2027,
796
  "step": 110
797
  },
798
  {
799
  "epoch": 0.3288888888888889,
800
+ "grad_norm": 0.8944854140281677,
801
+ "learning_rate": 2.054054054054054e-05,
802
+ "loss": 0.2321,
803
  "step": 111
804
  },
805
  {
806
  "epoch": 0.33185185185185184,
807
+ "grad_norm": 0.6334295868873596,
808
+ "learning_rate": 2.045045045045045e-05,
809
+ "loss": 0.1806,
810
  "step": 112
811
  },
812
  {
813
  "epoch": 0.3348148148148148,
814
+ "grad_norm": 0.6126565933227539,
815
+ "learning_rate": 2.0360360360360362e-05,
816
+ "loss": 0.1625,
817
  "step": 113
818
  },
819
  {
820
  "epoch": 0.3377777777777778,
821
+ "grad_norm": 0.7241846323013306,
822
+ "learning_rate": 2.027027027027027e-05,
823
+ "loss": 0.2333,
824
  "step": 114
825
  },
826
  {
827
  "epoch": 0.34074074074074073,
828
+ "grad_norm": 0.6099463701248169,
829
+ "learning_rate": 2.0180180180180183e-05,
830
  "loss": 0.1768,
831
  "step": 115
832
  },
833
  {
834
  "epoch": 0.3437037037037037,
835
+ "grad_norm": 0.951642632484436,
836
+ "learning_rate": 2.009009009009009e-05,
837
+ "loss": 0.2856,
838
  "step": 116
839
  },
840
  {
841
  "epoch": 0.3466666666666667,
842
+ "grad_norm": 0.733674943447113,
843
+ "learning_rate": 1.9999999999999998e-05,
844
+ "loss": 0.1836,
845
  "step": 117
846
  },
847
  {
848
  "epoch": 0.3496296296296296,
849
+ "grad_norm": 0.7276878356933594,
850
+ "learning_rate": 1.9909909909909912e-05,
851
+ "loss": 0.2382,
852
  "step": 118
853
  },
854
  {
855
  "epoch": 0.35259259259259257,
856
+ "grad_norm": 0.756348729133606,
857
+ "learning_rate": 1.981981981981982e-05,
858
+ "loss": 0.2648,
859
  "step": 119
860
  },
861
  {
862
  "epoch": 0.35555555555555557,
863
+ "grad_norm": 0.6031218767166138,
864
+ "learning_rate": 1.972972972972973e-05,
865
+ "loss": 0.1861,
866
  "step": 120
867
  },
868
  {
869
  "epoch": 0.3585185185185185,
870
+ "grad_norm": 0.6297987103462219,
871
+ "learning_rate": 1.963963963963964e-05,
872
+ "loss": 0.2095,
873
  "step": 121
874
  },
875
  {
876
  "epoch": 0.36148148148148146,
877
+ "grad_norm": 0.5252201557159424,
878
+ "learning_rate": 1.954954954954955e-05,
879
+ "loss": 0.1721,
880
  "step": 122
881
  },
882
  {
883
  "epoch": 0.36444444444444446,
884
+ "grad_norm": 0.6074128746986389,
885
+ "learning_rate": 1.945945945945946e-05,
886
+ "loss": 0.1657,
887
  "step": 123
888
  },
889
  {
890
  "epoch": 0.3674074074074074,
891
+ "grad_norm": 0.8106815218925476,
892
+ "learning_rate": 1.936936936936937e-05,
893
+ "loss": 0.261,
894
  "step": 124
895
  },
896
  {
897
  "epoch": 0.37037037037037035,
898
+ "grad_norm": 0.7447537779808044,
899
+ "learning_rate": 1.9279279279279278e-05,
900
+ "loss": 0.2073,
901
  "step": 125
902
  },
903
  {
904
  "epoch": 0.37333333333333335,
905
+ "grad_norm": 0.7889114022254944,
906
+ "learning_rate": 1.918918918918919e-05,
907
+ "loss": 0.2474,
908
  "step": 126
909
  },
910
  {
911
  "epoch": 0.3762962962962963,
912
+ "grad_norm": 0.8324449062347412,
913
+ "learning_rate": 1.90990990990991e-05,
914
+ "loss": 0.1576,
915
  "step": 127
916
  },
917
  {
918
  "epoch": 0.37925925925925924,
919
+ "grad_norm": 0.5501788854598999,
920
+ "learning_rate": 1.900900900900901e-05,
921
+ "loss": 0.1469,
922
  "step": 128
923
  },
924
  {
925
  "epoch": 0.38222222222222224,
926
+ "grad_norm": 0.6907466650009155,
927
+ "learning_rate": 1.8918918918918918e-05,
928
+ "loss": 0.16,
929
  "step": 129
930
  },
931
  {
932
  "epoch": 0.3851851851851852,
933
+ "grad_norm": 0.6078192591667175,
934
+ "learning_rate": 1.882882882882883e-05,
935
+ "loss": 0.1342,
936
  "step": 130
937
  },
938
  {
939
  "epoch": 0.38814814814814813,
940
+ "grad_norm": 0.7098512649536133,
941
+ "learning_rate": 1.873873873873874e-05,
942
+ "loss": 0.1977,
943
  "step": 131
944
  },
945
  {
946
  "epoch": 0.39111111111111113,
947
+ "grad_norm": 0.7604762315750122,
948
+ "learning_rate": 1.864864864864865e-05,
949
+ "loss": 0.1754,
950
  "step": 132
951
  },
952
  {
953
  "epoch": 0.3940740740740741,
954
+ "grad_norm": 0.750038206577301,
955
+ "learning_rate": 1.855855855855856e-05,
956
+ "loss": 0.2389,
957
  "step": 133
958
  },
959
  {
960
  "epoch": 0.397037037037037,
961
+ "grad_norm": 0.7395908832550049,
962
+ "learning_rate": 1.846846846846847e-05,
963
+ "loss": 0.218,
964
  "step": 134
965
  },
966
  {
967
  "epoch": 0.4,
968
+ "grad_norm": 0.6242744326591492,
969
+ "learning_rate": 1.837837837837838e-05,
970
+ "loss": 0.1861,
971
  "step": 135
972
  },
973
  {
974
  "epoch": 0.40296296296296297,
975
+ "grad_norm": 0.5683760046958923,
976
+ "learning_rate": 1.828828828828829e-05,
977
+ "loss": 0.124,
978
  "step": 136
979
  },
980
  {
981
  "epoch": 0.4059259259259259,
982
+ "grad_norm": 0.6790345311164856,
983
+ "learning_rate": 1.8198198198198197e-05,
984
+ "loss": 0.1422,
985
  "step": 137
986
  },
987
  {
988
  "epoch": 0.4088888888888889,
989
+ "grad_norm": 0.658165693283081,
990
+ "learning_rate": 1.810810810810811e-05,
991
+ "loss": 0.1611,
992
  "step": 138
993
  },
994
  {
995
  "epoch": 0.41185185185185186,
996
+ "grad_norm": 0.6879218220710754,
997
+ "learning_rate": 1.801801801801802e-05,
998
  "loss": 0.1839,
999
  "step": 139
1000
  },
1001
  {
1002
  "epoch": 0.4148148148148148,
1003
+ "grad_norm": 1.0073219537734985,
1004
+ "learning_rate": 1.7927927927927926e-05,
1005
+ "loss": 0.3063,
1006
  "step": 140
1007
  },
1008
  {
1009
  "epoch": 0.4177777777777778,
1010
+ "grad_norm": 0.780751645565033,
1011
+ "learning_rate": 1.783783783783784e-05,
1012
+ "loss": 0.2481,
1013
  "step": 141
1014
  },
1015
  {
1016
  "epoch": 0.42074074074074075,
1017
+ "grad_norm": 0.6793040037155151,
1018
+ "learning_rate": 1.7747747747747748e-05,
1019
+ "loss": 0.1434,
1020
  "step": 142
1021
  },
1022
  {
1023
  "epoch": 0.4237037037037037,
1024
+ "grad_norm": 0.7167030572891235,
1025
+ "learning_rate": 1.7657657657657655e-05,
1026
+ "loss": 0.2328,
1027
  "step": 143
1028
  },
1029
  {
1030
  "epoch": 0.4266666666666667,
1031
+ "grad_norm": 0.7468717694282532,
1032
+ "learning_rate": 1.756756756756757e-05,
1033
+ "loss": 0.2056,
1034
  "step": 144
1035
  },
1036
  {
1037
  "epoch": 0.42962962962962964,
1038
+ "grad_norm": 0.6910548210144043,
1039
+ "learning_rate": 1.7477477477477477e-05,
1040
+ "loss": 0.1464,
1041
  "step": 145
1042
  },
1043
  {
1044
  "epoch": 0.4325925925925926,
1045
+ "grad_norm": 0.4421556293964386,
1046
+ "learning_rate": 1.7387387387387388e-05,
1047
+ "loss": 0.0964,
1048
  "step": 146
1049
  },
1050
  {
1051
  "epoch": 0.43555555555555553,
1052
+ "grad_norm": 0.5973996520042419,
1053
+ "learning_rate": 1.72972972972973e-05,
1054
+ "loss": 0.1431,
1055
  "step": 147
1056
  },
1057
  {
1058
  "epoch": 0.43851851851851853,
1059
+ "grad_norm": 0.6073348522186279,
1060
+ "learning_rate": 1.7207207207207206e-05,
1061
+ "loss": 0.1837,
1062
  "step": 148
1063
  },
1064
  {
1065
  "epoch": 0.4414814814814815,
1066
+ "grad_norm": 0.6484878063201904,
1067
+ "learning_rate": 1.7117117117117117e-05,
1068
+ "loss": 0.1853,
1069
  "step": 149
1070
  },
1071
  {
1072
  "epoch": 0.4444444444444444,
1073
+ "grad_norm": 0.7600032687187195,
1074
+ "learning_rate": 1.7027027027027028e-05,
1075
+ "loss": 0.2407,
1076
  "step": 150
1077
  },
1078
  {
1079
  "epoch": 0.4444444444444444,
1080
+ "eval_loss": 0.1618269383907318,
1081
+ "eval_runtime": 14.1337,
1082
+ "eval_samples_per_second": 42.452,
1083
+ "eval_steps_per_second": 5.306,
1084
  "step": 150
1085
  },
1086
  {
1087
  "epoch": 0.4474074074074074,
1088
+ "grad_norm": 0.8500089049339294,
1089
+ "learning_rate": 1.693693693693694e-05,
1090
+ "loss": 0.248,
1091
  "step": 151
1092
  },
1093
  {
1094
  "epoch": 0.45037037037037037,
1095
+ "grad_norm": 0.48620492219924927,
1096
+ "learning_rate": 1.6846846846846846e-05,
1097
+ "loss": 0.1389,
1098
  "step": 152
1099
  },
1100
  {
1101
  "epoch": 0.4533333333333333,
1102
+ "grad_norm": 0.6419157385826111,
1103
+ "learning_rate": 1.6756756756756757e-05,
1104
+ "loss": 0.1489,
1105
  "step": 153
1106
  },
1107
  {
1108
  "epoch": 0.4562962962962963,
1109
+ "grad_norm": 0.7250919938087463,
1110
+ "learning_rate": 1.6666666666666667e-05,
1111
+ "loss": 0.1896,
1112
  "step": 154
1113
  },
1114
  {
1115
  "epoch": 0.45925925925925926,
1116
+ "grad_norm": 0.5173049569129944,
1117
+ "learning_rate": 1.6576576576576575e-05,
1118
+ "loss": 0.1172,
1119
  "step": 155
1120
  },
1121
  {
1122
  "epoch": 0.4622222222222222,
1123
+ "grad_norm": 0.338739275932312,
1124
+ "learning_rate": 1.648648648648649e-05,
1125
+ "loss": 0.0475,
1126
  "step": 156
1127
  },
1128
  {
1129
  "epoch": 0.4651851851851852,
1130
+ "grad_norm": 0.7956584095954895,
1131
+ "learning_rate": 1.6396396396396396e-05,
1132
+ "loss": 0.2128,
1133
  "step": 157
1134
  },
1135
  {
1136
  "epoch": 0.46814814814814815,
1137
+ "grad_norm": 0.5871915221214294,
1138
+ "learning_rate": 1.6306306306306304e-05,
1139
+ "loss": 0.1504,
1140
  "step": 158
1141
  },
1142
  {
1143
  "epoch": 0.4711111111111111,
1144
+ "grad_norm": 0.7355495691299438,
1145
+ "learning_rate": 1.6216216216216218e-05,
1146
+ "loss": 0.2194,
1147
  "step": 159
1148
  },
1149
  {
1150
  "epoch": 0.4740740740740741,
1151
+ "grad_norm": 0.5841131210327148,
1152
+ "learning_rate": 1.6126126126126126e-05,
1153
+ "loss": 0.1257,
1154
  "step": 160
1155
  },
1156
  {
1157
  "epoch": 0.47703703703703704,
1158
+ "grad_norm": 0.6331678628921509,
1159
+ "learning_rate": 1.603603603603604e-05,
1160
+ "loss": 0.1862,
1161
  "step": 161
1162
  },
1163
  {
1164
  "epoch": 0.48,
1165
+ "grad_norm": 0.6405560970306396,
1166
+ "learning_rate": 1.5945945945945947e-05,
1167
+ "loss": 0.1326,
1168
  "step": 162
1169
  },
1170
  {
1171
  "epoch": 0.482962962962963,
1172
+ "grad_norm": 0.7067241668701172,
1173
+ "learning_rate": 1.5855855855855855e-05,
1174
+ "loss": 0.1998,
1175
  "step": 163
1176
  },
1177
  {
1178
  "epoch": 0.48592592592592593,
1179
+ "grad_norm": 0.5503882765769958,
1180
+ "learning_rate": 1.576576576576577e-05,
1181
+ "loss": 0.1112,
1182
  "step": 164
1183
  },
1184
  {
1185
  "epoch": 0.4888888888888889,
1186
+ "grad_norm": 0.6191250085830688,
1187
+ "learning_rate": 1.5675675675675676e-05,
1188
+ "loss": 0.1862,
1189
  "step": 165
1190
  },
1191
  {
1192
  "epoch": 0.4918518518518519,
1193
+ "grad_norm": 0.5445926189422607,
1194
+ "learning_rate": 1.5585585585585584e-05,
1195
+ "loss": 0.129,
1196
  "step": 166
1197
  },
1198
  {
1199
  "epoch": 0.4948148148148148,
1200
+ "grad_norm": 0.6146531701087952,
1201
+ "learning_rate": 1.5495495495495498e-05,
1202
+ "loss": 0.1442,
1203
  "step": 167
1204
  },
1205
  {
1206
  "epoch": 0.49777777777777776,
1207
+ "grad_norm": 0.8105955719947815,
1208
+ "learning_rate": 1.5405405405405405e-05,
1209
+ "loss": 0.2753,
1210
  "step": 168
1211
  },
1212
  {
1213
  "epoch": 0.5007407407407407,
1214
+ "grad_norm": 0.7763640880584717,
1215
+ "learning_rate": 1.5315315315315316e-05,
1216
+ "loss": 0.1617,
1217
  "step": 169
1218
  },
1219
  {
1220
  "epoch": 0.5037037037037037,
1221
+ "grad_norm": 0.7471247315406799,
1222
+ "learning_rate": 1.5225225225225225e-05,
1223
+ "loss": 0.2223,
1224
  "step": 170
1225
  },
1226
  {
1227
  "epoch": 0.5066666666666667,
1228
+ "grad_norm": 0.7017563581466675,
1229
+ "learning_rate": 1.5135135135135134e-05,
1230
+ "loss": 0.2089,
1231
  "step": 171
1232
  },
1233
  {
1234
  "epoch": 0.5096296296296297,
1235
+ "grad_norm": 0.8412315249443054,
1236
+ "learning_rate": 1.5045045045045047e-05,
1237
+ "loss": 0.2379,
1238
  "step": 172
1239
  },
1240
  {
1241
  "epoch": 0.5125925925925926,
1242
+ "grad_norm": 0.687402606010437,
1243
+ "learning_rate": 1.4954954954954954e-05,
1244
+ "loss": 0.2149,
1245
  "step": 173
1246
  },
1247
  {
1248
  "epoch": 0.5155555555555555,
1249
+ "grad_norm": 0.754208505153656,
1250
+ "learning_rate": 1.4864864864864865e-05,
1251
+ "loss": 0.1982,
1252
  "step": 174
1253
  },
1254
  {
1255
  "epoch": 0.5185185185185185,
1256
+ "grad_norm": 0.6880926489830017,
1257
+ "learning_rate": 1.4774774774774776e-05,
1258
+ "loss": 0.186,
1259
  "step": 175
1260
  },
1261
  {
1262
  "epoch": 0.5214814814814814,
1263
+ "grad_norm": 0.7988137006759644,
1264
+ "learning_rate": 1.4684684684684685e-05,
1265
+ "loss": 0.2355,
1266
  "step": 176
1267
  },
1268
  {
1269
  "epoch": 0.5244444444444445,
1270
+ "grad_norm": 0.5612587332725525,
1271
+ "learning_rate": 1.4594594594594596e-05,
1272
+ "loss": 0.1292,
1273
  "step": 177
1274
  },
1275
  {
1276
  "epoch": 0.5274074074074074,
1277
+ "grad_norm": 0.6964252591133118,
1278
+ "learning_rate": 1.4504504504504505e-05,
1279
+ "loss": 0.1765,
1280
  "step": 178
1281
  },
1282
  {
1283
  "epoch": 0.5303703703703704,
1284
+ "grad_norm": 0.6944383382797241,
1285
+ "learning_rate": 1.4414414414414414e-05,
1286
+ "loss": 0.1968,
1287
  "step": 179
1288
  },
1289
  {
1290
  "epoch": 0.5333333333333333,
1291
+ "grad_norm": 0.4856385290622711,
1292
+ "learning_rate": 1.4324324324324325e-05,
1293
+ "loss": 0.1477,
1294
  "step": 180
1295
  },
1296
  {
1297
  "epoch": 0.5362962962962963,
1298
+ "grad_norm": 0.6305952072143555,
1299
+ "learning_rate": 1.4234234234234235e-05,
1300
+ "loss": 0.1756,
1301
  "step": 181
1302
  },
1303
  {
1304
  "epoch": 0.5392592592592592,
1305
+ "grad_norm": 0.6567600965499878,
1306
+ "learning_rate": 1.4144144144144145e-05,
1307
+ "loss": 0.1663,
1308
  "step": 182
1309
  },
1310
  {
1311
  "epoch": 0.5422222222222223,
1312
+ "grad_norm": 0.5791081190109253,
1313
+ "learning_rate": 1.4054054054054054e-05,
1314
+ "loss": 0.1343,
1315
  "step": 183
1316
  },
1317
  {
1318
  "epoch": 0.5451851851851852,
1319
+ "grad_norm": 0.868181586265564,
1320
+ "learning_rate": 1.3963963963963964e-05,
1321
+ "loss": 0.2596,
1322
  "step": 184
1323
  },
1324
  {
1325
  "epoch": 0.5481481481481482,
1326
+ "grad_norm": 0.5308585166931152,
1327
+ "learning_rate": 1.3873873873873875e-05,
1328
+ "loss": 0.113,
1329
  "step": 185
1330
  },
1331
  {
1332
  "epoch": 0.5511111111111111,
1333
+ "grad_norm": 0.7182576656341553,
1334
+ "learning_rate": 1.3783783783783784e-05,
1335
+ "loss": 0.2106,
1336
  "step": 186
1337
  },
1338
  {
1339
  "epoch": 0.554074074074074,
1340
+ "grad_norm": 0.8075292110443115,
1341
+ "learning_rate": 1.3693693693693693e-05,
1342
+ "loss": 0.2567,
1343
  "step": 187
1344
  },
1345
  {
1346
  "epoch": 0.557037037037037,
1347
+ "grad_norm": 0.6146810054779053,
1348
+ "learning_rate": 1.3603603603603604e-05,
1349
+ "loss": 0.1772,
1350
  "step": 188
1351
  },
1352
  {
1353
  "epoch": 0.56,
1354
+ "grad_norm": 0.7381985187530518,
1355
+ "learning_rate": 1.3513513513513513e-05,
1356
+ "loss": 0.21,
1357
  "step": 189
1358
  },
1359
  {
1360
  "epoch": 0.562962962962963,
1361
+ "grad_norm": 0.7753574848175049,
1362
+ "learning_rate": 1.3423423423423424e-05,
1363
+ "loss": 0.2079,
1364
  "step": 190
1365
  },
1366
  {
1367
  "epoch": 0.5659259259259259,
1368
+ "grad_norm": 0.605355441570282,
1369
+ "learning_rate": 1.3333333333333333e-05,
1370
+ "loss": 0.1797,
1371
  "step": 191
1372
  },
1373
  {
1374
  "epoch": 0.5688888888888889,
1375
+ "grad_norm": 0.5721647143363953,
1376
+ "learning_rate": 1.3243243243243242e-05,
1377
+ "loss": 0.1413,
1378
  "step": 192
1379
  },
1380
  {
1381
  "epoch": 0.5718518518518518,
1382
+ "grad_norm": 0.6950632333755493,
1383
+ "learning_rate": 1.3153153153153153e-05,
1384
+ "loss": 0.2411,
1385
  "step": 193
1386
  },
1387
  {
1388
  "epoch": 0.5748148148148148,
1389
+ "grad_norm": 0.6648383140563965,
1390
+ "learning_rate": 1.3063063063063064e-05,
1391
+ "loss": 0.2191,
1392
  "step": 194
1393
  },
1394
  {
1395
  "epoch": 0.5777777777777777,
1396
+ "grad_norm": 0.6028621792793274,
1397
+ "learning_rate": 1.2972972972972975e-05,
1398
+ "loss": 0.1432,
1399
  "step": 195
1400
  },
1401
  {
1402
  "epoch": 0.5807407407407408,
1403
+ "grad_norm": 0.5522150993347168,
1404
+ "learning_rate": 1.2882882882882882e-05,
1405
+ "loss": 0.148,
1406
  "step": 196
1407
  },
1408
  {
1409
  "epoch": 0.5837037037037037,
1410
+ "grad_norm": 0.6221995949745178,
1411
+ "learning_rate": 1.2792792792792793e-05,
1412
+ "loss": 0.1969,
1413
  "step": 197
1414
  },
1415
  {
1416
  "epoch": 0.5866666666666667,
1417
+ "grad_norm": 0.6506313681602478,
1418
+ "learning_rate": 1.2702702702702704e-05,
1419
+ "loss": 0.1873,
1420
  "step": 198
1421
  },
1422
  {
1423
  "epoch": 0.5896296296296296,
1424
+ "grad_norm": 0.5992417335510254,
1425
+ "learning_rate": 1.2612612612612613e-05,
1426
+ "loss": 0.1549,
1427
  "step": 199
1428
  },
1429
  {
1430
  "epoch": 0.5925925925925926,
1431
+ "grad_norm": 0.5438278913497925,
1432
+ "learning_rate": 1.2522522522522522e-05,
1433
+ "loss": 0.1301,
1434
  "step": 200
1435
  },
1436
  {
1437
  "epoch": 0.5925925925925926,
1438
+ "eval_loss": 0.15750615298748016,
1439
+ "eval_runtime": 14.0501,
1440
+ "eval_samples_per_second": 42.704,
1441
+ "eval_steps_per_second": 5.338,
1442
  "step": 200
1443
  },
1444
  {
1445
  "epoch": 0.5955555555555555,
1446
+ "grad_norm": 0.9591789841651917,
1447
+ "learning_rate": 1.2432432432432433e-05,
1448
+ "loss": 0.3016,
1449
  "step": 201
1450
  },
1451
  {
1452
  "epoch": 0.5985185185185186,
1453
+ "grad_norm": 0.6065961718559265,
1454
+ "learning_rate": 1.2342342342342342e-05,
1455
+ "loss": 0.1659,
1456
  "step": 202
1457
  },
1458
  {
1459
  "epoch": 0.6014814814814815,
1460
+ "grad_norm": 0.5144144296646118,
1461
+ "learning_rate": 1.2252252252252253e-05,
1462
+ "loss": 0.1059,
1463
  "step": 203
1464
  },
1465
  {
1466
  "epoch": 0.6044444444444445,
1467
+ "grad_norm": 0.8562734723091125,
1468
+ "learning_rate": 1.2162162162162164e-05,
1469
+ "loss": 0.2553,
1470
  "step": 204
1471
  },
1472
  {
1473
  "epoch": 0.6074074074074074,
1474
+ "grad_norm": 0.8882193565368652,
1475
+ "learning_rate": 1.2072072072072071e-05,
1476
+ "loss": 0.2379,
1477
  "step": 205
1478
  },
1479
  {
1480
  "epoch": 0.6103703703703703,
1481
+ "grad_norm": 0.5086420774459839,
1482
+ "learning_rate": 1.1981981981981982e-05,
1483
+ "loss": 0.1328,
1484
  "step": 206
1485
  },
1486
  {
1487
  "epoch": 0.6133333333333333,
1488
+ "grad_norm": 0.4841505289077759,
1489
+ "learning_rate": 1.1891891891891893e-05,
1490
+ "loss": 0.0902,
1491
  "step": 207
1492
  },
1493
  {
1494
  "epoch": 0.6162962962962963,
1495
+ "grad_norm": 0.5195430517196655,
1496
+ "learning_rate": 1.1801801801801803e-05,
1497
+ "loss": 0.1214,
1498
  "step": 208
1499
  },
1500
  {
1501
  "epoch": 0.6192592592592593,
1502
+ "grad_norm": 0.5387447476387024,
1503
+ "learning_rate": 1.171171171171171e-05,
1504
+ "loss": 0.1749,
1505
  "step": 209
1506
  },
1507
  {
1508
  "epoch": 0.6222222222222222,
1509
+ "grad_norm": 0.6126540899276733,
1510
+ "learning_rate": 1.1621621621621622e-05,
1511
+ "loss": 0.1853,
1512
  "step": 210
1513
  },
1514
  {
1515
  "epoch": 0.6251851851851852,
1516
+ "grad_norm": 0.6670091152191162,
1517
+ "learning_rate": 1.1531531531531532e-05,
1518
+ "loss": 0.2141,
1519
  "step": 211
1520
  },
1521
  {
1522
  "epoch": 0.6281481481481481,
1523
+ "grad_norm": 0.6592415571212769,
1524
+ "learning_rate": 1.1441441441441442e-05,
1525
+ "loss": 0.1911,
1526
  "step": 212
1527
  },
1528
  {
1529
  "epoch": 0.6311111111111111,
1530
+ "grad_norm": 0.6606993675231934,
1531
+ "learning_rate": 1.1351351351351352e-05,
1532
+ "loss": 0.193,
1533
  "step": 213
1534
  },
1535
  {
1536
  "epoch": 0.6340740740740741,
1537
+ "grad_norm": 0.5082506537437439,
1538
+ "learning_rate": 1.1261261261261261e-05,
1539
+ "loss": 0.1445,
1540
  "step": 214
1541
  },
1542
  {
1543
  "epoch": 0.6370370370370371,
1544
+ "grad_norm": 0.5250320434570312,
1545
+ "learning_rate": 1.117117117117117e-05,
1546
+ "loss": 0.1229,
1547
  "step": 215
1548
  },
1549
  {
1550
  "epoch": 0.64,
1551
+ "grad_norm": 0.573753833770752,
1552
+ "learning_rate": 1.1081081081081081e-05,
1553
+ "loss": 0.1637,
1554
  "step": 216
1555
  },
1556
  {
1557
  "epoch": 0.642962962962963,
1558
+ "grad_norm": 0.5497123599052429,
1559
+ "learning_rate": 1.0990990990990992e-05,
1560
+ "loss": 0.1632,
1561
  "step": 217
1562
  },
1563
  {
1564
  "epoch": 0.6459259259259259,
1565
+ "grad_norm": 0.5139077305793762,
1566
+ "learning_rate": 1.0900900900900901e-05,
1567
+ "loss": 0.1234,
1568
  "step": 218
1569
  },
1570
  {
1571
  "epoch": 0.6488888888888888,
1572
+ "grad_norm": 0.7593399286270142,
1573
+ "learning_rate": 1.081081081081081e-05,
1574
+ "loss": 0.2258,
1575
  "step": 219
1576
  },
1577
  {
1578
  "epoch": 0.6518518518518519,
1579
+ "grad_norm": 0.6373380422592163,
1580
+ "learning_rate": 1.0720720720720721e-05,
1581
+ "loss": 0.1533,
1582
  "step": 220
1583
  },
1584
  {
1585
  "epoch": 0.6548148148148148,
1586
+ "grad_norm": 0.6002466678619385,
1587
+ "learning_rate": 1.063063063063063e-05,
1588
+ "loss": 0.1754,
1589
  "step": 221
1590
  },
1591
  {
1592
  "epoch": 0.6577777777777778,
1593
+ "grad_norm": 0.727178156375885,
1594
+ "learning_rate": 1.0540540540540541e-05,
1595
+ "loss": 0.1875,
1596
  "step": 222
1597
  },
1598
  {
1599
  "epoch": 0.6607407407407407,
1600
+ "grad_norm": 0.5689584612846375,
1601
+ "learning_rate": 1.045045045045045e-05,
1602
+ "loss": 0.1414,
1603
  "step": 223
1604
  },
1605
  {
1606
  "epoch": 0.6637037037037037,
1607
+ "grad_norm": 0.5667452216148376,
1608
+ "learning_rate": 1.0360360360360361e-05,
1609
+ "loss": 0.107,
1610
  "step": 224
1611
  },
1612
  {
1613
  "epoch": 0.6666666666666666,
1614
+ "grad_norm": 0.487768292427063,
1615
+ "learning_rate": 1.027027027027027e-05,
1616
+ "loss": 0.1156,
1617
  "step": 225
1618
  },
1619
  {
1620
  "epoch": 0.6696296296296296,
1621
+ "grad_norm": 0.6705539226531982,
1622
+ "learning_rate": 1.0180180180180181e-05,
1623
+ "loss": 0.1421,
1624
  "step": 226
1625
  },
1626
  {
1627
  "epoch": 0.6725925925925926,
1628
+ "grad_norm": 0.9306380748748779,
1629
+ "learning_rate": 1.0090090090090092e-05,
1630
+ "loss": 0.272,
1631
  "step": 227
1632
  },
1633
  {
1634
  "epoch": 0.6755555555555556,
1635
+ "grad_norm": 0.4459589123725891,
1636
+ "learning_rate": 9.999999999999999e-06,
1637
+ "loss": 0.0993,
1638
  "step": 228
1639
  },
1640
  {
1641
  "epoch": 0.6785185185185185,
1642
+ "grad_norm": 0.4910501539707184,
1643
+ "learning_rate": 9.90990990990991e-06,
1644
+ "loss": 0.1039,
1645
  "step": 229
1646
  },
1647
  {
1648
  "epoch": 0.6814814814814815,
1649
+ "grad_norm": 0.5006682872772217,
1650
+ "learning_rate": 9.81981981981982e-06,
1651
+ "loss": 0.1261,
1652
  "step": 230
1653
  },
1654
  {
1655
  "epoch": 0.6844444444444444,
1656
+ "grad_norm": 0.7891579866409302,
1657
+ "learning_rate": 9.72972972972973e-06,
1658
+ "loss": 0.2181,
1659
  "step": 231
1660
  },
1661
  {
1662
  "epoch": 0.6874074074074074,
1663
+ "grad_norm": 0.5958547592163086,
1664
+ "learning_rate": 9.639639639639639e-06,
1665
+ "loss": 0.1632,
1666
  "step": 232
1667
  },
1668
  {
1669
  "epoch": 0.6903703703703704,
1670
+ "grad_norm": 0.5740420818328857,
1671
+ "learning_rate": 9.54954954954955e-06,
1672
+ "loss": 0.141,
1673
  "step": 233
1674
  },
1675
  {
1676
  "epoch": 0.6933333333333334,
1677
+ "grad_norm": 0.5734637975692749,
1678
+ "learning_rate": 9.459459459459459e-06,
1679
+ "loss": 0.1005,
1680
  "step": 234
1681
  },
1682
  {
1683
  "epoch": 0.6962962962962963,
1684
+ "grad_norm": 0.8963714241981506,
1685
+ "learning_rate": 9.36936936936937e-06,
1686
+ "loss": 0.1689,
1687
  "step": 235
1688
  },
1689
  {
1690
  "epoch": 0.6992592592592592,
1691
+ "grad_norm": 0.7850510478019714,
1692
+ "learning_rate": 9.27927927927928e-06,
1693
+ "loss": 0.1931,
1694
  "step": 236
1695
  },
1696
  {
1697
  "epoch": 0.7022222222222222,
1698
+ "grad_norm": 0.6909759044647217,
1699
+ "learning_rate": 9.18918918918919e-06,
1700
+ "loss": 0.1874,
1701
  "step": 237
1702
  },
1703
  {
1704
  "epoch": 0.7051851851851851,
1705
+ "grad_norm": 0.6632979512214661,
1706
+ "learning_rate": 9.099099099099099e-06,
1707
+ "loss": 0.1576,
1708
  "step": 238
1709
  },
1710
  {
1711
  "epoch": 0.7081481481481482,
1712
+ "grad_norm": 0.5669253468513489,
1713
+ "learning_rate": 9.00900900900901e-06,
1714
+ "loss": 0.1293,
1715
  "step": 239
1716
  },
1717
  {
1718
  "epoch": 0.7111111111111111,
1719
+ "grad_norm": 0.807396650314331,
1720
+ "learning_rate": 8.91891891891892e-06,
1721
+ "loss": 0.2094,
1722
  "step": 240
1723
  },
1724
  {
1725
  "epoch": 0.7140740740740741,
1726
+ "grad_norm": 0.739194929599762,
1727
+ "learning_rate": 8.828828828828828e-06,
1728
+ "loss": 0.1901,
1729
  "step": 241
1730
  },
1731
  {
1732
  "epoch": 0.717037037037037,
1733
+ "grad_norm": 0.6328135132789612,
1734
+ "learning_rate": 8.738738738738739e-06,
1735
+ "loss": 0.1622,
1736
  "step": 242
1737
  },
1738
  {
1739
  "epoch": 0.72,
1740
+ "grad_norm": 0.7799888849258423,
1741
+ "learning_rate": 8.64864864864865e-06,
1742
+ "loss": 0.246,
1743
  "step": 243
1744
  },
1745
  {
1746
  "epoch": 0.7229629629629629,
1747
+ "grad_norm": 0.6167428493499756,
1748
+ "learning_rate": 8.558558558558558e-06,
1749
+ "loss": 0.1321,
1750
  "step": 244
1751
  },
1752
  {
1753
  "epoch": 0.725925925925926,
1754
+ "grad_norm": 0.5111340880393982,
1755
+ "learning_rate": 8.46846846846847e-06,
1756
+ "loss": 0.1061,
1757
  "step": 245
1758
  },
1759
  {
1760
  "epoch": 0.7288888888888889,
1761
+ "grad_norm": 0.714773952960968,
1762
+ "learning_rate": 8.378378378378378e-06,
1763
+ "loss": 0.2025,
1764
  "step": 246
1765
  },
1766
  {
1767
  "epoch": 0.7318518518518519,
1768
+ "grad_norm": 0.5915043950080872,
1769
+ "learning_rate": 8.288288288288287e-06,
1770
+ "loss": 0.1148,
1771
  "step": 247
1772
  },
1773
  {
1774
  "epoch": 0.7348148148148148,
1775
+ "grad_norm": 0.6125442981719971,
1776
+ "learning_rate": 8.198198198198198e-06,
1777
+ "loss": 0.1343,
1778
  "step": 248
1779
  },
1780
  {
1781
  "epoch": 0.7377777777777778,
1782
+ "grad_norm": 0.8247624635696411,
1783
+ "learning_rate": 8.108108108108109e-06,
1784
+ "loss": 0.2321,
1785
  "step": 249
1786
  },
1787
  {
1788
  "epoch": 0.7407407407407407,
1789
+ "grad_norm": 0.6755908131599426,
1790
+ "learning_rate": 8.01801801801802e-06,
1791
+ "loss": 0.1827,
1792
  "step": 250
1793
  },
1794
  {
1795
  "epoch": 0.7407407407407407,
1796
+ "eval_loss": 0.15461350977420807,
1797
+ "eval_runtime": 14.1271,
1798
+ "eval_samples_per_second": 42.472,
1799
+ "eval_steps_per_second": 5.309,
1800
  "step": 250
1801
  },
1802
  {
1803
  "epoch": 0.7437037037037038,
1804
+ "grad_norm": 0.63921058177948,
1805
+ "learning_rate": 7.927927927927927e-06,
1806
+ "loss": 0.1599,
1807
  "step": 251
1808
  },
1809
  {
1810
  "epoch": 0.7466666666666667,
1811
+ "grad_norm": 0.547126054763794,
1812
+ "learning_rate": 7.837837837837838e-06,
1813
+ "loss": 0.142,
1814
  "step": 252
1815
  },
1816
  {
1817
  "epoch": 0.7496296296296296,
1818
+ "grad_norm": 0.7663922905921936,
1819
+ "learning_rate": 7.747747747747749e-06,
1820
+ "loss": 0.1981,
1821
  "step": 253
1822
  },
1823
  {
1824
  "epoch": 0.7525925925925926,
1825
+ "grad_norm": 0.6325225234031677,
1826
+ "learning_rate": 7.657657657657658e-06,
1827
  "loss": 0.1413,
1828
  "step": 254
1829
  },
1830
  {
1831
  "epoch": 0.7555555555555555,
1832
+ "grad_norm": 0.7257774472236633,
1833
+ "learning_rate": 7.567567567567567e-06,
1834
+ "loss": 0.2066,
1835
  "step": 255
1836
  },
1837
  {
1838
  "epoch": 0.7585185185185185,
1839
+ "grad_norm": 0.6610811352729797,
1840
+ "learning_rate": 7.477477477477477e-06,
1841
+ "loss": 0.1755,
1842
  "step": 256
1843
  },
1844
  {
1845
  "epoch": 0.7614814814814815,
1846
+ "grad_norm": 0.6078842282295227,
1847
+ "learning_rate": 7.387387387387388e-06,
1848
+ "loss": 0.2016,
1849
  "step": 257
1850
  },
1851
  {
1852
  "epoch": 0.7644444444444445,
1853
+ "grad_norm": 0.6328191161155701,
1854
+ "learning_rate": 7.297297297297298e-06,
1855
+ "loss": 0.1884,
1856
  "step": 258
1857
  },
1858
  {
1859
  "epoch": 0.7674074074074074,
1860
+ "grad_norm": 0.7390186190605164,
1861
+ "learning_rate": 7.207207207207207e-06,
1862
+ "loss": 0.1898,
1863
  "step": 259
1864
  },
1865
  {
1866
  "epoch": 0.7703703703703704,
1867
+ "grad_norm": 0.6354762315750122,
1868
+ "learning_rate": 7.117117117117118e-06,
1869
+ "loss": 0.1649,
1870
  "step": 260
1871
  },
1872
  {
1873
  "epoch": 0.7733333333333333,
1874
+ "grad_norm": 0.8199350237846375,
1875
+ "learning_rate": 7.027027027027027e-06,
1876
+ "loss": 0.2304,
1877
  "step": 261
1878
  },
1879
  {
1880
  "epoch": 0.7762962962962963,
1881
+ "grad_norm": 0.8470929861068726,
1882
+ "learning_rate": 6.936936936936938e-06,
1883
+ "loss": 0.2142,
1884
  "step": 262
1885
  },
1886
  {
1887
  "epoch": 0.7792592592592592,
1888
+ "grad_norm": 0.8667031526565552,
1889
+ "learning_rate": 6.846846846846847e-06,
1890
+ "loss": 0.248,
1891
  "step": 263
1892
  },
1893
  {
1894
  "epoch": 0.7822222222222223,
1895
+ "grad_norm": 0.5739657282829285,
1896
+ "learning_rate": 6.756756756756757e-06,
1897
+ "loss": 0.1179,
1898
  "step": 264
1899
  },
1900
  {
1901
  "epoch": 0.7851851851851852,
1902
+ "grad_norm": 0.5817047953605652,
1903
+ "learning_rate": 6.666666666666667e-06,
1904
+ "loss": 0.1191,
1905
  "step": 265
1906
  },
1907
  {
1908
  "epoch": 0.7881481481481482,
1909
+ "grad_norm": 0.5076894164085388,
1910
+ "learning_rate": 6.576576576576577e-06,
1911
+ "loss": 0.1247,
1912
  "step": 266
1913
  },
1914
  {
1915
  "epoch": 0.7911111111111111,
1916
+ "grad_norm": 0.6611981987953186,
1917
+ "learning_rate": 6.486486486486487e-06,
1918
+ "loss": 0.1937,
1919
  "step": 267
1920
  },
1921
  {
1922
  "epoch": 0.794074074074074,
1923
+ "grad_norm": 0.7290340065956116,
1924
+ "learning_rate": 6.3963963963963965e-06,
1925
+ "loss": 0.1726,
1926
  "step": 268
1927
  },
1928
  {
1929
  "epoch": 0.797037037037037,
1930
+ "grad_norm": 0.7665138244628906,
1931
+ "learning_rate": 6.3063063063063065e-06,
1932
+ "loss": 0.1934,
1933
  "step": 269
1934
  },
1935
  {
1936
  "epoch": 0.8,
1937
+ "grad_norm": 0.8837843537330627,
1938
+ "learning_rate": 6.2162162162162164e-06,
1939
+ "loss": 0.2664,
1940
  "step": 270
1941
  },
1942
  {
1943
  "epoch": 0.802962962962963,
1944
+ "grad_norm": 0.6573258638381958,
1945
+ "learning_rate": 6.126126126126126e-06,
1946
+ "loss": 0.1608,
1947
  "step": 271
1948
  },
1949
  {
1950
  "epoch": 0.8059259259259259,
1951
+ "grad_norm": 0.8149768710136414,
1952
+ "learning_rate": 6.0360360360360355e-06,
1953
+ "loss": 0.2045,
1954
  "step": 272
1955
  },
1956
  {
1957
  "epoch": 0.8088888888888889,
1958
+ "grad_norm": 0.8355318307876587,
1959
+ "learning_rate": 5.945945945945946e-06,
1960
+ "loss": 0.2532,
1961
  "step": 273
1962
  },
1963
  {
1964
  "epoch": 0.8118518518518518,
1965
+ "grad_norm": 0.45708897709846497,
1966
+ "learning_rate": 5.855855855855855e-06,
1967
+ "loss": 0.0903,
1968
  "step": 274
1969
  },
1970
  {
1971
  "epoch": 0.8148148148148148,
1972
+ "grad_norm": 0.7013540267944336,
1973
+ "learning_rate": 5.765765765765766e-06,
1974
+ "loss": 0.2129,
1975
  "step": 275
1976
  },
1977
  {
1978
  "epoch": 0.8177777777777778,
1979
+ "grad_norm": 0.8260526061058044,
1980
+ "learning_rate": 5.675675675675676e-06,
1981
+ "loss": 0.2359,
1982
  "step": 276
1983
  },
1984
  {
1985
  "epoch": 0.8207407407407408,
1986
+ "grad_norm": 0.6625615954399109,
1987
+ "learning_rate": 5.585585585585585e-06,
1988
+ "loss": 0.1719,
1989
  "step": 277
1990
  },
1991
  {
1992
  "epoch": 0.8237037037037037,
1993
+ "grad_norm": 0.48971474170684814,
1994
+ "learning_rate": 5.495495495495496e-06,
1995
+ "loss": 0.0954,
1996
  "step": 278
1997
  },
1998
  {
1999
  "epoch": 0.8266666666666667,
2000
+ "grad_norm": 0.6506958603858948,
2001
+ "learning_rate": 5.405405405405405e-06,
2002
+ "loss": 0.1524,
2003
  "step": 279
2004
  },
2005
  {
2006
  "epoch": 0.8296296296296296,
2007
+ "grad_norm": 0.8318085074424744,
2008
+ "learning_rate": 5.315315315315315e-06,
2009
+ "loss": 0.2372,
2010
  "step": 280
2011
  },
2012
  {
2013
  "epoch": 0.8325925925925926,
2014
+ "grad_norm": 0.5079582929611206,
2015
+ "learning_rate": 5.225225225225225e-06,
2016
+ "loss": 0.1051,
2017
  "step": 281
2018
  },
2019
  {
2020
  "epoch": 0.8355555555555556,
2021
+ "grad_norm": 0.7515102624893188,
2022
+ "learning_rate": 5.135135135135135e-06,
2023
+ "loss": 0.2023,
2024
  "step": 282
2025
  },
2026
  {
2027
  "epoch": 0.8385185185185186,
2028
+ "grad_norm": 0.5988075733184814,
2029
+ "learning_rate": 5.045045045045046e-06,
2030
+ "loss": 0.1527,
2031
  "step": 283
2032
  },
2033
  {
2034
  "epoch": 0.8414814814814815,
2035
+ "grad_norm": 0.6875013113021851,
2036
+ "learning_rate": 4.954954954954955e-06,
2037
+ "loss": 0.1658,
2038
  "step": 284
2039
  },
2040
  {
2041
  "epoch": 0.8444444444444444,
2042
+ "grad_norm": 0.6339918375015259,
2043
+ "learning_rate": 4.864864864864865e-06,
2044
+ "loss": 0.1247,
2045
  "step": 285
2046
  },
2047
  {
2048
  "epoch": 0.8474074074074074,
2049
+ "grad_norm": 0.5002294778823853,
2050
+ "learning_rate": 4.774774774774775e-06,
2051
+ "loss": 0.1244,
2052
  "step": 286
2053
  },
2054
  {
2055
  "epoch": 0.8503703703703703,
2056
+ "grad_norm": 0.6315642595291138,
2057
+ "learning_rate": 4.684684684684685e-06,
2058
  "loss": 0.1248,
2059
  "step": 287
2060
  },
2061
  {
2062
  "epoch": 0.8533333333333334,
2063
+ "grad_norm": 0.5210931897163391,
2064
+ "learning_rate": 4.594594594594595e-06,
2065
+ "loss": 0.112,
2066
  "step": 288
2067
  },
2068
  {
2069
  "epoch": 0.8562962962962963,
2070
+ "grad_norm": 0.6035313606262207,
2071
+ "learning_rate": 4.504504504504505e-06,
2072
+ "loss": 0.164,
2073
  "step": 289
2074
  },
2075
  {
2076
  "epoch": 0.8592592592592593,
2077
+ "grad_norm": 0.5063045620918274,
2078
+ "learning_rate": 4.414414414414414e-06,
2079
+ "loss": 0.0946,
2080
  "step": 290
2081
  },
2082
  {
2083
  "epoch": 0.8622222222222222,
2084
+ "grad_norm": 0.5500133633613586,
2085
+ "learning_rate": 4.324324324324325e-06,
2086
+ "loss": 0.1246,
2087
  "step": 291
2088
  },
2089
  {
2090
  "epoch": 0.8651851851851852,
2091
+ "grad_norm": 0.5283143520355225,
2092
+ "learning_rate": 4.234234234234235e-06,
2093
  "loss": 0.1234,
2094
  "step": 292
2095
  },
2096
  {
2097
  "epoch": 0.8681481481481481,
2098
+ "grad_norm": 0.5906702280044556,
2099
+ "learning_rate": 4.144144144144144e-06,
2100
+ "loss": 0.1139,
2101
  "step": 293
2102
  },
2103
  {
2104
  "epoch": 0.8711111111111111,
2105
+ "grad_norm": 0.7998249530792236,
2106
+ "learning_rate": 4.0540540540540545e-06,
2107
+ "loss": 0.2293,
2108
  "step": 294
2109
  },
2110
  {
2111
  "epoch": 0.8740740740740741,
2112
+ "grad_norm": 0.477461040019989,
2113
+ "learning_rate": 3.963963963963964e-06,
2114
+ "loss": 0.1225,
2115
  "step": 295
2116
  },
2117
  {
2118
  "epoch": 0.8770370370370371,
2119
+ "grad_norm": 0.718265175819397,
2120
+ "learning_rate": 3.8738738738738744e-06,
2121
+ "loss": 0.1591,
2122
  "step": 296
2123
  },
2124
  {
2125
  "epoch": 0.88,
2126
+ "grad_norm": 0.5837140679359436,
2127
+ "learning_rate": 3.7837837837837835e-06,
2128
+ "loss": 0.1375,
2129
  "step": 297
2130
  },
2131
  {
2132
  "epoch": 0.882962962962963,
2133
+ "grad_norm": 0.6149828433990479,
2134
+ "learning_rate": 3.693693693693694e-06,
2135
+ "loss": 0.1791,
2136
  "step": 298
2137
  },
2138
  {
2139
  "epoch": 0.8859259259259259,
2140
+ "grad_norm": 0.5193979740142822,
2141
+ "learning_rate": 3.6036036036036035e-06,
2142
+ "loss": 0.1331,
2143
  "step": 299
2144
  },
2145
  {
2146
  "epoch": 0.8888888888888888,
2147
+ "grad_norm": 0.5128735899925232,
2148
+ "learning_rate": 3.5135135135135134e-06,
2149
+ "loss": 0.1142,
2150
  "step": 300
2151
  },
2152
  {
2153
  "epoch": 0.8888888888888888,
2154
+ "eval_loss": 0.1521201729774475,
2155
+ "eval_runtime": 14.109,
2156
+ "eval_samples_per_second": 42.526,
2157
+ "eval_steps_per_second": 5.316,
2158
  "step": 300
2159
  },
2160
  {
2161
  "epoch": 0.8918518518518519,
2162
+ "grad_norm": 0.6757302284240723,
2163
+ "learning_rate": 3.4234234234234234e-06,
2164
+ "loss": 0.1897,
2165
  "step": 301
2166
  },
2167
  {
2168
  "epoch": 0.8948148148148148,
2169
+ "grad_norm": 0.7718675136566162,
2170
+ "learning_rate": 3.3333333333333333e-06,
2171
+ "loss": 0.1665,
2172
  "step": 302
2173
  },
2174
  {
2175
  "epoch": 0.8977777777777778,
2176
+ "grad_norm": 0.482134073972702,
2177
+ "learning_rate": 3.2432432432432437e-06,
2178
+ "loss": 0.0866,
2179
  "step": 303
2180
  },
2181
  {
2182
  "epoch": 0.9007407407407407,
2183
+ "grad_norm": 0.6804472804069519,
2184
+ "learning_rate": 3.1531531531531532e-06,
2185
+ "loss": 0.208,
2186
  "step": 304
2187
  },
2188
  {
2189
  "epoch": 0.9037037037037037,
2190
+ "grad_norm": 0.7419773936271667,
2191
+ "learning_rate": 3.063063063063063e-06,
2192
+ "loss": 0.1108,
2193
  "step": 305
2194
  },
2195
  {
2196
  "epoch": 0.9066666666666666,
2197
+ "grad_norm": 0.689755380153656,
2198
+ "learning_rate": 2.972972972972973e-06,
2199
+ "loss": 0.1296,
2200
  "step": 306
2201
  },
2202
  {
2203
  "epoch": 0.9096296296296297,
2204
+ "grad_norm": 0.49612197279930115,
2205
+ "learning_rate": 2.882882882882883e-06,
2206
+ "loss": 0.1145,
2207
  "step": 307
2208
  },
2209
  {
2210
  "epoch": 0.9125925925925926,
2211
+ "grad_norm": 0.73726487159729,
2212
+ "learning_rate": 2.7927927927927926e-06,
2213
+ "loss": 0.2119,
2214
  "step": 308
2215
  },
2216
  {
2217
  "epoch": 0.9155555555555556,
2218
+ "grad_norm": 0.7747570276260376,
2219
+ "learning_rate": 2.7027027027027026e-06,
2220
+ "loss": 0.2202,
2221
  "step": 309
2222
  },
2223
  {
2224
  "epoch": 0.9185185185185185,
2225
+ "grad_norm": 0.7008584141731262,
2226
+ "learning_rate": 2.6126126126126125e-06,
2227
+ "loss": 0.1677,
2228
  "step": 310
2229
  },
2230
  {
2231
  "epoch": 0.9214814814814815,
2232
+ "grad_norm": 0.4077196717262268,
2233
+ "learning_rate": 2.522522522522523e-06,
2234
+ "loss": 0.0912,
2235
  "step": 311
2236
  },
2237
  {
2238
  "epoch": 0.9244444444444444,
2239
+ "grad_norm": 0.5494208931922913,
2240
+ "learning_rate": 2.4324324324324325e-06,
2241
+ "loss": 0.1325,
2242
  "step": 312
2243
  },
2244
  {
2245
  "epoch": 0.9274074074074075,
2246
+ "grad_norm": 0.7233456373214722,
2247
+ "learning_rate": 2.3423423423423424e-06,
2248
+ "loss": 0.1924,
2249
  "step": 313
2250
  },
2251
  {
2252
  "epoch": 0.9303703703703704,
2253
+ "grad_norm": 0.5116931200027466,
2254
+ "learning_rate": 2.2522522522522524e-06,
2255
+ "loss": 0.0999,
2256
  "step": 314
2257
  },
2258
  {
2259
  "epoch": 0.9333333333333333,
2260
+ "grad_norm": 0.6791926026344299,
2261
+ "learning_rate": 2.1621621621621623e-06,
2262
+ "loss": 0.1724,
2263
  "step": 315
2264
  },
2265
  {
2266
  "epoch": 0.9362962962962963,
2267
+ "grad_norm": 0.6117425560951233,
2268
+ "learning_rate": 2.072072072072072e-06,
2269
+ "loss": 0.1936,
2270
  "step": 316
2271
  },
2272
  {
2273
  "epoch": 0.9392592592592592,
2274
+ "grad_norm": 0.6541153192520142,
2275
+ "learning_rate": 1.981981981981982e-06,
2276
+ "loss": 0.1502,
2277
  "step": 317
2278
  },
2279
  {
2280
  "epoch": 0.9422222222222222,
2281
+ "grad_norm": 0.6360153555870056,
2282
+ "learning_rate": 1.8918918918918918e-06,
2283
+ "loss": 0.1556,
2284
  "step": 318
2285
  },
2286
  {
2287
  "epoch": 0.9451851851851852,
2288
+ "grad_norm": 0.5484958291053772,
2289
+ "learning_rate": 1.8018018018018017e-06,
2290
+ "loss": 0.1567,
2291
  "step": 319
2292
  },
2293
  {
2294
  "epoch": 0.9481481481481482,
2295
+ "grad_norm": 0.6073195934295654,
2296
+ "learning_rate": 1.7117117117117117e-06,
2297
+ "loss": 0.1388,
2298
  "step": 320
2299
  },
2300
  {
2301
  "epoch": 0.9511111111111111,
2302
+ "grad_norm": 0.6052750945091248,
2303
+ "learning_rate": 1.6216216216216219e-06,
2304
+ "loss": 0.1427,
2305
  "step": 321
2306
  },
2307
  {
2308
  "epoch": 0.9540740740740741,
2309
+ "grad_norm": 0.5835985541343689,
2310
+ "learning_rate": 1.5315315315315316e-06,
2311
+ "loss": 0.1611,
2312
  "step": 322
2313
  },
2314
  {
2315
  "epoch": 0.957037037037037,
2316
+ "grad_norm": 0.5069778561592102,
2317
+ "learning_rate": 1.4414414414414416e-06,
2318
+ "loss": 0.1398,
2319
  "step": 323
2320
  },
2321
  {
2322
  "epoch": 0.96,
2323
+ "grad_norm": 0.5789016485214233,
2324
+ "learning_rate": 1.3513513513513513e-06,
2325
+ "loss": 0.1085,
2326
  "step": 324
2327
  },
2328
  {
2329
  "epoch": 0.9629629629629629,
2330
+ "grad_norm": 0.4746359586715698,
2331
+ "learning_rate": 1.2612612612612615e-06,
2332
+ "loss": 0.109,
2333
  "step": 325
2334
  },
2335
  {
2336
  "epoch": 0.965925925925926,
2337
+ "grad_norm": 0.7349570989608765,
2338
+ "learning_rate": 1.1711711711711712e-06,
2339
+ "loss": 0.2082,
2340
  "step": 326
2341
  },
2342
  {
2343
  "epoch": 0.9688888888888889,
2344
+ "grad_norm": 0.4968010187149048,
2345
+ "learning_rate": 1.0810810810810812e-06,
2346
+ "loss": 0.1097,
2347
  "step": 327
2348
  },
2349
  {
2350
  "epoch": 0.9718518518518519,
2351
+ "grad_norm": 0.6664372086524963,
2352
+ "learning_rate": 9.90990990990991e-07,
2353
+ "loss": 0.1765,
2354
  "step": 328
2355
  },
2356
  {
2357
  "epoch": 0.9748148148148148,
2358
+ "grad_norm": 0.7878815531730652,
2359
+ "learning_rate": 9.009009009009009e-07,
2360
+ "loss": 0.1887,
2361
  "step": 329
2362
  },
2363
  {
2364
  "epoch": 0.9777777777777777,
2365
+ "grad_norm": 0.6833536028862,
2366
+ "learning_rate": 8.108108108108109e-07,
2367
+ "loss": 0.1135,
2368
  "step": 330
2369
  },
2370
  {
2371
  "epoch": 0.9807407407407407,
2372
+ "grad_norm": 0.7881770730018616,
2373
+ "learning_rate": 7.207207207207208e-07,
2374
+ "loss": 0.2267,
2375
  "step": 331
2376
  },
2377
  {
2378
  "epoch": 0.9837037037037037,
2379
+ "grad_norm": 0.5758517384529114,
2380
+ "learning_rate": 6.306306306306307e-07,
2381
+ "loss": 0.163,
2382
  "step": 332
2383
  },
2384
  {
2385
  "epoch": 0.9866666666666667,
2386
+ "grad_norm": 0.5272687077522278,
2387
+ "learning_rate": 5.405405405405406e-07,
2388
+ "loss": 0.123,
2389
  "step": 333
2390
  },
2391
  {
2392
  "epoch": 0.9896296296296296,
2393
+ "grad_norm": 0.5003986358642578,
2394
+ "learning_rate": 4.5045045045045043e-07,
2395
+ "loss": 0.1161,
2396
  "step": 334
2397
  },
2398
  {
2399
  "epoch": 0.9925925925925926,
2400
+ "grad_norm": 0.6778259873390198,
2401
+ "learning_rate": 3.603603603603604e-07,
2402
+ "loss": 0.1845,
2403
  "step": 335
2404
  },
2405
  {
2406
  "epoch": 0.9955555555555555,
2407
+ "grad_norm": 0.7316866517066956,
2408
+ "learning_rate": 2.702702702702703e-07,
2409
+ "loss": 0.201,
2410
  "step": 336
2411
  },
2412
  {
2413
  "epoch": 0.9985185185185185,
2414
+ "grad_norm": 0.7482271790504456,
2415
+ "learning_rate": 1.801801801801802e-07,
2416
+ "loss": 0.1817,
2417
  "step": 337
2418
  },
2419
  {
2420
  "epoch": 1.0,
2421
+ "grad_norm": 0.9517431855201721,
2422
+ "learning_rate": 9.00900900900901e-08,
2423
+ "loss": 0.1744,
2424
  "step": 338
2425
  }
2426
  ],
checkpoint-338/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bccf4fc7400c9a2567a1c2344a23700ced1f195050258257fe2eb9edb5ae670d
3
  size 6225
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b3886491748a57dcafa54bd22de46a1c52118c309f1ea7cd3a4afc50d85843e8
3
  size 6225