alicegoesdown commited on
Commit
10b62d2
·
verified ·
1 Parent(s): bc47cd1

Training in progress, step 150, checkpoint

Browse files
last-checkpoint/adapter_config.json CHANGED
@@ -20,10 +20,10 @@
20
  "rank_pattern": {},
21
  "revision": null,
22
  "target_modules": [
23
- "k_proj",
24
  "o_proj",
25
- "q_proj",
26
- "v_proj"
27
  ],
28
  "task_type": "CAUSAL_LM",
29
  "use_dora": false,
 
20
  "rank_pattern": {},
21
  "revision": null,
22
  "target_modules": [
23
+ "v_proj",
24
  "o_proj",
25
+ "k_proj",
26
+ "q_proj"
27
  ],
28
  "task_type": "CAUSAL_LM",
29
  "use_dora": false,
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:801aa7b997a7e4b8dcd981fd60baee3ecd664f54dc8c3da10e0115165f077998
3
  size 6832520
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d22559dc9f3539c34081db29203f0c0625e53a718119282ae5e9cbbbbfea04ad
3
  size 6832520
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d851dd04f635ce70c88f6498f39d69d87ca59d3d81be6b72bdecd25c393ab3a9
3
  size 13739450
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:065d4ede74e3982d45eabd75bcf3791c1732814b3c2687bdef88b71c498b41db
3
  size 13739450
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1d8b738ca9450d433fb2c95bc254c194b583c6dab018288271e33a0fa05a0406
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:ba79f79f4200644bcde298b8ba358af98910b10cc152e720addca023a2e47a37
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0fc647c62a4029a5bbab67166d420aae87372bfe059358b28e21b340b6d55085
3
  size 1256
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6186f1e9836e20fd270e1ab773c83f1027d92e426fd1d0a8c7816f8a9115c5fd
3
  size 1256
last-checkpoint/trainer_state.json CHANGED
@@ -1,1594 +1,125 @@
1
  {
2
- "best_metric": 1.9337016344070435,
3
- "best_model_checkpoint": "./output/checkpoint-1500",
4
- "epoch": 2.681992337164751,
5
  "eval_steps": 150,
6
- "global_step": 2100,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.01277139208173691,
13
- "grad_norm": 2.1011273860931396,
14
  "learning_rate": 4.666666666666666e-06,
15
- "loss": 1.9177,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.02554278416347382,
20
- "grad_norm": 2.0189812183380127,
21
  "learning_rate": 9.333333333333333e-06,
22
- "loss": 1.9419,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.038314176245210725,
27
- "grad_norm": 2.073760509490967,
28
  "learning_rate": 1.4e-05,
29
- "loss": 1.9122,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.05108556832694764,
34
- "grad_norm": 1.955664873123169,
35
  "learning_rate": 1.8666666666666665e-05,
36
- "loss": 1.8872,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.06385696040868455,
41
- "grad_norm": 2.6010475158691406,
42
  "learning_rate": 2.333333333333333e-05,
43
  "loss": 1.9779,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.07662835249042145,
48
- "grad_norm": 2.0808260440826416,
49
  "learning_rate": 2.8e-05,
50
- "loss": 1.933,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.08939974457215837,
55
- "grad_norm": 1.969761848449707,
56
  "learning_rate": 3.266666666666666e-05,
57
- "loss": 1.946,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.10217113665389528,
62
- "grad_norm": 2.136836290359497,
63
  "learning_rate": 3.733333333333333e-05,
64
- "loss": 1.9441,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.11494252873563218,
69
- "grad_norm": 2.056912899017334,
70
  "learning_rate": 4.2e-05,
71
- "loss": 1.9262,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.1277139208173691,
76
- "grad_norm": 2.1491384506225586,
77
  "learning_rate": 4.666666666666666e-05,
78
- "loss": 1.9775,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.140485312899106,
83
- "grad_norm": 1.8882553577423096,
84
  "learning_rate": 5.1333333333333325e-05,
85
  "loss": 1.9233,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.1532567049808429,
90
- "grad_norm": 2.0507898330688477,
91
  "learning_rate": 5.6e-05,
92
- "loss": 1.9408,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.16602809706257982,
97
- "grad_norm": 2.2763912677764893,
98
  "learning_rate": 6.0666666666666666e-05,
99
- "loss": 1.9429,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.17879948914431673,
104
- "grad_norm": 2.1040444374084473,
105
  "learning_rate": 6.533333333333333e-05,
106
- "loss": 1.9193,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.19157088122605365,
111
- "grad_norm": 2.0764999389648438,
112
  "learning_rate": 7e-05,
113
  "loss": 1.9405,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.19157088122605365,
118
- "eval_loss": 1.9780572652816772,
119
- "eval_runtime": 24.3012,
120
- "eval_samples_per_second": 20.575,
121
- "eval_steps_per_second": 20.575,
122
  "step": 150
123
- },
124
- {
125
- "epoch": 0.20434227330779056,
126
- "grad_norm": 2.221877336502075,
127
- "learning_rate": 6.999926573504895e-05,
128
- "loss": 1.881,
129
- "step": 160
130
- },
131
- {
132
- "epoch": 0.21711366538952745,
133
- "grad_norm": 2.2773871421813965,
134
- "learning_rate": 6.999706297100412e-05,
135
- "loss": 1.9073,
136
- "step": 170
137
- },
138
- {
139
- "epoch": 0.22988505747126436,
140
- "grad_norm": 2.2678256034851074,
141
- "learning_rate": 6.999339180028904e-05,
142
- "loss": 1.8844,
143
- "step": 180
144
- },
145
- {
146
- "epoch": 0.24265644955300128,
147
- "grad_norm": 2.0379583835601807,
148
- "learning_rate": 6.99882523769387e-05,
149
- "loss": 1.9496,
150
- "step": 190
151
- },
152
- {
153
- "epoch": 0.2554278416347382,
154
- "grad_norm": 2.1946399211883545,
155
- "learning_rate": 6.998164491659302e-05,
156
- "loss": 1.9193,
157
- "step": 200
158
- },
159
- {
160
- "epoch": 0.2681992337164751,
161
- "grad_norm": 2.218657970428467,
162
- "learning_rate": 6.997356969648778e-05,
163
- "loss": 1.834,
164
- "step": 210
165
- },
166
- {
167
- "epoch": 0.280970625798212,
168
- "grad_norm": 2.1720638275146484,
169
- "learning_rate": 6.996402705544307e-05,
170
- "loss": 1.9135,
171
- "step": 220
172
- },
173
- {
174
- "epoch": 0.2937420178799489,
175
- "grad_norm": 2.029083251953125,
176
- "learning_rate": 6.995301739384896e-05,
177
- "loss": 1.9661,
178
- "step": 230
179
- },
180
- {
181
- "epoch": 0.3065134099616858,
182
- "grad_norm": 1.9260584115982056,
183
- "learning_rate": 6.994054117364885e-05,
184
- "loss": 1.9046,
185
- "step": 240
186
- },
187
- {
188
- "epoch": 0.31928480204342274,
189
- "grad_norm": 2.0648281574249268,
190
- "learning_rate": 6.992659891831991e-05,
191
- "loss": 1.9672,
192
- "step": 250
193
- },
194
- {
195
- "epoch": 0.33205619412515963,
196
- "grad_norm": 1.964780330657959,
197
- "learning_rate": 6.991119121285126e-05,
198
- "loss": 1.9125,
199
- "step": 260
200
- },
201
- {
202
- "epoch": 0.3448275862068966,
203
- "grad_norm": 2.132140636444092,
204
- "learning_rate": 6.989431870371936e-05,
205
- "loss": 1.9624,
206
- "step": 270
207
- },
208
- {
209
- "epoch": 0.35759897828863346,
210
- "grad_norm": 2.0243074893951416,
211
- "learning_rate": 6.987598209886091e-05,
212
- "loss": 1.9409,
213
- "step": 280
214
- },
215
- {
216
- "epoch": 0.37037037037037035,
217
- "grad_norm": 1.9534668922424316,
218
- "learning_rate": 6.985618216764314e-05,
219
- "loss": 1.9589,
220
- "step": 290
221
- },
222
- {
223
- "epoch": 0.3831417624521073,
224
- "grad_norm": 1.9132697582244873,
225
- "learning_rate": 6.983491974083148e-05,
226
- "loss": 1.9467,
227
- "step": 300
228
- },
229
- {
230
- "epoch": 0.3831417624521073,
231
- "eval_loss": 1.962647795677185,
232
- "eval_runtime": 24.5626,
233
- "eval_samples_per_second": 20.356,
234
- "eval_steps_per_second": 20.356,
235
- "step": 300
236
- },
237
- {
238
- "epoch": 0.3959131545338442,
239
- "grad_norm": 2.107532262802124,
240
- "learning_rate": 6.981219571055479e-05,
241
- "loss": 1.8887,
242
- "step": 310
243
- },
244
- {
245
- "epoch": 0.4086845466155811,
246
- "grad_norm": 1.9190975427627563,
247
- "learning_rate": 6.978801103026786e-05,
248
- "loss": 1.9321,
249
- "step": 320
250
- },
251
- {
252
- "epoch": 0.421455938697318,
253
- "grad_norm": 2.313232421875,
254
- "learning_rate": 6.976236671471145e-05,
255
- "loss": 1.9673,
256
- "step": 330
257
- },
258
- {
259
- "epoch": 0.4342273307790549,
260
- "grad_norm": 2.028118848800659,
261
- "learning_rate": 6.973526383986968e-05,
262
- "loss": 1.8951,
263
- "step": 340
264
- },
265
- {
266
- "epoch": 0.44699872286079184,
267
- "grad_norm": 1.9303714036941528,
268
- "learning_rate": 6.970670354292487e-05,
269
- "loss": 1.888,
270
- "step": 350
271
- },
272
- {
273
- "epoch": 0.45977011494252873,
274
- "grad_norm": 1.9469075202941895,
275
- "learning_rate": 6.967668702220992e-05,
276
- "loss": 1.9534,
277
- "step": 360
278
- },
279
- {
280
- "epoch": 0.4725415070242657,
281
- "grad_norm": 1.9907073974609375,
282
- "learning_rate": 6.964521553715788e-05,
283
- "loss": 1.928,
284
- "step": 370
285
- },
286
- {
287
- "epoch": 0.48531289910600256,
288
- "grad_norm": 1.9961628913879395,
289
- "learning_rate": 6.961229040824927e-05,
290
- "loss": 1.8961,
291
- "step": 380
292
- },
293
- {
294
- "epoch": 0.49808429118773945,
295
- "grad_norm": 2.0501065254211426,
296
- "learning_rate": 6.957791301695653e-05,
297
- "loss": 1.8465,
298
- "step": 390
299
- },
300
- {
301
- "epoch": 0.5108556832694764,
302
- "grad_norm": 2.014704704284668,
303
- "learning_rate": 6.954208480568616e-05,
304
- "loss": 1.9278,
305
- "step": 400
306
- },
307
- {
308
- "epoch": 0.5236270753512133,
309
- "grad_norm": 1.8024693727493286,
310
- "learning_rate": 6.950480727771816e-05,
311
- "loss": 1.945,
312
- "step": 410
313
- },
314
- {
315
- "epoch": 0.5363984674329502,
316
- "grad_norm": 2.1424338817596436,
317
- "learning_rate": 6.946608199714291e-05,
318
- "loss": 1.9117,
319
- "step": 420
320
- },
321
- {
322
- "epoch": 0.5491698595146871,
323
- "grad_norm": 1.9119850397109985,
324
- "learning_rate": 6.942591058879567e-05,
325
- "loss": 1.9086,
326
- "step": 430
327
- },
328
- {
329
- "epoch": 0.561941251596424,
330
- "grad_norm": 1.866670846939087,
331
- "learning_rate": 6.938429473818823e-05,
332
- "loss": 1.91,
333
- "step": 440
334
- },
335
- {
336
- "epoch": 0.5747126436781609,
337
- "grad_norm": 1.9712364673614502,
338
- "learning_rate": 6.934123619143835e-05,
339
- "loss": 1.899,
340
- "step": 450
341
- },
342
- {
343
- "epoch": 0.5747126436781609,
344
- "eval_loss": 1.9519777297973633,
345
- "eval_runtime": 24.1832,
346
- "eval_samples_per_second": 20.676,
347
- "eval_steps_per_second": 20.676,
348
- "step": 450
349
- },
350
- {
351
- "epoch": 0.5874840357598978,
352
- "grad_norm": 1.8985211849212646,
353
- "learning_rate": 6.929673675519645e-05,
354
- "loss": 1.8811,
355
- "step": 460
356
- },
357
- {
358
- "epoch": 0.6002554278416348,
359
- "grad_norm": 1.8869976997375488,
360
- "learning_rate": 6.92507982965697e-05,
361
- "loss": 1.8547,
362
- "step": 470
363
- },
364
- {
365
- "epoch": 0.6130268199233716,
366
- "grad_norm": 2.027930974960327,
367
- "learning_rate": 6.920342274304384e-05,
368
- "loss": 1.8605,
369
- "step": 480
370
- },
371
- {
372
- "epoch": 0.6257982120051085,
373
- "grad_norm": 1.832667350769043,
374
- "learning_rate": 6.915461208240223e-05,
375
- "loss": 1.8656,
376
- "step": 490
377
- },
378
- {
379
- "epoch": 0.6385696040868455,
380
- "grad_norm": 1.9933980703353882,
381
- "learning_rate": 6.910436836264241e-05,
382
- "loss": 1.9675,
383
- "step": 500
384
- },
385
- {
386
- "epoch": 0.6513409961685823,
387
- "grad_norm": 1.8492072820663452,
388
- "learning_rate": 6.905269369189023e-05,
389
- "loss": 1.8948,
390
- "step": 510
391
- },
392
- {
393
- "epoch": 0.6641123882503193,
394
- "grad_norm": 2.021852970123291,
395
- "learning_rate": 6.899959023831139e-05,
396
- "loss": 1.8755,
397
- "step": 520
398
- },
399
- {
400
- "epoch": 0.6768837803320562,
401
- "grad_norm": 1.7901625633239746,
402
- "learning_rate": 6.894506023002045e-05,
403
- "loss": 1.8934,
404
- "step": 530
405
- },
406
- {
407
- "epoch": 0.6896551724137931,
408
- "grad_norm": 1.9580366611480713,
409
- "learning_rate": 6.888910595498735e-05,
410
- "loss": 1.9229,
411
- "step": 540
412
- },
413
- {
414
- "epoch": 0.70242656449553,
415
- "grad_norm": 1.8306083679199219,
416
- "learning_rate": 6.883172976094139e-05,
417
- "loss": 1.9469,
418
- "step": 550
419
- },
420
- {
421
- "epoch": 0.7151979565772669,
422
- "grad_norm": 1.8871126174926758,
423
- "learning_rate": 6.877293405527276e-05,
424
- "loss": 1.914,
425
- "step": 560
426
- },
427
- {
428
- "epoch": 0.7279693486590039,
429
- "grad_norm": 1.7971593141555786,
430
- "learning_rate": 6.871272130493153e-05,
431
- "loss": 1.8504,
432
- "step": 570
433
- },
434
- {
435
- "epoch": 0.7407407407407407,
436
- "grad_norm": 1.9786813259124756,
437
- "learning_rate": 6.86510940363241e-05,
438
- "loss": 1.876,
439
- "step": 580
440
- },
441
- {
442
- "epoch": 0.7535121328224776,
443
- "grad_norm": 1.9042707681655884,
444
- "learning_rate": 6.858805483520723e-05,
445
- "loss": 1.8948,
446
- "step": 590
447
- },
448
- {
449
- "epoch": 0.7662835249042146,
450
- "grad_norm": 2.191734552383423,
451
- "learning_rate": 6.852360634657953e-05,
452
- "loss": 1.9266,
453
- "step": 600
454
- },
455
- {
456
- "epoch": 0.7662835249042146,
457
- "eval_loss": 1.9498045444488525,
458
- "eval_runtime": 24.164,
459
- "eval_samples_per_second": 20.692,
460
- "eval_steps_per_second": 20.692,
461
- "step": 600
462
- },
463
- {
464
- "epoch": 0.7790549169859514,
465
- "grad_norm": 1.8927336931228638,
466
- "learning_rate": 6.845775127457056e-05,
467
- "loss": 1.8992,
468
- "step": 610
469
- },
470
- {
471
- "epoch": 0.7918263090676884,
472
- "grad_norm": 2.0473830699920654,
473
- "learning_rate": 6.839049238232719e-05,
474
- "loss": 1.8489,
475
- "step": 620
476
- },
477
- {
478
- "epoch": 0.8045977011494253,
479
- "grad_norm": 1.8225151300430298,
480
- "learning_rate": 6.832183249189786e-05,
481
- "loss": 1.923,
482
- "step": 630
483
- },
484
- {
485
- "epoch": 0.8173690932311622,
486
- "grad_norm": 1.8365392684936523,
487
- "learning_rate": 6.825177448411404e-05,
488
- "loss": 1.8782,
489
- "step": 640
490
- },
491
- {
492
- "epoch": 0.8301404853128991,
493
- "grad_norm": 1.8688030242919922,
494
- "learning_rate": 6.818032129846945e-05,
495
- "loss": 1.9063,
496
- "step": 650
497
- },
498
- {
499
- "epoch": 0.842911877394636,
500
- "grad_norm": 1.7445991039276123,
501
- "learning_rate": 6.810747593299666e-05,
502
- "loss": 1.8548,
503
- "step": 660
504
- },
505
- {
506
- "epoch": 0.855683269476373,
507
- "grad_norm": 1.7961305379867554,
508
- "learning_rate": 6.803324144414127e-05,
509
- "loss": 1.8504,
510
- "step": 670
511
- },
512
- {
513
- "epoch": 0.8684546615581098,
514
- "grad_norm": 1.8798601627349854,
515
- "learning_rate": 6.795762094663379e-05,
516
- "loss": 1.9029,
517
- "step": 680
518
- },
519
- {
520
- "epoch": 0.8812260536398467,
521
- "grad_norm": 1.9716835021972656,
522
- "learning_rate": 6.788061761335882e-05,
523
- "loss": 1.9092,
524
- "step": 690
525
- },
526
- {
527
- "epoch": 0.8939974457215837,
528
- "grad_norm": 1.8877177238464355,
529
- "learning_rate": 6.780223467522203e-05,
530
- "loss": 1.9268,
531
- "step": 700
532
- },
533
- {
534
- "epoch": 0.9067688378033205,
535
- "grad_norm": 2.017631769180298,
536
- "learning_rate": 6.772247542101449e-05,
537
- "loss": 1.9685,
538
- "step": 710
539
- },
540
- {
541
- "epoch": 0.9195402298850575,
542
- "grad_norm": 1.9911872148513794,
543
- "learning_rate": 6.764134319727477e-05,
544
- "loss": 1.8774,
545
- "step": 720
546
- },
547
- {
548
- "epoch": 0.9323116219667944,
549
- "grad_norm": 1.7452633380889893,
550
- "learning_rate": 6.755884140814851e-05,
551
- "loss": 1.8693,
552
- "step": 730
553
- },
554
- {
555
- "epoch": 0.9450830140485313,
556
- "grad_norm": 1.9967455863952637,
557
- "learning_rate": 6.747497351524552e-05,
558
- "loss": 1.897,
559
- "step": 740
560
- },
561
- {
562
- "epoch": 0.9578544061302682,
563
- "grad_norm": 1.7866498231887817,
564
- "learning_rate": 6.738974303749464e-05,
565
- "loss": 1.8744,
566
- "step": 750
567
- },
568
- {
569
- "epoch": 0.9578544061302682,
570
- "eval_loss": 1.9411674737930298,
571
- "eval_runtime": 25.0752,
572
- "eval_samples_per_second": 19.94,
573
- "eval_steps_per_second": 19.94,
574
- "step": 750
575
- },
576
- {
577
- "epoch": 0.9706257982120051,
578
- "grad_norm": 1.8407279253005981,
579
- "learning_rate": 6.7303153550996e-05,
580
- "loss": 1.8936,
581
- "step": 760
582
- },
583
- {
584
- "epoch": 0.9833971902937421,
585
- "grad_norm": 2.055628538131714,
586
- "learning_rate": 6.721520868887103e-05,
587
- "loss": 1.8761,
588
- "step": 770
589
- },
590
- {
591
- "epoch": 0.9961685823754789,
592
- "grad_norm": 1.8534340858459473,
593
- "learning_rate": 6.712591214111003e-05,
594
- "loss": 1.8828,
595
- "step": 780
596
- },
597
- {
598
- "epoch": 1.0089399744572158,
599
- "grad_norm": 1.8435447216033936,
600
- "learning_rate": 6.703526765441728e-05,
601
- "loss": 1.8907,
602
- "step": 790
603
- },
604
- {
605
- "epoch": 1.0217113665389528,
606
- "grad_norm": 1.971137285232544,
607
- "learning_rate": 6.69432790320539e-05,
608
- "loss": 1.8402,
609
- "step": 800
610
- },
611
- {
612
- "epoch": 1.0344827586206897,
613
- "grad_norm": 2.0040283203125,
614
- "learning_rate": 6.684995013367826e-05,
615
- "loss": 1.9047,
616
- "step": 810
617
- },
618
- {
619
- "epoch": 1.0472541507024267,
620
- "grad_norm": 1.9755958318710327,
621
- "learning_rate": 6.675528487518401e-05,
622
- "loss": 1.8602,
623
- "step": 820
624
- },
625
- {
626
- "epoch": 1.0600255427841634,
627
- "grad_norm": 1.8699226379394531,
628
- "learning_rate": 6.665928722853581e-05,
629
- "loss": 1.8777,
630
- "step": 830
631
- },
632
- {
633
- "epoch": 1.0727969348659003,
634
- "grad_norm": 2.011084794998169,
635
- "learning_rate": 6.656196122160264e-05,
636
- "loss": 1.8186,
637
- "step": 840
638
- },
639
- {
640
- "epoch": 1.0855683269476373,
641
- "grad_norm": 1.9715994596481323,
642
- "learning_rate": 6.646331093798883e-05,
643
- "loss": 1.8738,
644
- "step": 850
645
- },
646
- {
647
- "epoch": 1.0983397190293742,
648
- "grad_norm": 1.997855305671692,
649
- "learning_rate": 6.63633405168627e-05,
650
- "loss": 1.8658,
651
- "step": 860
652
- },
653
- {
654
- "epoch": 1.1111111111111112,
655
- "grad_norm": 1.9899482727050781,
656
- "learning_rate": 6.626205415278291e-05,
657
- "loss": 1.8366,
658
- "step": 870
659
- },
660
- {
661
- "epoch": 1.123882503192848,
662
- "grad_norm": 1.9865031242370605,
663
- "learning_rate": 6.615945609552244e-05,
664
- "loss": 1.8194,
665
- "step": 880
666
- },
667
- {
668
- "epoch": 1.136653895274585,
669
- "grad_norm": 1.8949304819107056,
670
- "learning_rate": 6.605555064989027e-05,
671
- "loss": 1.8091,
672
- "step": 890
673
- },
674
- {
675
- "epoch": 1.1494252873563218,
676
- "grad_norm": 2.125781774520874,
677
- "learning_rate": 6.595034217555082e-05,
678
- "loss": 1.8225,
679
- "step": 900
680
- },
681
- {
682
- "epoch": 1.1494252873563218,
683
- "eval_loss": 1.9406205415725708,
684
- "eval_runtime": 24.2668,
685
- "eval_samples_per_second": 20.604,
686
- "eval_steps_per_second": 20.604,
687
- "step": 900
688
- },
689
- {
690
- "epoch": 1.1621966794380587,
691
- "grad_norm": 1.8366427421569824,
692
- "learning_rate": 6.584383508684096e-05,
693
- "loss": 1.8386,
694
- "step": 910
695
- },
696
- {
697
- "epoch": 1.1749680715197957,
698
- "grad_norm": 2.075599431991577,
699
- "learning_rate": 6.57360338525848e-05,
700
- "loss": 1.8182,
701
- "step": 920
702
- },
703
- {
704
- "epoch": 1.1877394636015326,
705
- "grad_norm": 1.9955580234527588,
706
- "learning_rate": 6.562694299590624e-05,
707
- "loss": 1.8186,
708
- "step": 930
709
- },
710
- {
711
- "epoch": 1.2005108556832695,
712
- "grad_norm": 2.012458086013794,
713
- "learning_rate": 6.551656709403914e-05,
714
- "loss": 1.8484,
715
- "step": 940
716
- },
717
- {
718
- "epoch": 1.2132822477650063,
719
- "grad_norm": 2.052921772003174,
720
- "learning_rate": 6.540491077813528e-05,
721
- "loss": 1.8583,
722
- "step": 950
723
- },
724
- {
725
- "epoch": 1.2260536398467432,
726
- "grad_norm": 1.8998031616210938,
727
- "learning_rate": 6.529197873307006e-05,
728
- "loss": 1.7882,
729
- "step": 960
730
- },
731
- {
732
- "epoch": 1.2388250319284801,
733
- "grad_norm": 2.0680484771728516,
734
- "learning_rate": 6.517777569724587e-05,
735
- "loss": 1.8675,
736
- "step": 970
737
- },
738
- {
739
- "epoch": 1.251596424010217,
740
- "grad_norm": 2.0891168117523193,
741
- "learning_rate": 6.506230646239343e-05,
742
- "loss": 1.8287,
743
- "step": 980
744
- },
745
- {
746
- "epoch": 1.264367816091954,
747
- "grad_norm": 1.9214017391204834,
748
- "learning_rate": 6.494557587337054e-05,
749
- "loss": 1.81,
750
- "step": 990
751
- },
752
- {
753
- "epoch": 1.277139208173691,
754
- "grad_norm": 2.0630176067352295,
755
- "learning_rate": 6.482758882795892e-05,
756
- "loss": 1.8507,
757
- "step": 1000
758
- },
759
- {
760
- "epoch": 1.289910600255428,
761
- "grad_norm": 2.1162936687469482,
762
- "learning_rate": 6.47083502766587e-05,
763
- "loss": 1.9005,
764
- "step": 1010
765
- },
766
- {
767
- "epoch": 1.3026819923371646,
768
- "grad_norm": 2.150144100189209,
769
- "learning_rate": 6.458786522248068e-05,
770
- "loss": 1.8002,
771
- "step": 1020
772
- },
773
- {
774
- "epoch": 1.3154533844189016,
775
- "grad_norm": 1.9569624662399292,
776
- "learning_rate": 6.446613872073644e-05,
777
- "loss": 1.8005,
778
- "step": 1030
779
- },
780
- {
781
- "epoch": 1.3282247765006385,
782
- "grad_norm": 2.029466390609741,
783
- "learning_rate": 6.434317587882618e-05,
784
- "loss": 1.8143,
785
- "step": 1040
786
- },
787
- {
788
- "epoch": 1.3409961685823755,
789
- "grad_norm": 2.1835060119628906,
790
- "learning_rate": 6.421898185602448e-05,
791
- "loss": 1.9125,
792
- "step": 1050
793
- },
794
- {
795
- "epoch": 1.3409961685823755,
796
- "eval_loss": 1.9381868839263916,
797
- "eval_runtime": 24.2287,
798
- "eval_samples_per_second": 20.637,
799
- "eval_steps_per_second": 20.637,
800
- "step": 1050
801
- },
802
- {
803
- "epoch": 1.3537675606641124,
804
- "grad_norm": 2.052374839782715,
805
- "learning_rate": 6.409356186326383e-05,
806
- "loss": 1.8531,
807
- "step": 1060
808
- },
809
- {
810
- "epoch": 1.3665389527458494,
811
- "grad_norm": 2.042969226837158,
812
- "learning_rate": 6.396692116291589e-05,
813
- "loss": 1.8755,
814
- "step": 1070
815
- },
816
- {
817
- "epoch": 1.3793103448275863,
818
- "grad_norm": 1.9522734880447388,
819
- "learning_rate": 6.383906506857083e-05,
820
- "loss": 1.8719,
821
- "step": 1080
822
- },
823
- {
824
- "epoch": 1.392081736909323,
825
- "grad_norm": 1.8483445644378662,
826
- "learning_rate": 6.37099989448143e-05,
827
- "loss": 1.8538,
828
- "step": 1090
829
- },
830
- {
831
- "epoch": 1.40485312899106,
832
- "grad_norm": 2.2309532165527344,
833
- "learning_rate": 6.357972820700237e-05,
834
- "loss": 1.8851,
835
- "step": 1100
836
- },
837
- {
838
- "epoch": 1.417624521072797,
839
- "grad_norm": 1.9797334671020508,
840
- "learning_rate": 6.344825832103429e-05,
841
- "loss": 1.8704,
842
- "step": 1110
843
- },
844
- {
845
- "epoch": 1.4303959131545338,
846
- "grad_norm": 2.023789167404175,
847
- "learning_rate": 6.331559480312315e-05,
848
- "loss": 1.8692,
849
- "step": 1120
850
- },
851
- {
852
- "epoch": 1.4431673052362708,
853
- "grad_norm": 1.9136630296707153,
854
- "learning_rate": 6.318174321956448e-05,
855
- "loss": 1.8521,
856
- "step": 1130
857
- },
858
- {
859
- "epoch": 1.4559386973180077,
860
- "grad_norm": 2.0023677349090576,
861
- "learning_rate": 6.304670918650265e-05,
862
- "loss": 1.8565,
863
- "step": 1140
864
- },
865
- {
866
- "epoch": 1.4687100893997447,
867
- "grad_norm": 2.022937536239624,
868
- "learning_rate": 6.291049836969522e-05,
869
- "loss": 1.8222,
870
- "step": 1150
871
- },
872
- {
873
- "epoch": 1.4814814814814814,
874
- "grad_norm": 2.031189203262329,
875
- "learning_rate": 6.277311648427529e-05,
876
- "loss": 1.8933,
877
- "step": 1160
878
- },
879
- {
880
- "epoch": 1.4942528735632183,
881
- "grad_norm": 2.021033763885498,
882
- "learning_rate": 6.26345692945116e-05,
883
- "loss": 1.8851,
884
- "step": 1170
885
- },
886
- {
887
- "epoch": 1.5070242656449553,
888
- "grad_norm": 1.9933768510818481,
889
- "learning_rate": 6.249486261356676e-05,
890
- "loss": 1.8925,
891
- "step": 1180
892
- },
893
- {
894
- "epoch": 1.5197956577266922,
895
- "grad_norm": 2.0429482460021973,
896
- "learning_rate": 6.23540023032533e-05,
897
- "loss": 1.8536,
898
- "step": 1190
899
- },
900
- {
901
- "epoch": 1.5325670498084292,
902
- "grad_norm": 1.950465440750122,
903
- "learning_rate": 6.221199427378772e-05,
904
- "loss": 1.9116,
905
- "step": 1200
906
- },
907
- {
908
- "epoch": 1.5325670498084292,
909
- "eval_loss": 1.9389454126358032,
910
- "eval_runtime": 24.2278,
911
- "eval_samples_per_second": 20.637,
912
- "eval_steps_per_second": 20.637,
913
- "step": 1200
914
- },
915
- {
916
- "epoch": 1.545338441890166,
917
- "grad_norm": 1.9224931001663208,
918
- "learning_rate": 6.206884448354253e-05,
919
- "loss": 1.8073,
920
- "step": 1210
921
- },
922
- {
923
- "epoch": 1.558109833971903,
924
- "grad_norm": 1.9591902494430542,
925
- "learning_rate": 6.192455893879623e-05,
926
- "loss": 1.8249,
927
- "step": 1220
928
- },
929
- {
930
- "epoch": 1.5708812260536398,
931
- "grad_norm": 1.9398179054260254,
932
- "learning_rate": 6.177914369348129e-05,
933
- "loss": 1.8701,
934
- "step": 1230
935
- },
936
- {
937
- "epoch": 1.5836526181353767,
938
- "grad_norm": 1.8603562116622925,
939
- "learning_rate": 6.163260484893019e-05,
940
- "loss": 1.8398,
941
- "step": 1240
942
- },
943
- {
944
- "epoch": 1.5964240102171137,
945
- "grad_norm": 2.005242347717285,
946
- "learning_rate": 6.148494855361933e-05,
947
- "loss": 1.8626,
948
- "step": 1250
949
- },
950
- {
951
- "epoch": 1.6091954022988506,
952
- "grad_norm": 1.8576045036315918,
953
- "learning_rate": 6.133618100291116e-05,
954
- "loss": 1.8573,
955
- "step": 1260
956
- },
957
- {
958
- "epoch": 1.6219667943805876,
959
- "grad_norm": 2.0463547706604004,
960
- "learning_rate": 6.118630843879414e-05,
961
- "loss": 1.8162,
962
- "step": 1270
963
- },
964
- {
965
- "epoch": 1.6347381864623243,
966
- "grad_norm": 1.9812066555023193,
967
- "learning_rate": 6.10353371496209e-05,
968
- "loss": 1.8147,
969
- "step": 1280
970
- },
971
- {
972
- "epoch": 1.6475095785440614,
973
- "grad_norm": 2.0018861293792725,
974
- "learning_rate": 6.088327346984437e-05,
975
- "loss": 1.7751,
976
- "step": 1290
977
- },
978
- {
979
- "epoch": 1.6602809706257982,
980
- "grad_norm": 2.017937183380127,
981
- "learning_rate": 6.073012377975201e-05,
982
- "loss": 1.8877,
983
- "step": 1300
984
- },
985
- {
986
- "epoch": 1.673052362707535,
987
- "grad_norm": 1.9787315130233765,
988
- "learning_rate": 6.057589450519807e-05,
989
- "loss": 1.8283,
990
- "step": 1310
991
- },
992
- {
993
- "epoch": 1.685823754789272,
994
- "grad_norm": 2.075465679168701,
995
- "learning_rate": 6.042059211733404e-05,
996
- "loss": 1.8498,
997
- "step": 1320
998
- },
999
- {
1000
- "epoch": 1.698595146871009,
1001
- "grad_norm": 2.0676026344299316,
1002
- "learning_rate": 6.026422313233707e-05,
1003
- "loss": 1.8781,
1004
- "step": 1330
1005
- },
1006
- {
1007
- "epoch": 1.711366538952746,
1008
- "grad_norm": 2.158276319503784,
1009
- "learning_rate": 6.010679411113658e-05,
1010
- "loss": 1.8436,
1011
- "step": 1340
1012
- },
1013
- {
1014
- "epoch": 1.7241379310344827,
1015
- "grad_norm": 2.1169486045837402,
1016
- "learning_rate": 5.9948311659139024e-05,
1017
- "loss": 1.8629,
1018
- "step": 1350
1019
- },
1020
- {
1021
- "epoch": 1.7241379310344827,
1022
- "eval_loss": 1.9343986511230469,
1023
- "eval_runtime": 24.1802,
1024
- "eval_samples_per_second": 20.678,
1025
- "eval_steps_per_second": 20.678,
1026
- "step": 1350
1027
- },
1028
- {
1029
- "epoch": 1.7369093231162198,
1030
- "grad_norm": 1.857434868812561,
1031
- "learning_rate": 5.978878242595065e-05,
1032
- "loss": 1.8505,
1033
- "step": 1360
1034
- },
1035
- {
1036
- "epoch": 1.7496807151979565,
1037
- "grad_norm": 2.055877923965454,
1038
- "learning_rate": 5.962821310509861e-05,
1039
- "loss": 1.8437,
1040
- "step": 1370
1041
- },
1042
- {
1043
- "epoch": 1.7624521072796935,
1044
- "grad_norm": 1.8985681533813477,
1045
- "learning_rate": 5.9466610433750005e-05,
1046
- "loss": 1.8312,
1047
- "step": 1380
1048
- },
1049
- {
1050
- "epoch": 1.7752234993614304,
1051
- "grad_norm": 1.991992712020874,
1052
- "learning_rate": 5.9303981192429265e-05,
1053
- "loss": 1.9209,
1054
- "step": 1390
1055
- },
1056
- {
1057
- "epoch": 1.7879948914431671,
1058
- "grad_norm": 1.845304012298584,
1059
- "learning_rate": 5.914033220473365e-05,
1060
- "loss": 1.85,
1061
- "step": 1400
1062
- },
1063
- {
1064
- "epoch": 1.8007662835249043,
1065
- "grad_norm": 1.8313244581222534,
1066
- "learning_rate": 5.897567033704691e-05,
1067
- "loss": 1.8897,
1068
- "step": 1410
1069
- },
1070
- {
1071
- "epoch": 1.813537675606641,
1072
- "grad_norm": 1.8554408550262451,
1073
- "learning_rate": 5.881000249825124e-05,
1074
- "loss": 1.8012,
1075
- "step": 1420
1076
- },
1077
- {
1078
- "epoch": 1.8263090676883782,
1079
- "grad_norm": 2.053835868835449,
1080
- "learning_rate": 5.8643335639437366e-05,
1081
- "loss": 1.8708,
1082
- "step": 1430
1083
- },
1084
- {
1085
- "epoch": 1.839080459770115,
1086
- "grad_norm": 1.9372299909591675,
1087
- "learning_rate": 5.847567675361288e-05,
1088
- "loss": 1.8338,
1089
- "step": 1440
1090
- },
1091
- {
1092
- "epoch": 1.8518518518518519,
1093
- "grad_norm": 2.2738914489746094,
1094
- "learning_rate": 5.830703287540883e-05,
1095
- "loss": 1.8748,
1096
- "step": 1450
1097
- },
1098
- {
1099
- "epoch": 1.8646232439335888,
1100
- "grad_norm": 2.297995090484619,
1101
- "learning_rate": 5.813741108078461e-05,
1102
- "loss": 1.8276,
1103
- "step": 1460
1104
- },
1105
- {
1106
- "epoch": 1.8773946360153255,
1107
- "grad_norm": 1.985796332359314,
1108
- "learning_rate": 5.796681848673098e-05,
1109
- "loss": 1.9204,
1110
- "step": 1470
1111
- },
1112
- {
1113
- "epoch": 1.8901660280970627,
1114
- "grad_norm": 1.8658971786499023,
1115
- "learning_rate": 5.779526225097153e-05,
1116
- "loss": 1.8205,
1117
- "step": 1480
1118
- },
1119
- {
1120
- "epoch": 1.9029374201787994,
1121
- "grad_norm": 1.9643296003341675,
1122
- "learning_rate": 5.762274957166233e-05,
1123
- "loss": 1.8421,
1124
- "step": 1490
1125
- },
1126
- {
1127
- "epoch": 1.9157088122605364,
1128
- "grad_norm": 1.924149751663208,
1129
- "learning_rate": 5.7449287687089895e-05,
1130
- "loss": 1.8696,
1131
- "step": 1500
1132
- },
1133
- {
1134
- "epoch": 1.9157088122605364,
1135
- "eval_loss": 1.9337016344070435,
1136
- "eval_runtime": 24.181,
1137
- "eval_samples_per_second": 20.677,
1138
- "eval_steps_per_second": 20.677,
1139
- "step": 1500
1140
- },
1141
- {
1142
- "epoch": 1.9284802043422733,
1143
- "grad_norm": 1.9967809915542603,
1144
- "learning_rate": 5.727488387536748e-05,
1145
- "loss": 1.8602,
1146
- "step": 1510
1147
- },
1148
- {
1149
- "epoch": 1.9412515964240102,
1150
- "grad_norm": 1.9925228357315063,
1151
- "learning_rate": 5.709954545412975e-05,
1152
- "loss": 1.8775,
1153
- "step": 1520
1154
- },
1155
- {
1156
- "epoch": 1.9540229885057472,
1157
- "grad_norm": 2.0943105220794678,
1158
- "learning_rate": 5.692327978022566e-05,
1159
- "loss": 1.8434,
1160
- "step": 1530
1161
- },
1162
- {
1163
- "epoch": 1.966794380587484,
1164
- "grad_norm": 1.9929866790771484,
1165
- "learning_rate": 5.67460942494099e-05,
1166
- "loss": 1.8754,
1167
- "step": 1540
1168
- },
1169
- {
1170
- "epoch": 1.979565772669221,
1171
- "grad_norm": 1.9730305671691895,
1172
- "learning_rate": 5.656799629603245e-05,
1173
- "loss": 1.8585,
1174
- "step": 1550
1175
- },
1176
- {
1177
- "epoch": 1.9923371647509578,
1178
- "grad_norm": 2.1760172843933105,
1179
- "learning_rate": 5.638899339272675e-05,
1180
- "loss": 1.8677,
1181
- "step": 1560
1182
- },
1183
- {
1184
- "epoch": 2.005108556832695,
1185
- "grad_norm": 1.958113193511963,
1186
- "learning_rate": 5.6209093050096115e-05,
1187
- "loss": 1.7717,
1188
- "step": 1570
1189
- },
1190
- {
1191
- "epoch": 2.0178799489144317,
1192
- "grad_norm": 1.8135682344436646,
1193
- "learning_rate": 5.6028302816398624e-05,
1194
- "loss": 1.7952,
1195
- "step": 1580
1196
- },
1197
- {
1198
- "epoch": 2.0306513409961684,
1199
- "grad_norm": 1.9992247819900513,
1200
- "learning_rate": 5.5846630277230384e-05,
1201
- "loss": 1.8559,
1202
- "step": 1590
1203
- },
1204
- {
1205
- "epoch": 2.0434227330779056,
1206
- "grad_norm": 1.9503588676452637,
1207
- "learning_rate": 5.566408305520729e-05,
1208
- "loss": 1.8136,
1209
- "step": 1600
1210
- },
1211
- {
1212
- "epoch": 2.0561941251596423,
1213
- "grad_norm": 2.0600390434265137,
1214
- "learning_rate": 5.5480668809645175e-05,
1215
- "loss": 1.8126,
1216
- "step": 1610
1217
- },
1218
- {
1219
- "epoch": 2.0689655172413794,
1220
- "grad_norm": 1.9783591032028198,
1221
- "learning_rate": 5.5296395236238445e-05,
1222
- "loss": 1.8198,
1223
- "step": 1620
1224
- },
1225
- {
1226
- "epoch": 2.081736909323116,
1227
- "grad_norm": 2.09946346282959,
1228
- "learning_rate": 5.5111270066737163e-05,
1229
- "loss": 1.7505,
1230
- "step": 1630
1231
- },
1232
- {
1233
- "epoch": 2.0945083014048533,
1234
- "grad_norm": 1.9546903371810913,
1235
- "learning_rate": 5.492530106862269e-05,
1236
- "loss": 1.8198,
1237
- "step": 1640
1238
- },
1239
- {
1240
- "epoch": 2.10727969348659,
1241
- "grad_norm": 2.0820565223693848,
1242
- "learning_rate": 5.4738496044781724e-05,
1243
- "loss": 1.8473,
1244
- "step": 1650
1245
- },
1246
- {
1247
- "epoch": 2.10727969348659,
1248
- "eval_loss": 1.9384523630142212,
1249
- "eval_runtime": 24.2888,
1250
- "eval_samples_per_second": 20.586,
1251
- "eval_steps_per_second": 20.586,
1252
- "step": 1650
1253
- },
1254
- {
1255
- "epoch": 2.1200510855683268,
1256
- "grad_norm": 2.078505516052246,
1257
- "learning_rate": 5.4550862833178926e-05,
1258
- "loss": 1.8142,
1259
- "step": 1660
1260
- },
1261
- {
1262
- "epoch": 2.132822477650064,
1263
- "grad_norm": 2.0138731002807617,
1264
- "learning_rate": 5.436240930652807e-05,
1265
- "loss": 1.8039,
1266
- "step": 1670
1267
- },
1268
- {
1269
- "epoch": 2.1455938697318007,
1270
- "grad_norm": 1.958559513092041,
1271
- "learning_rate": 5.41731433719617e-05,
1272
- "loss": 1.8039,
1273
- "step": 1680
1274
- },
1275
- {
1276
- "epoch": 2.158365261813538,
1277
- "grad_norm": 2.14679217338562,
1278
- "learning_rate": 5.398307297069936e-05,
1279
- "loss": 1.7873,
1280
- "step": 1690
1281
- },
1282
- {
1283
- "epoch": 2.1711366538952745,
1284
- "grad_norm": 2.2213780879974365,
1285
- "learning_rate": 5.379220607771443e-05,
1286
- "loss": 1.7886,
1287
- "step": 1700
1288
- },
1289
- {
1290
- "epoch": 2.1839080459770113,
1291
- "grad_norm": 1.9779000282287598,
1292
- "learning_rate": 5.3600550701399455e-05,
1293
- "loss": 1.7599,
1294
- "step": 1710
1295
- },
1296
- {
1297
- "epoch": 2.1966794380587484,
1298
- "grad_norm": 2.0890724658966064,
1299
- "learning_rate": 5.340811488323019e-05,
1300
- "loss": 1.7752,
1301
- "step": 1720
1302
- },
1303
- {
1304
- "epoch": 2.209450830140485,
1305
- "grad_norm": 2.2274386882781982,
1306
- "learning_rate": 5.321490669742815e-05,
1307
- "loss": 1.8219,
1308
- "step": 1730
1309
- },
1310
- {
1311
- "epoch": 2.2222222222222223,
1312
- "grad_norm": 2.2681832313537598,
1313
- "learning_rate": 5.302093425062187e-05,
1314
- "loss": 1.7979,
1315
- "step": 1740
1316
- },
1317
- {
1318
- "epoch": 2.234993614303959,
1319
- "grad_norm": 2.136756420135498,
1320
- "learning_rate": 5.28262056815067e-05,
1321
- "loss": 1.7548,
1322
- "step": 1750
1323
- },
1324
- {
1325
- "epoch": 2.247765006385696,
1326
- "grad_norm": 2.3203325271606445,
1327
- "learning_rate": 5.263072916050342e-05,
1328
- "loss": 1.8238,
1329
- "step": 1760
1330
- },
1331
- {
1332
- "epoch": 2.260536398467433,
1333
- "grad_norm": 2.19116473197937,
1334
- "learning_rate": 5.243451288941535e-05,
1335
- "loss": 1.8143,
1336
- "step": 1770
1337
- },
1338
- {
1339
- "epoch": 2.27330779054917,
1340
- "grad_norm": 2.180558204650879,
1341
- "learning_rate": 5.2237565101084235e-05,
1342
- "loss": 1.7681,
1343
- "step": 1780
1344
- },
1345
- {
1346
- "epoch": 2.286079182630907,
1347
- "grad_norm": 2.287687063217163,
1348
- "learning_rate": 5.203989405904483e-05,
1349
- "loss": 1.7872,
1350
- "step": 1790
1351
- },
1352
- {
1353
- "epoch": 2.2988505747126435,
1354
- "grad_norm": 2.288097620010376,
1355
- "learning_rate": 5.1841508057178177e-05,
1356
- "loss": 1.7939,
1357
- "step": 1800
1358
- },
1359
- {
1360
- "epoch": 2.2988505747126435,
1361
- "eval_loss": 1.9397783279418945,
1362
- "eval_runtime": 24.3943,
1363
- "eval_samples_per_second": 20.497,
1364
- "eval_steps_per_second": 20.497,
1365
- "step": 1800
1366
- },
1367
- {
1368
- "epoch": 2.3116219667943807,
1369
- "grad_norm": 2.1380770206451416,
1370
- "learning_rate": 1.728050268572606e-06,
1371
- "loss": 1.7778,
1372
- "step": 1810
1373
- },
1374
- {
1375
- "epoch": 2.3243933588761174,
1376
- "grad_norm": 2.165830135345459,
1377
- "learning_rate": 3.456100537145212e-06,
1378
- "loss": 1.7769,
1379
- "step": 1820
1380
- },
1381
- {
1382
- "epoch": 2.3371647509578546,
1383
- "grad_norm": 2.399066209793091,
1384
- "learning_rate": 5.184150805717818e-06,
1385
- "loss": 1.7873,
1386
- "step": 1830
1387
- },
1388
- {
1389
- "epoch": 2.3499361430395913,
1390
- "grad_norm": 2.234840154647827,
1391
- "learning_rate": 6.912201074290424e-06,
1392
- "loss": 1.7203,
1393
- "step": 1840
1394
- },
1395
- {
1396
- "epoch": 2.362707535121328,
1397
- "grad_norm": 2.12174916267395,
1398
- "learning_rate": 8.640251342863028e-06,
1399
- "loss": 1.8158,
1400
- "step": 1850
1401
- },
1402
- {
1403
- "epoch": 2.375478927203065,
1404
- "grad_norm": 2.109421968460083,
1405
- "learning_rate": 1.0368301611435635e-05,
1406
- "loss": 1.7586,
1407
- "step": 1860
1408
- },
1409
- {
1410
- "epoch": 2.388250319284802,
1411
- "grad_norm": 2.1194908618927,
1412
- "learning_rate": 1.209635188000824e-05,
1413
- "loss": 1.7936,
1414
- "step": 1870
1415
- },
1416
- {
1417
- "epoch": 2.401021711366539,
1418
- "grad_norm": 2.211038589477539,
1419
- "learning_rate": 1.3824402148580848e-05,
1420
- "loss": 1.7774,
1421
- "step": 1880
1422
- },
1423
- {
1424
- "epoch": 2.413793103448276,
1425
- "grad_norm": 2.295914888381958,
1426
- "learning_rate": 1.5552452417153453e-05,
1427
- "loss": 1.817,
1428
- "step": 1890
1429
- },
1430
- {
1431
- "epoch": 2.4265644955300125,
1432
- "grad_norm": 2.0694994926452637,
1433
- "learning_rate": 1.7280502685726057e-05,
1434
- "loss": 1.8039,
1435
- "step": 1900
1436
- },
1437
- {
1438
- "epoch": 2.4393358876117497,
1439
- "grad_norm": 2.2239274978637695,
1440
- "learning_rate": 1.9008552954298664e-05,
1441
- "loss": 1.8505,
1442
- "step": 1910
1443
- },
1444
- {
1445
- "epoch": 2.4521072796934864,
1446
- "grad_norm": 2.0061118602752686,
1447
- "learning_rate": 2.073660322287127e-05,
1448
- "loss": 1.7951,
1449
- "step": 1920
1450
- },
1451
- {
1452
- "epoch": 2.4648786717752236,
1453
- "grad_norm": 2.198082447052002,
1454
- "learning_rate": 2.2464653491443878e-05,
1455
- "loss": 1.8012,
1456
- "step": 1930
1457
- },
1458
- {
1459
- "epoch": 2.4776500638569603,
1460
- "grad_norm": 1.9910808801651,
1461
- "learning_rate": 2.419270376001648e-05,
1462
- "loss": 1.695,
1463
- "step": 1940
1464
- },
1465
- {
1466
- "epoch": 2.4904214559386975,
1467
- "grad_norm": 2.2533199787139893,
1468
- "learning_rate": 2.5920754028589088e-05,
1469
- "loss": 1.7852,
1470
- "step": 1950
1471
- },
1472
- {
1473
- "epoch": 2.4904214559386975,
1474
- "eval_loss": 1.936609148979187,
1475
- "eval_runtime": 24.3942,
1476
- "eval_samples_per_second": 20.497,
1477
- "eval_steps_per_second": 20.497,
1478
- "step": 1950
1479
- },
1480
- {
1481
- "epoch": 2.503192848020434,
1482
- "grad_norm": 2.3623099327087402,
1483
- "learning_rate": 2.5920482132857834e-05,
1484
- "loss": 1.8228,
1485
- "step": 1960
1486
- },
1487
- {
1488
- "epoch": 2.5159642401021713,
1489
- "grad_norm": 2.2549827098846436,
1490
- "learning_rate": 2.5919666457072272e-05,
1491
- "loss": 1.7792,
1492
- "step": 1970
1493
- },
1494
- {
1495
- "epoch": 2.528735632183908,
1496
- "grad_norm": 2.1171176433563232,
1497
- "learning_rate": 2.5918307035456523e-05,
1498
- "loss": 1.8581,
1499
- "step": 1980
1500
- },
1501
- {
1502
- "epoch": 2.541507024265645,
1503
- "grad_norm": 2.118044137954712,
1504
- "learning_rate": 2.5916403925049198e-05,
1505
- "loss": 1.8363,
1506
- "step": 1990
1507
- },
1508
- {
1509
- "epoch": 2.554278416347382,
1510
- "grad_norm": 2.404895782470703,
1511
- "learning_rate": 2.5913957205700998e-05,
1512
- "loss": 1.8638,
1513
- "step": 2000
1514
- },
1515
- {
1516
- "epoch": 2.5670498084291187,
1517
- "grad_norm": 2.2589292526245117,
1518
- "learning_rate": 2.591096698007136e-05,
1519
- "loss": 1.817,
1520
- "step": 2010
1521
- },
1522
- {
1523
- "epoch": 2.579821200510856,
1524
- "grad_norm": 2.308377981185913,
1525
- "learning_rate": 2.5907433373624172e-05,
1526
- "loss": 1.7985,
1527
- "step": 2020
1528
- },
1529
- {
1530
- "epoch": 2.5925925925925926,
1531
- "grad_norm": 2.1969752311706543,
1532
- "learning_rate": 2.5903356534622476e-05,
1533
- "loss": 1.8013,
1534
- "step": 2030
1535
- },
1536
- {
1537
- "epoch": 2.6053639846743293,
1538
- "grad_norm": 2.2254557609558105,
1539
- "learning_rate": 2.5898736634122276e-05,
1540
- "loss": 1.7312,
1541
- "step": 2040
1542
- },
1543
- {
1544
- "epoch": 2.6181353767560664,
1545
- "grad_norm": 2.2725250720977783,
1546
- "learning_rate": 2.5893573865965345e-05,
1547
- "loss": 1.8751,
1548
- "step": 2050
1549
- },
1550
- {
1551
- "epoch": 2.630906768837803,
1552
- "grad_norm": 2.1987719535827637,
1553
- "learning_rate": 2.588786844677109e-05,
1554
- "loss": 1.8096,
1555
- "step": 2060
1556
- },
1557
- {
1558
- "epoch": 2.6436781609195403,
1559
- "grad_norm": 2.1684072017669678,
1560
- "learning_rate": 2.588162061592748e-05,
1561
- "loss": 1.738,
1562
- "step": 2070
1563
- },
1564
- {
1565
- "epoch": 2.656449553001277,
1566
- "grad_norm": 2.2119176387786865,
1567
- "learning_rate": 2.5874830635580974e-05,
1568
- "loss": 1.7888,
1569
- "step": 2080
1570
- },
1571
- {
1572
- "epoch": 2.6692209450830138,
1573
- "grad_norm": 2.2012903690338135,
1574
- "learning_rate": 2.586749879062556e-05,
1575
- "loss": 1.8119,
1576
- "step": 2090
1577
- },
1578
- {
1579
- "epoch": 2.681992337164751,
1580
- "grad_norm": 2.18770694732666,
1581
- "learning_rate": 2.5859625388690762e-05,
1582
- "loss": 1.7867,
1583
- "step": 2100
1584
- },
1585
- {
1586
- "epoch": 2.681992337164751,
1587
- "eval_loss": 1.9344319105148315,
1588
- "eval_runtime": 24.3873,
1589
- "eval_samples_per_second": 20.502,
1590
- "eval_steps_per_second": 20.502,
1591
- "step": 2100
1592
  }
1593
  ],
1594
  "logging_steps": 10,
@@ -1608,7 +139,7 @@
1608
  "attributes": {}
1609
  }
1610
  },
1611
- "total_flos": 2.9127653767397376e+16,
1612
  "train_batch_size": 16,
1613
  "trial_name": null,
1614
  "trial_params": null
 
1
  {
2
+ "best_metric": 1.9779324531555176,
3
+ "best_model_checkpoint": "./output/checkpoint-150",
4
+ "epoch": 0.19157088122605365,
5
  "eval_steps": 150,
6
+ "global_step": 150,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.01277139208173691,
13
+ "grad_norm": 2.1240530014038086,
14
  "learning_rate": 4.666666666666666e-06,
15
+ "loss": 1.9176,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.02554278416347382,
20
+ "grad_norm": 2.017596960067749,
21
  "learning_rate": 9.333333333333333e-06,
22
+ "loss": 1.9414,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.038314176245210725,
27
+ "grad_norm": 2.077119827270508,
28
  "learning_rate": 1.4e-05,
29
+ "loss": 1.9121,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.05108556832694764,
34
+ "grad_norm": 1.9572290182113647,
35
  "learning_rate": 1.8666666666666665e-05,
36
+ "loss": 1.8867,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.06385696040868455,
41
+ "grad_norm": 2.5854249000549316,
42
  "learning_rate": 2.333333333333333e-05,
43
  "loss": 1.9779,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.07662835249042145,
48
+ "grad_norm": 2.080289840698242,
49
  "learning_rate": 2.8e-05,
50
+ "loss": 1.9335,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.08939974457215837,
55
+ "grad_norm": 1.978735089302063,
56
  "learning_rate": 3.266666666666666e-05,
57
+ "loss": 1.9452,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.10217113665389528,
62
+ "grad_norm": 2.1327736377716064,
63
  "learning_rate": 3.733333333333333e-05,
64
+ "loss": 1.9443,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.11494252873563218,
69
+ "grad_norm": 2.057833194732666,
70
  "learning_rate": 4.2e-05,
71
+ "loss": 1.9261,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.1277139208173691,
76
+ "grad_norm": 2.1436352729797363,
77
  "learning_rate": 4.666666666666666e-05,
78
+ "loss": 1.9776,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.140485312899106,
83
+ "grad_norm": 1.885575294494629,
84
  "learning_rate": 5.1333333333333325e-05,
85
  "loss": 1.9233,
86
  "step": 110
87
  },
88
  {
89
  "epoch": 0.1532567049808429,
90
+ "grad_norm": 2.046653985977173,
91
  "learning_rate": 5.6e-05,
92
+ "loss": 1.9403,
93
  "step": 120
94
  },
95
  {
96
  "epoch": 0.16602809706257982,
97
+ "grad_norm": 2.272224187850952,
98
  "learning_rate": 6.0666666666666666e-05,
99
+ "loss": 1.9421,
100
  "step": 130
101
  },
102
  {
103
  "epoch": 0.17879948914431673,
104
+ "grad_norm": 2.098900318145752,
105
  "learning_rate": 6.533333333333333e-05,
106
+ "loss": 1.919,
107
  "step": 140
108
  },
109
  {
110
  "epoch": 0.19157088122605365,
111
+ "grad_norm": 2.07694411277771,
112
  "learning_rate": 7e-05,
113
  "loss": 1.9405,
114
  "step": 150
115
  },
116
  {
117
  "epoch": 0.19157088122605365,
118
+ "eval_loss": 1.9779324531555176,
119
+ "eval_runtime": 25.3379,
120
+ "eval_samples_per_second": 19.733,
121
+ "eval_steps_per_second": 19.733,
122
  "step": 150
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
123
  }
124
  ],
125
  "logging_steps": 10,
 
139
  "attributes": {}
140
  }
141
  },
142
+ "total_flos": 2084245000224768.0,
143
  "train_batch_size": 16,
144
  "trial_name": null,
145
  "trial_params": null
last-checkpoint/training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:73d63faa96a8013f73d4d225b5f62be5f6f1a8819c12a7d65e93c26570162b6b
3
  size 5496
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5d09d197d3b76d99965de547b76e3d4e9afb2509c824e5faadb664c5461d6450
3
  size 5496