pminervini commited on
Commit
ee53f1b
·
verified ·
1 Parent(s): e733169

Training in progress, step 32

Browse files
adapter_config.json CHANGED
@@ -15,17 +15,17 @@
15
  "megatron_core": "megatron.core",
16
  "modules_to_save": null,
17
  "peft_type": "LORA",
18
- "r": 64,
19
  "rank_pattern": {},
20
  "revision": null,
21
  "target_modules": [
22
- "up_proj",
23
- "o_proj",
24
- "v_proj",
25
- "down_proj",
26
  "gate_proj",
 
 
27
  "q_proj",
28
- "k_proj"
 
 
29
  ],
30
  "task_type": "CAUSAL_LM",
31
  "use_dora": false,
 
15
  "megatron_core": "megatron.core",
16
  "modules_to_save": null,
17
  "peft_type": "LORA",
18
+ "r": 128,
19
  "rank_pattern": {},
20
  "revision": null,
21
  "target_modules": [
 
 
 
 
22
  "gate_proj",
23
+ "v_proj",
24
+ "up_proj",
25
  "q_proj",
26
+ "k_proj",
27
+ "down_proj",
28
+ "o_proj"
29
  ],
30
  "task_type": "CAUSAL_LM",
31
  "use_dora": false,
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d1d4b690057453ad0d2c80eb6f7b05edee091e46433f665ad528aaef7f8743ff
3
- size 156927136
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9dc4ba63adf0a150ed92cb7b3170a5c54aac39449553c1cb18a182af05b74102
3
+ size 313820752
all_results.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "epoch": 3.0,
3
- "train_loss": 0.48598923115059733,
4
- "train_runtime": 1129.8879,
5
- "train_samples_per_second": 7.25,
6
- "train_steps_per_second": 0.453
7
  }
 
1
  {
2
  "epoch": 3.0,
3
+ "train_loss": 0.4858610653318465,
4
+ "train_runtime": 1143.2565,
5
+ "train_samples_per_second": 7.165,
6
+ "train_steps_per_second": 0.448
7
  }
best_metrics.json CHANGED
@@ -1 +1 @@
1
- {"eval_loss": 0.383393794298172}
 
1
+ {"eval_loss": 0.38298845291137695}
train_results.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "epoch": 3.0,
3
- "train_loss": 0.48598923115059733,
4
- "train_runtime": 1129.8879,
5
- "train_samples_per_second": 7.25,
6
- "train_steps_per_second": 0.453
7
  }
 
1
  {
2
  "epoch": 3.0,
3
+ "train_loss": 0.4858610653318465,
4
+ "train_runtime": 1143.2565,
5
+ "train_samples_per_second": 7.165,
6
+ "train_steps_per_second": 0.448
7
  }
trainer_state.json CHANGED
@@ -1,5 +1,5 @@
1
  {
2
- "best_metric": 0.383393794298172,
3
  "best_model_checkpoint": "outputs/checkpoint-512",
4
  "epoch": 3.002932551319648,
5
  "eval_steps": 32,
@@ -10,588 +10,588 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.05,
13
- "grad_norm": 0.125,
14
  "learning_rate": 0.000125,
15
- "loss": 1.2564,
16
  "step": 8
17
  },
18
  {
19
  "epoch": 0.09,
20
- "grad_norm": 0.1337890625,
21
  "learning_rate": 0.00025,
22
- "loss": 1.1071,
23
  "step": 16
24
  },
25
  {
26
  "epoch": 0.14,
27
- "grad_norm": 0.1181640625,
28
  "learning_rate": 0.000375,
29
- "loss": 0.8351,
30
  "step": 24
31
  },
32
  {
33
  "epoch": 0.19,
34
- "grad_norm": 0.11181640625,
35
  "learning_rate": 0.0005,
36
- "loss": 0.709,
37
  "step": 32
38
  },
39
  {
40
  "epoch": 0.19,
41
- "eval_loss": 0.5833926796913147,
42
- "eval_runtime": 2.7901,
43
- "eval_samples_per_second": 17.203,
44
- "eval_steps_per_second": 2.15,
45
  "step": 32
46
  },
47
  {
48
  "epoch": 0.23,
49
- "grad_norm": 0.1064453125,
50
  "learning_rate": 0.0004916666666666666,
51
- "loss": 0.6104,
52
  "step": 40
53
  },
54
  {
55
  "epoch": 0.28,
56
- "grad_norm": 0.10693359375,
57
  "learning_rate": 0.00048333333333333334,
58
- "loss": 0.5962,
59
  "step": 48
60
  },
61
  {
62
  "epoch": 0.33,
63
- "grad_norm": 0.099609375,
64
  "learning_rate": 0.000475,
65
- "loss": 0.5696,
66
  "step": 56
67
  },
68
  {
69
  "epoch": 0.38,
70
- "grad_norm": 0.13671875,
71
  "learning_rate": 0.00046666666666666666,
72
- "loss": 0.5678,
73
  "step": 64
74
  },
75
  {
76
  "epoch": 0.38,
77
- "eval_loss": 0.47890207171440125,
78
- "eval_runtime": 2.176,
79
- "eval_samples_per_second": 22.059,
80
- "eval_steps_per_second": 2.757,
81
  "step": 64
82
  },
83
  {
84
  "epoch": 0.42,
85
- "grad_norm": 0.0849609375,
86
  "learning_rate": 0.0004583333333333333,
87
  "loss": 0.5528,
88
  "step": 72
89
  },
90
  {
91
  "epoch": 0.47,
92
- "grad_norm": 0.0810546875,
93
  "learning_rate": 0.00045000000000000004,
94
  "loss": 0.535,
95
  "step": 80
96
  },
97
  {
98
  "epoch": 0.52,
99
- "grad_norm": 0.0771484375,
100
  "learning_rate": 0.00044166666666666665,
101
- "loss": 0.5049,
102
  "step": 88
103
  },
104
  {
105
  "epoch": 0.56,
106
- "grad_norm": 0.07275390625,
107
  "learning_rate": 0.00043333333333333337,
108
- "loss": 0.5165,
109
  "step": 96
110
  },
111
  {
112
  "epoch": 0.56,
113
- "eval_loss": 0.44684532284736633,
114
- "eval_runtime": 2.1779,
115
- "eval_samples_per_second": 22.04,
116
- "eval_steps_per_second": 2.755,
117
  "step": 96
118
  },
119
  {
120
  "epoch": 0.61,
121
- "grad_norm": 0.068359375,
122
  "learning_rate": 0.000425,
123
- "loss": 0.5133,
124
  "step": 104
125
  },
126
  {
127
  "epoch": 0.66,
128
- "grad_norm": 0.076171875,
129
  "learning_rate": 0.0004166666666666667,
130
- "loss": 0.4931,
131
  "step": 112
132
  },
133
  {
134
  "epoch": 0.7,
135
- "grad_norm": 0.07373046875,
136
  "learning_rate": 0.00040833333333333336,
137
- "loss": 0.5168,
138
  "step": 120
139
  },
140
  {
141
  "epoch": 0.75,
142
- "grad_norm": 0.06787109375,
143
  "learning_rate": 0.0004,
144
- "loss": 0.4926,
145
  "step": 128
146
  },
147
  {
148
  "epoch": 0.75,
149
- "eval_loss": 0.42885932326316833,
150
- "eval_runtime": 2.1761,
151
- "eval_samples_per_second": 22.058,
152
- "eval_steps_per_second": 2.757,
153
  "step": 128
154
  },
155
  {
156
  "epoch": 0.8,
157
- "grad_norm": 0.07080078125,
158
  "learning_rate": 0.0003916666666666667,
159
- "loss": 0.4843,
160
  "step": 136
161
  },
162
  {
163
  "epoch": 0.84,
164
- "grad_norm": 0.0712890625,
165
  "learning_rate": 0.00038333333333333334,
166
- "loss": 0.4697,
167
  "step": 144
168
  },
169
  {
170
  "epoch": 0.89,
171
- "grad_norm": 0.08056640625,
172
  "learning_rate": 0.000375,
173
- "loss": 0.4681,
174
  "step": 152
175
  },
176
  {
177
  "epoch": 0.94,
178
- "grad_norm": 0.0732421875,
179
  "learning_rate": 0.00036666666666666667,
180
- "loss": 0.4667,
181
  "step": 160
182
  },
183
  {
184
  "epoch": 0.94,
185
- "eval_loss": 0.41727420687675476,
186
- "eval_runtime": 2.1762,
187
- "eval_samples_per_second": 22.057,
188
- "eval_steps_per_second": 2.757,
189
  "step": 160
190
  },
191
  {
192
  "epoch": 0.99,
193
- "grad_norm": 0.07177734375,
194
  "learning_rate": 0.00035833333333333333,
195
- "loss": 0.4721,
196
  "step": 168
197
  },
198
  {
199
  "epoch": 1.03,
200
- "grad_norm": 0.08349609375,
201
  "learning_rate": 0.00035,
202
- "loss": 0.471,
203
  "step": 176
204
  },
205
  {
206
  "epoch": 1.08,
207
- "grad_norm": 0.07421875,
208
  "learning_rate": 0.00034166666666666666,
209
- "loss": 0.4544,
210
  "step": 184
211
  },
212
  {
213
  "epoch": 1.13,
214
- "grad_norm": 0.076171875,
215
  "learning_rate": 0.0003333333333333333,
216
- "loss": 0.443,
217
  "step": 192
218
  },
219
  {
220
  "epoch": 1.13,
221
- "eval_loss": 0.4128858149051666,
222
- "eval_runtime": 2.1785,
223
- "eval_samples_per_second": 22.033,
224
- "eval_steps_per_second": 2.754,
225
  "step": 192
226
  },
227
  {
228
  "epoch": 1.17,
229
- "grad_norm": 0.08251953125,
230
  "learning_rate": 0.00032500000000000004,
231
- "loss": 0.4423,
232
  "step": 200
233
  },
234
  {
235
  "epoch": 1.22,
236
- "grad_norm": 0.0869140625,
237
  "learning_rate": 0.00031666666666666665,
238
- "loss": 0.4704,
239
  "step": 208
240
  },
241
  {
242
  "epoch": 1.27,
243
- "grad_norm": 0.07763671875,
244
  "learning_rate": 0.00030833333333333337,
245
- "loss": 0.4449,
246
  "step": 216
247
  },
248
  {
249
  "epoch": 1.31,
250
- "grad_norm": 0.08349609375,
251
  "learning_rate": 0.0003,
252
- "loss": 0.4313,
253
  "step": 224
254
  },
255
  {
256
  "epoch": 1.31,
257
- "eval_loss": 0.4045116901397705,
258
- "eval_runtime": 2.1781,
259
- "eval_samples_per_second": 22.038,
260
- "eval_steps_per_second": 2.755,
261
  "step": 224
262
  },
263
  {
264
  "epoch": 1.36,
265
- "grad_norm": 0.07666015625,
266
  "learning_rate": 0.0002916666666666667,
267
- "loss": 0.4619,
268
  "step": 232
269
  },
270
  {
271
  "epoch": 1.41,
272
- "grad_norm": 0.08154296875,
273
  "learning_rate": 0.00028333333333333335,
274
- "loss": 0.4435,
275
  "step": 240
276
  },
277
  {
278
  "epoch": 1.45,
279
- "grad_norm": 0.07763671875,
280
  "learning_rate": 0.000275,
281
- "loss": 0.4272,
282
  "step": 248
283
  },
284
  {
285
  "epoch": 1.5,
286
- "grad_norm": 0.083984375,
287
  "learning_rate": 0.0002666666666666667,
288
  "loss": 0.4554,
289
  "step": 256
290
  },
291
  {
292
  "epoch": 1.5,
293
- "eval_loss": 0.39897629618644714,
294
- "eval_runtime": 2.177,
295
- "eval_samples_per_second": 22.049,
296
- "eval_steps_per_second": 2.756,
297
  "step": 256
298
  },
299
  {
300
  "epoch": 1.55,
301
- "grad_norm": 0.07373046875,
302
  "learning_rate": 0.00025833333333333334,
303
- "loss": 0.438,
304
  "step": 264
305
  },
306
  {
307
  "epoch": 1.6,
308
- "grad_norm": 0.08544921875,
309
  "learning_rate": 0.00025,
310
- "loss": 0.438,
311
  "step": 272
312
  },
313
  {
314
  "epoch": 1.64,
315
- "grad_norm": 0.0810546875,
316
  "learning_rate": 0.00024166666666666667,
317
- "loss": 0.4332,
318
  "step": 280
319
  },
320
  {
321
  "epoch": 1.69,
322
- "grad_norm": 0.0810546875,
323
  "learning_rate": 0.00023333333333333333,
324
- "loss": 0.4453,
325
  "step": 288
326
  },
327
  {
328
  "epoch": 1.69,
329
- "eval_loss": 0.39246222376823425,
330
- "eval_runtime": 2.1791,
331
- "eval_samples_per_second": 22.027,
332
- "eval_steps_per_second": 2.753,
333
  "step": 288
334
  },
335
  {
336
  "epoch": 1.74,
337
- "grad_norm": 0.07080078125,
338
  "learning_rate": 0.00022500000000000002,
339
- "loss": 0.468,
340
  "step": 296
341
  },
342
  {
343
  "epoch": 1.78,
344
- "grad_norm": 0.09423828125,
345
  "learning_rate": 0.00021666666666666668,
346
- "loss": 0.4311,
347
  "step": 304
348
  },
349
  {
350
  "epoch": 1.83,
351
- "grad_norm": 0.07373046875,
352
  "learning_rate": 0.00020833333333333335,
353
- "loss": 0.4537,
354
  "step": 312
355
  },
356
  {
357
  "epoch": 1.88,
358
- "grad_norm": 0.08984375,
359
  "learning_rate": 0.0002,
360
- "loss": 0.4369,
361
  "step": 320
362
  },
363
  {
364
  "epoch": 1.88,
365
- "eval_loss": 0.3888448178768158,
366
- "eval_runtime": 2.1807,
367
- "eval_samples_per_second": 22.011,
368
- "eval_steps_per_second": 2.751,
369
  "step": 320
370
  },
371
  {
372
  "epoch": 1.92,
373
- "grad_norm": 0.0693359375,
374
  "learning_rate": 0.00019166666666666667,
375
- "loss": 0.443,
376
  "step": 328
377
  },
378
  {
379
  "epoch": 1.97,
380
- "grad_norm": 0.08837890625,
381
  "learning_rate": 0.00018333333333333334,
382
- "loss": 0.4328,
383
  "step": 336
384
  },
385
  {
386
  "epoch": 2.02,
387
- "grad_norm": 0.0751953125,
388
  "learning_rate": 0.000175,
389
- "loss": 0.43,
390
  "step": 344
391
  },
392
  {
393
  "epoch": 2.06,
394
- "grad_norm": 0.087890625,
395
  "learning_rate": 0.00016666666666666666,
396
- "loss": 0.4169,
397
  "step": 352
398
  },
399
  {
400
  "epoch": 2.06,
401
- "eval_loss": 0.3901583254337311,
402
- "eval_runtime": 2.1777,
403
- "eval_samples_per_second": 22.042,
404
- "eval_steps_per_second": 2.755,
405
  "step": 352
406
  },
407
  {
408
  "epoch": 2.11,
409
- "grad_norm": 0.0810546875,
410
  "learning_rate": 0.00015833333333333332,
411
- "loss": 0.3996,
412
  "step": 360
413
  },
414
  {
415
  "epoch": 2.16,
416
- "grad_norm": 0.08154296875,
417
  "learning_rate": 0.00015,
418
- "loss": 0.4025,
419
  "step": 368
420
  },
421
  {
422
  "epoch": 2.21,
423
- "grad_norm": 0.0791015625,
424
  "learning_rate": 0.00014166666666666668,
425
- "loss": 0.4098,
426
  "step": 376
427
  },
428
  {
429
  "epoch": 2.25,
430
- "grad_norm": 0.0947265625,
431
  "learning_rate": 0.00013333333333333334,
432
- "loss": 0.4347,
433
  "step": 384
434
  },
435
  {
436
  "epoch": 2.25,
437
- "eval_loss": 0.38746240735054016,
438
- "eval_runtime": 2.1784,
439
- "eval_samples_per_second": 22.035,
440
- "eval_steps_per_second": 2.754,
441
  "step": 384
442
  },
443
  {
444
  "epoch": 2.3,
445
- "grad_norm": 0.0859375,
446
  "learning_rate": 0.000125,
447
- "loss": 0.4234,
448
  "step": 392
449
  },
450
  {
451
  "epoch": 2.35,
452
- "grad_norm": 0.08740234375,
453
  "learning_rate": 0.00011666666666666667,
454
- "loss": 0.4054,
455
  "step": 400
456
  },
457
  {
458
  "epoch": 2.39,
459
- "grad_norm": 0.08984375,
460
  "learning_rate": 0.00010833333333333334,
461
- "loss": 0.4117,
462
  "step": 408
463
  },
464
  {
465
  "epoch": 2.44,
466
- "grad_norm": 0.08935546875,
467
  "learning_rate": 0.0001,
468
- "loss": 0.4163,
469
  "step": 416
470
  },
471
  {
472
  "epoch": 2.44,
473
- "eval_loss": 0.38652801513671875,
474
- "eval_runtime": 2.1766,
475
- "eval_samples_per_second": 22.053,
476
- "eval_steps_per_second": 2.757,
477
  "step": 416
478
  },
479
  {
480
  "epoch": 2.49,
481
- "grad_norm": 0.09619140625,
482
  "learning_rate": 9.166666666666667e-05,
483
- "loss": 0.4216,
484
  "step": 424
485
  },
486
  {
487
  "epoch": 2.53,
488
- "grad_norm": 0.08544921875,
489
  "learning_rate": 8.333333333333333e-05,
490
- "loss": 0.3861,
491
  "step": 432
492
  },
493
  {
494
  "epoch": 2.58,
495
- "grad_norm": 0.087890625,
496
  "learning_rate": 7.5e-05,
497
  "loss": 0.3994,
498
  "step": 440
499
  },
500
  {
501
  "epoch": 2.63,
502
- "grad_norm": 0.08642578125,
503
  "learning_rate": 6.666666666666667e-05,
504
- "loss": 0.4171,
505
  "step": 448
506
  },
507
  {
508
  "epoch": 2.63,
509
- "eval_loss": 0.38501664996147156,
510
- "eval_runtime": 2.1793,
511
- "eval_samples_per_second": 22.025,
512
- "eval_steps_per_second": 2.753,
513
  "step": 448
514
  },
515
  {
516
  "epoch": 2.67,
517
- "grad_norm": 0.0908203125,
518
  "learning_rate": 5.833333333333333e-05,
519
- "loss": 0.3924,
520
  "step": 456
521
  },
522
  {
523
  "epoch": 2.72,
524
- "grad_norm": 0.09228515625,
525
  "learning_rate": 5e-05,
526
- "loss": 0.4003,
527
  "step": 464
528
  },
529
  {
530
  "epoch": 2.77,
531
- "grad_norm": 0.08740234375,
532
  "learning_rate": 4.1666666666666665e-05,
533
- "loss": 0.4366,
534
  "step": 472
535
  },
536
  {
537
  "epoch": 2.82,
538
- "grad_norm": 0.08544921875,
539
  "learning_rate": 3.3333333333333335e-05,
540
- "loss": 0.3856,
541
  "step": 480
542
  },
543
  {
544
  "epoch": 2.82,
545
- "eval_loss": 0.3836025893688202,
546
- "eval_runtime": 2.1811,
547
- "eval_samples_per_second": 22.008,
548
- "eval_steps_per_second": 2.751,
549
  "step": 480
550
  },
551
  {
552
  "epoch": 2.86,
553
- "grad_norm": 0.0869140625,
554
  "learning_rate": 2.5e-05,
555
- "loss": 0.3991,
556
  "step": 488
557
  },
558
  {
559
  "epoch": 2.91,
560
- "grad_norm": 0.09033203125,
561
  "learning_rate": 1.6666666666666667e-05,
562
- "loss": 0.402,
563
  "step": 496
564
  },
565
  {
566
  "epoch": 2.96,
567
- "grad_norm": 0.08935546875,
568
  "learning_rate": 8.333333333333334e-06,
569
- "loss": 0.4184,
570
  "step": 504
571
  },
572
  {
573
  "epoch": 3.0,
574
- "grad_norm": 0.0830078125,
575
  "learning_rate": 0.0,
576
- "loss": 0.3914,
577
  "step": 512
578
  },
579
  {
580
  "epoch": 3.0,
581
- "eval_loss": 0.383393794298172,
582
- "eval_runtime": 2.1833,
583
- "eval_samples_per_second": 21.985,
584
- "eval_steps_per_second": 2.748,
585
  "step": 512
586
  },
587
  {
588
  "epoch": 3.0,
589
  "step": 512,
590
- "total_flos": 9.863515762146509e+16,
591
- "train_loss": 0.48598923115059733,
592
- "train_runtime": 1129.8879,
593
- "train_samples_per_second": 7.25,
594
- "train_steps_per_second": 0.453
595
  }
596
  ],
597
  "logging_steps": 8,
@@ -599,7 +599,7 @@
599
  "num_input_tokens_seen": 0,
600
  "num_train_epochs": 4,
601
  "save_steps": 32,
602
- "total_flos": 9.863515762146509e+16,
603
  "train_batch_size": 4,
604
  "trial_name": null,
605
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.38298845291137695,
3
  "best_model_checkpoint": "outputs/checkpoint-512",
4
  "epoch": 3.002932551319648,
5
  "eval_steps": 32,
 
10
  "log_history": [
11
  {
12
  "epoch": 0.05,
13
+ "grad_norm": 0.08740234375,
14
  "learning_rate": 0.000125,
15
+ "loss": 1.2568,
16
  "step": 8
17
  },
18
  {
19
  "epoch": 0.09,
20
+ "grad_norm": 0.09375,
21
  "learning_rate": 0.00025,
22
+ "loss": 1.1087,
23
  "step": 16
24
  },
25
  {
26
  "epoch": 0.14,
27
+ "grad_norm": 0.08251953125,
28
  "learning_rate": 0.000375,
29
+ "loss": 0.8374,
30
  "step": 24
31
  },
32
  {
33
  "epoch": 0.19,
34
+ "grad_norm": 0.076171875,
35
  "learning_rate": 0.0005,
36
+ "loss": 0.7087,
37
  "step": 32
38
  },
39
  {
40
  "epoch": 0.19,
41
+ "eval_loss": 0.582936704158783,
42
+ "eval_runtime": 2.9206,
43
+ "eval_samples_per_second": 16.435,
44
+ "eval_steps_per_second": 2.054,
45
  "step": 32
46
  },
47
  {
48
  "epoch": 0.23,
49
+ "grad_norm": 0.07470703125,
50
  "learning_rate": 0.0004916666666666666,
51
+ "loss": 0.6099,
52
  "step": 40
53
  },
54
  {
55
  "epoch": 0.28,
56
+ "grad_norm": 0.0751953125,
57
  "learning_rate": 0.00048333333333333334,
58
+ "loss": 0.5956,
59
  "step": 48
60
  },
61
  {
62
  "epoch": 0.33,
63
+ "grad_norm": 0.06982421875,
64
  "learning_rate": 0.000475,
65
+ "loss": 0.5691,
66
  "step": 56
67
  },
68
  {
69
  "epoch": 0.38,
70
+ "grad_norm": 0.09375,
71
  "learning_rate": 0.00046666666666666666,
72
+ "loss": 0.5675,
73
  "step": 64
74
  },
75
  {
76
  "epoch": 0.38,
77
+ "eval_loss": 0.47926369309425354,
78
+ "eval_runtime": 2.1968,
79
+ "eval_samples_per_second": 21.85,
80
+ "eval_steps_per_second": 2.731,
81
  "step": 64
82
  },
83
  {
84
  "epoch": 0.42,
85
+ "grad_norm": 0.058349609375,
86
  "learning_rate": 0.0004583333333333333,
87
  "loss": 0.5528,
88
  "step": 72
89
  },
90
  {
91
  "epoch": 0.47,
92
+ "grad_norm": 0.0595703125,
93
  "learning_rate": 0.00045000000000000004,
94
  "loss": 0.535,
95
  "step": 80
96
  },
97
  {
98
  "epoch": 0.52,
99
+ "grad_norm": 0.056396484375,
100
  "learning_rate": 0.00044166666666666665,
101
+ "loss": 0.5055,
102
  "step": 88
103
  },
104
  {
105
  "epoch": 0.56,
106
+ "grad_norm": 0.05224609375,
107
  "learning_rate": 0.00043333333333333337,
108
+ "loss": 0.5163,
109
  "step": 96
110
  },
111
  {
112
  "epoch": 0.56,
113
+ "eval_loss": 0.44680991768836975,
114
+ "eval_runtime": 2.197,
115
+ "eval_samples_per_second": 21.848,
116
+ "eval_steps_per_second": 2.731,
117
  "step": 96
118
  },
119
  {
120
  "epoch": 0.61,
121
+ "grad_norm": 0.048828125,
122
  "learning_rate": 0.000425,
123
+ "loss": 0.513,
124
  "step": 104
125
  },
126
  {
127
  "epoch": 0.66,
128
+ "grad_norm": 0.053955078125,
129
  "learning_rate": 0.0004166666666666667,
130
+ "loss": 0.4927,
131
  "step": 112
132
  },
133
  {
134
  "epoch": 0.7,
135
+ "grad_norm": 0.056396484375,
136
  "learning_rate": 0.00040833333333333336,
137
+ "loss": 0.5163,
138
  "step": 120
139
  },
140
  {
141
  "epoch": 0.75,
142
+ "grad_norm": 0.047607421875,
143
  "learning_rate": 0.0004,
144
+ "loss": 0.4923,
145
  "step": 128
146
  },
147
  {
148
  "epoch": 0.75,
149
+ "eval_loss": 0.4288952052593231,
150
+ "eval_runtime": 2.2003,
151
+ "eval_samples_per_second": 21.815,
152
+ "eval_steps_per_second": 2.727,
153
  "step": 128
154
  },
155
  {
156
  "epoch": 0.8,
157
+ "grad_norm": 0.05078125,
158
  "learning_rate": 0.0003916666666666667,
159
+ "loss": 0.484,
160
  "step": 136
161
  },
162
  {
163
  "epoch": 0.84,
164
+ "grad_norm": 0.052001953125,
165
  "learning_rate": 0.00038333333333333334,
166
+ "loss": 0.4698,
167
  "step": 144
168
  },
169
  {
170
  "epoch": 0.89,
171
+ "grad_norm": 0.057861328125,
172
  "learning_rate": 0.000375,
173
+ "loss": 0.4682,
174
  "step": 152
175
  },
176
  {
177
  "epoch": 0.94,
178
+ "grad_norm": 0.0517578125,
179
  "learning_rate": 0.00036666666666666667,
180
+ "loss": 0.4661,
181
  "step": 160
182
  },
183
  {
184
  "epoch": 0.94,
185
+ "eval_loss": 0.4169415235519409,
186
+ "eval_runtime": 2.1996,
187
+ "eval_samples_per_second": 21.822,
188
+ "eval_steps_per_second": 2.728,
189
  "step": 160
190
  },
191
  {
192
  "epoch": 0.99,
193
+ "grad_norm": 0.050048828125,
194
  "learning_rate": 0.00035833333333333333,
195
+ "loss": 0.4717,
196
  "step": 168
197
  },
198
  {
199
  "epoch": 1.03,
200
+ "grad_norm": 0.059326171875,
201
  "learning_rate": 0.00035,
202
+ "loss": 0.4706,
203
  "step": 176
204
  },
205
  {
206
  "epoch": 1.08,
207
+ "grad_norm": 0.05224609375,
208
  "learning_rate": 0.00034166666666666666,
209
+ "loss": 0.4541,
210
  "step": 184
211
  },
212
  {
213
  "epoch": 1.13,
214
+ "grad_norm": 0.055908203125,
215
  "learning_rate": 0.0003333333333333333,
216
+ "loss": 0.4428,
217
  "step": 192
218
  },
219
  {
220
  "epoch": 1.13,
221
+ "eval_loss": 0.4122503697872162,
222
+ "eval_runtime": 2.1981,
223
+ "eval_samples_per_second": 21.837,
224
+ "eval_steps_per_second": 2.73,
225
  "step": 192
226
  },
227
  {
228
  "epoch": 1.17,
229
+ "grad_norm": 0.0576171875,
230
  "learning_rate": 0.00032500000000000004,
231
+ "loss": 0.4415,
232
  "step": 200
233
  },
234
  {
235
  "epoch": 1.22,
236
+ "grad_norm": 0.0625,
237
  "learning_rate": 0.00031666666666666665,
238
+ "loss": 0.4701,
239
  "step": 208
240
  },
241
  {
242
  "epoch": 1.27,
243
+ "grad_norm": 0.0546875,
244
  "learning_rate": 0.00030833333333333337,
245
+ "loss": 0.4445,
246
  "step": 216
247
  },
248
  {
249
  "epoch": 1.31,
250
+ "grad_norm": 0.060302734375,
251
  "learning_rate": 0.0003,
252
+ "loss": 0.4311,
253
  "step": 224
254
  },
255
  {
256
  "epoch": 1.31,
257
+ "eval_loss": 0.4041053056716919,
258
+ "eval_runtime": 2.1997,
259
+ "eval_samples_per_second": 21.821,
260
+ "eval_steps_per_second": 2.728,
261
  "step": 224
262
  },
263
  {
264
  "epoch": 1.36,
265
+ "grad_norm": 0.0556640625,
266
  "learning_rate": 0.0002916666666666667,
267
+ "loss": 0.4614,
268
  "step": 232
269
  },
270
  {
271
  "epoch": 1.41,
272
+ "grad_norm": 0.05859375,
273
  "learning_rate": 0.00028333333333333335,
274
+ "loss": 0.4434,
275
  "step": 240
276
  },
277
  {
278
  "epoch": 1.45,
279
+ "grad_norm": 0.062255859375,
280
  "learning_rate": 0.000275,
281
+ "loss": 0.427,
282
  "step": 248
283
  },
284
  {
285
  "epoch": 1.5,
286
+ "grad_norm": 0.059814453125,
287
  "learning_rate": 0.0002666666666666667,
288
  "loss": 0.4554,
289
  "step": 256
290
  },
291
  {
292
  "epoch": 1.5,
293
+ "eval_loss": 0.3991839587688446,
294
+ "eval_runtime": 2.2002,
295
+ "eval_samples_per_second": 21.816,
296
+ "eval_steps_per_second": 2.727,
297
  "step": 256
298
  },
299
  {
300
  "epoch": 1.55,
301
+ "grad_norm": 0.05224609375,
302
  "learning_rate": 0.00025833333333333334,
303
+ "loss": 0.4375,
304
  "step": 264
305
  },
306
  {
307
  "epoch": 1.6,
308
+ "grad_norm": 0.059814453125,
309
  "learning_rate": 0.00025,
310
+ "loss": 0.4379,
311
  "step": 272
312
  },
313
  {
314
  "epoch": 1.64,
315
+ "grad_norm": 0.057861328125,
316
  "learning_rate": 0.00024166666666666667,
317
+ "loss": 0.4335,
318
  "step": 280
319
  },
320
  {
321
  "epoch": 1.69,
322
+ "grad_norm": 0.056396484375,
323
  "learning_rate": 0.00023333333333333333,
324
+ "loss": 0.4451,
325
  "step": 288
326
  },
327
  {
328
  "epoch": 1.69,
329
+ "eval_loss": 0.3925025165081024,
330
+ "eval_runtime": 2.2103,
331
+ "eval_samples_per_second": 21.716,
332
+ "eval_steps_per_second": 2.715,
333
  "step": 288
334
  },
335
  {
336
  "epoch": 1.74,
337
+ "grad_norm": 0.050537109375,
338
  "learning_rate": 0.00022500000000000002,
339
+ "loss": 0.4681,
340
  "step": 296
341
  },
342
  {
343
  "epoch": 1.78,
344
+ "grad_norm": 0.06494140625,
345
  "learning_rate": 0.00021666666666666668,
346
+ "loss": 0.4313,
347
  "step": 304
348
  },
349
  {
350
  "epoch": 1.83,
351
+ "grad_norm": 0.05224609375,
352
  "learning_rate": 0.00020833333333333335,
353
+ "loss": 0.4539,
354
  "step": 312
355
  },
356
  {
357
  "epoch": 1.88,
358
+ "grad_norm": 0.0634765625,
359
  "learning_rate": 0.0002,
360
+ "loss": 0.4364,
361
  "step": 320
362
  },
363
  {
364
  "epoch": 1.88,
365
+ "eval_loss": 0.3885883390903473,
366
+ "eval_runtime": 2.2015,
367
+ "eval_samples_per_second": 21.804,
368
+ "eval_steps_per_second": 2.725,
369
  "step": 320
370
  },
371
  {
372
  "epoch": 1.92,
373
+ "grad_norm": 0.049560546875,
374
  "learning_rate": 0.00019166666666666667,
375
+ "loss": 0.4425,
376
  "step": 328
377
  },
378
  {
379
  "epoch": 1.97,
380
+ "grad_norm": 0.0625,
381
  "learning_rate": 0.00018333333333333334,
382
+ "loss": 0.4327,
383
  "step": 336
384
  },
385
  {
386
  "epoch": 2.02,
387
+ "grad_norm": 0.052978515625,
388
  "learning_rate": 0.000175,
389
+ "loss": 0.4296,
390
  "step": 344
391
  },
392
  {
393
  "epoch": 2.06,
394
+ "grad_norm": 0.0625,
395
  "learning_rate": 0.00016666666666666666,
396
+ "loss": 0.417,
397
  "step": 352
398
  },
399
  {
400
  "epoch": 2.06,
401
+ "eval_loss": 0.3900233209133148,
402
+ "eval_runtime": 2.2074,
403
+ "eval_samples_per_second": 21.745,
404
+ "eval_steps_per_second": 2.718,
405
  "step": 352
406
  },
407
  {
408
  "epoch": 2.11,
409
+ "grad_norm": 0.05615234375,
410
  "learning_rate": 0.00015833333333333332,
411
+ "loss": 0.3998,
412
  "step": 360
413
  },
414
  {
415
  "epoch": 2.16,
416
+ "grad_norm": 0.0576171875,
417
  "learning_rate": 0.00015,
418
+ "loss": 0.4019,
419
  "step": 368
420
  },
421
  {
422
  "epoch": 2.21,
423
+ "grad_norm": 0.054443359375,
424
  "learning_rate": 0.00014166666666666668,
425
+ "loss": 0.4096,
426
  "step": 376
427
  },
428
  {
429
  "epoch": 2.25,
430
+ "grad_norm": 0.0673828125,
431
  "learning_rate": 0.00013333333333333334,
432
+ "loss": 0.4349,
433
  "step": 384
434
  },
435
  {
436
  "epoch": 2.25,
437
+ "eval_loss": 0.38732287287712097,
438
+ "eval_runtime": 2.1995,
439
+ "eval_samples_per_second": 21.823,
440
+ "eval_steps_per_second": 2.728,
441
  "step": 384
442
  },
443
  {
444
  "epoch": 2.3,
445
+ "grad_norm": 0.06201171875,
446
  "learning_rate": 0.000125,
447
+ "loss": 0.4235,
448
  "step": 392
449
  },
450
  {
451
  "epoch": 2.35,
452
+ "grad_norm": 0.0625,
453
  "learning_rate": 0.00011666666666666667,
454
+ "loss": 0.4056,
455
  "step": 400
456
  },
457
  {
458
  "epoch": 2.39,
459
+ "grad_norm": 0.06396484375,
460
  "learning_rate": 0.00010833333333333334,
461
+ "loss": 0.4116,
462
  "step": 408
463
  },
464
  {
465
  "epoch": 2.44,
466
+ "grad_norm": 0.0634765625,
467
  "learning_rate": 0.0001,
468
+ "loss": 0.416,
469
  "step": 416
470
  },
471
  {
472
  "epoch": 2.44,
473
+ "eval_loss": 0.3866064250469208,
474
+ "eval_runtime": 2.2006,
475
+ "eval_samples_per_second": 21.812,
476
+ "eval_steps_per_second": 2.727,
477
  "step": 416
478
  },
479
  {
480
  "epoch": 2.49,
481
+ "grad_norm": 0.06787109375,
482
  "learning_rate": 9.166666666666667e-05,
483
+ "loss": 0.4214,
484
  "step": 424
485
  },
486
  {
487
  "epoch": 2.53,
488
+ "grad_norm": 0.060791015625,
489
  "learning_rate": 8.333333333333333e-05,
490
+ "loss": 0.386,
491
  "step": 432
492
  },
493
  {
494
  "epoch": 2.58,
495
+ "grad_norm": 0.062255859375,
496
  "learning_rate": 7.5e-05,
497
  "loss": 0.3994,
498
  "step": 440
499
  },
500
  {
501
  "epoch": 2.63,
502
+ "grad_norm": 0.06103515625,
503
  "learning_rate": 6.666666666666667e-05,
504
+ "loss": 0.4169,
505
  "step": 448
506
  },
507
  {
508
  "epoch": 2.63,
509
+ "eval_loss": 0.38443723320961,
510
+ "eval_runtime": 2.2022,
511
+ "eval_samples_per_second": 21.796,
512
+ "eval_steps_per_second": 2.725,
513
  "step": 448
514
  },
515
  {
516
  "epoch": 2.67,
517
+ "grad_norm": 0.0654296875,
518
  "learning_rate": 5.833333333333333e-05,
519
+ "loss": 0.392,
520
  "step": 456
521
  },
522
  {
523
  "epoch": 2.72,
524
+ "grad_norm": 0.064453125,
525
  "learning_rate": 5e-05,
526
+ "loss": 0.4002,
527
  "step": 464
528
  },
529
  {
530
  "epoch": 2.77,
531
+ "grad_norm": 0.0615234375,
532
  "learning_rate": 4.1666666666666665e-05,
533
+ "loss": 0.4362,
534
  "step": 472
535
  },
536
  {
537
  "epoch": 2.82,
538
+ "grad_norm": 0.061279296875,
539
  "learning_rate": 3.3333333333333335e-05,
540
+ "loss": 0.3852,
541
  "step": 480
542
  },
543
  {
544
  "epoch": 2.82,
545
+ "eval_loss": 0.38356801867485046,
546
+ "eval_runtime": 2.2009,
547
+ "eval_samples_per_second": 21.809,
548
+ "eval_steps_per_second": 2.726,
549
  "step": 480
550
  },
551
  {
552
  "epoch": 2.86,
553
+ "grad_norm": 0.06201171875,
554
  "learning_rate": 2.5e-05,
555
+ "loss": 0.3989,
556
  "step": 488
557
  },
558
  {
559
  "epoch": 2.91,
560
+ "grad_norm": 0.0634765625,
561
  "learning_rate": 1.6666666666666667e-05,
562
+ "loss": 0.4017,
563
  "step": 496
564
  },
565
  {
566
  "epoch": 2.96,
567
+ "grad_norm": 0.0634765625,
568
  "learning_rate": 8.333333333333334e-06,
569
+ "loss": 0.4178,
570
  "step": 504
571
  },
572
  {
573
  "epoch": 3.0,
574
+ "grad_norm": 0.058837890625,
575
  "learning_rate": 0.0,
576
+ "loss": 0.3916,
577
  "step": 512
578
  },
579
  {
580
  "epoch": 3.0,
581
+ "eval_loss": 0.38298845291137695,
582
+ "eval_runtime": 2.1989,
583
+ "eval_samples_per_second": 21.829,
584
+ "eval_steps_per_second": 2.729,
585
  "step": 512
586
  },
587
  {
588
  "epoch": 3.0,
589
  "step": 512,
590
+ "total_flos": 1.005493534658642e+17,
591
+ "train_loss": 0.4858610653318465,
592
+ "train_runtime": 1143.2565,
593
+ "train_samples_per_second": 7.165,
594
+ "train_steps_per_second": 0.448
595
  }
596
  ],
597
  "logging_steps": 8,
 
599
  "num_input_tokens_seen": 0,
600
  "num_train_epochs": 4,
601
  "save_steps": 32,
602
+ "total_flos": 1.005493534658642e+17,
603
  "train_batch_size": 4,
604
  "trial_name": null,
605
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8c822435a140bbc9ba485bc690b26c593635fea3e2667caf12b34f417b55a6ad
3
  size 4920
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fa3f91ac55ef4d7bf4d399249e79b960bc87010a73fea3cd32902d0d3d9a8737
3
  size 4920