pminervini commited on
Commit
65574bf
·
verified ·
1 Parent(s): a9afd1f

Training in progress, step 32

Browse files
adapter_config.json CHANGED
@@ -15,16 +15,16 @@
15
  "megatron_core": "megatron.core",
16
  "modules_to_save": null,
17
  "peft_type": "LORA",
18
- "r": 32,
19
  "rank_pattern": {},
20
  "revision": null,
21
  "target_modules": [
22
- "down_proj",
23
  "o_proj",
24
  "v_proj",
25
- "q_proj",
26
- "up_proj",
27
  "gate_proj",
 
28
  "k_proj"
29
  ],
30
  "task_type": "CAUSAL_LM",
 
15
  "megatron_core": "megatron.core",
16
  "modules_to_save": null,
17
  "peft_type": "LORA",
18
+ "r": 64,
19
  "rank_pattern": {},
20
  "revision": null,
21
  "target_modules": [
22
+ "up_proj",
23
  "o_proj",
24
  "v_proj",
25
+ "down_proj",
 
26
  "gate_proj",
27
+ "q_proj",
28
  "k_proj"
29
  ],
30
  "task_type": "CAUSAL_LM",
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:401d51f28568e51bf9b2c1b514f10e237dd09b50f8cdc5a3d471cd6811948162
3
- size 78480320
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:043c1f9754bae8c5a065227e6b98b91c218b0c06b197b9e0c892fc32c67fb5b9
3
+ size 156927136
all_results.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "epoch": 3.0,
3
- "train_loss": 0.5280804093927145,
4
- "train_runtime": 1170.0816,
5
- "train_samples_per_second": 7.001,
6
- "train_steps_per_second": 0.438
7
  }
 
1
  {
2
  "epoch": 3.0,
3
+ "train_loss": 0.48598923115059733,
4
+ "train_runtime": 1129.8879,
5
+ "train_samples_per_second": 7.25,
6
+ "train_steps_per_second": 0.453
7
  }
best_metrics.json CHANGED
@@ -1 +1 @@
1
- {"eval_loss": 0.403754860162735}
 
1
+ {"eval_loss": 0.383393794298172}
train_results.json CHANGED
@@ -1,7 +1,7 @@
1
  {
2
  "epoch": 3.0,
3
- "train_loss": 0.5280804093927145,
4
- "train_runtime": 1170.0816,
5
- "train_samples_per_second": 7.001,
6
- "train_steps_per_second": 0.438
7
  }
 
1
  {
2
  "epoch": 3.0,
3
+ "train_loss": 0.48598923115059733,
4
+ "train_runtime": 1129.8879,
5
+ "train_samples_per_second": 7.25,
6
+ "train_steps_per_second": 0.453
7
  }
trainer_state.json CHANGED
@@ -1,5 +1,5 @@
1
  {
2
- "best_metric": 0.40400779247283936,
3
  "best_model_checkpoint": "outputs/checkpoint-512",
4
  "epoch": 3.002932551319648,
5
  "eval_steps": 32,
@@ -10,588 +10,588 @@
10
  "log_history": [
11
  {
12
  "epoch": 0.05,
13
- "grad_norm": 0.05322265625,
14
- "learning_rate": 5e-05,
15
- "loss": 1.2615,
16
  "step": 8
17
  },
18
  {
19
  "epoch": 0.09,
20
- "grad_norm": 0.05126953125,
21
- "learning_rate": 0.0001,
22
- "loss": 1.2386,
23
  "step": 16
24
  },
25
  {
26
  "epoch": 0.14,
27
- "grad_norm": 0.0712890625,
28
- "learning_rate": 0.00015000000000000001,
29
- "loss": 1.0635,
30
  "step": 24
31
  },
32
  {
33
  "epoch": 0.19,
34
- "grad_norm": 0.055419921875,
35
- "learning_rate": 0.0002,
36
- "loss": 0.8635,
37
  "step": 32
38
  },
39
  {
40
  "epoch": 0.19,
41
- "eval_loss": 0.6946206092834473,
42
- "eval_runtime": 2.9198,
43
- "eval_samples_per_second": 16.44,
44
- "eval_steps_per_second": 2.055,
45
  "step": 32
46
  },
47
  {
48
  "epoch": 0.23,
49
- "grad_norm": 0.05810546875,
50
- "learning_rate": 0.00019666666666666666,
51
- "loss": 0.7168,
52
  "step": 40
53
  },
54
  {
55
  "epoch": 0.28,
56
- "grad_norm": 0.052490234375,
57
- "learning_rate": 0.00019333333333333333,
58
- "loss": 0.68,
59
  "step": 48
60
  },
61
  {
62
  "epoch": 0.33,
63
- "grad_norm": 0.058349609375,
64
- "learning_rate": 0.00019,
65
- "loss": 0.6411,
66
  "step": 56
67
  },
68
  {
69
  "epoch": 0.38,
70
- "grad_norm": 0.0771484375,
71
- "learning_rate": 0.0001866666666666667,
72
- "loss": 0.6265,
73
  "step": 64
74
  },
75
  {
76
  "epoch": 0.38,
77
- "eval_loss": 0.5298518538475037,
78
- "eval_runtime": 2.2273,
79
- "eval_samples_per_second": 21.551,
80
- "eval_steps_per_second": 2.694,
81
  "step": 64
82
  },
83
  {
84
  "epoch": 0.42,
85
- "grad_norm": 0.05029296875,
86
- "learning_rate": 0.00018333333333333334,
87
- "loss": 0.601,
88
  "step": 72
89
  },
90
  {
91
  "epoch": 0.47,
92
- "grad_norm": 0.04638671875,
93
- "learning_rate": 0.00018,
94
- "loss": 0.5792,
95
  "step": 80
96
  },
97
  {
98
  "epoch": 0.52,
99
- "grad_norm": 0.048828125,
100
- "learning_rate": 0.00017666666666666666,
101
- "loss": 0.5439,
102
  "step": 88
103
  },
104
  {
105
  "epoch": 0.56,
106
- "grad_norm": 0.0595703125,
107
- "learning_rate": 0.00017333333333333334,
108
- "loss": 0.5546,
109
  "step": 96
110
  },
111
  {
112
  "epoch": 0.56,
113
- "eval_loss": 0.48418930172920227,
114
- "eval_runtime": 2.2276,
115
- "eval_samples_per_second": 21.548,
116
- "eval_steps_per_second": 2.693,
117
  "step": 96
118
  },
119
  {
120
  "epoch": 0.61,
121
- "grad_norm": 0.047119140625,
122
- "learning_rate": 0.00017,
123
- "loss": 0.5473,
124
  "step": 104
125
  },
126
  {
127
  "epoch": 0.66,
128
- "grad_norm": 0.0478515625,
129
- "learning_rate": 0.0001666666666666667,
130
- "loss": 0.5263,
131
  "step": 112
132
  },
133
  {
134
  "epoch": 0.7,
135
- "grad_norm": 0.04833984375,
136
- "learning_rate": 0.00016333333333333334,
137
- "loss": 0.5478,
138
  "step": 120
139
  },
140
  {
141
  "epoch": 0.75,
142
- "grad_norm": 0.046142578125,
143
- "learning_rate": 0.00016,
144
- "loss": 0.5179,
145
  "step": 128
146
  },
147
  {
148
  "epoch": 0.75,
149
- "eval_loss": 0.4604620039463043,
150
- "eval_runtime": 2.2312,
151
- "eval_samples_per_second": 21.513,
152
- "eval_steps_per_second": 2.689,
153
  "step": 128
154
  },
155
  {
156
  "epoch": 0.8,
157
- "grad_norm": 0.044677734375,
158
- "learning_rate": 0.00015666666666666666,
159
- "loss": 0.515,
160
  "step": 136
161
  },
162
  {
163
  "epoch": 0.84,
164
- "grad_norm": 0.051513671875,
165
- "learning_rate": 0.00015333333333333334,
166
- "loss": 0.4951,
167
  "step": 144
168
  },
169
  {
170
  "epoch": 0.89,
171
- "grad_norm": 0.05615234375,
172
- "learning_rate": 0.00015000000000000001,
173
- "loss": 0.4928,
174
  "step": 152
175
  },
176
  {
177
  "epoch": 0.94,
178
- "grad_norm": 0.048095703125,
179
- "learning_rate": 0.00014666666666666666,
180
- "loss": 0.4945,
181
  "step": 160
182
  },
183
  {
184
  "epoch": 0.94,
185
- "eval_loss": 0.4465566575527191,
186
- "eval_runtime": 2.2334,
187
- "eval_samples_per_second": 21.492,
188
- "eval_steps_per_second": 2.686,
189
  "step": 160
190
  },
191
  {
192
  "epoch": 0.99,
193
- "grad_norm": 0.05224609375,
194
- "learning_rate": 0.00014333333333333334,
195
- "loss": 0.4973,
196
  "step": 168
197
  },
198
  {
199
  "epoch": 1.03,
200
- "grad_norm": 0.06494140625,
201
- "learning_rate": 0.00014,
202
- "loss": 0.5055,
203
  "step": 176
204
  },
205
  {
206
  "epoch": 1.08,
207
- "grad_norm": 0.04931640625,
208
- "learning_rate": 0.00013666666666666666,
209
- "loss": 0.4883,
210
  "step": 184
211
  },
212
  {
213
  "epoch": 1.13,
214
- "grad_norm": 0.05224609375,
215
- "learning_rate": 0.00013333333333333334,
216
- "loss": 0.4754,
217
  "step": 192
218
  },
219
  {
220
  "epoch": 1.13,
221
- "eval_loss": 0.4364134967327118,
222
- "eval_runtime": 2.2275,
223
- "eval_samples_per_second": 21.549,
224
- "eval_steps_per_second": 2.694,
225
  "step": 192
226
  },
227
  {
228
  "epoch": 1.17,
229
- "grad_norm": 0.05615234375,
230
- "learning_rate": 0.00013000000000000002,
231
- "loss": 0.474,
232
  "step": 200
233
  },
234
  {
235
  "epoch": 1.22,
236
- "grad_norm": 0.056396484375,
237
- "learning_rate": 0.00012666666666666666,
238
- "loss": 0.5049,
239
  "step": 208
240
  },
241
  {
242
  "epoch": 1.27,
243
- "grad_norm": 0.0595703125,
244
- "learning_rate": 0.00012333333333333334,
245
- "loss": 0.4742,
246
  "step": 216
247
  },
248
  {
249
  "epoch": 1.31,
250
- "grad_norm": 0.05859375,
251
- "learning_rate": 0.00012,
252
- "loss": 0.4592,
253
  "step": 224
254
  },
255
  {
256
  "epoch": 1.31,
257
- "eval_loss": 0.42712247371673584,
258
- "eval_runtime": 2.2283,
259
- "eval_samples_per_second": 21.541,
260
- "eval_steps_per_second": 2.693,
261
  "step": 224
262
  },
263
  {
264
  "epoch": 1.36,
265
- "grad_norm": 0.0537109375,
266
- "learning_rate": 0.00011666666666666668,
267
- "loss": 0.4916,
268
  "step": 232
269
  },
270
  {
271
  "epoch": 1.41,
272
- "grad_norm": 0.056884765625,
273
- "learning_rate": 0.00011333333333333334,
274
- "loss": 0.471,
275
  "step": 240
276
  },
277
  {
278
  "epoch": 1.45,
279
- "grad_norm": 0.052734375,
280
- "learning_rate": 0.00011000000000000002,
281
- "loss": 0.4542,
282
  "step": 248
283
  },
284
  {
285
  "epoch": 1.5,
286
- "grad_norm": 0.060302734375,
287
- "learning_rate": 0.00010666666666666667,
288
- "loss": 0.4854,
289
  "step": 256
290
  },
291
  {
292
  "epoch": 1.5,
293
- "eval_loss": 0.4222320020198822,
294
- "eval_runtime": 2.2384,
295
- "eval_samples_per_second": 21.444,
296
- "eval_steps_per_second": 2.681,
297
  "step": 256
298
  },
299
  {
300
  "epoch": 1.55,
301
- "grad_norm": 0.055419921875,
302
- "learning_rate": 0.00010333333333333334,
303
- "loss": 0.4647,
304
  "step": 264
305
  },
306
  {
307
  "epoch": 1.6,
308
- "grad_norm": 0.06201171875,
309
- "learning_rate": 0.0001,
310
- "loss": 0.4656,
311
  "step": 272
312
  },
313
  {
314
  "epoch": 1.64,
315
- "grad_norm": 0.06005859375,
316
- "learning_rate": 9.666666666666667e-05,
317
- "loss": 0.4607,
318
  "step": 280
319
  },
320
  {
321
  "epoch": 1.69,
322
- "grad_norm": 0.0595703125,
323
- "learning_rate": 9.333333333333334e-05,
324
- "loss": 0.4715,
325
  "step": 288
326
  },
327
  {
328
  "epoch": 1.69,
329
- "eval_loss": 0.41570091247558594,
330
- "eval_runtime": 2.2285,
331
- "eval_samples_per_second": 21.539,
332
- "eval_steps_per_second": 2.692,
333
  "step": 288
334
  },
335
  {
336
  "epoch": 1.74,
337
- "grad_norm": 0.0498046875,
338
- "learning_rate": 9e-05,
339
- "loss": 0.4962,
340
  "step": 296
341
  },
342
  {
343
  "epoch": 1.78,
344
- "grad_norm": 0.06494140625,
345
- "learning_rate": 8.666666666666667e-05,
346
- "loss": 0.4599,
347
  "step": 304
348
  },
349
  {
350
  "epoch": 1.83,
351
- "grad_norm": 0.0537109375,
352
- "learning_rate": 8.333333333333334e-05,
353
- "loss": 0.4805,
354
  "step": 312
355
  },
356
  {
357
  "epoch": 1.88,
358
- "grad_norm": 0.0654296875,
359
- "learning_rate": 8e-05,
360
- "loss": 0.4645,
361
  "step": 320
362
  },
363
  {
364
  "epoch": 1.88,
365
- "eval_loss": 0.41148829460144043,
366
- "eval_runtime": 2.2319,
367
- "eval_samples_per_second": 21.506,
368
- "eval_steps_per_second": 2.688,
369
  "step": 320
370
  },
371
  {
372
  "epoch": 1.92,
373
- "grad_norm": 0.052001953125,
374
- "learning_rate": 7.666666666666667e-05,
375
- "loss": 0.4705,
376
  "step": 328
377
  },
378
  {
379
  "epoch": 1.97,
380
- "grad_norm": 0.059326171875,
381
- "learning_rate": 7.333333333333333e-05,
382
- "loss": 0.4583,
383
  "step": 336
384
  },
385
  {
386
  "epoch": 2.02,
387
- "grad_norm": 0.053466796875,
388
- "learning_rate": 7e-05,
389
- "loss": 0.4627,
390
  "step": 344
391
  },
392
  {
393
  "epoch": 2.06,
394
- "grad_norm": 0.06201171875,
395
- "learning_rate": 6.666666666666667e-05,
396
- "loss": 0.4541,
397
  "step": 352
398
  },
399
  {
400
  "epoch": 2.06,
401
- "eval_loss": 0.4108574390411377,
402
- "eval_runtime": 2.2294,
403
- "eval_samples_per_second": 21.53,
404
- "eval_steps_per_second": 2.691,
405
  "step": 352
406
  },
407
  {
408
  "epoch": 2.11,
409
- "grad_norm": 0.05712890625,
410
- "learning_rate": 6.333333333333333e-05,
411
- "loss": 0.4362,
412
  "step": 360
413
  },
414
  {
415
  "epoch": 2.16,
416
- "grad_norm": 0.0556640625,
417
- "learning_rate": 6e-05,
418
- "loss": 0.4395,
419
  "step": 368
420
  },
421
  {
422
  "epoch": 2.21,
423
- "grad_norm": 0.052978515625,
424
- "learning_rate": 5.666666666666667e-05,
425
- "loss": 0.4489,
426
  "step": 376
427
  },
428
  {
429
  "epoch": 2.25,
430
- "grad_norm": 0.07177734375,
431
- "learning_rate": 5.333333333333333e-05,
432
- "loss": 0.4748,
433
  "step": 384
434
  },
435
  {
436
  "epoch": 2.25,
437
- "eval_loss": 0.40746060013771057,
438
- "eval_runtime": 2.2303,
439
- "eval_samples_per_second": 21.522,
440
- "eval_steps_per_second": 2.69,
441
  "step": 384
442
  },
443
  {
444
  "epoch": 2.3,
445
- "grad_norm": 0.061767578125,
446
- "learning_rate": 5e-05,
447
- "loss": 0.462,
448
  "step": 392
449
  },
450
  {
451
  "epoch": 2.35,
452
- "grad_norm": 0.05810546875,
453
- "learning_rate": 4.666666666666667e-05,
454
- "loss": 0.4424,
455
  "step": 400
456
  },
457
  {
458
  "epoch": 2.39,
459
- "grad_norm": 0.059326171875,
460
- "learning_rate": 4.3333333333333334e-05,
461
- "loss": 0.4474,
462
  "step": 408
463
  },
464
  {
465
  "epoch": 2.44,
466
- "grad_norm": 0.058837890625,
467
- "learning_rate": 4e-05,
468
- "loss": 0.4552,
469
  "step": 416
470
  },
471
  {
472
  "epoch": 2.44,
473
- "eval_loss": 0.4058319628238678,
474
- "eval_runtime": 2.2336,
475
- "eval_samples_per_second": 21.49,
476
- "eval_steps_per_second": 2.686,
477
  "step": 416
478
  },
479
  {
480
  "epoch": 2.49,
481
- "grad_norm": 0.0654296875,
482
- "learning_rate": 3.6666666666666666e-05,
483
- "loss": 0.46,
484
  "step": 424
485
  },
486
  {
487
  "epoch": 2.53,
488
- "grad_norm": 0.059326171875,
489
- "learning_rate": 3.3333333333333335e-05,
490
- "loss": 0.421,
491
  "step": 432
492
  },
493
  {
494
  "epoch": 2.58,
495
- "grad_norm": 0.05810546875,
496
- "learning_rate": 3e-05,
497
- "loss": 0.4343,
498
  "step": 440
499
  },
500
  {
501
  "epoch": 2.63,
502
- "grad_norm": 0.056640625,
503
- "learning_rate": 2.6666666666666667e-05,
504
- "loss": 0.4545,
505
  "step": 448
506
  },
507
  {
508
  "epoch": 2.63,
509
- "eval_loss": 0.405117005109787,
510
- "eval_runtime": 2.2284,
511
- "eval_samples_per_second": 21.54,
512
- "eval_steps_per_second": 2.692,
513
  "step": 448
514
  },
515
  {
516
  "epoch": 2.67,
517
- "grad_norm": 0.06005859375,
518
- "learning_rate": 2.3333333333333336e-05,
519
- "loss": 0.4287,
520
  "step": 456
521
  },
522
  {
523
  "epoch": 2.72,
524
- "grad_norm": 0.06201171875,
525
- "learning_rate": 2e-05,
526
- "loss": 0.4356,
527
  "step": 464
528
  },
529
  {
530
  "epoch": 2.77,
531
- "grad_norm": 0.060791015625,
532
- "learning_rate": 1.6666666666666667e-05,
533
- "loss": 0.4757,
534
  "step": 472
535
  },
536
  {
537
  "epoch": 2.82,
538
- "grad_norm": 0.056884765625,
539
- "learning_rate": 1.3333333333333333e-05,
540
- "loss": 0.4206,
541
  "step": 480
542
  },
543
  {
544
  "epoch": 2.82,
545
- "eval_loss": 0.4043344557285309,
546
- "eval_runtime": 2.2287,
547
- "eval_samples_per_second": 21.537,
548
- "eval_steps_per_second": 2.692,
549
  "step": 480
550
  },
551
  {
552
  "epoch": 2.86,
553
- "grad_norm": 0.05712890625,
554
- "learning_rate": 1e-05,
555
- "loss": 0.4375,
556
  "step": 488
557
  },
558
  {
559
  "epoch": 2.91,
560
- "grad_norm": 0.060546875,
561
- "learning_rate": 6.666666666666667e-06,
562
- "loss": 0.44,
563
  "step": 496
564
  },
565
  {
566
  "epoch": 2.96,
567
- "grad_norm": 0.058837890625,
568
- "learning_rate": 3.3333333333333333e-06,
569
- "loss": 0.4578,
570
  "step": 504
571
  },
572
  {
573
  "epoch": 3.0,
574
- "grad_norm": 0.0546875,
575
  "learning_rate": 0.0,
576
- "loss": 0.4283,
577
  "step": 512
578
  },
579
  {
580
  "epoch": 3.0,
581
- "eval_loss": 0.40400779247283936,
582
- "eval_runtime": 2.2267,
583
- "eval_samples_per_second": 21.557,
584
- "eval_steps_per_second": 2.695,
585
  "step": 512
586
  },
587
  {
588
  "epoch": 3.0,
589
  "step": 512,
590
- "total_flos": 1.043777451546624e+17,
591
- "train_loss": 0.5280804093927145,
592
- "train_runtime": 1170.0816,
593
- "train_samples_per_second": 7.001,
594
- "train_steps_per_second": 0.438
595
  }
596
  ],
597
  "logging_steps": 8,
@@ -599,7 +599,7 @@
599
  "num_input_tokens_seen": 0,
600
  "num_train_epochs": 4,
601
  "save_steps": 32,
602
- "total_flos": 1.043777451546624e+17,
603
  "train_batch_size": 4,
604
  "trial_name": null,
605
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.383393794298172,
3
  "best_model_checkpoint": "outputs/checkpoint-512",
4
  "epoch": 3.002932551319648,
5
  "eval_steps": 32,
 
10
  "log_history": [
11
  {
12
  "epoch": 0.05,
13
+ "grad_norm": 0.125,
14
+ "learning_rate": 0.000125,
15
+ "loss": 1.2564,
16
  "step": 8
17
  },
18
  {
19
  "epoch": 0.09,
20
+ "grad_norm": 0.1337890625,
21
+ "learning_rate": 0.00025,
22
+ "loss": 1.1071,
23
  "step": 16
24
  },
25
  {
26
  "epoch": 0.14,
27
+ "grad_norm": 0.1181640625,
28
+ "learning_rate": 0.000375,
29
+ "loss": 0.8351,
30
  "step": 24
31
  },
32
  {
33
  "epoch": 0.19,
34
+ "grad_norm": 0.11181640625,
35
+ "learning_rate": 0.0005,
36
+ "loss": 0.709,
37
  "step": 32
38
  },
39
  {
40
  "epoch": 0.19,
41
+ "eval_loss": 0.5833926796913147,
42
+ "eval_runtime": 2.7901,
43
+ "eval_samples_per_second": 17.203,
44
+ "eval_steps_per_second": 2.15,
45
  "step": 32
46
  },
47
  {
48
  "epoch": 0.23,
49
+ "grad_norm": 0.1064453125,
50
+ "learning_rate": 0.0004916666666666666,
51
+ "loss": 0.6104,
52
  "step": 40
53
  },
54
  {
55
  "epoch": 0.28,
56
+ "grad_norm": 0.10693359375,
57
+ "learning_rate": 0.00048333333333333334,
58
+ "loss": 0.5962,
59
  "step": 48
60
  },
61
  {
62
  "epoch": 0.33,
63
+ "grad_norm": 0.099609375,
64
+ "learning_rate": 0.000475,
65
+ "loss": 0.5696,
66
  "step": 56
67
  },
68
  {
69
  "epoch": 0.38,
70
+ "grad_norm": 0.13671875,
71
+ "learning_rate": 0.00046666666666666666,
72
+ "loss": 0.5678,
73
  "step": 64
74
  },
75
  {
76
  "epoch": 0.38,
77
+ "eval_loss": 0.47890207171440125,
78
+ "eval_runtime": 2.176,
79
+ "eval_samples_per_second": 22.059,
80
+ "eval_steps_per_second": 2.757,
81
  "step": 64
82
  },
83
  {
84
  "epoch": 0.42,
85
+ "grad_norm": 0.0849609375,
86
+ "learning_rate": 0.0004583333333333333,
87
+ "loss": 0.5528,
88
  "step": 72
89
  },
90
  {
91
  "epoch": 0.47,
92
+ "grad_norm": 0.0810546875,
93
+ "learning_rate": 0.00045000000000000004,
94
+ "loss": 0.535,
95
  "step": 80
96
  },
97
  {
98
  "epoch": 0.52,
99
+ "grad_norm": 0.0771484375,
100
+ "learning_rate": 0.00044166666666666665,
101
+ "loss": 0.5049,
102
  "step": 88
103
  },
104
  {
105
  "epoch": 0.56,
106
+ "grad_norm": 0.07275390625,
107
+ "learning_rate": 0.00043333333333333337,
108
+ "loss": 0.5165,
109
  "step": 96
110
  },
111
  {
112
  "epoch": 0.56,
113
+ "eval_loss": 0.44684532284736633,
114
+ "eval_runtime": 2.1779,
115
+ "eval_samples_per_second": 22.04,
116
+ "eval_steps_per_second": 2.755,
117
  "step": 96
118
  },
119
  {
120
  "epoch": 0.61,
121
+ "grad_norm": 0.068359375,
122
+ "learning_rate": 0.000425,
123
+ "loss": 0.5133,
124
  "step": 104
125
  },
126
  {
127
  "epoch": 0.66,
128
+ "grad_norm": 0.076171875,
129
+ "learning_rate": 0.0004166666666666667,
130
+ "loss": 0.4931,
131
  "step": 112
132
  },
133
  {
134
  "epoch": 0.7,
135
+ "grad_norm": 0.07373046875,
136
+ "learning_rate": 0.00040833333333333336,
137
+ "loss": 0.5168,
138
  "step": 120
139
  },
140
  {
141
  "epoch": 0.75,
142
+ "grad_norm": 0.06787109375,
143
+ "learning_rate": 0.0004,
144
+ "loss": 0.4926,
145
  "step": 128
146
  },
147
  {
148
  "epoch": 0.75,
149
+ "eval_loss": 0.42885932326316833,
150
+ "eval_runtime": 2.1761,
151
+ "eval_samples_per_second": 22.058,
152
+ "eval_steps_per_second": 2.757,
153
  "step": 128
154
  },
155
  {
156
  "epoch": 0.8,
157
+ "grad_norm": 0.07080078125,
158
+ "learning_rate": 0.0003916666666666667,
159
+ "loss": 0.4843,
160
  "step": 136
161
  },
162
  {
163
  "epoch": 0.84,
164
+ "grad_norm": 0.0712890625,
165
+ "learning_rate": 0.00038333333333333334,
166
+ "loss": 0.4697,
167
  "step": 144
168
  },
169
  {
170
  "epoch": 0.89,
171
+ "grad_norm": 0.08056640625,
172
+ "learning_rate": 0.000375,
173
+ "loss": 0.4681,
174
  "step": 152
175
  },
176
  {
177
  "epoch": 0.94,
178
+ "grad_norm": 0.0732421875,
179
+ "learning_rate": 0.00036666666666666667,
180
+ "loss": 0.4667,
181
  "step": 160
182
  },
183
  {
184
  "epoch": 0.94,
185
+ "eval_loss": 0.41727420687675476,
186
+ "eval_runtime": 2.1762,
187
+ "eval_samples_per_second": 22.057,
188
+ "eval_steps_per_second": 2.757,
189
  "step": 160
190
  },
191
  {
192
  "epoch": 0.99,
193
+ "grad_norm": 0.07177734375,
194
+ "learning_rate": 0.00035833333333333333,
195
+ "loss": 0.4721,
196
  "step": 168
197
  },
198
  {
199
  "epoch": 1.03,
200
+ "grad_norm": 0.08349609375,
201
+ "learning_rate": 0.00035,
202
+ "loss": 0.471,
203
  "step": 176
204
  },
205
  {
206
  "epoch": 1.08,
207
+ "grad_norm": 0.07421875,
208
+ "learning_rate": 0.00034166666666666666,
209
+ "loss": 0.4544,
210
  "step": 184
211
  },
212
  {
213
  "epoch": 1.13,
214
+ "grad_norm": 0.076171875,
215
+ "learning_rate": 0.0003333333333333333,
216
+ "loss": 0.443,
217
  "step": 192
218
  },
219
  {
220
  "epoch": 1.13,
221
+ "eval_loss": 0.4128858149051666,
222
+ "eval_runtime": 2.1785,
223
+ "eval_samples_per_second": 22.033,
224
+ "eval_steps_per_second": 2.754,
225
  "step": 192
226
  },
227
  {
228
  "epoch": 1.17,
229
+ "grad_norm": 0.08251953125,
230
+ "learning_rate": 0.00032500000000000004,
231
+ "loss": 0.4423,
232
  "step": 200
233
  },
234
  {
235
  "epoch": 1.22,
236
+ "grad_norm": 0.0869140625,
237
+ "learning_rate": 0.00031666666666666665,
238
+ "loss": 0.4704,
239
  "step": 208
240
  },
241
  {
242
  "epoch": 1.27,
243
+ "grad_norm": 0.07763671875,
244
+ "learning_rate": 0.00030833333333333337,
245
+ "loss": 0.4449,
246
  "step": 216
247
  },
248
  {
249
  "epoch": 1.31,
250
+ "grad_norm": 0.08349609375,
251
+ "learning_rate": 0.0003,
252
+ "loss": 0.4313,
253
  "step": 224
254
  },
255
  {
256
  "epoch": 1.31,
257
+ "eval_loss": 0.4045116901397705,
258
+ "eval_runtime": 2.1781,
259
+ "eval_samples_per_second": 22.038,
260
+ "eval_steps_per_second": 2.755,
261
  "step": 224
262
  },
263
  {
264
  "epoch": 1.36,
265
+ "grad_norm": 0.07666015625,
266
+ "learning_rate": 0.0002916666666666667,
267
+ "loss": 0.4619,
268
  "step": 232
269
  },
270
  {
271
  "epoch": 1.41,
272
+ "grad_norm": 0.08154296875,
273
+ "learning_rate": 0.00028333333333333335,
274
+ "loss": 0.4435,
275
  "step": 240
276
  },
277
  {
278
  "epoch": 1.45,
279
+ "grad_norm": 0.07763671875,
280
+ "learning_rate": 0.000275,
281
+ "loss": 0.4272,
282
  "step": 248
283
  },
284
  {
285
  "epoch": 1.5,
286
+ "grad_norm": 0.083984375,
287
+ "learning_rate": 0.0002666666666666667,
288
+ "loss": 0.4554,
289
  "step": 256
290
  },
291
  {
292
  "epoch": 1.5,
293
+ "eval_loss": 0.39897629618644714,
294
+ "eval_runtime": 2.177,
295
+ "eval_samples_per_second": 22.049,
296
+ "eval_steps_per_second": 2.756,
297
  "step": 256
298
  },
299
  {
300
  "epoch": 1.55,
301
+ "grad_norm": 0.07373046875,
302
+ "learning_rate": 0.00025833333333333334,
303
+ "loss": 0.438,
304
  "step": 264
305
  },
306
  {
307
  "epoch": 1.6,
308
+ "grad_norm": 0.08544921875,
309
+ "learning_rate": 0.00025,
310
+ "loss": 0.438,
311
  "step": 272
312
  },
313
  {
314
  "epoch": 1.64,
315
+ "grad_norm": 0.0810546875,
316
+ "learning_rate": 0.00024166666666666667,
317
+ "loss": 0.4332,
318
  "step": 280
319
  },
320
  {
321
  "epoch": 1.69,
322
+ "grad_norm": 0.0810546875,
323
+ "learning_rate": 0.00023333333333333333,
324
+ "loss": 0.4453,
325
  "step": 288
326
  },
327
  {
328
  "epoch": 1.69,
329
+ "eval_loss": 0.39246222376823425,
330
+ "eval_runtime": 2.1791,
331
+ "eval_samples_per_second": 22.027,
332
+ "eval_steps_per_second": 2.753,
333
  "step": 288
334
  },
335
  {
336
  "epoch": 1.74,
337
+ "grad_norm": 0.07080078125,
338
+ "learning_rate": 0.00022500000000000002,
339
+ "loss": 0.468,
340
  "step": 296
341
  },
342
  {
343
  "epoch": 1.78,
344
+ "grad_norm": 0.09423828125,
345
+ "learning_rate": 0.00021666666666666668,
346
+ "loss": 0.4311,
347
  "step": 304
348
  },
349
  {
350
  "epoch": 1.83,
351
+ "grad_norm": 0.07373046875,
352
+ "learning_rate": 0.00020833333333333335,
353
+ "loss": 0.4537,
354
  "step": 312
355
  },
356
  {
357
  "epoch": 1.88,
358
+ "grad_norm": 0.08984375,
359
+ "learning_rate": 0.0002,
360
+ "loss": 0.4369,
361
  "step": 320
362
  },
363
  {
364
  "epoch": 1.88,
365
+ "eval_loss": 0.3888448178768158,
366
+ "eval_runtime": 2.1807,
367
+ "eval_samples_per_second": 22.011,
368
+ "eval_steps_per_second": 2.751,
369
  "step": 320
370
  },
371
  {
372
  "epoch": 1.92,
373
+ "grad_norm": 0.0693359375,
374
+ "learning_rate": 0.00019166666666666667,
375
+ "loss": 0.443,
376
  "step": 328
377
  },
378
  {
379
  "epoch": 1.97,
380
+ "grad_norm": 0.08837890625,
381
+ "learning_rate": 0.00018333333333333334,
382
+ "loss": 0.4328,
383
  "step": 336
384
  },
385
  {
386
  "epoch": 2.02,
387
+ "grad_norm": 0.0751953125,
388
+ "learning_rate": 0.000175,
389
+ "loss": 0.43,
390
  "step": 344
391
  },
392
  {
393
  "epoch": 2.06,
394
+ "grad_norm": 0.087890625,
395
+ "learning_rate": 0.00016666666666666666,
396
+ "loss": 0.4169,
397
  "step": 352
398
  },
399
  {
400
  "epoch": 2.06,
401
+ "eval_loss": 0.3901583254337311,
402
+ "eval_runtime": 2.1777,
403
+ "eval_samples_per_second": 22.042,
404
+ "eval_steps_per_second": 2.755,
405
  "step": 352
406
  },
407
  {
408
  "epoch": 2.11,
409
+ "grad_norm": 0.0810546875,
410
+ "learning_rate": 0.00015833333333333332,
411
+ "loss": 0.3996,
412
  "step": 360
413
  },
414
  {
415
  "epoch": 2.16,
416
+ "grad_norm": 0.08154296875,
417
+ "learning_rate": 0.00015,
418
+ "loss": 0.4025,
419
  "step": 368
420
  },
421
  {
422
  "epoch": 2.21,
423
+ "grad_norm": 0.0791015625,
424
+ "learning_rate": 0.00014166666666666668,
425
+ "loss": 0.4098,
426
  "step": 376
427
  },
428
  {
429
  "epoch": 2.25,
430
+ "grad_norm": 0.0947265625,
431
+ "learning_rate": 0.00013333333333333334,
432
+ "loss": 0.4347,
433
  "step": 384
434
  },
435
  {
436
  "epoch": 2.25,
437
+ "eval_loss": 0.38746240735054016,
438
+ "eval_runtime": 2.1784,
439
+ "eval_samples_per_second": 22.035,
440
+ "eval_steps_per_second": 2.754,
441
  "step": 384
442
  },
443
  {
444
  "epoch": 2.3,
445
+ "grad_norm": 0.0859375,
446
+ "learning_rate": 0.000125,
447
+ "loss": 0.4234,
448
  "step": 392
449
  },
450
  {
451
  "epoch": 2.35,
452
+ "grad_norm": 0.08740234375,
453
+ "learning_rate": 0.00011666666666666667,
454
+ "loss": 0.4054,
455
  "step": 400
456
  },
457
  {
458
  "epoch": 2.39,
459
+ "grad_norm": 0.08984375,
460
+ "learning_rate": 0.00010833333333333334,
461
+ "loss": 0.4117,
462
  "step": 408
463
  },
464
  {
465
  "epoch": 2.44,
466
+ "grad_norm": 0.08935546875,
467
+ "learning_rate": 0.0001,
468
+ "loss": 0.4163,
469
  "step": 416
470
  },
471
  {
472
  "epoch": 2.44,
473
+ "eval_loss": 0.38652801513671875,
474
+ "eval_runtime": 2.1766,
475
+ "eval_samples_per_second": 22.053,
476
+ "eval_steps_per_second": 2.757,
477
  "step": 416
478
  },
479
  {
480
  "epoch": 2.49,
481
+ "grad_norm": 0.09619140625,
482
+ "learning_rate": 9.166666666666667e-05,
483
+ "loss": 0.4216,
484
  "step": 424
485
  },
486
  {
487
  "epoch": 2.53,
488
+ "grad_norm": 0.08544921875,
489
+ "learning_rate": 8.333333333333333e-05,
490
+ "loss": 0.3861,
491
  "step": 432
492
  },
493
  {
494
  "epoch": 2.58,
495
+ "grad_norm": 0.087890625,
496
+ "learning_rate": 7.5e-05,
497
+ "loss": 0.3994,
498
  "step": 440
499
  },
500
  {
501
  "epoch": 2.63,
502
+ "grad_norm": 0.08642578125,
503
+ "learning_rate": 6.666666666666667e-05,
504
+ "loss": 0.4171,
505
  "step": 448
506
  },
507
  {
508
  "epoch": 2.63,
509
+ "eval_loss": 0.38501664996147156,
510
+ "eval_runtime": 2.1793,
511
+ "eval_samples_per_second": 22.025,
512
+ "eval_steps_per_second": 2.753,
513
  "step": 448
514
  },
515
  {
516
  "epoch": 2.67,
517
+ "grad_norm": 0.0908203125,
518
+ "learning_rate": 5.833333333333333e-05,
519
+ "loss": 0.3924,
520
  "step": 456
521
  },
522
  {
523
  "epoch": 2.72,
524
+ "grad_norm": 0.09228515625,
525
+ "learning_rate": 5e-05,
526
+ "loss": 0.4003,
527
  "step": 464
528
  },
529
  {
530
  "epoch": 2.77,
531
+ "grad_norm": 0.08740234375,
532
+ "learning_rate": 4.1666666666666665e-05,
533
+ "loss": 0.4366,
534
  "step": 472
535
  },
536
  {
537
  "epoch": 2.82,
538
+ "grad_norm": 0.08544921875,
539
+ "learning_rate": 3.3333333333333335e-05,
540
+ "loss": 0.3856,
541
  "step": 480
542
  },
543
  {
544
  "epoch": 2.82,
545
+ "eval_loss": 0.3836025893688202,
546
+ "eval_runtime": 2.1811,
547
+ "eval_samples_per_second": 22.008,
548
+ "eval_steps_per_second": 2.751,
549
  "step": 480
550
  },
551
  {
552
  "epoch": 2.86,
553
+ "grad_norm": 0.0869140625,
554
+ "learning_rate": 2.5e-05,
555
+ "loss": 0.3991,
556
  "step": 488
557
  },
558
  {
559
  "epoch": 2.91,
560
+ "grad_norm": 0.09033203125,
561
+ "learning_rate": 1.6666666666666667e-05,
562
+ "loss": 0.402,
563
  "step": 496
564
  },
565
  {
566
  "epoch": 2.96,
567
+ "grad_norm": 0.08935546875,
568
+ "learning_rate": 8.333333333333334e-06,
569
+ "loss": 0.4184,
570
  "step": 504
571
  },
572
  {
573
  "epoch": 3.0,
574
+ "grad_norm": 0.0830078125,
575
  "learning_rate": 0.0,
576
+ "loss": 0.3914,
577
  "step": 512
578
  },
579
  {
580
  "epoch": 3.0,
581
+ "eval_loss": 0.383393794298172,
582
+ "eval_runtime": 2.1833,
583
+ "eval_samples_per_second": 21.985,
584
+ "eval_steps_per_second": 2.748,
585
  "step": 512
586
  },
587
  {
588
  "epoch": 3.0,
589
  "step": 512,
590
+ "total_flos": 9.863515762146509e+16,
591
+ "train_loss": 0.48598923115059733,
592
+ "train_runtime": 1129.8879,
593
+ "train_samples_per_second": 7.25,
594
+ "train_steps_per_second": 0.453
595
  }
596
  ],
597
  "logging_steps": 8,
 
599
  "num_input_tokens_seen": 0,
600
  "num_train_epochs": 4,
601
  "save_steps": 32,
602
+ "total_flos": 9.863515762146509e+16,
603
  "train_batch_size": 4,
604
  "trial_name": null,
605
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0299eef0636c237944e82b27fc5f997495b228ce538683377746071e82794119
3
  size 4920
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8c822435a140bbc9ba485bc690b26c593635fea3e2667caf12b34f417b55a6ad
3
  size 4920