Samsoup commited on
Commit
6697fff
·
verified ·
1 Parent(s): 9ea81bb

End of training

Browse files
Files changed (6) hide show
  1. README.md +2 -2
  2. all_results.json +11 -11
  3. eval_results.json +6 -6
  4. predict_results.txt +193 -193
  5. train_results.json +6 -6
  6. trainer_state.json +776 -244
README.md CHANGED
@@ -18,8 +18,8 @@ should probably proofread and complete it, then remove this comment. -->
18
 
19
  This model is a fine-tuned version of [microsoft/deberta-v3-base](https://huggingface.co/microsoft/deberta-v3-base) on an unknown dataset.
20
  It achieves the following results on the evaluation set:
21
- - Loss: 1.2219
22
- - F1: 0.5208
23
 
24
  ## Model description
25
 
 
18
 
19
  This model is a fine-tuned version of [microsoft/deberta-v3-base](https://huggingface.co/microsoft/deberta-v3-base) on an unknown dataset.
20
  It achieves the following results on the evaluation set:
21
+ - Loss: 1.0544
22
+ - F1: 0.5493
23
 
24
  ## Model description
25
 
all_results.json CHANGED
@@ -1,15 +1,15 @@
1
  {
2
- "epoch": 5.0,
3
- "eval_f1": 0.531250378962142,
4
- "eval_loss": 1.0681172609329224,
5
- "eval_runtime": 2.6267,
6
  "eval_samples": 1101,
7
- "eval_samples_per_second": 419.155,
8
- "eval_steps_per_second": 6.853,
9
- "total_flos": 6586294115808000.0,
10
- "train_loss": 0.9968819860202163,
11
- "train_runtime": 296.7277,
12
  "train_samples": 8544,
13
- "train_samples_per_second": 143.97,
14
- "train_steps_per_second": 2.258
15
  }
 
1
  {
2
+ "epoch": 10.0,
3
+ "eval_f1": 0.5492932407699946,
4
+ "eval_loss": 1.054356575012207,
5
+ "eval_runtime": 2.6206,
6
  "eval_samples": 1101,
7
+ "eval_samples_per_second": 420.131,
8
+ "eval_steps_per_second": 6.869,
9
+ "total_flos": 1.3172588231616e+16,
10
+ "train_loss": 0.8062449658094947,
11
+ "train_runtime": 588.6173,
12
  "train_samples": 8544,
13
+ "train_samples_per_second": 145.154,
14
+ "train_steps_per_second": 2.277
15
  }
eval_results.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "epoch": 5.0,
3
- "eval_f1": 0.531250378962142,
4
- "eval_loss": 1.0681172609329224,
5
- "eval_runtime": 2.6267,
6
  "eval_samples": 1101,
7
- "eval_samples_per_second": 419.155,
8
- "eval_steps_per_second": 6.853
9
  }
 
1
  {
2
+ "epoch": 10.0,
3
+ "eval_f1": 0.5492932407699946,
4
+ "eval_loss": 1.054356575012207,
5
+ "eval_runtime": 2.6206,
6
  "eval_samples": 1101,
7
+ "eval_samples_per_second": 420.131,
8
+ "eval_steps_per_second": 6.869
9
  }
predict_results.txt CHANGED
@@ -10,13 +10,13 @@ index prediction
10
  8 2
11
  9 3
12
  10 2
13
- 11 1
14
  12 0
15
  13 3
16
  14 0
17
  15 2
18
  16 3
19
- 17 1
20
  18 2
21
  19 4
22
  20 3
@@ -25,15 +25,15 @@ index prediction
25
  23 3
26
  24 2
27
  25 1
28
- 26 2
29
  27 2
30
  28 3
31
  29 3
32
- 30 1
33
  31 1
34
  32 2
35
  33 1
36
- 34 4
37
  35 1
38
  36 3
39
  37 3
@@ -49,7 +49,7 @@ index prediction
49
  47 1
50
  48 3
51
  49 3
52
- 50 3
53
  51 1
54
  52 3
55
  53 0
@@ -59,7 +59,7 @@ index prediction
59
  57 3
60
  58 1
61
  59 3
62
- 60 1
63
  61 4
64
  62 3
65
  63 0
@@ -75,14 +75,14 @@ index prediction
75
  73 0
76
  74 3
77
  75 3
78
- 76 4
79
  77 2
80
  78 4
81
  79 0
82
  80 0
83
  81 2
84
  82 2
85
- 83 0
86
  84 3
87
  85 0
88
  86 1
@@ -101,7 +101,7 @@ index prediction
101
  99 3
102
  100 3
103
  101 2
104
- 102 2
105
  103 3
106
  104 1
107
  105 0
@@ -134,7 +134,7 @@ index prediction
134
  132 4
135
  133 0
136
  134 0
137
- 135 2
138
  136 3
139
  137 2
140
  138 3
@@ -155,8 +155,8 @@ index prediction
155
  153 0
156
  154 3
157
  155 0
158
- 156 1
159
- 157 0
160
  158 1
161
  159 3
162
  160 1
@@ -164,7 +164,7 @@ index prediction
164
  162 3
165
  163 1
166
  164 3
167
- 165 1
168
  166 1
169
  167 3
170
  168 4
@@ -175,22 +175,22 @@ index prediction
175
  173 0
176
  174 3
177
  175 0
178
- 176 4
179
  177 1
180
  178 1
181
  179 0
182
  180 1
183
- 181 4
184
  182 1
185
  183 1
186
  184 0
187
- 185 4
188
- 186 4
189
  187 2
190
  188 3
191
  189 4
192
  190 0
193
- 191 4
194
  192 4
195
  193 4
196
  194 4
@@ -215,10 +215,10 @@ index prediction
215
  213 4
216
  214 0
217
  215 2
218
- 216 4
219
- 217 0
220
  218 4
221
- 219 2
222
  220 2
223
  221 3
224
  222 0
@@ -227,7 +227,7 @@ index prediction
227
  225 2
228
  226 4
229
  227 0
230
- 228 4
231
  229 3
232
  230 4
233
  231 0
@@ -258,10 +258,10 @@ index prediction
258
  256 1
259
  257 0
260
  258 4
261
- 259 1
262
  260 1
263
  261 4
264
- 262 4
265
  263 2
266
  264 4
267
  265 3
@@ -278,12 +278,12 @@ index prediction
278
  276 3
279
  277 3
280
  278 4
281
- 279 1
282
  280 4
283
- 281 1
284
  282 4
285
  283 2
286
- 284 4
287
  285 3
288
  286 4
289
  287 0
@@ -307,7 +307,7 @@ index prediction
307
  305 0
308
  306 2
309
  307 4
310
- 308 4
311
  309 0
312
  310 4
313
  311 3
@@ -322,11 +322,11 @@ index prediction
322
  320 4
323
  321 3
324
  322 2
325
- 323 3
326
  324 1
327
  325 0
328
  326 4
329
- 327 4
330
  328 3
331
  329 4
332
  330 3
@@ -375,16 +375,16 @@ index prediction
375
  373 3
376
  374 1
377
  375 3
378
- 376 2
379
- 377 1
380
  378 2
381
  379 2
382
  380 4
383
  381 4
384
  382 3
385
- 383 4
386
  384 3
387
- 385 1
388
  386 2
389
  387 0
390
  388 1
@@ -397,7 +397,7 @@ index prediction
397
  395 2
398
  396 4
399
  397 4
400
- 398 4
401
  399 1
402
  400 4
403
  401 1
@@ -409,7 +409,7 @@ index prediction
409
  407 2
410
  408 1
411
  409 4
412
- 410 1
413
  411 4
414
  412 1
415
  413 4
@@ -430,11 +430,11 @@ index prediction
430
  428 4
431
  429 4
432
  430 2
433
- 431 4
434
  432 0
435
  433 3
436
  434 1
437
- 435 0
438
  436 1
439
  437 1
440
  438 0
@@ -450,17 +450,17 @@ index prediction
450
  448 4
451
  449 1
452
  450 2
453
- 451 1
454
- 452 4
455
  453 3
456
  454 4
457
  455 1
458
  456 4
459
  457 0
460
- 458 4
461
  459 2
462
- 460 1
463
- 461 4
464
  462 3
465
  463 0
466
  464 2
@@ -468,7 +468,7 @@ index prediction
468
  466 1
469
  467 0
470
  468 1
471
- 469 1
472
  470 3
473
  471 1
474
  472 3
@@ -480,7 +480,7 @@ index prediction
480
  478 1
481
  479 1
482
  480 3
483
- 481 4
484
  482 2
485
  483 0
486
  484 0
@@ -502,7 +502,7 @@ index prediction
502
  500 1
503
  501 1
504
  502 3
505
- 503 1
506
  504 1
507
  505 0
508
  506 4
@@ -527,9 +527,9 @@ index prediction
527
  525 0
528
  526 4
529
  527 3
530
- 528 2
531
  529 3
532
- 530 3
533
  531 1
534
  532 1
535
  533 1
@@ -542,20 +542,20 @@ index prediction
542
  540 3
543
  541 4
544
  542 2
545
- 543 4
546
  544 2
547
  545 3
548
  546 1
549
  547 3
550
  548 3
551
  549 0
552
- 550 1
553
  551 1
554
  552 0
555
  553 3
556
- 554 1
557
  555 3
558
- 556 4
559
  557 1
560
  558 2
561
  559 0
@@ -566,7 +566,7 @@ index prediction
566
  564 1
567
  565 0
568
  566 3
569
- 567 4
570
  568 2
571
  569 4
572
  570 3
@@ -580,7 +580,7 @@ index prediction
580
  578 4
581
  579 1
582
  580 3
583
- 581 0
584
  582 4
585
  583 3
586
  584 0
@@ -594,7 +594,7 @@ index prediction
594
  592 2
595
  593 2
596
  594 4
597
- 595 1
598
  596 4
599
  597 3
600
  598 4
@@ -608,13 +608,13 @@ index prediction
608
  606 3
609
  607 1
610
  608 4
611
- 609 0
612
  610 1
613
  611 1
614
  612 1
615
  613 3
616
  614 4
617
- 615 0
618
  616 1
619
  617 1
620
  618 1
@@ -623,9 +623,9 @@ index prediction
623
  621 3
624
  622 2
625
  623 1
626
- 624 2
627
  625 1
628
- 626 1
629
  627 1
630
  628 0
631
  629 4
@@ -642,7 +642,7 @@ index prediction
642
  640 1
643
  641 3
644
  642 4
645
- 643 1
646
  644 1
647
  645 2
648
  646 3
@@ -661,7 +661,7 @@ index prediction
661
  659 1
662
  660 3
663
  661 4
664
- 662 1
665
  663 1
666
  664 3
667
  665 1
@@ -669,12 +669,12 @@ index prediction
669
  667 3
670
  668 4
671
  669 1
672
- 670 4
673
  671 3
674
  672 1
675
- 673 2
676
  674 3
677
- 675 1
678
  676 4
679
  677 3
680
  678 4
@@ -686,7 +686,7 @@ index prediction
686
  684 3
687
  685 2
688
  686 3
689
- 687 2
690
  688 3
691
  689 4
692
  690 4
@@ -699,11 +699,11 @@ index prediction
699
  697 4
700
  698 1
701
  699 3
702
- 700 3
703
  701 1
704
  702 1
705
  703 4
706
- 704 1
707
  705 2
708
  706 3
709
  707 0
@@ -714,7 +714,7 @@ index prediction
714
  712 1
715
  713 3
716
  714 3
717
- 715 1
718
  716 2
719
  717 1
720
  718 0
@@ -727,11 +727,11 @@ index prediction
727
  725 1
728
  726 3
729
  727 0
730
- 728 4
731
  729 0
732
  730 1
733
  731 4
734
- 732 2
735
  733 2
736
  734 4
737
  735 0
@@ -740,13 +740,13 @@ index prediction
740
  738 3
741
  739 0
742
  740 3
743
- 741 4
744
- 742 1
745
  743 1
746
  744 4
747
  745 4
748
  746 3
749
- 747 1
750
  748 4
751
  749 3
752
  750 4
@@ -759,7 +759,7 @@ index prediction
759
  757 3
760
  758 2
761
  759 1
762
- 760 1
763
  761 2
764
  762 4
765
  763 4
@@ -770,8 +770,8 @@ index prediction
770
  768 0
771
  769 0
772
  770 3
773
- 771 1
774
- 772 1
775
  773 1
776
  774 4
777
  775 2
@@ -781,7 +781,7 @@ index prediction
781
  779 2
782
  780 0
783
  781 3
784
- 782 3
785
  783 4
786
  784 1
787
  785 3
@@ -795,7 +795,7 @@ index prediction
795
  793 4
796
  794 4
797
  795 3
798
- 796 4
799
  797 0
800
  798 1
801
  799 2
@@ -814,7 +814,7 @@ index prediction
814
  812 4
815
  813 0
816
  814 1
817
- 815 0
818
  816 2
819
  817 0
820
  818 1
@@ -832,13 +832,13 @@ index prediction
832
  830 3
833
  831 4
834
  832 4
835
- 833 0
836
  834 4
837
  835 3
838
  836 4
839
  837 1
840
  838 3
841
- 839 4
842
  840 3
843
  841 3
844
  842 3
@@ -848,7 +848,7 @@ index prediction
848
  846 3
849
  847 4
850
  848 0
851
- 849 0
852
  850 4
853
  851 3
854
  852 4
@@ -858,7 +858,7 @@ index prediction
858
  856 4
859
  857 2
860
  858 1
861
- 859 0
862
  860 1
863
  861 2
864
  862 1
@@ -868,7 +868,7 @@ index prediction
868
  866 4
869
  867 2
870
  868 3
871
- 869 1
872
  870 3
873
  871 2
874
  872 1
@@ -879,13 +879,13 @@ index prediction
879
  877 4
880
  878 3
881
  879 3
882
- 880 4
883
  881 3
884
  882 4
885
  883 1
886
  884 3
887
  885 4
888
- 886 4
889
  887 3
890
  888 4
891
  889 2
@@ -905,16 +905,16 @@ index prediction
905
  903 3
906
  904 3
907
  905 4
908
- 906 1
909
  907 0
910
  908 4
911
  909 2
912
  910 4
913
  911 2
914
- 912 0
915
  913 1
916
- 914 4
917
- 915 2
918
  916 3
919
  917 3
920
  918 3
@@ -964,7 +964,7 @@ index prediction
964
  962 0
965
  963 4
966
  964 1
967
- 965 2
968
  966 1
969
  967 3
970
  968 1
@@ -977,7 +977,7 @@ index prediction
977
  975 3
978
  976 1
979
  977 4
980
- 978 1
981
  979 0
982
  980 1
983
  981 1
@@ -988,7 +988,7 @@ index prediction
988
  986 0
989
  987 2
990
  988 1
991
- 989 2
992
  990 1
993
  991 0
994
  992 1
@@ -1013,7 +1013,7 @@ index prediction
1013
  1011 4
1014
  1012 3
1015
  1013 3
1016
- 1014 1
1017
  1015 2
1018
  1016 2
1019
  1017 3
@@ -1036,7 +1036,7 @@ index prediction
1036
  1034 1
1037
  1035 2
1038
  1036 4
1039
- 1037 4
1040
  1038 3
1041
  1039 1
1042
  1040 1
@@ -1046,7 +1046,7 @@ index prediction
1046
  1044 4
1047
  1045 4
1048
  1046 4
1049
- 1047 1
1050
  1048 1
1051
  1049 4
1052
  1050 4
@@ -1103,14 +1103,14 @@ index prediction
1103
  1101 4
1104
  1102 3
1105
  1103 4
1106
- 1104 1
1107
  1105 1
1108
  1106 3
1109
- 1107 0
1110
  1108 0
1111
  1109 1
1112
  1110 1
1113
- 1111 1
1114
  1112 3
1115
  1113 1
1116
  1114 3
@@ -1150,11 +1150,11 @@ index prediction
1150
  1148 4
1151
  1149 3
1152
  1150 1
1153
- 1151 1
1154
  1152 1
1155
  1153 2
1156
  1154 3
1157
- 1155 3
1158
  1156 1
1159
  1157 0
1160
  1158 1
@@ -1167,7 +1167,7 @@ index prediction
1167
  1165 4
1168
  1166 4
1169
  1167 4
1170
- 1168 1
1171
  1169 1
1172
  1170 1
1173
  1171 4
@@ -1190,14 +1190,14 @@ index prediction
1190
  1188 1
1191
  1189 3
1192
  1190 3
1193
- 1191 1
1194
- 1192 1
1195
  1193 1
1196
  1194 3
1197
  1195 0
1198
  1196 2
1199
- 1197 0
1200
- 1198 2
1201
  1199 2
1202
  1200 2
1203
  1201 3
@@ -1205,7 +1205,7 @@ index prediction
1205
  1203 2
1206
  1204 1
1207
  1205 3
1208
- 1206 3
1209
  1207 2
1210
  1208 3
1211
  1209 4
@@ -1215,7 +1215,7 @@ index prediction
1215
  1213 2
1216
  1214 1
1217
  1215 4
1218
- 1216 1
1219
  1217 0
1220
  1218 4
1221
  1219 0
@@ -1236,8 +1236,8 @@ index prediction
1236
  1234 3
1237
  1235 3
1238
  1236 3
1239
- 1237 0
1240
- 1238 4
1241
  1239 1
1242
  1240 3
1243
  1241 0
@@ -1264,12 +1264,12 @@ index prediction
1264
  1262 0
1265
  1263 3
1266
  1264 4
1267
- 1265 4
1268
  1266 2
1269
  1267 1
1270
  1268 3
1271
  1269 2
1272
- 1270 1
1273
  1271 1
1274
  1272 3
1275
  1273 1
@@ -1301,12 +1301,12 @@ index prediction
1301
  1299 0
1302
  1300 4
1303
  1301 3
1304
- 1302 1
1305
  1303 4
1306
  1304 0
1307
  1305 1
1308
  1306 1
1309
- 1307 1
1310
  1308 1
1311
  1309 3
1312
  1310 3
@@ -1318,7 +1318,7 @@ index prediction
1318
  1316 1
1319
  1317 2
1320
  1318 2
1321
- 1319 1
1322
  1320 4
1323
  1321 4
1324
  1322 2
@@ -1336,7 +1336,7 @@ index prediction
1336
  1334 3
1337
  1335 1
1338
  1336 1
1339
- 1337 1
1340
  1338 3
1341
  1339 1
1342
  1340 3
@@ -1347,8 +1347,8 @@ index prediction
1347
  1345 4
1348
  1346 0
1349
  1347 3
1350
- 1348 3
1351
- 1349 1
1352
  1350 3
1353
  1351 1
1354
  1352 4
@@ -1379,35 +1379,35 @@ index prediction
1379
  1377 1
1380
  1378 1
1381
  1379 1
1382
- 1380 0
1383
  1381 1
1384
  1382 1
1385
  1383 2
1386
  1384 3
1387
- 1385 0
1388
  1386 3
1389
  1387 4
1390
  1388 4
1391
  1389 1
1392
  1390 1
1393
- 1391 2
1394
  1392 2
1395
  1393 1
1396
- 1394 0
1397
  1395 3
1398
  1396 1
1399
  1397 1
1400
  1398 1
1401
  1399 3
1402
  1400 4
1403
- 1401 0
1404
  1402 0
1405
  1403 3
1406
- 1404 4
1407
  1405 3
1408
  1406 1
1409
  1407 2
1410
- 1408 3
1411
  1409 3
1412
  1410 2
1413
  1411 1
@@ -1440,7 +1440,7 @@ index prediction
1440
  1438 4
1441
  1439 4
1442
  1440 3
1443
- 1441 1
1444
  1442 1
1445
  1443 1
1446
  1444 0
@@ -1455,7 +1455,7 @@ index prediction
1455
  1453 1
1456
  1454 0
1457
  1455 3
1458
- 1456 1
1459
  1457 0
1460
  1458 0
1461
  1459 1
@@ -1499,9 +1499,9 @@ index prediction
1499
  1497 4
1500
  1498 4
1501
  1499 4
1502
- 1500 4
1503
  1501 3
1504
- 1502 2
1505
  1503 1
1506
  1504 1
1507
  1505 2
@@ -1518,7 +1518,7 @@ index prediction
1518
  1516 3
1519
  1517 1
1520
  1518 2
1521
- 1519 2
1522
  1520 0
1523
  1521 1
1524
  1522 2
@@ -1530,11 +1530,11 @@ index prediction
1530
  1528 4
1531
  1529 1
1532
  1530 1
1533
- 1531 1
1534
- 1532 4
1535
  1533 3
1536
- 1534 4
1537
- 1535 1
1538
  1536 2
1539
  1537 2
1540
  1538 4
@@ -1542,7 +1542,7 @@ index prediction
1542
  1540 3
1543
  1541 0
1544
  1542 3
1545
- 1543 1
1546
  1544 1
1547
  1545 2
1548
  1546 3
@@ -1558,7 +1558,7 @@ index prediction
1558
  1556 1
1559
  1557 3
1560
  1558 1
1561
- 1559 3
1562
  1560 0
1563
  1561 1
1564
  1562 1
@@ -1577,7 +1577,7 @@ index prediction
1577
  1575 2
1578
  1576 1
1579
  1577 2
1580
- 1578 1
1581
  1579 0
1582
  1580 1
1583
  1581 2
@@ -1589,14 +1589,14 @@ index prediction
1589
  1587 1
1590
  1588 4
1591
  1589 2
1592
- 1590 1
1593
- 1591 1
1594
  1592 4
1595
  1593 2
1596
  1594 1
1597
  1595 3
1598
  1596 4
1599
- 1597 2
1600
  1598 1
1601
  1599 3
1602
  1600 2
@@ -1606,19 +1606,19 @@ index prediction
1606
  1604 3
1607
  1605 1
1608
  1606 2
1609
- 1607 4
1610
  1608 2
1611
  1609 1
1612
  1610 1
1613
- 1611 1
1614
  1612 1
1615
  1613 0
1616
  1614 4
1617
  1615 3
1618
  1616 3
1619
- 1617 1
1620
  1618 2
1621
- 1619 4
1622
  1620 4
1623
  1621 1
1624
  1622 3
@@ -1633,7 +1633,7 @@ index prediction
1633
  1631 3
1634
  1632 4
1635
  1633 1
1636
- 1634 4
1637
  1635 4
1638
  1636 3
1639
  1637 0
@@ -1672,7 +1672,7 @@ index prediction
1672
  1670 3
1673
  1671 3
1674
  1672 1
1675
- 1673 4
1676
  1674 3
1677
  1675 3
1678
  1676 3
@@ -1688,17 +1688,17 @@ index prediction
1688
  1686 3
1689
  1687 1
1690
  1688 3
1691
- 1689 4
1692
  1690 0
1693
  1691 2
1694
  1692 2
1695
- 1693 1
1696
- 1694 4
1697
  1695 3
1698
  1696 1
1699
  1697 4
1700
  1698 1
1701
- 1699 1
1702
  1700 1
1703
  1701 2
1704
  1702 3
@@ -1715,7 +1715,7 @@ index prediction
1715
  1713 4
1716
  1714 0
1717
  1715 0
1718
- 1716 1
1719
  1717 4
1720
  1718 3
1721
  1719 1
@@ -1723,7 +1723,7 @@ index prediction
1723
  1721 1
1724
  1722 1
1725
  1723 2
1726
- 1724 1
1727
  1725 1
1728
  1726 4
1729
  1727 3
@@ -1740,7 +1740,7 @@ index prediction
1740
  1738 1
1741
  1739 3
1742
  1740 3
1743
- 1741 4
1744
  1742 4
1745
  1743 1
1746
  1744 4
@@ -1755,9 +1755,9 @@ index prediction
1755
  1753 1
1756
  1754 3
1757
  1755 3
1758
- 1756 4
1759
  1757 3
1760
- 1758 1
1761
  1759 4
1762
  1760 3
1763
  1761 3
@@ -1778,13 +1778,13 @@ index prediction
1778
  1776 2
1779
  1777 4
1780
  1778 0
1781
- 1779 4
1782
  1780 1
1783
  1781 1
1784
  1782 1
1785
  1783 3
1786
- 1784 4
1787
- 1785 0
1788
  1786 4
1789
  1787 3
1790
  1788 2
@@ -1793,27 +1793,27 @@ index prediction
1793
  1791 1
1794
  1792 1
1795
  1793 4
1796
- 1794 4
1797
  1795 1
1798
  1796 3
1799
  1797 2
1800
  1798 3
1801
  1799 3
1802
  1800 1
1803
- 1801 4
1804
- 1802 1
1805
  1803 3
1806
  1804 4
1807
  1805 3
1808
  1806 1
1809
  1807 1
1810
- 1808 1
1811
  1809 0
1812
  1810 1
1813
  1811 3
1814
  1812 2
1815
  1813 3
1816
- 1814 4
1817
  1815 3
1818
  1816 0
1819
  1817 1
@@ -1882,7 +1882,7 @@ index prediction
1882
  1880 0
1883
  1881 3
1884
  1882 3
1885
- 1883 2
1886
  1884 1
1887
  1885 0
1888
  1886 0
@@ -1899,7 +1899,7 @@ index prediction
1899
  1897 1
1900
  1898 4
1901
  1899 4
1902
- 1900 4
1903
  1901 3
1904
  1902 2
1905
  1903 4
@@ -1922,7 +1922,7 @@ index prediction
1922
  1920 3
1923
  1921 1
1924
  1922 0
1925
- 1923 1
1926
  1924 1
1927
  1925 3
1928
  1926 1
@@ -1939,7 +1939,7 @@ index prediction
1939
  1937 1
1940
  1938 4
1941
  1939 1
1942
- 1940 1
1943
  1941 3
1944
  1942 3
1945
  1943 4
@@ -1953,7 +1953,7 @@ index prediction
1953
  1951 3
1954
  1952 3
1955
  1953 3
1956
- 1954 0
1957
  1955 1
1958
  1956 2
1959
  1957 3
@@ -1967,7 +1967,7 @@ index prediction
1967
  1965 2
1968
  1966 0
1969
  1967 1
1970
- 1968 1
1971
  1969 2
1972
  1970 2
1973
  1971 0
@@ -1980,7 +1980,7 @@ index prediction
1980
  1978 4
1981
  1979 3
1982
  1980 4
1983
- 1981 1
1984
  1982 0
1985
  1983 1
1986
  1984 0
@@ -2028,7 +2028,7 @@ index prediction
2028
  2026 4
2029
  2027 3
2030
  2028 1
2031
- 2029 1
2032
  2030 3
2033
  2031 3
2034
  2032 1
@@ -2039,20 +2039,20 @@ index prediction
2039
  2037 2
2040
  2038 2
2041
  2039 3
2042
- 2040 4
2043
  2041 1
2044
  2042 0
2045
  2043 3
2046
  2044 1
2047
  2045 1
2048
- 2046 1
2049
  2047 3
2050
  2048 1
2051
- 2049 1
2052
  2050 3
2053
  2051 1
2054
  2052 1
2055
- 2053 0
2056
  2054 1
2057
  2055 2
2058
  2056 3
@@ -2065,12 +2065,12 @@ index prediction
2065
  2063 3
2066
  2064 1
2067
  2065 3
2068
- 2066 1
2069
  2067 0
2070
  2068 1
2071
  2069 2
2072
- 2070 4
2073
- 2071 1
2074
  2072 3
2075
  2073 3
2076
  2074 2
@@ -2079,7 +2079,7 @@ index prediction
2079
  2077 2
2080
  2078 4
2081
  2079 1
2082
- 2080 1
2083
  2081 2
2084
  2082 1
2085
  2083 1
@@ -2096,7 +2096,7 @@ index prediction
2096
  2094 4
2097
  2095 1
2098
  2096 2
2099
- 2097 4
2100
  2098 1
2101
  2099 1
2102
  2100 1
@@ -2139,7 +2139,7 @@ index prediction
2139
  2137 0
2140
  2138 0
2141
  2139 2
2142
- 2140 4
2143
  2141 2
2144
  2142 1
2145
  2143 2
@@ -2149,7 +2149,7 @@ index prediction
2149
  2147 1
2150
  2148 3
2151
  2149 4
2152
- 2150 4
2153
  2151 3
2154
  2152 4
2155
  2153 3
@@ -2158,13 +2158,13 @@ index prediction
2158
  2156 4
2159
  2157 3
2160
  2158 3
2161
- 2159 0
2162
  2160 4
2163
  2161 1
2164
- 2162 4
2165
  2163 4
2166
  2164 1
2167
- 2165 3
2168
  2166 1
2169
  2167 1
2170
  2168 3
@@ -2183,26 +2183,26 @@ index prediction
2183
  2181 4
2184
  2182 4
2185
  2183 3
2186
- 2184 4
2187
  2185 0
2188
- 2186 1
2189
  2187 1
2190
  2188 1
2191
  2189 3
2192
- 2190 1
2193
  2191 4
2194
- 2192 4
2195
  2193 3
2196
  2194 0
2197
- 2195 1
2198
  2196 1
2199
  2197 1
2200
  2198 4
2201
  2199 1
2202
  2200 1
2203
- 2201 1
2204
  2202 3
2205
- 2203 1
2206
  2204 1
2207
  2205 0
2208
  2206 1
 
10
  8 2
11
  9 3
12
  10 2
13
+ 11 2
14
  12 0
15
  13 3
16
  14 0
17
  15 2
18
  16 3
19
+ 17 2
20
  18 2
21
  19 4
22
  20 3
 
25
  23 3
26
  24 2
27
  25 1
28
+ 26 3
29
  27 2
30
  28 3
31
  29 3
32
+ 30 2
33
  31 1
34
  32 2
35
  33 1
36
+ 34 3
37
  35 1
38
  36 3
39
  37 3
 
49
  47 1
50
  48 3
51
  49 3
52
+ 50 2
53
  51 1
54
  52 3
55
  53 0
 
59
  57 3
60
  58 1
61
  59 3
62
+ 60 0
63
  61 4
64
  62 3
65
  63 0
 
75
  73 0
76
  74 3
77
  75 3
78
+ 76 3
79
  77 2
80
  78 4
81
  79 0
82
  80 0
83
  81 2
84
  82 2
85
+ 83 1
86
  84 3
87
  85 0
88
  86 1
 
101
  99 3
102
  100 3
103
  101 2
104
+ 102 3
105
  103 3
106
  104 1
107
  105 0
 
134
  132 4
135
  133 0
136
  134 0
137
+ 135 3
138
  136 3
139
  137 2
140
  138 3
 
155
  153 0
156
  154 3
157
  155 0
158
+ 156 2
159
+ 157 1
160
  158 1
161
  159 3
162
  160 1
 
164
  162 3
165
  163 1
166
  164 3
167
+ 165 2
168
  166 1
169
  167 3
170
  168 4
 
175
  173 0
176
  174 3
177
  175 0
178
+ 176 3
179
  177 1
180
  178 1
181
  179 0
182
  180 1
183
+ 181 3
184
  182 1
185
  183 1
186
  184 0
187
+ 185 3
188
+ 186 3
189
  187 2
190
  188 3
191
  189 4
192
  190 0
193
+ 191 3
194
  192 4
195
  193 4
196
  194 4
 
215
  213 4
216
  214 0
217
  215 2
218
+ 216 3
219
+ 217 1
220
  218 4
221
+ 219 3
222
  220 2
223
  221 3
224
  222 0
 
227
  225 2
228
  226 4
229
  227 0
230
+ 228 3
231
  229 3
232
  230 4
233
  231 0
 
258
  256 1
259
  257 0
260
  258 4
261
+ 259 2
262
  260 1
263
  261 4
264
+ 262 3
265
  263 2
266
  264 4
267
  265 3
 
278
  276 3
279
  277 3
280
  278 4
281
+ 279 2
282
  280 4
283
+ 281 2
284
  282 4
285
  283 2
286
+ 284 3
287
  285 3
288
  286 4
289
  287 0
 
307
  305 0
308
  306 2
309
  307 4
310
+ 308 3
311
  309 0
312
  310 4
313
  311 3
 
322
  320 4
323
  321 3
324
  322 2
325
+ 323 2
326
  324 1
327
  325 0
328
  326 4
329
+ 327 3
330
  328 3
331
  329 4
332
  330 3
 
375
  373 3
376
  374 1
377
  375 3
378
+ 376 3
379
+ 377 2
380
  378 2
381
  379 2
382
  380 4
383
  381 4
384
  382 3
385
+ 383 3
386
  384 3
387
+ 385 0
388
  386 2
389
  387 0
390
  388 1
 
397
  395 2
398
  396 4
399
  397 4
400
+ 398 3
401
  399 1
402
  400 4
403
  401 1
 
409
  407 2
410
  408 1
411
  409 4
412
+ 410 2
413
  411 4
414
  412 1
415
  413 4
 
430
  428 4
431
  429 4
432
  430 2
433
+ 431 3
434
  432 0
435
  433 3
436
  434 1
437
+ 435 1
438
  436 1
439
  437 1
440
  438 0
 
450
  448 4
451
  449 1
452
  450 2
453
+ 451 2
454
+ 452 3
455
  453 3
456
  454 4
457
  455 1
458
  456 4
459
  457 0
460
+ 458 3
461
  459 2
462
+ 460 2
463
+ 461 3
464
  462 3
465
  463 0
466
  464 2
 
468
  466 1
469
  467 0
470
  468 1
471
+ 469 2
472
  470 3
473
  471 1
474
  472 3
 
480
  478 1
481
  479 1
482
  480 3
483
+ 481 3
484
  482 2
485
  483 0
486
  484 0
 
502
  500 1
503
  501 1
504
  502 3
505
+ 503 2
506
  504 1
507
  505 0
508
  506 4
 
527
  525 0
528
  526 4
529
  527 3
530
+ 528 3
531
  529 3
532
+ 530 2
533
  531 1
534
  532 1
535
  533 1
 
542
  540 3
543
  541 4
544
  542 2
545
+ 543 3
546
  544 2
547
  545 3
548
  546 1
549
  547 3
550
  548 3
551
  549 0
552
+ 550 2
553
  551 1
554
  552 0
555
  553 3
556
+ 554 2
557
  555 3
558
+ 556 3
559
  557 1
560
  558 2
561
  559 0
 
566
  564 1
567
  565 0
568
  566 3
569
+ 567 3
570
  568 2
571
  569 4
572
  570 3
 
580
  578 4
581
  579 1
582
  580 3
583
+ 581 1
584
  582 4
585
  583 3
586
  584 0
 
594
  592 2
595
  593 2
596
  594 4
597
+ 595 2
598
  596 4
599
  597 3
600
  598 4
 
608
  606 3
609
  607 1
610
  608 4
611
+ 609 1
612
  610 1
613
  611 1
614
  612 1
615
  613 3
616
  614 4
617
+ 615 1
618
  616 1
619
  617 1
620
  618 1
 
623
  621 3
624
  622 2
625
  623 1
626
+ 624 3
627
  625 1
628
+ 626 2
629
  627 1
630
  628 0
631
  629 4
 
642
  640 1
643
  641 3
644
  642 4
645
+ 643 2
646
  644 1
647
  645 2
648
  646 3
 
661
  659 1
662
  660 3
663
  661 4
664
+ 662 2
665
  663 1
666
  664 3
667
  665 1
 
669
  667 3
670
  668 4
671
  669 1
672
+ 670 3
673
  671 3
674
  672 1
675
+ 673 3
676
  674 3
677
+ 675 2
678
  676 4
679
  677 3
680
  678 4
 
686
  684 3
687
  685 2
688
  686 3
689
+ 687 3
690
  688 3
691
  689 4
692
  690 4
 
699
  697 4
700
  698 1
701
  699 3
702
+ 700 2
703
  701 1
704
  702 1
705
  703 4
706
+ 704 2
707
  705 2
708
  706 3
709
  707 0
 
714
  712 1
715
  713 3
716
  714 3
717
+ 715 2
718
  716 2
719
  717 1
720
  718 0
 
727
  725 1
728
  726 3
729
  727 0
730
+ 728 3
731
  729 0
732
  730 1
733
  731 4
734
+ 732 3
735
  733 2
736
  734 4
737
  735 0
 
740
  738 3
741
  739 0
742
  740 3
743
+ 741 3
744
+ 742 2
745
  743 1
746
  744 4
747
  745 4
748
  746 3
749
+ 747 2
750
  748 4
751
  749 3
752
  750 4
 
759
  757 3
760
  758 2
761
  759 1
762
+ 760 2
763
  761 2
764
  762 4
765
  763 4
 
770
  768 0
771
  769 0
772
  770 3
773
+ 771 2
774
+ 772 2
775
  773 1
776
  774 4
777
  775 2
 
781
  779 2
782
  780 0
783
  781 3
784
+ 782 2
785
  783 4
786
  784 1
787
  785 3
 
795
  793 4
796
  794 4
797
  795 3
798
+ 796 3
799
  797 0
800
  798 1
801
  799 2
 
814
  812 4
815
  813 0
816
  814 1
817
+ 815 1
818
  816 2
819
  817 0
820
  818 1
 
832
  830 3
833
  831 4
834
  832 4
835
+ 833 1
836
  834 4
837
  835 3
838
  836 4
839
  837 1
840
  838 3
841
+ 839 3
842
  840 3
843
  841 3
844
  842 3
 
848
  846 3
849
  847 4
850
  848 0
851
+ 849 1
852
  850 4
853
  851 3
854
  852 4
 
858
  856 4
859
  857 2
860
  858 1
861
+ 859 1
862
  860 1
863
  861 2
864
  862 1
 
868
  866 4
869
  867 2
870
  868 3
871
+ 869 2
872
  870 3
873
  871 2
874
  872 1
 
879
  877 4
880
  878 3
881
  879 3
882
+ 880 3
883
  881 3
884
  882 4
885
  883 1
886
  884 3
887
  885 4
888
+ 886 3
889
  887 3
890
  888 4
891
  889 2
 
905
  903 3
906
  904 3
907
  905 4
908
+ 906 2
909
  907 0
910
  908 4
911
  909 2
912
  910 4
913
  911 2
914
+ 912 1
915
  913 1
916
+ 914 3
917
+ 915 3
918
  916 3
919
  917 3
920
  918 3
 
964
  962 0
965
  963 4
966
  964 1
967
+ 965 3
968
  966 1
969
  967 3
970
  968 1
 
977
  975 3
978
  976 1
979
  977 4
980
+ 978 2
981
  979 0
982
  980 1
983
  981 1
 
988
  986 0
989
  987 2
990
  988 1
991
+ 989 3
992
  990 1
993
  991 0
994
  992 1
 
1013
  1011 4
1014
  1012 3
1015
  1013 3
1016
+ 1014 2
1017
  1015 2
1018
  1016 2
1019
  1017 3
 
1036
  1034 1
1037
  1035 2
1038
  1036 4
1039
+ 1037 3
1040
  1038 3
1041
  1039 1
1042
  1040 1
 
1046
  1044 4
1047
  1045 4
1048
  1046 4
1049
+ 1047 2
1050
  1048 1
1051
  1049 4
1052
  1050 4
 
1103
  1101 4
1104
  1102 3
1105
  1103 4
1106
+ 1104 0
1107
  1105 1
1108
  1106 3
1109
+ 1107 1
1110
  1108 0
1111
  1109 1
1112
  1110 1
1113
+ 1111 2
1114
  1112 3
1115
  1113 1
1116
  1114 3
 
1150
  1148 4
1151
  1149 3
1152
  1150 1
1153
+ 1151 0
1154
  1152 1
1155
  1153 2
1156
  1154 3
1157
+ 1155 2
1158
  1156 1
1159
  1157 0
1160
  1158 1
 
1167
  1165 4
1168
  1166 4
1169
  1167 4
1170
+ 1168 0
1171
  1169 1
1172
  1170 1
1173
  1171 4
 
1190
  1188 1
1191
  1189 3
1192
  1190 3
1193
+ 1191 2
1194
+ 1192 2
1195
  1193 1
1196
  1194 3
1197
  1195 0
1198
  1196 2
1199
+ 1197 1
1200
+ 1198 3
1201
  1199 2
1202
  1200 2
1203
  1201 3
 
1205
  1203 2
1206
  1204 1
1207
  1205 3
1208
+ 1206 2
1209
  1207 2
1210
  1208 3
1211
  1209 4
 
1215
  1213 2
1216
  1214 1
1217
  1215 4
1218
+ 1216 2
1219
  1217 0
1220
  1218 4
1221
  1219 0
 
1236
  1234 3
1237
  1235 3
1238
  1236 3
1239
+ 1237 1
1240
+ 1238 3
1241
  1239 1
1242
  1240 3
1243
  1241 0
 
1264
  1262 0
1265
  1263 3
1266
  1264 4
1267
+ 1265 3
1268
  1266 2
1269
  1267 1
1270
  1268 3
1271
  1269 2
1272
+ 1270 2
1273
  1271 1
1274
  1272 3
1275
  1273 1
 
1301
  1299 0
1302
  1300 4
1303
  1301 3
1304
+ 1302 2
1305
  1303 4
1306
  1304 0
1307
  1305 1
1308
  1306 1
1309
+ 1307 2
1310
  1308 1
1311
  1309 3
1312
  1310 3
 
1318
  1316 1
1319
  1317 2
1320
  1318 2
1321
+ 1319 0
1322
  1320 4
1323
  1321 4
1324
  1322 2
 
1336
  1334 3
1337
  1335 1
1338
  1336 1
1339
+ 1337 2
1340
  1338 3
1341
  1339 1
1342
  1340 3
 
1347
  1345 4
1348
  1346 0
1349
  1347 3
1350
+ 1348 2
1351
+ 1349 2
1352
  1350 3
1353
  1351 1
1354
  1352 4
 
1379
  1377 1
1380
  1378 1
1381
  1379 1
1382
+ 1380 1
1383
  1381 1
1384
  1382 1
1385
  1383 2
1386
  1384 3
1387
+ 1385 1
1388
  1386 3
1389
  1387 4
1390
  1388 4
1391
  1389 1
1392
  1390 1
1393
+ 1391 3
1394
  1392 2
1395
  1393 1
1396
+ 1394 1
1397
  1395 3
1398
  1396 1
1399
  1397 1
1400
  1398 1
1401
  1399 3
1402
  1400 4
1403
+ 1401 1
1404
  1402 0
1405
  1403 3
1406
+ 1404 3
1407
  1405 3
1408
  1406 1
1409
  1407 2
1410
+ 1408 2
1411
  1409 3
1412
  1410 2
1413
  1411 1
 
1440
  1438 4
1441
  1439 4
1442
  1440 3
1443
+ 1441 2
1444
  1442 1
1445
  1443 1
1446
  1444 0
 
1455
  1453 1
1456
  1454 0
1457
  1455 3
1458
+ 1456 2
1459
  1457 0
1460
  1458 0
1461
  1459 1
 
1499
  1497 4
1500
  1498 4
1501
  1499 4
1502
+ 1500 3
1503
  1501 3
1504
+ 1502 3
1505
  1503 1
1506
  1504 1
1507
  1505 2
 
1518
  1516 3
1519
  1517 1
1520
  1518 2
1521
+ 1519 3
1522
  1520 0
1523
  1521 1
1524
  1522 2
 
1530
  1528 4
1531
  1529 1
1532
  1530 1
1533
+ 1531 2
1534
+ 1532 3
1535
  1533 3
1536
+ 1534 3
1537
+ 1535 2
1538
  1536 2
1539
  1537 2
1540
  1538 4
 
1542
  1540 3
1543
  1541 0
1544
  1542 3
1545
+ 1543 2
1546
  1544 1
1547
  1545 2
1548
  1546 3
 
1558
  1556 1
1559
  1557 3
1560
  1558 1
1561
+ 1559 2
1562
  1560 0
1563
  1561 1
1564
  1562 1
 
1577
  1575 2
1578
  1576 1
1579
  1577 2
1580
+ 1578 0
1581
  1579 0
1582
  1580 1
1583
  1581 2
 
1589
  1587 1
1590
  1588 4
1591
  1589 2
1592
+ 1590 2
1593
+ 1591 2
1594
  1592 4
1595
  1593 2
1596
  1594 1
1597
  1595 3
1598
  1596 4
1599
+ 1597 3
1600
  1598 1
1601
  1599 3
1602
  1600 2
 
1606
  1604 3
1607
  1605 1
1608
  1606 2
1609
+ 1607 3
1610
  1608 2
1611
  1609 1
1612
  1610 1
1613
+ 1611 2
1614
  1612 1
1615
  1613 0
1616
  1614 4
1617
  1615 3
1618
  1616 3
1619
+ 1617 2
1620
  1618 2
1621
+ 1619 3
1622
  1620 4
1623
  1621 1
1624
  1622 3
 
1633
  1631 3
1634
  1632 4
1635
  1633 1
1636
+ 1634 3
1637
  1635 4
1638
  1636 3
1639
  1637 0
 
1672
  1670 3
1673
  1671 3
1674
  1672 1
1675
+ 1673 3
1676
  1674 3
1677
  1675 3
1678
  1676 3
 
1688
  1686 3
1689
  1687 1
1690
  1688 3
1691
+ 1689 3
1692
  1690 0
1693
  1691 2
1694
  1692 2
1695
+ 1693 2
1696
+ 1694 3
1697
  1695 3
1698
  1696 1
1699
  1697 4
1700
  1698 1
1701
+ 1699 0
1702
  1700 1
1703
  1701 2
1704
  1702 3
 
1715
  1713 4
1716
  1714 0
1717
  1715 0
1718
+ 1716 0
1719
  1717 4
1720
  1718 3
1721
  1719 1
 
1723
  1721 1
1724
  1722 1
1725
  1723 2
1726
+ 1724 2
1727
  1725 1
1728
  1726 4
1729
  1727 3
 
1740
  1738 1
1741
  1739 3
1742
  1740 3
1743
+ 1741 3
1744
  1742 4
1745
  1743 1
1746
  1744 4
 
1755
  1753 1
1756
  1754 3
1757
  1755 3
1758
+ 1756 3
1759
  1757 3
1760
+ 1758 2
1761
  1759 4
1762
  1760 3
1763
  1761 3
 
1778
  1776 2
1779
  1777 4
1780
  1778 0
1781
+ 1779 3
1782
  1780 1
1783
  1781 1
1784
  1782 1
1785
  1783 3
1786
+ 1784 3
1787
+ 1785 1
1788
  1786 4
1789
  1787 3
1790
  1788 2
 
1793
  1791 1
1794
  1792 1
1795
  1793 4
1796
+ 1794 3
1797
  1795 1
1798
  1796 3
1799
  1797 2
1800
  1798 3
1801
  1799 3
1802
  1800 1
1803
+ 1801 3
1804
+ 1802 2
1805
  1803 3
1806
  1804 4
1807
  1805 3
1808
  1806 1
1809
  1807 1
1810
+ 1808 2
1811
  1809 0
1812
  1810 1
1813
  1811 3
1814
  1812 2
1815
  1813 3
1816
+ 1814 3
1817
  1815 3
1818
  1816 0
1819
  1817 1
 
1882
  1880 0
1883
  1881 3
1884
  1882 3
1885
+ 1883 3
1886
  1884 1
1887
  1885 0
1888
  1886 0
 
1899
  1897 1
1900
  1898 4
1901
  1899 4
1902
+ 1900 3
1903
  1901 3
1904
  1902 2
1905
  1903 4
 
1922
  1920 3
1923
  1921 1
1924
  1922 0
1925
+ 1923 2
1926
  1924 1
1927
  1925 3
1928
  1926 1
 
1939
  1937 1
1940
  1938 4
1941
  1939 1
1942
+ 1940 2
1943
  1941 3
1944
  1942 3
1945
  1943 4
 
1953
  1951 3
1954
  1952 3
1955
  1953 3
1956
+ 1954 1
1957
  1955 1
1958
  1956 2
1959
  1957 3
 
1967
  1965 2
1968
  1966 0
1969
  1967 1
1970
+ 1968 2
1971
  1969 2
1972
  1970 2
1973
  1971 0
 
1980
  1978 4
1981
  1979 3
1982
  1980 4
1983
+ 1981 2
1984
  1982 0
1985
  1983 1
1986
  1984 0
 
2028
  2026 4
2029
  2027 3
2030
  2028 1
2031
+ 2029 2
2032
  2030 3
2033
  2031 3
2034
  2032 1
 
2039
  2037 2
2040
  2038 2
2041
  2039 3
2042
+ 2040 3
2043
  2041 1
2044
  2042 0
2045
  2043 3
2046
  2044 1
2047
  2045 1
2048
+ 2046 0
2049
  2047 3
2050
  2048 1
2051
+ 2049 2
2052
  2050 3
2053
  2051 1
2054
  2052 1
2055
+ 2053 1
2056
  2054 1
2057
  2055 2
2058
  2056 3
 
2065
  2063 3
2066
  2064 1
2067
  2065 3
2068
+ 2066 2
2069
  2067 0
2070
  2068 1
2071
  2069 2
2072
+ 2070 3
2073
+ 2071 2
2074
  2072 3
2075
  2073 3
2076
  2074 2
 
2079
  2077 2
2080
  2078 4
2081
  2079 1
2082
+ 2080 2
2083
  2081 2
2084
  2082 1
2085
  2083 1
 
2096
  2094 4
2097
  2095 1
2098
  2096 2
2099
+ 2097 3
2100
  2098 1
2101
  2099 1
2102
  2100 1
 
2139
  2137 0
2140
  2138 0
2141
  2139 2
2142
+ 2140 3
2143
  2141 2
2144
  2142 1
2145
  2143 2
 
2149
  2147 1
2150
  2148 3
2151
  2149 4
2152
+ 2150 3
2153
  2151 3
2154
  2152 4
2155
  2153 3
 
2158
  2156 4
2159
  2157 3
2160
  2158 3
2161
+ 2159 1
2162
  2160 4
2163
  2161 1
2164
+ 2162 3
2165
  2163 4
2166
  2164 1
2167
+ 2165 4
2168
  2166 1
2169
  2167 1
2170
  2168 3
 
2183
  2181 4
2184
  2182 4
2185
  2183 3
2186
+ 2184 3
2187
  2185 0
2188
+ 2186 0
2189
  2187 1
2190
  2188 1
2191
  2189 3
2192
+ 2190 2
2193
  2191 4
2194
+ 2192 3
2195
  2193 3
2196
  2194 0
2197
+ 2195 2
2198
  2196 1
2199
  2197 1
2200
  2198 4
2201
  2199 1
2202
  2200 1
2203
+ 2201 2
2204
  2202 3
2205
+ 2203 2
2206
  2204 1
2207
  2205 0
2208
  2206 1
train_results.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "epoch": 5.0,
3
- "total_flos": 6586294115808000.0,
4
- "train_loss": 0.9968819860202163,
5
- "train_runtime": 296.7277,
6
  "train_samples": 8544,
7
- "train_samples_per_second": 143.97,
8
- "train_steps_per_second": 2.258
9
  }
 
1
  {
2
+ "epoch": 10.0,
3
+ "total_flos": 1.3172588231616e+16,
4
+ "train_loss": 0.8062449658094947,
5
+ "train_runtime": 588.6173,
6
  "train_samples": 8544,
7
+ "train_samples_per_second": 145.154,
8
+ "train_steps_per_second": 2.277
9
  }
trainer_state.json CHANGED
@@ -1,550 +1,1082 @@
1
  {
2
- "best_metric": 0.531250378962142,
3
- "best_model_checkpoint": "/scratch/06782/ysu707/results/sst5/deberta_base/checkpoint-600",
4
- "epoch": 5.0,
5
  "eval_steps": 100,
6
- "global_step": 670,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.07462686567164178,
13
- "grad_norm": 0.7592889666557312,
14
- "learning_rate": 9.95475113122172e-06,
15
- "loss": 1.6025,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.14925373134328357,
20
- "grad_norm": 1.0113656520843506,
21
- "learning_rate": 9.803921568627451e-06,
22
- "loss": 1.5865,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.22388059701492538,
27
- "grad_norm": 0.9652906060218811,
28
- "learning_rate": 9.653092006033184e-06,
29
- "loss": 1.585,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.29850746268656714,
34
- "grad_norm": 1.4452743530273438,
35
- "learning_rate": 9.502262443438914e-06,
36
- "loss": 1.5718,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.373134328358209,
41
- "grad_norm": 0.9761541485786438,
42
- "learning_rate": 9.351432880844647e-06,
43
  "loss": 1.5571,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.44776119402985076,
48
- "grad_norm": 1.4800972938537598,
49
- "learning_rate": 9.200603318250378e-06,
50
- "loss": 1.5325,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.5223880597014925,
55
- "grad_norm": 2.2554094791412354,
56
- "learning_rate": 9.049773755656109e-06,
57
- "loss": 1.519,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.5970149253731343,
62
- "grad_norm": 3.507322072982788,
63
- "learning_rate": 8.89894419306184e-06,
64
- "loss": 1.3504,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.6716417910447762,
69
- "grad_norm": 3.847669839859009,
70
- "learning_rate": 8.748114630467572e-06,
71
- "loss": 1.3068,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.746268656716418,
76
- "grad_norm": 3.484496593475342,
77
- "learning_rate": 8.597285067873304e-06,
78
- "loss": 1.1601,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.746268656716418,
83
- "eval_f1": 0.32132527894248475,
84
- "eval_loss": 1.2031526565551758,
85
- "eval_runtime": 2.6157,
86
- "eval_samples_per_second": 420.916,
87
- "eval_steps_per_second": 6.881,
88
  "step": 100
89
  },
90
  {
91
  "epoch": 0.8208955223880597,
92
- "grad_norm": 3.5520474910736084,
93
- "learning_rate": 8.446455505279036e-06,
94
- "loss": 1.1665,
95
  "step": 110
96
  },
97
  {
98
  "epoch": 0.8955223880597015,
99
- "grad_norm": 4.016570091247559,
100
- "learning_rate": 8.295625942684767e-06,
101
- "loss": 1.1374,
102
  "step": 120
103
  },
104
  {
105
  "epoch": 0.9701492537313433,
106
- "grad_norm": 4.674005508422852,
107
- "learning_rate": 8.144796380090498e-06,
108
- "loss": 1.1153,
109
  "step": 130
110
  },
111
  {
112
  "epoch": 1.044776119402985,
113
- "grad_norm": 4.79959774017334,
114
- "learning_rate": 7.993966817496231e-06,
115
- "loss": 1.1051,
116
  "step": 140
117
  },
118
  {
119
  "epoch": 1.1194029850746268,
120
- "grad_norm": 4.5843000411987305,
121
- "learning_rate": 7.84313725490196e-06,
122
- "loss": 1.0437,
123
  "step": 150
124
  },
125
  {
126
  "epoch": 1.1940298507462686,
127
- "grad_norm": 3.6620404720306396,
128
- "learning_rate": 7.692307692307694e-06,
129
- "loss": 1.0625,
130
  "step": 160
131
  },
132
  {
133
  "epoch": 1.2686567164179103,
134
- "grad_norm": 4.64156436920166,
135
- "learning_rate": 7.541478129713424e-06,
136
- "loss": 0.9842,
137
  "step": 170
138
  },
139
  {
140
  "epoch": 1.3432835820895521,
141
- "grad_norm": 4.875860691070557,
142
- "learning_rate": 7.390648567119156e-06,
143
- "loss": 0.959,
144
  "step": 180
145
  },
146
  {
147
  "epoch": 1.417910447761194,
148
- "grad_norm": 5.9996256828308105,
149
- "learning_rate": 7.239819004524887e-06,
150
- "loss": 1.0789,
151
  "step": 190
152
  },
153
  {
154
  "epoch": 1.4925373134328357,
155
- "grad_norm": 6.207852363586426,
156
- "learning_rate": 7.088989441930619e-06,
157
- "loss": 1.0105,
158
  "step": 200
159
  },
160
  {
161
  "epoch": 1.4925373134328357,
162
- "eval_f1": 0.49996652110080575,
163
- "eval_loss": 1.0692095756530762,
164
- "eval_runtime": 2.6262,
165
- "eval_samples_per_second": 419.241,
166
- "eval_steps_per_second": 6.854,
167
  "step": 200
168
  },
169
  {
170
  "epoch": 1.5671641791044775,
171
- "grad_norm": 4.4517292976379395,
172
- "learning_rate": 6.938159879336351e-06,
173
- "loss": 0.9994,
174
  "step": 210
175
  },
176
  {
177
  "epoch": 1.6417910447761193,
178
- "grad_norm": 4.6450395584106445,
179
- "learning_rate": 6.787330316742083e-06,
180
- "loss": 1.0023,
181
  "step": 220
182
  },
183
  {
184
  "epoch": 1.716417910447761,
185
- "grad_norm": 5.14109992980957,
186
- "learning_rate": 6.636500754147813e-06,
187
- "loss": 1.0361,
188
  "step": 230
189
  },
190
  {
191
  "epoch": 1.7910447761194028,
192
- "grad_norm": 4.552748203277588,
193
- "learning_rate": 6.485671191553545e-06,
194
- "loss": 1.0162,
195
  "step": 240
196
  },
197
  {
198
  "epoch": 1.8656716417910446,
199
- "grad_norm": 4.929900169372559,
200
- "learning_rate": 6.334841628959276e-06,
201
- "loss": 0.9702,
202
  "step": 250
203
  },
204
  {
205
  "epoch": 1.9402985074626866,
206
- "grad_norm": 5.319007873535156,
207
- "learning_rate": 6.1840120663650085e-06,
208
- "loss": 1.0253,
209
  "step": 260
210
  },
211
  {
212
  "epoch": 2.014925373134328,
213
- "grad_norm": 4.696887493133545,
214
- "learning_rate": 6.033182503770739e-06,
215
- "loss": 0.9516,
216
  "step": 270
217
  },
218
  {
219
  "epoch": 2.08955223880597,
220
- "grad_norm": 6.096177577972412,
221
- "learning_rate": 5.882352941176471e-06,
222
- "loss": 0.9563,
223
  "step": 280
224
  },
225
  {
226
  "epoch": 2.1641791044776117,
227
- "grad_norm": 7.389795303344727,
228
- "learning_rate": 5.731523378582202e-06,
229
- "loss": 0.8915,
230
  "step": 290
231
  },
232
  {
233
  "epoch": 2.2388059701492535,
234
- "grad_norm": 5.960943222045898,
235
- "learning_rate": 5.580693815987934e-06,
236
- "loss": 0.9256,
237
  "step": 300
238
  },
239
  {
240
  "epoch": 2.2388059701492535,
241
- "eval_f1": 0.5184075253274552,
242
- "eval_loss": 1.0643326044082642,
243
- "eval_runtime": 2.6248,
244
- "eval_samples_per_second": 419.458,
245
- "eval_steps_per_second": 6.858,
246
  "step": 300
247
  },
248
  {
249
  "epoch": 2.3134328358208958,
250
- "grad_norm": 5.415516376495361,
251
- "learning_rate": 5.4298642533936655e-06,
252
- "loss": 0.8906,
253
  "step": 310
254
  },
255
  {
256
  "epoch": 2.388059701492537,
257
- "grad_norm": 6.378656387329102,
258
- "learning_rate": 5.2790346907993975e-06,
259
- "loss": 0.9267,
260
  "step": 320
261
  },
262
  {
263
  "epoch": 2.4626865671641793,
264
- "grad_norm": 4.961767673492432,
265
- "learning_rate": 5.128205128205128e-06,
266
- "loss": 0.8908,
267
  "step": 330
268
  },
269
  {
270
  "epoch": 2.5373134328358207,
271
- "grad_norm": 4.836255073547363,
272
- "learning_rate": 4.97737556561086e-06,
273
- "loss": 0.8994,
274
  "step": 340
275
  },
276
  {
277
  "epoch": 2.611940298507463,
278
- "grad_norm": 6.633901596069336,
279
- "learning_rate": 4.826546003016592e-06,
280
- "loss": 0.965,
281
  "step": 350
282
  },
283
  {
284
  "epoch": 2.6865671641791042,
285
- "grad_norm": 6.069859504699707,
286
- "learning_rate": 4.675716440422323e-06,
287
- "loss": 0.8993,
288
  "step": 360
289
  },
290
  {
291
  "epoch": 2.7611940298507465,
292
- "grad_norm": 7.4525065422058105,
293
- "learning_rate": 4.5248868778280546e-06,
294
- "loss": 0.8591,
295
  "step": 370
296
  },
297
  {
298
  "epoch": 2.835820895522388,
299
- "grad_norm": 7.40543794631958,
300
- "learning_rate": 4.374057315233786e-06,
301
- "loss": 0.9181,
302
  "step": 380
303
  },
304
  {
305
  "epoch": 2.91044776119403,
306
- "grad_norm": 4.696629047393799,
307
- "learning_rate": 4.223227752639518e-06,
308
- "loss": 0.9814,
309
  "step": 390
310
  },
311
  {
312
  "epoch": 2.9850746268656714,
313
- "grad_norm": 5.66481351852417,
314
- "learning_rate": 4.072398190045249e-06,
315
- "loss": 0.8987,
316
  "step": 400
317
  },
318
  {
319
  "epoch": 2.9850746268656714,
320
- "eval_f1": 0.5115649905281687,
321
- "eval_loss": 1.1100599765777588,
322
- "eval_runtime": 2.6322,
323
- "eval_samples_per_second": 418.288,
324
- "eval_steps_per_second": 6.838,
325
  "step": 400
326
  },
327
  {
328
  "epoch": 3.0597014925373136,
329
- "grad_norm": 6.0242719650268555,
330
- "learning_rate": 3.92156862745098e-06,
331
- "loss": 0.8692,
332
  "step": 410
333
  },
334
  {
335
  "epoch": 3.1343283582089554,
336
- "grad_norm": 5.19691276550293,
337
- "learning_rate": 3.770739064856712e-06,
338
- "loss": 0.8274,
339
  "step": 420
340
  },
341
  {
342
  "epoch": 3.208955223880597,
343
- "grad_norm": 4.793543815612793,
344
- "learning_rate": 3.6199095022624436e-06,
345
- "loss": 0.8599,
346
  "step": 430
347
  },
348
  {
349
  "epoch": 3.283582089552239,
350
- "grad_norm": 6.505572319030762,
351
- "learning_rate": 3.4690799396681753e-06,
352
- "loss": 0.8684,
353
  "step": 440
354
  },
355
  {
356
  "epoch": 3.3582089552238807,
357
- "grad_norm": 7.902689456939697,
358
- "learning_rate": 3.3182503770739065e-06,
359
- "loss": 0.8503,
360
  "step": 450
361
  },
362
  {
363
  "epoch": 3.4328358208955225,
364
- "grad_norm": 7.128357410430908,
365
- "learning_rate": 3.167420814479638e-06,
366
- "loss": 0.827,
367
  "step": 460
368
  },
369
  {
370
  "epoch": 3.5074626865671643,
371
- "grad_norm": 4.8343400955200195,
372
- "learning_rate": 3.0165912518853694e-06,
373
- "loss": 0.8132,
374
  "step": 470
375
  },
376
  {
377
  "epoch": 3.582089552238806,
378
- "grad_norm": 4.999044895172119,
379
- "learning_rate": 2.865761689291101e-06,
380
- "loss": 0.8746,
381
  "step": 480
382
  },
383
  {
384
  "epoch": 3.656716417910448,
385
- "grad_norm": 6.041540145874023,
386
- "learning_rate": 2.7149321266968327e-06,
387
- "loss": 0.8541,
388
  "step": 490
389
  },
390
  {
391
  "epoch": 3.7313432835820897,
392
- "grad_norm": 5.733530521392822,
393
- "learning_rate": 2.564102564102564e-06,
394
- "loss": 0.8379,
395
  "step": 500
396
  },
397
  {
398
  "epoch": 3.7313432835820897,
399
- "eval_f1": 0.5254742032963681,
400
- "eval_loss": 1.068690538406372,
401
- "eval_runtime": 2.6268,
402
- "eval_samples_per_second": 419.14,
403
- "eval_steps_per_second": 6.852,
404
  "step": 500
405
  },
406
  {
407
  "epoch": 3.8059701492537314,
408
- "grad_norm": 5.6245951652526855,
409
- "learning_rate": 2.413273001508296e-06,
410
- "loss": 0.8214,
411
  "step": 510
412
  },
413
  {
414
  "epoch": 3.8805970149253732,
415
- "grad_norm": 8.329957008361816,
416
- "learning_rate": 2.2624434389140273e-06,
417
- "loss": 0.8727,
418
  "step": 520
419
  },
420
  {
421
  "epoch": 3.955223880597015,
422
- "grad_norm": 6.278369903564453,
423
- "learning_rate": 2.111613876319759e-06,
424
- "loss": 0.8601,
425
  "step": 530
426
  },
427
  {
428
  "epoch": 4.029850746268656,
429
- "grad_norm": 4.968955039978027,
430
- "learning_rate": 1.96078431372549e-06,
431
- "loss": 0.8378,
432
  "step": 540
433
  },
434
  {
435
  "epoch": 4.104477611940299,
436
- "grad_norm": 7.428950786590576,
437
- "learning_rate": 1.8099547511312218e-06,
438
- "loss": 0.8036,
439
  "step": 550
440
  },
441
  {
442
  "epoch": 4.17910447761194,
443
- "grad_norm": 4.700170516967773,
444
- "learning_rate": 1.6591251885369533e-06,
445
- "loss": 0.8061,
446
  "step": 560
447
  },
448
  {
449
  "epoch": 4.253731343283582,
450
- "grad_norm": 6.555200576782227,
451
- "learning_rate": 1.5082956259426847e-06,
452
- "loss": 0.8678,
453
  "step": 570
454
  },
455
  {
456
  "epoch": 4.3283582089552235,
457
- "grad_norm": 5.239262104034424,
458
- "learning_rate": 1.3574660633484164e-06,
459
- "loss": 0.8529,
460
  "step": 580
461
  },
462
  {
463
  "epoch": 4.402985074626866,
464
- "grad_norm": 5.288607120513916,
465
- "learning_rate": 1.206636500754148e-06,
466
- "loss": 0.8099,
467
  "step": 590
468
  },
469
  {
470
  "epoch": 4.477611940298507,
471
- "grad_norm": 5.942199230194092,
472
- "learning_rate": 1.0558069381598795e-06,
473
- "loss": 0.8048,
474
  "step": 600
475
  },
476
  {
477
  "epoch": 4.477611940298507,
478
- "eval_f1": 0.531250378962142,
479
- "eval_loss": 1.0681172609329224,
480
- "eval_runtime": 2.6271,
481
- "eval_samples_per_second": 419.101,
482
- "eval_steps_per_second": 6.852,
483
  "step": 600
484
  },
485
  {
486
  "epoch": 4.552238805970149,
487
- "grad_norm": 6.185580253601074,
488
- "learning_rate": 9.049773755656109e-07,
489
- "loss": 0.8314,
490
  "step": 610
491
  },
492
  {
493
  "epoch": 4.6268656716417915,
494
- "grad_norm": 6.450467109680176,
495
- "learning_rate": 7.541478129713424e-07,
496
- "loss": 0.7659,
497
  "step": 620
498
  },
499
  {
500
  "epoch": 4.701492537313433,
501
- "grad_norm": 4.966616630554199,
502
- "learning_rate": 6.03318250377074e-07,
503
- "loss": 0.7824,
504
  "step": 630
505
  },
506
  {
507
  "epoch": 4.776119402985074,
508
- "grad_norm": 5.365437030792236,
509
- "learning_rate": 4.5248868778280546e-07,
510
- "loss": 0.7985,
511
  "step": 640
512
  },
513
  {
514
  "epoch": 4.850746268656716,
515
- "grad_norm": 5.803382396697998,
516
- "learning_rate": 3.01659125188537e-07,
517
- "loss": 0.7774,
518
  "step": 650
519
  },
520
  {
521
  "epoch": 4.925373134328359,
522
- "grad_norm": 5.00211763381958,
523
- "learning_rate": 1.508295625942685e-07,
524
- "loss": 0.8225,
525
  "step": 660
526
  },
527
  {
528
  "epoch": 5.0,
529
- "grad_norm": 11.036751747131348,
530
- "learning_rate": 0.0,
531
- "loss": 0.8557,
532
  "step": 670
533
  },
534
  {
535
- "epoch": 5.0,
536
- "step": 670,
537
- "total_flos": 6586294115808000.0,
538
- "train_loss": 0.9968819860202163,
539
- "train_runtime": 296.7277,
540
- "train_samples_per_second": 143.97,
541
- "train_steps_per_second": 2.258
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
542
  }
543
  ],
544
  "logging_steps": 10,
545
- "max_steps": 670,
546
  "num_input_tokens_seen": 0,
547
- "num_train_epochs": 5,
548
  "save_steps": 100,
549
  "stateful_callbacks": {
550
  "TrainerControl": {
@@ -558,7 +1090,7 @@
558
  "attributes": {}
559
  }
560
  },
561
- "total_flos": 6586294115808000.0,
562
  "train_batch_size": 64,
563
  "trial_name": null,
564
  "trial_params": null
 
1
  {
2
+ "best_metric": 0.5492932407699946,
3
+ "best_model_checkpoint": "/scratch/06782/ysu707/results/sst5/deberta_base/checkpoint-500",
4
+ "epoch": 10.0,
5
  "eval_steps": 100,
6
+ "global_step": 1340,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
10
  "log_history": [
11
  {
12
  "epoch": 0.07462686567164178,
13
+ "grad_norm": 0.7684511542320251,
14
+ "learning_rate": 7.1428571428571436e-06,
15
+ "loss": 1.6032,
16
  "step": 10
17
  },
18
  {
19
  "epoch": 0.14925373134328357,
20
+ "grad_norm": 1.0371614694595337,
21
+ "learning_rate": 9.95475113122172e-06,
22
+ "loss": 1.5902,
23
  "step": 20
24
  },
25
  {
26
  "epoch": 0.22388059701492538,
27
+ "grad_norm": 0.9901672005653381,
28
+ "learning_rate": 9.879336349924586e-06,
29
+ "loss": 1.5876,
30
  "step": 30
31
  },
32
  {
33
  "epoch": 0.29850746268656714,
34
+ "grad_norm": 1.3719103336334229,
35
+ "learning_rate": 9.803921568627451e-06,
36
+ "loss": 1.5746,
37
  "step": 40
38
  },
39
  {
40
  "epoch": 0.373134328358209,
41
+ "grad_norm": 0.9476407170295715,
42
+ "learning_rate": 9.728506787330318e-06,
43
  "loss": 1.5571,
44
  "step": 50
45
  },
46
  {
47
  "epoch": 0.44776119402985076,
48
+ "grad_norm": 1.4854869842529297,
49
+ "learning_rate": 9.653092006033184e-06,
50
+ "loss": 1.5309,
51
  "step": 60
52
  },
53
  {
54
  "epoch": 0.5223880597014925,
55
+ "grad_norm": 2.791644811630249,
56
+ "learning_rate": 9.577677224736049e-06,
57
+ "loss": 1.4893,
58
  "step": 70
59
  },
60
  {
61
  "epoch": 0.5970149253731343,
62
+ "grad_norm": 3.8257875442504883,
63
+ "learning_rate": 9.502262443438914e-06,
64
+ "loss": 1.3155,
65
  "step": 80
66
  },
67
  {
68
  "epoch": 0.6716417910447762,
69
+ "grad_norm": 3.9002480506896973,
70
+ "learning_rate": 9.42684766214178e-06,
71
+ "loss": 1.3081,
72
  "step": 90
73
  },
74
  {
75
  "epoch": 0.746268656716418,
76
+ "grad_norm": 3.4716694355010986,
77
+ "learning_rate": 9.351432880844647e-06,
78
+ "loss": 1.1525,
79
  "step": 100
80
  },
81
  {
82
  "epoch": 0.746268656716418,
83
+ "eval_f1": 0.33531687582947917,
84
+ "eval_loss": 1.234781265258789,
85
+ "eval_runtime": 2.6218,
86
+ "eval_samples_per_second": 419.936,
87
+ "eval_steps_per_second": 6.865,
88
  "step": 100
89
  },
90
  {
91
  "epoch": 0.8208955223880597,
92
+ "grad_norm": 4.980569839477539,
93
+ "learning_rate": 9.276018099547513e-06,
94
+ "loss": 1.1661,
95
  "step": 110
96
  },
97
  {
98
  "epoch": 0.8955223880597015,
99
+ "grad_norm": 3.7840073108673096,
100
+ "learning_rate": 9.200603318250378e-06,
101
+ "loss": 1.1281,
102
  "step": 120
103
  },
104
  {
105
  "epoch": 0.9701492537313433,
106
+ "grad_norm": 4.9743733406066895,
107
+ "learning_rate": 9.125188536953243e-06,
108
+ "loss": 1.1082,
109
  "step": 130
110
  },
111
  {
112
  "epoch": 1.044776119402985,
113
+ "grad_norm": 4.535284042358398,
114
+ "learning_rate": 9.049773755656109e-06,
115
+ "loss": 1.0992,
116
  "step": 140
117
  },
118
  {
119
  "epoch": 1.1194029850746268,
120
+ "grad_norm": 4.46350622177124,
121
+ "learning_rate": 8.974358974358976e-06,
122
+ "loss": 1.0405,
123
  "step": 150
124
  },
125
  {
126
  "epoch": 1.1940298507462686,
127
+ "grad_norm": 3.532313823699951,
128
+ "learning_rate": 8.89894419306184e-06,
129
+ "loss": 1.0569,
130
  "step": 160
131
  },
132
  {
133
  "epoch": 1.2686567164179103,
134
+ "grad_norm": 4.936607360839844,
135
+ "learning_rate": 8.823529411764707e-06,
136
+ "loss": 0.981,
137
  "step": 170
138
  },
139
  {
140
  "epoch": 1.3432835820895521,
141
+ "grad_norm": 4.794571876525879,
142
+ "learning_rate": 8.748114630467572e-06,
143
+ "loss": 0.9513,
144
  "step": 180
145
  },
146
  {
147
  "epoch": 1.417910447761194,
148
+ "grad_norm": 5.570947170257568,
149
+ "learning_rate": 8.672699849170438e-06,
150
+ "loss": 1.0736,
151
  "step": 190
152
  },
153
  {
154
  "epoch": 1.4925373134328357,
155
+ "grad_norm": 8.54975700378418,
156
+ "learning_rate": 8.597285067873304e-06,
157
+ "loss": 1.0138,
158
  "step": 200
159
  },
160
  {
161
  "epoch": 1.4925373134328357,
162
+ "eval_f1": 0.49237557928218106,
163
+ "eval_loss": 1.0882714986801147,
164
+ "eval_runtime": 2.6249,
165
+ "eval_samples_per_second": 419.441,
166
+ "eval_steps_per_second": 6.857,
167
  "step": 200
168
  },
169
  {
170
  "epoch": 1.5671641791044775,
171
+ "grad_norm": 4.503359794616699,
172
+ "learning_rate": 8.52187028657617e-06,
173
+ "loss": 0.993,
174
  "step": 210
175
  },
176
  {
177
  "epoch": 1.6417910447761193,
178
+ "grad_norm": 4.575403213500977,
179
+ "learning_rate": 8.446455505279036e-06,
180
+ "loss": 0.9965,
181
  "step": 220
182
  },
183
  {
184
  "epoch": 1.716417910447761,
185
+ "grad_norm": 6.2024736404418945,
186
+ "learning_rate": 8.371040723981902e-06,
187
+ "loss": 1.02,
188
  "step": 230
189
  },
190
  {
191
  "epoch": 1.7910447761194028,
192
+ "grad_norm": 4.787175178527832,
193
+ "learning_rate": 8.295625942684767e-06,
194
+ "loss": 1.013,
195
  "step": 240
196
  },
197
  {
198
  "epoch": 1.8656716417910446,
199
+ "grad_norm": 4.914880275726318,
200
+ "learning_rate": 8.220211161387632e-06,
201
+ "loss": 0.9593,
202
  "step": 250
203
  },
204
  {
205
  "epoch": 1.9402985074626866,
206
+ "grad_norm": 5.331396579742432,
207
+ "learning_rate": 8.144796380090498e-06,
208
+ "loss": 1.0256,
209
  "step": 260
210
  },
211
  {
212
  "epoch": 2.014925373134328,
213
+ "grad_norm": 4.631103515625,
214
+ "learning_rate": 8.069381598793365e-06,
215
+ "loss": 0.9429,
216
  "step": 270
217
  },
218
  {
219
  "epoch": 2.08955223880597,
220
+ "grad_norm": 5.958868026733398,
221
+ "learning_rate": 7.993966817496231e-06,
222
+ "loss": 0.9433,
223
  "step": 280
224
  },
225
  {
226
  "epoch": 2.1641791044776117,
227
+ "grad_norm": 6.800838947296143,
228
+ "learning_rate": 7.918552036199096e-06,
229
+ "loss": 0.8713,
230
  "step": 290
231
  },
232
  {
233
  "epoch": 2.2388059701492535,
234
+ "grad_norm": 7.55411434173584,
235
+ "learning_rate": 7.84313725490196e-06,
236
+ "loss": 0.9136,
237
  "step": 300
238
  },
239
  {
240
  "epoch": 2.2388059701492535,
241
+ "eval_f1": 0.5172149141468012,
242
+ "eval_loss": 1.072735071182251,
243
+ "eval_runtime": 2.6163,
244
+ "eval_samples_per_second": 420.822,
245
+ "eval_steps_per_second": 6.88,
246
  "step": 300
247
  },
248
  {
249
  "epoch": 2.3134328358208958,
250
+ "grad_norm": 7.096745014190674,
251
+ "learning_rate": 7.767722473604827e-06,
252
+ "loss": 0.8746,
253
  "step": 310
254
  },
255
  {
256
  "epoch": 2.388059701492537,
257
+ "grad_norm": 6.328619480133057,
258
+ "learning_rate": 7.692307692307694e-06,
259
+ "loss": 0.9159,
260
  "step": 320
261
  },
262
  {
263
  "epoch": 2.4626865671641793,
264
+ "grad_norm": 5.320040702819824,
265
+ "learning_rate": 7.616892911010558e-06,
266
+ "loss": 0.8736,
267
  "step": 330
268
  },
269
  {
270
  "epoch": 2.5373134328358207,
271
+ "grad_norm": 4.176707744598389,
272
+ "learning_rate": 7.541478129713424e-06,
273
+ "loss": 0.8954,
274
  "step": 340
275
  },
276
  {
277
  "epoch": 2.611940298507463,
278
+ "grad_norm": 6.141348838806152,
279
+ "learning_rate": 7.4660633484162904e-06,
280
+ "loss": 0.9559,
281
  "step": 350
282
  },
283
  {
284
  "epoch": 2.6865671641791042,
285
+ "grad_norm": 5.281525135040283,
286
+ "learning_rate": 7.390648567119156e-06,
287
+ "loss": 0.8859,
288
  "step": 360
289
  },
290
  {
291
  "epoch": 2.7611940298507465,
292
+ "grad_norm": 6.908074378967285,
293
+ "learning_rate": 7.315233785822022e-06,
294
+ "loss": 0.8344,
295
  "step": 370
296
  },
297
  {
298
  "epoch": 2.835820895522388,
299
+ "grad_norm": 7.840199947357178,
300
+ "learning_rate": 7.239819004524887e-06,
301
+ "loss": 0.8987,
302
  "step": 380
303
  },
304
  {
305
  "epoch": 2.91044776119403,
306
+ "grad_norm": 5.066633224487305,
307
+ "learning_rate": 7.164404223227753e-06,
308
+ "loss": 0.9643,
309
  "step": 390
310
  },
311
  {
312
  "epoch": 2.9850746268656714,
313
+ "grad_norm": 7.574981689453125,
314
+ "learning_rate": 7.088989441930619e-06,
315
+ "loss": 0.8806,
316
  "step": 400
317
  },
318
  {
319
  "epoch": 2.9850746268656714,
320
+ "eval_f1": 0.5204655099703751,
321
+ "eval_loss": 1.100539207458496,
322
+ "eval_runtime": 2.6156,
323
+ "eval_samples_per_second": 420.93,
324
+ "eval_steps_per_second": 6.882,
325
  "step": 400
326
  },
327
  {
328
  "epoch": 3.0597014925373136,
329
+ "grad_norm": 5.5668864250183105,
330
+ "learning_rate": 7.013574660633484e-06,
331
+ "loss": 0.8348,
332
  "step": 410
333
  },
334
  {
335
  "epoch": 3.1343283582089554,
336
+ "grad_norm": 6.508656024932861,
337
+ "learning_rate": 6.938159879336351e-06,
338
+ "loss": 0.7917,
339
  "step": 420
340
  },
341
  {
342
  "epoch": 3.208955223880597,
343
+ "grad_norm": 4.860711097717285,
344
+ "learning_rate": 6.862745098039216e-06,
345
+ "loss": 0.8259,
346
  "step": 430
347
  },
348
  {
349
  "epoch": 3.283582089552239,
350
+ "grad_norm": 6.06543493270874,
351
+ "learning_rate": 6.787330316742083e-06,
352
+ "loss": 0.8361,
353
  "step": 440
354
  },
355
  {
356
  "epoch": 3.3582089552238807,
357
+ "grad_norm": 7.322782516479492,
358
+ "learning_rate": 6.7119155354449474e-06,
359
+ "loss": 0.8154,
360
  "step": 450
361
  },
362
  {
363
  "epoch": 3.4328358208955225,
364
+ "grad_norm": 7.006171703338623,
365
+ "learning_rate": 6.636500754147813e-06,
366
+ "loss": 0.796,
367
  "step": 460
368
  },
369
  {
370
  "epoch": 3.5074626865671643,
371
+ "grad_norm": 5.344196796417236,
372
+ "learning_rate": 6.5610859728506795e-06,
373
+ "loss": 0.7981,
374
  "step": 470
375
  },
376
  {
377
  "epoch": 3.582089552238806,
378
+ "grad_norm": 6.2761735916137695,
379
+ "learning_rate": 6.485671191553545e-06,
380
+ "loss": 0.8443,
381
  "step": 480
382
  },
383
  {
384
  "epoch": 3.656716417910448,
385
+ "grad_norm": 5.846128463745117,
386
+ "learning_rate": 6.410256410256412e-06,
387
+ "loss": 0.8236,
388
  "step": 490
389
  },
390
  {
391
  "epoch": 3.7313432835820897,
392
+ "grad_norm": 6.686851501464844,
393
+ "learning_rate": 6.334841628959276e-06,
394
+ "loss": 0.8115,
395
  "step": 500
396
  },
397
  {
398
  "epoch": 3.7313432835820897,
399
+ "eval_f1": 0.5492932407699946,
400
+ "eval_loss": 1.054356575012207,
401
+ "eval_runtime": 2.6244,
402
+ "eval_samples_per_second": 419.531,
403
+ "eval_steps_per_second": 6.859,
404
  "step": 500
405
  },
406
  {
407
  "epoch": 3.8059701492537314,
408
+ "grad_norm": 6.415255069732666,
409
+ "learning_rate": 6.259426847662142e-06,
410
+ "loss": 0.7944,
411
  "step": 510
412
  },
413
  {
414
  "epoch": 3.8805970149253732,
415
+ "grad_norm": 8.690467834472656,
416
+ "learning_rate": 6.1840120663650085e-06,
417
+ "loss": 0.8418,
418
  "step": 520
419
  },
420
  {
421
  "epoch": 3.955223880597015,
422
+ "grad_norm": 16.526342391967773,
423
+ "learning_rate": 6.108597285067874e-06,
424
+ "loss": 0.8438,
425
  "step": 530
426
  },
427
  {
428
  "epoch": 4.029850746268656,
429
+ "grad_norm": 5.72576904296875,
430
+ "learning_rate": 6.033182503770739e-06,
431
+ "loss": 0.7861,
432
  "step": 540
433
  },
434
  {
435
  "epoch": 4.104477611940299,
436
+ "grad_norm": 6.920104026794434,
437
+ "learning_rate": 5.957767722473605e-06,
438
+ "loss": 0.7423,
439
  "step": 550
440
  },
441
  {
442
  "epoch": 4.17910447761194,
443
+ "grad_norm": 4.901302337646484,
444
+ "learning_rate": 5.882352941176471e-06,
445
+ "loss": 0.7375,
446
  "step": 560
447
  },
448
  {
449
  "epoch": 4.253731343283582,
450
+ "grad_norm": 9.393866539001465,
451
+ "learning_rate": 5.806938159879337e-06,
452
+ "loss": 0.7803,
453
  "step": 570
454
  },
455
  {
456
  "epoch": 4.3283582089552235,
457
+ "grad_norm": 6.509814739227295,
458
+ "learning_rate": 5.731523378582202e-06,
459
+ "loss": 0.8197,
460
  "step": 580
461
  },
462
  {
463
  "epoch": 4.402985074626866,
464
+ "grad_norm": 7.71168851852417,
465
+ "learning_rate": 5.656108597285069e-06,
466
+ "loss": 0.7656,
467
  "step": 590
468
  },
469
  {
470
  "epoch": 4.477611940298507,
471
+ "grad_norm": 8.574570655822754,
472
+ "learning_rate": 5.580693815987934e-06,
473
+ "loss": 0.7483,
474
  "step": 600
475
  },
476
  {
477
  "epoch": 4.477611940298507,
478
+ "eval_f1": 0.5307248014454118,
479
+ "eval_loss": 1.1092573404312134,
480
+ "eval_runtime": 2.6211,
481
+ "eval_samples_per_second": 420.049,
482
+ "eval_steps_per_second": 6.867,
483
  "step": 600
484
  },
485
  {
486
  "epoch": 4.552238805970149,
487
+ "grad_norm": 6.70869779586792,
488
+ "learning_rate": 5.505279034690801e-06,
489
+ "loss": 0.7771,
490
  "step": 610
491
  },
492
  {
493
  "epoch": 4.6268656716417915,
494
+ "grad_norm": 7.6885480880737305,
495
+ "learning_rate": 5.4298642533936655e-06,
496
+ "loss": 0.7165,
497
  "step": 620
498
  },
499
  {
500
  "epoch": 4.701492537313433,
501
+ "grad_norm": 6.220367908477783,
502
+ "learning_rate": 5.354449472096531e-06,
503
+ "loss": 0.7245,
504
  "step": 630
505
  },
506
  {
507
  "epoch": 4.776119402985074,
508
+ "grad_norm": 7.706441879272461,
509
+ "learning_rate": 5.2790346907993975e-06,
510
+ "loss": 0.7412,
511
  "step": 640
512
  },
513
  {
514
  "epoch": 4.850746268656716,
515
+ "grad_norm": 6.295016765594482,
516
+ "learning_rate": 5.203619909502263e-06,
517
+ "loss": 0.723,
518
  "step": 650
519
  },
520
  {
521
  "epoch": 4.925373134328359,
522
+ "grad_norm": 5.999417781829834,
523
+ "learning_rate": 5.128205128205128e-06,
524
+ "loss": 0.7665,
525
  "step": 660
526
  },
527
  {
528
  "epoch": 5.0,
529
+ "grad_norm": 11.957300186157227,
530
+ "learning_rate": 5.052790346907994e-06,
531
+ "loss": 0.7852,
532
  "step": 670
533
  },
534
  {
535
+ "epoch": 5.074626865671641,
536
+ "grad_norm": 8.489127159118652,
537
+ "learning_rate": 4.97737556561086e-06,
538
+ "loss": 0.7029,
539
+ "step": 680
540
+ },
541
+ {
542
+ "epoch": 5.149253731343284,
543
+ "grad_norm": 9.558174133300781,
544
+ "learning_rate": 4.901960784313726e-06,
545
+ "loss": 0.7006,
546
+ "step": 690
547
+ },
548
+ {
549
+ "epoch": 5.223880597014926,
550
+ "grad_norm": 5.191695213317871,
551
+ "learning_rate": 4.826546003016592e-06,
552
+ "loss": 0.696,
553
+ "step": 700
554
+ },
555
+ {
556
+ "epoch": 5.223880597014926,
557
+ "eval_f1": 0.5424372891596922,
558
+ "eval_loss": 1.1064388751983643,
559
+ "eval_runtime": 2.626,
560
+ "eval_samples_per_second": 419.262,
561
+ "eval_steps_per_second": 6.854,
562
+ "step": 700
563
+ },
564
+ {
565
+ "epoch": 5.298507462686567,
566
+ "grad_norm": 10.742992401123047,
567
+ "learning_rate": 4.751131221719457e-06,
568
+ "loss": 0.7083,
569
+ "step": 710
570
+ },
571
+ {
572
+ "epoch": 5.373134328358209,
573
+ "grad_norm": 7.179316997528076,
574
+ "learning_rate": 4.675716440422323e-06,
575
+ "loss": 0.6909,
576
+ "step": 720
577
+ },
578
+ {
579
+ "epoch": 5.447761194029851,
580
+ "grad_norm": 8.081168174743652,
581
+ "learning_rate": 4.600301659125189e-06,
582
+ "loss": 0.7018,
583
+ "step": 730
584
+ },
585
+ {
586
+ "epoch": 5.522388059701493,
587
+ "grad_norm": 7.361329555511475,
588
+ "learning_rate": 4.5248868778280546e-06,
589
+ "loss": 0.7003,
590
+ "step": 740
591
+ },
592
+ {
593
+ "epoch": 5.597014925373134,
594
+ "grad_norm": 12.964821815490723,
595
+ "learning_rate": 4.44947209653092e-06,
596
+ "loss": 0.716,
597
+ "step": 750
598
+ },
599
+ {
600
+ "epoch": 5.6716417910447765,
601
+ "grad_norm": 7.4841084480285645,
602
+ "learning_rate": 4.374057315233786e-06,
603
+ "loss": 0.7114,
604
+ "step": 760
605
+ },
606
+ {
607
+ "epoch": 5.746268656716418,
608
+ "grad_norm": 7.906242370605469,
609
+ "learning_rate": 4.298642533936652e-06,
610
+ "loss": 0.7097,
611
+ "step": 770
612
+ },
613
+ {
614
+ "epoch": 5.82089552238806,
615
+ "grad_norm": 8.054797172546387,
616
+ "learning_rate": 4.223227752639518e-06,
617
+ "loss": 0.6926,
618
+ "step": 780
619
+ },
620
+ {
621
+ "epoch": 5.895522388059701,
622
+ "grad_norm": 6.4073805809021,
623
+ "learning_rate": 4.1478129713423835e-06,
624
+ "loss": 0.7081,
625
+ "step": 790
626
+ },
627
+ {
628
+ "epoch": 5.970149253731344,
629
+ "grad_norm": 7.464499473571777,
630
+ "learning_rate": 4.072398190045249e-06,
631
+ "loss": 0.7167,
632
+ "step": 800
633
+ },
634
+ {
635
+ "epoch": 5.970149253731344,
636
+ "eval_f1": 0.5292750734436421,
637
+ "eval_loss": 1.1407464742660522,
638
+ "eval_runtime": 2.6282,
639
+ "eval_samples_per_second": 418.913,
640
+ "eval_steps_per_second": 6.849,
641
+ "step": 800
642
+ },
643
+ {
644
+ "epoch": 6.044776119402985,
645
+ "grad_norm": 7.362347602844238,
646
+ "learning_rate": 3.9969834087481156e-06,
647
+ "loss": 0.6765,
648
+ "step": 810
649
+ },
650
+ {
651
+ "epoch": 6.119402985074627,
652
+ "grad_norm": 6.4378743171691895,
653
+ "learning_rate": 3.92156862745098e-06,
654
+ "loss": 0.667,
655
+ "step": 820
656
+ },
657
+ {
658
+ "epoch": 6.1940298507462686,
659
+ "grad_norm": 6.983713150024414,
660
+ "learning_rate": 3.846153846153847e-06,
661
+ "loss": 0.6804,
662
+ "step": 830
663
+ },
664
+ {
665
+ "epoch": 6.268656716417911,
666
+ "grad_norm": 6.926436901092529,
667
+ "learning_rate": 3.770739064856712e-06,
668
+ "loss": 0.6945,
669
+ "step": 840
670
+ },
671
+ {
672
+ "epoch": 6.343283582089552,
673
+ "grad_norm": 7.79516077041626,
674
+ "learning_rate": 3.695324283559578e-06,
675
+ "loss": 0.6491,
676
+ "step": 850
677
+ },
678
+ {
679
+ "epoch": 6.417910447761194,
680
+ "grad_norm": 6.210599899291992,
681
+ "learning_rate": 3.6199095022624436e-06,
682
+ "loss": 0.6564,
683
+ "step": 860
684
+ },
685
+ {
686
+ "epoch": 6.492537313432836,
687
+ "grad_norm": 10.464361190795898,
688
+ "learning_rate": 3.5444947209653097e-06,
689
+ "loss": 0.6735,
690
+ "step": 870
691
+ },
692
+ {
693
+ "epoch": 6.567164179104478,
694
+ "grad_norm": 8.545991897583008,
695
+ "learning_rate": 3.4690799396681753e-06,
696
+ "loss": 0.6456,
697
+ "step": 880
698
+ },
699
+ {
700
+ "epoch": 6.641791044776119,
701
+ "grad_norm": 7.849530220031738,
702
+ "learning_rate": 3.3936651583710413e-06,
703
+ "loss": 0.6301,
704
+ "step": 890
705
+ },
706
+ {
707
+ "epoch": 6.7164179104477615,
708
+ "grad_norm": 8.215511322021484,
709
+ "learning_rate": 3.3182503770739065e-06,
710
+ "loss": 0.7079,
711
+ "step": 900
712
+ },
713
+ {
714
+ "epoch": 6.7164179104477615,
715
+ "eval_f1": 0.5206113722605857,
716
+ "eval_loss": 1.1766188144683838,
717
+ "eval_runtime": 2.6268,
718
+ "eval_samples_per_second": 419.139,
719
+ "eval_steps_per_second": 6.852,
720
+ "step": 900
721
+ },
722
+ {
723
+ "epoch": 6.791044776119403,
724
+ "grad_norm": 5.998091220855713,
725
+ "learning_rate": 3.2428355957767726e-06,
726
+ "loss": 0.6949,
727
+ "step": 910
728
+ },
729
+ {
730
+ "epoch": 6.865671641791045,
731
+ "grad_norm": 7.981301784515381,
732
+ "learning_rate": 3.167420814479638e-06,
733
+ "loss": 0.6837,
734
+ "step": 920
735
+ },
736
+ {
737
+ "epoch": 6.940298507462686,
738
+ "grad_norm": 7.27372407913208,
739
+ "learning_rate": 3.0920060331825042e-06,
740
+ "loss": 0.6673,
741
+ "step": 930
742
+ },
743
+ {
744
+ "epoch": 7.014925373134329,
745
+ "grad_norm": 6.519421100616455,
746
+ "learning_rate": 3.0165912518853694e-06,
747
+ "loss": 0.6366,
748
+ "step": 940
749
+ },
750
+ {
751
+ "epoch": 7.08955223880597,
752
+ "grad_norm": 9.983951568603516,
753
+ "learning_rate": 2.9411764705882355e-06,
754
+ "loss": 0.6015,
755
+ "step": 950
756
+ },
757
+ {
758
+ "epoch": 7.164179104477612,
759
+ "grad_norm": 8.719895362854004,
760
+ "learning_rate": 2.865761689291101e-06,
761
+ "loss": 0.6228,
762
+ "step": 960
763
+ },
764
+ {
765
+ "epoch": 7.2388059701492535,
766
+ "grad_norm": 9.368388175964355,
767
+ "learning_rate": 2.790346907993967e-06,
768
+ "loss": 0.6213,
769
+ "step": 970
770
+ },
771
+ {
772
+ "epoch": 7.313432835820896,
773
+ "grad_norm": 6.723618984222412,
774
+ "learning_rate": 2.7149321266968327e-06,
775
+ "loss": 0.6307,
776
+ "step": 980
777
+ },
778
+ {
779
+ "epoch": 7.388059701492537,
780
+ "grad_norm": 6.052383899688721,
781
+ "learning_rate": 2.6395173453996988e-06,
782
+ "loss": 0.5769,
783
+ "step": 990
784
+ },
785
+ {
786
+ "epoch": 7.462686567164179,
787
+ "grad_norm": 6.24008846282959,
788
+ "learning_rate": 2.564102564102564e-06,
789
+ "loss": 0.6593,
790
+ "step": 1000
791
+ },
792
+ {
793
+ "epoch": 7.462686567164179,
794
+ "eval_f1": 0.5257267484677619,
795
+ "eval_loss": 1.2102895975112915,
796
+ "eval_runtime": 2.6248,
797
+ "eval_samples_per_second": 419.454,
798
+ "eval_steps_per_second": 6.858,
799
+ "step": 1000
800
+ },
801
+ {
802
+ "epoch": 7.537313432835821,
803
+ "grad_norm": 12.369339942932129,
804
+ "learning_rate": 2.48868778280543e-06,
805
+ "loss": 0.6706,
806
+ "step": 1010
807
+ },
808
+ {
809
+ "epoch": 7.611940298507463,
810
+ "grad_norm": 5.776430606842041,
811
+ "learning_rate": 2.413273001508296e-06,
812
+ "loss": 0.6241,
813
+ "step": 1020
814
+ },
815
+ {
816
+ "epoch": 7.686567164179104,
817
+ "grad_norm": 7.558428764343262,
818
+ "learning_rate": 2.3378582202111617e-06,
819
+ "loss": 0.6643,
820
+ "step": 1030
821
+ },
822
+ {
823
+ "epoch": 7.7611940298507465,
824
+ "grad_norm": 9.2826509475708,
825
+ "learning_rate": 2.2624434389140273e-06,
826
+ "loss": 0.6296,
827
+ "step": 1040
828
+ },
829
+ {
830
+ "epoch": 7.835820895522388,
831
+ "grad_norm": 7.237534999847412,
832
+ "learning_rate": 2.187028657616893e-06,
833
+ "loss": 0.6162,
834
+ "step": 1050
835
+ },
836
+ {
837
+ "epoch": 7.91044776119403,
838
+ "grad_norm": 6.077177047729492,
839
+ "learning_rate": 2.111613876319759e-06,
840
+ "loss": 0.6446,
841
+ "step": 1060
842
+ },
843
+ {
844
+ "epoch": 7.985074626865671,
845
+ "grad_norm": 7.066919803619385,
846
+ "learning_rate": 2.0361990950226245e-06,
847
+ "loss": 0.6244,
848
+ "step": 1070
849
+ },
850
+ {
851
+ "epoch": 8.059701492537313,
852
+ "grad_norm": 6.757171630859375,
853
+ "learning_rate": 1.96078431372549e-06,
854
+ "loss": 0.6031,
855
+ "step": 1080
856
+ },
857
+ {
858
+ "epoch": 8.134328358208956,
859
+ "grad_norm": 7.3823018074035645,
860
+ "learning_rate": 1.885369532428356e-06,
861
+ "loss": 0.5991,
862
+ "step": 1090
863
+ },
864
+ {
865
+ "epoch": 8.208955223880597,
866
+ "grad_norm": 7.998798370361328,
867
+ "learning_rate": 1.8099547511312218e-06,
868
+ "loss": 0.6299,
869
+ "step": 1100
870
+ },
871
+ {
872
+ "epoch": 8.208955223880597,
873
+ "eval_f1": 0.5248808380426293,
874
+ "eval_loss": 1.2031023502349854,
875
+ "eval_runtime": 2.624,
876
+ "eval_samples_per_second": 419.588,
877
+ "eval_steps_per_second": 6.86,
878
+ "step": 1100
879
+ },
880
+ {
881
+ "epoch": 8.283582089552239,
882
+ "grad_norm": 8.981494903564453,
883
+ "learning_rate": 1.7345399698340876e-06,
884
+ "loss": 0.6001,
885
+ "step": 1110
886
+ },
887
+ {
888
+ "epoch": 8.35820895522388,
889
+ "grad_norm": 8.06408977508545,
890
+ "learning_rate": 1.6591251885369533e-06,
891
+ "loss": 0.6103,
892
+ "step": 1120
893
+ },
894
+ {
895
+ "epoch": 8.432835820895523,
896
+ "grad_norm": 8.383085250854492,
897
+ "learning_rate": 1.583710407239819e-06,
898
+ "loss": 0.6015,
899
+ "step": 1130
900
+ },
901
+ {
902
+ "epoch": 8.507462686567164,
903
+ "grad_norm": 8.711113929748535,
904
+ "learning_rate": 1.5082956259426847e-06,
905
+ "loss": 0.5683,
906
+ "step": 1140
907
+ },
908
+ {
909
+ "epoch": 8.582089552238806,
910
+ "grad_norm": 6.439323902130127,
911
+ "learning_rate": 1.4328808446455505e-06,
912
+ "loss": 0.5873,
913
+ "step": 1150
914
+ },
915
+ {
916
+ "epoch": 8.656716417910447,
917
+ "grad_norm": 7.051445484161377,
918
+ "learning_rate": 1.3574660633484164e-06,
919
+ "loss": 0.6062,
920
+ "step": 1160
921
+ },
922
+ {
923
+ "epoch": 8.73134328358209,
924
+ "grad_norm": 10.478583335876465,
925
+ "learning_rate": 1.282051282051282e-06,
926
+ "loss": 0.5616,
927
+ "step": 1170
928
+ },
929
+ {
930
+ "epoch": 8.805970149253731,
931
+ "grad_norm": 8.301910400390625,
932
+ "learning_rate": 1.206636500754148e-06,
933
+ "loss": 0.579,
934
+ "step": 1180
935
+ },
936
+ {
937
+ "epoch": 8.880597014925373,
938
+ "grad_norm": 6.833534240722656,
939
+ "learning_rate": 1.1312217194570136e-06,
940
+ "loss": 0.6271,
941
+ "step": 1190
942
+ },
943
+ {
944
+ "epoch": 8.955223880597014,
945
+ "grad_norm": 12.211673736572266,
946
+ "learning_rate": 1.0558069381598795e-06,
947
+ "loss": 0.675,
948
+ "step": 1200
949
+ },
950
+ {
951
+ "epoch": 8.955223880597014,
952
+ "eval_f1": 0.5198122319190461,
953
+ "eval_loss": 1.2117300033569336,
954
+ "eval_runtime": 2.6239,
955
+ "eval_samples_per_second": 419.601,
956
+ "eval_steps_per_second": 6.86,
957
+ "step": 1200
958
+ },
959
+ {
960
+ "epoch": 9.029850746268657,
961
+ "grad_norm": 7.296724796295166,
962
+ "learning_rate": 9.80392156862745e-07,
963
+ "loss": 0.6175,
964
+ "step": 1210
965
+ },
966
+ {
967
+ "epoch": 9.104477611940299,
968
+ "grad_norm": 8.846306800842285,
969
+ "learning_rate": 9.049773755656109e-07,
970
+ "loss": 0.5649,
971
+ "step": 1220
972
+ },
973
+ {
974
+ "epoch": 9.17910447761194,
975
+ "grad_norm": 10.289523124694824,
976
+ "learning_rate": 8.295625942684766e-07,
977
+ "loss": 0.6298,
978
+ "step": 1230
979
+ },
980
+ {
981
+ "epoch": 9.253731343283581,
982
+ "grad_norm": 7.686677932739258,
983
+ "learning_rate": 7.541478129713424e-07,
984
+ "loss": 0.5787,
985
+ "step": 1240
986
+ },
987
+ {
988
+ "epoch": 9.328358208955224,
989
+ "grad_norm": 10.47728443145752,
990
+ "learning_rate": 6.787330316742082e-07,
991
+ "loss": 0.5792,
992
+ "step": 1250
993
+ },
994
+ {
995
+ "epoch": 9.402985074626866,
996
+ "grad_norm": 7.4656500816345215,
997
+ "learning_rate": 6.03318250377074e-07,
998
+ "loss": 0.6518,
999
+ "step": 1260
1000
+ },
1001
+ {
1002
+ "epoch": 9.477611940298507,
1003
+ "grad_norm": 6.7001051902771,
1004
+ "learning_rate": 5.279034690799397e-07,
1005
+ "loss": 0.5787,
1006
+ "step": 1270
1007
+ },
1008
+ {
1009
+ "epoch": 9.552238805970148,
1010
+ "grad_norm": 8.94778823852539,
1011
+ "learning_rate": 4.5248868778280546e-07,
1012
+ "loss": 0.5844,
1013
+ "step": 1280
1014
+ },
1015
+ {
1016
+ "epoch": 9.626865671641792,
1017
+ "grad_norm": 6.784146308898926,
1018
+ "learning_rate": 3.770739064856712e-07,
1019
+ "loss": 0.5857,
1020
+ "step": 1290
1021
+ },
1022
+ {
1023
+ "epoch": 9.701492537313433,
1024
+ "grad_norm": 7.766072750091553,
1025
+ "learning_rate": 3.01659125188537e-07,
1026
+ "loss": 0.5619,
1027
+ "step": 1300
1028
+ },
1029
+ {
1030
+ "epoch": 9.701492537313433,
1031
+ "eval_f1": 0.5208328976255492,
1032
+ "eval_loss": 1.2219291925430298,
1033
+ "eval_runtime": 2.6161,
1034
+ "eval_samples_per_second": 420.863,
1035
+ "eval_steps_per_second": 6.881,
1036
+ "step": 1300
1037
+ },
1038
+ {
1039
+ "epoch": 9.776119402985074,
1040
+ "grad_norm": 7.4001874923706055,
1041
+ "learning_rate": 2.2624434389140273e-07,
1042
+ "loss": 0.5874,
1043
+ "step": 1310
1044
+ },
1045
+ {
1046
+ "epoch": 9.850746268656717,
1047
+ "grad_norm": 7.507802486419678,
1048
+ "learning_rate": 1.508295625942685e-07,
1049
+ "loss": 0.5875,
1050
+ "step": 1320
1051
+ },
1052
+ {
1053
+ "epoch": 9.925373134328359,
1054
+ "grad_norm": 6.6053147315979,
1055
+ "learning_rate": 7.541478129713425e-08,
1056
+ "loss": 0.5564,
1057
+ "step": 1330
1058
+ },
1059
+ {
1060
+ "epoch": 10.0,
1061
+ "grad_norm": 8.790937423706055,
1062
+ "learning_rate": 0.0,
1063
+ "loss": 0.5623,
1064
+ "step": 1340
1065
+ },
1066
+ {
1067
+ "epoch": 10.0,
1068
+ "step": 1340,
1069
+ "total_flos": 1.3172588231616e+16,
1070
+ "train_loss": 0.8062449658094947,
1071
+ "train_runtime": 588.6173,
1072
+ "train_samples_per_second": 145.154,
1073
+ "train_steps_per_second": 2.277
1074
  }
1075
  ],
1076
  "logging_steps": 10,
1077
+ "max_steps": 1340,
1078
  "num_input_tokens_seen": 0,
1079
+ "num_train_epochs": 10,
1080
  "save_steps": 100,
1081
  "stateful_callbacks": {
1082
  "TrainerControl": {
 
1090
  "attributes": {}
1091
  }
1092
  },
1093
+ "total_flos": 1.3172588231616e+16,
1094
  "train_batch_size": 64,
1095
  "trial_name": null,
1096
  "trial_params": null