error577 commited on
Commit
2fa71a3
·
verified ·
1 Parent(s): 61d7dfa

Training in progress, step 400, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bbe7bf38ff55273fba28bf8a5eec67669a9a456c4577907b44d64917efdd58cd
3
  size 639691872
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9961be420a9f5b1ece0bf8352ac72f0825cae7d693fa0e49096ffb7c6fd9d324
3
  size 639691872
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ecad31b57776699a4c7683e2ab76cdbb8a395dff135bf16f0091f272964b22db
3
  size 1279647314
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e27e9ec9ac3798574a12ad5881eb724672736596feeec845aa325cf61868ceae
3
  size 1279647314
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ee55dad95ab2aa5141e72f636498273886c2790089f75739ce67f0836605be6a
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:13af9b7c642e074997a9bdbae88ba56e792139bc8360f4873ff633fa70291205
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:05bcff6304c57f73980e2c115f70c0be4066a85db604927dfb46a76647ef6e9a
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6dd3cfeea20c315ac503882fc53b8b9eae9cdcaf6dd61efec7bfa78209d384fd
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 1.836081624031067,
3
- "best_model_checkpoint": "miner_id_24/checkpoint-200",
4
- "epoch": 0.1078857759347291,
5
  "eval_steps": 200,
6
- "global_step": 200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1423,6 +1423,1414 @@
1423
  "eval_samples_per_second": 2.12,
1424
  "eval_steps_per_second": 2.12,
1425
  "step": 200
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1426
  }
1427
  ],
1428
  "logging_steps": 1,
@@ -1451,7 +2859,7 @@
1451
  "attributes": {}
1452
  }
1453
  },
1454
- "total_flos": 3.571584181941043e+17,
1455
  "train_batch_size": 1,
1456
  "trial_name": null,
1457
  "trial_params": null
 
1
  {
2
+ "best_metric": 1.6627388000488281,
3
+ "best_model_checkpoint": "miner_id_24/checkpoint-400",
4
+ "epoch": 0.2157715518694582,
5
  "eval_steps": 200,
6
+ "global_step": 400,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1423
  "eval_samples_per_second": 2.12,
1424
  "eval_steps_per_second": 2.12,
1425
  "step": 200
1426
+ },
1427
+ {
1428
+ "epoch": 0.10842520481440275,
1429
+ "grad_norm": 23.590002059936523,
1430
+ "learning_rate": 0.0001998311255158628,
1431
+ "loss": 53.9458,
1432
+ "step": 201
1433
+ },
1434
+ {
1435
+ "epoch": 0.1089646336940764,
1436
+ "grad_norm": 39.737159729003906,
1437
+ "learning_rate": 0.00019982776587698666,
1438
+ "loss": 85.7514,
1439
+ "step": 202
1440
+ },
1441
+ {
1442
+ "epoch": 0.10950406257375005,
1443
+ "grad_norm": 35.41561508178711,
1444
+ "learning_rate": 0.00019982437317643217,
1445
+ "loss": 84.9662,
1446
+ "step": 203
1447
+ },
1448
+ {
1449
+ "epoch": 0.11004349145342368,
1450
+ "grad_norm": 31.39605140686035,
1451
+ "learning_rate": 0.0001998209474153229,
1452
+ "loss": 110.0561,
1453
+ "step": 204
1454
+ },
1455
+ {
1456
+ "epoch": 0.11058292033309733,
1457
+ "grad_norm": 30.160261154174805,
1458
+ "learning_rate": 0.00019981748859479348,
1459
+ "loss": 101.1574,
1460
+ "step": 205
1461
+ },
1462
+ {
1463
+ "epoch": 0.11112234921277098,
1464
+ "grad_norm": 33.4417724609375,
1465
+ "learning_rate": 0.00019981399671598939,
1466
+ "loss": 116.0456,
1467
+ "step": 206
1468
+ },
1469
+ {
1470
+ "epoch": 0.11166177809244462,
1471
+ "grad_norm": 34.16884994506836,
1472
+ "learning_rate": 0.0001998104717800671,
1473
+ "loss": 103.0287,
1474
+ "step": 207
1475
+ },
1476
+ {
1477
+ "epoch": 0.11220120697211827,
1478
+ "grad_norm": 33.58393859863281,
1479
+ "learning_rate": 0.00019980691378819406,
1480
+ "loss": 95.5024,
1481
+ "step": 208
1482
+ },
1483
+ {
1484
+ "epoch": 0.11274063585179192,
1485
+ "grad_norm": 29.785871505737305,
1486
+ "learning_rate": 0.00019980332274154857,
1487
+ "loss": 91.5854,
1488
+ "step": 209
1489
+ },
1490
+ {
1491
+ "epoch": 0.11328006473146555,
1492
+ "grad_norm": 29.184667587280273,
1493
+ "learning_rate": 0.00019979969864131997,
1494
+ "loss": 86.9138,
1495
+ "step": 210
1496
+ },
1497
+ {
1498
+ "epoch": 0.1138194936111392,
1499
+ "grad_norm": 25.164024353027344,
1500
+ "learning_rate": 0.00019979604148870854,
1501
+ "loss": 72.7827,
1502
+ "step": 211
1503
+ },
1504
+ {
1505
+ "epoch": 0.11435892249081285,
1506
+ "grad_norm": 18.179292678833008,
1507
+ "learning_rate": 0.00019979235128492545,
1508
+ "loss": 67.364,
1509
+ "step": 212
1510
+ },
1511
+ {
1512
+ "epoch": 0.1148983513704865,
1513
+ "grad_norm": 20.353260040283203,
1514
+ "learning_rate": 0.00019978862803119284,
1515
+ "loss": 60.0141,
1516
+ "step": 213
1517
+ },
1518
+ {
1519
+ "epoch": 0.11543778025016015,
1520
+ "grad_norm": 27.25603485107422,
1521
+ "learning_rate": 0.00019978487172874382,
1522
+ "loss": 61.8063,
1523
+ "step": 214
1524
+ },
1525
+ {
1526
+ "epoch": 0.1159772091298338,
1527
+ "grad_norm": 40.56468963623047,
1528
+ "learning_rate": 0.00019978108237882244,
1529
+ "loss": 51.2483,
1530
+ "step": 215
1531
+ },
1532
+ {
1533
+ "epoch": 0.11651663800950743,
1534
+ "grad_norm": 64.65696716308594,
1535
+ "learning_rate": 0.00019977725998268365,
1536
+ "loss": 37.8312,
1537
+ "step": 216
1538
+ },
1539
+ {
1540
+ "epoch": 0.11705606688918108,
1541
+ "grad_norm": 80.94468688964844,
1542
+ "learning_rate": 0.00019977340454159343,
1543
+ "loss": 55.2775,
1544
+ "step": 217
1545
+ },
1546
+ {
1547
+ "epoch": 0.11759549576885472,
1548
+ "grad_norm": 100.61930084228516,
1549
+ "learning_rate": 0.00019976951605682862,
1550
+ "loss": 65.5767,
1551
+ "step": 218
1552
+ },
1553
+ {
1554
+ "epoch": 0.11813492464852837,
1555
+ "grad_norm": 71.5768051147461,
1556
+ "learning_rate": 0.00019976559452967703,
1557
+ "loss": 57.5296,
1558
+ "step": 219
1559
+ },
1560
+ {
1561
+ "epoch": 0.11867435352820202,
1562
+ "grad_norm": 37.10725021362305,
1563
+ "learning_rate": 0.00019976163996143745,
1564
+ "loss": 48.8497,
1565
+ "step": 220
1566
+ },
1567
+ {
1568
+ "epoch": 0.11921378240787567,
1569
+ "grad_norm": 40.85627746582031,
1570
+ "learning_rate": 0.00019975765235341955,
1571
+ "loss": 47.6466,
1572
+ "step": 221
1573
+ },
1574
+ {
1575
+ "epoch": 0.1197532112875493,
1576
+ "grad_norm": 55.1395263671875,
1577
+ "learning_rate": 0.000199753631706944,
1578
+ "loss": 60.2519,
1579
+ "step": 222
1580
+ },
1581
+ {
1582
+ "epoch": 0.12029264016722295,
1583
+ "grad_norm": 42.060585021972656,
1584
+ "learning_rate": 0.00019974957802334234,
1585
+ "loss": 48.1031,
1586
+ "step": 223
1587
+ },
1588
+ {
1589
+ "epoch": 0.1208320690468966,
1590
+ "grad_norm": 36.57340621948242,
1591
+ "learning_rate": 0.00019974549130395713,
1592
+ "loss": 43.3995,
1593
+ "step": 224
1594
+ },
1595
+ {
1596
+ "epoch": 0.12137149792657025,
1597
+ "grad_norm": 31.497970581054688,
1598
+ "learning_rate": 0.0001997413715501419,
1599
+ "loss": 41.1591,
1600
+ "step": 225
1601
+ },
1602
+ {
1603
+ "epoch": 0.1219109268062439,
1604
+ "grad_norm": 30.481502532958984,
1605
+ "learning_rate": 0.00019973721876326094,
1606
+ "loss": 38.0712,
1607
+ "step": 226
1608
+ },
1609
+ {
1610
+ "epoch": 0.12245035568591753,
1611
+ "grad_norm": 38.2381477355957,
1612
+ "learning_rate": 0.00019973303294468968,
1613
+ "loss": 46.3861,
1614
+ "step": 227
1615
+ },
1616
+ {
1617
+ "epoch": 0.12298978456559118,
1618
+ "grad_norm": 37.4508171081543,
1619
+ "learning_rate": 0.0001997288140958144,
1620
+ "loss": 49.3107,
1621
+ "step": 228
1622
+ },
1623
+ {
1624
+ "epoch": 0.12352921344526482,
1625
+ "grad_norm": 37.3139533996582,
1626
+ "learning_rate": 0.0001997245622180323,
1627
+ "loss": 43.1914,
1628
+ "step": 229
1629
+ },
1630
+ {
1631
+ "epoch": 0.12406864232493847,
1632
+ "grad_norm": 35.13384246826172,
1633
+ "learning_rate": 0.0001997202773127516,
1634
+ "loss": 45.7228,
1635
+ "step": 230
1636
+ },
1637
+ {
1638
+ "epoch": 0.12460807120461212,
1639
+ "grad_norm": 37.45779037475586,
1640
+ "learning_rate": 0.00019971595938139135,
1641
+ "loss": 45.0848,
1642
+ "step": 231
1643
+ },
1644
+ {
1645
+ "epoch": 0.12514750008428577,
1646
+ "grad_norm": 37.03962707519531,
1647
+ "learning_rate": 0.00019971160842538162,
1648
+ "loss": 46.3705,
1649
+ "step": 232
1650
+ },
1651
+ {
1652
+ "epoch": 0.12568692896395942,
1653
+ "grad_norm": 30.98250389099121,
1654
+ "learning_rate": 0.0001997072244461634,
1655
+ "loss": 41.1065,
1656
+ "step": 233
1657
+ },
1658
+ {
1659
+ "epoch": 0.12622635784363306,
1660
+ "grad_norm": 33.62482833862305,
1661
+ "learning_rate": 0.00019970280744518854,
1662
+ "loss": 41.8594,
1663
+ "step": 234
1664
+ },
1665
+ {
1666
+ "epoch": 0.1267657867233067,
1667
+ "grad_norm": 45.488739013671875,
1668
+ "learning_rate": 0.00019969835742392,
1669
+ "loss": 38.6525,
1670
+ "step": 235
1671
+ },
1672
+ {
1673
+ "epoch": 0.12730521560298033,
1674
+ "grad_norm": 43.84321594238281,
1675
+ "learning_rate": 0.0001996938743838315,
1676
+ "loss": 53.2114,
1677
+ "step": 236
1678
+ },
1679
+ {
1680
+ "epoch": 0.12784464448265398,
1681
+ "grad_norm": 40.51958084106445,
1682
+ "learning_rate": 0.00019968935832640782,
1683
+ "loss": 50.4725,
1684
+ "step": 237
1685
+ },
1686
+ {
1687
+ "epoch": 0.12838407336232763,
1688
+ "grad_norm": 35.1596794128418,
1689
+ "learning_rate": 0.00019968480925314458,
1690
+ "loss": 45.1618,
1691
+ "step": 238
1692
+ },
1693
+ {
1694
+ "epoch": 0.12892350224200128,
1695
+ "grad_norm": 32.27614974975586,
1696
+ "learning_rate": 0.00019968022716554832,
1697
+ "loss": 38.2164,
1698
+ "step": 239
1699
+ },
1700
+ {
1701
+ "epoch": 0.12946293112167492,
1702
+ "grad_norm": 33.67794418334961,
1703
+ "learning_rate": 0.00019967561206513668,
1704
+ "loss": 43.3203,
1705
+ "step": 240
1706
+ },
1707
+ {
1708
+ "epoch": 0.13000236000134857,
1709
+ "grad_norm": 26.34979820251465,
1710
+ "learning_rate": 0.00019967096395343806,
1711
+ "loss": 32.1165,
1712
+ "step": 241
1713
+ },
1714
+ {
1715
+ "epoch": 0.13054178888102222,
1716
+ "grad_norm": 33.10830307006836,
1717
+ "learning_rate": 0.00019966628283199186,
1718
+ "loss": 45.5207,
1719
+ "step": 242
1720
+ },
1721
+ {
1722
+ "epoch": 0.13108121776069587,
1723
+ "grad_norm": 47.04872131347656,
1724
+ "learning_rate": 0.00019966156870234844,
1725
+ "loss": 44.7497,
1726
+ "step": 243
1727
+ },
1728
+ {
1729
+ "epoch": 0.13162064664036952,
1730
+ "grad_norm": 38.99346160888672,
1731
+ "learning_rate": 0.000199656821566069,
1732
+ "loss": 43.9255,
1733
+ "step": 244
1734
+ },
1735
+ {
1736
+ "epoch": 0.13216007552004316,
1737
+ "grad_norm": 29.892854690551758,
1738
+ "learning_rate": 0.00019965204142472574,
1739
+ "loss": 48.4896,
1740
+ "step": 245
1741
+ },
1742
+ {
1743
+ "epoch": 0.1326995043997168,
1744
+ "grad_norm": 37.65726089477539,
1745
+ "learning_rate": 0.00019964722827990185,
1746
+ "loss": 37.7987,
1747
+ "step": 246
1748
+ },
1749
+ {
1750
+ "epoch": 0.13323893327939046,
1751
+ "grad_norm": 41.673274993896484,
1752
+ "learning_rate": 0.00019964238213319134,
1753
+ "loss": 48.4095,
1754
+ "step": 247
1755
+ },
1756
+ {
1757
+ "epoch": 0.13377836215906408,
1758
+ "grad_norm": 37.152793884277344,
1759
+ "learning_rate": 0.00019963750298619917,
1760
+ "loss": 33.8212,
1761
+ "step": 248
1762
+ },
1763
+ {
1764
+ "epoch": 0.13431779103873773,
1765
+ "grad_norm": 43.92071533203125,
1766
+ "learning_rate": 0.00019963259084054128,
1767
+ "loss": 35.554,
1768
+ "step": 249
1769
+ },
1770
+ {
1771
+ "epoch": 0.13485721991841138,
1772
+ "grad_norm": 39.161903381347656,
1773
+ "learning_rate": 0.0001996276456978445,
1774
+ "loss": 33.8096,
1775
+ "step": 250
1776
+ },
1777
+ {
1778
+ "epoch": 0.13539664879808502,
1779
+ "grad_norm": 24.633363723754883,
1780
+ "learning_rate": 0.00019962266755974657,
1781
+ "loss": 46.0338,
1782
+ "step": 251
1783
+ },
1784
+ {
1785
+ "epoch": 0.13593607767775867,
1786
+ "grad_norm": 54.83051300048828,
1787
+ "learning_rate": 0.00019961765642789625,
1788
+ "loss": 80.4599,
1789
+ "step": 252
1790
+ },
1791
+ {
1792
+ "epoch": 0.13647550655743232,
1793
+ "grad_norm": 43.1768684387207,
1794
+ "learning_rate": 0.0001996126123039531,
1795
+ "loss": 84.3379,
1796
+ "step": 253
1797
+ },
1798
+ {
1799
+ "epoch": 0.13701493543710597,
1800
+ "grad_norm": 24.49346160888672,
1801
+ "learning_rate": 0.00019960753518958772,
1802
+ "loss": 100.9898,
1803
+ "step": 254
1804
+ },
1805
+ {
1806
+ "epoch": 0.13755436431677961,
1807
+ "grad_norm": 38.09309768676758,
1808
+ "learning_rate": 0.00019960242508648154,
1809
+ "loss": 101.0717,
1810
+ "step": 255
1811
+ },
1812
+ {
1813
+ "epoch": 0.13809379319645326,
1814
+ "grad_norm": 40.072296142578125,
1815
+ "learning_rate": 0.00019959728199632699,
1816
+ "loss": 108.2131,
1817
+ "step": 256
1818
+ },
1819
+ {
1820
+ "epoch": 0.1386332220761269,
1821
+ "grad_norm": 43.77210235595703,
1822
+ "learning_rate": 0.0001995921059208274,
1823
+ "loss": 111.636,
1824
+ "step": 257
1825
+ },
1826
+ {
1827
+ "epoch": 0.13917265095580056,
1828
+ "grad_norm": 42.023155212402344,
1829
+ "learning_rate": 0.00019958689686169697,
1830
+ "loss": 90.4911,
1831
+ "step": 258
1832
+ },
1833
+ {
1834
+ "epoch": 0.13971207983547418,
1835
+ "grad_norm": 27.917343139648438,
1836
+ "learning_rate": 0.00019958165482066094,
1837
+ "loss": 92.3676,
1838
+ "step": 259
1839
+ },
1840
+ {
1841
+ "epoch": 0.14025150871514783,
1842
+ "grad_norm": 19.174135208129883,
1843
+ "learning_rate": 0.00019957637979945537,
1844
+ "loss": 88.4276,
1845
+ "step": 260
1846
+ },
1847
+ {
1848
+ "epoch": 0.14079093759482147,
1849
+ "grad_norm": 22.779672622680664,
1850
+ "learning_rate": 0.0001995710717998273,
1851
+ "loss": 88.3991,
1852
+ "step": 261
1853
+ },
1854
+ {
1855
+ "epoch": 0.14133036647449512,
1856
+ "grad_norm": 17.607568740844727,
1857
+ "learning_rate": 0.00019956573082353463,
1858
+ "loss": 77.4426,
1859
+ "step": 262
1860
+ },
1861
+ {
1862
+ "epoch": 0.14186979535416877,
1863
+ "grad_norm": 22.228328704833984,
1864
+ "learning_rate": 0.00019956035687234626,
1865
+ "loss": 68.3415,
1866
+ "step": 263
1867
+ },
1868
+ {
1869
+ "epoch": 0.14240922423384242,
1870
+ "grad_norm": 21.00279998779297,
1871
+ "learning_rate": 0.00019955494994804198,
1872
+ "loss": 70.7203,
1873
+ "step": 264
1874
+ },
1875
+ {
1876
+ "epoch": 0.14294865311351607,
1877
+ "grad_norm": 27.789443969726562,
1878
+ "learning_rate": 0.00019954951005241248,
1879
+ "loss": 62.4471,
1880
+ "step": 265
1881
+ },
1882
+ {
1883
+ "epoch": 0.14348808199318971,
1884
+ "grad_norm": 21.813310623168945,
1885
+ "learning_rate": 0.0001995440371872594,
1886
+ "loss": 65.5364,
1887
+ "step": 266
1888
+ },
1889
+ {
1890
+ "epoch": 0.14402751087286336,
1891
+ "grad_norm": 22.338788986206055,
1892
+ "learning_rate": 0.00019953853135439522,
1893
+ "loss": 53.7872,
1894
+ "step": 267
1895
+ },
1896
+ {
1897
+ "epoch": 0.144566939752537,
1898
+ "grad_norm": 17.053470611572266,
1899
+ "learning_rate": 0.00019953299255564346,
1900
+ "loss": 46.6823,
1901
+ "step": 268
1902
+ },
1903
+ {
1904
+ "epoch": 0.14510636863221066,
1905
+ "grad_norm": 34.75794219970703,
1906
+ "learning_rate": 0.0001995274207928385,
1907
+ "loss": 32.208,
1908
+ "step": 269
1909
+ },
1910
+ {
1911
+ "epoch": 0.1456457975118843,
1912
+ "grad_norm": 76.52667236328125,
1913
+ "learning_rate": 0.00019952181606782565,
1914
+ "loss": 52.4054,
1915
+ "step": 270
1916
+ },
1917
+ {
1918
+ "epoch": 0.14618522639155793,
1919
+ "grad_norm": 71.48796844482422,
1920
+ "learning_rate": 0.00019951617838246107,
1921
+ "loss": 48.9668,
1922
+ "step": 271
1923
+ },
1924
+ {
1925
+ "epoch": 0.14672465527123157,
1926
+ "grad_norm": 79.96577453613281,
1927
+ "learning_rate": 0.00019951050773861192,
1928
+ "loss": 61.6082,
1929
+ "step": 272
1930
+ },
1931
+ {
1932
+ "epoch": 0.14726408415090522,
1933
+ "grad_norm": 42.05474090576172,
1934
+ "learning_rate": 0.0001995048041381562,
1935
+ "loss": 50.8627,
1936
+ "step": 273
1937
+ },
1938
+ {
1939
+ "epoch": 0.14780351303057887,
1940
+ "grad_norm": 43.19125747680664,
1941
+ "learning_rate": 0.00019949906758298295,
1942
+ "loss": 45.519,
1943
+ "step": 274
1944
+ },
1945
+ {
1946
+ "epoch": 0.14834294191025252,
1947
+ "grad_norm": 47.39426040649414,
1948
+ "learning_rate": 0.00019949329807499198,
1949
+ "loss": 51.654,
1950
+ "step": 275
1951
+ },
1952
+ {
1953
+ "epoch": 0.14888237078992617,
1954
+ "grad_norm": 36.0722770690918,
1955
+ "learning_rate": 0.00019948749561609415,
1956
+ "loss": 46.8854,
1957
+ "step": 276
1958
+ },
1959
+ {
1960
+ "epoch": 0.14942179966959981,
1961
+ "grad_norm": 33.252742767333984,
1962
+ "learning_rate": 0.00019948166020821107,
1963
+ "loss": 46.7532,
1964
+ "step": 277
1965
+ },
1966
+ {
1967
+ "epoch": 0.14996122854927346,
1968
+ "grad_norm": 33.89019012451172,
1969
+ "learning_rate": 0.0001994757918532754,
1970
+ "loss": 49.6403,
1971
+ "step": 278
1972
+ },
1973
+ {
1974
+ "epoch": 0.1505006574289471,
1975
+ "grad_norm": 37.914676666259766,
1976
+ "learning_rate": 0.00019946989055323066,
1977
+ "loss": 54.5018,
1978
+ "step": 279
1979
+ },
1980
+ {
1981
+ "epoch": 0.15104008630862076,
1982
+ "grad_norm": 37.611061096191406,
1983
+ "learning_rate": 0.00019946395631003128,
1984
+ "loss": 50.6423,
1985
+ "step": 280
1986
+ },
1987
+ {
1988
+ "epoch": 0.1515795151882944,
1989
+ "grad_norm": 36.489723205566406,
1990
+ "learning_rate": 0.00019945798912564264,
1991
+ "loss": 45.9299,
1992
+ "step": 281
1993
+ },
1994
+ {
1995
+ "epoch": 0.15211894406796803,
1996
+ "grad_norm": 31.33220100402832,
1997
+ "learning_rate": 0.00019945198900204095,
1998
+ "loss": 47.4519,
1999
+ "step": 282
2000
+ },
2001
+ {
2002
+ "epoch": 0.15265837294764167,
2003
+ "grad_norm": 32.4266242980957,
2004
+ "learning_rate": 0.00019944595594121337,
2005
+ "loss": 40.0806,
2006
+ "step": 283
2007
+ },
2008
+ {
2009
+ "epoch": 0.15319780182731532,
2010
+ "grad_norm": 38.17313003540039,
2011
+ "learning_rate": 0.00019943988994515797,
2012
+ "loss": 39.9765,
2013
+ "step": 284
2014
+ },
2015
+ {
2016
+ "epoch": 0.15373723070698897,
2017
+ "grad_norm": 40.299354553222656,
2018
+ "learning_rate": 0.00019943379101588376,
2019
+ "loss": 40.7812,
2020
+ "step": 285
2021
+ },
2022
+ {
2023
+ "epoch": 0.15427665958666262,
2024
+ "grad_norm": 42.34661102294922,
2025
+ "learning_rate": 0.00019942765915541063,
2026
+ "loss": 31.2513,
2027
+ "step": 286
2028
+ },
2029
+ {
2030
+ "epoch": 0.15481608846633627,
2031
+ "grad_norm": 46.61203384399414,
2032
+ "learning_rate": 0.00019942149436576938,
2033
+ "loss": 41.5619,
2034
+ "step": 287
2035
+ },
2036
+ {
2037
+ "epoch": 0.1553555173460099,
2038
+ "grad_norm": 39.79526901245117,
2039
+ "learning_rate": 0.00019941529664900168,
2040
+ "loss": 38.13,
2041
+ "step": 288
2042
+ },
2043
+ {
2044
+ "epoch": 0.15589494622568356,
2045
+ "grad_norm": 42.995567321777344,
2046
+ "learning_rate": 0.0001994090660071601,
2047
+ "loss": 41.3515,
2048
+ "step": 289
2049
+ },
2050
+ {
2051
+ "epoch": 0.1564343751053572,
2052
+ "grad_norm": 34.27892303466797,
2053
+ "learning_rate": 0.00019940280244230824,
2054
+ "loss": 41.1277,
2055
+ "step": 290
2056
+ },
2057
+ {
2058
+ "epoch": 0.15697380398503086,
2059
+ "grad_norm": 29.622488021850586,
2060
+ "learning_rate": 0.00019939650595652045,
2061
+ "loss": 49.2284,
2062
+ "step": 291
2063
+ },
2064
+ {
2065
+ "epoch": 0.1575132328647045,
2066
+ "grad_norm": 36.693119049072266,
2067
+ "learning_rate": 0.00019939017655188206,
2068
+ "loss": 35.5444,
2069
+ "step": 292
2070
+ },
2071
+ {
2072
+ "epoch": 0.15805266174437815,
2073
+ "grad_norm": 30.75679588317871,
2074
+ "learning_rate": 0.00019938381423048932,
2075
+ "loss": 34.9666,
2076
+ "step": 293
2077
+ },
2078
+ {
2079
+ "epoch": 0.15859209062405177,
2080
+ "grad_norm": 35.84019088745117,
2081
+ "learning_rate": 0.00019937741899444928,
2082
+ "loss": 39.4625,
2083
+ "step": 294
2084
+ },
2085
+ {
2086
+ "epoch": 0.15913151950372542,
2087
+ "grad_norm": 35.854496002197266,
2088
+ "learning_rate": 0.00019937099084588002,
2089
+ "loss": 37.2887,
2090
+ "step": 295
2091
+ },
2092
+ {
2093
+ "epoch": 0.15967094838339907,
2094
+ "grad_norm": 33.07613754272461,
2095
+ "learning_rate": 0.00019936452978691044,
2096
+ "loss": 34.5375,
2097
+ "step": 296
2098
+ },
2099
+ {
2100
+ "epoch": 0.16021037726307272,
2101
+ "grad_norm": 43.46371078491211,
2102
+ "learning_rate": 0.00019935803581968035,
2103
+ "loss": 30.3173,
2104
+ "step": 297
2105
+ },
2106
+ {
2107
+ "epoch": 0.16074980614274637,
2108
+ "grad_norm": 52.03241729736328,
2109
+ "learning_rate": 0.00019935150894634046,
2110
+ "loss": 42.4725,
2111
+ "step": 298
2112
+ },
2113
+ {
2114
+ "epoch": 0.16128923502242,
2115
+ "grad_norm": 50.36249542236328,
2116
+ "learning_rate": 0.00019934494916905245,
2117
+ "loss": 37.3647,
2118
+ "step": 299
2119
+ },
2120
+ {
2121
+ "epoch": 0.16182866390209366,
2122
+ "grad_norm": 41.50126647949219,
2123
+ "learning_rate": 0.00019933835648998875,
2124
+ "loss": 24.2931,
2125
+ "step": 300
2126
+ },
2127
+ {
2128
+ "epoch": 0.1623680927817673,
2129
+ "grad_norm": 31.253141403198242,
2130
+ "learning_rate": 0.00019933173091133286,
2131
+ "loss": 44.7853,
2132
+ "step": 301
2133
+ },
2134
+ {
2135
+ "epoch": 0.16290752166144096,
2136
+ "grad_norm": 96.83972930908203,
2137
+ "learning_rate": 0.000199325072435279,
2138
+ "loss": 84.9808,
2139
+ "step": 302
2140
+ },
2141
+ {
2142
+ "epoch": 0.1634469505411146,
2143
+ "grad_norm": 91.9966049194336,
2144
+ "learning_rate": 0.0001993183810640324,
2145
+ "loss": 99.5531,
2146
+ "step": 303
2147
+ },
2148
+ {
2149
+ "epoch": 0.16398637942078825,
2150
+ "grad_norm": 66.43877410888672,
2151
+ "learning_rate": 0.00019931165679980918,
2152
+ "loss": 105.7665,
2153
+ "step": 304
2154
+ },
2155
+ {
2156
+ "epoch": 0.16452580830046187,
2157
+ "grad_norm": 35.26411056518555,
2158
+ "learning_rate": 0.00019930489964483633,
2159
+ "loss": 109.6819,
2160
+ "step": 305
2161
+ },
2162
+ {
2163
+ "epoch": 0.16506523718013552,
2164
+ "grad_norm": 47.18457794189453,
2165
+ "learning_rate": 0.00019929810960135172,
2166
+ "loss": 113.4221,
2167
+ "step": 306
2168
+ },
2169
+ {
2170
+ "epoch": 0.16560466605980917,
2171
+ "grad_norm": 49.24475860595703,
2172
+ "learning_rate": 0.00019929128667160408,
2173
+ "loss": 108.0158,
2174
+ "step": 307
2175
+ },
2176
+ {
2177
+ "epoch": 0.16614409493948282,
2178
+ "grad_norm": 45.63924026489258,
2179
+ "learning_rate": 0.00019928443085785318,
2180
+ "loss": 94.1414,
2181
+ "step": 308
2182
+ },
2183
+ {
2184
+ "epoch": 0.16668352381915646,
2185
+ "grad_norm": 46.688350677490234,
2186
+ "learning_rate": 0.00019927754216236948,
2187
+ "loss": 87.8688,
2188
+ "step": 309
2189
+ },
2190
+ {
2191
+ "epoch": 0.1672229526988301,
2192
+ "grad_norm": 39.54045486450195,
2193
+ "learning_rate": 0.00019927062058743448,
2194
+ "loss": 92.6019,
2195
+ "step": 310
2196
+ },
2197
+ {
2198
+ "epoch": 0.16776238157850376,
2199
+ "grad_norm": 29.866121292114258,
2200
+ "learning_rate": 0.0001992636661353405,
2201
+ "loss": 81.9024,
2202
+ "step": 311
2203
+ },
2204
+ {
2205
+ "epoch": 0.1683018104581774,
2206
+ "grad_norm": 22.350112915039062,
2207
+ "learning_rate": 0.0001992566788083908,
2208
+ "loss": 68.4321,
2209
+ "step": 312
2210
+ },
2211
+ {
2212
+ "epoch": 0.16884123933785106,
2213
+ "grad_norm": 21.657258987426758,
2214
+ "learning_rate": 0.00019924965860889944,
2215
+ "loss": 65.7434,
2216
+ "step": 313
2217
+ },
2218
+ {
2219
+ "epoch": 0.1693806682175247,
2220
+ "grad_norm": 18.347572326660156,
2221
+ "learning_rate": 0.00019924260553919146,
2222
+ "loss": 62.485,
2223
+ "step": 314
2224
+ },
2225
+ {
2226
+ "epoch": 0.16992009709719835,
2227
+ "grad_norm": 28.368114471435547,
2228
+ "learning_rate": 0.00019923551960160268,
2229
+ "loss": 53.7759,
2230
+ "step": 315
2231
+ },
2232
+ {
2233
+ "epoch": 0.170459525976872,
2234
+ "grad_norm": 35.214988708496094,
2235
+ "learning_rate": 0.00019922840079848,
2236
+ "loss": 45.4414,
2237
+ "step": 316
2238
+ },
2239
+ {
2240
+ "epoch": 0.17099895485654562,
2241
+ "grad_norm": 38.698760986328125,
2242
+ "learning_rate": 0.00019922124913218094,
2243
+ "loss": 37.665,
2244
+ "step": 317
2245
+ },
2246
+ {
2247
+ "epoch": 0.17153838373621927,
2248
+ "grad_norm": 43.39471435546875,
2249
+ "learning_rate": 0.0001992140646050741,
2250
+ "loss": 51.4899,
2251
+ "step": 318
2252
+ },
2253
+ {
2254
+ "epoch": 0.17207781261589292,
2255
+ "grad_norm": 43.52251434326172,
2256
+ "learning_rate": 0.00019920684721953894,
2257
+ "loss": 48.5712,
2258
+ "step": 319
2259
+ },
2260
+ {
2261
+ "epoch": 0.17261724149556656,
2262
+ "grad_norm": 60.897579193115234,
2263
+ "learning_rate": 0.00019919959697796568,
2264
+ "loss": 59.9231,
2265
+ "step": 320
2266
+ },
2267
+ {
2268
+ "epoch": 0.1731566703752402,
2269
+ "grad_norm": 37.93972396850586,
2270
+ "learning_rate": 0.0001991923138827556,
2271
+ "loss": 47.906,
2272
+ "step": 321
2273
+ },
2274
+ {
2275
+ "epoch": 0.17369609925491386,
2276
+ "grad_norm": 44.32222366333008,
2277
+ "learning_rate": 0.0001991849979363207,
2278
+ "loss": 54.5404,
2279
+ "step": 322
2280
+ },
2281
+ {
2282
+ "epoch": 0.1742355281345875,
2283
+ "grad_norm": 37.367671966552734,
2284
+ "learning_rate": 0.00019917764914108394,
2285
+ "loss": 49.3113,
2286
+ "step": 323
2287
+ },
2288
+ {
2289
+ "epoch": 0.17477495701426116,
2290
+ "grad_norm": 43.20479965209961,
2291
+ "learning_rate": 0.00019917026749947917,
2292
+ "loss": 41.9015,
2293
+ "step": 324
2294
+ },
2295
+ {
2296
+ "epoch": 0.1753143858939348,
2297
+ "grad_norm": 36.7598991394043,
2298
+ "learning_rate": 0.0001991628530139511,
2299
+ "loss": 43.7222,
2300
+ "step": 325
2301
+ },
2302
+ {
2303
+ "epoch": 0.17585381477360845,
2304
+ "grad_norm": 33.30655288696289,
2305
+ "learning_rate": 0.0001991554056869553,
2306
+ "loss": 48.4387,
2307
+ "step": 326
2308
+ },
2309
+ {
2310
+ "epoch": 0.1763932436532821,
2311
+ "grad_norm": 32.89339828491211,
2312
+ "learning_rate": 0.00019914792552095818,
2313
+ "loss": 51.108,
2314
+ "step": 327
2315
+ },
2316
+ {
2317
+ "epoch": 0.17693267253295572,
2318
+ "grad_norm": 31.422489166259766,
2319
+ "learning_rate": 0.00019914041251843716,
2320
+ "loss": 42.9287,
2321
+ "step": 328
2322
+ },
2323
+ {
2324
+ "epoch": 0.17747210141262937,
2325
+ "grad_norm": 33.38264465332031,
2326
+ "learning_rate": 0.00019913286668188037,
2327
+ "loss": 47.0867,
2328
+ "step": 329
2329
+ },
2330
+ {
2331
+ "epoch": 0.17801153029230302,
2332
+ "grad_norm": 37.976837158203125,
2333
+ "learning_rate": 0.00019912528801378698,
2334
+ "loss": 38.2593,
2335
+ "step": 330
2336
+ },
2337
+ {
2338
+ "epoch": 0.17855095917197666,
2339
+ "grad_norm": 35.707054138183594,
2340
+ "learning_rate": 0.0001991176765166669,
2341
+ "loss": 44.5348,
2342
+ "step": 331
2343
+ },
2344
+ {
2345
+ "epoch": 0.1790903880516503,
2346
+ "grad_norm": 43.86237335205078,
2347
+ "learning_rate": 0.00019911003219304094,
2348
+ "loss": 40.4868,
2349
+ "step": 332
2350
+ },
2351
+ {
2352
+ "epoch": 0.17962981693132396,
2353
+ "grad_norm": 54.88194274902344,
2354
+ "learning_rate": 0.00019910235504544082,
2355
+ "loss": 38.935,
2356
+ "step": 333
2357
+ },
2358
+ {
2359
+ "epoch": 0.1801692458109976,
2360
+ "grad_norm": 43.87349319458008,
2361
+ "learning_rate": 0.00019909464507640915,
2362
+ "loss": 43.0978,
2363
+ "step": 334
2364
+ },
2365
+ {
2366
+ "epoch": 0.18070867469067126,
2367
+ "grad_norm": 43.421932220458984,
2368
+ "learning_rate": 0.0001990869022884993,
2369
+ "loss": 39.2888,
2370
+ "step": 335
2371
+ },
2372
+ {
2373
+ "epoch": 0.1812481035703449,
2374
+ "grad_norm": 41.14269256591797,
2375
+ "learning_rate": 0.00019907912668427566,
2376
+ "loss": 42.6139,
2377
+ "step": 336
2378
+ },
2379
+ {
2380
+ "epoch": 0.18178753245001855,
2381
+ "grad_norm": 38.619380950927734,
2382
+ "learning_rate": 0.00019907131826631336,
2383
+ "loss": 40.0248,
2384
+ "step": 337
2385
+ },
2386
+ {
2387
+ "epoch": 0.1823269613296922,
2388
+ "grad_norm": 33.65724563598633,
2389
+ "learning_rate": 0.00019906347703719845,
2390
+ "loss": 38.7406,
2391
+ "step": 338
2392
+ },
2393
+ {
2394
+ "epoch": 0.18286639020936585,
2395
+ "grad_norm": 35.25956344604492,
2396
+ "learning_rate": 0.0001990556029995279,
2397
+ "loss": 39.2734,
2398
+ "step": 339
2399
+ },
2400
+ {
2401
+ "epoch": 0.18340581908903947,
2402
+ "grad_norm": 36.87468719482422,
2403
+ "learning_rate": 0.00019904769615590942,
2404
+ "loss": 40.6619,
2405
+ "step": 340
2406
+ },
2407
+ {
2408
+ "epoch": 0.18394524796871312,
2409
+ "grad_norm": 32.0380973815918,
2410
+ "learning_rate": 0.00019903975650896168,
2411
+ "loss": 39.8376,
2412
+ "step": 341
2413
+ },
2414
+ {
2415
+ "epoch": 0.18448467684838676,
2416
+ "grad_norm": 33.44660949707031,
2417
+ "learning_rate": 0.0001990317840613142,
2418
+ "loss": 33.338,
2419
+ "step": 342
2420
+ },
2421
+ {
2422
+ "epoch": 0.1850241057280604,
2423
+ "grad_norm": 36.242523193359375,
2424
+ "learning_rate": 0.00019902377881560735,
2425
+ "loss": 35.0493,
2426
+ "step": 343
2427
+ },
2428
+ {
2429
+ "epoch": 0.18556353460773406,
2430
+ "grad_norm": 37.39813232421875,
2431
+ "learning_rate": 0.00019901574077449232,
2432
+ "loss": 26.9563,
2433
+ "step": 344
2434
+ },
2435
+ {
2436
+ "epoch": 0.1861029634874077,
2437
+ "grad_norm": 35.84196472167969,
2438
+ "learning_rate": 0.0001990076699406313,
2439
+ "loss": 33.7825,
2440
+ "step": 345
2441
+ },
2442
+ {
2443
+ "epoch": 0.18664239236708136,
2444
+ "grad_norm": 38.69563293457031,
2445
+ "learning_rate": 0.00019899956631669717,
2446
+ "loss": 29.9582,
2447
+ "step": 346
2448
+ },
2449
+ {
2450
+ "epoch": 0.187181821246755,
2451
+ "grad_norm": 47.82805633544922,
2452
+ "learning_rate": 0.00019899142990537376,
2453
+ "loss": 33.9471,
2454
+ "step": 347
2455
+ },
2456
+ {
2457
+ "epoch": 0.18772125012642865,
2458
+ "grad_norm": 36.29233169555664,
2459
+ "learning_rate": 0.00019898326070935579,
2460
+ "loss": 28.1711,
2461
+ "step": 348
2462
+ },
2463
+ {
2464
+ "epoch": 0.1882606790061023,
2465
+ "grad_norm": 45.26416015625,
2466
+ "learning_rate": 0.00019897505873134872,
2467
+ "loss": 33.76,
2468
+ "step": 349
2469
+ },
2470
+ {
2471
+ "epoch": 0.18880010788577595,
2472
+ "grad_norm": 39.766441345214844,
2473
+ "learning_rate": 0.000198966823974069,
2474
+ "loss": 25.629,
2475
+ "step": 350
2476
+ },
2477
+ {
2478
+ "epoch": 0.18933953676544957,
2479
+ "grad_norm": 30.092906951904297,
2480
+ "learning_rate": 0.00019895855644024387,
2481
+ "loss": 45.1687,
2482
+ "step": 351
2483
+ },
2484
+ {
2485
+ "epoch": 0.18987896564512322,
2486
+ "grad_norm": 61.02379608154297,
2487
+ "learning_rate": 0.00019895025613261136,
2488
+ "loss": 77.4727,
2489
+ "step": 352
2490
+ },
2491
+ {
2492
+ "epoch": 0.19041839452479686,
2493
+ "grad_norm": 51.788063049316406,
2494
+ "learning_rate": 0.00019894192305392055,
2495
+ "loss": 82.3816,
2496
+ "step": 353
2497
+ },
2498
+ {
2499
+ "epoch": 0.1909578234044705,
2500
+ "grad_norm": 72.1239242553711,
2501
+ "learning_rate": 0.0001989335572069311,
2502
+ "loss": 103.2545,
2503
+ "step": 354
2504
+ },
2505
+ {
2506
+ "epoch": 0.19149725228414416,
2507
+ "grad_norm": 29.279748916625977,
2508
+ "learning_rate": 0.00019892515859441383,
2509
+ "loss": 113.7908,
2510
+ "step": 355
2511
+ },
2512
+ {
2513
+ "epoch": 0.1920366811638178,
2514
+ "grad_norm": 43.08776092529297,
2515
+ "learning_rate": 0.00019891672721915015,
2516
+ "loss": 107.6541,
2517
+ "step": 356
2518
+ },
2519
+ {
2520
+ "epoch": 0.19257611004349146,
2521
+ "grad_norm": 54.121192932128906,
2522
+ "learning_rate": 0.00019890826308393243,
2523
+ "loss": 102.3774,
2524
+ "step": 357
2525
+ },
2526
+ {
2527
+ "epoch": 0.1931155389231651,
2528
+ "grad_norm": 52.771793365478516,
2529
+ "learning_rate": 0.0001988997661915639,
2530
+ "loss": 87.3872,
2531
+ "step": 358
2532
+ },
2533
+ {
2534
+ "epoch": 0.19365496780283875,
2535
+ "grad_norm": 58.10847854614258,
2536
+ "learning_rate": 0.00019889123654485866,
2537
+ "loss": 97.106,
2538
+ "step": 359
2539
+ },
2540
+ {
2541
+ "epoch": 0.1941943966825124,
2542
+ "grad_norm": 52.38351058959961,
2543
+ "learning_rate": 0.00019888267414664156,
2544
+ "loss": 91.256,
2545
+ "step": 360
2546
+ },
2547
+ {
2548
+ "epoch": 0.19473382556218605,
2549
+ "grad_norm": 48.153804779052734,
2550
+ "learning_rate": 0.0001988740789997484,
2551
+ "loss": 81.894,
2552
+ "step": 361
2553
+ },
2554
+ {
2555
+ "epoch": 0.19527325444185967,
2556
+ "grad_norm": 25.811304092407227,
2557
+ "learning_rate": 0.00019886545110702576,
2558
+ "loss": 69.6325,
2559
+ "step": 362
2560
+ },
2561
+ {
2562
+ "epoch": 0.19581268332153332,
2563
+ "grad_norm": 22.911964416503906,
2564
+ "learning_rate": 0.00019885679047133107,
2565
+ "loss": 65.5302,
2566
+ "step": 363
2567
+ },
2568
+ {
2569
+ "epoch": 0.19635211220120696,
2570
+ "grad_norm": 37.54278564453125,
2571
+ "learning_rate": 0.00019884809709553265,
2572
+ "loss": 60.65,
2573
+ "step": 364
2574
+ },
2575
+ {
2576
+ "epoch": 0.1968915410808806,
2577
+ "grad_norm": 20.303857803344727,
2578
+ "learning_rate": 0.00019883937098250963,
2579
+ "loss": 44.1299,
2580
+ "step": 365
2581
+ },
2582
+ {
2583
+ "epoch": 0.19743096996055426,
2584
+ "grad_norm": 31.87704849243164,
2585
+ "learning_rate": 0.00019883061213515197,
2586
+ "loss": 34.1489,
2587
+ "step": 366
2588
+ },
2589
+ {
2590
+ "epoch": 0.1979703988402279,
2591
+ "grad_norm": 39.10615539550781,
2592
+ "learning_rate": 0.00019882182055636053,
2593
+ "loss": 37.5989,
2594
+ "step": 367
2595
+ },
2596
+ {
2597
+ "epoch": 0.19850982771990155,
2598
+ "grad_norm": 41.10018539428711,
2599
+ "learning_rate": 0.00019881299624904692,
2600
+ "loss": 48.6169,
2601
+ "step": 368
2602
+ },
2603
+ {
2604
+ "epoch": 0.1990492565995752,
2605
+ "grad_norm": 34.8628044128418,
2606
+ "learning_rate": 0.00019880413921613367,
2607
+ "loss": 51.3889,
2608
+ "step": 369
2609
+ },
2610
+ {
2611
+ "epoch": 0.19958868547924885,
2612
+ "grad_norm": 41.81850051879883,
2613
+ "learning_rate": 0.0001987952494605541,
2614
+ "loss": 46.2857,
2615
+ "step": 370
2616
+ },
2617
+ {
2618
+ "epoch": 0.2001281143589225,
2619
+ "grad_norm": 46.00803756713867,
2620
+ "learning_rate": 0.00019878632698525238,
2621
+ "loss": 42.1201,
2622
+ "step": 371
2623
+ },
2624
+ {
2625
+ "epoch": 0.20066754323859615,
2626
+ "grad_norm": 37.3172492980957,
2627
+ "learning_rate": 0.00019877737179318353,
2628
+ "loss": 44.8517,
2629
+ "step": 372
2630
+ },
2631
+ {
2632
+ "epoch": 0.2012069721182698,
2633
+ "grad_norm": 30.38181495666504,
2634
+ "learning_rate": 0.0001987683838873134,
2635
+ "loss": 30.3321,
2636
+ "step": 373
2637
+ },
2638
+ {
2639
+ "epoch": 0.20174640099794341,
2640
+ "grad_norm": 36.00757598876953,
2641
+ "learning_rate": 0.00019875936327061865,
2642
+ "loss": 41.3805,
2643
+ "step": 374
2644
+ },
2645
+ {
2646
+ "epoch": 0.20228582987761706,
2647
+ "grad_norm": 36.742733001708984,
2648
+ "learning_rate": 0.00019875030994608684,
2649
+ "loss": 48.6651,
2650
+ "step": 375
2651
+ },
2652
+ {
2653
+ "epoch": 0.2028252587572907,
2654
+ "grad_norm": 42.53518295288086,
2655
+ "learning_rate": 0.00019874122391671622,
2656
+ "loss": 32.5649,
2657
+ "step": 376
2658
+ },
2659
+ {
2660
+ "epoch": 0.20336468763696436,
2661
+ "grad_norm": 35.77900314331055,
2662
+ "learning_rate": 0.00019873210518551608,
2663
+ "loss": 46.6955,
2664
+ "step": 377
2665
+ },
2666
+ {
2667
+ "epoch": 0.203904116516638,
2668
+ "grad_norm": 44.95616149902344,
2669
+ "learning_rate": 0.00019872295375550635,
2670
+ "loss": 41.271,
2671
+ "step": 378
2672
+ },
2673
+ {
2674
+ "epoch": 0.20444354539631165,
2675
+ "grad_norm": 34.28546142578125,
2676
+ "learning_rate": 0.00019871376962971789,
2677
+ "loss": 41.4059,
2678
+ "step": 379
2679
+ },
2680
+ {
2681
+ "epoch": 0.2049829742759853,
2682
+ "grad_norm": 35.807682037353516,
2683
+ "learning_rate": 0.00019870455281119237,
2684
+ "loss": 45.8892,
2685
+ "step": 380
2686
+ },
2687
+ {
2688
+ "epoch": 0.20552240315565895,
2689
+ "grad_norm": 30.27015495300293,
2690
+ "learning_rate": 0.00019869530330298227,
2691
+ "loss": 34.013,
2692
+ "step": 381
2693
+ },
2694
+ {
2695
+ "epoch": 0.2060618320353326,
2696
+ "grad_norm": 38.26789093017578,
2697
+ "learning_rate": 0.00019868602110815093,
2698
+ "loss": 42.6953,
2699
+ "step": 382
2700
+ },
2701
+ {
2702
+ "epoch": 0.20660126091500625,
2703
+ "grad_norm": 39.61716079711914,
2704
+ "learning_rate": 0.00019867670622977248,
2705
+ "loss": 40.4979,
2706
+ "step": 383
2707
+ },
2708
+ {
2709
+ "epoch": 0.2071406897946799,
2710
+ "grad_norm": 35.717227935791016,
2711
+ "learning_rate": 0.00019866735867093188,
2712
+ "loss": 31.5146,
2713
+ "step": 384
2714
+ },
2715
+ {
2716
+ "epoch": 0.20768011867435351,
2717
+ "grad_norm": 43.41541290283203,
2718
+ "learning_rate": 0.0001986579784347249,
2719
+ "loss": 37.5416,
2720
+ "step": 385
2721
+ },
2722
+ {
2723
+ "epoch": 0.20821954755402716,
2724
+ "grad_norm": 40.18928146362305,
2725
+ "learning_rate": 0.0001986485655242582,
2726
+ "loss": 39.0367,
2727
+ "step": 386
2728
+ },
2729
+ {
2730
+ "epoch": 0.2087589764337008,
2731
+ "grad_norm": 35.295291900634766,
2732
+ "learning_rate": 0.00019863911994264926,
2733
+ "loss": 36.8243,
2734
+ "step": 387
2735
+ },
2736
+ {
2737
+ "epoch": 0.20929840531337446,
2738
+ "grad_norm": 52.24161148071289,
2739
+ "learning_rate": 0.00019862964169302621,
2740
+ "loss": 41.7241,
2741
+ "step": 388
2742
+ },
2743
+ {
2744
+ "epoch": 0.2098378341930481,
2745
+ "grad_norm": 53.32133483886719,
2746
+ "learning_rate": 0.00019862013077852822,
2747
+ "loss": 38.7999,
2748
+ "step": 389
2749
+ },
2750
+ {
2751
+ "epoch": 0.21037726307272175,
2752
+ "grad_norm": 42.945804595947266,
2753
+ "learning_rate": 0.00019861058720230514,
2754
+ "loss": 34.0199,
2755
+ "step": 390
2756
+ },
2757
+ {
2758
+ "epoch": 0.2109166919523954,
2759
+ "grad_norm": 38.77582931518555,
2760
+ "learning_rate": 0.00019860101096751768,
2761
+ "loss": 33.4203,
2762
+ "step": 391
2763
+ },
2764
+ {
2765
+ "epoch": 0.21145612083206905,
2766
+ "grad_norm": 30.80617332458496,
2767
+ "learning_rate": 0.0001985914020773374,
2768
+ "loss": 27.0483,
2769
+ "step": 392
2770
+ },
2771
+ {
2772
+ "epoch": 0.2119955497117427,
2773
+ "grad_norm": 43.676090240478516,
2774
+ "learning_rate": 0.00019858176053494663,
2775
+ "loss": 33.954,
2776
+ "step": 393
2777
+ },
2778
+ {
2779
+ "epoch": 0.21253497859141635,
2780
+ "grad_norm": 38.32650375366211,
2781
+ "learning_rate": 0.00019857208634353852,
2782
+ "loss": 29.378,
2783
+ "step": 394
2784
+ },
2785
+ {
2786
+ "epoch": 0.21307440747109,
2787
+ "grad_norm": 39.12830352783203,
2788
+ "learning_rate": 0.000198562379506317,
2789
+ "loss": 27.9634,
2790
+ "step": 395
2791
+ },
2792
+ {
2793
+ "epoch": 0.21361383635076364,
2794
+ "grad_norm": 47.39609909057617,
2795
+ "learning_rate": 0.00019855264002649692,
2796
+ "loss": 34.1847,
2797
+ "step": 396
2798
+ },
2799
+ {
2800
+ "epoch": 0.21415326523043726,
2801
+ "grad_norm": 38.62258529663086,
2802
+ "learning_rate": 0.00019854286790730384,
2803
+ "loss": 26.0765,
2804
+ "step": 397
2805
+ },
2806
+ {
2807
+ "epoch": 0.2146926941101109,
2808
+ "grad_norm": 42.81424331665039,
2809
+ "learning_rate": 0.00019853306315197413,
2810
+ "loss": 34.1509,
2811
+ "step": 398
2812
+ },
2813
+ {
2814
+ "epoch": 0.21523212298978456,
2815
+ "grad_norm": 45.57196807861328,
2816
+ "learning_rate": 0.00019852322576375503,
2817
+ "loss": 32.0371,
2818
+ "step": 399
2819
+ },
2820
+ {
2821
+ "epoch": 0.2157715518694582,
2822
+ "grad_norm": 35.20758819580078,
2823
+ "learning_rate": 0.0001985133557459046,
2824
+ "loss": 20.3634,
2825
+ "step": 400
2826
+ },
2827
+ {
2828
+ "epoch": 0.2157715518694582,
2829
+ "eval_loss": 1.6627388000488281,
2830
+ "eval_runtime": 141.0153,
2831
+ "eval_samples_per_second": 2.12,
2832
+ "eval_steps_per_second": 2.12,
2833
+ "step": 400
2834
  }
2835
  ],
2836
  "logging_steps": 1,
 
2859
  "attributes": {}
2860
  }
2861
  },
2862
+ "total_flos": 7.146078851574006e+17,
2863
  "train_batch_size": 1,
2864
  "trial_name": null,
2865
  "trial_params": null