minpeter commited on
Commit
97bfdbc
·
verified ·
1 Parent(s): bb46af7

Training in progress, step 240, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5fbd2e60526489e6f6f39cf288ada5ee34355bdd563beb7e5399d0ac622a5c3e
3
  size 373077376
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2d5cb32555f036cc29e510981db920df70d9e90bc6775cbdddef9c9bc689ca68
3
  size 373077376
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3f6e8dff52c08eae75b95c752c0f6f01bfbb1ed09c5bce28a0e4593cda5e5c80
3
  size 422377867
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d96a6c94d5ea65063709fd1b3a2c97e499172bb263cf2e84c9c5a02acf2a0620
3
  size 422377867
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:39a79e2827280868096ff650d0ee6e4723dddc824192c37a937a656d54903350
3
  size 1401
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:37ec1b5270d425b99d0e1cc607e50e995f87916d2f0845b877477bb69e081603
3
  size 1401
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.8333333333333334,
6
  "eval_steps": 100,
7
- "global_step": 200,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -1422,6 +1422,286 @@
1422
  "eval_samples_per_second": 13.356,
1423
  "eval_steps_per_second": 0.835,
1424
  "step": 200
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1425
  }
1426
  ],
1427
  "logging_steps": 1,
@@ -1436,12 +1716,12 @@
1436
  "should_evaluate": false,
1437
  "should_log": false,
1438
  "should_save": true,
1439
- "should_training_stop": false
1440
  },
1441
  "attributes": {}
1442
  }
1443
  },
1444
- "total_flos": 1.018894554759168e+17,
1445
  "train_batch_size": 16,
1446
  "trial_name": null,
1447
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 1.0,
6
  "eval_steps": 100,
7
+ "global_step": 240,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
1422
  "eval_samples_per_second": 13.356,
1423
  "eval_steps_per_second": 0.835,
1424
  "step": 200
1425
+ },
1426
+ {
1427
+ "epoch": 0.8375,
1428
+ "grad_norm": 0.326171875,
1429
+ "learning_rate": 7.404029558083653e-05,
1430
+ "loss": 5.6536,
1431
+ "step": 201
1432
+ },
1433
+ {
1434
+ "epoch": 0.8416666666666667,
1435
+ "grad_norm": 0.27734375,
1436
+ "learning_rate": 7.047302281505735e-05,
1437
+ "loss": 5.6053,
1438
+ "step": 202
1439
+ },
1440
+ {
1441
+ "epoch": 0.8458333333333333,
1442
+ "grad_norm": 0.275390625,
1443
+ "learning_rate": 6.698729810778065e-05,
1444
+ "loss": 5.6449,
1445
+ "step": 203
1446
+ },
1447
+ {
1448
+ "epoch": 0.85,
1449
+ "grad_norm": 0.29296875,
1450
+ "learning_rate": 6.358378324300929e-05,
1451
+ "loss": 5.6066,
1452
+ "step": 204
1453
+ },
1454
+ {
1455
+ "epoch": 0.8541666666666666,
1456
+ "grad_norm": 0.26953125,
1457
+ "learning_rate": 6.026312439675552e-05,
1458
+ "loss": 5.6563,
1459
+ "step": 205
1460
+ },
1461
+ {
1462
+ "epoch": 0.8583333333333333,
1463
+ "grad_norm": 0.234375,
1464
+ "learning_rate": 5.7025952014361004e-05,
1465
+ "loss": 5.6946,
1466
+ "step": 206
1467
+ },
1468
+ {
1469
+ "epoch": 0.8625,
1470
+ "grad_norm": 0.259765625,
1471
+ "learning_rate": 5.387288069080298e-05,
1472
+ "loss": 5.6036,
1473
+ "step": 207
1474
+ },
1475
+ {
1476
+ "epoch": 0.8666666666666667,
1477
+ "grad_norm": 0.2373046875,
1478
+ "learning_rate": 5.080450905401057e-05,
1479
+ "loss": 5.6453,
1480
+ "step": 208
1481
+ },
1482
+ {
1483
+ "epoch": 0.8708333333333333,
1484
+ "grad_norm": 0.296875,
1485
+ "learning_rate": 4.7821419651211284e-05,
1486
+ "loss": 5.4334,
1487
+ "step": 209
1488
+ },
1489
+ {
1490
+ "epoch": 0.875,
1491
+ "grad_norm": 0.283203125,
1492
+ "learning_rate": 4.492417883833155e-05,
1493
+ "loss": 5.5169,
1494
+ "step": 210
1495
+ },
1496
+ {
1497
+ "epoch": 0.8791666666666667,
1498
+ "grad_norm": 0.30078125,
1499
+ "learning_rate": 4.211333667247125e-05,
1500
+ "loss": 5.4803,
1501
+ "step": 211
1502
+ },
1503
+ {
1504
+ "epoch": 0.8833333333333333,
1505
+ "grad_norm": 0.279296875,
1506
+ "learning_rate": 3.938942680747176e-05,
1507
+ "loss": 5.5033,
1508
+ "step": 212
1509
+ },
1510
+ {
1511
+ "epoch": 0.8875,
1512
+ "grad_norm": 0.23828125,
1513
+ "learning_rate": 3.675296639259912e-05,
1514
+ "loss": 5.7133,
1515
+ "step": 213
1516
+ },
1517
+ {
1518
+ "epoch": 0.8916666666666667,
1519
+ "grad_norm": 0.232421875,
1520
+ "learning_rate": 3.420445597436056e-05,
1521
+ "loss": 5.5607,
1522
+ "step": 214
1523
+ },
1524
+ {
1525
+ "epoch": 0.8958333333333334,
1526
+ "grad_norm": 0.26171875,
1527
+ "learning_rate": 3.174437940147268e-05,
1528
+ "loss": 5.4607,
1529
+ "step": 215
1530
+ },
1531
+ {
1532
+ "epoch": 0.9,
1533
+ "grad_norm": 0.28125,
1534
+ "learning_rate": 2.9373203733000232e-05,
1535
+ "loss": 5.4973,
1536
+ "step": 216
1537
+ },
1538
+ {
1539
+ "epoch": 0.9041666666666667,
1540
+ "grad_norm": 0.25390625,
1541
+ "learning_rate": 2.709137914968268e-05,
1542
+ "loss": 5.5641,
1543
+ "step": 217
1544
+ },
1545
+ {
1546
+ "epoch": 0.9083333333333333,
1547
+ "grad_norm": 0.2294921875,
1548
+ "learning_rate": 2.4899338868464407e-05,
1549
+ "loss": 5.6054,
1550
+ "step": 218
1551
+ },
1552
+ {
1553
+ "epoch": 0.9125,
1554
+ "grad_norm": 0.251953125,
1555
+ "learning_rate": 2.2797499060246252e-05,
1556
+ "loss": 5.4569,
1557
+ "step": 219
1558
+ },
1559
+ {
1560
+ "epoch": 0.9166666666666666,
1561
+ "grad_norm": 0.279296875,
1562
+ "learning_rate": 2.0786258770873646e-05,
1563
+ "loss": 5.5549,
1564
+ "step": 220
1565
+ },
1566
+ {
1567
+ "epoch": 0.9208333333333333,
1568
+ "grad_norm": 0.306640625,
1569
+ "learning_rate": 1.886599984537479e-05,
1570
+ "loss": 5.5161,
1571
+ "step": 221
1572
+ },
1573
+ {
1574
+ "epoch": 0.925,
1575
+ "grad_norm": 0.259765625,
1576
+ "learning_rate": 1.70370868554659e-05,
1577
+ "loss": 5.509,
1578
+ "step": 222
1579
+ },
1580
+ {
1581
+ "epoch": 0.9291666666666667,
1582
+ "grad_norm": 0.31640625,
1583
+ "learning_rate": 1.5299867030334813e-05,
1584
+ "loss": 5.3626,
1585
+ "step": 223
1586
+ },
1587
+ {
1588
+ "epoch": 0.9333333333333333,
1589
+ "grad_norm": 0.265625,
1590
+ "learning_rate": 1.3654670190718033e-05,
1591
+ "loss": 5.6124,
1592
+ "step": 224
1593
+ },
1594
+ {
1595
+ "epoch": 0.9375,
1596
+ "grad_norm": 0.29296875,
1597
+ "learning_rate": 1.210180868628219e-05,
1598
+ "loss": 5.5415,
1599
+ "step": 225
1600
+ },
1601
+ {
1602
+ "epoch": 0.9416666666666667,
1603
+ "grad_norm": 0.271484375,
1604
+ "learning_rate": 1.064157733632276e-05,
1605
+ "loss": 5.7405,
1606
+ "step": 226
1607
+ },
1608
+ {
1609
+ "epoch": 0.9458333333333333,
1610
+ "grad_norm": 0.2451171875,
1611
+ "learning_rate": 9.274253373791064e-06,
1612
+ "loss": 5.6103,
1613
+ "step": 227
1614
+ },
1615
+ {
1616
+ "epoch": 0.95,
1617
+ "grad_norm": 0.294921875,
1618
+ "learning_rate": 8.000096392660028e-06,
1619
+ "loss": 5.5475,
1620
+ "step": 228
1621
+ },
1622
+ {
1623
+ "epoch": 0.9541666666666667,
1624
+ "grad_norm": 0.29296875,
1625
+ "learning_rate": 6.819348298638839e-06,
1626
+ "loss": 5.493,
1627
+ "step": 229
1628
+ },
1629
+ {
1630
+ "epoch": 0.9583333333333334,
1631
+ "grad_norm": 0.2890625,
1632
+ "learning_rate": 5.732233263245845e-06,
1633
+ "loss": 5.5532,
1634
+ "step": 230
1635
+ },
1636
+ {
1637
+ "epoch": 0.9625,
1638
+ "grad_norm": 0.27734375,
1639
+ "learning_rate": 4.738957681248379e-06,
1640
+ "loss": 5.495,
1641
+ "step": 231
1642
+ },
1643
+ {
1644
+ "epoch": 0.9666666666666667,
1645
+ "grad_norm": 0.298828125,
1646
+ "learning_rate": 3.839710131477492e-06,
1647
+ "loss": 5.4654,
1648
+ "step": 232
1649
+ },
1650
+ {
1651
+ "epoch": 0.9708333333333333,
1652
+ "grad_norm": 0.26171875,
1653
+ "learning_rate": 3.034661341025258e-06,
1654
+ "loss": 5.3983,
1655
+ "step": 233
1656
+ },
1657
+ {
1658
+ "epoch": 0.975,
1659
+ "grad_norm": 0.26171875,
1660
+ "learning_rate": 2.323964152831426e-06,
1661
+ "loss": 5.5638,
1662
+ "step": 234
1663
+ },
1664
+ {
1665
+ "epoch": 0.9791666666666666,
1666
+ "grad_norm": 0.2216796875,
1667
+ "learning_rate": 1.7077534966650766e-06,
1668
+ "loss": 5.6353,
1669
+ "step": 235
1670
+ },
1671
+ {
1672
+ "epoch": 0.9833333333333333,
1673
+ "grad_norm": 0.322265625,
1674
+ "learning_rate": 1.1861463635077786e-06,
1675
+ "loss": 5.513,
1676
+ "step": 236
1677
+ },
1678
+ {
1679
+ "epoch": 0.9875,
1680
+ "grad_norm": 0.25,
1681
+ "learning_rate": 7.592417833419129e-07,
1682
+ "loss": 5.5575,
1683
+ "step": 237
1684
+ },
1685
+ {
1686
+ "epoch": 0.9916666666666667,
1687
+ "grad_norm": 0.265625,
1688
+ "learning_rate": 4.2712080634949023e-07,
1689
+ "loss": 5.5291,
1690
+ "step": 238
1691
+ },
1692
+ {
1693
+ "epoch": 0.9958333333333333,
1694
+ "grad_norm": 0.25390625,
1695
+ "learning_rate": 1.8984648752429223e-07,
1696
+ "loss": 5.6134,
1697
+ "step": 239
1698
+ },
1699
+ {
1700
+ "epoch": 1.0,
1701
+ "grad_norm": 0.271484375,
1702
+ "learning_rate": 4.746387470044855e-08,
1703
+ "loss": 5.5174,
1704
+ "step": 240
1705
  }
1706
  ],
1707
  "logging_steps": 1,
 
1716
  "should_evaluate": false,
1717
  "should_log": false,
1718
  "should_save": true,
1719
+ "should_training_stop": true
1720
  },
1721
  "attributes": {}
1722
  }
1723
  },
1724
+ "total_flos": 1.2226734657110016e+17,
1725
  "train_batch_size": 16,
1726
  "trial_name": null,
1727
  "trial_params": null