kiritan commited on
Commit
dce30e3
·
verified ·
1 Parent(s): b28d981

Training in progress, step 12000, checkpoint

Browse files
last-checkpoint/global_step12000/bf16_zero_pp_rank_0_mp_rank_00_optim_states.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9b30b063d6826f7465a6da7cfbedf7fcee136d85769f17c3253ff368ea288e73
3
+ size 761059696
last-checkpoint/global_step12000/mp_rank_00_model_states.pt ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b33dbd695a8cf57adef6d3fb2dd06d6e910781e3bb0c506de326284d8a8445fe
3
+ size 129965712
last-checkpoint/latest CHANGED
@@ -1 +1 @@
1
- global_step5000
 
1
+ global_step12000
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2a45c4cc6c36f22c184c0de77d3ee814f87d2c7ea6d7df87ac344657493c59d7
3
  size 181508256
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4cfdaaad7311cc963a64154915312068b27d408ccb4dbe0d7a849a3298fcab86
3
  size 181508256
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3f212a4fd170b96af0e79e88a7daa4c5b85a375e1f32b8b2960f3509c0371ff1
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:92fc487271575fb16a5dab13203a006ee4b441af267eba2302c24332dddb9db6
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:085159cd628aab6e2956a287a6fd30f345ec4eacfe59c4d0d76bd94524b3ecc5
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5884115119708c269ef22db040f254e6fc9b5f2bf91c9b4125193ea4ee22e90a
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
- "best_metric": 96.94483734087694,
3
- "best_model_checkpoint": "./iteboshi_temp/checkpoint-5000",
4
- "epoch": 5.506607929515418,
5
  "eval_steps": 1000,
6
- "global_step": 5000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -1457,6 +1457,2036 @@
1457
  "eval_steps_per_second": 3.082,
1458
  "eval_wer": 96.94483734087694,
1459
  "step": 5000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
1460
  }
1461
  ],
1462
  "logging_steps": 25,
@@ -1476,7 +3506,7 @@
1476
  "attributes": {}
1477
  }
1478
  },
1479
- "total_flos": 8.440853700175462e+18,
1480
  "train_batch_size": 4,
1481
  "trial_name": null,
1482
  "trial_params": null
 
1
  {
2
+ "best_metric": 96.82225365393681,
3
+ "best_model_checkpoint": "./iteboshi_temp/checkpoint-12000",
4
+ "epoch": 13.215859030837004,
5
  "eval_steps": 1000,
6
+ "global_step": 12000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
1457
  "eval_steps_per_second": 3.082,
1458
  "eval_wer": 96.94483734087694,
1459
  "step": 5000
1460
+ },
1461
+ {
1462
+ "epoch": 5.534140969162996,
1463
+ "grad_norm": 0.8046155571937561,
1464
+ "learning_rate": 1.535897435897436e-05,
1465
+ "loss": 0.2629,
1466
+ "step": 5025
1467
+ },
1468
+ {
1469
+ "epoch": 5.561674008810573,
1470
+ "grad_norm": 0.7639729976654053,
1471
+ "learning_rate": 1.5333333333333334e-05,
1472
+ "loss": 0.2815,
1473
+ "step": 5050
1474
+ },
1475
+ {
1476
+ "epoch": 5.5892070484581495,
1477
+ "grad_norm": 1.1292579174041748,
1478
+ "learning_rate": 1.5307692307692308e-05,
1479
+ "loss": 0.2611,
1480
+ "step": 5075
1481
+ },
1482
+ {
1483
+ "epoch": 5.616740088105727,
1484
+ "grad_norm": 0.8473858833312988,
1485
+ "learning_rate": 1.5282051282051282e-05,
1486
+ "loss": 0.2603,
1487
+ "step": 5100
1488
+ },
1489
+ {
1490
+ "epoch": 5.644273127753304,
1491
+ "grad_norm": 0.891690194606781,
1492
+ "learning_rate": 1.5256410256410257e-05,
1493
+ "loss": 0.2592,
1494
+ "step": 5125
1495
+ },
1496
+ {
1497
+ "epoch": 5.671806167400881,
1498
+ "grad_norm": 0.6996191740036011,
1499
+ "learning_rate": 1.523076923076923e-05,
1500
+ "loss": 0.2717,
1501
+ "step": 5150
1502
+ },
1503
+ {
1504
+ "epoch": 5.6993392070484585,
1505
+ "grad_norm": 0.7721630930900574,
1506
+ "learning_rate": 1.5205128205128206e-05,
1507
+ "loss": 0.2383,
1508
+ "step": 5175
1509
+ },
1510
+ {
1511
+ "epoch": 5.726872246696035,
1512
+ "grad_norm": 0.7740418910980225,
1513
+ "learning_rate": 1.517948717948718e-05,
1514
+ "loss": 0.2795,
1515
+ "step": 5200
1516
+ },
1517
+ {
1518
+ "epoch": 5.754405286343612,
1519
+ "grad_norm": 0.7397506833076477,
1520
+ "learning_rate": 1.5153846153846155e-05,
1521
+ "loss": 0.2575,
1522
+ "step": 5225
1523
+ },
1524
+ {
1525
+ "epoch": 5.78193832599119,
1526
+ "grad_norm": 0.8838066458702087,
1527
+ "learning_rate": 1.5128205128205129e-05,
1528
+ "loss": 0.2873,
1529
+ "step": 5250
1530
+ },
1531
+ {
1532
+ "epoch": 5.809471365638767,
1533
+ "grad_norm": 1.331363320350647,
1534
+ "learning_rate": 1.5102564102564104e-05,
1535
+ "loss": 0.2664,
1536
+ "step": 5275
1537
+ },
1538
+ {
1539
+ "epoch": 5.8370044052863435,
1540
+ "grad_norm": 0.8736733794212341,
1541
+ "learning_rate": 1.5076923076923078e-05,
1542
+ "loss": 0.2574,
1543
+ "step": 5300
1544
+ },
1545
+ {
1546
+ "epoch": 5.864537444933921,
1547
+ "grad_norm": 0.8324550986289978,
1548
+ "learning_rate": 1.5051282051282053e-05,
1549
+ "loss": 0.2631,
1550
+ "step": 5325
1551
+ },
1552
+ {
1553
+ "epoch": 5.892070484581498,
1554
+ "grad_norm": 0.6863672137260437,
1555
+ "learning_rate": 1.5025641025641027e-05,
1556
+ "loss": 0.2693,
1557
+ "step": 5350
1558
+ },
1559
+ {
1560
+ "epoch": 5.919603524229075,
1561
+ "grad_norm": 0.6372384428977966,
1562
+ "learning_rate": 1.5000000000000002e-05,
1563
+ "loss": 0.2449,
1564
+ "step": 5375
1565
+ },
1566
+ {
1567
+ "epoch": 5.9471365638766525,
1568
+ "grad_norm": 0.8350533246994019,
1569
+ "learning_rate": 1.4974358974358976e-05,
1570
+ "loss": 0.256,
1571
+ "step": 5400
1572
+ },
1573
+ {
1574
+ "epoch": 5.974669603524229,
1575
+ "grad_norm": 0.7431644797325134,
1576
+ "learning_rate": 1.494871794871795e-05,
1577
+ "loss": 0.2448,
1578
+ "step": 5425
1579
+ },
1580
+ {
1581
+ "epoch": 6.002202643171806,
1582
+ "grad_norm": 0.49462586641311646,
1583
+ "learning_rate": 1.4923076923076925e-05,
1584
+ "loss": 0.2238,
1585
+ "step": 5450
1586
+ },
1587
+ {
1588
+ "epoch": 6.029735682819383,
1589
+ "grad_norm": 0.7905895709991455,
1590
+ "learning_rate": 1.4897435897435898e-05,
1591
+ "loss": 0.1734,
1592
+ "step": 5475
1593
+ },
1594
+ {
1595
+ "epoch": 6.057268722466961,
1596
+ "grad_norm": 0.6685343384742737,
1597
+ "learning_rate": 1.4871794871794874e-05,
1598
+ "loss": 0.1577,
1599
+ "step": 5500
1600
+ },
1601
+ {
1602
+ "epoch": 6.084801762114537,
1603
+ "grad_norm": 0.6416425108909607,
1604
+ "learning_rate": 1.4846153846153847e-05,
1605
+ "loss": 0.1845,
1606
+ "step": 5525
1607
+ },
1608
+ {
1609
+ "epoch": 6.112334801762114,
1610
+ "grad_norm": 0.584987998008728,
1611
+ "learning_rate": 1.4820512820512823e-05,
1612
+ "loss": 0.1899,
1613
+ "step": 5550
1614
+ },
1615
+ {
1616
+ "epoch": 6.139867841409692,
1617
+ "grad_norm": 0.49699297547340393,
1618
+ "learning_rate": 1.4794871794871796e-05,
1619
+ "loss": 0.1774,
1620
+ "step": 5575
1621
+ },
1622
+ {
1623
+ "epoch": 6.167400881057269,
1624
+ "grad_norm": 0.7456440925598145,
1625
+ "learning_rate": 1.4769230769230772e-05,
1626
+ "loss": 0.1977,
1627
+ "step": 5600
1628
+ },
1629
+ {
1630
+ "epoch": 6.1949339207048455,
1631
+ "grad_norm": 0.5305894613265991,
1632
+ "learning_rate": 1.4743589743589745e-05,
1633
+ "loss": 0.1544,
1634
+ "step": 5625
1635
+ },
1636
+ {
1637
+ "epoch": 6.222466960352423,
1638
+ "grad_norm": 0.6994619369506836,
1639
+ "learning_rate": 1.471794871794872e-05,
1640
+ "loss": 0.1964,
1641
+ "step": 5650
1642
+ },
1643
+ {
1644
+ "epoch": 6.25,
1645
+ "grad_norm": 0.6842361092567444,
1646
+ "learning_rate": 1.4692307692307694e-05,
1647
+ "loss": 0.1873,
1648
+ "step": 5675
1649
+ },
1650
+ {
1651
+ "epoch": 6.277533039647577,
1652
+ "grad_norm": 0.5287600159645081,
1653
+ "learning_rate": 1.4666666666666666e-05,
1654
+ "loss": 0.16,
1655
+ "step": 5700
1656
+ },
1657
+ {
1658
+ "epoch": 6.3050660792951545,
1659
+ "grad_norm": 0.5247631669044495,
1660
+ "learning_rate": 1.4641025641025642e-05,
1661
+ "loss": 0.1849,
1662
+ "step": 5725
1663
+ },
1664
+ {
1665
+ "epoch": 6.332599118942731,
1666
+ "grad_norm": 0.7973225712776184,
1667
+ "learning_rate": 1.4615384615384615e-05,
1668
+ "loss": 0.17,
1669
+ "step": 5750
1670
+ },
1671
+ {
1672
+ "epoch": 6.360132158590308,
1673
+ "grad_norm": 0.5792837142944336,
1674
+ "learning_rate": 1.458974358974359e-05,
1675
+ "loss": 0.1766,
1676
+ "step": 5775
1677
+ },
1678
+ {
1679
+ "epoch": 6.387665198237886,
1680
+ "grad_norm": 0.6392947435379028,
1681
+ "learning_rate": 1.4564102564102564e-05,
1682
+ "loss": 0.1888,
1683
+ "step": 5800
1684
+ },
1685
+ {
1686
+ "epoch": 6.415198237885463,
1687
+ "grad_norm": 0.5919508337974548,
1688
+ "learning_rate": 1.453846153846154e-05,
1689
+ "loss": 0.1729,
1690
+ "step": 5825
1691
+ },
1692
+ {
1693
+ "epoch": 6.442731277533039,
1694
+ "grad_norm": 0.5749716758728027,
1695
+ "learning_rate": 1.4512820512820513e-05,
1696
+ "loss": 0.1929,
1697
+ "step": 5850
1698
+ },
1699
+ {
1700
+ "epoch": 6.470264317180617,
1701
+ "grad_norm": 0.7120850682258606,
1702
+ "learning_rate": 1.4487179487179489e-05,
1703
+ "loss": 0.2032,
1704
+ "step": 5875
1705
+ },
1706
+ {
1707
+ "epoch": 6.497797356828194,
1708
+ "grad_norm": 0.7158252596855164,
1709
+ "learning_rate": 1.4461538461538462e-05,
1710
+ "loss": 0.1861,
1711
+ "step": 5900
1712
+ },
1713
+ {
1714
+ "epoch": 6.525330396475771,
1715
+ "grad_norm": 0.6715514659881592,
1716
+ "learning_rate": 1.4435897435897438e-05,
1717
+ "loss": 0.2071,
1718
+ "step": 5925
1719
+ },
1720
+ {
1721
+ "epoch": 6.5528634361233475,
1722
+ "grad_norm": 0.5938199758529663,
1723
+ "learning_rate": 1.4410256410256411e-05,
1724
+ "loss": 0.1839,
1725
+ "step": 5950
1726
+ },
1727
+ {
1728
+ "epoch": 6.580396475770925,
1729
+ "grad_norm": 0.7464186549186707,
1730
+ "learning_rate": 1.4384615384615387e-05,
1731
+ "loss": 0.1855,
1732
+ "step": 5975
1733
+ },
1734
+ {
1735
+ "epoch": 6.607929515418502,
1736
+ "grad_norm": 0.6544903516769409,
1737
+ "learning_rate": 1.435897435897436e-05,
1738
+ "loss": 0.1854,
1739
+ "step": 6000
1740
+ },
1741
+ {
1742
+ "epoch": 6.607929515418502,
1743
+ "eval_cer": 73.37303543383811,
1744
+ "eval_loss": 0.8310097455978394,
1745
+ "eval_runtime": 933.6287,
1746
+ "eval_samples_per_second": 11.333,
1747
+ "eval_steps_per_second": 2.834,
1748
+ "eval_wer": 97.99151343705799,
1749
+ "step": 6000
1750
+ },
1751
+ {
1752
+ "epoch": 6.635462555066079,
1753
+ "grad_norm": 0.625103771686554,
1754
+ "learning_rate": 1.4333333333333334e-05,
1755
+ "loss": 0.1653,
1756
+ "step": 6025
1757
+ },
1758
+ {
1759
+ "epoch": 6.6629955947136565,
1760
+ "grad_norm": 0.540448009967804,
1761
+ "learning_rate": 1.430769230769231e-05,
1762
+ "loss": 0.2075,
1763
+ "step": 6050
1764
+ },
1765
+ {
1766
+ "epoch": 6.690528634361233,
1767
+ "grad_norm": 0.8601000308990479,
1768
+ "learning_rate": 1.4282051282051283e-05,
1769
+ "loss": 0.2174,
1770
+ "step": 6075
1771
+ },
1772
+ {
1773
+ "epoch": 6.71806167400881,
1774
+ "grad_norm": 0.8207329511642456,
1775
+ "learning_rate": 1.4256410256410258e-05,
1776
+ "loss": 0.2157,
1777
+ "step": 6100
1778
+ },
1779
+ {
1780
+ "epoch": 6.745594713656388,
1781
+ "grad_norm": 0.6145961880683899,
1782
+ "learning_rate": 1.4230769230769232e-05,
1783
+ "loss": 0.2074,
1784
+ "step": 6125
1785
+ },
1786
+ {
1787
+ "epoch": 6.773127753303965,
1788
+ "grad_norm": 0.7318241596221924,
1789
+ "learning_rate": 1.4205128205128207e-05,
1790
+ "loss": 0.1896,
1791
+ "step": 6150
1792
+ },
1793
+ {
1794
+ "epoch": 6.8006607929515415,
1795
+ "grad_norm": 0.7682480216026306,
1796
+ "learning_rate": 1.4179487179487181e-05,
1797
+ "loss": 0.199,
1798
+ "step": 6175
1799
+ },
1800
+ {
1801
+ "epoch": 6.828193832599119,
1802
+ "grad_norm": 0.6676972508430481,
1803
+ "learning_rate": 1.4153846153846156e-05,
1804
+ "loss": 0.1742,
1805
+ "step": 6200
1806
+ },
1807
+ {
1808
+ "epoch": 6.855726872246696,
1809
+ "grad_norm": 0.6792747974395752,
1810
+ "learning_rate": 1.412820512820513e-05,
1811
+ "loss": 0.2096,
1812
+ "step": 6225
1813
+ },
1814
+ {
1815
+ "epoch": 6.883259911894273,
1816
+ "grad_norm": 0.5820185542106628,
1817
+ "learning_rate": 1.4102564102564105e-05,
1818
+ "loss": 0.1843,
1819
+ "step": 6250
1820
+ },
1821
+ {
1822
+ "epoch": 6.9107929515418505,
1823
+ "grad_norm": 0.6929712295532227,
1824
+ "learning_rate": 1.4076923076923079e-05,
1825
+ "loss": 0.1797,
1826
+ "step": 6275
1827
+ },
1828
+ {
1829
+ "epoch": 6.938325991189427,
1830
+ "grad_norm": 0.7363738417625427,
1831
+ "learning_rate": 1.405128205128205e-05,
1832
+ "loss": 0.1823,
1833
+ "step": 6300
1834
+ },
1835
+ {
1836
+ "epoch": 6.965859030837004,
1837
+ "grad_norm": 0.708763599395752,
1838
+ "learning_rate": 1.4025641025641026e-05,
1839
+ "loss": 0.1856,
1840
+ "step": 6325
1841
+ },
1842
+ {
1843
+ "epoch": 6.993392070484582,
1844
+ "grad_norm": 0.6946198344230652,
1845
+ "learning_rate": 1.4e-05,
1846
+ "loss": 0.1942,
1847
+ "step": 6350
1848
+ },
1849
+ {
1850
+ "epoch": 7.020925110132159,
1851
+ "grad_norm": 0.5003654956817627,
1852
+ "learning_rate": 1.3974358974358975e-05,
1853
+ "loss": 0.131,
1854
+ "step": 6375
1855
+ },
1856
+ {
1857
+ "epoch": 7.048458149779735,
1858
+ "grad_norm": 0.6626909375190735,
1859
+ "learning_rate": 1.3948717948717949e-05,
1860
+ "loss": 0.1278,
1861
+ "step": 6400
1862
+ },
1863
+ {
1864
+ "epoch": 7.075991189427313,
1865
+ "grad_norm": 0.36942312121391296,
1866
+ "learning_rate": 1.3923076923076924e-05,
1867
+ "loss": 0.1111,
1868
+ "step": 6425
1869
+ },
1870
+ {
1871
+ "epoch": 7.10352422907489,
1872
+ "grad_norm": 0.5009227395057678,
1873
+ "learning_rate": 1.3897435897435898e-05,
1874
+ "loss": 0.1099,
1875
+ "step": 6450
1876
+ },
1877
+ {
1878
+ "epoch": 7.131057268722467,
1879
+ "grad_norm": 0.3141847848892212,
1880
+ "learning_rate": 1.3871794871794873e-05,
1881
+ "loss": 0.1193,
1882
+ "step": 6475
1883
+ },
1884
+ {
1885
+ "epoch": 7.158590308370044,
1886
+ "grad_norm": 0.6159384250640869,
1887
+ "learning_rate": 1.3846153846153847e-05,
1888
+ "loss": 0.1305,
1889
+ "step": 6500
1890
+ },
1891
+ {
1892
+ "epoch": 7.186123348017621,
1893
+ "grad_norm": 0.7549660801887512,
1894
+ "learning_rate": 1.3820512820512822e-05,
1895
+ "loss": 0.1271,
1896
+ "step": 6525
1897
+ },
1898
+ {
1899
+ "epoch": 7.213656387665198,
1900
+ "grad_norm": 0.9365887641906738,
1901
+ "learning_rate": 1.3794871794871796e-05,
1902
+ "loss": 0.12,
1903
+ "step": 6550
1904
+ },
1905
+ {
1906
+ "epoch": 7.241189427312776,
1907
+ "grad_norm": 0.42107388377189636,
1908
+ "learning_rate": 1.3769230769230771e-05,
1909
+ "loss": 0.1303,
1910
+ "step": 6575
1911
+ },
1912
+ {
1913
+ "epoch": 7.2687224669603525,
1914
+ "grad_norm": 0.6491579413414001,
1915
+ "learning_rate": 1.3743589743589745e-05,
1916
+ "loss": 0.1284,
1917
+ "step": 6600
1918
+ },
1919
+ {
1920
+ "epoch": 7.296255506607929,
1921
+ "grad_norm": 0.5241743922233582,
1922
+ "learning_rate": 1.3717948717948718e-05,
1923
+ "loss": 0.1352,
1924
+ "step": 6625
1925
+ },
1926
+ {
1927
+ "epoch": 7.323788546255507,
1928
+ "grad_norm": 0.5401379466056824,
1929
+ "learning_rate": 1.3692307692307694e-05,
1930
+ "loss": 0.1305,
1931
+ "step": 6650
1932
+ },
1933
+ {
1934
+ "epoch": 7.351321585903084,
1935
+ "grad_norm": 0.8926748037338257,
1936
+ "learning_rate": 1.3666666666666667e-05,
1937
+ "loss": 0.1414,
1938
+ "step": 6675
1939
+ },
1940
+ {
1941
+ "epoch": 7.378854625550661,
1942
+ "grad_norm": 0.4713541567325592,
1943
+ "learning_rate": 1.3641025641025643e-05,
1944
+ "loss": 0.1152,
1945
+ "step": 6700
1946
+ },
1947
+ {
1948
+ "epoch": 7.406387665198238,
1949
+ "grad_norm": 0.4151066839694977,
1950
+ "learning_rate": 1.3615384615384616e-05,
1951
+ "loss": 0.1123,
1952
+ "step": 6725
1953
+ },
1954
+ {
1955
+ "epoch": 7.433920704845815,
1956
+ "grad_norm": 0.5809412598609924,
1957
+ "learning_rate": 1.3589743589743592e-05,
1958
+ "loss": 0.1342,
1959
+ "step": 6750
1960
+ },
1961
+ {
1962
+ "epoch": 7.461453744493392,
1963
+ "grad_norm": 0.5300701856613159,
1964
+ "learning_rate": 1.3564102564102565e-05,
1965
+ "loss": 0.1394,
1966
+ "step": 6775
1967
+ },
1968
+ {
1969
+ "epoch": 7.48898678414097,
1970
+ "grad_norm": 0.5370484590530396,
1971
+ "learning_rate": 1.353846153846154e-05,
1972
+ "loss": 0.1337,
1973
+ "step": 6800
1974
+ },
1975
+ {
1976
+ "epoch": 7.516519823788546,
1977
+ "grad_norm": 0.6923957467079163,
1978
+ "learning_rate": 1.3512820512820514e-05,
1979
+ "loss": 0.1314,
1980
+ "step": 6825
1981
+ },
1982
+ {
1983
+ "epoch": 7.544052863436123,
1984
+ "grad_norm": 0.35029956698417664,
1985
+ "learning_rate": 1.348717948717949e-05,
1986
+ "loss": 0.128,
1987
+ "step": 6850
1988
+ },
1989
+ {
1990
+ "epoch": 7.5715859030837,
1991
+ "grad_norm": 0.5914937853813171,
1992
+ "learning_rate": 1.3461538461538463e-05,
1993
+ "loss": 0.121,
1994
+ "step": 6875
1995
+ },
1996
+ {
1997
+ "epoch": 7.599118942731278,
1998
+ "grad_norm": 0.5608924627304077,
1999
+ "learning_rate": 1.3435897435897435e-05,
2000
+ "loss": 0.1439,
2001
+ "step": 6900
2002
+ },
2003
+ {
2004
+ "epoch": 7.6266519823788546,
2005
+ "grad_norm": 0.38419216871261597,
2006
+ "learning_rate": 1.341025641025641e-05,
2007
+ "loss": 0.1195,
2008
+ "step": 6925
2009
+ },
2010
+ {
2011
+ "epoch": 7.654185022026431,
2012
+ "grad_norm": 0.6647460460662842,
2013
+ "learning_rate": 1.3384615384615384e-05,
2014
+ "loss": 0.1501,
2015
+ "step": 6950
2016
+ },
2017
+ {
2018
+ "epoch": 7.681718061674009,
2019
+ "grad_norm": 0.5829716324806213,
2020
+ "learning_rate": 1.335897435897436e-05,
2021
+ "loss": 0.1402,
2022
+ "step": 6975
2023
+ },
2024
+ {
2025
+ "epoch": 7.709251101321586,
2026
+ "grad_norm": 0.7427933216094971,
2027
+ "learning_rate": 1.3333333333333333e-05,
2028
+ "loss": 0.1173,
2029
+ "step": 7000
2030
+ },
2031
+ {
2032
+ "epoch": 7.709251101321586,
2033
+ "eval_cer": 64.11449795375603,
2034
+ "eval_loss": 0.8565544486045837,
2035
+ "eval_runtime": 853.5046,
2036
+ "eval_samples_per_second": 12.397,
2037
+ "eval_steps_per_second": 3.1,
2038
+ "eval_wer": 97.64262140499764,
2039
+ "step": 7000
2040
+ },
2041
+ {
2042
+ "epoch": 7.736784140969163,
2043
+ "grad_norm": 0.7469947338104248,
2044
+ "learning_rate": 1.3307692307692309e-05,
2045
+ "loss": 0.146,
2046
+ "step": 7025
2047
+ },
2048
+ {
2049
+ "epoch": 7.76431718061674,
2050
+ "grad_norm": 0.962263822555542,
2051
+ "learning_rate": 1.3282051282051282e-05,
2052
+ "loss": 0.1349,
2053
+ "step": 7050
2054
+ },
2055
+ {
2056
+ "epoch": 7.791850220264317,
2057
+ "grad_norm": 0.7025478482246399,
2058
+ "learning_rate": 1.3256410256410258e-05,
2059
+ "loss": 0.129,
2060
+ "step": 7075
2061
+ },
2062
+ {
2063
+ "epoch": 7.819383259911894,
2064
+ "grad_norm": 0.749464750289917,
2065
+ "learning_rate": 1.3230769230769231e-05,
2066
+ "loss": 0.1276,
2067
+ "step": 7100
2068
+ },
2069
+ {
2070
+ "epoch": 7.846916299559472,
2071
+ "grad_norm": 0.6161931157112122,
2072
+ "learning_rate": 1.3205128205128207e-05,
2073
+ "loss": 0.1196,
2074
+ "step": 7125
2075
+ },
2076
+ {
2077
+ "epoch": 7.8744493392070485,
2078
+ "grad_norm": 0.43383580446243286,
2079
+ "learning_rate": 1.317948717948718e-05,
2080
+ "loss": 0.1511,
2081
+ "step": 7150
2082
+ },
2083
+ {
2084
+ "epoch": 7.901982378854625,
2085
+ "grad_norm": 0.5156465768814087,
2086
+ "learning_rate": 1.3153846153846156e-05,
2087
+ "loss": 0.141,
2088
+ "step": 7175
2089
+ },
2090
+ {
2091
+ "epoch": 7.929515418502203,
2092
+ "grad_norm": 0.6636006236076355,
2093
+ "learning_rate": 1.312820512820513e-05,
2094
+ "loss": 0.152,
2095
+ "step": 7200
2096
+ },
2097
+ {
2098
+ "epoch": 7.95704845814978,
2099
+ "grad_norm": 0.6761754751205444,
2100
+ "learning_rate": 1.3102564102564103e-05,
2101
+ "loss": 0.1379,
2102
+ "step": 7225
2103
+ },
2104
+ {
2105
+ "epoch": 7.984581497797357,
2106
+ "grad_norm": 0.5854198336601257,
2107
+ "learning_rate": 1.3076923076923078e-05,
2108
+ "loss": 0.1406,
2109
+ "step": 7250
2110
+ },
2111
+ {
2112
+ "epoch": 8.012114537444933,
2113
+ "grad_norm": 0.3060972988605499,
2114
+ "learning_rate": 1.3051282051282052e-05,
2115
+ "loss": 0.1423,
2116
+ "step": 7275
2117
+ },
2118
+ {
2119
+ "epoch": 8.039647577092511,
2120
+ "grad_norm": 0.37324124574661255,
2121
+ "learning_rate": 1.3025641025641027e-05,
2122
+ "loss": 0.0909,
2123
+ "step": 7300
2124
+ },
2125
+ {
2126
+ "epoch": 8.067180616740089,
2127
+ "grad_norm": 0.4420897960662842,
2128
+ "learning_rate": 1.3000000000000001e-05,
2129
+ "loss": 0.091,
2130
+ "step": 7325
2131
+ },
2132
+ {
2133
+ "epoch": 8.094713656387665,
2134
+ "grad_norm": 0.5292598605155945,
2135
+ "learning_rate": 1.2974358974358976e-05,
2136
+ "loss": 0.088,
2137
+ "step": 7350
2138
+ },
2139
+ {
2140
+ "epoch": 8.122246696035242,
2141
+ "grad_norm": 0.6191997528076172,
2142
+ "learning_rate": 1.294871794871795e-05,
2143
+ "loss": 0.0857,
2144
+ "step": 7375
2145
+ },
2146
+ {
2147
+ "epoch": 8.14977973568282,
2148
+ "grad_norm": 0.4383416473865509,
2149
+ "learning_rate": 1.2923076923076925e-05,
2150
+ "loss": 0.0832,
2151
+ "step": 7400
2152
+ },
2153
+ {
2154
+ "epoch": 8.177312775330396,
2155
+ "grad_norm": 0.2875024378299713,
2156
+ "learning_rate": 1.2897435897435899e-05,
2157
+ "loss": 0.0872,
2158
+ "step": 7425
2159
+ },
2160
+ {
2161
+ "epoch": 8.204845814977974,
2162
+ "grad_norm": 0.2749011218547821,
2163
+ "learning_rate": 1.2871794871794874e-05,
2164
+ "loss": 0.0784,
2165
+ "step": 7450
2166
+ },
2167
+ {
2168
+ "epoch": 8.232378854625551,
2169
+ "grad_norm": 0.6115961074829102,
2170
+ "learning_rate": 1.2846153846153848e-05,
2171
+ "loss": 0.1014,
2172
+ "step": 7475
2173
+ },
2174
+ {
2175
+ "epoch": 8.259911894273127,
2176
+ "grad_norm": 0.30915337800979614,
2177
+ "learning_rate": 1.2820512820512823e-05,
2178
+ "loss": 0.0788,
2179
+ "step": 7500
2180
+ },
2181
+ {
2182
+ "epoch": 8.287444933920705,
2183
+ "grad_norm": 0.8303879499435425,
2184
+ "learning_rate": 1.2794871794871795e-05,
2185
+ "loss": 0.0815,
2186
+ "step": 7525
2187
+ },
2188
+ {
2189
+ "epoch": 8.314977973568283,
2190
+ "grad_norm": 0.48807233572006226,
2191
+ "learning_rate": 1.2769230769230769e-05,
2192
+ "loss": 0.083,
2193
+ "step": 7550
2194
+ },
2195
+ {
2196
+ "epoch": 8.342511013215859,
2197
+ "grad_norm": 0.5944768786430359,
2198
+ "learning_rate": 1.2743589743589744e-05,
2199
+ "loss": 0.0873,
2200
+ "step": 7575
2201
+ },
2202
+ {
2203
+ "epoch": 8.370044052863436,
2204
+ "grad_norm": 0.4144470691680908,
2205
+ "learning_rate": 1.2717948717948718e-05,
2206
+ "loss": 0.0749,
2207
+ "step": 7600
2208
+ },
2209
+ {
2210
+ "epoch": 8.397577092511014,
2211
+ "grad_norm": 0.6508732438087463,
2212
+ "learning_rate": 1.2692307692307693e-05,
2213
+ "loss": 0.0946,
2214
+ "step": 7625
2215
+ },
2216
+ {
2217
+ "epoch": 8.42511013215859,
2218
+ "grad_norm": 0.3488626778125763,
2219
+ "learning_rate": 1.2666666666666667e-05,
2220
+ "loss": 0.081,
2221
+ "step": 7650
2222
+ },
2223
+ {
2224
+ "epoch": 8.452643171806168,
2225
+ "grad_norm": 0.6012532114982605,
2226
+ "learning_rate": 1.2641025641025642e-05,
2227
+ "loss": 0.0875,
2228
+ "step": 7675
2229
+ },
2230
+ {
2231
+ "epoch": 8.480176211453745,
2232
+ "grad_norm": 0.43506327271461487,
2233
+ "learning_rate": 1.2615384615384616e-05,
2234
+ "loss": 0.0868,
2235
+ "step": 7700
2236
+ },
2237
+ {
2238
+ "epoch": 8.507709251101321,
2239
+ "grad_norm": 0.35185477137565613,
2240
+ "learning_rate": 1.2589743589743591e-05,
2241
+ "loss": 0.0842,
2242
+ "step": 7725
2243
+ },
2244
+ {
2245
+ "epoch": 8.535242290748899,
2246
+ "grad_norm": 0.6967858076095581,
2247
+ "learning_rate": 1.2564102564102565e-05,
2248
+ "loss": 0.0957,
2249
+ "step": 7750
2250
+ },
2251
+ {
2252
+ "epoch": 8.562775330396477,
2253
+ "grad_norm": 0.5462283492088318,
2254
+ "learning_rate": 1.253846153846154e-05,
2255
+ "loss": 0.0942,
2256
+ "step": 7775
2257
+ },
2258
+ {
2259
+ "epoch": 8.590308370044053,
2260
+ "grad_norm": 0.524748682975769,
2261
+ "learning_rate": 1.2512820512820514e-05,
2262
+ "loss": 0.1017,
2263
+ "step": 7800
2264
+ },
2265
+ {
2266
+ "epoch": 8.61784140969163,
2267
+ "grad_norm": 0.3966872990131378,
2268
+ "learning_rate": 1.2487179487179487e-05,
2269
+ "loss": 0.1023,
2270
+ "step": 7825
2271
+ },
2272
+ {
2273
+ "epoch": 8.645374449339208,
2274
+ "grad_norm": 0.9616275429725647,
2275
+ "learning_rate": 1.2461538461538463e-05,
2276
+ "loss": 0.0797,
2277
+ "step": 7850
2278
+ },
2279
+ {
2280
+ "epoch": 8.672907488986784,
2281
+ "grad_norm": 0.3389146029949188,
2282
+ "learning_rate": 1.2435897435897436e-05,
2283
+ "loss": 0.0753,
2284
+ "step": 7875
2285
+ },
2286
+ {
2287
+ "epoch": 8.700440528634362,
2288
+ "grad_norm": 0.7579898834228516,
2289
+ "learning_rate": 1.2410256410256412e-05,
2290
+ "loss": 0.0971,
2291
+ "step": 7900
2292
+ },
2293
+ {
2294
+ "epoch": 8.72797356828194,
2295
+ "grad_norm": 0.43244099617004395,
2296
+ "learning_rate": 1.2384615384615385e-05,
2297
+ "loss": 0.0939,
2298
+ "step": 7925
2299
+ },
2300
+ {
2301
+ "epoch": 8.755506607929515,
2302
+ "grad_norm": 0.4598844051361084,
2303
+ "learning_rate": 1.235897435897436e-05,
2304
+ "loss": 0.0944,
2305
+ "step": 7950
2306
+ },
2307
+ {
2308
+ "epoch": 8.783039647577093,
2309
+ "grad_norm": 0.5808974504470825,
2310
+ "learning_rate": 1.2333333333333334e-05,
2311
+ "loss": 0.0958,
2312
+ "step": 7975
2313
+ },
2314
+ {
2315
+ "epoch": 8.810572687224669,
2316
+ "grad_norm": 0.8299708366394043,
2317
+ "learning_rate": 1.230769230769231e-05,
2318
+ "loss": 0.1049,
2319
+ "step": 8000
2320
+ },
2321
+ {
2322
+ "epoch": 8.810572687224669,
2323
+ "eval_cer": 70.65044191991564,
2324
+ "eval_loss": 0.8805521130561829,
2325
+ "eval_runtime": 902.4134,
2326
+ "eval_samples_per_second": 11.725,
2327
+ "eval_steps_per_second": 2.932,
2328
+ "eval_wer": 97.72748703441772,
2329
+ "step": 8000
2330
+ },
2331
+ {
2332
+ "epoch": 8.838105726872246,
2333
+ "grad_norm": 0.5200393795967102,
2334
+ "learning_rate": 1.2282051282051283e-05,
2335
+ "loss": 0.0886,
2336
+ "step": 8025
2337
+ },
2338
+ {
2339
+ "epoch": 8.865638766519824,
2340
+ "grad_norm": 0.610178530216217,
2341
+ "learning_rate": 1.2256410256410259e-05,
2342
+ "loss": 0.0957,
2343
+ "step": 8050
2344
+ },
2345
+ {
2346
+ "epoch": 8.8931718061674,
2347
+ "grad_norm": 0.4926294684410095,
2348
+ "learning_rate": 1.2230769230769232e-05,
2349
+ "loss": 0.0893,
2350
+ "step": 8075
2351
+ },
2352
+ {
2353
+ "epoch": 8.920704845814978,
2354
+ "grad_norm": 0.3815154731273651,
2355
+ "learning_rate": 1.2205128205128208e-05,
2356
+ "loss": 0.1048,
2357
+ "step": 8100
2358
+ },
2359
+ {
2360
+ "epoch": 8.948237885462555,
2361
+ "grad_norm": 0.44610753655433655,
2362
+ "learning_rate": 1.217948717948718e-05,
2363
+ "loss": 0.0903,
2364
+ "step": 8125
2365
+ },
2366
+ {
2367
+ "epoch": 8.975770925110131,
2368
+ "grad_norm": 0.5451329946517944,
2369
+ "learning_rate": 1.2153846153846153e-05,
2370
+ "loss": 0.0779,
2371
+ "step": 8150
2372
+ },
2373
+ {
2374
+ "epoch": 9.003303964757709,
2375
+ "grad_norm": 0.27041003108024597,
2376
+ "learning_rate": 1.2128205128205129e-05,
2377
+ "loss": 0.0943,
2378
+ "step": 8175
2379
+ },
2380
+ {
2381
+ "epoch": 9.030837004405287,
2382
+ "grad_norm": 0.5706424117088318,
2383
+ "learning_rate": 1.2102564102564102e-05,
2384
+ "loss": 0.0544,
2385
+ "step": 8200
2386
+ },
2387
+ {
2388
+ "epoch": 9.058370044052863,
2389
+ "grad_norm": 0.2460174858570099,
2390
+ "learning_rate": 1.2076923076923078e-05,
2391
+ "loss": 0.0542,
2392
+ "step": 8225
2393
+ },
2394
+ {
2395
+ "epoch": 9.08590308370044,
2396
+ "grad_norm": 0.44156837463378906,
2397
+ "learning_rate": 1.2051282051282051e-05,
2398
+ "loss": 0.048,
2399
+ "step": 8250
2400
+ },
2401
+ {
2402
+ "epoch": 9.113436123348018,
2403
+ "grad_norm": 0.5182222127914429,
2404
+ "learning_rate": 1.2025641025641027e-05,
2405
+ "loss": 0.0551,
2406
+ "step": 8275
2407
+ },
2408
+ {
2409
+ "epoch": 9.140969162995594,
2410
+ "grad_norm": 0.25801339745521545,
2411
+ "learning_rate": 1.2e-05,
2412
+ "loss": 0.0574,
2413
+ "step": 8300
2414
+ },
2415
+ {
2416
+ "epoch": 9.168502202643172,
2417
+ "grad_norm": 0.32541367411613464,
2418
+ "learning_rate": 1.1974358974358976e-05,
2419
+ "loss": 0.0465,
2420
+ "step": 8325
2421
+ },
2422
+ {
2423
+ "epoch": 9.19603524229075,
2424
+ "grad_norm": 0.3748158812522888,
2425
+ "learning_rate": 1.194871794871795e-05,
2426
+ "loss": 0.0628,
2427
+ "step": 8350
2428
+ },
2429
+ {
2430
+ "epoch": 9.223568281938325,
2431
+ "grad_norm": 0.37736037373542786,
2432
+ "learning_rate": 1.1923076923076925e-05,
2433
+ "loss": 0.0563,
2434
+ "step": 8375
2435
+ },
2436
+ {
2437
+ "epoch": 9.251101321585903,
2438
+ "grad_norm": 0.37839052081108093,
2439
+ "learning_rate": 1.1897435897435898e-05,
2440
+ "loss": 0.0535,
2441
+ "step": 8400
2442
+ },
2443
+ {
2444
+ "epoch": 9.27863436123348,
2445
+ "grad_norm": 0.3533216714859009,
2446
+ "learning_rate": 1.1871794871794872e-05,
2447
+ "loss": 0.053,
2448
+ "step": 8425
2449
+ },
2450
+ {
2451
+ "epoch": 9.306167400881057,
2452
+ "grad_norm": 0.3839458227157593,
2453
+ "learning_rate": 1.1846153846153847e-05,
2454
+ "loss": 0.0621,
2455
+ "step": 8450
2456
+ },
2457
+ {
2458
+ "epoch": 9.333700440528634,
2459
+ "grad_norm": 0.4322117567062378,
2460
+ "learning_rate": 1.1820512820512821e-05,
2461
+ "loss": 0.0523,
2462
+ "step": 8475
2463
+ },
2464
+ {
2465
+ "epoch": 9.361233480176212,
2466
+ "grad_norm": 0.29340413212776184,
2467
+ "learning_rate": 1.1794871794871796e-05,
2468
+ "loss": 0.0618,
2469
+ "step": 8500
2470
+ },
2471
+ {
2472
+ "epoch": 9.388766519823788,
2473
+ "grad_norm": 0.1959504932165146,
2474
+ "learning_rate": 1.176923076923077e-05,
2475
+ "loss": 0.0593,
2476
+ "step": 8525
2477
+ },
2478
+ {
2479
+ "epoch": 9.416299559471366,
2480
+ "grad_norm": 0.3742198050022125,
2481
+ "learning_rate": 1.1743589743589745e-05,
2482
+ "loss": 0.0615,
2483
+ "step": 8550
2484
+ },
2485
+ {
2486
+ "epoch": 9.443832599118943,
2487
+ "grad_norm": 0.2696450650691986,
2488
+ "learning_rate": 1.1717948717948719e-05,
2489
+ "loss": 0.0552,
2490
+ "step": 8575
2491
+ },
2492
+ {
2493
+ "epoch": 9.47136563876652,
2494
+ "grad_norm": 0.5510464310646057,
2495
+ "learning_rate": 1.1692307692307694e-05,
2496
+ "loss": 0.0572,
2497
+ "step": 8600
2498
+ },
2499
+ {
2500
+ "epoch": 9.498898678414097,
2501
+ "grad_norm": 0.6056195497512817,
2502
+ "learning_rate": 1.1666666666666668e-05,
2503
+ "loss": 0.0694,
2504
+ "step": 8625
2505
+ },
2506
+ {
2507
+ "epoch": 9.526431718061675,
2508
+ "grad_norm": 0.2911369204521179,
2509
+ "learning_rate": 1.1641025641025643e-05,
2510
+ "loss": 0.0683,
2511
+ "step": 8650
2512
+ },
2513
+ {
2514
+ "epoch": 9.55396475770925,
2515
+ "grad_norm": 0.3952886760234833,
2516
+ "learning_rate": 1.1615384615384617e-05,
2517
+ "loss": 0.0641,
2518
+ "step": 8675
2519
+ },
2520
+ {
2521
+ "epoch": 9.581497797356828,
2522
+ "grad_norm": 0.4399433732032776,
2523
+ "learning_rate": 1.1589743589743592e-05,
2524
+ "loss": 0.0507,
2525
+ "step": 8700
2526
+ },
2527
+ {
2528
+ "epoch": 9.609030837004406,
2529
+ "grad_norm": 0.19196133315563202,
2530
+ "learning_rate": 1.1564102564102566e-05,
2531
+ "loss": 0.0637,
2532
+ "step": 8725
2533
+ },
2534
+ {
2535
+ "epoch": 9.636563876651982,
2536
+ "grad_norm": 0.6704760193824768,
2537
+ "learning_rate": 1.1538461538461538e-05,
2538
+ "loss": 0.0628,
2539
+ "step": 8750
2540
+ },
2541
+ {
2542
+ "epoch": 9.66409691629956,
2543
+ "grad_norm": 0.4588681757450104,
2544
+ "learning_rate": 1.1512820512820513e-05,
2545
+ "loss": 0.0587,
2546
+ "step": 8775
2547
+ },
2548
+ {
2549
+ "epoch": 9.691629955947137,
2550
+ "grad_norm": 0.49800875782966614,
2551
+ "learning_rate": 1.1487179487179487e-05,
2552
+ "loss": 0.0534,
2553
+ "step": 8800
2554
+ },
2555
+ {
2556
+ "epoch": 9.719162995594713,
2557
+ "grad_norm": 0.5300059914588928,
2558
+ "learning_rate": 1.1461538461538462e-05,
2559
+ "loss": 0.0659,
2560
+ "step": 8825
2561
+ },
2562
+ {
2563
+ "epoch": 9.746696035242291,
2564
+ "grad_norm": 0.4262904226779938,
2565
+ "learning_rate": 1.1435897435897436e-05,
2566
+ "loss": 0.0688,
2567
+ "step": 8850
2568
+ },
2569
+ {
2570
+ "epoch": 9.774229074889869,
2571
+ "grad_norm": 0.5263908505439758,
2572
+ "learning_rate": 1.1410256410256411e-05,
2573
+ "loss": 0.068,
2574
+ "step": 8875
2575
+ },
2576
+ {
2577
+ "epoch": 9.801762114537445,
2578
+ "grad_norm": 0.6390700340270996,
2579
+ "learning_rate": 1.1384615384615385e-05,
2580
+ "loss": 0.0595,
2581
+ "step": 8900
2582
+ },
2583
+ {
2584
+ "epoch": 9.829295154185022,
2585
+ "grad_norm": 0.3971773684024811,
2586
+ "learning_rate": 1.135897435897436e-05,
2587
+ "loss": 0.0715,
2588
+ "step": 8925
2589
+ },
2590
+ {
2591
+ "epoch": 9.8568281938326,
2592
+ "grad_norm": 0.2393706738948822,
2593
+ "learning_rate": 1.1333333333333334e-05,
2594
+ "loss": 0.0619,
2595
+ "step": 8950
2596
+ },
2597
+ {
2598
+ "epoch": 9.884361233480176,
2599
+ "grad_norm": 0.7413886785507202,
2600
+ "learning_rate": 1.1307692307692309e-05,
2601
+ "loss": 0.0543,
2602
+ "step": 8975
2603
+ },
2604
+ {
2605
+ "epoch": 9.911894273127754,
2606
+ "grad_norm": 0.4195553660392761,
2607
+ "learning_rate": 1.1282051282051283e-05,
2608
+ "loss": 0.0566,
2609
+ "step": 9000
2610
+ },
2611
+ {
2612
+ "epoch": 9.911894273127754,
2613
+ "eval_cer": 66.49834351678837,
2614
+ "eval_loss": 0.9025006294250488,
2615
+ "eval_runtime": 869.4795,
2616
+ "eval_samples_per_second": 12.169,
2617
+ "eval_steps_per_second": 3.043,
2618
+ "eval_wer": 97.7934936350778,
2619
+ "step": 9000
2620
+ },
2621
+ {
2622
+ "epoch": 9.939427312775331,
2623
+ "grad_norm": 0.26785850524902344,
2624
+ "learning_rate": 1.1256410256410258e-05,
2625
+ "loss": 0.0617,
2626
+ "step": 9025
2627
+ },
2628
+ {
2629
+ "epoch": 9.966960352422907,
2630
+ "grad_norm": 0.7492098808288574,
2631
+ "learning_rate": 1.1230769230769232e-05,
2632
+ "loss": 0.0673,
2633
+ "step": 9050
2634
+ },
2635
+ {
2636
+ "epoch": 9.994493392070485,
2637
+ "grad_norm": 0.4261627495288849,
2638
+ "learning_rate": 1.1205128205128205e-05,
2639
+ "loss": 0.0596,
2640
+ "step": 9075
2641
+ },
2642
+ {
2643
+ "epoch": 10.022026431718063,
2644
+ "grad_norm": 0.271913081407547,
2645
+ "learning_rate": 1.117948717948718e-05,
2646
+ "loss": 0.0387,
2647
+ "step": 9100
2648
+ },
2649
+ {
2650
+ "epoch": 10.049559471365638,
2651
+ "grad_norm": 0.3687051832675934,
2652
+ "learning_rate": 1.1153846153846154e-05,
2653
+ "loss": 0.0355,
2654
+ "step": 9125
2655
+ },
2656
+ {
2657
+ "epoch": 10.077092511013216,
2658
+ "grad_norm": 0.5124948620796204,
2659
+ "learning_rate": 1.112820512820513e-05,
2660
+ "loss": 0.047,
2661
+ "step": 9150
2662
+ },
2663
+ {
2664
+ "epoch": 10.104625550660794,
2665
+ "grad_norm": 0.5072323679924011,
2666
+ "learning_rate": 1.1102564102564103e-05,
2667
+ "loss": 0.0311,
2668
+ "step": 9175
2669
+ },
2670
+ {
2671
+ "epoch": 10.13215859030837,
2672
+ "grad_norm": 0.7538577914237976,
2673
+ "learning_rate": 1.1076923076923079e-05,
2674
+ "loss": 0.0392,
2675
+ "step": 9200
2676
+ },
2677
+ {
2678
+ "epoch": 10.159691629955947,
2679
+ "grad_norm": 0.14610818028450012,
2680
+ "learning_rate": 1.1051282051282052e-05,
2681
+ "loss": 0.0337,
2682
+ "step": 9225
2683
+ },
2684
+ {
2685
+ "epoch": 10.187224669603523,
2686
+ "grad_norm": 0.2696049213409424,
2687
+ "learning_rate": 1.1025641025641028e-05,
2688
+ "loss": 0.0424,
2689
+ "step": 9250
2690
+ },
2691
+ {
2692
+ "epoch": 10.214757709251101,
2693
+ "grad_norm": 0.1662781834602356,
2694
+ "learning_rate": 1.1000000000000001e-05,
2695
+ "loss": 0.0329,
2696
+ "step": 9275
2697
+ },
2698
+ {
2699
+ "epoch": 10.242290748898679,
2700
+ "grad_norm": 0.23444922268390656,
2701
+ "learning_rate": 1.0974358974358977e-05,
2702
+ "loss": 0.0329,
2703
+ "step": 9300
2704
+ },
2705
+ {
2706
+ "epoch": 10.269823788546255,
2707
+ "grad_norm": 0.5237591862678528,
2708
+ "learning_rate": 1.094871794871795e-05,
2709
+ "loss": 0.0403,
2710
+ "step": 9325
2711
+ },
2712
+ {
2713
+ "epoch": 10.297356828193832,
2714
+ "grad_norm": 0.46771717071533203,
2715
+ "learning_rate": 1.0923076923076922e-05,
2716
+ "loss": 0.0396,
2717
+ "step": 9350
2718
+ },
2719
+ {
2720
+ "epoch": 10.32488986784141,
2721
+ "grad_norm": 0.24174697697162628,
2722
+ "learning_rate": 1.0897435897435898e-05,
2723
+ "loss": 0.0483,
2724
+ "step": 9375
2725
+ },
2726
+ {
2727
+ "epoch": 10.352422907488986,
2728
+ "grad_norm": 0.38117629289627075,
2729
+ "learning_rate": 1.0871794871794871e-05,
2730
+ "loss": 0.0337,
2731
+ "step": 9400
2732
+ },
2733
+ {
2734
+ "epoch": 10.379955947136564,
2735
+ "grad_norm": 0.2335430532693863,
2736
+ "learning_rate": 1.0846153846153847e-05,
2737
+ "loss": 0.046,
2738
+ "step": 9425
2739
+ },
2740
+ {
2741
+ "epoch": 10.407488986784141,
2742
+ "grad_norm": 0.1994549036026001,
2743
+ "learning_rate": 1.082051282051282e-05,
2744
+ "loss": 0.0389,
2745
+ "step": 9450
2746
+ },
2747
+ {
2748
+ "epoch": 10.435022026431717,
2749
+ "grad_norm": 0.42172032594680786,
2750
+ "learning_rate": 1.0794871794871796e-05,
2751
+ "loss": 0.0332,
2752
+ "step": 9475
2753
+ },
2754
+ {
2755
+ "epoch": 10.462555066079295,
2756
+ "grad_norm": 0.32804402709007263,
2757
+ "learning_rate": 1.076923076923077e-05,
2758
+ "loss": 0.0356,
2759
+ "step": 9500
2760
+ },
2761
+ {
2762
+ "epoch": 10.490088105726873,
2763
+ "grad_norm": 0.26200738549232483,
2764
+ "learning_rate": 1.0743589743589745e-05,
2765
+ "loss": 0.0495,
2766
+ "step": 9525
2767
+ },
2768
+ {
2769
+ "epoch": 10.517621145374449,
2770
+ "grad_norm": 0.24157360196113586,
2771
+ "learning_rate": 1.0717948717948718e-05,
2772
+ "loss": 0.0364,
2773
+ "step": 9550
2774
+ },
2775
+ {
2776
+ "epoch": 10.545154185022026,
2777
+ "grad_norm": 0.20026101171970367,
2778
+ "learning_rate": 1.0692307692307694e-05,
2779
+ "loss": 0.0374,
2780
+ "step": 9575
2781
+ },
2782
+ {
2783
+ "epoch": 10.572687224669604,
2784
+ "grad_norm": 0.24734953045845032,
2785
+ "learning_rate": 1.0666666666666667e-05,
2786
+ "loss": 0.0373,
2787
+ "step": 9600
2788
+ },
2789
+ {
2790
+ "epoch": 10.60022026431718,
2791
+ "grad_norm": 0.4558570384979248,
2792
+ "learning_rate": 1.0641025641025643e-05,
2793
+ "loss": 0.0399,
2794
+ "step": 9625
2795
+ },
2796
+ {
2797
+ "epoch": 10.627753303964758,
2798
+ "grad_norm": 0.18524861335754395,
2799
+ "learning_rate": 1.0615384615384616e-05,
2800
+ "loss": 0.0386,
2801
+ "step": 9650
2802
+ },
2803
+ {
2804
+ "epoch": 10.655286343612335,
2805
+ "grad_norm": 0.25492531061172485,
2806
+ "learning_rate": 1.058974358974359e-05,
2807
+ "loss": 0.043,
2808
+ "step": 9675
2809
+ },
2810
+ {
2811
+ "epoch": 10.682819383259911,
2812
+ "grad_norm": 0.4922308921813965,
2813
+ "learning_rate": 1.0564102564102565e-05,
2814
+ "loss": 0.0457,
2815
+ "step": 9700
2816
+ },
2817
+ {
2818
+ "epoch": 10.710352422907489,
2819
+ "grad_norm": 0.2943499982357025,
2820
+ "learning_rate": 1.0538461538461539e-05,
2821
+ "loss": 0.0431,
2822
+ "step": 9725
2823
+ },
2824
+ {
2825
+ "epoch": 10.737885462555067,
2826
+ "grad_norm": 0.1940225064754486,
2827
+ "learning_rate": 1.0512820512820514e-05,
2828
+ "loss": 0.0403,
2829
+ "step": 9750
2830
+ },
2831
+ {
2832
+ "epoch": 10.765418502202643,
2833
+ "grad_norm": 0.1552239954471588,
2834
+ "learning_rate": 1.0487179487179488e-05,
2835
+ "loss": 0.0367,
2836
+ "step": 9775
2837
+ },
2838
+ {
2839
+ "epoch": 10.79295154185022,
2840
+ "grad_norm": 0.49517762660980225,
2841
+ "learning_rate": 1.0461538461538463e-05,
2842
+ "loss": 0.0425,
2843
+ "step": 9800
2844
+ },
2845
+ {
2846
+ "epoch": 10.820484581497798,
2847
+ "grad_norm": 0.611227810382843,
2848
+ "learning_rate": 1.0435897435897437e-05,
2849
+ "loss": 0.0385,
2850
+ "step": 9825
2851
+ },
2852
+ {
2853
+ "epoch": 10.848017621145374,
2854
+ "grad_norm": 0.19623863697052002,
2855
+ "learning_rate": 1.0410256410256412e-05,
2856
+ "loss": 0.0364,
2857
+ "step": 9850
2858
+ },
2859
+ {
2860
+ "epoch": 10.875550660792952,
2861
+ "grad_norm": 0.4200350344181061,
2862
+ "learning_rate": 1.0384615384615386e-05,
2863
+ "loss": 0.0408,
2864
+ "step": 9875
2865
+ },
2866
+ {
2867
+ "epoch": 10.90308370044053,
2868
+ "grad_norm": 0.5670203566551208,
2869
+ "learning_rate": 1.0358974358974361e-05,
2870
+ "loss": 0.0333,
2871
+ "step": 9900
2872
+ },
2873
+ {
2874
+ "epoch": 10.930616740088105,
2875
+ "grad_norm": 0.4078093469142914,
2876
+ "learning_rate": 1.0333333333333335e-05,
2877
+ "loss": 0.0319,
2878
+ "step": 9925
2879
+ },
2880
+ {
2881
+ "epoch": 10.958149779735683,
2882
+ "grad_norm": 0.24493761360645294,
2883
+ "learning_rate": 1.0307692307692307e-05,
2884
+ "loss": 0.0414,
2885
+ "step": 9950
2886
+ },
2887
+ {
2888
+ "epoch": 10.98568281938326,
2889
+ "grad_norm": 0.39487889409065247,
2890
+ "learning_rate": 1.0282051282051282e-05,
2891
+ "loss": 0.046,
2892
+ "step": 9975
2893
+ },
2894
+ {
2895
+ "epoch": 11.013215859030836,
2896
+ "grad_norm": 0.09149141609668732,
2897
+ "learning_rate": 1.0256410256410256e-05,
2898
+ "loss": 0.037,
2899
+ "step": 10000
2900
+ },
2901
+ {
2902
+ "epoch": 11.013215859030836,
2903
+ "eval_cer": 63.11544942854195,
2904
+ "eval_loss": 0.9283918738365173,
2905
+ "eval_runtime": 860.3587,
2906
+ "eval_samples_per_second": 12.298,
2907
+ "eval_steps_per_second": 3.075,
2908
+ "eval_wer": 97.53889674681754,
2909
+ "step": 10000
2910
+ },
2911
+ {
2912
+ "epoch": 11.040748898678414,
2913
+ "grad_norm": 0.4592762887477875,
2914
+ "learning_rate": 1.0230769230769231e-05,
2915
+ "loss": 0.0276,
2916
+ "step": 10025
2917
+ },
2918
+ {
2919
+ "epoch": 11.068281938325992,
2920
+ "grad_norm": 0.15113013982772827,
2921
+ "learning_rate": 1.0205128205128205e-05,
2922
+ "loss": 0.0259,
2923
+ "step": 10050
2924
+ },
2925
+ {
2926
+ "epoch": 11.095814977973568,
2927
+ "grad_norm": 0.1503317505121231,
2928
+ "learning_rate": 1.017948717948718e-05,
2929
+ "loss": 0.0276,
2930
+ "step": 10075
2931
+ },
2932
+ {
2933
+ "epoch": 11.123348017621145,
2934
+ "grad_norm": 0.14569109678268433,
2935
+ "learning_rate": 1.0153846153846154e-05,
2936
+ "loss": 0.0238,
2937
+ "step": 10100
2938
+ },
2939
+ {
2940
+ "epoch": 11.150881057268723,
2941
+ "grad_norm": 0.37791919708251953,
2942
+ "learning_rate": 1.012820512820513e-05,
2943
+ "loss": 0.022,
2944
+ "step": 10125
2945
+ },
2946
+ {
2947
+ "epoch": 11.178414096916299,
2948
+ "grad_norm": 0.2850872874259949,
2949
+ "learning_rate": 1.0102564102564103e-05,
2950
+ "loss": 0.0245,
2951
+ "step": 10150
2952
+ },
2953
+ {
2954
+ "epoch": 11.205947136563877,
2955
+ "grad_norm": 0.3191249370574951,
2956
+ "learning_rate": 1.0076923076923078e-05,
2957
+ "loss": 0.0247,
2958
+ "step": 10175
2959
+ },
2960
+ {
2961
+ "epoch": 11.233480176211454,
2962
+ "grad_norm": 0.23166881501674652,
2963
+ "learning_rate": 1.0051282051282052e-05,
2964
+ "loss": 0.0247,
2965
+ "step": 10200
2966
+ },
2967
+ {
2968
+ "epoch": 11.26101321585903,
2969
+ "grad_norm": 0.24626369774341583,
2970
+ "learning_rate": 1.0025641025641027e-05,
2971
+ "loss": 0.0246,
2972
+ "step": 10225
2973
+ },
2974
+ {
2975
+ "epoch": 11.288546255506608,
2976
+ "grad_norm": 0.2534284293651581,
2977
+ "learning_rate": 1e-05,
2978
+ "loss": 0.0219,
2979
+ "step": 10250
2980
+ },
2981
+ {
2982
+ "epoch": 11.316079295154186,
2983
+ "grad_norm": 0.170914426445961,
2984
+ "learning_rate": 9.974358974358974e-06,
2985
+ "loss": 0.0263,
2986
+ "step": 10275
2987
+ },
2988
+ {
2989
+ "epoch": 11.343612334801762,
2990
+ "grad_norm": 0.20018179714679718,
2991
+ "learning_rate": 9.94871794871795e-06,
2992
+ "loss": 0.0258,
2993
+ "step": 10300
2994
+ },
2995
+ {
2996
+ "epoch": 11.37114537444934,
2997
+ "grad_norm": 0.25566136837005615,
2998
+ "learning_rate": 9.923076923076923e-06,
2999
+ "loss": 0.0229,
3000
+ "step": 10325
3001
+ },
3002
+ {
3003
+ "epoch": 11.398678414096917,
3004
+ "grad_norm": 0.16708512604236603,
3005
+ "learning_rate": 9.897435897435899e-06,
3006
+ "loss": 0.0288,
3007
+ "step": 10350
3008
+ },
3009
+ {
3010
+ "epoch": 11.426211453744493,
3011
+ "grad_norm": 0.1267959177494049,
3012
+ "learning_rate": 9.871794871794872e-06,
3013
+ "loss": 0.0227,
3014
+ "step": 10375
3015
+ },
3016
+ {
3017
+ "epoch": 11.45374449339207,
3018
+ "grad_norm": 0.14873263239860535,
3019
+ "learning_rate": 9.846153846153848e-06,
3020
+ "loss": 0.0293,
3021
+ "step": 10400
3022
+ },
3023
+ {
3024
+ "epoch": 11.481277533039648,
3025
+ "grad_norm": 0.4109511077404022,
3026
+ "learning_rate": 9.820512820512821e-06,
3027
+ "loss": 0.0254,
3028
+ "step": 10425
3029
+ },
3030
+ {
3031
+ "epoch": 11.508810572687224,
3032
+ "grad_norm": 0.16823522746562958,
3033
+ "learning_rate": 9.794871794871795e-06,
3034
+ "loss": 0.0307,
3035
+ "step": 10450
3036
+ },
3037
+ {
3038
+ "epoch": 11.536343612334802,
3039
+ "grad_norm": 0.24721799790859222,
3040
+ "learning_rate": 9.76923076923077e-06,
3041
+ "loss": 0.0226,
3042
+ "step": 10475
3043
+ },
3044
+ {
3045
+ "epoch": 11.56387665198238,
3046
+ "grad_norm": 0.1115945503115654,
3047
+ "learning_rate": 9.743589743589744e-06,
3048
+ "loss": 0.0243,
3049
+ "step": 10500
3050
+ },
3051
+ {
3052
+ "epoch": 11.591409691629956,
3053
+ "grad_norm": 0.1863705813884735,
3054
+ "learning_rate": 9.71794871794872e-06,
3055
+ "loss": 0.0283,
3056
+ "step": 10525
3057
+ },
3058
+ {
3059
+ "epoch": 11.618942731277533,
3060
+ "grad_norm": 0.1940588504076004,
3061
+ "learning_rate": 9.692307692307693e-06,
3062
+ "loss": 0.0243,
3063
+ "step": 10550
3064
+ },
3065
+ {
3066
+ "epoch": 11.646475770925111,
3067
+ "grad_norm": 0.4765683114528656,
3068
+ "learning_rate": 9.666666666666667e-06,
3069
+ "loss": 0.0286,
3070
+ "step": 10575
3071
+ },
3072
+ {
3073
+ "epoch": 11.674008810572687,
3074
+ "grad_norm": 0.22577764093875885,
3075
+ "learning_rate": 9.641025641025642e-06,
3076
+ "loss": 0.0251,
3077
+ "step": 10600
3078
+ },
3079
+ {
3080
+ "epoch": 11.701541850220265,
3081
+ "grad_norm": 0.351157009601593,
3082
+ "learning_rate": 9.615384615384616e-06,
3083
+ "loss": 0.0268,
3084
+ "step": 10625
3085
+ },
3086
+ {
3087
+ "epoch": 11.729074889867842,
3088
+ "grad_norm": 0.10466675460338593,
3089
+ "learning_rate": 9.589743589743591e-06,
3090
+ "loss": 0.0248,
3091
+ "step": 10650
3092
+ },
3093
+ {
3094
+ "epoch": 11.756607929515418,
3095
+ "grad_norm": 0.14528048038482666,
3096
+ "learning_rate": 9.564102564102565e-06,
3097
+ "loss": 0.0243,
3098
+ "step": 10675
3099
+ },
3100
+ {
3101
+ "epoch": 11.784140969162996,
3102
+ "grad_norm": 0.48743611574172974,
3103
+ "learning_rate": 9.53846153846154e-06,
3104
+ "loss": 0.0273,
3105
+ "step": 10700
3106
+ },
3107
+ {
3108
+ "epoch": 11.811674008810574,
3109
+ "grad_norm": 0.1229957789182663,
3110
+ "learning_rate": 9.512820512820514e-06,
3111
+ "loss": 0.0227,
3112
+ "step": 10725
3113
+ },
3114
+ {
3115
+ "epoch": 11.83920704845815,
3116
+ "grad_norm": 0.13707463443279266,
3117
+ "learning_rate": 9.487179487179487e-06,
3118
+ "loss": 0.028,
3119
+ "step": 10750
3120
+ },
3121
+ {
3122
+ "epoch": 11.866740088105727,
3123
+ "grad_norm": 0.1293453723192215,
3124
+ "learning_rate": 9.461538461538463e-06,
3125
+ "loss": 0.0203,
3126
+ "step": 10775
3127
+ },
3128
+ {
3129
+ "epoch": 11.894273127753303,
3130
+ "grad_norm": 0.30864667892456055,
3131
+ "learning_rate": 9.435897435897436e-06,
3132
+ "loss": 0.0271,
3133
+ "step": 10800
3134
+ },
3135
+ {
3136
+ "epoch": 11.92180616740088,
3137
+ "grad_norm": 0.19544030725955963,
3138
+ "learning_rate": 9.410256410256412e-06,
3139
+ "loss": 0.0235,
3140
+ "step": 10825
3141
+ },
3142
+ {
3143
+ "epoch": 11.949339207048459,
3144
+ "grad_norm": 0.24226927757263184,
3145
+ "learning_rate": 9.384615384615385e-06,
3146
+ "loss": 0.0275,
3147
+ "step": 10850
3148
+ },
3149
+ {
3150
+ "epoch": 11.976872246696034,
3151
+ "grad_norm": 0.31063777208328247,
3152
+ "learning_rate": 9.358974358974359e-06,
3153
+ "loss": 0.0336,
3154
+ "step": 10875
3155
+ },
3156
+ {
3157
+ "epoch": 12.004405286343612,
3158
+ "grad_norm": 0.08906027674674988,
3159
+ "learning_rate": 9.333333333333334e-06,
3160
+ "loss": 0.03,
3161
+ "step": 10900
3162
+ },
3163
+ {
3164
+ "epoch": 12.03193832599119,
3165
+ "grad_norm": 0.17722788453102112,
3166
+ "learning_rate": 9.307692307692308e-06,
3167
+ "loss": 0.016,
3168
+ "step": 10925
3169
+ },
3170
+ {
3171
+ "epoch": 12.059471365638766,
3172
+ "grad_norm": 0.1557055562734604,
3173
+ "learning_rate": 9.282051282051283e-06,
3174
+ "loss": 0.0164,
3175
+ "step": 10950
3176
+ },
3177
+ {
3178
+ "epoch": 12.087004405286343,
3179
+ "grad_norm": 0.1017475500702858,
3180
+ "learning_rate": 9.256410256410257e-06,
3181
+ "loss": 0.015,
3182
+ "step": 10975
3183
+ },
3184
+ {
3185
+ "epoch": 12.114537444933921,
3186
+ "grad_norm": 0.1605156809091568,
3187
+ "learning_rate": 9.230769230769232e-06,
3188
+ "loss": 0.0139,
3189
+ "step": 11000
3190
+ },
3191
+ {
3192
+ "epoch": 12.114537444933921,
3193
+ "eval_cer": 60.90584985040065,
3194
+ "eval_loss": 0.9458209872245789,
3195
+ "eval_runtime": 832.2415,
3196
+ "eval_samples_per_second": 12.714,
3197
+ "eval_steps_per_second": 3.179,
3198
+ "eval_wer": 97.02970297029702,
3199
+ "step": 11000
3200
+ },
3201
+ {
3202
+ "epoch": 12.142070484581497,
3203
+ "grad_norm": 0.24084699153900146,
3204
+ "learning_rate": 9.205128205128206e-06,
3205
+ "loss": 0.0161,
3206
+ "step": 11025
3207
+ },
3208
+ {
3209
+ "epoch": 12.169603524229075,
3210
+ "grad_norm": 0.10124333202838898,
3211
+ "learning_rate": 9.17948717948718e-06,
3212
+ "loss": 0.0145,
3213
+ "step": 11050
3214
+ },
3215
+ {
3216
+ "epoch": 12.197136563876652,
3217
+ "grad_norm": 0.6229532957077026,
3218
+ "learning_rate": 9.153846153846155e-06,
3219
+ "loss": 0.0203,
3220
+ "step": 11075
3221
+ },
3222
+ {
3223
+ "epoch": 12.224669603524228,
3224
+ "grad_norm": 0.13394711911678314,
3225
+ "learning_rate": 9.128205128205129e-06,
3226
+ "loss": 0.0184,
3227
+ "step": 11100
3228
+ },
3229
+ {
3230
+ "epoch": 12.252202643171806,
3231
+ "grad_norm": 0.200868159532547,
3232
+ "learning_rate": 9.102564102564104e-06,
3233
+ "loss": 0.0176,
3234
+ "step": 11125
3235
+ },
3236
+ {
3237
+ "epoch": 12.279735682819384,
3238
+ "grad_norm": 0.2978365123271942,
3239
+ "learning_rate": 9.076923076923078e-06,
3240
+ "loss": 0.017,
3241
+ "step": 11150
3242
+ },
3243
+ {
3244
+ "epoch": 12.30726872246696,
3245
+ "grad_norm": 0.07799817621707916,
3246
+ "learning_rate": 9.051282051282051e-06,
3247
+ "loss": 0.017,
3248
+ "step": 11175
3249
+ },
3250
+ {
3251
+ "epoch": 12.334801762114537,
3252
+ "grad_norm": 0.20449844002723694,
3253
+ "learning_rate": 9.025641025641027e-06,
3254
+ "loss": 0.0174,
3255
+ "step": 11200
3256
+ },
3257
+ {
3258
+ "epoch": 12.362334801762115,
3259
+ "grad_norm": 0.21774497628211975,
3260
+ "learning_rate": 9e-06,
3261
+ "loss": 0.0147,
3262
+ "step": 11225
3263
+ },
3264
+ {
3265
+ "epoch": 12.389867841409691,
3266
+ "grad_norm": 0.2724749445915222,
3267
+ "learning_rate": 8.974358974358976e-06,
3268
+ "loss": 0.0161,
3269
+ "step": 11250
3270
+ },
3271
+ {
3272
+ "epoch": 12.417400881057269,
3273
+ "grad_norm": 0.09058816730976105,
3274
+ "learning_rate": 8.94871794871795e-06,
3275
+ "loss": 0.0161,
3276
+ "step": 11275
3277
+ },
3278
+ {
3279
+ "epoch": 12.444933920704846,
3280
+ "grad_norm": 0.15494456887245178,
3281
+ "learning_rate": 8.923076923076925e-06,
3282
+ "loss": 0.0183,
3283
+ "step": 11300
3284
+ },
3285
+ {
3286
+ "epoch": 12.472466960352422,
3287
+ "grad_norm": 0.16612644493579865,
3288
+ "learning_rate": 8.897435897435898e-06,
3289
+ "loss": 0.0164,
3290
+ "step": 11325
3291
+ },
3292
+ {
3293
+ "epoch": 12.5,
3294
+ "grad_norm": 0.20393668115139008,
3295
+ "learning_rate": 8.871794871794872e-06,
3296
+ "loss": 0.0193,
3297
+ "step": 11350
3298
+ },
3299
+ {
3300
+ "epoch": 12.527533039647578,
3301
+ "grad_norm": 0.1749681979417801,
3302
+ "learning_rate": 8.846153846153847e-06,
3303
+ "loss": 0.0196,
3304
+ "step": 11375
3305
+ },
3306
+ {
3307
+ "epoch": 12.555066079295154,
3308
+ "grad_norm": 0.1079695075750351,
3309
+ "learning_rate": 8.820512820512821e-06,
3310
+ "loss": 0.0203,
3311
+ "step": 11400
3312
+ },
3313
+ {
3314
+ "epoch": 12.582599118942731,
3315
+ "grad_norm": 0.2510460317134857,
3316
+ "learning_rate": 8.794871794871796e-06,
3317
+ "loss": 0.0174,
3318
+ "step": 11425
3319
+ },
3320
+ {
3321
+ "epoch": 12.610132158590309,
3322
+ "grad_norm": 0.11694565415382385,
3323
+ "learning_rate": 8.76923076923077e-06,
3324
+ "loss": 0.0163,
3325
+ "step": 11450
3326
+ },
3327
+ {
3328
+ "epoch": 12.637665198237885,
3329
+ "grad_norm": 0.37202000617980957,
3330
+ "learning_rate": 8.743589743589743e-06,
3331
+ "loss": 0.0181,
3332
+ "step": 11475
3333
+ },
3334
+ {
3335
+ "epoch": 12.665198237885463,
3336
+ "grad_norm": 0.16289299726486206,
3337
+ "learning_rate": 8.717948717948719e-06,
3338
+ "loss": 0.0184,
3339
+ "step": 11500
3340
+ },
3341
+ {
3342
+ "epoch": 12.69273127753304,
3343
+ "grad_norm": 0.22636614739894867,
3344
+ "learning_rate": 8.692307692307692e-06,
3345
+ "loss": 0.0183,
3346
+ "step": 11525
3347
+ },
3348
+ {
3349
+ "epoch": 12.720264317180616,
3350
+ "grad_norm": 0.1628304421901703,
3351
+ "learning_rate": 8.666666666666668e-06,
3352
+ "loss": 0.0195,
3353
+ "step": 11550
3354
+ },
3355
+ {
3356
+ "epoch": 12.747797356828194,
3357
+ "grad_norm": 0.1048491895198822,
3358
+ "learning_rate": 8.641025641025641e-06,
3359
+ "loss": 0.0154,
3360
+ "step": 11575
3361
+ },
3362
+ {
3363
+ "epoch": 12.775330396475772,
3364
+ "grad_norm": 0.4491131007671356,
3365
+ "learning_rate": 8.615384615384617e-06,
3366
+ "loss": 0.0179,
3367
+ "step": 11600
3368
+ },
3369
+ {
3370
+ "epoch": 12.802863436123348,
3371
+ "grad_norm": 0.28522998094558716,
3372
+ "learning_rate": 8.58974358974359e-06,
3373
+ "loss": 0.0189,
3374
+ "step": 11625
3375
+ },
3376
+ {
3377
+ "epoch": 12.830396475770925,
3378
+ "grad_norm": 0.24292542040348053,
3379
+ "learning_rate": 8.564102564102564e-06,
3380
+ "loss": 0.0165,
3381
+ "step": 11650
3382
+ },
3383
+ {
3384
+ "epoch": 12.857929515418503,
3385
+ "grad_norm": 0.44718441367149353,
3386
+ "learning_rate": 8.53846153846154e-06,
3387
+ "loss": 0.0182,
3388
+ "step": 11675
3389
+ },
3390
+ {
3391
+ "epoch": 12.885462555066079,
3392
+ "grad_norm": 0.1012931615114212,
3393
+ "learning_rate": 8.512820512820513e-06,
3394
+ "loss": 0.0183,
3395
+ "step": 11700
3396
+ },
3397
+ {
3398
+ "epoch": 12.912995594713657,
3399
+ "grad_norm": 0.14866550266742706,
3400
+ "learning_rate": 8.487179487179488e-06,
3401
+ "loss": 0.0191,
3402
+ "step": 11725
3403
+ },
3404
+ {
3405
+ "epoch": 12.940528634361234,
3406
+ "grad_norm": 0.2306414097547531,
3407
+ "learning_rate": 8.461538461538462e-06,
3408
+ "loss": 0.0202,
3409
+ "step": 11750
3410
+ },
3411
+ {
3412
+ "epoch": 12.96806167400881,
3413
+ "grad_norm": 0.2795422077178955,
3414
+ "learning_rate": 8.435897435897436e-06,
3415
+ "loss": 0.0209,
3416
+ "step": 11775
3417
+ },
3418
+ {
3419
+ "epoch": 12.995594713656388,
3420
+ "grad_norm": 0.22507907450199127,
3421
+ "learning_rate": 8.410256410256411e-06,
3422
+ "loss": 0.021,
3423
+ "step": 11800
3424
+ },
3425
+ {
3426
+ "epoch": 13.023127753303966,
3427
+ "grad_norm": 0.10657211393117905,
3428
+ "learning_rate": 8.384615384615385e-06,
3429
+ "loss": 0.0133,
3430
+ "step": 11825
3431
+ },
3432
+ {
3433
+ "epoch": 13.050660792951541,
3434
+ "grad_norm": 0.3987150490283966,
3435
+ "learning_rate": 8.35897435897436e-06,
3436
+ "loss": 0.0123,
3437
+ "step": 11850
3438
+ },
3439
+ {
3440
+ "epoch": 13.07819383259912,
3441
+ "grad_norm": 0.16128714382648468,
3442
+ "learning_rate": 8.333333333333334e-06,
3443
+ "loss": 0.0122,
3444
+ "step": 11875
3445
+ },
3446
+ {
3447
+ "epoch": 13.105726872246697,
3448
+ "grad_norm": 0.13785377144813538,
3449
+ "learning_rate": 8.307692307692309e-06,
3450
+ "loss": 0.0101,
3451
+ "step": 11900
3452
+ },
3453
+ {
3454
+ "epoch": 13.133259911894273,
3455
+ "grad_norm": 0.180278480052948,
3456
+ "learning_rate": 8.282051282051283e-06,
3457
+ "loss": 0.0126,
3458
+ "step": 11925
3459
+ },
3460
+ {
3461
+ "epoch": 13.16079295154185,
3462
+ "grad_norm": 0.06596548855304718,
3463
+ "learning_rate": 8.256410256410256e-06,
3464
+ "loss": 0.0105,
3465
+ "step": 11950
3466
+ },
3467
+ {
3468
+ "epoch": 13.188325991189428,
3469
+ "grad_norm": 0.17440514266490936,
3470
+ "learning_rate": 8.230769230769232e-06,
3471
+ "loss": 0.0109,
3472
+ "step": 11975
3473
+ },
3474
+ {
3475
+ "epoch": 13.215859030837004,
3476
+ "grad_norm": 0.16661639511585236,
3477
+ "learning_rate": 8.205128205128205e-06,
3478
+ "loss": 0.013,
3479
+ "step": 12000
3480
+ },
3481
+ {
3482
+ "epoch": 13.215859030837004,
3483
+ "eval_cer": 57.880618573246366,
3484
+ "eval_loss": 0.9624491930007935,
3485
+ "eval_runtime": 831.8616,
3486
+ "eval_samples_per_second": 12.72,
3487
+ "eval_steps_per_second": 3.181,
3488
+ "eval_wer": 96.82225365393681,
3489
+ "step": 12000
3490
  }
3491
  ],
3492
  "logging_steps": 25,
 
3506
  "attributes": {}
3507
  }
3508
  },
3509
+ "total_flos": 2.025804888042111e+19,
3510
  "train_batch_size": 4,
3511
  "trial_name": null,
3512
  "trial_params": null