Ba2han commited on
Commit
e60ed8e
·
verified ·
1 Parent(s): 69ddadd

Training in progress, step 732, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c9f68b058e6737e15a24e314cf3497ce1edd16467c55b67887c24bd4d1a035ea
3
  size 3582214344
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b01e5c7ba58cc0a8ceb5c097cf2452678dc78f80db4ffafbdc7d1f12a7b93235
3
  size 3582214344
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c6fee056d1973b6780b8b93d867a2ff656ca2ed3e48a3387c39f28fc6b52a564
3
  size 5116251049
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6750ba3b9a48a1c182fa61beb15d922aa4b2ddd1d732efddeb80b267d908c130
3
  size 5116251049
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ec2cf52e4c3f15759e904ba93b5a10165bb850df54a226c7977bcfa5b79f76fb
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d569a9c96ff4e89d32dfe8ca0b97952cc2edcd76f89c14caa7e57238c4b46c8a
3
  size 14645
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b6a0b7551e7eea8f9be737f8895d7cea6a958fc4c6adc753e794396a9c28203a
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c8d3de20b2c14860168a267cd05d5c71bfafe85ad743a4b90197aae066604e65
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.4004102564102564,
6
  "eval_steps": 244,
7
- "global_step": 488,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -3440,6 +3440,1722 @@
3440
  "eval_samples_per_second": 39.047,
3441
  "eval_steps_per_second": 9.762,
3442
  "step": 488
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3443
  }
3444
  ],
3445
  "logging_steps": 1,
@@ -3459,7 +5175,7 @@
3459
  "attributes": {}
3460
  }
3461
  },
3462
- "total_flos": 1.2715603388752282e+17,
3463
  "train_batch_size": 4,
3464
  "trial_name": null,
3465
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.6006153846153847,
6
  "eval_steps": 244,
7
+ "global_step": 732,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
3440
  "eval_samples_per_second": 39.047,
3441
  "eval_steps_per_second": 9.762,
3442
  "step": 488
3443
+ },
3444
+ {
3445
+ "epoch": 0.4012307692307692,
3446
+ "grad_norm": 1.5625,
3447
+ "learning_rate": 8.25700626376351e-06,
3448
+ "loss": 1.108311414718628,
3449
+ "step": 489
3450
+ },
3451
+ {
3452
+ "epoch": 0.40205128205128204,
3453
+ "grad_norm": 1.6484375,
3454
+ "learning_rate": 8.241725270353607e-06,
3455
+ "loss": 1.0573620796203613,
3456
+ "step": 490
3457
+ },
3458
+ {
3459
+ "epoch": 0.40287179487179486,
3460
+ "grad_norm": 1.8828125,
3461
+ "learning_rate": 8.226430352894541e-06,
3462
+ "loss": 1.1554553508758545,
3463
+ "step": 491
3464
+ },
3465
+ {
3466
+ "epoch": 0.4036923076923077,
3467
+ "grad_norm": 1.5078125,
3468
+ "learning_rate": 8.211121615693778e-06,
3469
+ "loss": 1.0917716026306152,
3470
+ "step": 492
3471
+ },
3472
+ {
3473
+ "epoch": 0.4045128205128205,
3474
+ "grad_norm": 1.65625,
3475
+ "learning_rate": 8.195799163153027e-06,
3476
+ "loss": 1.0735331773757935,
3477
+ "step": 493
3478
+ },
3479
+ {
3480
+ "epoch": 0.4053333333333333,
3481
+ "grad_norm": 1.5546875,
3482
+ "learning_rate": 8.180463099767533e-06,
3483
+ "loss": 1.0706208944320679,
3484
+ "step": 494
3485
+ },
3486
+ {
3487
+ "epoch": 0.40615384615384614,
3488
+ "grad_norm": 1.5546875,
3489
+ "learning_rate": 8.165113530125363e-06,
3490
+ "loss": 1.0984644889831543,
3491
+ "step": 495
3492
+ },
3493
+ {
3494
+ "epoch": 0.40697435897435896,
3495
+ "grad_norm": 1.6171875,
3496
+ "learning_rate": 8.149750558906694e-06,
3497
+ "loss": 1.1961491107940674,
3498
+ "step": 496
3499
+ },
3500
+ {
3501
+ "epoch": 0.4077948717948718,
3502
+ "grad_norm": 1.6328125,
3503
+ "learning_rate": 8.134374290883098e-06,
3504
+ "loss": 1.119896650314331,
3505
+ "step": 497
3506
+ },
3507
+ {
3508
+ "epoch": 0.4086153846153846,
3509
+ "grad_norm": 1.4609375,
3510
+ "learning_rate": 8.118984830916828e-06,
3511
+ "loss": 1.1157628297805786,
3512
+ "step": 498
3513
+ },
3514
+ {
3515
+ "epoch": 0.4094358974358974,
3516
+ "grad_norm": 1.671875,
3517
+ "learning_rate": 8.103582283960105e-06,
3518
+ "loss": 1.0383669137954712,
3519
+ "step": 499
3520
+ },
3521
+ {
3522
+ "epoch": 0.41025641025641024,
3523
+ "grad_norm": 1.703125,
3524
+ "learning_rate": 8.088166755054395e-06,
3525
+ "loss": 1.1565940380096436,
3526
+ "step": 500
3527
+ },
3528
+ {
3529
+ "epoch": 0.41107692307692306,
3530
+ "grad_norm": 1.71875,
3531
+ "learning_rate": 8.072738349329702e-06,
3532
+ "loss": 1.1026580333709717,
3533
+ "step": 501
3534
+ },
3535
+ {
3536
+ "epoch": 0.4118974358974359,
3537
+ "grad_norm": 1.640625,
3538
+ "learning_rate": 8.057297172003842e-06,
3539
+ "loss": 1.140966534614563,
3540
+ "step": 502
3541
+ },
3542
+ {
3543
+ "epoch": 0.4127179487179487,
3544
+ "grad_norm": 1.6640625,
3545
+ "learning_rate": 8.041843328381735e-06,
3546
+ "loss": 1.1219335794448853,
3547
+ "step": 503
3548
+ },
3549
+ {
3550
+ "epoch": 0.4135384615384615,
3551
+ "grad_norm": 1.515625,
3552
+ "learning_rate": 8.026376923854683e-06,
3553
+ "loss": 1.1024707555770874,
3554
+ "step": 504
3555
+ },
3556
+ {
3557
+ "epoch": 0.41435897435897434,
3558
+ "grad_norm": 1.7265625,
3559
+ "learning_rate": 8.010898063899641e-06,
3560
+ "loss": 1.204986810684204,
3561
+ "step": 505
3562
+ },
3563
+ {
3564
+ "epoch": 0.41517948717948716,
3565
+ "grad_norm": 1.75,
3566
+ "learning_rate": 7.995406854078518e-06,
3567
+ "loss": 1.1070940494537354,
3568
+ "step": 506
3569
+ },
3570
+ {
3571
+ "epoch": 0.416,
3572
+ "grad_norm": 1.625,
3573
+ "learning_rate": 7.979903400037435e-06,
3574
+ "loss": 1.096226453781128,
3575
+ "step": 507
3576
+ },
3577
+ {
3578
+ "epoch": 0.4168205128205128,
3579
+ "grad_norm": 1.609375,
3580
+ "learning_rate": 7.96438780750603e-06,
3581
+ "loss": 1.1158950328826904,
3582
+ "step": 508
3583
+ },
3584
+ {
3585
+ "epoch": 0.4176410256410256,
3586
+ "grad_norm": 1.640625,
3587
+ "learning_rate": 7.948860182296706e-06,
3588
+ "loss": 1.1123420000076294,
3589
+ "step": 509
3590
+ },
3591
+ {
3592
+ "epoch": 0.41846153846153844,
3593
+ "grad_norm": 1.71875,
3594
+ "learning_rate": 7.93332063030394e-06,
3595
+ "loss": 1.1149189472198486,
3596
+ "step": 510
3597
+ },
3598
+ {
3599
+ "epoch": 0.41928205128205126,
3600
+ "grad_norm": 1.7265625,
3601
+ "learning_rate": 7.917769257503536e-06,
3602
+ "loss": 1.1472665071487427,
3603
+ "step": 511
3604
+ },
3605
+ {
3606
+ "epoch": 0.4201025641025641,
3607
+ "grad_norm": 1.6484375,
3608
+ "learning_rate": 7.90220616995192e-06,
3609
+ "loss": 1.0900911092758179,
3610
+ "step": 512
3611
+ },
3612
+ {
3613
+ "epoch": 0.4209230769230769,
3614
+ "grad_norm": 1.8203125,
3615
+ "learning_rate": 7.886631473785402e-06,
3616
+ "loss": 1.1053787469863892,
3617
+ "step": 513
3618
+ },
3619
+ {
3620
+ "epoch": 0.4217435897435897,
3621
+ "grad_norm": 1.78125,
3622
+ "learning_rate": 7.87104527521947e-06,
3623
+ "loss": 1.1553611755371094,
3624
+ "step": 514
3625
+ },
3626
+ {
3627
+ "epoch": 0.42256410256410254,
3628
+ "grad_norm": 1.6015625,
3629
+ "learning_rate": 7.855447680548048e-06,
3630
+ "loss": 1.150394082069397,
3631
+ "step": 515
3632
+ },
3633
+ {
3634
+ "epoch": 0.42338461538461536,
3635
+ "grad_norm": 1.609375,
3636
+ "learning_rate": 7.83983879614278e-06,
3637
+ "loss": 1.1880446672439575,
3638
+ "step": 516
3639
+ },
3640
+ {
3641
+ "epoch": 0.4242051282051282,
3642
+ "grad_norm": 1.546875,
3643
+ "learning_rate": 7.824218728452307e-06,
3644
+ "loss": 1.0694695711135864,
3645
+ "step": 517
3646
+ },
3647
+ {
3648
+ "epoch": 0.425025641025641,
3649
+ "grad_norm": 1.75,
3650
+ "learning_rate": 7.80858758400153e-06,
3651
+ "loss": 1.1604297161102295,
3652
+ "step": 518
3653
+ },
3654
+ {
3655
+ "epoch": 0.4258461538461538,
3656
+ "grad_norm": 1.5390625,
3657
+ "learning_rate": 7.792945469390896e-06,
3658
+ "loss": 1.0425302982330322,
3659
+ "step": 519
3660
+ },
3661
+ {
3662
+ "epoch": 0.4266666666666667,
3663
+ "grad_norm": 1.5234375,
3664
+ "learning_rate": 7.777292491295666e-06,
3665
+ "loss": 1.0891900062561035,
3666
+ "step": 520
3667
+ },
3668
+ {
3669
+ "epoch": 0.4274871794871795,
3670
+ "grad_norm": 1.90625,
3671
+ "learning_rate": 7.761628756465185e-06,
3672
+ "loss": 1.1330201625823975,
3673
+ "step": 521
3674
+ },
3675
+ {
3676
+ "epoch": 0.42830769230769233,
3677
+ "grad_norm": 1.7265625,
3678
+ "learning_rate": 7.745954371722153e-06,
3679
+ "loss": 1.0741163492202759,
3680
+ "step": 522
3681
+ },
3682
+ {
3683
+ "epoch": 0.42912820512820515,
3684
+ "grad_norm": 1.71875,
3685
+ "learning_rate": 7.730269443961909e-06,
3686
+ "loss": 1.1834020614624023,
3687
+ "step": 523
3688
+ },
3689
+ {
3690
+ "epoch": 0.429948717948718,
3691
+ "grad_norm": 1.65625,
3692
+ "learning_rate": 7.714574080151685e-06,
3693
+ "loss": 1.120877742767334,
3694
+ "step": 524
3695
+ },
3696
+ {
3697
+ "epoch": 0.4307692307692308,
3698
+ "grad_norm": 1.7734375,
3699
+ "learning_rate": 7.698868387329887e-06,
3700
+ "loss": 0.9986427426338196,
3701
+ "step": 525
3702
+ },
3703
+ {
3704
+ "epoch": 0.4315897435897436,
3705
+ "grad_norm": 1.5859375,
3706
+ "learning_rate": 7.683152472605357e-06,
3707
+ "loss": 1.1671761274337769,
3708
+ "step": 526
3709
+ },
3710
+ {
3711
+ "epoch": 0.43241025641025643,
3712
+ "grad_norm": 1.6875,
3713
+ "learning_rate": 7.66742644315666e-06,
3714
+ "loss": 1.0759464502334595,
3715
+ "step": 527
3716
+ },
3717
+ {
3718
+ "epoch": 0.43323076923076925,
3719
+ "grad_norm": 1.578125,
3720
+ "learning_rate": 7.65169040623133e-06,
3721
+ "loss": 1.0863559246063232,
3722
+ "step": 528
3723
+ },
3724
+ {
3725
+ "epoch": 0.4340512820512821,
3726
+ "grad_norm": 1.890625,
3727
+ "learning_rate": 7.63594446914515e-06,
3728
+ "loss": 1.1177570819854736,
3729
+ "step": 529
3730
+ },
3731
+ {
3732
+ "epoch": 0.4348717948717949,
3733
+ "grad_norm": 1.71875,
3734
+ "learning_rate": 7.620188739281428e-06,
3735
+ "loss": 1.1569801568984985,
3736
+ "step": 530
3737
+ },
3738
+ {
3739
+ "epoch": 0.4356923076923077,
3740
+ "grad_norm": 1.6171875,
3741
+ "learning_rate": 7.604423324090247e-06,
3742
+ "loss": 1.139686942100525,
3743
+ "step": 531
3744
+ },
3745
+ {
3746
+ "epoch": 0.43651282051282053,
3747
+ "grad_norm": 1.7109375,
3748
+ "learning_rate": 7.588648331087744e-06,
3749
+ "loss": 1.0584099292755127,
3750
+ "step": 532
3751
+ },
3752
+ {
3753
+ "epoch": 0.43733333333333335,
3754
+ "grad_norm": 1.546875,
3755
+ "learning_rate": 7.572863867855377e-06,
3756
+ "loss": 1.1394144296646118,
3757
+ "step": 533
3758
+ },
3759
+ {
3760
+ "epoch": 0.43815384615384617,
3761
+ "grad_norm": 1.7890625,
3762
+ "learning_rate": 7.557070042039188e-06,
3763
+ "loss": 1.2172819375991821,
3764
+ "step": 534
3765
+ },
3766
+ {
3767
+ "epoch": 0.438974358974359,
3768
+ "grad_norm": 1.6015625,
3769
+ "learning_rate": 7.54126696134907e-06,
3770
+ "loss": 1.1586464643478394,
3771
+ "step": 535
3772
+ },
3773
+ {
3774
+ "epoch": 0.4397948717948718,
3775
+ "grad_norm": 1.6875,
3776
+ "learning_rate": 7.525454733558024e-06,
3777
+ "loss": 1.0779222249984741,
3778
+ "step": 536
3779
+ },
3780
+ {
3781
+ "epoch": 0.44061538461538463,
3782
+ "grad_norm": 1.75,
3783
+ "learning_rate": 7.509633466501443e-06,
3784
+ "loss": 1.0934256315231323,
3785
+ "step": 537
3786
+ },
3787
+ {
3788
+ "epoch": 0.44143589743589745,
3789
+ "grad_norm": 1.53125,
3790
+ "learning_rate": 7.49380326807636e-06,
3791
+ "loss": 1.0459587574005127,
3792
+ "step": 538
3793
+ },
3794
+ {
3795
+ "epoch": 0.44225641025641027,
3796
+ "grad_norm": 1.75,
3797
+ "learning_rate": 7.477964246240717e-06,
3798
+ "loss": 1.1203221082687378,
3799
+ "step": 539
3800
+ },
3801
+ {
3802
+ "epoch": 0.4430769230769231,
3803
+ "grad_norm": 1.5,
3804
+ "learning_rate": 7.462116509012633e-06,
3805
+ "loss": 1.1050634384155273,
3806
+ "step": 540
3807
+ },
3808
+ {
3809
+ "epoch": 0.4438974358974359,
3810
+ "grad_norm": 1.6796875,
3811
+ "learning_rate": 7.446260164469659e-06,
3812
+ "loss": 1.0807363986968994,
3813
+ "step": 541
3814
+ },
3815
+ {
3816
+ "epoch": 0.44471794871794873,
3817
+ "grad_norm": 1.5703125,
3818
+ "learning_rate": 7.43039532074805e-06,
3819
+ "loss": 1.0424985885620117,
3820
+ "step": 542
3821
+ },
3822
+ {
3823
+ "epoch": 0.44553846153846155,
3824
+ "grad_norm": 1.6875,
3825
+ "learning_rate": 7.414522086042021e-06,
3826
+ "loss": 1.071103572845459,
3827
+ "step": 543
3828
+ },
3829
+ {
3830
+ "epoch": 0.44635897435897437,
3831
+ "grad_norm": 1.65625,
3832
+ "learning_rate": 7.3986405686030125e-06,
3833
+ "loss": 1.2091856002807617,
3834
+ "step": 544
3835
+ },
3836
+ {
3837
+ "epoch": 0.4471794871794872,
3838
+ "grad_norm": 1.609375,
3839
+ "learning_rate": 7.38275087673895e-06,
3840
+ "loss": 1.0825698375701904,
3841
+ "step": 545
3842
+ },
3843
+ {
3844
+ "epoch": 0.448,
3845
+ "grad_norm": 1.6484375,
3846
+ "learning_rate": 7.366853118813507e-06,
3847
+ "loss": 1.1572418212890625,
3848
+ "step": 546
3849
+ },
3850
+ {
3851
+ "epoch": 0.44882051282051283,
3852
+ "grad_norm": 1.625,
3853
+ "learning_rate": 7.350947403245365e-06,
3854
+ "loss": 1.0924804210662842,
3855
+ "step": 547
3856
+ },
3857
+ {
3858
+ "epoch": 0.44964102564102565,
3859
+ "grad_norm": 1.71875,
3860
+ "learning_rate": 7.335033838507475e-06,
3861
+ "loss": 1.0889440774917603,
3862
+ "step": 548
3863
+ },
3864
+ {
3865
+ "epoch": 0.45046153846153847,
3866
+ "grad_norm": 1.5390625,
3867
+ "learning_rate": 7.3191125331263184e-06,
3868
+ "loss": 1.1945247650146484,
3869
+ "step": 549
3870
+ },
3871
+ {
3872
+ "epoch": 0.4512820512820513,
3873
+ "grad_norm": 1.5625,
3874
+ "learning_rate": 7.303183595681165e-06,
3875
+ "loss": 1.158640742301941,
3876
+ "step": 550
3877
+ },
3878
+ {
3879
+ "epoch": 0.4521025641025641,
3880
+ "grad_norm": 1.453125,
3881
+ "learning_rate": 7.287247134803335e-06,
3882
+ "loss": 1.0312163829803467,
3883
+ "step": 551
3884
+ },
3885
+ {
3886
+ "epoch": 0.45292307692307693,
3887
+ "grad_norm": 1.796875,
3888
+ "learning_rate": 7.2713032591754496e-06,
3889
+ "loss": 1.1686253547668457,
3890
+ "step": 552
3891
+ },
3892
+ {
3893
+ "epoch": 0.45374358974358975,
3894
+ "grad_norm": 1.71875,
3895
+ "learning_rate": 7.2553520775307065e-06,
3896
+ "loss": 1.1563432216644287,
3897
+ "step": 553
3898
+ },
3899
+ {
3900
+ "epoch": 0.45456410256410257,
3901
+ "grad_norm": 1.8359375,
3902
+ "learning_rate": 7.2393936986521225e-06,
3903
+ "loss": 1.1137615442276,
3904
+ "step": 554
3905
+ },
3906
+ {
3907
+ "epoch": 0.4553846153846154,
3908
+ "grad_norm": 1.484375,
3909
+ "learning_rate": 7.2234282313718e-06,
3910
+ "loss": 1.126206398010254,
3911
+ "step": 555
3912
+ },
3913
+ {
3914
+ "epoch": 0.4562051282051282,
3915
+ "grad_norm": 1.796875,
3916
+ "learning_rate": 7.207455784570181e-06,
3917
+ "loss": 1.1172479391098022,
3918
+ "step": 556
3919
+ },
3920
+ {
3921
+ "epoch": 0.457025641025641,
3922
+ "grad_norm": 1.578125,
3923
+ "learning_rate": 7.1914764671753044e-06,
3924
+ "loss": 1.0680476427078247,
3925
+ "step": 557
3926
+ },
3927
+ {
3928
+ "epoch": 0.45784615384615385,
3929
+ "grad_norm": 1.796875,
3930
+ "learning_rate": 7.175490388162072e-06,
3931
+ "loss": 1.1442821025848389,
3932
+ "step": 558
3933
+ },
3934
+ {
3935
+ "epoch": 0.45866666666666667,
3936
+ "grad_norm": 1.6796875,
3937
+ "learning_rate": 7.159497656551489e-06,
3938
+ "loss": 1.1398534774780273,
3939
+ "step": 559
3940
+ },
3941
+ {
3942
+ "epoch": 0.4594871794871795,
3943
+ "grad_norm": 1.59375,
3944
+ "learning_rate": 7.143498381409937e-06,
3945
+ "loss": 1.2173717021942139,
3946
+ "step": 560
3947
+ },
3948
+ {
3949
+ "epoch": 0.4603076923076923,
3950
+ "grad_norm": 1.5703125,
3951
+ "learning_rate": 7.127492671848417e-06,
3952
+ "loss": 1.1026802062988281,
3953
+ "step": 561
3954
+ },
3955
+ {
3956
+ "epoch": 0.4611282051282051,
3957
+ "grad_norm": 1.5625,
3958
+ "learning_rate": 7.111480637021816e-06,
3959
+ "loss": 1.122018575668335,
3960
+ "step": 562
3961
+ },
3962
+ {
3963
+ "epoch": 0.46194871794871795,
3964
+ "grad_norm": 1.4609375,
3965
+ "learning_rate": 7.095462386128156e-06,
3966
+ "loss": 1.099457025527954,
3967
+ "step": 563
3968
+ },
3969
+ {
3970
+ "epoch": 0.46276923076923077,
3971
+ "grad_norm": 1.5546875,
3972
+ "learning_rate": 7.079438028407847e-06,
3973
+ "loss": 1.0360870361328125,
3974
+ "step": 564
3975
+ },
3976
+ {
3977
+ "epoch": 0.4635897435897436,
3978
+ "grad_norm": 1.65625,
3979
+ "learning_rate": 7.063407673142953e-06,
3980
+ "loss": 1.1035900115966797,
3981
+ "step": 565
3982
+ },
3983
+ {
3984
+ "epoch": 0.4644102564102564,
3985
+ "grad_norm": 1.765625,
3986
+ "learning_rate": 7.047371429656435e-06,
3987
+ "loss": 1.0730888843536377,
3988
+ "step": 566
3989
+ },
3990
+ {
3991
+ "epoch": 0.4652307692307692,
3992
+ "grad_norm": 1.5703125,
3993
+ "learning_rate": 7.031329407311412e-06,
3994
+ "loss": 1.134545087814331,
3995
+ "step": 567
3996
+ },
3997
+ {
3998
+ "epoch": 0.46605128205128205,
3999
+ "grad_norm": 1.59375,
4000
+ "learning_rate": 7.015281715510413e-06,
4001
+ "loss": 1.0366904735565186,
4002
+ "step": 568
4003
+ },
4004
+ {
4005
+ "epoch": 0.46687179487179487,
4006
+ "grad_norm": 1.765625,
4007
+ "learning_rate": 6.999228463694629e-06,
4008
+ "loss": 1.1620510816574097,
4009
+ "step": 569
4010
+ },
4011
+ {
4012
+ "epoch": 0.4676923076923077,
4013
+ "grad_norm": 1.6953125,
4014
+ "learning_rate": 6.983169761343176e-06,
4015
+ "loss": 1.0937600135803223,
4016
+ "step": 570
4017
+ },
4018
+ {
4019
+ "epoch": 0.4685128205128205,
4020
+ "grad_norm": 1.6796875,
4021
+ "learning_rate": 6.9671057179723295e-06,
4022
+ "loss": 1.1628119945526123,
4023
+ "step": 571
4024
+ },
4025
+ {
4026
+ "epoch": 0.4693333333333333,
4027
+ "grad_norm": 1.6484375,
4028
+ "learning_rate": 6.951036443134799e-06,
4029
+ "loss": 1.1623189449310303,
4030
+ "step": 572
4031
+ },
4032
+ {
4033
+ "epoch": 0.47015384615384614,
4034
+ "grad_norm": 1.5625,
4035
+ "learning_rate": 6.934962046418972e-06,
4036
+ "loss": 1.1499994993209839,
4037
+ "step": 573
4038
+ },
4039
+ {
4040
+ "epoch": 0.47097435897435896,
4041
+ "grad_norm": 1.640625,
4042
+ "learning_rate": 6.918882637448158e-06,
4043
+ "loss": 1.1366188526153564,
4044
+ "step": 574
4045
+ },
4046
+ {
4047
+ "epoch": 0.4717948717948718,
4048
+ "grad_norm": 1.5390625,
4049
+ "learning_rate": 6.902798325879854e-06,
4050
+ "loss": 1.1301484107971191,
4051
+ "step": 575
4052
+ },
4053
+ {
4054
+ "epoch": 0.4726153846153846,
4055
+ "grad_norm": 1.65625,
4056
+ "learning_rate": 6.886709221404992e-06,
4057
+ "loss": 1.0446761846542358,
4058
+ "step": 576
4059
+ },
4060
+ {
4061
+ "epoch": 0.4734358974358974,
4062
+ "grad_norm": 1.5234375,
4063
+ "learning_rate": 6.870615433747187e-06,
4064
+ "loss": 1.1570371389389038,
4065
+ "step": 577
4066
+ },
4067
+ {
4068
+ "epoch": 0.47425641025641024,
4069
+ "grad_norm": 1.640625,
4070
+ "learning_rate": 6.854517072661996e-06,
4071
+ "loss": 1.1273854970932007,
4072
+ "step": 578
4073
+ },
4074
+ {
4075
+ "epoch": 0.47507692307692306,
4076
+ "grad_norm": 1.7421875,
4077
+ "learning_rate": 6.838414247936163e-06,
4078
+ "loss": 1.1674871444702148,
4079
+ "step": 579
4080
+ },
4081
+ {
4082
+ "epoch": 0.4758974358974359,
4083
+ "grad_norm": 1.625,
4084
+ "learning_rate": 6.822307069386875e-06,
4085
+ "loss": 1.1848071813583374,
4086
+ "step": 580
4087
+ },
4088
+ {
4089
+ "epoch": 0.4767179487179487,
4090
+ "grad_norm": 1.453125,
4091
+ "learning_rate": 6.806195646861008e-06,
4092
+ "loss": 1.091614842414856,
4093
+ "step": 581
4094
+ },
4095
+ {
4096
+ "epoch": 0.4775384615384615,
4097
+ "grad_norm": 1.46875,
4098
+ "learning_rate": 6.790080090234381e-06,
4099
+ "loss": 1.1283140182495117,
4100
+ "step": 582
4101
+ },
4102
+ {
4103
+ "epoch": 0.47835897435897434,
4104
+ "grad_norm": 1.671875,
4105
+ "learning_rate": 6.7739605094110105e-06,
4106
+ "loss": 1.1362240314483643,
4107
+ "step": 583
4108
+ },
4109
+ {
4110
+ "epoch": 0.47917948717948716,
4111
+ "grad_norm": 1.6484375,
4112
+ "learning_rate": 6.757837014322356e-06,
4113
+ "loss": 1.1810652017593384,
4114
+ "step": 584
4115
+ },
4116
+ {
4117
+ "epoch": 0.48,
4118
+ "grad_norm": 1.7421875,
4119
+ "learning_rate": 6.741709714926567e-06,
4120
+ "loss": 1.1747609376907349,
4121
+ "step": 585
4122
+ },
4123
+ {
4124
+ "epoch": 0.4808205128205128,
4125
+ "grad_norm": 1.625,
4126
+ "learning_rate": 6.725578721207739e-06,
4127
+ "loss": 1.1179296970367432,
4128
+ "step": 586
4129
+ },
4130
+ {
4131
+ "epoch": 0.4816410256410256,
4132
+ "grad_norm": 1.453125,
4133
+ "learning_rate": 6.709444143175165e-06,
4134
+ "loss": 1.0193846225738525,
4135
+ "step": 587
4136
+ },
4137
+ {
4138
+ "epoch": 0.48246153846153844,
4139
+ "grad_norm": 1.8671875,
4140
+ "learning_rate": 6.693306090862583e-06,
4141
+ "loss": 1.1453070640563965,
4142
+ "step": 588
4143
+ },
4144
+ {
4145
+ "epoch": 0.48328205128205126,
4146
+ "grad_norm": 1.8125,
4147
+ "learning_rate": 6.677164674327418e-06,
4148
+ "loss": 1.0982394218444824,
4149
+ "step": 589
4150
+ },
4151
+ {
4152
+ "epoch": 0.4841025641025641,
4153
+ "grad_norm": 1.5234375,
4154
+ "learning_rate": 6.661020003650043e-06,
4155
+ "loss": 1.098716139793396,
4156
+ "step": 590
4157
+ },
4158
+ {
4159
+ "epoch": 0.4849230769230769,
4160
+ "grad_norm": 1.5859375,
4161
+ "learning_rate": 6.644872188933022e-06,
4162
+ "loss": 1.1306407451629639,
4163
+ "step": 591
4164
+ },
4165
+ {
4166
+ "epoch": 0.4857435897435897,
4167
+ "grad_norm": 1.5703125,
4168
+ "learning_rate": 6.628721340300363e-06,
4169
+ "loss": 1.170407772064209,
4170
+ "step": 592
4171
+ },
4172
+ {
4173
+ "epoch": 0.48656410256410254,
4174
+ "grad_norm": 1.6015625,
4175
+ "learning_rate": 6.6125675678967595e-06,
4176
+ "loss": 1.093729019165039,
4177
+ "step": 593
4178
+ },
4179
+ {
4180
+ "epoch": 0.48738461538461536,
4181
+ "grad_norm": 1.6015625,
4182
+ "learning_rate": 6.59641098188685e-06,
4183
+ "loss": 1.1293773651123047,
4184
+ "step": 594
4185
+ },
4186
+ {
4187
+ "epoch": 0.4882051282051282,
4188
+ "grad_norm": 1.65625,
4189
+ "learning_rate": 6.580251692454459e-06,
4190
+ "loss": 1.0571609735488892,
4191
+ "step": 595
4192
+ },
4193
+ {
4194
+ "epoch": 0.489025641025641,
4195
+ "grad_norm": 1.703125,
4196
+ "learning_rate": 6.564089809801844e-06,
4197
+ "loss": 1.2081211805343628,
4198
+ "step": 596
4199
+ },
4200
+ {
4201
+ "epoch": 0.4898461538461538,
4202
+ "grad_norm": 1.78125,
4203
+ "learning_rate": 6.547925444148952e-06,
4204
+ "loss": 1.2445255517959595,
4205
+ "step": 597
4206
+ },
4207
+ {
4208
+ "epoch": 0.49066666666666664,
4209
+ "grad_norm": 1.6015625,
4210
+ "learning_rate": 6.5317587057326635e-06,
4211
+ "loss": 1.1090102195739746,
4212
+ "step": 598
4213
+ },
4214
+ {
4215
+ "epoch": 0.49148717948717946,
4216
+ "grad_norm": 1.671875,
4217
+ "learning_rate": 6.515589704806038e-06,
4218
+ "loss": 1.2049899101257324,
4219
+ "step": 599
4220
+ },
4221
+ {
4222
+ "epoch": 0.49230769230769234,
4223
+ "grad_norm": 1.8671875,
4224
+ "learning_rate": 6.49941855163757e-06,
4225
+ "loss": 1.1750158071517944,
4226
+ "step": 600
4227
+ },
4228
+ {
4229
+ "epoch": 0.49312820512820515,
4230
+ "grad_norm": 1.640625,
4231
+ "learning_rate": 6.483245356510421e-06,
4232
+ "loss": 1.118952989578247,
4233
+ "step": 601
4234
+ },
4235
+ {
4236
+ "epoch": 0.493948717948718,
4237
+ "grad_norm": 1.6171875,
4238
+ "learning_rate": 6.46707022972169e-06,
4239
+ "loss": 1.1094834804534912,
4240
+ "step": 602
4241
+ },
4242
+ {
4243
+ "epoch": 0.4947692307692308,
4244
+ "grad_norm": 1.7109375,
4245
+ "learning_rate": 6.450893281581643e-06,
4246
+ "loss": 1.1568554639816284,
4247
+ "step": 603
4248
+ },
4249
+ {
4250
+ "epoch": 0.4955897435897436,
4251
+ "grad_norm": 1.7421875,
4252
+ "learning_rate": 6.434714622412969e-06,
4253
+ "loss": 1.0595741271972656,
4254
+ "step": 604
4255
+ },
4256
+ {
4257
+ "epoch": 0.49641025641025643,
4258
+ "grad_norm": 1.8125,
4259
+ "learning_rate": 6.418534362550025e-06,
4260
+ "loss": 1.1385390758514404,
4261
+ "step": 605
4262
+ },
4263
+ {
4264
+ "epoch": 0.49723076923076925,
4265
+ "grad_norm": 1.65625,
4266
+ "learning_rate": 6.402352612338083e-06,
4267
+ "loss": 1.1630690097808838,
4268
+ "step": 606
4269
+ },
4270
+ {
4271
+ "epoch": 0.4980512820512821,
4272
+ "grad_norm": 1.5234375,
4273
+ "learning_rate": 6.3861694821325835e-06,
4274
+ "loss": 1.1319586038589478,
4275
+ "step": 607
4276
+ },
4277
+ {
4278
+ "epoch": 0.4988717948717949,
4279
+ "grad_norm": 1.7265625,
4280
+ "learning_rate": 6.369985082298375e-06,
4281
+ "loss": 1.1615095138549805,
4282
+ "step": 608
4283
+ },
4284
+ {
4285
+ "epoch": 0.4996923076923077,
4286
+ "grad_norm": 1.6328125,
4287
+ "learning_rate": 6.353799523208961e-06,
4288
+ "loss": 1.1865564584732056,
4289
+ "step": 609
4290
+ },
4291
+ {
4292
+ "epoch": 0.5005128205128205,
4293
+ "grad_norm": 1.765625,
4294
+ "learning_rate": 6.3376129152457595e-06,
4295
+ "loss": 1.2127357721328735,
4296
+ "step": 610
4297
+ },
4298
+ {
4299
+ "epoch": 0.5013333333333333,
4300
+ "grad_norm": 1.8046875,
4301
+ "learning_rate": 6.321425368797333e-06,
4302
+ "loss": 1.1961997747421265,
4303
+ "step": 611
4304
+ },
4305
+ {
4306
+ "epoch": 0.5021538461538462,
4307
+ "grad_norm": 1.5625,
4308
+ "learning_rate": 6.305236994258648e-06,
4309
+ "loss": 1.070225715637207,
4310
+ "step": 612
4311
+ },
4312
+ {
4313
+ "epoch": 0.5029743589743589,
4314
+ "grad_norm": 1.5859375,
4315
+ "learning_rate": 6.289047902030322e-06,
4316
+ "loss": 1.1783050298690796,
4317
+ "step": 613
4318
+ },
4319
+ {
4320
+ "epoch": 0.5037948717948718,
4321
+ "grad_norm": 1.4921875,
4322
+ "learning_rate": 6.2728582025178585e-06,
4323
+ "loss": 1.181092619895935,
4324
+ "step": 614
4325
+ },
4326
+ {
4327
+ "epoch": 0.5046153846153846,
4328
+ "grad_norm": 1.765625,
4329
+ "learning_rate": 6.25666800613091e-06,
4330
+ "loss": 1.1656084060668945,
4331
+ "step": 615
4332
+ },
4333
+ {
4334
+ "epoch": 0.5054358974358975,
4335
+ "grad_norm": 1.6796875,
4336
+ "learning_rate": 6.240477423282515e-06,
4337
+ "loss": 1.087341070175171,
4338
+ "step": 616
4339
+ },
4340
+ {
4341
+ "epoch": 0.5062564102564102,
4342
+ "grad_norm": 1.6484375,
4343
+ "learning_rate": 6.224286564388345e-06,
4344
+ "loss": 1.1174447536468506,
4345
+ "step": 617
4346
+ },
4347
+ {
4348
+ "epoch": 0.5070769230769231,
4349
+ "grad_norm": 1.578125,
4350
+ "learning_rate": 6.208095539865958e-06,
4351
+ "loss": 1.229354739189148,
4352
+ "step": 618
4353
+ },
4354
+ {
4355
+ "epoch": 0.5078974358974359,
4356
+ "grad_norm": 1.796875,
4357
+ "learning_rate": 6.191904460134042e-06,
4358
+ "loss": 1.1044552326202393,
4359
+ "step": 619
4360
+ },
4361
+ {
4362
+ "epoch": 0.5087179487179487,
4363
+ "grad_norm": 1.6875,
4364
+ "learning_rate": 6.175713435611656e-06,
4365
+ "loss": 1.0737800598144531,
4366
+ "step": 620
4367
+ },
4368
+ {
4369
+ "epoch": 0.5095384615384615,
4370
+ "grad_norm": 1.6796875,
4371
+ "learning_rate": 6.159522576717486e-06,
4372
+ "loss": 1.077164888381958,
4373
+ "step": 621
4374
+ },
4375
+ {
4376
+ "epoch": 0.5103589743589744,
4377
+ "grad_norm": 1.6796875,
4378
+ "learning_rate": 6.14333199386909e-06,
4379
+ "loss": 1.1477549076080322,
4380
+ "step": 622
4381
+ },
4382
+ {
4383
+ "epoch": 0.5111794871794871,
4384
+ "grad_norm": 1.65625,
4385
+ "learning_rate": 6.127141797482141e-06,
4386
+ "loss": 1.101395845413208,
4387
+ "step": 623
4388
+ },
4389
+ {
4390
+ "epoch": 0.512,
4391
+ "grad_norm": 1.53125,
4392
+ "learning_rate": 6.1109520979696806e-06,
4393
+ "loss": 1.0559899806976318,
4394
+ "step": 624
4395
+ },
4396
+ {
4397
+ "epoch": 0.5128205128205128,
4398
+ "grad_norm": 1.6640625,
4399
+ "learning_rate": 6.094763005741352e-06,
4400
+ "loss": 1.1552640199661255,
4401
+ "step": 625
4402
+ },
4403
+ {
4404
+ "epoch": 0.5136410256410257,
4405
+ "grad_norm": 1.5,
4406
+ "learning_rate": 6.0785746312026676e-06,
4407
+ "loss": 1.0766817331314087,
4408
+ "step": 626
4409
+ },
4410
+ {
4411
+ "epoch": 0.5144615384615384,
4412
+ "grad_norm": 1.75,
4413
+ "learning_rate": 6.062387084754242e-06,
4414
+ "loss": 1.1779124736785889,
4415
+ "step": 627
4416
+ },
4417
+ {
4418
+ "epoch": 0.5152820512820513,
4419
+ "grad_norm": 1.609375,
4420
+ "learning_rate": 6.046200476791038e-06,
4421
+ "loss": 1.0955864191055298,
4422
+ "step": 628
4423
+ },
4424
+ {
4425
+ "epoch": 0.516102564102564,
4426
+ "grad_norm": 1.5625,
4427
+ "learning_rate": 6.0300149177016275e-06,
4428
+ "loss": 1.0860978364944458,
4429
+ "step": 629
4430
+ },
4431
+ {
4432
+ "epoch": 0.5169230769230769,
4433
+ "grad_norm": 1.6015625,
4434
+ "learning_rate": 6.013830517867416e-06,
4435
+ "loss": 1.1335543394088745,
4436
+ "step": 630
4437
+ },
4438
+ {
4439
+ "epoch": 0.5177435897435897,
4440
+ "grad_norm": 1.859375,
4441
+ "learning_rate": 5.997647387661917e-06,
4442
+ "loss": 1.2005040645599365,
4443
+ "step": 631
4444
+ },
4445
+ {
4446
+ "epoch": 0.5185641025641026,
4447
+ "grad_norm": 1.6875,
4448
+ "learning_rate": 5.981465637449975e-06,
4449
+ "loss": 1.151053547859192,
4450
+ "step": 632
4451
+ },
4452
+ {
4453
+ "epoch": 0.5193846153846153,
4454
+ "grad_norm": 1.78125,
4455
+ "learning_rate": 5.96528537758703e-06,
4456
+ "loss": 1.087674856185913,
4457
+ "step": 633
4458
+ },
4459
+ {
4460
+ "epoch": 0.5202051282051282,
4461
+ "grad_norm": 1.6171875,
4462
+ "learning_rate": 5.9491067184183576e-06,
4463
+ "loss": 1.107380747795105,
4464
+ "step": 634
4465
+ },
4466
+ {
4467
+ "epoch": 0.521025641025641,
4468
+ "grad_norm": 1.6328125,
4469
+ "learning_rate": 5.932929770278311e-06,
4470
+ "loss": 1.1303094625473022,
4471
+ "step": 635
4472
+ },
4473
+ {
4474
+ "epoch": 0.5218461538461538,
4475
+ "grad_norm": 1.640625,
4476
+ "learning_rate": 5.916754643489579e-06,
4477
+ "loss": 1.2045444250106812,
4478
+ "step": 636
4479
+ },
4480
+ {
4481
+ "epoch": 0.5226666666666666,
4482
+ "grad_norm": 1.671875,
4483
+ "learning_rate": 5.9005814483624305e-06,
4484
+ "loss": 1.0858845710754395,
4485
+ "step": 637
4486
+ },
4487
+ {
4488
+ "epoch": 0.5234871794871795,
4489
+ "grad_norm": 1.6484375,
4490
+ "learning_rate": 5.884410295193961e-06,
4491
+ "loss": 1.117233157157898,
4492
+ "step": 638
4493
+ },
4494
+ {
4495
+ "epoch": 0.5243076923076923,
4496
+ "grad_norm": 1.6640625,
4497
+ "learning_rate": 5.868241294267338e-06,
4498
+ "loss": 1.1313074827194214,
4499
+ "step": 639
4500
+ },
4501
+ {
4502
+ "epoch": 0.5251282051282051,
4503
+ "grad_norm": 1.6796875,
4504
+ "learning_rate": 5.852074555851048e-06,
4505
+ "loss": 1.0843769311904907,
4506
+ "step": 640
4507
+ },
4508
+ {
4509
+ "epoch": 0.525948717948718,
4510
+ "grad_norm": 1.765625,
4511
+ "learning_rate": 5.835910190198157e-06,
4512
+ "loss": 1.164339303970337,
4513
+ "step": 641
4514
+ },
4515
+ {
4516
+ "epoch": 0.5267692307692308,
4517
+ "grad_norm": 1.7421875,
4518
+ "learning_rate": 5.819748307545543e-06,
4519
+ "loss": 1.1073044538497925,
4520
+ "step": 642
4521
+ },
4522
+ {
4523
+ "epoch": 0.5275897435897436,
4524
+ "grad_norm": 1.7109375,
4525
+ "learning_rate": 5.80358901811315e-06,
4526
+ "loss": 1.089107632637024,
4527
+ "step": 643
4528
+ },
4529
+ {
4530
+ "epoch": 0.5284102564102564,
4531
+ "grad_norm": 1.640625,
4532
+ "learning_rate": 5.787432432103241e-06,
4533
+ "loss": 1.147425889968872,
4534
+ "step": 644
4535
+ },
4536
+ {
4537
+ "epoch": 0.5292307692307693,
4538
+ "grad_norm": 1.53125,
4539
+ "learning_rate": 5.771278659699638e-06,
4540
+ "loss": 1.107999324798584,
4541
+ "step": 645
4542
+ },
4543
+ {
4544
+ "epoch": 0.530051282051282,
4545
+ "grad_norm": 1.7109375,
4546
+ "learning_rate": 5.7551278110669795e-06,
4547
+ "loss": 1.1329853534698486,
4548
+ "step": 646
4549
+ },
4550
+ {
4551
+ "epoch": 0.5308717948717949,
4552
+ "grad_norm": 1.5625,
4553
+ "learning_rate": 5.738979996349958e-06,
4554
+ "loss": 1.0885168313980103,
4555
+ "step": 647
4556
+ },
4557
+ {
4558
+ "epoch": 0.5316923076923077,
4559
+ "grad_norm": 1.734375,
4560
+ "learning_rate": 5.722835325672581e-06,
4561
+ "loss": 1.063646912574768,
4562
+ "step": 648
4563
+ },
4564
+ {
4565
+ "epoch": 0.5325128205128206,
4566
+ "grad_norm": 1.7109375,
4567
+ "learning_rate": 5.706693909137418e-06,
4568
+ "loss": 1.2062866687774658,
4569
+ "step": 649
4570
+ },
4571
+ {
4572
+ "epoch": 0.5333333333333333,
4573
+ "grad_norm": 1.609375,
4574
+ "learning_rate": 5.690555856824835e-06,
4575
+ "loss": 1.0824732780456543,
4576
+ "step": 650
4577
+ },
4578
+ {
4579
+ "epoch": 0.5341538461538462,
4580
+ "grad_norm": 1.7890625,
4581
+ "learning_rate": 5.674421278792262e-06,
4582
+ "loss": 1.1828659772872925,
4583
+ "step": 651
4584
+ },
4585
+ {
4586
+ "epoch": 0.534974358974359,
4587
+ "grad_norm": 1.78125,
4588
+ "learning_rate": 5.658290285073434e-06,
4589
+ "loss": 1.0778831243515015,
4590
+ "step": 652
4591
+ },
4592
+ {
4593
+ "epoch": 0.5357948717948718,
4594
+ "grad_norm": 1.5859375,
4595
+ "learning_rate": 5.642162985677645e-06,
4596
+ "loss": 1.1457768678665161,
4597
+ "step": 653
4598
+ },
4599
+ {
4600
+ "epoch": 0.5366153846153846,
4601
+ "grad_norm": 1.5625,
4602
+ "learning_rate": 5.62603949058899e-06,
4603
+ "loss": 1.167357325553894,
4604
+ "step": 654
4605
+ },
4606
+ {
4607
+ "epoch": 0.5374358974358975,
4608
+ "grad_norm": 1.8515625,
4609
+ "learning_rate": 5.60991990976562e-06,
4610
+ "loss": 1.0818358659744263,
4611
+ "step": 655
4612
+ },
4613
+ {
4614
+ "epoch": 0.5382564102564102,
4615
+ "grad_norm": 1.546875,
4616
+ "learning_rate": 5.593804353138993e-06,
4617
+ "loss": 1.0808149576187134,
4618
+ "step": 656
4619
+ },
4620
+ {
4621
+ "epoch": 0.5390769230769231,
4622
+ "grad_norm": 1.7265625,
4623
+ "learning_rate": 5.577692930613126e-06,
4624
+ "loss": 1.1308292150497437,
4625
+ "step": 657
4626
+ },
4627
+ {
4628
+ "epoch": 0.5398974358974359,
4629
+ "grad_norm": 1.8046875,
4630
+ "learning_rate": 5.561585752063836e-06,
4631
+ "loss": 1.047197699546814,
4632
+ "step": 658
4633
+ },
4634
+ {
4635
+ "epoch": 0.5407179487179488,
4636
+ "grad_norm": 1.640625,
4637
+ "learning_rate": 5.545482927338005e-06,
4638
+ "loss": 1.1586151123046875,
4639
+ "step": 659
4640
+ },
4641
+ {
4642
+ "epoch": 0.5415384615384615,
4643
+ "grad_norm": 1.5859375,
4644
+ "learning_rate": 5.529384566252813e-06,
4645
+ "loss": 1.0410411357879639,
4646
+ "step": 660
4647
+ },
4648
+ {
4649
+ "epoch": 0.5423589743589744,
4650
+ "grad_norm": 1.65625,
4651
+ "learning_rate": 5.51329077859501e-06,
4652
+ "loss": 1.136472225189209,
4653
+ "step": 661
4654
+ },
4655
+ {
4656
+ "epoch": 0.5431794871794872,
4657
+ "grad_norm": 1.671875,
4658
+ "learning_rate": 5.497201674120146e-06,
4659
+ "loss": 1.1162110567092896,
4660
+ "step": 662
4661
+ },
4662
+ {
4663
+ "epoch": 0.544,
4664
+ "grad_norm": 1.71875,
4665
+ "learning_rate": 5.481117362551841e-06,
4666
+ "loss": 1.211832046508789,
4667
+ "step": 663
4668
+ },
4669
+ {
4670
+ "epoch": 0.5448205128205128,
4671
+ "grad_norm": 1.6796875,
4672
+ "learning_rate": 5.465037953581029e-06,
4673
+ "loss": 1.1091201305389404,
4674
+ "step": 664
4675
+ },
4676
+ {
4677
+ "epoch": 0.5456410256410257,
4678
+ "grad_norm": 1.6953125,
4679
+ "learning_rate": 5.448963556865201e-06,
4680
+ "loss": 1.0828438997268677,
4681
+ "step": 665
4682
+ },
4683
+ {
4684
+ "epoch": 0.5464615384615384,
4685
+ "grad_norm": 1.5625,
4686
+ "learning_rate": 5.432894282027672e-06,
4687
+ "loss": 1.0858161449432373,
4688
+ "step": 666
4689
+ },
4690
+ {
4691
+ "epoch": 0.5472820512820513,
4692
+ "grad_norm": 1.5625,
4693
+ "learning_rate": 5.416830238656826e-06,
4694
+ "loss": 1.1406219005584717,
4695
+ "step": 667
4696
+ },
4697
+ {
4698
+ "epoch": 0.5481025641025641,
4699
+ "grad_norm": 1.65625,
4700
+ "learning_rate": 5.400771536305371e-06,
4701
+ "loss": 1.091049075126648,
4702
+ "step": 668
4703
+ },
4704
+ {
4705
+ "epoch": 0.548923076923077,
4706
+ "grad_norm": 1.8671875,
4707
+ "learning_rate": 5.384718284489589e-06,
4708
+ "loss": 1.1222573518753052,
4709
+ "step": 669
4710
+ },
4711
+ {
4712
+ "epoch": 0.5497435897435897,
4713
+ "grad_norm": 1.5625,
4714
+ "learning_rate": 5.3686705926885895e-06,
4715
+ "loss": 1.2079274654388428,
4716
+ "step": 670
4717
+ },
4718
+ {
4719
+ "epoch": 0.5505641025641026,
4720
+ "grad_norm": 1.671875,
4721
+ "learning_rate": 5.352628570343565e-06,
4722
+ "loss": 1.1412111520767212,
4723
+ "step": 671
4724
+ },
4725
+ {
4726
+ "epoch": 0.5513846153846154,
4727
+ "grad_norm": 1.671875,
4728
+ "learning_rate": 5.3365923268570485e-06,
4729
+ "loss": 1.151916742324829,
4730
+ "step": 672
4731
+ },
4732
+ {
4733
+ "epoch": 0.5522051282051282,
4734
+ "grad_norm": 1.6953125,
4735
+ "learning_rate": 5.320561971592153e-06,
4736
+ "loss": 1.16988205909729,
4737
+ "step": 673
4738
+ },
4739
+ {
4740
+ "epoch": 0.553025641025641,
4741
+ "grad_norm": 1.609375,
4742
+ "learning_rate": 5.3045376138718465e-06,
4743
+ "loss": 1.2555769681930542,
4744
+ "step": 674
4745
+ },
4746
+ {
4747
+ "epoch": 0.5538461538461539,
4748
+ "grad_norm": 1.6640625,
4749
+ "learning_rate": 5.288519362978184e-06,
4750
+ "loss": 1.0746052265167236,
4751
+ "step": 675
4752
+ },
4753
+ {
4754
+ "epoch": 0.5546666666666666,
4755
+ "grad_norm": 1.671875,
4756
+ "learning_rate": 5.2725073281515836e-06,
4757
+ "loss": 1.0875591039657593,
4758
+ "step": 676
4759
+ },
4760
+ {
4761
+ "epoch": 0.5554871794871795,
4762
+ "grad_norm": 1.7265625,
4763
+ "learning_rate": 5.256501618590064e-06,
4764
+ "loss": 1.1699628829956055,
4765
+ "step": 677
4766
+ },
4767
+ {
4768
+ "epoch": 0.5563076923076923,
4769
+ "grad_norm": 1.640625,
4770
+ "learning_rate": 5.2405023434485105e-06,
4771
+ "loss": 1.0946143865585327,
4772
+ "step": 678
4773
+ },
4774
+ {
4775
+ "epoch": 0.5571282051282052,
4776
+ "grad_norm": 1.6015625,
4777
+ "learning_rate": 5.224509611837929e-06,
4778
+ "loss": 1.1036039590835571,
4779
+ "step": 679
4780
+ },
4781
+ {
4782
+ "epoch": 0.5579487179487179,
4783
+ "grad_norm": 1.53125,
4784
+ "learning_rate": 5.208523532824697e-06,
4785
+ "loss": 1.1801561117172241,
4786
+ "step": 680
4787
+ },
4788
+ {
4789
+ "epoch": 0.5587692307692308,
4790
+ "grad_norm": 1.6171875,
4791
+ "learning_rate": 5.192544215429821e-06,
4792
+ "loss": 1.1462246179580688,
4793
+ "step": 681
4794
+ },
4795
+ {
4796
+ "epoch": 0.5595897435897436,
4797
+ "grad_norm": 1.640625,
4798
+ "learning_rate": 5.1765717686282e-06,
4799
+ "loss": 1.218364953994751,
4800
+ "step": 682
4801
+ },
4802
+ {
4803
+ "epoch": 0.5604102564102564,
4804
+ "grad_norm": 1.71875,
4805
+ "learning_rate": 5.160606301347877e-06,
4806
+ "loss": 1.160405158996582,
4807
+ "step": 683
4808
+ },
4809
+ {
4810
+ "epoch": 0.5612307692307692,
4811
+ "grad_norm": 1.671875,
4812
+ "learning_rate": 5.144647922469293e-06,
4813
+ "loss": 1.1982057094573975,
4814
+ "step": 684
4815
+ },
4816
+ {
4817
+ "epoch": 0.5620512820512821,
4818
+ "grad_norm": 1.796875,
4819
+ "learning_rate": 5.128696740824551e-06,
4820
+ "loss": 1.056734561920166,
4821
+ "step": 685
4822
+ },
4823
+ {
4824
+ "epoch": 0.5628717948717948,
4825
+ "grad_norm": 1.7265625,
4826
+ "learning_rate": 5.112752865196667e-06,
4827
+ "loss": 1.1484451293945312,
4828
+ "step": 686
4829
+ },
4830
+ {
4831
+ "epoch": 0.5636923076923077,
4832
+ "grad_norm": 1.7890625,
4833
+ "learning_rate": 5.096816404318835e-06,
4834
+ "loss": 1.1355385780334473,
4835
+ "step": 687
4836
+ },
4837
+ {
4838
+ "epoch": 0.5645128205128205,
4839
+ "grad_norm": 1.6875,
4840
+ "learning_rate": 5.0808874668736814e-06,
4841
+ "loss": 1.089058756828308,
4842
+ "step": 688
4843
+ },
4844
+ {
4845
+ "epoch": 0.5653333333333334,
4846
+ "grad_norm": 1.5859375,
4847
+ "learning_rate": 5.064966161492527e-06,
4848
+ "loss": 1.023891568183899,
4849
+ "step": 689
4850
+ },
4851
+ {
4852
+ "epoch": 0.5661538461538461,
4853
+ "grad_norm": 1.578125,
4854
+ "learning_rate": 5.049052596754637e-06,
4855
+ "loss": 1.1688581705093384,
4856
+ "step": 690
4857
+ },
4858
+ {
4859
+ "epoch": 0.566974358974359,
4860
+ "grad_norm": 1.546875,
4861
+ "learning_rate": 5.033146881186494e-06,
4862
+ "loss": 1.139955997467041,
4863
+ "step": 691
4864
+ },
4865
+ {
4866
+ "epoch": 0.5677948717948718,
4867
+ "grad_norm": 1.5859375,
4868
+ "learning_rate": 5.017249123261052e-06,
4869
+ "loss": 1.0958822965621948,
4870
+ "step": 692
4871
+ },
4872
+ {
4873
+ "epoch": 0.5686153846153846,
4874
+ "grad_norm": 1.5234375,
4875
+ "learning_rate": 5.001359431396987e-06,
4876
+ "loss": 1.128438949584961,
4877
+ "step": 693
4878
+ },
4879
+ {
4880
+ "epoch": 0.5694358974358974,
4881
+ "grad_norm": 1.625,
4882
+ "learning_rate": 4.9854779139579805e-06,
4883
+ "loss": 1.146626353263855,
4884
+ "step": 694
4885
+ },
4886
+ {
4887
+ "epoch": 0.5702564102564103,
4888
+ "grad_norm": 1.53125,
4889
+ "learning_rate": 4.96960467925195e-06,
4890
+ "loss": 1.1052286624908447,
4891
+ "step": 695
4892
+ },
4893
+ {
4894
+ "epoch": 0.571076923076923,
4895
+ "grad_norm": 1.75,
4896
+ "learning_rate": 4.953739835530342e-06,
4897
+ "loss": 1.1179757118225098,
4898
+ "step": 696
4899
+ },
4900
+ {
4901
+ "epoch": 0.5718974358974359,
4902
+ "grad_norm": 1.5078125,
4903
+ "learning_rate": 4.9378834909873675e-06,
4904
+ "loss": 1.0641415119171143,
4905
+ "step": 697
4906
+ },
4907
+ {
4908
+ "epoch": 0.5727179487179487,
4909
+ "grad_norm": 1.6015625,
4910
+ "learning_rate": 4.922035753759282e-06,
4911
+ "loss": 1.0473688840866089,
4912
+ "step": 698
4913
+ },
4914
+ {
4915
+ "epoch": 0.5735384615384616,
4916
+ "grad_norm": 1.796875,
4917
+ "learning_rate": 4.906196731923642e-06,
4918
+ "loss": 1.2188773155212402,
4919
+ "step": 699
4920
+ },
4921
+ {
4922
+ "epoch": 0.5743589743589743,
4923
+ "grad_norm": 1.6484375,
4924
+ "learning_rate": 4.890366533498559e-06,
4925
+ "loss": 1.1033180952072144,
4926
+ "step": 700
4927
+ },
4928
+ {
4929
+ "epoch": 0.5751794871794872,
4930
+ "grad_norm": 1.609375,
4931
+ "learning_rate": 4.874545266441977e-06,
4932
+ "loss": 1.1321452856063843,
4933
+ "step": 701
4934
+ },
4935
+ {
4936
+ "epoch": 0.576,
4937
+ "grad_norm": 1.640625,
4938
+ "learning_rate": 4.858733038650932e-06,
4939
+ "loss": 1.2013392448425293,
4940
+ "step": 702
4941
+ },
4942
+ {
4943
+ "epoch": 0.5768205128205128,
4944
+ "grad_norm": 1.578125,
4945
+ "learning_rate": 4.842929957960811e-06,
4946
+ "loss": 1.0100051164627075,
4947
+ "step": 703
4948
+ },
4949
+ {
4950
+ "epoch": 0.5776410256410256,
4951
+ "grad_norm": 1.5859375,
4952
+ "learning_rate": 4.827136132144623e-06,
4953
+ "loss": 1.1534571647644043,
4954
+ "step": 704
4955
+ },
4956
+ {
4957
+ "epoch": 0.5784615384615385,
4958
+ "grad_norm": 1.6171875,
4959
+ "learning_rate": 4.811351668912257e-06,
4960
+ "loss": 1.1213208436965942,
4961
+ "step": 705
4962
+ },
4963
+ {
4964
+ "epoch": 0.5792820512820512,
4965
+ "grad_norm": 1.671875,
4966
+ "learning_rate": 4.795576675909754e-06,
4967
+ "loss": 1.1385544538497925,
4968
+ "step": 706
4969
+ },
4970
+ {
4971
+ "epoch": 0.5801025641025641,
4972
+ "grad_norm": 1.65625,
4973
+ "learning_rate": 4.779811260718572e-06,
4974
+ "loss": 1.1246585845947266,
4975
+ "step": 707
4976
+ },
4977
+ {
4978
+ "epoch": 0.5809230769230769,
4979
+ "grad_norm": 1.875,
4980
+ "learning_rate": 4.764055530854849e-06,
4981
+ "loss": 1.1996458768844604,
4982
+ "step": 708
4983
+ },
4984
+ {
4985
+ "epoch": 0.5817435897435898,
4986
+ "grad_norm": 1.625,
4987
+ "learning_rate": 4.7483095937686725e-06,
4988
+ "loss": 1.1832023859024048,
4989
+ "step": 709
4990
+ },
4991
+ {
4992
+ "epoch": 0.5825641025641025,
4993
+ "grad_norm": 1.640625,
4994
+ "learning_rate": 4.73257355684334e-06,
4995
+ "loss": 1.125613808631897,
4996
+ "step": 710
4997
+ },
4998
+ {
4999
+ "epoch": 0.5833846153846154,
5000
+ "grad_norm": 1.6875,
5001
+ "learning_rate": 4.716847527394642e-06,
5002
+ "loss": 1.1033669710159302,
5003
+ "step": 711
5004
+ },
5005
+ {
5006
+ "epoch": 0.5842051282051282,
5007
+ "grad_norm": 1.6640625,
5008
+ "learning_rate": 4.7011316126701145e-06,
5009
+ "loss": 1.1974871158599854,
5010
+ "step": 712
5011
+ },
5012
+ {
5013
+ "epoch": 0.585025641025641,
5014
+ "grad_norm": 1.6796875,
5015
+ "learning_rate": 4.685425919848314e-06,
5016
+ "loss": 1.1260145902633667,
5017
+ "step": 713
5018
+ },
5019
+ {
5020
+ "epoch": 0.5858461538461538,
5021
+ "grad_norm": 1.5859375,
5022
+ "learning_rate": 4.669730556038092e-06,
5023
+ "loss": 1.1053581237792969,
5024
+ "step": 714
5025
+ },
5026
+ {
5027
+ "epoch": 0.5866666666666667,
5028
+ "grad_norm": 1.6796875,
5029
+ "learning_rate": 4.654045628277848e-06,
5030
+ "loss": 1.1527366638183594,
5031
+ "step": 715
5032
+ },
5033
+ {
5034
+ "epoch": 0.5874871794871794,
5035
+ "grad_norm": 1.765625,
5036
+ "learning_rate": 4.638371243534817e-06,
5037
+ "loss": 1.0591764450073242,
5038
+ "step": 716
5039
+ },
5040
+ {
5041
+ "epoch": 0.5883076923076923,
5042
+ "grad_norm": 1.5234375,
5043
+ "learning_rate": 4.622707508704334e-06,
5044
+ "loss": 1.0199596881866455,
5045
+ "step": 717
5046
+ },
5047
+ {
5048
+ "epoch": 0.5891282051282051,
5049
+ "grad_norm": 1.6875,
5050
+ "learning_rate": 4.6070545306091034e-06,
5051
+ "loss": 1.0806047916412354,
5052
+ "step": 718
5053
+ },
5054
+ {
5055
+ "epoch": 0.589948717948718,
5056
+ "grad_norm": 1.5625,
5057
+ "learning_rate": 4.591412415998471e-06,
5058
+ "loss": 1.161590814590454,
5059
+ "step": 719
5060
+ },
5061
+ {
5062
+ "epoch": 0.5907692307692308,
5063
+ "grad_norm": 1.625,
5064
+ "learning_rate": 4.575781271547695e-06,
5065
+ "loss": 1.1730376482009888,
5066
+ "step": 720
5067
+ },
5068
+ {
5069
+ "epoch": 0.5915897435897436,
5070
+ "grad_norm": 1.8515625,
5071
+ "learning_rate": 4.5601612038572185e-06,
5072
+ "loss": 1.159124493598938,
5073
+ "step": 721
5074
+ },
5075
+ {
5076
+ "epoch": 0.5924102564102565,
5077
+ "grad_norm": 1.75,
5078
+ "learning_rate": 4.544552319451952e-06,
5079
+ "loss": 1.035894751548767,
5080
+ "step": 722
5081
+ },
5082
+ {
5083
+ "epoch": 0.5932307692307692,
5084
+ "grad_norm": 1.609375,
5085
+ "learning_rate": 4.528954724780529e-06,
5086
+ "loss": 1.0906904935836792,
5087
+ "step": 723
5088
+ },
5089
+ {
5090
+ "epoch": 0.5940512820512821,
5091
+ "grad_norm": 1.6015625,
5092
+ "learning_rate": 4.5133685262145994e-06,
5093
+ "loss": 1.1019519567489624,
5094
+ "step": 724
5095
+ },
5096
+ {
5097
+ "epoch": 0.5948717948717949,
5098
+ "grad_norm": 1.5234375,
5099
+ "learning_rate": 4.497793830048082e-06,
5100
+ "loss": 1.0816446542739868,
5101
+ "step": 725
5102
+ },
5103
+ {
5104
+ "epoch": 0.5956923076923077,
5105
+ "grad_norm": 1.5859375,
5106
+ "learning_rate": 4.4822307424964655e-06,
5107
+ "loss": 1.1538878679275513,
5108
+ "step": 726
5109
+ },
5110
+ {
5111
+ "epoch": 0.5965128205128205,
5112
+ "grad_norm": 1.6796875,
5113
+ "learning_rate": 4.46667936969606e-06,
5114
+ "loss": 1.162054419517517,
5115
+ "step": 727
5116
+ },
5117
+ {
5118
+ "epoch": 0.5973333333333334,
5119
+ "grad_norm": 1.6484375,
5120
+ "learning_rate": 4.451139817703292e-06,
5121
+ "loss": 1.0661221742630005,
5122
+ "step": 728
5123
+ },
5124
+ {
5125
+ "epoch": 0.5981538461538461,
5126
+ "grad_norm": 1.6875,
5127
+ "learning_rate": 4.4356121924939715e-06,
5128
+ "loss": 1.1707451343536377,
5129
+ "step": 729
5130
+ },
5131
+ {
5132
+ "epoch": 0.598974358974359,
5133
+ "grad_norm": 1.6484375,
5134
+ "learning_rate": 4.420096599962565e-06,
5135
+ "loss": 1.138479232788086,
5136
+ "step": 730
5137
+ },
5138
+ {
5139
+ "epoch": 0.5997948717948718,
5140
+ "grad_norm": 1.5859375,
5141
+ "learning_rate": 4.404593145921484e-06,
5142
+ "loss": 1.0460493564605713,
5143
+ "step": 731
5144
+ },
5145
+ {
5146
+ "epoch": 0.6006153846153847,
5147
+ "grad_norm": 1.578125,
5148
+ "learning_rate": 4.38910193610036e-06,
5149
+ "loss": 1.148463249206543,
5150
+ "step": 732
5151
+ },
5152
+ {
5153
+ "epoch": 0.6006153846153847,
5154
+ "eval_loss": 1.1107702255249023,
5155
+ "eval_runtime": 25.6154,
5156
+ "eval_samples_per_second": 39.039,
5157
+ "eval_steps_per_second": 9.76,
5158
+ "step": 732
5159
  }
5160
  ],
5161
  "logging_steps": 1,
 
5175
  "attributes": {}
5176
  }
5177
  },
5178
+ "total_flos": 1.9085921112644813e+17,
5179
  "train_batch_size": 4,
5180
  "trial_name": null,
5181
  "trial_params": null