kavanmevada commited on
Commit
689766a
·
verified ·
1 Parent(s): 94ea06f

Training in progress, step 1270, checkpoint

Browse files
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:84e40de1156525828dd6987a4b795898a1ac22c1eb418e7b8ab745b4d7789d66
3
  size 936544523
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b0143bc91b3ad815b4f13a42aea5c7975d4f31dd640aa131f2349d4581586ad7
3
  size 936544523
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:03c5d2ff5ad33f95f55329ae59e88d9437bff2e65ad7d9ef57ff653a057ce64f
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:14c3e525ca05e179ddf164d7eead6f8f3351de1c8dbf833b0398766f590b5299
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.0042231700892867065,
6
  "eval_steps": 500,
7
- "global_step": 950,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -6658,6 +6658,2246 @@
6658
  "learning_rate": 1.999998627690604e-05,
6659
  "loss": 3.2958,
6660
  "step": 950
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6661
  }
6662
  ],
6663
  "logging_steps": 1,
@@ -6677,7 +8917,7 @@
6677
  "attributes": {}
6678
  }
6679
  },
6680
- "total_flos": 3.7607983546368e+16,
6681
  "train_batch_size": 1,
6682
  "trial_name": null,
6683
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.0056457115930464395,
6
  "eval_steps": 500,
7
+ "global_step": 1270,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
6658
  "learning_rate": 1.999998627690604e-05,
6659
  "loss": 3.2958,
6660
  "step": 950
6661
+ },
6662
+ {
6663
+ "epoch": 0.004227615531485956,
6664
+ "grad_norm": 10.0625,
6665
+ "learning_rate": 1.9999986247969644e-05,
6666
+ "loss": 2.955,
6667
+ "step": 951
6668
+ },
6669
+ {
6670
+ "epoch": 0.004232060973685205,
6671
+ "grad_norm": 10.5625,
6672
+ "learning_rate": 2.1138265595305574e-07,
6673
+ "loss": 3.0113,
6674
+ "step": 952
6675
+ },
6676
+ {
6677
+ "epoch": 0.004236506415884454,
6678
+ "grad_norm": 10.5625,
6679
+ "learning_rate": 2.116049300392314e-07,
6680
+ "loss": 2.9137,
6681
+ "step": 953
6682
+ },
6683
+ {
6684
+ "epoch": 0.004240951858083703,
6685
+ "grad_norm": 9.4375,
6686
+ "learning_rate": 2.1182720412540707e-07,
6687
+ "loss": 3.0932,
6688
+ "step": 954
6689
+ },
6690
+ {
6691
+ "epoch": 0.004245397300282953,
6692
+ "grad_norm": 9.9375,
6693
+ "learning_rate": 2.1204947821158272e-07,
6694
+ "loss": 3.0056,
6695
+ "step": 955
6696
+ },
6697
+ {
6698
+ "epoch": 0.004249842742482202,
6699
+ "grad_norm": 7.625,
6700
+ "learning_rate": 2.122717522977584e-07,
6701
+ "loss": 3.1488,
6702
+ "step": 956
6703
+ },
6704
+ {
6705
+ "epoch": 0.004254288184681451,
6706
+ "grad_norm": 10.125,
6707
+ "learning_rate": 2.1249402638393403e-07,
6708
+ "loss": 2.9632,
6709
+ "step": 957
6710
+ },
6711
+ {
6712
+ "epoch": 0.0042587336268807,
6713
+ "grad_norm": 7.5,
6714
+ "learning_rate": 2.127163004701097e-07,
6715
+ "loss": 3.2703,
6716
+ "step": 958
6717
+ },
6718
+ {
6719
+ "epoch": 0.004263179069079949,
6720
+ "grad_norm": 8.75,
6721
+ "learning_rate": 2.1293857455628536e-07,
6722
+ "loss": 3.1646,
6723
+ "step": 959
6724
+ },
6725
+ {
6726
+ "epoch": 0.004267624511279198,
6727
+ "grad_norm": 8.1875,
6728
+ "learning_rate": 2.1316084864246103e-07,
6729
+ "loss": 3.1636,
6730
+ "step": 960
6731
+ },
6732
+ {
6733
+ "epoch": 0.004272069953478447,
6734
+ "grad_norm": 8.9375,
6735
+ "learning_rate": 2.1338312272863669e-07,
6736
+ "loss": 3.0689,
6737
+ "step": 961
6738
+ },
6739
+ {
6740
+ "epoch": 0.004276515395677696,
6741
+ "grad_norm": 9.25,
6742
+ "learning_rate": 2.1360539681481236e-07,
6743
+ "loss": 3.0252,
6744
+ "step": 962
6745
+ },
6746
+ {
6747
+ "epoch": 0.004280960837876946,
6748
+ "grad_norm": 11.75,
6749
+ "learning_rate": 2.1382767090098801e-07,
6750
+ "loss": 2.8206,
6751
+ "step": 963
6752
+ },
6753
+ {
6754
+ "epoch": 0.004285406280076195,
6755
+ "grad_norm": 8.6875,
6756
+ "learning_rate": 2.140499449871637e-07,
6757
+ "loss": 3.0941,
6758
+ "step": 964
6759
+ },
6760
+ {
6761
+ "epoch": 0.004289851722275444,
6762
+ "grad_norm": 10.875,
6763
+ "learning_rate": 2.1427221907333934e-07,
6764
+ "loss": 2.9032,
6765
+ "step": 965
6766
+ },
6767
+ {
6768
+ "epoch": 0.004294297164474693,
6769
+ "grad_norm": 8.5625,
6770
+ "learning_rate": 2.1449449315951502e-07,
6771
+ "loss": 3.1731,
6772
+ "step": 966
6773
+ },
6774
+ {
6775
+ "epoch": 0.004298742606673942,
6776
+ "grad_norm": 9.1875,
6777
+ "learning_rate": 2.1471676724569067e-07,
6778
+ "loss": 3.0915,
6779
+ "step": 967
6780
+ },
6781
+ {
6782
+ "epoch": 0.004303188048873191,
6783
+ "grad_norm": 11.0625,
6784
+ "learning_rate": 2.1493904133186635e-07,
6785
+ "loss": 2.8839,
6786
+ "step": 968
6787
+ },
6788
+ {
6789
+ "epoch": 0.0043076334910724405,
6790
+ "grad_norm": 9.5625,
6791
+ "learning_rate": 2.15161315418042e-07,
6792
+ "loss": 3.082,
6793
+ "step": 969
6794
+ },
6795
+ {
6796
+ "epoch": 0.0043120789332716895,
6797
+ "grad_norm": 10.125,
6798
+ "learning_rate": 2.1538358950421768e-07,
6799
+ "loss": 3.0645,
6800
+ "step": 970
6801
+ },
6802
+ {
6803
+ "epoch": 0.0043165243754709395,
6804
+ "grad_norm": 9.0625,
6805
+ "learning_rate": 2.1560586359039333e-07,
6806
+ "loss": 3.3608,
6807
+ "step": 971
6808
+ },
6809
+ {
6810
+ "epoch": 0.0043209698176701885,
6811
+ "grad_norm": 8.6875,
6812
+ "learning_rate": 2.15828137676569e-07,
6813
+ "loss": 3.0053,
6814
+ "step": 972
6815
+ },
6816
+ {
6817
+ "epoch": 0.004325415259869438,
6818
+ "grad_norm": 10.375,
6819
+ "learning_rate": 2.1605041176274469e-07,
6820
+ "loss": 3.0382,
6821
+ "step": 973
6822
+ },
6823
+ {
6824
+ "epoch": 0.004329860702068687,
6825
+ "grad_norm": 11.1875,
6826
+ "learning_rate": 2.162726858489203e-07,
6827
+ "loss": 2.9776,
6828
+ "step": 974
6829
+ },
6830
+ {
6831
+ "epoch": 0.004334306144267936,
6832
+ "grad_norm": 10.75,
6833
+ "learning_rate": 2.1649495993509596e-07,
6834
+ "loss": 2.9646,
6835
+ "step": 975
6836
+ },
6837
+ {
6838
+ "epoch": 0.004338751586467185,
6839
+ "grad_norm": 10.3125,
6840
+ "learning_rate": 2.1671723402127164e-07,
6841
+ "loss": 3.0247,
6842
+ "step": 976
6843
+ },
6844
+ {
6845
+ "epoch": 0.004343197028666434,
6846
+ "grad_norm": 9.875,
6847
+ "learning_rate": 2.169395081074473e-07,
6848
+ "loss": 3.0667,
6849
+ "step": 977
6850
+ },
6851
+ {
6852
+ "epoch": 0.004347642470865683,
6853
+ "grad_norm": 11.4375,
6854
+ "learning_rate": 2.1716178219362297e-07,
6855
+ "loss": 2.8984,
6856
+ "step": 978
6857
+ },
6858
+ {
6859
+ "epoch": 0.004352087913064932,
6860
+ "grad_norm": 8.6875,
6861
+ "learning_rate": 2.1738405627979862e-07,
6862
+ "loss": 3.1805,
6863
+ "step": 979
6864
+ },
6865
+ {
6866
+ "epoch": 0.004356533355264182,
6867
+ "grad_norm": 7.34375,
6868
+ "learning_rate": 2.176063303659743e-07,
6869
+ "loss": 3.2741,
6870
+ "step": 980
6871
+ },
6872
+ {
6873
+ "epoch": 0.004360978797463431,
6874
+ "grad_norm": 9.25,
6875
+ "learning_rate": 2.1782860445214995e-07,
6876
+ "loss": 3.1854,
6877
+ "step": 981
6878
+ },
6879
+ {
6880
+ "epoch": 0.00436542423966268,
6881
+ "grad_norm": 12.5625,
6882
+ "learning_rate": 2.1805087853832563e-07,
6883
+ "loss": 2.7744,
6884
+ "step": 982
6885
+ },
6886
+ {
6887
+ "epoch": 0.004369869681861929,
6888
+ "grad_norm": 10.9375,
6889
+ "learning_rate": 2.182731526245013e-07,
6890
+ "loss": 2.8225,
6891
+ "step": 983
6892
+ },
6893
+ {
6894
+ "epoch": 0.004374315124061178,
6895
+ "grad_norm": 8.25,
6896
+ "learning_rate": 2.1849542671067696e-07,
6897
+ "loss": 3.277,
6898
+ "step": 984
6899
+ },
6900
+ {
6901
+ "epoch": 0.004378760566260427,
6902
+ "grad_norm": 9.75,
6903
+ "learning_rate": 2.1871770079685263e-07,
6904
+ "loss": 3.0862,
6905
+ "step": 985
6906
+ },
6907
+ {
6908
+ "epoch": 0.004383206008459676,
6909
+ "grad_norm": 6.9375,
6910
+ "learning_rate": 2.1893997488302829e-07,
6911
+ "loss": 3.2672,
6912
+ "step": 986
6913
+ },
6914
+ {
6915
+ "epoch": 0.004387651450658925,
6916
+ "grad_norm": 8.8125,
6917
+ "learning_rate": 2.1916224896920396e-07,
6918
+ "loss": 3.1132,
6919
+ "step": 987
6920
+ },
6921
+ {
6922
+ "epoch": 0.004392096892858175,
6923
+ "grad_norm": 7.46875,
6924
+ "learning_rate": 2.1938452305537962e-07,
6925
+ "loss": 3.1818,
6926
+ "step": 988
6927
+ },
6928
+ {
6929
+ "epoch": 0.004396542335057424,
6930
+ "grad_norm": 11.3125,
6931
+ "learning_rate": 2.196067971415553e-07,
6932
+ "loss": 2.8631,
6933
+ "step": 989
6934
+ },
6935
+ {
6936
+ "epoch": 0.004400987777256673,
6937
+ "grad_norm": 11.5,
6938
+ "learning_rate": 2.1982907122773094e-07,
6939
+ "loss": 2.8712,
6940
+ "step": 990
6941
+ },
6942
+ {
6943
+ "epoch": 0.0044054332194559225,
6944
+ "grad_norm": 10.125,
6945
+ "learning_rate": 2.2005134531390657e-07,
6946
+ "loss": 2.9481,
6947
+ "step": 991
6948
+ },
6949
+ {
6950
+ "epoch": 0.0044098786616551715,
6951
+ "grad_norm": 8.9375,
6952
+ "learning_rate": 2.2027361940008225e-07,
6953
+ "loss": 3.0446,
6954
+ "step": 992
6955
+ },
6956
+ {
6957
+ "epoch": 0.004414324103854421,
6958
+ "grad_norm": 8.75,
6959
+ "learning_rate": 2.204958934862579e-07,
6960
+ "loss": 3.1951,
6961
+ "step": 993
6962
+ },
6963
+ {
6964
+ "epoch": 0.00441876954605367,
6965
+ "grad_norm": 10.8125,
6966
+ "learning_rate": 2.2071816757243358e-07,
6967
+ "loss": 2.832,
6968
+ "step": 994
6969
+ },
6970
+ {
6971
+ "epoch": 0.004423214988252919,
6972
+ "grad_norm": 8.8125,
6973
+ "learning_rate": 2.2094044165860925e-07,
6974
+ "loss": 3.1672,
6975
+ "step": 995
6976
+ },
6977
+ {
6978
+ "epoch": 0.004427660430452168,
6979
+ "grad_norm": 10.6875,
6980
+ "learning_rate": 2.211627157447849e-07,
6981
+ "loss": 2.9116,
6982
+ "step": 996
6983
+ },
6984
+ {
6985
+ "epoch": 0.004432105872651418,
6986
+ "grad_norm": 9.6875,
6987
+ "learning_rate": 2.2138498983096058e-07,
6988
+ "loss": 3.1124,
6989
+ "step": 997
6990
+ },
6991
+ {
6992
+ "epoch": 0.004436551314850667,
6993
+ "grad_norm": 9.4375,
6994
+ "learning_rate": 2.2160726391713623e-07,
6995
+ "loss": 3.0419,
6996
+ "step": 998
6997
+ },
6998
+ {
6999
+ "epoch": 0.004440996757049916,
7000
+ "grad_norm": 9.0625,
7001
+ "learning_rate": 2.218295380033119e-07,
7002
+ "loss": 3.1185,
7003
+ "step": 999
7004
+ },
7005
+ {
7006
+ "epoch": 0.004445442199249165,
7007
+ "grad_norm": 9.875,
7008
+ "learning_rate": 2.2205181208948756e-07,
7009
+ "loss": 2.9247,
7010
+ "step": 1000
7011
+ },
7012
+ {
7013
+ "epoch": 0.004449887641448414,
7014
+ "grad_norm": 9.9375,
7015
+ "learning_rate": 2.2227408617566324e-07,
7016
+ "loss": 3.1356,
7017
+ "step": 1001
7018
+ },
7019
+ {
7020
+ "epoch": 0.004454333083647663,
7021
+ "grad_norm": 11.5625,
7022
+ "learning_rate": 2.224963602618389e-07,
7023
+ "loss": 2.8265,
7024
+ "step": 1002
7025
+ },
7026
+ {
7027
+ "epoch": 0.004458778525846912,
7028
+ "grad_norm": 10.875,
7029
+ "learning_rate": 2.2271863434801457e-07,
7030
+ "loss": 2.8969,
7031
+ "step": 1003
7032
+ },
7033
+ {
7034
+ "epoch": 0.004463223968046161,
7035
+ "grad_norm": 11.5,
7036
+ "learning_rate": 2.2294090843419022e-07,
7037
+ "loss": 2.7605,
7038
+ "step": 1004
7039
+ },
7040
+ {
7041
+ "epoch": 0.004467669410245411,
7042
+ "grad_norm": 10.0,
7043
+ "learning_rate": 2.231631825203659e-07,
7044
+ "loss": 2.9733,
7045
+ "step": 1005
7046
+ },
7047
+ {
7048
+ "epoch": 0.00447211485244466,
7049
+ "grad_norm": 9.4375,
7050
+ "learning_rate": 2.2338545660654155e-07,
7051
+ "loss": 2.9336,
7052
+ "step": 1006
7053
+ },
7054
+ {
7055
+ "epoch": 0.004476560294643909,
7056
+ "grad_norm": 11.5,
7057
+ "learning_rate": 2.236077306927172e-07,
7058
+ "loss": 2.7993,
7059
+ "step": 1007
7060
+ },
7061
+ {
7062
+ "epoch": 0.004481005736843158,
7063
+ "grad_norm": 11.25,
7064
+ "learning_rate": 2.2383000477889285e-07,
7065
+ "loss": 2.8964,
7066
+ "step": 1008
7067
+ },
7068
+ {
7069
+ "epoch": 0.004485451179042407,
7070
+ "grad_norm": 9.75,
7071
+ "learning_rate": 2.2405227886506853e-07,
7072
+ "loss": 2.9988,
7073
+ "step": 1009
7074
+ },
7075
+ {
7076
+ "epoch": 0.004489896621241656,
7077
+ "grad_norm": 9.625,
7078
+ "learning_rate": 2.2427455295124418e-07,
7079
+ "loss": 3.01,
7080
+ "step": 1010
7081
+ },
7082
+ {
7083
+ "epoch": 0.0044943420634409054,
7084
+ "grad_norm": 7.9375,
7085
+ "learning_rate": 2.2449682703741986e-07,
7086
+ "loss": 3.2394,
7087
+ "step": 1011
7088
+ },
7089
+ {
7090
+ "epoch": 0.0044987875056401545,
7091
+ "grad_norm": 9.125,
7092
+ "learning_rate": 2.247191011235955e-07,
7093
+ "loss": 3.0721,
7094
+ "step": 1012
7095
+ },
7096
+ {
7097
+ "epoch": 0.0045032329478394036,
7098
+ "grad_norm": 10.75,
7099
+ "learning_rate": 2.249413752097712e-07,
7100
+ "loss": 2.9398,
7101
+ "step": 1013
7102
+ },
7103
+ {
7104
+ "epoch": 0.0045076783900386535,
7105
+ "grad_norm": 9.8125,
7106
+ "learning_rate": 2.2516364929594684e-07,
7107
+ "loss": 3.0119,
7108
+ "step": 1014
7109
+ },
7110
+ {
7111
+ "epoch": 0.0045121238322379026,
7112
+ "grad_norm": 10.25,
7113
+ "learning_rate": 2.2538592338212252e-07,
7114
+ "loss": 3.0231,
7115
+ "step": 1015
7116
+ },
7117
+ {
7118
+ "epoch": 0.004516569274437152,
7119
+ "grad_norm": 10.3125,
7120
+ "learning_rate": 2.2560819746829817e-07,
7121
+ "loss": 2.9173,
7122
+ "step": 1016
7123
+ },
7124
+ {
7125
+ "epoch": 0.004521014716636401,
7126
+ "grad_norm": 11.4375,
7127
+ "learning_rate": 2.2583047155447385e-07,
7128
+ "loss": 2.9078,
7129
+ "step": 1017
7130
+ },
7131
+ {
7132
+ "epoch": 0.00452546015883565,
7133
+ "grad_norm": 10.875,
7134
+ "learning_rate": 2.260527456406495e-07,
7135
+ "loss": 2.9214,
7136
+ "step": 1018
7137
+ },
7138
+ {
7139
+ "epoch": 0.004529905601034899,
7140
+ "grad_norm": 11.0625,
7141
+ "learning_rate": 2.2627501972682518e-07,
7142
+ "loss": 2.8618,
7143
+ "step": 1019
7144
+ },
7145
+ {
7146
+ "epoch": 0.004534351043234148,
7147
+ "grad_norm": 9.125,
7148
+ "learning_rate": 2.2649729381300083e-07,
7149
+ "loss": 3.159,
7150
+ "step": 1020
7151
+ },
7152
+ {
7153
+ "epoch": 0.004538796485433397,
7154
+ "grad_norm": 7.6875,
7155
+ "learning_rate": 2.267195678991765e-07,
7156
+ "loss": 3.1911,
7157
+ "step": 1021
7158
+ },
7159
+ {
7160
+ "epoch": 0.004543241927632647,
7161
+ "grad_norm": 9.0,
7162
+ "learning_rate": 2.2694184198535218e-07,
7163
+ "loss": 3.1503,
7164
+ "step": 1022
7165
+ },
7166
+ {
7167
+ "epoch": 0.004547687369831896,
7168
+ "grad_norm": 8.1875,
7169
+ "learning_rate": 2.2716411607152784e-07,
7170
+ "loss": 3.0955,
7171
+ "step": 1023
7172
+ },
7173
+ {
7174
+ "epoch": 0.004552132812031145,
7175
+ "grad_norm": 10.25,
7176
+ "learning_rate": 2.2738639015770346e-07,
7177
+ "loss": 2.8884,
7178
+ "step": 1024
7179
+ },
7180
+ {
7181
+ "epoch": 0.004556578254230394,
7182
+ "grad_norm": 10.25,
7183
+ "learning_rate": 2.2760866424387914e-07,
7184
+ "loss": 3.0228,
7185
+ "step": 1025
7186
+ },
7187
+ {
7188
+ "epoch": 0.004561023696429643,
7189
+ "grad_norm": 9.6875,
7190
+ "learning_rate": 2.278309383300548e-07,
7191
+ "loss": 3.0518,
7192
+ "step": 1026
7193
+ },
7194
+ {
7195
+ "epoch": 0.004565469138628892,
7196
+ "grad_norm": 11.1875,
7197
+ "learning_rate": 2.2805321241623047e-07,
7198
+ "loss": 2.8747,
7199
+ "step": 1027
7200
+ },
7201
+ {
7202
+ "epoch": 0.004569914580828141,
7203
+ "grad_norm": 9.1875,
7204
+ "learning_rate": 2.2827548650240612e-07,
7205
+ "loss": 3.0202,
7206
+ "step": 1028
7207
+ },
7208
+ {
7209
+ "epoch": 0.00457436002302739,
7210
+ "grad_norm": 9.125,
7211
+ "learning_rate": 2.284977605885818e-07,
7212
+ "loss": 3.0268,
7213
+ "step": 1029
7214
+ },
7215
+ {
7216
+ "epoch": 0.004578805465226639,
7217
+ "grad_norm": 8.5,
7218
+ "learning_rate": 2.2872003467475745e-07,
7219
+ "loss": 3.1001,
7220
+ "step": 1030
7221
+ },
7222
+ {
7223
+ "epoch": 0.004583250907425889,
7224
+ "grad_norm": 11.4375,
7225
+ "learning_rate": 2.2894230876093313e-07,
7226
+ "loss": 2.7481,
7227
+ "step": 1031
7228
+ },
7229
+ {
7230
+ "epoch": 0.004587696349625138,
7231
+ "grad_norm": 11.0,
7232
+ "learning_rate": 2.2916458284710878e-07,
7233
+ "loss": 2.8899,
7234
+ "step": 1032
7235
+ },
7236
+ {
7237
+ "epoch": 0.004592141791824387,
7238
+ "grad_norm": 9.375,
7239
+ "learning_rate": 2.2938685693328445e-07,
7240
+ "loss": 3.1019,
7241
+ "step": 1033
7242
+ },
7243
+ {
7244
+ "epoch": 0.0045965872340236365,
7245
+ "grad_norm": 11.875,
7246
+ "learning_rate": 2.2960913101946013e-07,
7247
+ "loss": 3.0228,
7248
+ "step": 1034
7249
+ },
7250
+ {
7251
+ "epoch": 0.0046010326762228855,
7252
+ "grad_norm": 9.1875,
7253
+ "learning_rate": 2.2983140510563578e-07,
7254
+ "loss": 3.0717,
7255
+ "step": 1035
7256
+ },
7257
+ {
7258
+ "epoch": 0.004605478118422135,
7259
+ "grad_norm": 12.75,
7260
+ "learning_rate": 2.3005367919181146e-07,
7261
+ "loss": 2.6542,
7262
+ "step": 1036
7263
+ },
7264
+ {
7265
+ "epoch": 0.004609923560621384,
7266
+ "grad_norm": 11.125,
7267
+ "learning_rate": 2.302759532779871e-07,
7268
+ "loss": 2.9248,
7269
+ "step": 1037
7270
+ },
7271
+ {
7272
+ "epoch": 0.004614369002820633,
7273
+ "grad_norm": 9.1875,
7274
+ "learning_rate": 2.304982273641628e-07,
7275
+ "loss": 3.1013,
7276
+ "step": 1038
7277
+ },
7278
+ {
7279
+ "epoch": 0.004618814445019883,
7280
+ "grad_norm": 10.4375,
7281
+ "learning_rate": 2.3072050145033844e-07,
7282
+ "loss": 2.9626,
7283
+ "step": 1039
7284
+ },
7285
+ {
7286
+ "epoch": 0.004623259887219132,
7287
+ "grad_norm": 10.0625,
7288
+ "learning_rate": 2.3094277553651407e-07,
7289
+ "loss": 2.9294,
7290
+ "step": 1040
7291
+ },
7292
+ {
7293
+ "epoch": 0.004627705329418381,
7294
+ "grad_norm": 10.3125,
7295
+ "learning_rate": 2.3116504962268974e-07,
7296
+ "loss": 2.9481,
7297
+ "step": 1041
7298
+ },
7299
+ {
7300
+ "epoch": 0.00463215077161763,
7301
+ "grad_norm": 11.0,
7302
+ "learning_rate": 2.313873237088654e-07,
7303
+ "loss": 2.9254,
7304
+ "step": 1042
7305
+ },
7306
+ {
7307
+ "epoch": 0.004636596213816879,
7308
+ "grad_norm": 8.3125,
7309
+ "learning_rate": 2.3160959779504107e-07,
7310
+ "loss": 3.2911,
7311
+ "step": 1043
7312
+ },
7313
+ {
7314
+ "epoch": 0.004641041656016128,
7315
+ "grad_norm": 10.5,
7316
+ "learning_rate": 2.3183187188121675e-07,
7317
+ "loss": 3.117,
7318
+ "step": 1044
7319
+ },
7320
+ {
7321
+ "epoch": 0.004645487098215377,
7322
+ "grad_norm": 9.0,
7323
+ "learning_rate": 2.320541459673924e-07,
7324
+ "loss": 3.0878,
7325
+ "step": 1045
7326
+ },
7327
+ {
7328
+ "epoch": 0.004649932540414626,
7329
+ "grad_norm": 9.0625,
7330
+ "learning_rate": 2.3227642005356808e-07,
7331
+ "loss": 2.9498,
7332
+ "step": 1046
7333
+ },
7334
+ {
7335
+ "epoch": 0.004654377982613875,
7336
+ "grad_norm": 9.125,
7337
+ "learning_rate": 2.3249869413974373e-07,
7338
+ "loss": 3.2355,
7339
+ "step": 1047
7340
+ },
7341
+ {
7342
+ "epoch": 0.004658823424813125,
7343
+ "grad_norm": 9.3125,
7344
+ "learning_rate": 2.327209682259194e-07,
7345
+ "loss": 3.093,
7346
+ "step": 1048
7347
+ },
7348
+ {
7349
+ "epoch": 0.004663268867012374,
7350
+ "grad_norm": 9.5625,
7351
+ "learning_rate": 2.3294324231209506e-07,
7352
+ "loss": 3.1023,
7353
+ "step": 1049
7354
+ },
7355
+ {
7356
+ "epoch": 0.004667714309211623,
7357
+ "grad_norm": 8.25,
7358
+ "learning_rate": 2.3316551639827074e-07,
7359
+ "loss": 3.1607,
7360
+ "step": 1050
7361
+ },
7362
+ {
7363
+ "epoch": 0.004672159751410872,
7364
+ "grad_norm": 10.0,
7365
+ "learning_rate": 2.333877904844464e-07,
7366
+ "loss": 2.9663,
7367
+ "step": 1051
7368
+ },
7369
+ {
7370
+ "epoch": 0.004676605193610121,
7371
+ "grad_norm": 11.5625,
7372
+ "learning_rate": 2.3361006457062207e-07,
7373
+ "loss": 2.9628,
7374
+ "step": 1052
7375
+ },
7376
+ {
7377
+ "epoch": 0.00468105063580937,
7378
+ "grad_norm": 8.9375,
7379
+ "learning_rate": 2.3383233865679772e-07,
7380
+ "loss": 3.1418,
7381
+ "step": 1053
7382
+ },
7383
+ {
7384
+ "epoch": 0.0046854960780086195,
7385
+ "grad_norm": 10.75,
7386
+ "learning_rate": 2.340546127429734e-07,
7387
+ "loss": 2.8077,
7388
+ "step": 1054
7389
+ },
7390
+ {
7391
+ "epoch": 0.0046899415202078685,
7392
+ "grad_norm": 9.75,
7393
+ "learning_rate": 2.3427688682914905e-07,
7394
+ "loss": 3.0485,
7395
+ "step": 1055
7396
+ },
7397
+ {
7398
+ "epoch": 0.0046943869624071185,
7399
+ "grad_norm": 10.25,
7400
+ "learning_rate": 2.3449916091532473e-07,
7401
+ "loss": 3.0086,
7402
+ "step": 1056
7403
+ },
7404
+ {
7405
+ "epoch": 0.0046988324046063675,
7406
+ "grad_norm": 9.75,
7407
+ "learning_rate": 2.3472143500150035e-07,
7408
+ "loss": 3.0199,
7409
+ "step": 1057
7410
+ },
7411
+ {
7412
+ "epoch": 0.004703277846805617,
7413
+ "grad_norm": 9.0625,
7414
+ "learning_rate": 2.3494370908767603e-07,
7415
+ "loss": 2.9958,
7416
+ "step": 1058
7417
+ },
7418
+ {
7419
+ "epoch": 0.004707723289004866,
7420
+ "grad_norm": 9.0625,
7421
+ "learning_rate": 2.3516598317385168e-07,
7422
+ "loss": 3.1202,
7423
+ "step": 1059
7424
+ },
7425
+ {
7426
+ "epoch": 0.004712168731204115,
7427
+ "grad_norm": 10.0625,
7428
+ "learning_rate": 2.3538825726002736e-07,
7429
+ "loss": 2.9328,
7430
+ "step": 1060
7431
+ },
7432
+ {
7433
+ "epoch": 0.004716614173403364,
7434
+ "grad_norm": 11.9375,
7435
+ "learning_rate": 2.35610531346203e-07,
7436
+ "loss": 2.8503,
7437
+ "step": 1061
7438
+ },
7439
+ {
7440
+ "epoch": 0.004721059615602613,
7441
+ "grad_norm": 10.6875,
7442
+ "learning_rate": 2.358328054323787e-07,
7443
+ "loss": 2.8671,
7444
+ "step": 1062
7445
+ },
7446
+ {
7447
+ "epoch": 0.004725505057801862,
7448
+ "grad_norm": 9.4375,
7449
+ "learning_rate": 2.3605507951855434e-07,
7450
+ "loss": 3.127,
7451
+ "step": 1063
7452
+ },
7453
+ {
7454
+ "epoch": 0.004729950500001111,
7455
+ "grad_norm": 8.4375,
7456
+ "learning_rate": 2.3627735360473002e-07,
7457
+ "loss": 3.1994,
7458
+ "step": 1064
7459
+ },
7460
+ {
7461
+ "epoch": 0.004734395942200361,
7462
+ "grad_norm": 11.375,
7463
+ "learning_rate": 2.3649962769090567e-07,
7464
+ "loss": 2.8112,
7465
+ "step": 1065
7466
+ },
7467
+ {
7468
+ "epoch": 0.00473884138439961,
7469
+ "grad_norm": 9.75,
7470
+ "learning_rate": 2.3672190177708135e-07,
7471
+ "loss": 3.0305,
7472
+ "step": 1066
7473
+ },
7474
+ {
7475
+ "epoch": 0.004743286826598859,
7476
+ "grad_norm": 10.375,
7477
+ "learning_rate": 2.36944175863257e-07,
7478
+ "loss": 2.8869,
7479
+ "step": 1067
7480
+ },
7481
+ {
7482
+ "epoch": 0.004747732268798108,
7483
+ "grad_norm": 11.0625,
7484
+ "learning_rate": 2.3716644994943267e-07,
7485
+ "loss": 2.9174,
7486
+ "step": 1068
7487
+ },
7488
+ {
7489
+ "epoch": 0.004752177710997357,
7490
+ "grad_norm": 9.875,
7491
+ "learning_rate": 2.3738872403560833e-07,
7492
+ "loss": 3.0506,
7493
+ "step": 1069
7494
+ },
7495
+ {
7496
+ "epoch": 0.004756623153196606,
7497
+ "grad_norm": 10.0625,
7498
+ "learning_rate": 2.37610998121784e-07,
7499
+ "loss": 2.9781,
7500
+ "step": 1070
7501
+ },
7502
+ {
7503
+ "epoch": 0.004761068595395855,
7504
+ "grad_norm": 10.6875,
7505
+ "learning_rate": 2.3783327220795965e-07,
7506
+ "loss": 2.9292,
7507
+ "step": 1071
7508
+ },
7509
+ {
7510
+ "epoch": 0.004765514037595104,
7511
+ "grad_norm": 9.75,
7512
+ "learning_rate": 2.3805554629413533e-07,
7513
+ "loss": 2.9742,
7514
+ "step": 1072
7515
+ },
7516
+ {
7517
+ "epoch": 0.004769959479794354,
7518
+ "grad_norm": 11.5625,
7519
+ "learning_rate": 2.38277820380311e-07,
7520
+ "loss": 2.9182,
7521
+ "step": 1073
7522
+ },
7523
+ {
7524
+ "epoch": 0.004774404921993603,
7525
+ "grad_norm": 9.75,
7526
+ "learning_rate": 2.385000944664866e-07,
7527
+ "loss": 2.9846,
7528
+ "step": 1074
7529
+ },
7530
+ {
7531
+ "epoch": 0.004778850364192852,
7532
+ "grad_norm": 11.3125,
7533
+ "learning_rate": 2.387223685526623e-07,
7534
+ "loss": 2.8255,
7535
+ "step": 1075
7536
+ },
7537
+ {
7538
+ "epoch": 0.0047832958063921014,
7539
+ "grad_norm": 10.75,
7540
+ "learning_rate": 2.3894464263883796e-07,
7541
+ "loss": 3.0087,
7542
+ "step": 1076
7543
+ },
7544
+ {
7545
+ "epoch": 0.0047877412485913505,
7546
+ "grad_norm": 8.75,
7547
+ "learning_rate": 2.3916691672501364e-07,
7548
+ "loss": 3.033,
7549
+ "step": 1077
7550
+ },
7551
+ {
7552
+ "epoch": 0.0047921866907905996,
7553
+ "grad_norm": 10.625,
7554
+ "learning_rate": 2.3938919081118927e-07,
7555
+ "loss": 3.021,
7556
+ "step": 1078
7557
+ },
7558
+ {
7559
+ "epoch": 0.004796632132989849,
7560
+ "grad_norm": 10.625,
7561
+ "learning_rate": 2.3961146489736495e-07,
7562
+ "loss": 3.0047,
7563
+ "step": 1079
7564
+ },
7565
+ {
7566
+ "epoch": 0.004801077575189098,
7567
+ "grad_norm": 9.9375,
7568
+ "learning_rate": 2.398337389835406e-07,
7569
+ "loss": 3.1063,
7570
+ "step": 1080
7571
+ },
7572
+ {
7573
+ "epoch": 0.004805523017388347,
7574
+ "grad_norm": 12.375,
7575
+ "learning_rate": 2.400560130697163e-07,
7576
+ "loss": 2.7354,
7577
+ "step": 1081
7578
+ },
7579
+ {
7580
+ "epoch": 0.004809968459587597,
7581
+ "grad_norm": 9.8125,
7582
+ "learning_rate": 2.402782871558919e-07,
7583
+ "loss": 3.0045,
7584
+ "step": 1082
7585
+ },
7586
+ {
7587
+ "epoch": 0.004814413901786846,
7588
+ "grad_norm": 9.125,
7589
+ "learning_rate": 2.405005612420676e-07,
7590
+ "loss": 3.1526,
7591
+ "step": 1083
7592
+ },
7593
+ {
7594
+ "epoch": 0.004818859343986095,
7595
+ "grad_norm": 9.5,
7596
+ "learning_rate": 2.407228353282433e-07,
7597
+ "loss": 3.0959,
7598
+ "step": 1084
7599
+ },
7600
+ {
7601
+ "epoch": 0.004823304786185344,
7602
+ "grad_norm": 11.0,
7603
+ "learning_rate": 2.4094510941441896e-07,
7604
+ "loss": 2.8924,
7605
+ "step": 1085
7606
+ },
7607
+ {
7608
+ "epoch": 0.004827750228384593,
7609
+ "grad_norm": 9.5,
7610
+ "learning_rate": 2.4116738350059464e-07,
7611
+ "loss": 3.0039,
7612
+ "step": 1086
7613
+ },
7614
+ {
7615
+ "epoch": 0.004832195670583842,
7616
+ "grad_norm": 11.375,
7617
+ "learning_rate": 2.4138965758677026e-07,
7618
+ "loss": 2.7872,
7619
+ "step": 1087
7620
+ },
7621
+ {
7622
+ "epoch": 0.004836641112783091,
7623
+ "grad_norm": 9.25,
7624
+ "learning_rate": 2.4161193167294594e-07,
7625
+ "loss": 3.0193,
7626
+ "step": 1088
7627
+ },
7628
+ {
7629
+ "epoch": 0.00484108655498234,
7630
+ "grad_norm": 10.8125,
7631
+ "learning_rate": 2.418342057591216e-07,
7632
+ "loss": 2.8507,
7633
+ "step": 1089
7634
+ },
7635
+ {
7636
+ "epoch": 0.00484553199718159,
7637
+ "grad_norm": 9.4375,
7638
+ "learning_rate": 2.4205647984529724e-07,
7639
+ "loss": 2.9794,
7640
+ "step": 1090
7641
+ },
7642
+ {
7643
+ "epoch": 0.004849977439380839,
7644
+ "grad_norm": 7.46875,
7645
+ "learning_rate": 2.422787539314729e-07,
7646
+ "loss": 3.2601,
7647
+ "step": 1091
7648
+ },
7649
+ {
7650
+ "epoch": 0.004854422881580088,
7651
+ "grad_norm": 10.75,
7652
+ "learning_rate": 2.4250102801764854e-07,
7653
+ "loss": 2.9433,
7654
+ "step": 1092
7655
+ },
7656
+ {
7657
+ "epoch": 0.004858868323779337,
7658
+ "grad_norm": 9.625,
7659
+ "learning_rate": 2.427233021038242e-07,
7660
+ "loss": 3.0437,
7661
+ "step": 1093
7662
+ },
7663
+ {
7664
+ "epoch": 0.004863313765978586,
7665
+ "grad_norm": 10.9375,
7666
+ "learning_rate": 2.429455761899999e-07,
7667
+ "loss": 2.9793,
7668
+ "step": 1094
7669
+ },
7670
+ {
7671
+ "epoch": 0.004867759208177835,
7672
+ "grad_norm": 9.875,
7673
+ "learning_rate": 2.431678502761756e-07,
7674
+ "loss": 2.9553,
7675
+ "step": 1095
7676
+ },
7677
+ {
7678
+ "epoch": 0.004872204650377084,
7679
+ "grad_norm": 9.4375,
7680
+ "learning_rate": 2.4339012436235126e-07,
7681
+ "loss": 3.2021,
7682
+ "step": 1096
7683
+ },
7684
+ {
7685
+ "epoch": 0.0048766500925763335,
7686
+ "grad_norm": 9.6875,
7687
+ "learning_rate": 2.436123984485269e-07,
7688
+ "loss": 3.0393,
7689
+ "step": 1097
7690
+ },
7691
+ {
7692
+ "epoch": 0.0048810955347755825,
7693
+ "grad_norm": 10.0,
7694
+ "learning_rate": 2.4383467253470256e-07,
7695
+ "loss": 3.0392,
7696
+ "step": 1098
7697
+ },
7698
+ {
7699
+ "epoch": 0.0048855409769748325,
7700
+ "grad_norm": 10.25,
7701
+ "learning_rate": 2.4405694662087824e-07,
7702
+ "loss": 3.0669,
7703
+ "step": 1099
7704
+ },
7705
+ {
7706
+ "epoch": 0.0048899864191740815,
7707
+ "grad_norm": 9.0,
7708
+ "learning_rate": 2.442792207070539e-07,
7709
+ "loss": 3.1861,
7710
+ "step": 1100
7711
+ },
7712
+ {
7713
+ "epoch": 0.004894431861373331,
7714
+ "grad_norm": 12.75,
7715
+ "learning_rate": 2.4450149479322954e-07,
7716
+ "loss": 2.8885,
7717
+ "step": 1101
7718
+ },
7719
+ {
7720
+ "epoch": 0.00489887730357258,
7721
+ "grad_norm": 10.0625,
7722
+ "learning_rate": 2.447237688794052e-07,
7723
+ "loss": 3.0389,
7724
+ "step": 1102
7725
+ },
7726
+ {
7727
+ "epoch": 0.004903322745771829,
7728
+ "grad_norm": 8.5,
7729
+ "learning_rate": 2.449460429655809e-07,
7730
+ "loss": 3.0667,
7731
+ "step": 1103
7732
+ },
7733
+ {
7734
+ "epoch": 0.004907768187971078,
7735
+ "grad_norm": 8.875,
7736
+ "learning_rate": 2.4516831705175657e-07,
7737
+ "loss": 3.2318,
7738
+ "step": 1104
7739
+ },
7740
+ {
7741
+ "epoch": 0.004912213630170327,
7742
+ "grad_norm": 8.4375,
7743
+ "learning_rate": 2.453905911379322e-07,
7744
+ "loss": 3.1945,
7745
+ "step": 1105
7746
+ },
7747
+ {
7748
+ "epoch": 0.004916659072369576,
7749
+ "grad_norm": 8.875,
7750
+ "learning_rate": 2.456128652241079e-07,
7751
+ "loss": 3.0713,
7752
+ "step": 1106
7753
+ },
7754
+ {
7755
+ "epoch": 0.004921104514568826,
7756
+ "grad_norm": 8.3125,
7757
+ "learning_rate": 2.458351393102835e-07,
7758
+ "loss": 3.2106,
7759
+ "step": 1107
7760
+ },
7761
+ {
7762
+ "epoch": 0.004925549956768075,
7763
+ "grad_norm": 9.4375,
7764
+ "learning_rate": 2.460574133964592e-07,
7765
+ "loss": 3.0079,
7766
+ "step": 1108
7767
+ },
7768
+ {
7769
+ "epoch": 0.004929995398967324,
7770
+ "grad_norm": 11.1875,
7771
+ "learning_rate": 2.4627968748263486e-07,
7772
+ "loss": 2.8788,
7773
+ "step": 1109
7774
+ },
7775
+ {
7776
+ "epoch": 0.004934440841166573,
7777
+ "grad_norm": 10.1875,
7778
+ "learning_rate": 2.4650196156881053e-07,
7779
+ "loss": 2.9214,
7780
+ "step": 1110
7781
+ },
7782
+ {
7783
+ "epoch": 0.004938886283365822,
7784
+ "grad_norm": 9.5,
7785
+ "learning_rate": 2.4672423565498616e-07,
7786
+ "loss": 3.0695,
7787
+ "step": 1111
7788
+ },
7789
+ {
7790
+ "epoch": 0.004943331725565071,
7791
+ "grad_norm": 8.8125,
7792
+ "learning_rate": 2.4694650974116184e-07,
7793
+ "loss": 3.0699,
7794
+ "step": 1112
7795
+ },
7796
+ {
7797
+ "epoch": 0.00494777716776432,
7798
+ "grad_norm": 10.625,
7799
+ "learning_rate": 2.471687838273375e-07,
7800
+ "loss": 2.8647,
7801
+ "step": 1113
7802
+ },
7803
+ {
7804
+ "epoch": 0.004952222609963569,
7805
+ "grad_norm": 9.25,
7806
+ "learning_rate": 2.473910579135132e-07,
7807
+ "loss": 3.187,
7808
+ "step": 1114
7809
+ },
7810
+ {
7811
+ "epoch": 0.004956668052162818,
7812
+ "grad_norm": 7.65625,
7813
+ "learning_rate": 2.476133319996888e-07,
7814
+ "loss": 3.2968,
7815
+ "step": 1115
7816
+ },
7817
+ {
7818
+ "epoch": 0.004961113494362068,
7819
+ "grad_norm": 8.0625,
7820
+ "learning_rate": 2.478356060858645e-07,
7821
+ "loss": 3.2926,
7822
+ "step": 1116
7823
+ },
7824
+ {
7825
+ "epoch": 0.004965558936561317,
7826
+ "grad_norm": 9.4375,
7827
+ "learning_rate": 2.4805788017204017e-07,
7828
+ "loss": 3.079,
7829
+ "step": 1117
7830
+ },
7831
+ {
7832
+ "epoch": 0.004970004378760566,
7833
+ "grad_norm": 8.875,
7834
+ "learning_rate": 2.4828015425821585e-07,
7835
+ "loss": 3.1489,
7836
+ "step": 1118
7837
+ },
7838
+ {
7839
+ "epoch": 0.0049744498209598155,
7840
+ "grad_norm": 11.3125,
7841
+ "learning_rate": 2.485024283443915e-07,
7842
+ "loss": 2.8599,
7843
+ "step": 1119
7844
+ },
7845
+ {
7846
+ "epoch": 0.0049788952631590645,
7847
+ "grad_norm": 8.8125,
7848
+ "learning_rate": 2.4872470243056715e-07,
7849
+ "loss": 3.1747,
7850
+ "step": 1120
7851
+ },
7852
+ {
7853
+ "epoch": 0.004983340705358314,
7854
+ "grad_norm": 9.5,
7855
+ "learning_rate": 2.4894697651674283e-07,
7856
+ "loss": 3.0296,
7857
+ "step": 1121
7858
+ },
7859
+ {
7860
+ "epoch": 0.004987786147557563,
7861
+ "grad_norm": 9.5,
7862
+ "learning_rate": 2.491692506029185e-07,
7863
+ "loss": 3.054,
7864
+ "step": 1122
7865
+ },
7866
+ {
7867
+ "epoch": 0.004992231589756812,
7868
+ "grad_norm": 9.6875,
7869
+ "learning_rate": 2.493915246890942e-07,
7870
+ "loss": 3.0177,
7871
+ "step": 1123
7872
+ },
7873
+ {
7874
+ "epoch": 0.004996677031956062,
7875
+ "grad_norm": 9.375,
7876
+ "learning_rate": 2.496137987752698e-07,
7877
+ "loss": 3.0309,
7878
+ "step": 1124
7879
+ },
7880
+ {
7881
+ "epoch": 0.005001122474155311,
7882
+ "grad_norm": 9.0625,
7883
+ "learning_rate": 2.4983607286144544e-07,
7884
+ "loss": 3.1507,
7885
+ "step": 1125
7886
+ },
7887
+ {
7888
+ "epoch": 0.00500556791635456,
7889
+ "grad_norm": 7.09375,
7890
+ "learning_rate": 2.500583469476211e-07,
7891
+ "loss": 3.2147,
7892
+ "step": 1126
7893
+ },
7894
+ {
7895
+ "epoch": 0.005010013358553809,
7896
+ "grad_norm": 8.5,
7897
+ "learning_rate": 2.502806210337968e-07,
7898
+ "loss": 3.2409,
7899
+ "step": 1127
7900
+ },
7901
+ {
7902
+ "epoch": 0.005014458800753058,
7903
+ "grad_norm": 11.5625,
7904
+ "learning_rate": 2.5050289511997247e-07,
7905
+ "loss": 2.8354,
7906
+ "step": 1128
7907
+ },
7908
+ {
7909
+ "epoch": 0.005018904242952307,
7910
+ "grad_norm": 8.3125,
7911
+ "learning_rate": 2.507251692061481e-07,
7912
+ "loss": 3.1717,
7913
+ "step": 1129
7914
+ },
7915
+ {
7916
+ "epoch": 0.005023349685151556,
7917
+ "grad_norm": 8.6875,
7918
+ "learning_rate": 2.5094744329232377e-07,
7919
+ "loss": 3.2802,
7920
+ "step": 1130
7921
+ },
7922
+ {
7923
+ "epoch": 0.005027795127350805,
7924
+ "grad_norm": 7.875,
7925
+ "learning_rate": 2.5116971737849945e-07,
7926
+ "loss": 3.3287,
7927
+ "step": 1131
7928
+ },
7929
+ {
7930
+ "epoch": 0.005032240569550054,
7931
+ "grad_norm": 6.25,
7932
+ "learning_rate": 2.5139199146467513e-07,
7933
+ "loss": 3.3918,
7934
+ "step": 1132
7935
+ },
7936
+ {
7937
+ "epoch": 0.005036686011749304,
7938
+ "grad_norm": 10.3125,
7939
+ "learning_rate": 2.5161426555085075e-07,
7940
+ "loss": 3.2482,
7941
+ "step": 1133
7942
+ },
7943
+ {
7944
+ "epoch": 0.005041131453948553,
7945
+ "grad_norm": 7.1875,
7946
+ "learning_rate": 2.5183653963702643e-07,
7947
+ "loss": 3.2685,
7948
+ "step": 1134
7949
+ },
7950
+ {
7951
+ "epoch": 0.005045576896147802,
7952
+ "grad_norm": 10.5,
7953
+ "learning_rate": 2.520588137232021e-07,
7954
+ "loss": 2.9439,
7955
+ "step": 1135
7956
+ },
7957
+ {
7958
+ "epoch": 0.005050022338347051,
7959
+ "grad_norm": 11.5,
7960
+ "learning_rate": 2.522810878093778e-07,
7961
+ "loss": 2.8252,
7962
+ "step": 1136
7963
+ },
7964
+ {
7965
+ "epoch": 0.0050544677805463,
7966
+ "grad_norm": 7.6875,
7967
+ "learning_rate": 2.5250336189555346e-07,
7968
+ "loss": 3.297,
7969
+ "step": 1137
7970
+ },
7971
+ {
7972
+ "epoch": 0.005058913222745549,
7973
+ "grad_norm": 10.375,
7974
+ "learning_rate": 2.527256359817291e-07,
7975
+ "loss": 2.9264,
7976
+ "step": 1138
7977
+ },
7978
+ {
7979
+ "epoch": 0.0050633586649447984,
7980
+ "grad_norm": 6.59375,
7981
+ "learning_rate": 2.5294791006790477e-07,
7982
+ "loss": 3.3846,
7983
+ "step": 1139
7984
+ },
7985
+ {
7986
+ "epoch": 0.0050678041071440475,
7987
+ "grad_norm": 9.875,
7988
+ "learning_rate": 2.531701841540804e-07,
7989
+ "loss": 3.038,
7990
+ "step": 1140
7991
+ },
7992
+ {
7993
+ "epoch": 0.0050722495493432974,
7994
+ "grad_norm": 10.6875,
7995
+ "learning_rate": 2.5339245824025607e-07,
7996
+ "loss": 2.8303,
7997
+ "step": 1141
7998
+ },
7999
+ {
8000
+ "epoch": 0.0050766949915425465,
8001
+ "grad_norm": 9.9375,
8002
+ "learning_rate": 2.5361473232643175e-07,
8003
+ "loss": 2.967,
8004
+ "step": 1142
8005
+ },
8006
+ {
8007
+ "epoch": 0.005081140433741796,
8008
+ "grad_norm": 9.8125,
8009
+ "learning_rate": 2.5383700641260737e-07,
8010
+ "loss": 3.1252,
8011
+ "step": 1143
8012
+ },
8013
+ {
8014
+ "epoch": 0.005085585875941045,
8015
+ "grad_norm": 9.5,
8016
+ "learning_rate": 2.5405928049878305e-07,
8017
+ "loss": 3.0528,
8018
+ "step": 1144
8019
+ },
8020
+ {
8021
+ "epoch": 0.005090031318140294,
8022
+ "grad_norm": 9.9375,
8023
+ "learning_rate": 2.5428155458495873e-07,
8024
+ "loss": 3.0946,
8025
+ "step": 1145
8026
+ },
8027
+ {
8028
+ "epoch": 0.005094476760339543,
8029
+ "grad_norm": 10.25,
8030
+ "learning_rate": 2.545038286711344e-07,
8031
+ "loss": 2.976,
8032
+ "step": 1146
8033
+ },
8034
+ {
8035
+ "epoch": 0.005098922202538792,
8036
+ "grad_norm": 11.25,
8037
+ "learning_rate": 2.547261027573101e-07,
8038
+ "loss": 2.8889,
8039
+ "step": 1147
8040
+ },
8041
+ {
8042
+ "epoch": 0.005103367644738041,
8043
+ "grad_norm": 10.125,
8044
+ "learning_rate": 2.549483768434857e-07,
8045
+ "loss": 3.0064,
8046
+ "step": 1148
8047
+ },
8048
+ {
8049
+ "epoch": 0.00510781308693729,
8050
+ "grad_norm": 11.9375,
8051
+ "learning_rate": 2.551706509296614e-07,
8052
+ "loss": 2.7114,
8053
+ "step": 1149
8054
+ },
8055
+ {
8056
+ "epoch": 0.00511225852913654,
8057
+ "grad_norm": 8.875,
8058
+ "learning_rate": 2.5539292501583706e-07,
8059
+ "loss": 3.1548,
8060
+ "step": 1150
8061
+ },
8062
+ {
8063
+ "epoch": 0.005116703971335789,
8064
+ "grad_norm": 7.90625,
8065
+ "learning_rate": 2.5561519910201274e-07,
8066
+ "loss": 3.3142,
8067
+ "step": 1151
8068
+ },
8069
+ {
8070
+ "epoch": 0.005121149413535038,
8071
+ "grad_norm": 10.25,
8072
+ "learning_rate": 2.5583747318818837e-07,
8073
+ "loss": 2.9388,
8074
+ "step": 1152
8075
+ },
8076
+ {
8077
+ "epoch": 0.005125594855734287,
8078
+ "grad_norm": 10.3125,
8079
+ "learning_rate": 2.5605974727436404e-07,
8080
+ "loss": 2.9134,
8081
+ "step": 1153
8082
+ },
8083
+ {
8084
+ "epoch": 0.005130040297933536,
8085
+ "grad_norm": 8.625,
8086
+ "learning_rate": 2.562820213605397e-07,
8087
+ "loss": 3.1508,
8088
+ "step": 1154
8089
+ },
8090
+ {
8091
+ "epoch": 0.005134485740132785,
8092
+ "grad_norm": 9.8125,
8093
+ "learning_rate": 2.565042954467154e-07,
8094
+ "loss": 3.1071,
8095
+ "step": 1155
8096
+ },
8097
+ {
8098
+ "epoch": 0.005138931182332034,
8099
+ "grad_norm": 10.4375,
8100
+ "learning_rate": 2.56726569532891e-07,
8101
+ "loss": 2.9386,
8102
+ "step": 1156
8103
+ },
8104
+ {
8105
+ "epoch": 0.005143376624531283,
8106
+ "grad_norm": 8.5625,
8107
+ "learning_rate": 2.569488436190667e-07,
8108
+ "loss": 3.2167,
8109
+ "step": 1157
8110
+ },
8111
+ {
8112
+ "epoch": 0.005147822066730533,
8113
+ "grad_norm": 8.75,
8114
+ "learning_rate": 2.5717111770524233e-07,
8115
+ "loss": 3.0796,
8116
+ "step": 1158
8117
+ },
8118
+ {
8119
+ "epoch": 0.005152267508929782,
8120
+ "grad_norm": 9.5,
8121
+ "learning_rate": 2.57393391791418e-07,
8122
+ "loss": 3.084,
8123
+ "step": 1159
8124
+ },
8125
+ {
8126
+ "epoch": 0.005156712951129031,
8127
+ "grad_norm": 13.3125,
8128
+ "learning_rate": 2.576156658775937e-07,
8129
+ "loss": 2.6222,
8130
+ "step": 1160
8131
+ },
8132
+ {
8133
+ "epoch": 0.00516115839332828,
8134
+ "grad_norm": 8.25,
8135
+ "learning_rate": 2.5783793996376936e-07,
8136
+ "loss": 3.2654,
8137
+ "step": 1161
8138
+ },
8139
+ {
8140
+ "epoch": 0.0051656038355275295,
8141
+ "grad_norm": 12.0625,
8142
+ "learning_rate": 2.58060214049945e-07,
8143
+ "loss": 2.8711,
8144
+ "step": 1162
8145
+ },
8146
+ {
8147
+ "epoch": 0.0051700492777267786,
8148
+ "grad_norm": 12.0,
8149
+ "learning_rate": 2.5828248813612066e-07,
8150
+ "loss": 2.8799,
8151
+ "step": 1163
8152
+ },
8153
+ {
8154
+ "epoch": 0.005174494719926028,
8155
+ "grad_norm": 12.0,
8156
+ "learning_rate": 2.5850476222229634e-07,
8157
+ "loss": 2.8347,
8158
+ "step": 1164
8159
+ },
8160
+ {
8161
+ "epoch": 0.005178940162125277,
8162
+ "grad_norm": 11.125,
8163
+ "learning_rate": 2.58727036308472e-07,
8164
+ "loss": 2.9166,
8165
+ "step": 1165
8166
+ },
8167
+ {
8168
+ "epoch": 0.005183385604324526,
8169
+ "grad_norm": 9.125,
8170
+ "learning_rate": 2.5894931039464764e-07,
8171
+ "loss": 3.1374,
8172
+ "step": 1166
8173
+ },
8174
+ {
8175
+ "epoch": 0.005187831046523776,
8176
+ "grad_norm": 8.3125,
8177
+ "learning_rate": 2.591715844808233e-07,
8178
+ "loss": 3.1146,
8179
+ "step": 1167
8180
+ },
8181
+ {
8182
+ "epoch": 0.005192276488723025,
8183
+ "grad_norm": 11.0625,
8184
+ "learning_rate": 2.59393858566999e-07,
8185
+ "loss": 2.7386,
8186
+ "step": 1168
8187
+ },
8188
+ {
8189
+ "epoch": 0.005196721930922274,
8190
+ "grad_norm": 9.8125,
8191
+ "learning_rate": 2.596161326531747e-07,
8192
+ "loss": 3.0491,
8193
+ "step": 1169
8194
+ },
8195
+ {
8196
+ "epoch": 0.005201167373121523,
8197
+ "grad_norm": 10.4375,
8198
+ "learning_rate": 2.598384067393503e-07,
8199
+ "loss": 2.9397,
8200
+ "step": 1170
8201
+ },
8202
+ {
8203
+ "epoch": 0.005205612815320772,
8204
+ "grad_norm": 9.75,
8205
+ "learning_rate": 2.60060680825526e-07,
8206
+ "loss": 3.101,
8207
+ "step": 1171
8208
+ },
8209
+ {
8210
+ "epoch": 0.005210058257520021,
8211
+ "grad_norm": 9.0625,
8212
+ "learning_rate": 2.6028295491170166e-07,
8213
+ "loss": 3.0531,
8214
+ "step": 1172
8215
+ },
8216
+ {
8217
+ "epoch": 0.00521450369971927,
8218
+ "grad_norm": 9.5625,
8219
+ "learning_rate": 2.605052289978773e-07,
8220
+ "loss": 2.9893,
8221
+ "step": 1173
8222
+ },
8223
+ {
8224
+ "epoch": 0.005218949141918519,
8225
+ "grad_norm": 10.0625,
8226
+ "learning_rate": 2.6072750308405296e-07,
8227
+ "loss": 2.9335,
8228
+ "step": 1174
8229
+ },
8230
+ {
8231
+ "epoch": 0.005223394584117769,
8232
+ "grad_norm": 10.125,
8233
+ "learning_rate": 2.6094977717022864e-07,
8234
+ "loss": 3.0214,
8235
+ "step": 1175
8236
+ },
8237
+ {
8238
+ "epoch": 0.005227840026317018,
8239
+ "grad_norm": 9.4375,
8240
+ "learning_rate": 2.6117205125640426e-07,
8241
+ "loss": 3.0275,
8242
+ "step": 1176
8243
+ },
8244
+ {
8245
+ "epoch": 0.005232285468516267,
8246
+ "grad_norm": 9.3125,
8247
+ "learning_rate": 2.6139432534257994e-07,
8248
+ "loss": 3.0003,
8249
+ "step": 1177
8250
+ },
8251
+ {
8252
+ "epoch": 0.005236730910715516,
8253
+ "grad_norm": 9.75,
8254
+ "learning_rate": 2.616165994287556e-07,
8255
+ "loss": 2.9723,
8256
+ "step": 1178
8257
+ },
8258
+ {
8259
+ "epoch": 0.005241176352914765,
8260
+ "grad_norm": 9.4375,
8261
+ "learning_rate": 2.618388735149313e-07,
8262
+ "loss": 3.0696,
8263
+ "step": 1179
8264
+ },
8265
+ {
8266
+ "epoch": 0.005245621795114014,
8267
+ "grad_norm": 8.5625,
8268
+ "learning_rate": 2.620611476011069e-07,
8269
+ "loss": 3.104,
8270
+ "step": 1180
8271
+ },
8272
+ {
8273
+ "epoch": 0.005250067237313263,
8274
+ "grad_norm": 12.1875,
8275
+ "learning_rate": 2.622834216872826e-07,
8276
+ "loss": 2.8341,
8277
+ "step": 1181
8278
+ },
8279
+ {
8280
+ "epoch": 0.0052545126795125125,
8281
+ "grad_norm": 11.1875,
8282
+ "learning_rate": 2.625056957734583e-07,
8283
+ "loss": 2.935,
8284
+ "step": 1182
8285
+ },
8286
+ {
8287
+ "epoch": 0.005258958121711762,
8288
+ "grad_norm": 9.5,
8289
+ "learning_rate": 2.6272796985963395e-07,
8290
+ "loss": 2.9294,
8291
+ "step": 1183
8292
+ },
8293
+ {
8294
+ "epoch": 0.0052634035639110115,
8295
+ "grad_norm": 9.5625,
8296
+ "learning_rate": 2.629502439458096e-07,
8297
+ "loss": 3.052,
8298
+ "step": 1184
8299
+ },
8300
+ {
8301
+ "epoch": 0.0052678490061102605,
8302
+ "grad_norm": 10.375,
8303
+ "learning_rate": 2.6317251803198526e-07,
8304
+ "loss": 3.006,
8305
+ "step": 1185
8306
+ },
8307
+ {
8308
+ "epoch": 0.00527229444830951,
8309
+ "grad_norm": 9.8125,
8310
+ "learning_rate": 2.6339479211816093e-07,
8311
+ "loss": 3.0649,
8312
+ "step": 1186
8313
+ },
8314
+ {
8315
+ "epoch": 0.005276739890508759,
8316
+ "grad_norm": 7.0,
8317
+ "learning_rate": 2.636170662043366e-07,
8318
+ "loss": 3.393,
8319
+ "step": 1187
8320
+ },
8321
+ {
8322
+ "epoch": 0.005281185332708008,
8323
+ "grad_norm": 10.6875,
8324
+ "learning_rate": 2.638393402905123e-07,
8325
+ "loss": 3.0712,
8326
+ "step": 1188
8327
+ },
8328
+ {
8329
+ "epoch": 0.005285630774907257,
8330
+ "grad_norm": 6.8125,
8331
+ "learning_rate": 2.640616143766879e-07,
8332
+ "loss": 3.2026,
8333
+ "step": 1189
8334
+ },
8335
+ {
8336
+ "epoch": 0.005290076217106506,
8337
+ "grad_norm": 10.25,
8338
+ "learning_rate": 2.6428388846286354e-07,
8339
+ "loss": 3.0145,
8340
+ "step": 1190
8341
+ },
8342
+ {
8343
+ "epoch": 0.005294521659305755,
8344
+ "grad_norm": 8.8125,
8345
+ "learning_rate": 2.645061625490392e-07,
8346
+ "loss": 2.9562,
8347
+ "step": 1191
8348
+ },
8349
+ {
8350
+ "epoch": 0.005298967101505005,
8351
+ "grad_norm": 9.25,
8352
+ "learning_rate": 2.647284366352149e-07,
8353
+ "loss": 3.1811,
8354
+ "step": 1192
8355
+ },
8356
+ {
8357
+ "epoch": 0.005303412543704254,
8358
+ "grad_norm": 7.84375,
8359
+ "learning_rate": 2.6495071072139057e-07,
8360
+ "loss": 3.1817,
8361
+ "step": 1193
8362
+ },
8363
+ {
8364
+ "epoch": 0.005307857985903503,
8365
+ "grad_norm": 13.125,
8366
+ "learning_rate": 2.651729848075662e-07,
8367
+ "loss": 2.6848,
8368
+ "step": 1194
8369
+ },
8370
+ {
8371
+ "epoch": 0.005312303428102752,
8372
+ "grad_norm": 8.8125,
8373
+ "learning_rate": 2.653952588937419e-07,
8374
+ "loss": 3.0787,
8375
+ "step": 1195
8376
+ },
8377
+ {
8378
+ "epoch": 0.005316748870302001,
8379
+ "grad_norm": 10.5,
8380
+ "learning_rate": 2.6561753297991755e-07,
8381
+ "loss": 2.9864,
8382
+ "step": 1196
8383
+ },
8384
+ {
8385
+ "epoch": 0.00532119431250125,
8386
+ "grad_norm": 8.5625,
8387
+ "learning_rate": 2.6583980706609323e-07,
8388
+ "loss": 3.0954,
8389
+ "step": 1197
8390
+ },
8391
+ {
8392
+ "epoch": 0.005325639754700499,
8393
+ "grad_norm": 10.8125,
8394
+ "learning_rate": 2.660620811522689e-07,
8395
+ "loss": 2.9631,
8396
+ "step": 1198
8397
+ },
8398
+ {
8399
+ "epoch": 0.005330085196899748,
8400
+ "grad_norm": 10.5,
8401
+ "learning_rate": 2.6628435523844453e-07,
8402
+ "loss": 2.9371,
8403
+ "step": 1199
8404
+ },
8405
+ {
8406
+ "epoch": 0.005334530639098998,
8407
+ "grad_norm": 10.6875,
8408
+ "learning_rate": 2.665066293246202e-07,
8409
+ "loss": 3.0277,
8410
+ "step": 1200
8411
+ },
8412
+ {
8413
+ "epoch": 0.005338976081298247,
8414
+ "grad_norm": 12.25,
8415
+ "learning_rate": 2.667289034107959e-07,
8416
+ "loss": 2.7114,
8417
+ "step": 1201
8418
+ },
8419
+ {
8420
+ "epoch": 0.005343421523497496,
8421
+ "grad_norm": 8.5,
8422
+ "learning_rate": 2.6695117749697157e-07,
8423
+ "loss": 3.0918,
8424
+ "step": 1202
8425
+ },
8426
+ {
8427
+ "epoch": 0.005347866965696745,
8428
+ "grad_norm": 8.9375,
8429
+ "learning_rate": 2.671734515831472e-07,
8430
+ "loss": 3.2499,
8431
+ "step": 1203
8432
+ },
8433
+ {
8434
+ "epoch": 0.0053523124078959945,
8435
+ "grad_norm": 9.5625,
8436
+ "learning_rate": 2.6739572566932287e-07,
8437
+ "loss": 3.0669,
8438
+ "step": 1204
8439
+ },
8440
+ {
8441
+ "epoch": 0.0053567578500952435,
8442
+ "grad_norm": 10.1875,
8443
+ "learning_rate": 2.6761799975549855e-07,
8444
+ "loss": 3.0489,
8445
+ "step": 1205
8446
+ },
8447
+ {
8448
+ "epoch": 0.005361203292294493,
8449
+ "grad_norm": 10.1875,
8450
+ "learning_rate": 2.678402738416742e-07,
8451
+ "loss": 2.9393,
8452
+ "step": 1206
8453
+ },
8454
+ {
8455
+ "epoch": 0.005365648734493742,
8456
+ "grad_norm": 9.375,
8457
+ "learning_rate": 2.6806254792784985e-07,
8458
+ "loss": 3.0972,
8459
+ "step": 1207
8460
+ },
8461
+ {
8462
+ "epoch": 0.005370094176692991,
8463
+ "grad_norm": 10.5,
8464
+ "learning_rate": 2.6828482201402553e-07,
8465
+ "loss": 2.9102,
8466
+ "step": 1208
8467
+ },
8468
+ {
8469
+ "epoch": 0.005374539618892241,
8470
+ "grad_norm": 10.6875,
8471
+ "learning_rate": 2.6850709610020115e-07,
8472
+ "loss": 3.0099,
8473
+ "step": 1209
8474
+ },
8475
+ {
8476
+ "epoch": 0.00537898506109149,
8477
+ "grad_norm": 10.5,
8478
+ "learning_rate": 2.6872937018637683e-07,
8479
+ "loss": 2.9322,
8480
+ "step": 1210
8481
+ },
8482
+ {
8483
+ "epoch": 0.005383430503290739,
8484
+ "grad_norm": 10.375,
8485
+ "learning_rate": 2.689516442725525e-07,
8486
+ "loss": 2.9966,
8487
+ "step": 1211
8488
+ },
8489
+ {
8490
+ "epoch": 0.005387875945489988,
8491
+ "grad_norm": 10.6875,
8492
+ "learning_rate": 2.691739183587282e-07,
8493
+ "loss": 2.9666,
8494
+ "step": 1212
8495
+ },
8496
+ {
8497
+ "epoch": 0.005392321387689237,
8498
+ "grad_norm": 11.5,
8499
+ "learning_rate": 2.693961924449038e-07,
8500
+ "loss": 2.8478,
8501
+ "step": 1213
8502
+ },
8503
+ {
8504
+ "epoch": 0.005396766829888486,
8505
+ "grad_norm": 10.375,
8506
+ "learning_rate": 2.696184665310795e-07,
8507
+ "loss": 2.9671,
8508
+ "step": 1214
8509
+ },
8510
+ {
8511
+ "epoch": 0.005401212272087735,
8512
+ "grad_norm": 9.9375,
8513
+ "learning_rate": 2.6984074061725517e-07,
8514
+ "loss": 2.9147,
8515
+ "step": 1215
8516
+ },
8517
+ {
8518
+ "epoch": 0.005405657714286984,
8519
+ "grad_norm": 9.875,
8520
+ "learning_rate": 2.7006301470343084e-07,
8521
+ "loss": 3.0142,
8522
+ "step": 1216
8523
+ },
8524
+ {
8525
+ "epoch": 0.005410103156486234,
8526
+ "grad_norm": 9.875,
8527
+ "learning_rate": 2.7028528878960647e-07,
8528
+ "loss": 3.0616,
8529
+ "step": 1217
8530
+ },
8531
+ {
8532
+ "epoch": 0.005414548598685483,
8533
+ "grad_norm": 8.0,
8534
+ "learning_rate": 2.7050756287578215e-07,
8535
+ "loss": 3.2485,
8536
+ "step": 1218
8537
+ },
8538
+ {
8539
+ "epoch": 0.005418994040884732,
8540
+ "grad_norm": 5.375,
8541
+ "learning_rate": 2.707298369619578e-07,
8542
+ "loss": 3.5312,
8543
+ "step": 1219
8544
+ },
8545
+ {
8546
+ "epoch": 0.005423439483083981,
8547
+ "grad_norm": 9.375,
8548
+ "learning_rate": 2.709521110481335e-07,
8549
+ "loss": 3.0494,
8550
+ "step": 1220
8551
+ },
8552
+ {
8553
+ "epoch": 0.00542788492528323,
8554
+ "grad_norm": 9.375,
8555
+ "learning_rate": 2.7117438513430913e-07,
8556
+ "loss": 3.1738,
8557
+ "step": 1221
8558
+ },
8559
+ {
8560
+ "epoch": 0.005432330367482479,
8561
+ "grad_norm": 11.75,
8562
+ "learning_rate": 2.713966592204848e-07,
8563
+ "loss": 2.8339,
8564
+ "step": 1222
8565
+ },
8566
+ {
8567
+ "epoch": 0.005436775809681728,
8568
+ "grad_norm": 10.75,
8569
+ "learning_rate": 2.7161893330666043e-07,
8570
+ "loss": 2.9493,
8571
+ "step": 1223
8572
+ },
8573
+ {
8574
+ "epoch": 0.0054412212518809774,
8575
+ "grad_norm": 8.5,
8576
+ "learning_rate": 2.718412073928361e-07,
8577
+ "loss": 3.2086,
8578
+ "step": 1224
8579
+ },
8580
+ {
8581
+ "epoch": 0.0054456666940802265,
8582
+ "grad_norm": 10.6875,
8583
+ "learning_rate": 2.720634814790118e-07,
8584
+ "loss": 2.8396,
8585
+ "step": 1225
8586
+ },
8587
+ {
8588
+ "epoch": 0.005450112136279476,
8589
+ "grad_norm": 11.375,
8590
+ "learning_rate": 2.7228575556518746e-07,
8591
+ "loss": 2.7995,
8592
+ "step": 1226
8593
+ },
8594
+ {
8595
+ "epoch": 0.0054545575784787255,
8596
+ "grad_norm": 10.125,
8597
+ "learning_rate": 2.725080296513631e-07,
8598
+ "loss": 2.9795,
8599
+ "step": 1227
8600
+ },
8601
+ {
8602
+ "epoch": 0.0054590030206779746,
8603
+ "grad_norm": 9.125,
8604
+ "learning_rate": 2.7273030373753877e-07,
8605
+ "loss": 3.1222,
8606
+ "step": 1228
8607
+ },
8608
+ {
8609
+ "epoch": 0.005463448462877224,
8610
+ "grad_norm": 9.8125,
8611
+ "learning_rate": 2.7295257782371444e-07,
8612
+ "loss": 3.0153,
8613
+ "step": 1229
8614
+ },
8615
+ {
8616
+ "epoch": 0.005467893905076473,
8617
+ "grad_norm": 9.75,
8618
+ "learning_rate": 2.731748519098901e-07,
8619
+ "loss": 3.1154,
8620
+ "step": 1230
8621
+ },
8622
+ {
8623
+ "epoch": 0.005472339347275722,
8624
+ "grad_norm": 10.0625,
8625
+ "learning_rate": 2.7339712599606575e-07,
8626
+ "loss": 2.9918,
8627
+ "step": 1231
8628
+ },
8629
+ {
8630
+ "epoch": 0.005476784789474971,
8631
+ "grad_norm": 8.875,
8632
+ "learning_rate": 2.736194000822414e-07,
8633
+ "loss": 3.2199,
8634
+ "step": 1232
8635
+ },
8636
+ {
8637
+ "epoch": 0.00548123023167422,
8638
+ "grad_norm": 10.375,
8639
+ "learning_rate": 2.738416741684171e-07,
8640
+ "loss": 2.9295,
8641
+ "step": 1233
8642
+ },
8643
+ {
8644
+ "epoch": 0.00548567567387347,
8645
+ "grad_norm": 11.25,
8646
+ "learning_rate": 2.740639482545928e-07,
8647
+ "loss": 2.8678,
8648
+ "step": 1234
8649
+ },
8650
+ {
8651
+ "epoch": 0.005490121116072719,
8652
+ "grad_norm": 10.125,
8653
+ "learning_rate": 2.7428622234076846e-07,
8654
+ "loss": 3.1695,
8655
+ "step": 1235
8656
+ },
8657
+ {
8658
+ "epoch": 0.005494566558271968,
8659
+ "grad_norm": 10.0625,
8660
+ "learning_rate": 2.745084964269441e-07,
8661
+ "loss": 3.0594,
8662
+ "step": 1236
8663
+ },
8664
+ {
8665
+ "epoch": 0.005499012000471217,
8666
+ "grad_norm": 9.0,
8667
+ "learning_rate": 2.7473077051311976e-07,
8668
+ "loss": 2.9845,
8669
+ "step": 1237
8670
+ },
8671
+ {
8672
+ "epoch": 0.005503457442670466,
8673
+ "grad_norm": 8.5625,
8674
+ "learning_rate": 2.7495304459929544e-07,
8675
+ "loss": 3.0625,
8676
+ "step": 1238
8677
+ },
8678
+ {
8679
+ "epoch": 0.005507902884869715,
8680
+ "grad_norm": 9.5625,
8681
+ "learning_rate": 2.751753186854711e-07,
8682
+ "loss": 3.0609,
8683
+ "step": 1239
8684
+ },
8685
+ {
8686
+ "epoch": 0.005512348327068964,
8687
+ "grad_norm": 9.25,
8688
+ "learning_rate": 2.7539759277164674e-07,
8689
+ "loss": 3.0943,
8690
+ "step": 1240
8691
+ },
8692
+ {
8693
+ "epoch": 0.005516793769268213,
8694
+ "grad_norm": 12.375,
8695
+ "learning_rate": 2.7561986685782237e-07,
8696
+ "loss": 2.8101,
8697
+ "step": 1241
8698
+ },
8699
+ {
8700
+ "epoch": 0.005521239211467462,
8701
+ "grad_norm": 10.0625,
8702
+ "learning_rate": 2.7584214094399804e-07,
8703
+ "loss": 3.0231,
8704
+ "step": 1242
8705
+ },
8706
+ {
8707
+ "epoch": 0.005525684653666712,
8708
+ "grad_norm": 8.8125,
8709
+ "learning_rate": 2.760644150301737e-07,
8710
+ "loss": 3.1517,
8711
+ "step": 1243
8712
+ },
8713
+ {
8714
+ "epoch": 0.005530130095865961,
8715
+ "grad_norm": 8.0625,
8716
+ "learning_rate": 2.762866891163494e-07,
8717
+ "loss": 3.2189,
8718
+ "step": 1244
8719
+ },
8720
+ {
8721
+ "epoch": 0.00553457553806521,
8722
+ "grad_norm": 9.4375,
8723
+ "learning_rate": 2.76508963202525e-07,
8724
+ "loss": 3.0806,
8725
+ "step": 1245
8726
+ },
8727
+ {
8728
+ "epoch": 0.005539020980264459,
8729
+ "grad_norm": 9.125,
8730
+ "learning_rate": 2.767312372887007e-07,
8731
+ "loss": 3.1077,
8732
+ "step": 1246
8733
+ },
8734
+ {
8735
+ "epoch": 0.0055434664224637085,
8736
+ "grad_norm": 10.75,
8737
+ "learning_rate": 2.769535113748764e-07,
8738
+ "loss": 2.8885,
8739
+ "step": 1247
8740
+ },
8741
+ {
8742
+ "epoch": 0.0055479118646629575,
8743
+ "grad_norm": 10.125,
8744
+ "learning_rate": 2.7717578546105206e-07,
8745
+ "loss": 2.9466,
8746
+ "step": 1248
8747
+ },
8748
+ {
8749
+ "epoch": 0.005552357306862207,
8750
+ "grad_norm": 9.6875,
8751
+ "learning_rate": 2.7739805954722774e-07,
8752
+ "loss": 3.0036,
8753
+ "step": 1249
8754
+ },
8755
+ {
8756
+ "epoch": 0.005556802749061456,
8757
+ "grad_norm": 9.6875,
8758
+ "learning_rate": 2.7762033363340336e-07,
8759
+ "loss": 3.0176,
8760
+ "step": 1250
8761
+ },
8762
+ {
8763
+ "epoch": 0.005561248191260706,
8764
+ "grad_norm": 10.875,
8765
+ "learning_rate": 2.7784260771957904e-07,
8766
+ "loss": 2.9511,
8767
+ "step": 1251
8768
+ },
8769
+ {
8770
+ "epoch": 0.005565693633459955,
8771
+ "grad_norm": 9.4375,
8772
+ "learning_rate": 2.780648818057547e-07,
8773
+ "loss": 3.2522,
8774
+ "step": 1252
8775
+ },
8776
+ {
8777
+ "epoch": 0.005570139075659204,
8778
+ "grad_norm": 7.1875,
8779
+ "learning_rate": 2.782871558919304e-07,
8780
+ "loss": 3.3091,
8781
+ "step": 1253
8782
+ },
8783
+ {
8784
+ "epoch": 0.005574584517858453,
8785
+ "grad_norm": 7.90625,
8786
+ "learning_rate": 2.78509429978106e-07,
8787
+ "loss": 3.1846,
8788
+ "step": 1254
8789
+ },
8790
+ {
8791
+ "epoch": 0.005579029960057702,
8792
+ "grad_norm": 8.625,
8793
+ "learning_rate": 2.787317040642817e-07,
8794
+ "loss": 3.1589,
8795
+ "step": 1255
8796
+ },
8797
+ {
8798
+ "epoch": 0.005583475402256951,
8799
+ "grad_norm": 8.0,
8800
+ "learning_rate": 2.789539781504574e-07,
8801
+ "loss": 3.2919,
8802
+ "step": 1256
8803
+ },
8804
+ {
8805
+ "epoch": 0.0055879208444562,
8806
+ "grad_norm": 10.125,
8807
+ "learning_rate": 2.79176252236633e-07,
8808
+ "loss": 2.9361,
8809
+ "step": 1257
8810
+ },
8811
+ {
8812
+ "epoch": 0.005592366286655449,
8813
+ "grad_norm": 8.375,
8814
+ "learning_rate": 2.793985263228087e-07,
8815
+ "loss": 3.2461,
8816
+ "step": 1258
8817
+ },
8818
+ {
8819
+ "epoch": 0.005596811728854698,
8820
+ "grad_norm": 8.125,
8821
+ "learning_rate": 2.7962080040898435e-07,
8822
+ "loss": 3.2751,
8823
+ "step": 1259
8824
+ },
8825
+ {
8826
+ "epoch": 0.005601257171053948,
8827
+ "grad_norm": 9.9375,
8828
+ "learning_rate": 2.7984307449516e-07,
8829
+ "loss": 2.9777,
8830
+ "step": 1260
8831
+ },
8832
+ {
8833
+ "epoch": 0.005605702613253197,
8834
+ "grad_norm": 9.625,
8835
+ "learning_rate": 2.8006534858133566e-07,
8836
+ "loss": 3.2067,
8837
+ "step": 1261
8838
+ },
8839
+ {
8840
+ "epoch": 0.005610148055452446,
8841
+ "grad_norm": 8.625,
8842
+ "learning_rate": 2.8028762266751134e-07,
8843
+ "loss": 3.229,
8844
+ "step": 1262
8845
+ },
8846
+ {
8847
+ "epoch": 0.005614593497651695,
8848
+ "grad_norm": 9.0,
8849
+ "learning_rate": 2.80509896753687e-07,
8850
+ "loss": 3.2134,
8851
+ "step": 1263
8852
+ },
8853
+ {
8854
+ "epoch": 0.005619038939850944,
8855
+ "grad_norm": 9.8125,
8856
+ "learning_rate": 2.8073217083986264e-07,
8857
+ "loss": 2.9657,
8858
+ "step": 1264
8859
+ },
8860
+ {
8861
+ "epoch": 0.005623484382050193,
8862
+ "grad_norm": 9.1875,
8863
+ "learning_rate": 2.809544449260383e-07,
8864
+ "loss": 3.1097,
8865
+ "step": 1265
8866
+ },
8867
+ {
8868
+ "epoch": 0.005627929824249442,
8869
+ "grad_norm": 9.25,
8870
+ "learning_rate": 2.81176719012214e-07,
8871
+ "loss": 3.0363,
8872
+ "step": 1266
8873
+ },
8874
+ {
8875
+ "epoch": 0.0056323752664486915,
8876
+ "grad_norm": 9.9375,
8877
+ "learning_rate": 2.8139899309838967e-07,
8878
+ "loss": 2.9348,
8879
+ "step": 1267
8880
+ },
8881
+ {
8882
+ "epoch": 0.005636820708647941,
8883
+ "grad_norm": 12.4375,
8884
+ "learning_rate": 2.816212671845653e-07,
8885
+ "loss": 2.815,
8886
+ "step": 1268
8887
+ },
8888
+ {
8889
+ "epoch": 0.0056412661508471905,
8890
+ "grad_norm": 8.4375,
8891
+ "learning_rate": 2.81843541270741e-07,
8892
+ "loss": 3.2688,
8893
+ "step": 1269
8894
+ },
8895
+ {
8896
+ "epoch": 0.0056457115930464395,
8897
+ "grad_norm": 10.8125,
8898
+ "learning_rate": 2.8206581535691665e-07,
8899
+ "loss": 3.0391,
8900
+ "step": 1270
8901
  }
8902
  ],
8903
  "logging_steps": 1,
 
8917
  "attributes": {}
8918
  }
8919
  },
8920
+ "total_flos": 5.02759358988288e+16,
8921
  "train_batch_size": 1,
8922
  "trial_name": null,
8923
  "trial_params": null