kavanmevada commited on
Commit
bed060f
·
verified ·
1 Parent(s): 689766a

Training in progress, step 1280

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:772281a0c416a6c1a28f6c3f2b6313b604493854a390385ab66989ed0ecae447
3
  size 936503576
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:036e350a579edc8b1bc40b9b45e2c632438b63ee5661b74536e935a466f1a714
3
  size 936503576
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b0143bc91b3ad815b4f13a42aea5c7975d4f31dd640aa131f2349d4581586ad7
3
  size 936544523
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:84e40de1156525828dd6987a4b795898a1ac22c1eb418e7b8ab745b4d7789d66
3
  size 936544523
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:14c3e525ca05e179ddf164d7eead6f8f3351de1c8dbf833b0398766f590b5299
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:03c5d2ff5ad33f95f55329ae59e88d9437bff2e65ad7d9ef57ff653a057ce64f
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.0056457115930464395,
6
  "eval_steps": 500,
7
- "global_step": 1270,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -6658,2246 +6658,6 @@
6658
  "learning_rate": 1.999998627690604e-05,
6659
  "loss": 3.2958,
6660
  "step": 950
6661
- },
6662
- {
6663
- "epoch": 0.004227615531485956,
6664
- "grad_norm": 10.0625,
6665
- "learning_rate": 1.9999986247969644e-05,
6666
- "loss": 2.955,
6667
- "step": 951
6668
- },
6669
- {
6670
- "epoch": 0.004232060973685205,
6671
- "grad_norm": 10.5625,
6672
- "learning_rate": 2.1138265595305574e-07,
6673
- "loss": 3.0113,
6674
- "step": 952
6675
- },
6676
- {
6677
- "epoch": 0.004236506415884454,
6678
- "grad_norm": 10.5625,
6679
- "learning_rate": 2.116049300392314e-07,
6680
- "loss": 2.9137,
6681
- "step": 953
6682
- },
6683
- {
6684
- "epoch": 0.004240951858083703,
6685
- "grad_norm": 9.4375,
6686
- "learning_rate": 2.1182720412540707e-07,
6687
- "loss": 3.0932,
6688
- "step": 954
6689
- },
6690
- {
6691
- "epoch": 0.004245397300282953,
6692
- "grad_norm": 9.9375,
6693
- "learning_rate": 2.1204947821158272e-07,
6694
- "loss": 3.0056,
6695
- "step": 955
6696
- },
6697
- {
6698
- "epoch": 0.004249842742482202,
6699
- "grad_norm": 7.625,
6700
- "learning_rate": 2.122717522977584e-07,
6701
- "loss": 3.1488,
6702
- "step": 956
6703
- },
6704
- {
6705
- "epoch": 0.004254288184681451,
6706
- "grad_norm": 10.125,
6707
- "learning_rate": 2.1249402638393403e-07,
6708
- "loss": 2.9632,
6709
- "step": 957
6710
- },
6711
- {
6712
- "epoch": 0.0042587336268807,
6713
- "grad_norm": 7.5,
6714
- "learning_rate": 2.127163004701097e-07,
6715
- "loss": 3.2703,
6716
- "step": 958
6717
- },
6718
- {
6719
- "epoch": 0.004263179069079949,
6720
- "grad_norm": 8.75,
6721
- "learning_rate": 2.1293857455628536e-07,
6722
- "loss": 3.1646,
6723
- "step": 959
6724
- },
6725
- {
6726
- "epoch": 0.004267624511279198,
6727
- "grad_norm": 8.1875,
6728
- "learning_rate": 2.1316084864246103e-07,
6729
- "loss": 3.1636,
6730
- "step": 960
6731
- },
6732
- {
6733
- "epoch": 0.004272069953478447,
6734
- "grad_norm": 8.9375,
6735
- "learning_rate": 2.1338312272863669e-07,
6736
- "loss": 3.0689,
6737
- "step": 961
6738
- },
6739
- {
6740
- "epoch": 0.004276515395677696,
6741
- "grad_norm": 9.25,
6742
- "learning_rate": 2.1360539681481236e-07,
6743
- "loss": 3.0252,
6744
- "step": 962
6745
- },
6746
- {
6747
- "epoch": 0.004280960837876946,
6748
- "grad_norm": 11.75,
6749
- "learning_rate": 2.1382767090098801e-07,
6750
- "loss": 2.8206,
6751
- "step": 963
6752
- },
6753
- {
6754
- "epoch": 0.004285406280076195,
6755
- "grad_norm": 8.6875,
6756
- "learning_rate": 2.140499449871637e-07,
6757
- "loss": 3.0941,
6758
- "step": 964
6759
- },
6760
- {
6761
- "epoch": 0.004289851722275444,
6762
- "grad_norm": 10.875,
6763
- "learning_rate": 2.1427221907333934e-07,
6764
- "loss": 2.9032,
6765
- "step": 965
6766
- },
6767
- {
6768
- "epoch": 0.004294297164474693,
6769
- "grad_norm": 8.5625,
6770
- "learning_rate": 2.1449449315951502e-07,
6771
- "loss": 3.1731,
6772
- "step": 966
6773
- },
6774
- {
6775
- "epoch": 0.004298742606673942,
6776
- "grad_norm": 9.1875,
6777
- "learning_rate": 2.1471676724569067e-07,
6778
- "loss": 3.0915,
6779
- "step": 967
6780
- },
6781
- {
6782
- "epoch": 0.004303188048873191,
6783
- "grad_norm": 11.0625,
6784
- "learning_rate": 2.1493904133186635e-07,
6785
- "loss": 2.8839,
6786
- "step": 968
6787
- },
6788
- {
6789
- "epoch": 0.0043076334910724405,
6790
- "grad_norm": 9.5625,
6791
- "learning_rate": 2.15161315418042e-07,
6792
- "loss": 3.082,
6793
- "step": 969
6794
- },
6795
- {
6796
- "epoch": 0.0043120789332716895,
6797
- "grad_norm": 10.125,
6798
- "learning_rate": 2.1538358950421768e-07,
6799
- "loss": 3.0645,
6800
- "step": 970
6801
- },
6802
- {
6803
- "epoch": 0.0043165243754709395,
6804
- "grad_norm": 9.0625,
6805
- "learning_rate": 2.1560586359039333e-07,
6806
- "loss": 3.3608,
6807
- "step": 971
6808
- },
6809
- {
6810
- "epoch": 0.0043209698176701885,
6811
- "grad_norm": 8.6875,
6812
- "learning_rate": 2.15828137676569e-07,
6813
- "loss": 3.0053,
6814
- "step": 972
6815
- },
6816
- {
6817
- "epoch": 0.004325415259869438,
6818
- "grad_norm": 10.375,
6819
- "learning_rate": 2.1605041176274469e-07,
6820
- "loss": 3.0382,
6821
- "step": 973
6822
- },
6823
- {
6824
- "epoch": 0.004329860702068687,
6825
- "grad_norm": 11.1875,
6826
- "learning_rate": 2.162726858489203e-07,
6827
- "loss": 2.9776,
6828
- "step": 974
6829
- },
6830
- {
6831
- "epoch": 0.004334306144267936,
6832
- "grad_norm": 10.75,
6833
- "learning_rate": 2.1649495993509596e-07,
6834
- "loss": 2.9646,
6835
- "step": 975
6836
- },
6837
- {
6838
- "epoch": 0.004338751586467185,
6839
- "grad_norm": 10.3125,
6840
- "learning_rate": 2.1671723402127164e-07,
6841
- "loss": 3.0247,
6842
- "step": 976
6843
- },
6844
- {
6845
- "epoch": 0.004343197028666434,
6846
- "grad_norm": 9.875,
6847
- "learning_rate": 2.169395081074473e-07,
6848
- "loss": 3.0667,
6849
- "step": 977
6850
- },
6851
- {
6852
- "epoch": 0.004347642470865683,
6853
- "grad_norm": 11.4375,
6854
- "learning_rate": 2.1716178219362297e-07,
6855
- "loss": 2.8984,
6856
- "step": 978
6857
- },
6858
- {
6859
- "epoch": 0.004352087913064932,
6860
- "grad_norm": 8.6875,
6861
- "learning_rate": 2.1738405627979862e-07,
6862
- "loss": 3.1805,
6863
- "step": 979
6864
- },
6865
- {
6866
- "epoch": 0.004356533355264182,
6867
- "grad_norm": 7.34375,
6868
- "learning_rate": 2.176063303659743e-07,
6869
- "loss": 3.2741,
6870
- "step": 980
6871
- },
6872
- {
6873
- "epoch": 0.004360978797463431,
6874
- "grad_norm": 9.25,
6875
- "learning_rate": 2.1782860445214995e-07,
6876
- "loss": 3.1854,
6877
- "step": 981
6878
- },
6879
- {
6880
- "epoch": 0.00436542423966268,
6881
- "grad_norm": 12.5625,
6882
- "learning_rate": 2.1805087853832563e-07,
6883
- "loss": 2.7744,
6884
- "step": 982
6885
- },
6886
- {
6887
- "epoch": 0.004369869681861929,
6888
- "grad_norm": 10.9375,
6889
- "learning_rate": 2.182731526245013e-07,
6890
- "loss": 2.8225,
6891
- "step": 983
6892
- },
6893
- {
6894
- "epoch": 0.004374315124061178,
6895
- "grad_norm": 8.25,
6896
- "learning_rate": 2.1849542671067696e-07,
6897
- "loss": 3.277,
6898
- "step": 984
6899
- },
6900
- {
6901
- "epoch": 0.004378760566260427,
6902
- "grad_norm": 9.75,
6903
- "learning_rate": 2.1871770079685263e-07,
6904
- "loss": 3.0862,
6905
- "step": 985
6906
- },
6907
- {
6908
- "epoch": 0.004383206008459676,
6909
- "grad_norm": 6.9375,
6910
- "learning_rate": 2.1893997488302829e-07,
6911
- "loss": 3.2672,
6912
- "step": 986
6913
- },
6914
- {
6915
- "epoch": 0.004387651450658925,
6916
- "grad_norm": 8.8125,
6917
- "learning_rate": 2.1916224896920396e-07,
6918
- "loss": 3.1132,
6919
- "step": 987
6920
- },
6921
- {
6922
- "epoch": 0.004392096892858175,
6923
- "grad_norm": 7.46875,
6924
- "learning_rate": 2.1938452305537962e-07,
6925
- "loss": 3.1818,
6926
- "step": 988
6927
- },
6928
- {
6929
- "epoch": 0.004396542335057424,
6930
- "grad_norm": 11.3125,
6931
- "learning_rate": 2.196067971415553e-07,
6932
- "loss": 2.8631,
6933
- "step": 989
6934
- },
6935
- {
6936
- "epoch": 0.004400987777256673,
6937
- "grad_norm": 11.5,
6938
- "learning_rate": 2.1982907122773094e-07,
6939
- "loss": 2.8712,
6940
- "step": 990
6941
- },
6942
- {
6943
- "epoch": 0.0044054332194559225,
6944
- "grad_norm": 10.125,
6945
- "learning_rate": 2.2005134531390657e-07,
6946
- "loss": 2.9481,
6947
- "step": 991
6948
- },
6949
- {
6950
- "epoch": 0.0044098786616551715,
6951
- "grad_norm": 8.9375,
6952
- "learning_rate": 2.2027361940008225e-07,
6953
- "loss": 3.0446,
6954
- "step": 992
6955
- },
6956
- {
6957
- "epoch": 0.004414324103854421,
6958
- "grad_norm": 8.75,
6959
- "learning_rate": 2.204958934862579e-07,
6960
- "loss": 3.1951,
6961
- "step": 993
6962
- },
6963
- {
6964
- "epoch": 0.00441876954605367,
6965
- "grad_norm": 10.8125,
6966
- "learning_rate": 2.2071816757243358e-07,
6967
- "loss": 2.832,
6968
- "step": 994
6969
- },
6970
- {
6971
- "epoch": 0.004423214988252919,
6972
- "grad_norm": 8.8125,
6973
- "learning_rate": 2.2094044165860925e-07,
6974
- "loss": 3.1672,
6975
- "step": 995
6976
- },
6977
- {
6978
- "epoch": 0.004427660430452168,
6979
- "grad_norm": 10.6875,
6980
- "learning_rate": 2.211627157447849e-07,
6981
- "loss": 2.9116,
6982
- "step": 996
6983
- },
6984
- {
6985
- "epoch": 0.004432105872651418,
6986
- "grad_norm": 9.6875,
6987
- "learning_rate": 2.2138498983096058e-07,
6988
- "loss": 3.1124,
6989
- "step": 997
6990
- },
6991
- {
6992
- "epoch": 0.004436551314850667,
6993
- "grad_norm": 9.4375,
6994
- "learning_rate": 2.2160726391713623e-07,
6995
- "loss": 3.0419,
6996
- "step": 998
6997
- },
6998
- {
6999
- "epoch": 0.004440996757049916,
7000
- "grad_norm": 9.0625,
7001
- "learning_rate": 2.218295380033119e-07,
7002
- "loss": 3.1185,
7003
- "step": 999
7004
- },
7005
- {
7006
- "epoch": 0.004445442199249165,
7007
- "grad_norm": 9.875,
7008
- "learning_rate": 2.2205181208948756e-07,
7009
- "loss": 2.9247,
7010
- "step": 1000
7011
- },
7012
- {
7013
- "epoch": 0.004449887641448414,
7014
- "grad_norm": 9.9375,
7015
- "learning_rate": 2.2227408617566324e-07,
7016
- "loss": 3.1356,
7017
- "step": 1001
7018
- },
7019
- {
7020
- "epoch": 0.004454333083647663,
7021
- "grad_norm": 11.5625,
7022
- "learning_rate": 2.224963602618389e-07,
7023
- "loss": 2.8265,
7024
- "step": 1002
7025
- },
7026
- {
7027
- "epoch": 0.004458778525846912,
7028
- "grad_norm": 10.875,
7029
- "learning_rate": 2.2271863434801457e-07,
7030
- "loss": 2.8969,
7031
- "step": 1003
7032
- },
7033
- {
7034
- "epoch": 0.004463223968046161,
7035
- "grad_norm": 11.5,
7036
- "learning_rate": 2.2294090843419022e-07,
7037
- "loss": 2.7605,
7038
- "step": 1004
7039
- },
7040
- {
7041
- "epoch": 0.004467669410245411,
7042
- "grad_norm": 10.0,
7043
- "learning_rate": 2.231631825203659e-07,
7044
- "loss": 2.9733,
7045
- "step": 1005
7046
- },
7047
- {
7048
- "epoch": 0.00447211485244466,
7049
- "grad_norm": 9.4375,
7050
- "learning_rate": 2.2338545660654155e-07,
7051
- "loss": 2.9336,
7052
- "step": 1006
7053
- },
7054
- {
7055
- "epoch": 0.004476560294643909,
7056
- "grad_norm": 11.5,
7057
- "learning_rate": 2.236077306927172e-07,
7058
- "loss": 2.7993,
7059
- "step": 1007
7060
- },
7061
- {
7062
- "epoch": 0.004481005736843158,
7063
- "grad_norm": 11.25,
7064
- "learning_rate": 2.2383000477889285e-07,
7065
- "loss": 2.8964,
7066
- "step": 1008
7067
- },
7068
- {
7069
- "epoch": 0.004485451179042407,
7070
- "grad_norm": 9.75,
7071
- "learning_rate": 2.2405227886506853e-07,
7072
- "loss": 2.9988,
7073
- "step": 1009
7074
- },
7075
- {
7076
- "epoch": 0.004489896621241656,
7077
- "grad_norm": 9.625,
7078
- "learning_rate": 2.2427455295124418e-07,
7079
- "loss": 3.01,
7080
- "step": 1010
7081
- },
7082
- {
7083
- "epoch": 0.0044943420634409054,
7084
- "grad_norm": 7.9375,
7085
- "learning_rate": 2.2449682703741986e-07,
7086
- "loss": 3.2394,
7087
- "step": 1011
7088
- },
7089
- {
7090
- "epoch": 0.0044987875056401545,
7091
- "grad_norm": 9.125,
7092
- "learning_rate": 2.247191011235955e-07,
7093
- "loss": 3.0721,
7094
- "step": 1012
7095
- },
7096
- {
7097
- "epoch": 0.0045032329478394036,
7098
- "grad_norm": 10.75,
7099
- "learning_rate": 2.249413752097712e-07,
7100
- "loss": 2.9398,
7101
- "step": 1013
7102
- },
7103
- {
7104
- "epoch": 0.0045076783900386535,
7105
- "grad_norm": 9.8125,
7106
- "learning_rate": 2.2516364929594684e-07,
7107
- "loss": 3.0119,
7108
- "step": 1014
7109
- },
7110
- {
7111
- "epoch": 0.0045121238322379026,
7112
- "grad_norm": 10.25,
7113
- "learning_rate": 2.2538592338212252e-07,
7114
- "loss": 3.0231,
7115
- "step": 1015
7116
- },
7117
- {
7118
- "epoch": 0.004516569274437152,
7119
- "grad_norm": 10.3125,
7120
- "learning_rate": 2.2560819746829817e-07,
7121
- "loss": 2.9173,
7122
- "step": 1016
7123
- },
7124
- {
7125
- "epoch": 0.004521014716636401,
7126
- "grad_norm": 11.4375,
7127
- "learning_rate": 2.2583047155447385e-07,
7128
- "loss": 2.9078,
7129
- "step": 1017
7130
- },
7131
- {
7132
- "epoch": 0.00452546015883565,
7133
- "grad_norm": 10.875,
7134
- "learning_rate": 2.260527456406495e-07,
7135
- "loss": 2.9214,
7136
- "step": 1018
7137
- },
7138
- {
7139
- "epoch": 0.004529905601034899,
7140
- "grad_norm": 11.0625,
7141
- "learning_rate": 2.2627501972682518e-07,
7142
- "loss": 2.8618,
7143
- "step": 1019
7144
- },
7145
- {
7146
- "epoch": 0.004534351043234148,
7147
- "grad_norm": 9.125,
7148
- "learning_rate": 2.2649729381300083e-07,
7149
- "loss": 3.159,
7150
- "step": 1020
7151
- },
7152
- {
7153
- "epoch": 0.004538796485433397,
7154
- "grad_norm": 7.6875,
7155
- "learning_rate": 2.267195678991765e-07,
7156
- "loss": 3.1911,
7157
- "step": 1021
7158
- },
7159
- {
7160
- "epoch": 0.004543241927632647,
7161
- "grad_norm": 9.0,
7162
- "learning_rate": 2.2694184198535218e-07,
7163
- "loss": 3.1503,
7164
- "step": 1022
7165
- },
7166
- {
7167
- "epoch": 0.004547687369831896,
7168
- "grad_norm": 8.1875,
7169
- "learning_rate": 2.2716411607152784e-07,
7170
- "loss": 3.0955,
7171
- "step": 1023
7172
- },
7173
- {
7174
- "epoch": 0.004552132812031145,
7175
- "grad_norm": 10.25,
7176
- "learning_rate": 2.2738639015770346e-07,
7177
- "loss": 2.8884,
7178
- "step": 1024
7179
- },
7180
- {
7181
- "epoch": 0.004556578254230394,
7182
- "grad_norm": 10.25,
7183
- "learning_rate": 2.2760866424387914e-07,
7184
- "loss": 3.0228,
7185
- "step": 1025
7186
- },
7187
- {
7188
- "epoch": 0.004561023696429643,
7189
- "grad_norm": 9.6875,
7190
- "learning_rate": 2.278309383300548e-07,
7191
- "loss": 3.0518,
7192
- "step": 1026
7193
- },
7194
- {
7195
- "epoch": 0.004565469138628892,
7196
- "grad_norm": 11.1875,
7197
- "learning_rate": 2.2805321241623047e-07,
7198
- "loss": 2.8747,
7199
- "step": 1027
7200
- },
7201
- {
7202
- "epoch": 0.004569914580828141,
7203
- "grad_norm": 9.1875,
7204
- "learning_rate": 2.2827548650240612e-07,
7205
- "loss": 3.0202,
7206
- "step": 1028
7207
- },
7208
- {
7209
- "epoch": 0.00457436002302739,
7210
- "grad_norm": 9.125,
7211
- "learning_rate": 2.284977605885818e-07,
7212
- "loss": 3.0268,
7213
- "step": 1029
7214
- },
7215
- {
7216
- "epoch": 0.004578805465226639,
7217
- "grad_norm": 8.5,
7218
- "learning_rate": 2.2872003467475745e-07,
7219
- "loss": 3.1001,
7220
- "step": 1030
7221
- },
7222
- {
7223
- "epoch": 0.004583250907425889,
7224
- "grad_norm": 11.4375,
7225
- "learning_rate": 2.2894230876093313e-07,
7226
- "loss": 2.7481,
7227
- "step": 1031
7228
- },
7229
- {
7230
- "epoch": 0.004587696349625138,
7231
- "grad_norm": 11.0,
7232
- "learning_rate": 2.2916458284710878e-07,
7233
- "loss": 2.8899,
7234
- "step": 1032
7235
- },
7236
- {
7237
- "epoch": 0.004592141791824387,
7238
- "grad_norm": 9.375,
7239
- "learning_rate": 2.2938685693328445e-07,
7240
- "loss": 3.1019,
7241
- "step": 1033
7242
- },
7243
- {
7244
- "epoch": 0.0045965872340236365,
7245
- "grad_norm": 11.875,
7246
- "learning_rate": 2.2960913101946013e-07,
7247
- "loss": 3.0228,
7248
- "step": 1034
7249
- },
7250
- {
7251
- "epoch": 0.0046010326762228855,
7252
- "grad_norm": 9.1875,
7253
- "learning_rate": 2.2983140510563578e-07,
7254
- "loss": 3.0717,
7255
- "step": 1035
7256
- },
7257
- {
7258
- "epoch": 0.004605478118422135,
7259
- "grad_norm": 12.75,
7260
- "learning_rate": 2.3005367919181146e-07,
7261
- "loss": 2.6542,
7262
- "step": 1036
7263
- },
7264
- {
7265
- "epoch": 0.004609923560621384,
7266
- "grad_norm": 11.125,
7267
- "learning_rate": 2.302759532779871e-07,
7268
- "loss": 2.9248,
7269
- "step": 1037
7270
- },
7271
- {
7272
- "epoch": 0.004614369002820633,
7273
- "grad_norm": 9.1875,
7274
- "learning_rate": 2.304982273641628e-07,
7275
- "loss": 3.1013,
7276
- "step": 1038
7277
- },
7278
- {
7279
- "epoch": 0.004618814445019883,
7280
- "grad_norm": 10.4375,
7281
- "learning_rate": 2.3072050145033844e-07,
7282
- "loss": 2.9626,
7283
- "step": 1039
7284
- },
7285
- {
7286
- "epoch": 0.004623259887219132,
7287
- "grad_norm": 10.0625,
7288
- "learning_rate": 2.3094277553651407e-07,
7289
- "loss": 2.9294,
7290
- "step": 1040
7291
- },
7292
- {
7293
- "epoch": 0.004627705329418381,
7294
- "grad_norm": 10.3125,
7295
- "learning_rate": 2.3116504962268974e-07,
7296
- "loss": 2.9481,
7297
- "step": 1041
7298
- },
7299
- {
7300
- "epoch": 0.00463215077161763,
7301
- "grad_norm": 11.0,
7302
- "learning_rate": 2.313873237088654e-07,
7303
- "loss": 2.9254,
7304
- "step": 1042
7305
- },
7306
- {
7307
- "epoch": 0.004636596213816879,
7308
- "grad_norm": 8.3125,
7309
- "learning_rate": 2.3160959779504107e-07,
7310
- "loss": 3.2911,
7311
- "step": 1043
7312
- },
7313
- {
7314
- "epoch": 0.004641041656016128,
7315
- "grad_norm": 10.5,
7316
- "learning_rate": 2.3183187188121675e-07,
7317
- "loss": 3.117,
7318
- "step": 1044
7319
- },
7320
- {
7321
- "epoch": 0.004645487098215377,
7322
- "grad_norm": 9.0,
7323
- "learning_rate": 2.320541459673924e-07,
7324
- "loss": 3.0878,
7325
- "step": 1045
7326
- },
7327
- {
7328
- "epoch": 0.004649932540414626,
7329
- "grad_norm": 9.0625,
7330
- "learning_rate": 2.3227642005356808e-07,
7331
- "loss": 2.9498,
7332
- "step": 1046
7333
- },
7334
- {
7335
- "epoch": 0.004654377982613875,
7336
- "grad_norm": 9.125,
7337
- "learning_rate": 2.3249869413974373e-07,
7338
- "loss": 3.2355,
7339
- "step": 1047
7340
- },
7341
- {
7342
- "epoch": 0.004658823424813125,
7343
- "grad_norm": 9.3125,
7344
- "learning_rate": 2.327209682259194e-07,
7345
- "loss": 3.093,
7346
- "step": 1048
7347
- },
7348
- {
7349
- "epoch": 0.004663268867012374,
7350
- "grad_norm": 9.5625,
7351
- "learning_rate": 2.3294324231209506e-07,
7352
- "loss": 3.1023,
7353
- "step": 1049
7354
- },
7355
- {
7356
- "epoch": 0.004667714309211623,
7357
- "grad_norm": 8.25,
7358
- "learning_rate": 2.3316551639827074e-07,
7359
- "loss": 3.1607,
7360
- "step": 1050
7361
- },
7362
- {
7363
- "epoch": 0.004672159751410872,
7364
- "grad_norm": 10.0,
7365
- "learning_rate": 2.333877904844464e-07,
7366
- "loss": 2.9663,
7367
- "step": 1051
7368
- },
7369
- {
7370
- "epoch": 0.004676605193610121,
7371
- "grad_norm": 11.5625,
7372
- "learning_rate": 2.3361006457062207e-07,
7373
- "loss": 2.9628,
7374
- "step": 1052
7375
- },
7376
- {
7377
- "epoch": 0.00468105063580937,
7378
- "grad_norm": 8.9375,
7379
- "learning_rate": 2.3383233865679772e-07,
7380
- "loss": 3.1418,
7381
- "step": 1053
7382
- },
7383
- {
7384
- "epoch": 0.0046854960780086195,
7385
- "grad_norm": 10.75,
7386
- "learning_rate": 2.340546127429734e-07,
7387
- "loss": 2.8077,
7388
- "step": 1054
7389
- },
7390
- {
7391
- "epoch": 0.0046899415202078685,
7392
- "grad_norm": 9.75,
7393
- "learning_rate": 2.3427688682914905e-07,
7394
- "loss": 3.0485,
7395
- "step": 1055
7396
- },
7397
- {
7398
- "epoch": 0.0046943869624071185,
7399
- "grad_norm": 10.25,
7400
- "learning_rate": 2.3449916091532473e-07,
7401
- "loss": 3.0086,
7402
- "step": 1056
7403
- },
7404
- {
7405
- "epoch": 0.0046988324046063675,
7406
- "grad_norm": 9.75,
7407
- "learning_rate": 2.3472143500150035e-07,
7408
- "loss": 3.0199,
7409
- "step": 1057
7410
- },
7411
- {
7412
- "epoch": 0.004703277846805617,
7413
- "grad_norm": 9.0625,
7414
- "learning_rate": 2.3494370908767603e-07,
7415
- "loss": 2.9958,
7416
- "step": 1058
7417
- },
7418
- {
7419
- "epoch": 0.004707723289004866,
7420
- "grad_norm": 9.0625,
7421
- "learning_rate": 2.3516598317385168e-07,
7422
- "loss": 3.1202,
7423
- "step": 1059
7424
- },
7425
- {
7426
- "epoch": 0.004712168731204115,
7427
- "grad_norm": 10.0625,
7428
- "learning_rate": 2.3538825726002736e-07,
7429
- "loss": 2.9328,
7430
- "step": 1060
7431
- },
7432
- {
7433
- "epoch": 0.004716614173403364,
7434
- "grad_norm": 11.9375,
7435
- "learning_rate": 2.35610531346203e-07,
7436
- "loss": 2.8503,
7437
- "step": 1061
7438
- },
7439
- {
7440
- "epoch": 0.004721059615602613,
7441
- "grad_norm": 10.6875,
7442
- "learning_rate": 2.358328054323787e-07,
7443
- "loss": 2.8671,
7444
- "step": 1062
7445
- },
7446
- {
7447
- "epoch": 0.004725505057801862,
7448
- "grad_norm": 9.4375,
7449
- "learning_rate": 2.3605507951855434e-07,
7450
- "loss": 3.127,
7451
- "step": 1063
7452
- },
7453
- {
7454
- "epoch": 0.004729950500001111,
7455
- "grad_norm": 8.4375,
7456
- "learning_rate": 2.3627735360473002e-07,
7457
- "loss": 3.1994,
7458
- "step": 1064
7459
- },
7460
- {
7461
- "epoch": 0.004734395942200361,
7462
- "grad_norm": 11.375,
7463
- "learning_rate": 2.3649962769090567e-07,
7464
- "loss": 2.8112,
7465
- "step": 1065
7466
- },
7467
- {
7468
- "epoch": 0.00473884138439961,
7469
- "grad_norm": 9.75,
7470
- "learning_rate": 2.3672190177708135e-07,
7471
- "loss": 3.0305,
7472
- "step": 1066
7473
- },
7474
- {
7475
- "epoch": 0.004743286826598859,
7476
- "grad_norm": 10.375,
7477
- "learning_rate": 2.36944175863257e-07,
7478
- "loss": 2.8869,
7479
- "step": 1067
7480
- },
7481
- {
7482
- "epoch": 0.004747732268798108,
7483
- "grad_norm": 11.0625,
7484
- "learning_rate": 2.3716644994943267e-07,
7485
- "loss": 2.9174,
7486
- "step": 1068
7487
- },
7488
- {
7489
- "epoch": 0.004752177710997357,
7490
- "grad_norm": 9.875,
7491
- "learning_rate": 2.3738872403560833e-07,
7492
- "loss": 3.0506,
7493
- "step": 1069
7494
- },
7495
- {
7496
- "epoch": 0.004756623153196606,
7497
- "grad_norm": 10.0625,
7498
- "learning_rate": 2.37610998121784e-07,
7499
- "loss": 2.9781,
7500
- "step": 1070
7501
- },
7502
- {
7503
- "epoch": 0.004761068595395855,
7504
- "grad_norm": 10.6875,
7505
- "learning_rate": 2.3783327220795965e-07,
7506
- "loss": 2.9292,
7507
- "step": 1071
7508
- },
7509
- {
7510
- "epoch": 0.004765514037595104,
7511
- "grad_norm": 9.75,
7512
- "learning_rate": 2.3805554629413533e-07,
7513
- "loss": 2.9742,
7514
- "step": 1072
7515
- },
7516
- {
7517
- "epoch": 0.004769959479794354,
7518
- "grad_norm": 11.5625,
7519
- "learning_rate": 2.38277820380311e-07,
7520
- "loss": 2.9182,
7521
- "step": 1073
7522
- },
7523
- {
7524
- "epoch": 0.004774404921993603,
7525
- "grad_norm": 9.75,
7526
- "learning_rate": 2.385000944664866e-07,
7527
- "loss": 2.9846,
7528
- "step": 1074
7529
- },
7530
- {
7531
- "epoch": 0.004778850364192852,
7532
- "grad_norm": 11.3125,
7533
- "learning_rate": 2.387223685526623e-07,
7534
- "loss": 2.8255,
7535
- "step": 1075
7536
- },
7537
- {
7538
- "epoch": 0.0047832958063921014,
7539
- "grad_norm": 10.75,
7540
- "learning_rate": 2.3894464263883796e-07,
7541
- "loss": 3.0087,
7542
- "step": 1076
7543
- },
7544
- {
7545
- "epoch": 0.0047877412485913505,
7546
- "grad_norm": 8.75,
7547
- "learning_rate": 2.3916691672501364e-07,
7548
- "loss": 3.033,
7549
- "step": 1077
7550
- },
7551
- {
7552
- "epoch": 0.0047921866907905996,
7553
- "grad_norm": 10.625,
7554
- "learning_rate": 2.3938919081118927e-07,
7555
- "loss": 3.021,
7556
- "step": 1078
7557
- },
7558
- {
7559
- "epoch": 0.004796632132989849,
7560
- "grad_norm": 10.625,
7561
- "learning_rate": 2.3961146489736495e-07,
7562
- "loss": 3.0047,
7563
- "step": 1079
7564
- },
7565
- {
7566
- "epoch": 0.004801077575189098,
7567
- "grad_norm": 9.9375,
7568
- "learning_rate": 2.398337389835406e-07,
7569
- "loss": 3.1063,
7570
- "step": 1080
7571
- },
7572
- {
7573
- "epoch": 0.004805523017388347,
7574
- "grad_norm": 12.375,
7575
- "learning_rate": 2.400560130697163e-07,
7576
- "loss": 2.7354,
7577
- "step": 1081
7578
- },
7579
- {
7580
- "epoch": 0.004809968459587597,
7581
- "grad_norm": 9.8125,
7582
- "learning_rate": 2.402782871558919e-07,
7583
- "loss": 3.0045,
7584
- "step": 1082
7585
- },
7586
- {
7587
- "epoch": 0.004814413901786846,
7588
- "grad_norm": 9.125,
7589
- "learning_rate": 2.405005612420676e-07,
7590
- "loss": 3.1526,
7591
- "step": 1083
7592
- },
7593
- {
7594
- "epoch": 0.004818859343986095,
7595
- "grad_norm": 9.5,
7596
- "learning_rate": 2.407228353282433e-07,
7597
- "loss": 3.0959,
7598
- "step": 1084
7599
- },
7600
- {
7601
- "epoch": 0.004823304786185344,
7602
- "grad_norm": 11.0,
7603
- "learning_rate": 2.4094510941441896e-07,
7604
- "loss": 2.8924,
7605
- "step": 1085
7606
- },
7607
- {
7608
- "epoch": 0.004827750228384593,
7609
- "grad_norm": 9.5,
7610
- "learning_rate": 2.4116738350059464e-07,
7611
- "loss": 3.0039,
7612
- "step": 1086
7613
- },
7614
- {
7615
- "epoch": 0.004832195670583842,
7616
- "grad_norm": 11.375,
7617
- "learning_rate": 2.4138965758677026e-07,
7618
- "loss": 2.7872,
7619
- "step": 1087
7620
- },
7621
- {
7622
- "epoch": 0.004836641112783091,
7623
- "grad_norm": 9.25,
7624
- "learning_rate": 2.4161193167294594e-07,
7625
- "loss": 3.0193,
7626
- "step": 1088
7627
- },
7628
- {
7629
- "epoch": 0.00484108655498234,
7630
- "grad_norm": 10.8125,
7631
- "learning_rate": 2.418342057591216e-07,
7632
- "loss": 2.8507,
7633
- "step": 1089
7634
- },
7635
- {
7636
- "epoch": 0.00484553199718159,
7637
- "grad_norm": 9.4375,
7638
- "learning_rate": 2.4205647984529724e-07,
7639
- "loss": 2.9794,
7640
- "step": 1090
7641
- },
7642
- {
7643
- "epoch": 0.004849977439380839,
7644
- "grad_norm": 7.46875,
7645
- "learning_rate": 2.422787539314729e-07,
7646
- "loss": 3.2601,
7647
- "step": 1091
7648
- },
7649
- {
7650
- "epoch": 0.004854422881580088,
7651
- "grad_norm": 10.75,
7652
- "learning_rate": 2.4250102801764854e-07,
7653
- "loss": 2.9433,
7654
- "step": 1092
7655
- },
7656
- {
7657
- "epoch": 0.004858868323779337,
7658
- "grad_norm": 9.625,
7659
- "learning_rate": 2.427233021038242e-07,
7660
- "loss": 3.0437,
7661
- "step": 1093
7662
- },
7663
- {
7664
- "epoch": 0.004863313765978586,
7665
- "grad_norm": 10.9375,
7666
- "learning_rate": 2.429455761899999e-07,
7667
- "loss": 2.9793,
7668
- "step": 1094
7669
- },
7670
- {
7671
- "epoch": 0.004867759208177835,
7672
- "grad_norm": 9.875,
7673
- "learning_rate": 2.431678502761756e-07,
7674
- "loss": 2.9553,
7675
- "step": 1095
7676
- },
7677
- {
7678
- "epoch": 0.004872204650377084,
7679
- "grad_norm": 9.4375,
7680
- "learning_rate": 2.4339012436235126e-07,
7681
- "loss": 3.2021,
7682
- "step": 1096
7683
- },
7684
- {
7685
- "epoch": 0.0048766500925763335,
7686
- "grad_norm": 9.6875,
7687
- "learning_rate": 2.436123984485269e-07,
7688
- "loss": 3.0393,
7689
- "step": 1097
7690
- },
7691
- {
7692
- "epoch": 0.0048810955347755825,
7693
- "grad_norm": 10.0,
7694
- "learning_rate": 2.4383467253470256e-07,
7695
- "loss": 3.0392,
7696
- "step": 1098
7697
- },
7698
- {
7699
- "epoch": 0.0048855409769748325,
7700
- "grad_norm": 10.25,
7701
- "learning_rate": 2.4405694662087824e-07,
7702
- "loss": 3.0669,
7703
- "step": 1099
7704
- },
7705
- {
7706
- "epoch": 0.0048899864191740815,
7707
- "grad_norm": 9.0,
7708
- "learning_rate": 2.442792207070539e-07,
7709
- "loss": 3.1861,
7710
- "step": 1100
7711
- },
7712
- {
7713
- "epoch": 0.004894431861373331,
7714
- "grad_norm": 12.75,
7715
- "learning_rate": 2.4450149479322954e-07,
7716
- "loss": 2.8885,
7717
- "step": 1101
7718
- },
7719
- {
7720
- "epoch": 0.00489887730357258,
7721
- "grad_norm": 10.0625,
7722
- "learning_rate": 2.447237688794052e-07,
7723
- "loss": 3.0389,
7724
- "step": 1102
7725
- },
7726
- {
7727
- "epoch": 0.004903322745771829,
7728
- "grad_norm": 8.5,
7729
- "learning_rate": 2.449460429655809e-07,
7730
- "loss": 3.0667,
7731
- "step": 1103
7732
- },
7733
- {
7734
- "epoch": 0.004907768187971078,
7735
- "grad_norm": 8.875,
7736
- "learning_rate": 2.4516831705175657e-07,
7737
- "loss": 3.2318,
7738
- "step": 1104
7739
- },
7740
- {
7741
- "epoch": 0.004912213630170327,
7742
- "grad_norm": 8.4375,
7743
- "learning_rate": 2.453905911379322e-07,
7744
- "loss": 3.1945,
7745
- "step": 1105
7746
- },
7747
- {
7748
- "epoch": 0.004916659072369576,
7749
- "grad_norm": 8.875,
7750
- "learning_rate": 2.456128652241079e-07,
7751
- "loss": 3.0713,
7752
- "step": 1106
7753
- },
7754
- {
7755
- "epoch": 0.004921104514568826,
7756
- "grad_norm": 8.3125,
7757
- "learning_rate": 2.458351393102835e-07,
7758
- "loss": 3.2106,
7759
- "step": 1107
7760
- },
7761
- {
7762
- "epoch": 0.004925549956768075,
7763
- "grad_norm": 9.4375,
7764
- "learning_rate": 2.460574133964592e-07,
7765
- "loss": 3.0079,
7766
- "step": 1108
7767
- },
7768
- {
7769
- "epoch": 0.004929995398967324,
7770
- "grad_norm": 11.1875,
7771
- "learning_rate": 2.4627968748263486e-07,
7772
- "loss": 2.8788,
7773
- "step": 1109
7774
- },
7775
- {
7776
- "epoch": 0.004934440841166573,
7777
- "grad_norm": 10.1875,
7778
- "learning_rate": 2.4650196156881053e-07,
7779
- "loss": 2.9214,
7780
- "step": 1110
7781
- },
7782
- {
7783
- "epoch": 0.004938886283365822,
7784
- "grad_norm": 9.5,
7785
- "learning_rate": 2.4672423565498616e-07,
7786
- "loss": 3.0695,
7787
- "step": 1111
7788
- },
7789
- {
7790
- "epoch": 0.004943331725565071,
7791
- "grad_norm": 8.8125,
7792
- "learning_rate": 2.4694650974116184e-07,
7793
- "loss": 3.0699,
7794
- "step": 1112
7795
- },
7796
- {
7797
- "epoch": 0.00494777716776432,
7798
- "grad_norm": 10.625,
7799
- "learning_rate": 2.471687838273375e-07,
7800
- "loss": 2.8647,
7801
- "step": 1113
7802
- },
7803
- {
7804
- "epoch": 0.004952222609963569,
7805
- "grad_norm": 9.25,
7806
- "learning_rate": 2.473910579135132e-07,
7807
- "loss": 3.187,
7808
- "step": 1114
7809
- },
7810
- {
7811
- "epoch": 0.004956668052162818,
7812
- "grad_norm": 7.65625,
7813
- "learning_rate": 2.476133319996888e-07,
7814
- "loss": 3.2968,
7815
- "step": 1115
7816
- },
7817
- {
7818
- "epoch": 0.004961113494362068,
7819
- "grad_norm": 8.0625,
7820
- "learning_rate": 2.478356060858645e-07,
7821
- "loss": 3.2926,
7822
- "step": 1116
7823
- },
7824
- {
7825
- "epoch": 0.004965558936561317,
7826
- "grad_norm": 9.4375,
7827
- "learning_rate": 2.4805788017204017e-07,
7828
- "loss": 3.079,
7829
- "step": 1117
7830
- },
7831
- {
7832
- "epoch": 0.004970004378760566,
7833
- "grad_norm": 8.875,
7834
- "learning_rate": 2.4828015425821585e-07,
7835
- "loss": 3.1489,
7836
- "step": 1118
7837
- },
7838
- {
7839
- "epoch": 0.0049744498209598155,
7840
- "grad_norm": 11.3125,
7841
- "learning_rate": 2.485024283443915e-07,
7842
- "loss": 2.8599,
7843
- "step": 1119
7844
- },
7845
- {
7846
- "epoch": 0.0049788952631590645,
7847
- "grad_norm": 8.8125,
7848
- "learning_rate": 2.4872470243056715e-07,
7849
- "loss": 3.1747,
7850
- "step": 1120
7851
- },
7852
- {
7853
- "epoch": 0.004983340705358314,
7854
- "grad_norm": 9.5,
7855
- "learning_rate": 2.4894697651674283e-07,
7856
- "loss": 3.0296,
7857
- "step": 1121
7858
- },
7859
- {
7860
- "epoch": 0.004987786147557563,
7861
- "grad_norm": 9.5,
7862
- "learning_rate": 2.491692506029185e-07,
7863
- "loss": 3.054,
7864
- "step": 1122
7865
- },
7866
- {
7867
- "epoch": 0.004992231589756812,
7868
- "grad_norm": 9.6875,
7869
- "learning_rate": 2.493915246890942e-07,
7870
- "loss": 3.0177,
7871
- "step": 1123
7872
- },
7873
- {
7874
- "epoch": 0.004996677031956062,
7875
- "grad_norm": 9.375,
7876
- "learning_rate": 2.496137987752698e-07,
7877
- "loss": 3.0309,
7878
- "step": 1124
7879
- },
7880
- {
7881
- "epoch": 0.005001122474155311,
7882
- "grad_norm": 9.0625,
7883
- "learning_rate": 2.4983607286144544e-07,
7884
- "loss": 3.1507,
7885
- "step": 1125
7886
- },
7887
- {
7888
- "epoch": 0.00500556791635456,
7889
- "grad_norm": 7.09375,
7890
- "learning_rate": 2.500583469476211e-07,
7891
- "loss": 3.2147,
7892
- "step": 1126
7893
- },
7894
- {
7895
- "epoch": 0.005010013358553809,
7896
- "grad_norm": 8.5,
7897
- "learning_rate": 2.502806210337968e-07,
7898
- "loss": 3.2409,
7899
- "step": 1127
7900
- },
7901
- {
7902
- "epoch": 0.005014458800753058,
7903
- "grad_norm": 11.5625,
7904
- "learning_rate": 2.5050289511997247e-07,
7905
- "loss": 2.8354,
7906
- "step": 1128
7907
- },
7908
- {
7909
- "epoch": 0.005018904242952307,
7910
- "grad_norm": 8.3125,
7911
- "learning_rate": 2.507251692061481e-07,
7912
- "loss": 3.1717,
7913
- "step": 1129
7914
- },
7915
- {
7916
- "epoch": 0.005023349685151556,
7917
- "grad_norm": 8.6875,
7918
- "learning_rate": 2.5094744329232377e-07,
7919
- "loss": 3.2802,
7920
- "step": 1130
7921
- },
7922
- {
7923
- "epoch": 0.005027795127350805,
7924
- "grad_norm": 7.875,
7925
- "learning_rate": 2.5116971737849945e-07,
7926
- "loss": 3.3287,
7927
- "step": 1131
7928
- },
7929
- {
7930
- "epoch": 0.005032240569550054,
7931
- "grad_norm": 6.25,
7932
- "learning_rate": 2.5139199146467513e-07,
7933
- "loss": 3.3918,
7934
- "step": 1132
7935
- },
7936
- {
7937
- "epoch": 0.005036686011749304,
7938
- "grad_norm": 10.3125,
7939
- "learning_rate": 2.5161426555085075e-07,
7940
- "loss": 3.2482,
7941
- "step": 1133
7942
- },
7943
- {
7944
- "epoch": 0.005041131453948553,
7945
- "grad_norm": 7.1875,
7946
- "learning_rate": 2.5183653963702643e-07,
7947
- "loss": 3.2685,
7948
- "step": 1134
7949
- },
7950
- {
7951
- "epoch": 0.005045576896147802,
7952
- "grad_norm": 10.5,
7953
- "learning_rate": 2.520588137232021e-07,
7954
- "loss": 2.9439,
7955
- "step": 1135
7956
- },
7957
- {
7958
- "epoch": 0.005050022338347051,
7959
- "grad_norm": 11.5,
7960
- "learning_rate": 2.522810878093778e-07,
7961
- "loss": 2.8252,
7962
- "step": 1136
7963
- },
7964
- {
7965
- "epoch": 0.0050544677805463,
7966
- "grad_norm": 7.6875,
7967
- "learning_rate": 2.5250336189555346e-07,
7968
- "loss": 3.297,
7969
- "step": 1137
7970
- },
7971
- {
7972
- "epoch": 0.005058913222745549,
7973
- "grad_norm": 10.375,
7974
- "learning_rate": 2.527256359817291e-07,
7975
- "loss": 2.9264,
7976
- "step": 1138
7977
- },
7978
- {
7979
- "epoch": 0.0050633586649447984,
7980
- "grad_norm": 6.59375,
7981
- "learning_rate": 2.5294791006790477e-07,
7982
- "loss": 3.3846,
7983
- "step": 1139
7984
- },
7985
- {
7986
- "epoch": 0.0050678041071440475,
7987
- "grad_norm": 9.875,
7988
- "learning_rate": 2.531701841540804e-07,
7989
- "loss": 3.038,
7990
- "step": 1140
7991
- },
7992
- {
7993
- "epoch": 0.0050722495493432974,
7994
- "grad_norm": 10.6875,
7995
- "learning_rate": 2.5339245824025607e-07,
7996
- "loss": 2.8303,
7997
- "step": 1141
7998
- },
7999
- {
8000
- "epoch": 0.0050766949915425465,
8001
- "grad_norm": 9.9375,
8002
- "learning_rate": 2.5361473232643175e-07,
8003
- "loss": 2.967,
8004
- "step": 1142
8005
- },
8006
- {
8007
- "epoch": 0.005081140433741796,
8008
- "grad_norm": 9.8125,
8009
- "learning_rate": 2.5383700641260737e-07,
8010
- "loss": 3.1252,
8011
- "step": 1143
8012
- },
8013
- {
8014
- "epoch": 0.005085585875941045,
8015
- "grad_norm": 9.5,
8016
- "learning_rate": 2.5405928049878305e-07,
8017
- "loss": 3.0528,
8018
- "step": 1144
8019
- },
8020
- {
8021
- "epoch": 0.005090031318140294,
8022
- "grad_norm": 9.9375,
8023
- "learning_rate": 2.5428155458495873e-07,
8024
- "loss": 3.0946,
8025
- "step": 1145
8026
- },
8027
- {
8028
- "epoch": 0.005094476760339543,
8029
- "grad_norm": 10.25,
8030
- "learning_rate": 2.545038286711344e-07,
8031
- "loss": 2.976,
8032
- "step": 1146
8033
- },
8034
- {
8035
- "epoch": 0.005098922202538792,
8036
- "grad_norm": 11.25,
8037
- "learning_rate": 2.547261027573101e-07,
8038
- "loss": 2.8889,
8039
- "step": 1147
8040
- },
8041
- {
8042
- "epoch": 0.005103367644738041,
8043
- "grad_norm": 10.125,
8044
- "learning_rate": 2.549483768434857e-07,
8045
- "loss": 3.0064,
8046
- "step": 1148
8047
- },
8048
- {
8049
- "epoch": 0.00510781308693729,
8050
- "grad_norm": 11.9375,
8051
- "learning_rate": 2.551706509296614e-07,
8052
- "loss": 2.7114,
8053
- "step": 1149
8054
- },
8055
- {
8056
- "epoch": 0.00511225852913654,
8057
- "grad_norm": 8.875,
8058
- "learning_rate": 2.5539292501583706e-07,
8059
- "loss": 3.1548,
8060
- "step": 1150
8061
- },
8062
- {
8063
- "epoch": 0.005116703971335789,
8064
- "grad_norm": 7.90625,
8065
- "learning_rate": 2.5561519910201274e-07,
8066
- "loss": 3.3142,
8067
- "step": 1151
8068
- },
8069
- {
8070
- "epoch": 0.005121149413535038,
8071
- "grad_norm": 10.25,
8072
- "learning_rate": 2.5583747318818837e-07,
8073
- "loss": 2.9388,
8074
- "step": 1152
8075
- },
8076
- {
8077
- "epoch": 0.005125594855734287,
8078
- "grad_norm": 10.3125,
8079
- "learning_rate": 2.5605974727436404e-07,
8080
- "loss": 2.9134,
8081
- "step": 1153
8082
- },
8083
- {
8084
- "epoch": 0.005130040297933536,
8085
- "grad_norm": 8.625,
8086
- "learning_rate": 2.562820213605397e-07,
8087
- "loss": 3.1508,
8088
- "step": 1154
8089
- },
8090
- {
8091
- "epoch": 0.005134485740132785,
8092
- "grad_norm": 9.8125,
8093
- "learning_rate": 2.565042954467154e-07,
8094
- "loss": 3.1071,
8095
- "step": 1155
8096
- },
8097
- {
8098
- "epoch": 0.005138931182332034,
8099
- "grad_norm": 10.4375,
8100
- "learning_rate": 2.56726569532891e-07,
8101
- "loss": 2.9386,
8102
- "step": 1156
8103
- },
8104
- {
8105
- "epoch": 0.005143376624531283,
8106
- "grad_norm": 8.5625,
8107
- "learning_rate": 2.569488436190667e-07,
8108
- "loss": 3.2167,
8109
- "step": 1157
8110
- },
8111
- {
8112
- "epoch": 0.005147822066730533,
8113
- "grad_norm": 8.75,
8114
- "learning_rate": 2.5717111770524233e-07,
8115
- "loss": 3.0796,
8116
- "step": 1158
8117
- },
8118
- {
8119
- "epoch": 0.005152267508929782,
8120
- "grad_norm": 9.5,
8121
- "learning_rate": 2.57393391791418e-07,
8122
- "loss": 3.084,
8123
- "step": 1159
8124
- },
8125
- {
8126
- "epoch": 0.005156712951129031,
8127
- "grad_norm": 13.3125,
8128
- "learning_rate": 2.576156658775937e-07,
8129
- "loss": 2.6222,
8130
- "step": 1160
8131
- },
8132
- {
8133
- "epoch": 0.00516115839332828,
8134
- "grad_norm": 8.25,
8135
- "learning_rate": 2.5783793996376936e-07,
8136
- "loss": 3.2654,
8137
- "step": 1161
8138
- },
8139
- {
8140
- "epoch": 0.0051656038355275295,
8141
- "grad_norm": 12.0625,
8142
- "learning_rate": 2.58060214049945e-07,
8143
- "loss": 2.8711,
8144
- "step": 1162
8145
- },
8146
- {
8147
- "epoch": 0.0051700492777267786,
8148
- "grad_norm": 12.0,
8149
- "learning_rate": 2.5828248813612066e-07,
8150
- "loss": 2.8799,
8151
- "step": 1163
8152
- },
8153
- {
8154
- "epoch": 0.005174494719926028,
8155
- "grad_norm": 12.0,
8156
- "learning_rate": 2.5850476222229634e-07,
8157
- "loss": 2.8347,
8158
- "step": 1164
8159
- },
8160
- {
8161
- "epoch": 0.005178940162125277,
8162
- "grad_norm": 11.125,
8163
- "learning_rate": 2.58727036308472e-07,
8164
- "loss": 2.9166,
8165
- "step": 1165
8166
- },
8167
- {
8168
- "epoch": 0.005183385604324526,
8169
- "grad_norm": 9.125,
8170
- "learning_rate": 2.5894931039464764e-07,
8171
- "loss": 3.1374,
8172
- "step": 1166
8173
- },
8174
- {
8175
- "epoch": 0.005187831046523776,
8176
- "grad_norm": 8.3125,
8177
- "learning_rate": 2.591715844808233e-07,
8178
- "loss": 3.1146,
8179
- "step": 1167
8180
- },
8181
- {
8182
- "epoch": 0.005192276488723025,
8183
- "grad_norm": 11.0625,
8184
- "learning_rate": 2.59393858566999e-07,
8185
- "loss": 2.7386,
8186
- "step": 1168
8187
- },
8188
- {
8189
- "epoch": 0.005196721930922274,
8190
- "grad_norm": 9.8125,
8191
- "learning_rate": 2.596161326531747e-07,
8192
- "loss": 3.0491,
8193
- "step": 1169
8194
- },
8195
- {
8196
- "epoch": 0.005201167373121523,
8197
- "grad_norm": 10.4375,
8198
- "learning_rate": 2.598384067393503e-07,
8199
- "loss": 2.9397,
8200
- "step": 1170
8201
- },
8202
- {
8203
- "epoch": 0.005205612815320772,
8204
- "grad_norm": 9.75,
8205
- "learning_rate": 2.60060680825526e-07,
8206
- "loss": 3.101,
8207
- "step": 1171
8208
- },
8209
- {
8210
- "epoch": 0.005210058257520021,
8211
- "grad_norm": 9.0625,
8212
- "learning_rate": 2.6028295491170166e-07,
8213
- "loss": 3.0531,
8214
- "step": 1172
8215
- },
8216
- {
8217
- "epoch": 0.00521450369971927,
8218
- "grad_norm": 9.5625,
8219
- "learning_rate": 2.605052289978773e-07,
8220
- "loss": 2.9893,
8221
- "step": 1173
8222
- },
8223
- {
8224
- "epoch": 0.005218949141918519,
8225
- "grad_norm": 10.0625,
8226
- "learning_rate": 2.6072750308405296e-07,
8227
- "loss": 2.9335,
8228
- "step": 1174
8229
- },
8230
- {
8231
- "epoch": 0.005223394584117769,
8232
- "grad_norm": 10.125,
8233
- "learning_rate": 2.6094977717022864e-07,
8234
- "loss": 3.0214,
8235
- "step": 1175
8236
- },
8237
- {
8238
- "epoch": 0.005227840026317018,
8239
- "grad_norm": 9.4375,
8240
- "learning_rate": 2.6117205125640426e-07,
8241
- "loss": 3.0275,
8242
- "step": 1176
8243
- },
8244
- {
8245
- "epoch": 0.005232285468516267,
8246
- "grad_norm": 9.3125,
8247
- "learning_rate": 2.6139432534257994e-07,
8248
- "loss": 3.0003,
8249
- "step": 1177
8250
- },
8251
- {
8252
- "epoch": 0.005236730910715516,
8253
- "grad_norm": 9.75,
8254
- "learning_rate": 2.616165994287556e-07,
8255
- "loss": 2.9723,
8256
- "step": 1178
8257
- },
8258
- {
8259
- "epoch": 0.005241176352914765,
8260
- "grad_norm": 9.4375,
8261
- "learning_rate": 2.618388735149313e-07,
8262
- "loss": 3.0696,
8263
- "step": 1179
8264
- },
8265
- {
8266
- "epoch": 0.005245621795114014,
8267
- "grad_norm": 8.5625,
8268
- "learning_rate": 2.620611476011069e-07,
8269
- "loss": 3.104,
8270
- "step": 1180
8271
- },
8272
- {
8273
- "epoch": 0.005250067237313263,
8274
- "grad_norm": 12.1875,
8275
- "learning_rate": 2.622834216872826e-07,
8276
- "loss": 2.8341,
8277
- "step": 1181
8278
- },
8279
- {
8280
- "epoch": 0.0052545126795125125,
8281
- "grad_norm": 11.1875,
8282
- "learning_rate": 2.625056957734583e-07,
8283
- "loss": 2.935,
8284
- "step": 1182
8285
- },
8286
- {
8287
- "epoch": 0.005258958121711762,
8288
- "grad_norm": 9.5,
8289
- "learning_rate": 2.6272796985963395e-07,
8290
- "loss": 2.9294,
8291
- "step": 1183
8292
- },
8293
- {
8294
- "epoch": 0.0052634035639110115,
8295
- "grad_norm": 9.5625,
8296
- "learning_rate": 2.629502439458096e-07,
8297
- "loss": 3.052,
8298
- "step": 1184
8299
- },
8300
- {
8301
- "epoch": 0.0052678490061102605,
8302
- "grad_norm": 10.375,
8303
- "learning_rate": 2.6317251803198526e-07,
8304
- "loss": 3.006,
8305
- "step": 1185
8306
- },
8307
- {
8308
- "epoch": 0.00527229444830951,
8309
- "grad_norm": 9.8125,
8310
- "learning_rate": 2.6339479211816093e-07,
8311
- "loss": 3.0649,
8312
- "step": 1186
8313
- },
8314
- {
8315
- "epoch": 0.005276739890508759,
8316
- "grad_norm": 7.0,
8317
- "learning_rate": 2.636170662043366e-07,
8318
- "loss": 3.393,
8319
- "step": 1187
8320
- },
8321
- {
8322
- "epoch": 0.005281185332708008,
8323
- "grad_norm": 10.6875,
8324
- "learning_rate": 2.638393402905123e-07,
8325
- "loss": 3.0712,
8326
- "step": 1188
8327
- },
8328
- {
8329
- "epoch": 0.005285630774907257,
8330
- "grad_norm": 6.8125,
8331
- "learning_rate": 2.640616143766879e-07,
8332
- "loss": 3.2026,
8333
- "step": 1189
8334
- },
8335
- {
8336
- "epoch": 0.005290076217106506,
8337
- "grad_norm": 10.25,
8338
- "learning_rate": 2.6428388846286354e-07,
8339
- "loss": 3.0145,
8340
- "step": 1190
8341
- },
8342
- {
8343
- "epoch": 0.005294521659305755,
8344
- "grad_norm": 8.8125,
8345
- "learning_rate": 2.645061625490392e-07,
8346
- "loss": 2.9562,
8347
- "step": 1191
8348
- },
8349
- {
8350
- "epoch": 0.005298967101505005,
8351
- "grad_norm": 9.25,
8352
- "learning_rate": 2.647284366352149e-07,
8353
- "loss": 3.1811,
8354
- "step": 1192
8355
- },
8356
- {
8357
- "epoch": 0.005303412543704254,
8358
- "grad_norm": 7.84375,
8359
- "learning_rate": 2.6495071072139057e-07,
8360
- "loss": 3.1817,
8361
- "step": 1193
8362
- },
8363
- {
8364
- "epoch": 0.005307857985903503,
8365
- "grad_norm": 13.125,
8366
- "learning_rate": 2.651729848075662e-07,
8367
- "loss": 2.6848,
8368
- "step": 1194
8369
- },
8370
- {
8371
- "epoch": 0.005312303428102752,
8372
- "grad_norm": 8.8125,
8373
- "learning_rate": 2.653952588937419e-07,
8374
- "loss": 3.0787,
8375
- "step": 1195
8376
- },
8377
- {
8378
- "epoch": 0.005316748870302001,
8379
- "grad_norm": 10.5,
8380
- "learning_rate": 2.6561753297991755e-07,
8381
- "loss": 2.9864,
8382
- "step": 1196
8383
- },
8384
- {
8385
- "epoch": 0.00532119431250125,
8386
- "grad_norm": 8.5625,
8387
- "learning_rate": 2.6583980706609323e-07,
8388
- "loss": 3.0954,
8389
- "step": 1197
8390
- },
8391
- {
8392
- "epoch": 0.005325639754700499,
8393
- "grad_norm": 10.8125,
8394
- "learning_rate": 2.660620811522689e-07,
8395
- "loss": 2.9631,
8396
- "step": 1198
8397
- },
8398
- {
8399
- "epoch": 0.005330085196899748,
8400
- "grad_norm": 10.5,
8401
- "learning_rate": 2.6628435523844453e-07,
8402
- "loss": 2.9371,
8403
- "step": 1199
8404
- },
8405
- {
8406
- "epoch": 0.005334530639098998,
8407
- "grad_norm": 10.6875,
8408
- "learning_rate": 2.665066293246202e-07,
8409
- "loss": 3.0277,
8410
- "step": 1200
8411
- },
8412
- {
8413
- "epoch": 0.005338976081298247,
8414
- "grad_norm": 12.25,
8415
- "learning_rate": 2.667289034107959e-07,
8416
- "loss": 2.7114,
8417
- "step": 1201
8418
- },
8419
- {
8420
- "epoch": 0.005343421523497496,
8421
- "grad_norm": 8.5,
8422
- "learning_rate": 2.6695117749697157e-07,
8423
- "loss": 3.0918,
8424
- "step": 1202
8425
- },
8426
- {
8427
- "epoch": 0.005347866965696745,
8428
- "grad_norm": 8.9375,
8429
- "learning_rate": 2.671734515831472e-07,
8430
- "loss": 3.2499,
8431
- "step": 1203
8432
- },
8433
- {
8434
- "epoch": 0.0053523124078959945,
8435
- "grad_norm": 9.5625,
8436
- "learning_rate": 2.6739572566932287e-07,
8437
- "loss": 3.0669,
8438
- "step": 1204
8439
- },
8440
- {
8441
- "epoch": 0.0053567578500952435,
8442
- "grad_norm": 10.1875,
8443
- "learning_rate": 2.6761799975549855e-07,
8444
- "loss": 3.0489,
8445
- "step": 1205
8446
- },
8447
- {
8448
- "epoch": 0.005361203292294493,
8449
- "grad_norm": 10.1875,
8450
- "learning_rate": 2.678402738416742e-07,
8451
- "loss": 2.9393,
8452
- "step": 1206
8453
- },
8454
- {
8455
- "epoch": 0.005365648734493742,
8456
- "grad_norm": 9.375,
8457
- "learning_rate": 2.6806254792784985e-07,
8458
- "loss": 3.0972,
8459
- "step": 1207
8460
- },
8461
- {
8462
- "epoch": 0.005370094176692991,
8463
- "grad_norm": 10.5,
8464
- "learning_rate": 2.6828482201402553e-07,
8465
- "loss": 2.9102,
8466
- "step": 1208
8467
- },
8468
- {
8469
- "epoch": 0.005374539618892241,
8470
- "grad_norm": 10.6875,
8471
- "learning_rate": 2.6850709610020115e-07,
8472
- "loss": 3.0099,
8473
- "step": 1209
8474
- },
8475
- {
8476
- "epoch": 0.00537898506109149,
8477
- "grad_norm": 10.5,
8478
- "learning_rate": 2.6872937018637683e-07,
8479
- "loss": 2.9322,
8480
- "step": 1210
8481
- },
8482
- {
8483
- "epoch": 0.005383430503290739,
8484
- "grad_norm": 10.375,
8485
- "learning_rate": 2.689516442725525e-07,
8486
- "loss": 2.9966,
8487
- "step": 1211
8488
- },
8489
- {
8490
- "epoch": 0.005387875945489988,
8491
- "grad_norm": 10.6875,
8492
- "learning_rate": 2.691739183587282e-07,
8493
- "loss": 2.9666,
8494
- "step": 1212
8495
- },
8496
- {
8497
- "epoch": 0.005392321387689237,
8498
- "grad_norm": 11.5,
8499
- "learning_rate": 2.693961924449038e-07,
8500
- "loss": 2.8478,
8501
- "step": 1213
8502
- },
8503
- {
8504
- "epoch": 0.005396766829888486,
8505
- "grad_norm": 10.375,
8506
- "learning_rate": 2.696184665310795e-07,
8507
- "loss": 2.9671,
8508
- "step": 1214
8509
- },
8510
- {
8511
- "epoch": 0.005401212272087735,
8512
- "grad_norm": 9.9375,
8513
- "learning_rate": 2.6984074061725517e-07,
8514
- "loss": 2.9147,
8515
- "step": 1215
8516
- },
8517
- {
8518
- "epoch": 0.005405657714286984,
8519
- "grad_norm": 9.875,
8520
- "learning_rate": 2.7006301470343084e-07,
8521
- "loss": 3.0142,
8522
- "step": 1216
8523
- },
8524
- {
8525
- "epoch": 0.005410103156486234,
8526
- "grad_norm": 9.875,
8527
- "learning_rate": 2.7028528878960647e-07,
8528
- "loss": 3.0616,
8529
- "step": 1217
8530
- },
8531
- {
8532
- "epoch": 0.005414548598685483,
8533
- "grad_norm": 8.0,
8534
- "learning_rate": 2.7050756287578215e-07,
8535
- "loss": 3.2485,
8536
- "step": 1218
8537
- },
8538
- {
8539
- "epoch": 0.005418994040884732,
8540
- "grad_norm": 5.375,
8541
- "learning_rate": 2.707298369619578e-07,
8542
- "loss": 3.5312,
8543
- "step": 1219
8544
- },
8545
- {
8546
- "epoch": 0.005423439483083981,
8547
- "grad_norm": 9.375,
8548
- "learning_rate": 2.709521110481335e-07,
8549
- "loss": 3.0494,
8550
- "step": 1220
8551
- },
8552
- {
8553
- "epoch": 0.00542788492528323,
8554
- "grad_norm": 9.375,
8555
- "learning_rate": 2.7117438513430913e-07,
8556
- "loss": 3.1738,
8557
- "step": 1221
8558
- },
8559
- {
8560
- "epoch": 0.005432330367482479,
8561
- "grad_norm": 11.75,
8562
- "learning_rate": 2.713966592204848e-07,
8563
- "loss": 2.8339,
8564
- "step": 1222
8565
- },
8566
- {
8567
- "epoch": 0.005436775809681728,
8568
- "grad_norm": 10.75,
8569
- "learning_rate": 2.7161893330666043e-07,
8570
- "loss": 2.9493,
8571
- "step": 1223
8572
- },
8573
- {
8574
- "epoch": 0.0054412212518809774,
8575
- "grad_norm": 8.5,
8576
- "learning_rate": 2.718412073928361e-07,
8577
- "loss": 3.2086,
8578
- "step": 1224
8579
- },
8580
- {
8581
- "epoch": 0.0054456666940802265,
8582
- "grad_norm": 10.6875,
8583
- "learning_rate": 2.720634814790118e-07,
8584
- "loss": 2.8396,
8585
- "step": 1225
8586
- },
8587
- {
8588
- "epoch": 0.005450112136279476,
8589
- "grad_norm": 11.375,
8590
- "learning_rate": 2.7228575556518746e-07,
8591
- "loss": 2.7995,
8592
- "step": 1226
8593
- },
8594
- {
8595
- "epoch": 0.0054545575784787255,
8596
- "grad_norm": 10.125,
8597
- "learning_rate": 2.725080296513631e-07,
8598
- "loss": 2.9795,
8599
- "step": 1227
8600
- },
8601
- {
8602
- "epoch": 0.0054590030206779746,
8603
- "grad_norm": 9.125,
8604
- "learning_rate": 2.7273030373753877e-07,
8605
- "loss": 3.1222,
8606
- "step": 1228
8607
- },
8608
- {
8609
- "epoch": 0.005463448462877224,
8610
- "grad_norm": 9.8125,
8611
- "learning_rate": 2.7295257782371444e-07,
8612
- "loss": 3.0153,
8613
- "step": 1229
8614
- },
8615
- {
8616
- "epoch": 0.005467893905076473,
8617
- "grad_norm": 9.75,
8618
- "learning_rate": 2.731748519098901e-07,
8619
- "loss": 3.1154,
8620
- "step": 1230
8621
- },
8622
- {
8623
- "epoch": 0.005472339347275722,
8624
- "grad_norm": 10.0625,
8625
- "learning_rate": 2.7339712599606575e-07,
8626
- "loss": 2.9918,
8627
- "step": 1231
8628
- },
8629
- {
8630
- "epoch": 0.005476784789474971,
8631
- "grad_norm": 8.875,
8632
- "learning_rate": 2.736194000822414e-07,
8633
- "loss": 3.2199,
8634
- "step": 1232
8635
- },
8636
- {
8637
- "epoch": 0.00548123023167422,
8638
- "grad_norm": 10.375,
8639
- "learning_rate": 2.738416741684171e-07,
8640
- "loss": 2.9295,
8641
- "step": 1233
8642
- },
8643
- {
8644
- "epoch": 0.00548567567387347,
8645
- "grad_norm": 11.25,
8646
- "learning_rate": 2.740639482545928e-07,
8647
- "loss": 2.8678,
8648
- "step": 1234
8649
- },
8650
- {
8651
- "epoch": 0.005490121116072719,
8652
- "grad_norm": 10.125,
8653
- "learning_rate": 2.7428622234076846e-07,
8654
- "loss": 3.1695,
8655
- "step": 1235
8656
- },
8657
- {
8658
- "epoch": 0.005494566558271968,
8659
- "grad_norm": 10.0625,
8660
- "learning_rate": 2.745084964269441e-07,
8661
- "loss": 3.0594,
8662
- "step": 1236
8663
- },
8664
- {
8665
- "epoch": 0.005499012000471217,
8666
- "grad_norm": 9.0,
8667
- "learning_rate": 2.7473077051311976e-07,
8668
- "loss": 2.9845,
8669
- "step": 1237
8670
- },
8671
- {
8672
- "epoch": 0.005503457442670466,
8673
- "grad_norm": 8.5625,
8674
- "learning_rate": 2.7495304459929544e-07,
8675
- "loss": 3.0625,
8676
- "step": 1238
8677
- },
8678
- {
8679
- "epoch": 0.005507902884869715,
8680
- "grad_norm": 9.5625,
8681
- "learning_rate": 2.751753186854711e-07,
8682
- "loss": 3.0609,
8683
- "step": 1239
8684
- },
8685
- {
8686
- "epoch": 0.005512348327068964,
8687
- "grad_norm": 9.25,
8688
- "learning_rate": 2.7539759277164674e-07,
8689
- "loss": 3.0943,
8690
- "step": 1240
8691
- },
8692
- {
8693
- "epoch": 0.005516793769268213,
8694
- "grad_norm": 12.375,
8695
- "learning_rate": 2.7561986685782237e-07,
8696
- "loss": 2.8101,
8697
- "step": 1241
8698
- },
8699
- {
8700
- "epoch": 0.005521239211467462,
8701
- "grad_norm": 10.0625,
8702
- "learning_rate": 2.7584214094399804e-07,
8703
- "loss": 3.0231,
8704
- "step": 1242
8705
- },
8706
- {
8707
- "epoch": 0.005525684653666712,
8708
- "grad_norm": 8.8125,
8709
- "learning_rate": 2.760644150301737e-07,
8710
- "loss": 3.1517,
8711
- "step": 1243
8712
- },
8713
- {
8714
- "epoch": 0.005530130095865961,
8715
- "grad_norm": 8.0625,
8716
- "learning_rate": 2.762866891163494e-07,
8717
- "loss": 3.2189,
8718
- "step": 1244
8719
- },
8720
- {
8721
- "epoch": 0.00553457553806521,
8722
- "grad_norm": 9.4375,
8723
- "learning_rate": 2.76508963202525e-07,
8724
- "loss": 3.0806,
8725
- "step": 1245
8726
- },
8727
- {
8728
- "epoch": 0.005539020980264459,
8729
- "grad_norm": 9.125,
8730
- "learning_rate": 2.767312372887007e-07,
8731
- "loss": 3.1077,
8732
- "step": 1246
8733
- },
8734
- {
8735
- "epoch": 0.0055434664224637085,
8736
- "grad_norm": 10.75,
8737
- "learning_rate": 2.769535113748764e-07,
8738
- "loss": 2.8885,
8739
- "step": 1247
8740
- },
8741
- {
8742
- "epoch": 0.0055479118646629575,
8743
- "grad_norm": 10.125,
8744
- "learning_rate": 2.7717578546105206e-07,
8745
- "loss": 2.9466,
8746
- "step": 1248
8747
- },
8748
- {
8749
- "epoch": 0.005552357306862207,
8750
- "grad_norm": 9.6875,
8751
- "learning_rate": 2.7739805954722774e-07,
8752
- "loss": 3.0036,
8753
- "step": 1249
8754
- },
8755
- {
8756
- "epoch": 0.005556802749061456,
8757
- "grad_norm": 9.6875,
8758
- "learning_rate": 2.7762033363340336e-07,
8759
- "loss": 3.0176,
8760
- "step": 1250
8761
- },
8762
- {
8763
- "epoch": 0.005561248191260706,
8764
- "grad_norm": 10.875,
8765
- "learning_rate": 2.7784260771957904e-07,
8766
- "loss": 2.9511,
8767
- "step": 1251
8768
- },
8769
- {
8770
- "epoch": 0.005565693633459955,
8771
- "grad_norm": 9.4375,
8772
- "learning_rate": 2.780648818057547e-07,
8773
- "loss": 3.2522,
8774
- "step": 1252
8775
- },
8776
- {
8777
- "epoch": 0.005570139075659204,
8778
- "grad_norm": 7.1875,
8779
- "learning_rate": 2.782871558919304e-07,
8780
- "loss": 3.3091,
8781
- "step": 1253
8782
- },
8783
- {
8784
- "epoch": 0.005574584517858453,
8785
- "grad_norm": 7.90625,
8786
- "learning_rate": 2.78509429978106e-07,
8787
- "loss": 3.1846,
8788
- "step": 1254
8789
- },
8790
- {
8791
- "epoch": 0.005579029960057702,
8792
- "grad_norm": 8.625,
8793
- "learning_rate": 2.787317040642817e-07,
8794
- "loss": 3.1589,
8795
- "step": 1255
8796
- },
8797
- {
8798
- "epoch": 0.005583475402256951,
8799
- "grad_norm": 8.0,
8800
- "learning_rate": 2.789539781504574e-07,
8801
- "loss": 3.2919,
8802
- "step": 1256
8803
- },
8804
- {
8805
- "epoch": 0.0055879208444562,
8806
- "grad_norm": 10.125,
8807
- "learning_rate": 2.79176252236633e-07,
8808
- "loss": 2.9361,
8809
- "step": 1257
8810
- },
8811
- {
8812
- "epoch": 0.005592366286655449,
8813
- "grad_norm": 8.375,
8814
- "learning_rate": 2.793985263228087e-07,
8815
- "loss": 3.2461,
8816
- "step": 1258
8817
- },
8818
- {
8819
- "epoch": 0.005596811728854698,
8820
- "grad_norm": 8.125,
8821
- "learning_rate": 2.7962080040898435e-07,
8822
- "loss": 3.2751,
8823
- "step": 1259
8824
- },
8825
- {
8826
- "epoch": 0.005601257171053948,
8827
- "grad_norm": 9.9375,
8828
- "learning_rate": 2.7984307449516e-07,
8829
- "loss": 2.9777,
8830
- "step": 1260
8831
- },
8832
- {
8833
- "epoch": 0.005605702613253197,
8834
- "grad_norm": 9.625,
8835
- "learning_rate": 2.8006534858133566e-07,
8836
- "loss": 3.2067,
8837
- "step": 1261
8838
- },
8839
- {
8840
- "epoch": 0.005610148055452446,
8841
- "grad_norm": 8.625,
8842
- "learning_rate": 2.8028762266751134e-07,
8843
- "loss": 3.229,
8844
- "step": 1262
8845
- },
8846
- {
8847
- "epoch": 0.005614593497651695,
8848
- "grad_norm": 9.0,
8849
- "learning_rate": 2.80509896753687e-07,
8850
- "loss": 3.2134,
8851
- "step": 1263
8852
- },
8853
- {
8854
- "epoch": 0.005619038939850944,
8855
- "grad_norm": 9.8125,
8856
- "learning_rate": 2.8073217083986264e-07,
8857
- "loss": 2.9657,
8858
- "step": 1264
8859
- },
8860
- {
8861
- "epoch": 0.005623484382050193,
8862
- "grad_norm": 9.1875,
8863
- "learning_rate": 2.809544449260383e-07,
8864
- "loss": 3.1097,
8865
- "step": 1265
8866
- },
8867
- {
8868
- "epoch": 0.005627929824249442,
8869
- "grad_norm": 9.25,
8870
- "learning_rate": 2.81176719012214e-07,
8871
- "loss": 3.0363,
8872
- "step": 1266
8873
- },
8874
- {
8875
- "epoch": 0.0056323752664486915,
8876
- "grad_norm": 9.9375,
8877
- "learning_rate": 2.8139899309838967e-07,
8878
- "loss": 2.9348,
8879
- "step": 1267
8880
- },
8881
- {
8882
- "epoch": 0.005636820708647941,
8883
- "grad_norm": 12.4375,
8884
- "learning_rate": 2.816212671845653e-07,
8885
- "loss": 2.815,
8886
- "step": 1268
8887
- },
8888
- {
8889
- "epoch": 0.0056412661508471905,
8890
- "grad_norm": 8.4375,
8891
- "learning_rate": 2.81843541270741e-07,
8892
- "loss": 3.2688,
8893
- "step": 1269
8894
- },
8895
- {
8896
- "epoch": 0.0056457115930464395,
8897
- "grad_norm": 10.8125,
8898
- "learning_rate": 2.8206581535691665e-07,
8899
- "loss": 3.0391,
8900
- "step": 1270
8901
  }
8902
  ],
8903
  "logging_steps": 1,
@@ -8917,7 +6677,7 @@
8917
  "attributes": {}
8918
  }
8919
  },
8920
- "total_flos": 5.02759358988288e+16,
8921
  "train_batch_size": 1,
8922
  "trial_name": null,
8923
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.0042231700892867065,
6
  "eval_steps": 500,
7
+ "global_step": 950,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
6658
  "learning_rate": 1.999998627690604e-05,
6659
  "loss": 3.2958,
6660
  "step": 950
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6661
  }
6662
  ],
6663
  "logging_steps": 1,
 
6677
  "attributes": {}
6678
  }
6679
  },
6680
+ "total_flos": 3.7607983546368e+16,
6681
  "train_batch_size": 1,
6682
  "trial_name": null,
6683
  "trial_params": null
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:772281a0c416a6c1a28f6c3f2b6313b604493854a390385ab66989ed0ecae447
3
  size 936503576
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:036e350a579edc8b1bc40b9b45e2c632438b63ee5661b74536e935a466f1a714
3
  size 936503576
runs/Oct07_09-14-32_f65583a4593c/events.out.tfevents.1759828480.f65583a4593c.219.0 CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bb62f248b20e396e5f50240de34929229feaa891c7fedd628726cf1583a91931
3
- size 73956
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:11712199e1c259151a3cbeb7ab70bc5929b75a63b45527de5c2e2cae5b66566d
3
+ size 76066