ErrorAI commited on
Commit
5262317
·
verified ·
1 Parent(s): db7ffa4

Training in progress, step 931, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0b098c267df4058757e013da2353ed0e41ef6d403ed82445ed658dcf91b1ba7d
3
  size 14293800
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3da7b0f8965c3847c1eb3d447c49d4a2fefd69cb36beae15480bc6a81c95e32f
3
  size 14293800
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e04bd14d7c7ad63b28c7159a22b510d6fc239bb5d11f324e22a1faef3024d006
3
  size 7580068
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:924b8dc63c310339560add3c51f706b25470c2fbae8609a05e92f2a16677a20e
3
  size 7580068
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:17a9390150a36562e39e016d5aad5d61ae4c54518262bb0bae25d0421c3afecd
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:364dd5e98eeed3542841a03e83c164bd5c8688a6a3b54580f2a6113076669add
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:876db3afeec1a47b9cd23534bb10590b976ccab59f5486942f107d4e7111af82
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:72aeb0c6de0d18ab3aae0e2eab94b9cced4c1ed177eda63ddb050f2b052ee0e2
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7514109110454179,
5
  "eval_steps": 233,
6
- "global_step": 699,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -4932,6 +4932,1630 @@
4932
  "eval_samples_per_second": 70.026,
4933
  "eval_steps_per_second": 35.013,
4934
  "step": 699
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
4935
  }
4936
  ],
4937
  "logging_steps": 1,
@@ -4946,12 +6570,12 @@
4946
  "should_evaluate": false,
4947
  "should_log": false,
4948
  "should_save": true,
4949
- "should_training_stop": false
4950
  },
4951
  "attributes": {}
4952
  }
4953
  },
4954
- "total_flos": 5272488565014528.0,
4955
  "train_batch_size": 2,
4956
  "trial_name": null,
4957
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.000806234883096,
5
  "eval_steps": 233,
6
+ "global_step": 931,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
4932
  "eval_samples_per_second": 70.026,
4933
  "eval_steps_per_second": 35.013,
4934
  "step": 699
4935
+ },
4936
+ {
4937
+ "epoch": 0.7524858908895459,
4938
+ "grad_norm": 13.654646873474121,
4939
+ "learning_rate": 2.9470452223481204e-05,
4940
+ "loss": 2.9831,
4941
+ "step": 700
4942
+ },
4943
+ {
4944
+ "epoch": 0.7535608707336737,
4945
+ "grad_norm": 9.951108932495117,
4946
+ "learning_rate": 2.922904788530293e-05,
4947
+ "loss": 2.2996,
4948
+ "step": 701
4949
+ },
4950
+ {
4951
+ "epoch": 0.7546358505778017,
4952
+ "grad_norm": 9.867563247680664,
4953
+ "learning_rate": 2.8988466993083097e-05,
4954
+ "loss": 2.1596,
4955
+ "step": 702
4956
+ },
4957
+ {
4958
+ "epoch": 0.7557108304219295,
4959
+ "grad_norm": 14.348727226257324,
4960
+ "learning_rate": 2.8748712346068464e-05,
4961
+ "loss": 2.8225,
4962
+ "step": 703
4963
+ },
4964
+ {
4965
+ "epoch": 0.7567858102660575,
4966
+ "grad_norm": 14.35478687286377,
4967
+ "learning_rate": 2.8509786733892264e-05,
4968
+ "loss": 2.9542,
4969
+ "step": 704
4970
+ },
4971
+ {
4972
+ "epoch": 0.7578607901101855,
4973
+ "grad_norm": 23.562644958496094,
4974
+ "learning_rate": 2.827169293654147e-05,
4975
+ "loss": 4.984,
4976
+ "step": 705
4977
+ },
4978
+ {
4979
+ "epoch": 0.7589357699543133,
4980
+ "grad_norm": 11.014055252075195,
4981
+ "learning_rate": 2.8034433724324715e-05,
4982
+ "loss": 2.2337,
4983
+ "step": 706
4984
+ },
4985
+ {
4986
+ "epoch": 0.7600107497984413,
4987
+ "grad_norm": 14.4437837600708,
4988
+ "learning_rate": 2.77980118578398e-05,
4989
+ "loss": 2.8005,
4990
+ "step": 707
4991
+ },
4992
+ {
4993
+ "epoch": 0.7610857296425692,
4994
+ "grad_norm": 14.065092086791992,
4995
+ "learning_rate": 2.7562430087941814e-05,
4996
+ "loss": 3.0488,
4997
+ "step": 708
4998
+ },
4999
+ {
5000
+ "epoch": 0.7621607094866971,
5001
+ "grad_norm": 18.38102912902832,
5002
+ "learning_rate": 2.7327691155710976e-05,
5003
+ "loss": 2.857,
5004
+ "step": 709
5005
+ },
5006
+ {
5007
+ "epoch": 0.7632356893308251,
5008
+ "grad_norm": 15.708161354064941,
5009
+ "learning_rate": 2.7093797792420728e-05,
5010
+ "loss": 3.3492,
5011
+ "step": 710
5012
+ },
5013
+ {
5014
+ "epoch": 0.7643106691749529,
5015
+ "grad_norm": 13.264737129211426,
5016
+ "learning_rate": 2.68607527195061e-05,
5017
+ "loss": 2.2699,
5018
+ "step": 711
5019
+ },
5020
+ {
5021
+ "epoch": 0.7653856490190809,
5022
+ "grad_norm": 22.40721893310547,
5023
+ "learning_rate": 2.6628558648531843e-05,
5024
+ "loss": 3.6175,
5025
+ "step": 712
5026
+ },
5027
+ {
5028
+ "epoch": 0.7664606288632088,
5029
+ "grad_norm": 16.45822525024414,
5030
+ "learning_rate": 2.639721828116112e-05,
5031
+ "loss": 1.7208,
5032
+ "step": 713
5033
+ },
5034
+ {
5035
+ "epoch": 0.7675356087073367,
5036
+ "grad_norm": 15.185565948486328,
5037
+ "learning_rate": 2.6166734309123787e-05,
5038
+ "loss": 2.439,
5039
+ "step": 714
5040
+ },
5041
+ {
5042
+ "epoch": 0.7686105885514647,
5043
+ "grad_norm": 13.136150360107422,
5044
+ "learning_rate": 2.5937109414185366e-05,
5045
+ "loss": 2.9833,
5046
+ "step": 715
5047
+ },
5048
+ {
5049
+ "epoch": 0.7696855683955925,
5050
+ "grad_norm": 13.081589698791504,
5051
+ "learning_rate": 2.5708346268115647e-05,
5052
+ "loss": 2.4198,
5053
+ "step": 716
5054
+ },
5055
+ {
5056
+ "epoch": 0.7707605482397205,
5057
+ "grad_norm": 10.561399459838867,
5058
+ "learning_rate": 2.5480447532657624e-05,
5059
+ "loss": 2.3794,
5060
+ "step": 717
5061
+ },
5062
+ {
5063
+ "epoch": 0.7718355280838485,
5064
+ "grad_norm": 15.137680053710938,
5065
+ "learning_rate": 2.525341585949662e-05,
5066
+ "loss": 2.6444,
5067
+ "step": 718
5068
+ },
5069
+ {
5070
+ "epoch": 0.7729105079279763,
5071
+ "grad_norm": 18.32636070251465,
5072
+ "learning_rate": 2.5027253890229285e-05,
5073
+ "loss": 2.978,
5074
+ "step": 719
5075
+ },
5076
+ {
5077
+ "epoch": 0.7739854877721043,
5078
+ "grad_norm": 14.093949317932129,
5079
+ "learning_rate": 2.4801964256333053e-05,
5080
+ "loss": 2.4359,
5081
+ "step": 720
5082
+ },
5083
+ {
5084
+ "epoch": 0.7750604676162322,
5085
+ "grad_norm": 15.987081527709961,
5086
+ "learning_rate": 2.457754957913532e-05,
5087
+ "loss": 3.6221,
5088
+ "step": 721
5089
+ },
5090
+ {
5091
+ "epoch": 0.7761354474603601,
5092
+ "grad_norm": 14.7132568359375,
5093
+ "learning_rate": 2.4354012469783094e-05,
5094
+ "loss": 2.7112,
5095
+ "step": 722
5096
+ },
5097
+ {
5098
+ "epoch": 0.7772104273044881,
5099
+ "grad_norm": 15.25096321105957,
5100
+ "learning_rate": 2.4131355529212573e-05,
5101
+ "loss": 2.8029,
5102
+ "step": 723
5103
+ },
5104
+ {
5105
+ "epoch": 0.7782854071486159,
5106
+ "grad_norm": 11.852306365966797,
5107
+ "learning_rate": 2.3909581348118805e-05,
5108
+ "loss": 2.6288,
5109
+ "step": 724
5110
+ },
5111
+ {
5112
+ "epoch": 0.7793603869927439,
5113
+ "grad_norm": 14.22082805633545,
5114
+ "learning_rate": 2.368869250692567e-05,
5115
+ "loss": 2.6691,
5116
+ "step": 725
5117
+ },
5118
+ {
5119
+ "epoch": 0.7804353668368718,
5120
+ "grad_norm": 14.895218849182129,
5121
+ "learning_rate": 2.346869157575574e-05,
5122
+ "loss": 2.223,
5123
+ "step": 726
5124
+ },
5125
+ {
5126
+ "epoch": 0.7815103466809997,
5127
+ "grad_norm": 11.507866859436035,
5128
+ "learning_rate": 2.324958111440051e-05,
5129
+ "loss": 2.4171,
5130
+ "step": 727
5131
+ },
5132
+ {
5133
+ "epoch": 0.7825853265251277,
5134
+ "grad_norm": 10.818052291870117,
5135
+ "learning_rate": 2.3031363672290406e-05,
5136
+ "loss": 2.4578,
5137
+ "step": 728
5138
+ },
5139
+ {
5140
+ "epoch": 0.7836603063692555,
5141
+ "grad_norm": 14.49646282196045,
5142
+ "learning_rate": 2.28140417884654e-05,
5143
+ "loss": 3.3386,
5144
+ "step": 729
5145
+ },
5146
+ {
5147
+ "epoch": 0.7847352862133835,
5148
+ "grad_norm": 16.65618896484375,
5149
+ "learning_rate": 2.2597617991545162e-05,
5150
+ "loss": 2.4579,
5151
+ "step": 730
5152
+ },
5153
+ {
5154
+ "epoch": 0.7858102660575115,
5155
+ "grad_norm": 21.370105743408203,
5156
+ "learning_rate": 2.2382094799699917e-05,
5157
+ "loss": 2.0147,
5158
+ "step": 731
5159
+ },
5160
+ {
5161
+ "epoch": 0.7868852459016393,
5162
+ "grad_norm": 18.23256492614746,
5163
+ "learning_rate": 2.2167474720620974e-05,
5164
+ "loss": 2.8713,
5165
+ "step": 732
5166
+ },
5167
+ {
5168
+ "epoch": 0.7879602257457673,
5169
+ "grad_norm": 13.314383506774902,
5170
+ "learning_rate": 2.1953760251491563e-05,
5171
+ "loss": 2.5137,
5172
+ "step": 733
5173
+ },
5174
+ {
5175
+ "epoch": 0.7890352055898951,
5176
+ "grad_norm": 13.909300804138184,
5177
+ "learning_rate": 2.174095387895786e-05,
5178
+ "loss": 2.7543,
5179
+ "step": 734
5180
+ },
5181
+ {
5182
+ "epoch": 0.7901101854340231,
5183
+ "grad_norm": 12.180556297302246,
5184
+ "learning_rate": 2.152905807909995e-05,
5185
+ "loss": 2.0877,
5186
+ "step": 735
5187
+ },
5188
+ {
5189
+ "epoch": 0.7911851652781511,
5190
+ "grad_norm": 22.62627410888672,
5191
+ "learning_rate": 2.131807531740315e-05,
5192
+ "loss": 4.0689,
5193
+ "step": 736
5194
+ },
5195
+ {
5196
+ "epoch": 0.7922601451222789,
5197
+ "grad_norm": 15.548689842224121,
5198
+ "learning_rate": 2.1108008048729145e-05,
5199
+ "loss": 3.4416,
5200
+ "step": 737
5201
+ },
5202
+ {
5203
+ "epoch": 0.7933351249664069,
5204
+ "grad_norm": 17.072410583496094,
5205
+ "learning_rate": 2.0898858717287594e-05,
5206
+ "loss": 4.3289,
5207
+ "step": 738
5208
+ },
5209
+ {
5210
+ "epoch": 0.7944101048105348,
5211
+ "grad_norm": 12.466560363769531,
5212
+ "learning_rate": 2.0690629756607648e-05,
5213
+ "loss": 2.6264,
5214
+ "step": 739
5215
+ },
5216
+ {
5217
+ "epoch": 0.7954850846546627,
5218
+ "grad_norm": 10.822991371154785,
5219
+ "learning_rate": 2.0483323589509483e-05,
5220
+ "loss": 1.9285,
5221
+ "step": 740
5222
+ },
5223
+ {
5224
+ "epoch": 0.7965600644987907,
5225
+ "grad_norm": 16.706153869628906,
5226
+ "learning_rate": 2.0276942628076378e-05,
5227
+ "loss": 3.2333,
5228
+ "step": 741
5229
+ },
5230
+ {
5231
+ "epoch": 0.7976350443429185,
5232
+ "grad_norm": 13.810402870178223,
5233
+ "learning_rate": 2.0071489273626376e-05,
5234
+ "loss": 2.5904,
5235
+ "step": 742
5236
+ },
5237
+ {
5238
+ "epoch": 0.7987100241870465,
5239
+ "grad_norm": 15.366273880004883,
5240
+ "learning_rate": 1.9866965916684587e-05,
5241
+ "loss": 2.8742,
5242
+ "step": 743
5243
+ },
5244
+ {
5245
+ "epoch": 0.7997850040311744,
5246
+ "grad_norm": 11.5558500289917,
5247
+ "learning_rate": 1.966337493695516e-05,
5248
+ "loss": 2.3341,
5249
+ "step": 744
5250
+ },
5251
+ {
5252
+ "epoch": 0.8008599838753023,
5253
+ "grad_norm": 17.35418701171875,
5254
+ "learning_rate": 1.9460718703293768e-05,
5255
+ "loss": 2.6252,
5256
+ "step": 745
5257
+ },
5258
+ {
5259
+ "epoch": 0.8019349637194303,
5260
+ "grad_norm": 11.60128402709961,
5261
+ "learning_rate": 1.925899957367996e-05,
5262
+ "loss": 2.109,
5263
+ "step": 746
5264
+ },
5265
+ {
5266
+ "epoch": 0.8030099435635581,
5267
+ "grad_norm": 12.664255142211914,
5268
+ "learning_rate": 1.9058219895189666e-05,
5269
+ "loss": 2.339,
5270
+ "step": 747
5271
+ },
5272
+ {
5273
+ "epoch": 0.8040849234076861,
5274
+ "grad_norm": 16.977569580078125,
5275
+ "learning_rate": 1.8858382003968078e-05,
5276
+ "loss": 2.3301,
5277
+ "step": 748
5278
+ },
5279
+ {
5280
+ "epoch": 0.8051599032518141,
5281
+ "grad_norm": 12.833663940429688,
5282
+ "learning_rate": 1.8659488225202226e-05,
5283
+ "loss": 2.461,
5284
+ "step": 749
5285
+ },
5286
+ {
5287
+ "epoch": 0.8062348830959419,
5288
+ "grad_norm": 14.8052339553833,
5289
+ "learning_rate": 1.846154087309414e-05,
5290
+ "loss": 2.9448,
5291
+ "step": 750
5292
+ },
5293
+ {
5294
+ "epoch": 0.8073098629400699,
5295
+ "grad_norm": 16.044788360595703,
5296
+ "learning_rate": 1.826454225083375e-05,
5297
+ "loss": 2.9095,
5298
+ "step": 751
5299
+ },
5300
+ {
5301
+ "epoch": 0.8083848427841978,
5302
+ "grad_norm": 24.449602127075195,
5303
+ "learning_rate": 1.8068494650572243e-05,
5304
+ "loss": 3.3211,
5305
+ "step": 752
5306
+ },
5307
+ {
5308
+ "epoch": 0.8094598226283257,
5309
+ "grad_norm": 18.429533004760742,
5310
+ "learning_rate": 1.787340035339524e-05,
5311
+ "loss": 3.7572,
5312
+ "step": 753
5313
+ },
5314
+ {
5315
+ "epoch": 0.8105348024724537,
5316
+ "grad_norm": 18.038867950439453,
5317
+ "learning_rate": 1.7679261629296408e-05,
5318
+ "loss": 3.5666,
5319
+ "step": 754
5320
+ },
5321
+ {
5322
+ "epoch": 0.8116097823165815,
5323
+ "grad_norm": 17.882884979248047,
5324
+ "learning_rate": 1.7486080737150945e-05,
5325
+ "loss": 3.4553,
5326
+ "step": 755
5327
+ },
5328
+ {
5329
+ "epoch": 0.8126847621607095,
5330
+ "grad_norm": 18.42115592956543,
5331
+ "learning_rate": 1.7293859924689258e-05,
5332
+ "loss": 2.3743,
5333
+ "step": 756
5334
+ },
5335
+ {
5336
+ "epoch": 0.8137597420048374,
5337
+ "grad_norm": 10.389144897460938,
5338
+ "learning_rate": 1.7102601428470987e-05,
5339
+ "loss": 1.7921,
5340
+ "step": 757
5341
+ },
5342
+ {
5343
+ "epoch": 0.8148347218489653,
5344
+ "grad_norm": 19.917224884033203,
5345
+ "learning_rate": 1.691230747385878e-05,
5346
+ "loss": 4.1469,
5347
+ "step": 758
5348
+ },
5349
+ {
5350
+ "epoch": 0.8159097016930933,
5351
+ "grad_norm": 22.9906005859375,
5352
+ "learning_rate": 1.672298027499254e-05,
5353
+ "loss": 3.5433,
5354
+ "step": 759
5355
+ },
5356
+ {
5357
+ "epoch": 0.8169846815372211,
5358
+ "grad_norm": 9.970109939575195,
5359
+ "learning_rate": 1.653462203476356e-05,
5360
+ "loss": 1.9898,
5361
+ "step": 760
5362
+ },
5363
+ {
5364
+ "epoch": 0.8180596613813491,
5365
+ "grad_norm": 15.049894332885742,
5366
+ "learning_rate": 1.6347234944789014e-05,
5367
+ "loss": 3.014,
5368
+ "step": 761
5369
+ },
5370
+ {
5371
+ "epoch": 0.819134641225477,
5372
+ "grad_norm": 18.622976303100586,
5373
+ "learning_rate": 1.6160821185386364e-05,
5374
+ "loss": 2.6812,
5375
+ "step": 762
5376
+ },
5377
+ {
5378
+ "epoch": 0.8202096210696049,
5379
+ "grad_norm": 18.029285430908203,
5380
+ "learning_rate": 1.5975382925547965e-05,
5381
+ "loss": 2.8567,
5382
+ "step": 763
5383
+ },
5384
+ {
5385
+ "epoch": 0.8212846009137329,
5386
+ "grad_norm": 17.624483108520508,
5387
+ "learning_rate": 1.5790922322915958e-05,
5388
+ "loss": 3.039,
5389
+ "step": 764
5390
+ },
5391
+ {
5392
+ "epoch": 0.8223595807578608,
5393
+ "grad_norm": 21.21023178100586,
5394
+ "learning_rate": 1.5607441523756993e-05,
5395
+ "loss": 3.2504,
5396
+ "step": 765
5397
+ },
5398
+ {
5399
+ "epoch": 0.8234345606019887,
5400
+ "grad_norm": 15.159942626953125,
5401
+ "learning_rate": 1.5424942662937435e-05,
5402
+ "loss": 2.2915,
5403
+ "step": 766
5404
+ },
5405
+ {
5406
+ "epoch": 0.8245095404461167,
5407
+ "grad_norm": 16.94089126586914,
5408
+ "learning_rate": 1.5243427863898364e-05,
5409
+ "loss": 2.781,
5410
+ "step": 767
5411
+ },
5412
+ {
5413
+ "epoch": 0.8255845202902445,
5414
+ "grad_norm": 14.287386894226074,
5415
+ "learning_rate": 1.5062899238631e-05,
5416
+ "loss": 2.2052,
5417
+ "step": 768
5418
+ },
5419
+ {
5420
+ "epoch": 0.8266595001343725,
5421
+ "grad_norm": 23.06917953491211,
5422
+ "learning_rate": 1.4883358887652044e-05,
5423
+ "loss": 4.0856,
5424
+ "step": 769
5425
+ },
5426
+ {
5427
+ "epoch": 0.8277344799785004,
5428
+ "grad_norm": 14.637825012207031,
5429
+ "learning_rate": 1.4704808899979239e-05,
5430
+ "loss": 2.954,
5431
+ "step": 770
5432
+ },
5433
+ {
5434
+ "epoch": 0.8288094598226283,
5435
+ "grad_norm": 9.044286727905273,
5436
+ "learning_rate": 1.4527251353107163e-05,
5437
+ "loss": 1.8635,
5438
+ "step": 771
5439
+ },
5440
+ {
5441
+ "epoch": 0.8298844396667563,
5442
+ "grad_norm": 17.238901138305664,
5443
+ "learning_rate": 1.4350688312982864e-05,
5444
+ "loss": 2.5819,
5445
+ "step": 772
5446
+ },
5447
+ {
5448
+ "epoch": 0.8309594195108841,
5449
+ "grad_norm": 11.831186294555664,
5450
+ "learning_rate": 1.4175121833982052e-05,
5451
+ "loss": 2.4721,
5452
+ "step": 773
5453
+ },
5454
+ {
5455
+ "epoch": 0.8320343993550121,
5456
+ "grad_norm": 21.131061553955078,
5457
+ "learning_rate": 1.4000553958885021e-05,
5458
+ "loss": 4.1583,
5459
+ "step": 774
5460
+ },
5461
+ {
5462
+ "epoch": 0.83310937919914,
5463
+ "grad_norm": 15.86319637298584,
5464
+ "learning_rate": 1.3826986718852952e-05,
5465
+ "loss": 2.5534,
5466
+ "step": 775
5467
+ },
5468
+ {
5469
+ "epoch": 0.8341843590432679,
5470
+ "grad_norm": 16.642955780029297,
5471
+ "learning_rate": 1.365442213340432e-05,
5472
+ "loss": 2.3907,
5473
+ "step": 776
5474
+ },
5475
+ {
5476
+ "epoch": 0.8352593388873959,
5477
+ "grad_norm": 19.222917556762695,
5478
+ "learning_rate": 1.3482862210391245e-05,
5479
+ "loss": 3.667,
5480
+ "step": 777
5481
+ },
5482
+ {
5483
+ "epoch": 0.8363343187315238,
5484
+ "grad_norm": 18.172245025634766,
5485
+ "learning_rate": 1.3312308945976348e-05,
5486
+ "loss": 3.029,
5487
+ "step": 778
5488
+ },
5489
+ {
5490
+ "epoch": 0.8374092985756517,
5491
+ "grad_norm": 15.490896224975586,
5492
+ "learning_rate": 1.3142764324609303e-05,
5493
+ "loss": 3.208,
5494
+ "step": 779
5495
+ },
5496
+ {
5497
+ "epoch": 0.8384842784197797,
5498
+ "grad_norm": 18.96816062927246,
5499
+ "learning_rate": 1.2974230319003944e-05,
5500
+ "loss": 3.4618,
5501
+ "step": 780
5502
+ },
5503
+ {
5504
+ "epoch": 0.8395592582639075,
5505
+ "grad_norm": 21.89808464050293,
5506
+ "learning_rate": 1.2806708890115138e-05,
5507
+ "loss": 4.5078,
5508
+ "step": 781
5509
+ },
5510
+ {
5511
+ "epoch": 0.8406342381080355,
5512
+ "grad_norm": 14.64857006072998,
5513
+ "learning_rate": 1.2640201987116117e-05,
5514
+ "loss": 3.2866,
5515
+ "step": 782
5516
+ },
5517
+ {
5518
+ "epoch": 0.8417092179521634,
5519
+ "grad_norm": 15.451770782470703,
5520
+ "learning_rate": 1.2474711547375683e-05,
5521
+ "loss": 2.3176,
5522
+ "step": 783
5523
+ },
5524
+ {
5525
+ "epoch": 0.8427841977962913,
5526
+ "grad_norm": 12.625808715820312,
5527
+ "learning_rate": 1.2310239496435749e-05,
5528
+ "loss": 2.557,
5529
+ "step": 784
5530
+ },
5531
+ {
5532
+ "epoch": 0.8438591776404193,
5533
+ "grad_norm": 16.126930236816406,
5534
+ "learning_rate": 1.2146787747988919e-05,
5535
+ "loss": 2.9173,
5536
+ "step": 785
5537
+ },
5538
+ {
5539
+ "epoch": 0.8449341574845471,
5540
+ "grad_norm": 16.86185646057129,
5541
+ "learning_rate": 1.1984358203856116e-05,
5542
+ "loss": 2.4147,
5543
+ "step": 786
5544
+ },
5545
+ {
5546
+ "epoch": 0.8460091373286751,
5547
+ "grad_norm": 17.082571029663086,
5548
+ "learning_rate": 1.1822952753964667e-05,
5549
+ "loss": 2.9913,
5550
+ "step": 787
5551
+ },
5552
+ {
5553
+ "epoch": 0.847084117172803,
5554
+ "grad_norm": 15.173123359680176,
5555
+ "learning_rate": 1.1662573276326061e-05,
5556
+ "loss": 2.8246,
5557
+ "step": 788
5558
+ },
5559
+ {
5560
+ "epoch": 0.8481590970169309,
5561
+ "grad_norm": 17.791603088378906,
5562
+ "learning_rate": 1.1503221637014327e-05,
5563
+ "loss": 3.7321,
5564
+ "step": 789
5565
+ },
5566
+ {
5567
+ "epoch": 0.8492340768610589,
5568
+ "grad_norm": 16.170446395874023,
5569
+ "learning_rate": 1.134489969014414e-05,
5570
+ "loss": 3.1235,
5571
+ "step": 790
5572
+ },
5573
+ {
5574
+ "epoch": 0.8503090567051867,
5575
+ "grad_norm": 13.791912078857422,
5576
+ "learning_rate": 1.1187609277849376e-05,
5577
+ "loss": 2.7921,
5578
+ "step": 791
5579
+ },
5580
+ {
5581
+ "epoch": 0.8513840365493147,
5582
+ "grad_norm": 12.047784805297852,
5583
+ "learning_rate": 1.1031352230261637e-05,
5584
+ "loss": 1.8449,
5585
+ "step": 792
5586
+ },
5587
+ {
5588
+ "epoch": 0.8524590163934426,
5589
+ "grad_norm": 21.286800384521484,
5590
+ "learning_rate": 1.0876130365488878e-05,
5591
+ "loss": 3.6973,
5592
+ "step": 793
5593
+ },
5594
+ {
5595
+ "epoch": 0.8535339962375705,
5596
+ "grad_norm": 15.110943794250488,
5597
+ "learning_rate": 1.072194548959442e-05,
5598
+ "loss": 3.3045,
5599
+ "step": 794
5600
+ },
5601
+ {
5602
+ "epoch": 0.8546089760816985,
5603
+ "grad_norm": 11.98826789855957,
5604
+ "learning_rate": 1.0568799396575746e-05,
5605
+ "loss": 2.831,
5606
+ "step": 795
5607
+ },
5608
+ {
5609
+ "epoch": 0.8556839559258264,
5610
+ "grad_norm": 18.719282150268555,
5611
+ "learning_rate": 1.0416693868343797e-05,
5612
+ "loss": 3.2608,
5613
+ "step": 796
5614
+ },
5615
+ {
5616
+ "epoch": 0.8567589357699543,
5617
+ "grad_norm": 14.92679500579834,
5618
+ "learning_rate": 1.0265630674702076e-05,
5619
+ "loss": 2.494,
5620
+ "step": 797
5621
+ },
5622
+ {
5623
+ "epoch": 0.8578339156140823,
5624
+ "grad_norm": 12.818703651428223,
5625
+ "learning_rate": 1.0115611573326233e-05,
5626
+ "loss": 2.6008,
5627
+ "step": 798
5628
+ },
5629
+ {
5630
+ "epoch": 0.8589088954582101,
5631
+ "grad_norm": 17.74081039428711,
5632
+ "learning_rate": 9.966638309743482e-06,
5633
+ "loss": 3.2788,
5634
+ "step": 799
5635
+ },
5636
+ {
5637
+ "epoch": 0.8599838753023381,
5638
+ "grad_norm": 13.859757423400879,
5639
+ "learning_rate": 9.818712617312287e-06,
5640
+ "loss": 2.3176,
5641
+ "step": 800
5642
+ },
5643
+ {
5644
+ "epoch": 0.861058855146466,
5645
+ "grad_norm": 26.295276641845703,
5646
+ "learning_rate": 9.671836217202334e-06,
5647
+ "loss": 3.3959,
5648
+ "step": 801
5649
+ },
5650
+ {
5651
+ "epoch": 0.8621338349905939,
5652
+ "grad_norm": 15.147491455078125,
5653
+ "learning_rate": 9.52601081837431e-06,
5654
+ "loss": 3.1437,
5655
+ "step": 802
5656
+ },
5657
+ {
5658
+ "epoch": 0.8632088148347219,
5659
+ "grad_norm": 12.152910232543945,
5660
+ "learning_rate": 9.381238117560187e-06,
5661
+ "loss": 2.4838,
5662
+ "step": 803
5663
+ },
5664
+ {
5665
+ "epoch": 0.8642837946788497,
5666
+ "grad_norm": 28.314746856689453,
5667
+ "learning_rate": 9.237519799243355e-06,
5668
+ "loss": 3.2608,
5669
+ "step": 804
5670
+ },
5671
+ {
5672
+ "epoch": 0.8653587745229777,
5673
+ "grad_norm": 14.662104606628418,
5674
+ "learning_rate": 9.094857535639156e-06,
5675
+ "loss": 2.9242,
5676
+ "step": 805
5677
+ },
5678
+ {
5679
+ "epoch": 0.8664337543671056,
5680
+ "grad_norm": 13.321383476257324,
5681
+ "learning_rate": 8.95325298667523e-06,
5682
+ "loss": 2.8041,
5683
+ "step": 806
5684
+ },
5685
+ {
5686
+ "epoch": 0.8675087342112335,
5687
+ "grad_norm": 16.60413360595703,
5688
+ "learning_rate": 8.812707799972442e-06,
5689
+ "loss": 2.5522,
5690
+ "step": 807
5691
+ },
5692
+ {
5693
+ "epoch": 0.8685837140553615,
5694
+ "grad_norm": 16.389780044555664,
5695
+ "learning_rate": 8.673223610825531e-06,
5696
+ "loss": 2.647,
5697
+ "step": 808
5698
+ },
5699
+ {
5700
+ "epoch": 0.8696586938994894,
5701
+ "grad_norm": 10.362971305847168,
5702
+ "learning_rate": 8.53480204218412e-06,
5703
+ "loss": 2.1054,
5704
+ "step": 809
5705
+ },
5706
+ {
5707
+ "epoch": 0.8707336737436173,
5708
+ "grad_norm": 18.633100509643555,
5709
+ "learning_rate": 8.397444704633906e-06,
5710
+ "loss": 3.8698,
5711
+ "step": 810
5712
+ },
5713
+ {
5714
+ "epoch": 0.8718086535877452,
5715
+ "grad_norm": 14.801193237304688,
5716
+ "learning_rate": 8.261153196377814e-06,
5717
+ "loss": 2.1947,
5718
+ "step": 811
5719
+ },
5720
+ {
5721
+ "epoch": 0.8728836334318731,
5722
+ "grad_norm": 16.298856735229492,
5723
+ "learning_rate": 8.1259291032175e-06,
5724
+ "loss": 3.4508,
5725
+ "step": 812
5726
+ },
5727
+ {
5728
+ "epoch": 0.8739586132760011,
5729
+ "grad_norm": 17.139835357666016,
5730
+ "learning_rate": 7.991773998534802e-06,
5731
+ "loss": 2.6625,
5732
+ "step": 813
5733
+ },
5734
+ {
5735
+ "epoch": 0.875033593120129,
5736
+ "grad_norm": 14.451316833496094,
5737
+ "learning_rate": 7.858689443273547e-06,
5738
+ "loss": 2.5462,
5739
+ "step": 814
5740
+ },
5741
+ {
5742
+ "epoch": 0.8761085729642569,
5743
+ "grad_norm": 19.52531623840332,
5744
+ "learning_rate": 7.72667698592131e-06,
5745
+ "loss": 2.7614,
5746
+ "step": 815
5747
+ },
5748
+ {
5749
+ "epoch": 0.8771835528083849,
5750
+ "grad_norm": 23.297826766967773,
5751
+ "learning_rate": 7.595738162491383e-06,
5752
+ "loss": 2.0079,
5753
+ "step": 816
5754
+ },
5755
+ {
5756
+ "epoch": 0.8782585326525127,
5757
+ "grad_norm": 16.850067138671875,
5758
+ "learning_rate": 7.465874496504943e-06,
5759
+ "loss": 3.0355,
5760
+ "step": 817
5761
+ },
5762
+ {
5763
+ "epoch": 0.8793335124966407,
5764
+ "grad_norm": 19.124881744384766,
5765
+ "learning_rate": 7.337087498973327e-06,
5766
+ "loss": 3.1917,
5767
+ "step": 818
5768
+ },
5769
+ {
5770
+ "epoch": 0.8804084923407686,
5771
+ "grad_norm": 16.559707641601562,
5772
+ "learning_rate": 7.209378668380451e-06,
5773
+ "loss": 2.6744,
5774
+ "step": 819
5775
+ },
5776
+ {
5777
+ "epoch": 0.8814834721848965,
5778
+ "grad_norm": 11.441034317016602,
5779
+ "learning_rate": 7.0827494906653526e-06,
5780
+ "loss": 2.2681,
5781
+ "step": 820
5782
+ },
5783
+ {
5784
+ "epoch": 0.8825584520290245,
5785
+ "grad_norm": 18.97810935974121,
5786
+ "learning_rate": 6.957201439204897e-06,
5787
+ "loss": 3.6872,
5788
+ "step": 821
5789
+ },
5790
+ {
5791
+ "epoch": 0.8836334318731524,
5792
+ "grad_norm": 15.341508865356445,
5793
+ "learning_rate": 6.832735974796689e-06,
5794
+ "loss": 2.0165,
5795
+ "step": 822
5796
+ },
5797
+ {
5798
+ "epoch": 0.8847084117172803,
5799
+ "grad_norm": 16.359432220458984,
5800
+ "learning_rate": 6.7093545456419886e-06,
5801
+ "loss": 3.3588,
5802
+ "step": 823
5803
+ },
5804
+ {
5805
+ "epoch": 0.8857833915614082,
5806
+ "grad_norm": 16.616304397583008,
5807
+ "learning_rate": 6.5870585873289425e-06,
5808
+ "loss": 3.643,
5809
+ "step": 824
5810
+ },
5811
+ {
5812
+ "epoch": 0.8868583714055361,
5813
+ "grad_norm": 14.876137733459473,
5814
+ "learning_rate": 6.4658495228158146e-06,
5815
+ "loss": 2.8213,
5816
+ "step": 825
5817
+ },
5818
+ {
5819
+ "epoch": 0.8879333512496641,
5820
+ "grad_norm": 11.03225326538086,
5821
+ "learning_rate": 6.345728762414505e-06,
5822
+ "loss": 2.1051,
5823
+ "step": 826
5824
+ },
5825
+ {
5826
+ "epoch": 0.889008331093792,
5827
+ "grad_norm": 17.549360275268555,
5828
+ "learning_rate": 6.226697703774076e-06,
5829
+ "loss": 3.0634,
5830
+ "step": 827
5831
+ },
5832
+ {
5833
+ "epoch": 0.8900833109379199,
5834
+ "grad_norm": 12.46760368347168,
5835
+ "learning_rate": 6.108757731864489e-06,
5836
+ "loss": 2.7482,
5837
+ "step": 828
5838
+ },
5839
+ {
5840
+ "epoch": 0.8911582907820479,
5841
+ "grad_norm": 11.985771179199219,
5842
+ "learning_rate": 5.99191021896055e-06,
5843
+ "loss": 2.4109,
5844
+ "step": 829
5845
+ },
5846
+ {
5847
+ "epoch": 0.8922332706261757,
5848
+ "grad_norm": 15.262474060058594,
5849
+ "learning_rate": 5.876156524625864e-06,
5850
+ "loss": 3.0215,
5851
+ "step": 830
5852
+ },
5853
+ {
5854
+ "epoch": 0.8933082504703037,
5855
+ "grad_norm": 12.595239639282227,
5856
+ "learning_rate": 5.7614979956971075e-06,
5857
+ "loss": 2.726,
5858
+ "step": 831
5859
+ },
5860
+ {
5861
+ "epoch": 0.8943832303144316,
5862
+ "grad_norm": 18.540124893188477,
5863
+ "learning_rate": 5.647935966268225e-06,
5864
+ "loss": 1.9021,
5865
+ "step": 832
5866
+ },
5867
+ {
5868
+ "epoch": 0.8954582101585595,
5869
+ "grad_norm": 12.652937889099121,
5870
+ "learning_rate": 5.5354717576750816e-06,
5871
+ "loss": 2.366,
5872
+ "step": 833
5873
+ },
5874
+ {
5875
+ "epoch": 0.8965331900026875,
5876
+ "grad_norm": 13.983992576599121,
5877
+ "learning_rate": 5.424106678479945e-06,
5878
+ "loss": 2.7013,
5879
+ "step": 834
5880
+ },
5881
+ {
5882
+ "epoch": 0.8976081698468154,
5883
+ "grad_norm": 15.04990291595459,
5884
+ "learning_rate": 5.313842024456306e-06,
5885
+ "loss": 2.3414,
5886
+ "step": 835
5887
+ },
5888
+ {
5889
+ "epoch": 0.8986831496909433,
5890
+ "grad_norm": 18.419647216796875,
5891
+ "learning_rate": 5.204679078573827e-06,
5892
+ "loss": 3.8336,
5893
+ "step": 836
5894
+ },
5895
+ {
5896
+ "epoch": 0.8997581295350712,
5897
+ "grad_norm": 17.847749710083008,
5898
+ "learning_rate": 5.096619110983347e-06,
5899
+ "loss": 2.9503,
5900
+ "step": 837
5901
+ },
5902
+ {
5903
+ "epoch": 0.9008331093791991,
5904
+ "grad_norm": 15.034934043884277,
5905
+ "learning_rate": 4.9896633790022405e-06,
5906
+ "loss": 2.6579,
5907
+ "step": 838
5908
+ },
5909
+ {
5910
+ "epoch": 0.9019080892233271,
5911
+ "grad_norm": 16.45047950744629,
5912
+ "learning_rate": 4.883813127099579e-06,
5913
+ "loss": 3.8603,
5914
+ "step": 839
5915
+ },
5916
+ {
5917
+ "epoch": 0.902983069067455,
5918
+ "grad_norm": 14.44510269165039,
5919
+ "learning_rate": 4.779069586881857e-06,
5920
+ "loss": 2.7965,
5921
+ "step": 840
5922
+ },
5923
+ {
5924
+ "epoch": 0.9040580489115829,
5925
+ "grad_norm": 14.151533126831055,
5926
+ "learning_rate": 4.675433977078547e-06,
5927
+ "loss": 2.3626,
5928
+ "step": 841
5929
+ },
5930
+ {
5931
+ "epoch": 0.9051330287557108,
5932
+ "grad_norm": 20.559478759765625,
5933
+ "learning_rate": 4.572907503527923e-06,
5934
+ "loss": 2.3899,
5935
+ "step": 842
5936
+ },
5937
+ {
5938
+ "epoch": 0.9062080085998387,
5939
+ "grad_norm": 11.681385040283203,
5940
+ "learning_rate": 4.471491359163094e-06,
5941
+ "loss": 2.3098,
5942
+ "step": 843
5943
+ },
5944
+ {
5945
+ "epoch": 0.9072829884439667,
5946
+ "grad_norm": 16.471866607666016,
5947
+ "learning_rate": 4.3711867239980335e-06,
5948
+ "loss": 2.6948,
5949
+ "step": 844
5950
+ },
5951
+ {
5952
+ "epoch": 0.9083579682880946,
5953
+ "grad_norm": 10.209484100341797,
5954
+ "learning_rate": 4.271994765113952e-06,
5955
+ "loss": 2.1588,
5956
+ "step": 845
5957
+ },
5958
+ {
5959
+ "epoch": 0.9094329481322225,
5960
+ "grad_norm": 15.725363731384277,
5961
+ "learning_rate": 4.173916636645591e-06,
5962
+ "loss": 2.8127,
5963
+ "step": 846
5964
+ },
5965
+ {
5966
+ "epoch": 0.9105079279763505,
5967
+ "grad_norm": 15.666772842407227,
5968
+ "learning_rate": 4.0769534797679645e-06,
5969
+ "loss": 2.667,
5970
+ "step": 847
5971
+ },
5972
+ {
5973
+ "epoch": 0.9115829078204783,
5974
+ "grad_norm": 15.909188270568848,
5975
+ "learning_rate": 3.9811064226828895e-06,
5976
+ "loss": 3.317,
5977
+ "step": 848
5978
+ },
5979
+ {
5980
+ "epoch": 0.9126578876646063,
5981
+ "grad_norm": 11.588101387023926,
5982
+ "learning_rate": 3.8863765806060105e-06,
5983
+ "loss": 1.9476,
5984
+ "step": 849
5985
+ },
5986
+ {
5987
+ "epoch": 0.9137328675087342,
5988
+ "grad_norm": 10.225213050842285,
5989
+ "learning_rate": 3.7927650557537555e-06,
5990
+ "loss": 2.1618,
5991
+ "step": 850
5992
+ },
5993
+ {
5994
+ "epoch": 0.9148078473528621,
5995
+ "grad_norm": 19.92328643798828,
5996
+ "learning_rate": 3.7002729373304957e-06,
5997
+ "loss": 2.6487,
5998
+ "step": 851
5999
+ },
6000
+ {
6001
+ "epoch": 0.9158828271969901,
6002
+ "grad_norm": 21.881338119506836,
6003
+ "learning_rate": 3.6089013015159433e-06,
6004
+ "loss": 4.0831,
6005
+ "step": 852
6006
+ },
6007
+ {
6008
+ "epoch": 0.916957807041118,
6009
+ "grad_norm": 16.8553524017334,
6010
+ "learning_rate": 3.5186512114525282e-06,
6011
+ "loss": 3.4859,
6012
+ "step": 853
6013
+ },
6014
+ {
6015
+ "epoch": 0.9180327868852459,
6016
+ "grad_norm": 15.485822677612305,
6017
+ "learning_rate": 3.4295237172331516e-06,
6018
+ "loss": 2.7058,
6019
+ "step": 854
6020
+ },
6021
+ {
6022
+ "epoch": 0.9191077667293738,
6023
+ "grad_norm": 11.821995735168457,
6024
+ "learning_rate": 3.3415198558888305e-06,
6025
+ "loss": 2.4467,
6026
+ "step": 855
6027
+ },
6028
+ {
6029
+ "epoch": 0.9201827465735017,
6030
+ "grad_norm": 10.078314781188965,
6031
+ "learning_rate": 3.2546406513767504e-06,
6032
+ "loss": 1.897,
6033
+ "step": 856
6034
+ },
6035
+ {
6036
+ "epoch": 0.9212577264176297,
6037
+ "grad_norm": 13.78282356262207,
6038
+ "learning_rate": 3.1688871145683086e-06,
6039
+ "loss": 2.9327,
6040
+ "step": 857
6041
+ },
6042
+ {
6043
+ "epoch": 0.9223327062617576,
6044
+ "grad_norm": 17.97776222229004,
6045
+ "learning_rate": 3.0842602432373024e-06,
6046
+ "loss": 2.6016,
6047
+ "step": 858
6048
+ },
6049
+ {
6050
+ "epoch": 0.9234076861058855,
6051
+ "grad_norm": 17.566068649291992,
6052
+ "learning_rate": 3.0007610220483927e-06,
6053
+ "loss": 2.7243,
6054
+ "step": 859
6055
+ },
6056
+ {
6057
+ "epoch": 0.9244826659500134,
6058
+ "grad_norm": 12.550614356994629,
6059
+ "learning_rate": 2.918390422545614e-06,
6060
+ "loss": 2.2397,
6061
+ "step": 860
6062
+ },
6063
+ {
6064
+ "epoch": 0.9255576457941413,
6065
+ "grad_norm": 26.070829391479492,
6066
+ "learning_rate": 2.8371494031410704e-06,
6067
+ "loss": 3.6046,
6068
+ "step": 861
6069
+ },
6070
+ {
6071
+ "epoch": 0.9266326256382693,
6072
+ "grad_norm": 20.401790618896484,
6073
+ "learning_rate": 2.757038909103793e-06,
6074
+ "loss": 2.7354,
6075
+ "step": 862
6076
+ },
6077
+ {
6078
+ "epoch": 0.9277076054823972,
6079
+ "grad_norm": 10.504318237304688,
6080
+ "learning_rate": 2.6780598725487214e-06,
6081
+ "loss": 2.4165,
6082
+ "step": 863
6083
+ },
6084
+ {
6085
+ "epoch": 0.9287825853265251,
6086
+ "grad_norm": 12.440912246704102,
6087
+ "learning_rate": 2.6002132124258947e-06,
6088
+ "loss": 2.0556,
6089
+ "step": 864
6090
+ },
6091
+ {
6092
+ "epoch": 0.9298575651706531,
6093
+ "grad_norm": 15.771154403686523,
6094
+ "learning_rate": 2.5234998345097238e-06,
6095
+ "loss": 3.0948,
6096
+ "step": 865
6097
+ },
6098
+ {
6099
+ "epoch": 0.930932545014781,
6100
+ "grad_norm": 13.663370132446289,
6101
+ "learning_rate": 2.4479206313884784e-06,
6102
+ "loss": 2.6857,
6103
+ "step": 866
6104
+ },
6105
+ {
6106
+ "epoch": 0.9320075248589089,
6107
+ "grad_norm": 12.99375057220459,
6108
+ "learning_rate": 2.3734764824538515e-06,
6109
+ "loss": 2.46,
6110
+ "step": 867
6111
+ },
6112
+ {
6113
+ "epoch": 0.9330825047030368,
6114
+ "grad_norm": 10.756906509399414,
6115
+ "learning_rate": 2.300168253890833e-06,
6116
+ "loss": 2.2951,
6117
+ "step": 868
6118
+ },
6119
+ {
6120
+ "epoch": 0.9341574845471647,
6121
+ "grad_norm": 15.61550521850586,
6122
+ "learning_rate": 2.2279967986674756e-06,
6123
+ "loss": 2.947,
6124
+ "step": 869
6125
+ },
6126
+ {
6127
+ "epoch": 0.9352324643912927,
6128
+ "grad_norm": 17.821706771850586,
6129
+ "learning_rate": 2.1569629565251546e-06,
6130
+ "loss": 2.9358,
6131
+ "step": 870
6132
+ },
6133
+ {
6134
+ "epoch": 0.9363074442354206,
6135
+ "grad_norm": 13.073902130126953,
6136
+ "learning_rate": 2.0870675539686023e-06,
6137
+ "loss": 2.665,
6138
+ "step": 871
6139
+ },
6140
+ {
6141
+ "epoch": 0.9373824240795485,
6142
+ "grad_norm": 16.576457977294922,
6143
+ "learning_rate": 2.0183114042564567e-06,
6144
+ "loss": 3.3876,
6145
+ "step": 872
6146
+ },
6147
+ {
6148
+ "epoch": 0.9384574039236764,
6149
+ "grad_norm": 12.26412296295166,
6150
+ "learning_rate": 1.9506953073917365e-06,
6151
+ "loss": 2.3773,
6152
+ "step": 873
6153
+ },
6154
+ {
6155
+ "epoch": 0.9395323837678043,
6156
+ "grad_norm": 15.137334823608398,
6157
+ "learning_rate": 1.8842200501124618e-06,
6158
+ "loss": 2.353,
6159
+ "step": 874
6160
+ },
6161
+ {
6162
+ "epoch": 0.9406073636119323,
6163
+ "grad_norm": 11.213092803955078,
6164
+ "learning_rate": 1.818886405882636e-06,
6165
+ "loss": 1.8275,
6166
+ "step": 875
6167
+ },
6168
+ {
6169
+ "epoch": 0.9416823434560602,
6170
+ "grad_norm": 12.951726913452148,
6171
+ "learning_rate": 1.7546951348831441e-06,
6172
+ "loss": 2.4801,
6173
+ "step": 876
6174
+ },
6175
+ {
6176
+ "epoch": 0.9427573233001881,
6177
+ "grad_norm": 9.286628723144531,
6178
+ "learning_rate": 1.6916469840029369e-06,
6179
+ "loss": 1.8095,
6180
+ "step": 877
6181
+ },
6182
+ {
6183
+ "epoch": 0.9438323031443161,
6184
+ "grad_norm": 16.789724349975586,
6185
+ "learning_rate": 1.6297426868303378e-06,
6186
+ "loss": 2.2362,
6187
+ "step": 878
6188
+ },
6189
+ {
6190
+ "epoch": 0.944907282988444,
6191
+ "grad_norm": 9.946615219116211,
6192
+ "learning_rate": 1.5689829636445496e-06,
6193
+ "loss": 2.0806,
6194
+ "step": 879
6195
+ },
6196
+ {
6197
+ "epoch": 0.9459822628325719,
6198
+ "grad_norm": 10.376627922058105,
6199
+ "learning_rate": 1.5093685214072174e-06,
6200
+ "loss": 2.7637,
6201
+ "step": 880
6202
+ },
6203
+ {
6204
+ "epoch": 0.9470572426766998,
6205
+ "grad_norm": 10.574774742126465,
6206
+ "learning_rate": 1.4509000537541895e-06,
6207
+ "loss": 2.6576,
6208
+ "step": 881
6209
+ },
6210
+ {
6211
+ "epoch": 0.9481322225208277,
6212
+ "grad_norm": 19.413841247558594,
6213
+ "learning_rate": 1.3935782409875476e-06,
6214
+ "loss": 3.1755,
6215
+ "step": 882
6216
+ },
6217
+ {
6218
+ "epoch": 0.9492072023649557,
6219
+ "grad_norm": 24.996675491333008,
6220
+ "learning_rate": 1.337403750067545e-06,
6221
+ "loss": 4.3345,
6222
+ "step": 883
6223
+ },
6224
+ {
6225
+ "epoch": 0.9502821822090836,
6226
+ "grad_norm": 15.001642227172852,
6227
+ "learning_rate": 1.2823772346050034e-06,
6228
+ "loss": 3.8014,
6229
+ "step": 884
6230
+ },
6231
+ {
6232
+ "epoch": 0.9513571620532115,
6233
+ "grad_norm": 20.97924041748047,
6234
+ "learning_rate": 1.2284993348535723e-06,
6235
+ "loss": 3.1809,
6236
+ "step": 885
6237
+ },
6238
+ {
6239
+ "epoch": 0.9524321418973394,
6240
+ "grad_norm": 12.326496124267578,
6241
+ "learning_rate": 1.1757706777023592e-06,
6242
+ "loss": 2.0848,
6243
+ "step": 886
6244
+ },
6245
+ {
6246
+ "epoch": 0.9535071217414673,
6247
+ "grad_norm": 16.77161979675293,
6248
+ "learning_rate": 1.1241918766686122e-06,
6249
+ "loss": 2.5849,
6250
+ "step": 887
6251
+ },
6252
+ {
6253
+ "epoch": 0.9545821015855953,
6254
+ "grad_norm": 18.30064582824707,
6255
+ "learning_rate": 1.0737635318905704e-06,
6256
+ "loss": 2.8427,
6257
+ "step": 888
6258
+ },
6259
+ {
6260
+ "epoch": 0.9556570814297232,
6261
+ "grad_norm": 16.708187103271484,
6262
+ "learning_rate": 1.0244862301205249e-06,
6263
+ "loss": 3.3412,
6264
+ "step": 889
6265
+ },
6266
+ {
6267
+ "epoch": 0.9567320612738511,
6268
+ "grad_norm": 9.98150634765625,
6269
+ "learning_rate": 9.763605447179137e-07,
6270
+ "loss": 1.9673,
6271
+ "step": 890
6272
+ },
6273
+ {
6274
+ "epoch": 0.957807041117979,
6275
+ "grad_norm": 16.982563018798828,
6276
+ "learning_rate": 9.293870356427259e-07,
6277
+ "loss": 2.7158,
6278
+ "step": 891
6279
+ },
6280
+ {
6281
+ "epoch": 0.958882020962107,
6282
+ "grad_norm": 14.91385555267334,
6283
+ "learning_rate": 8.835662494489638e-07,
6284
+ "loss": 2.4724,
6285
+ "step": 892
6286
+ },
6287
+ {
6288
+ "epoch": 0.9599570008062349,
6289
+ "grad_norm": 11.67471981048584,
6290
+ "learning_rate": 8.388987192782472e-07,
6291
+ "loss": 2.0277,
6292
+ "step": 893
6293
+ },
6294
+ {
6295
+ "epoch": 0.9610319806503628,
6296
+ "grad_norm": 17.66205596923828,
6297
+ "learning_rate": 7.953849648536516e-07,
6298
+ "loss": 3.0247,
6299
+ "step": 894
6300
+ },
6301
+ {
6302
+ "epoch": 0.9621069604944907,
6303
+ "grad_norm": 12.348430633544922,
6304
+ "learning_rate": 7.53025492473669e-07,
6305
+ "loss": 2.1941,
6306
+ "step": 895
6307
+ },
6308
+ {
6309
+ "epoch": 0.9631819403386187,
6310
+ "grad_norm": 11.82780647277832,
6311
+ "learning_rate": 7.118207950062905e-07,
6312
+ "loss": 1.9668,
6313
+ "step": 896
6314
+ },
6315
+ {
6316
+ "epoch": 0.9642569201827466,
6317
+ "grad_norm": 11.388262748718262,
6318
+ "learning_rate": 6.717713518832325e-07,
6319
+ "loss": 1.7028,
6320
+ "step": 897
6321
+ },
6322
+ {
6323
+ "epoch": 0.9653319000268745,
6324
+ "grad_norm": 20.69382095336914,
6325
+ "learning_rate": 6.328776290944749e-07,
6326
+ "loss": 2.4699,
6327
+ "step": 898
6328
+ },
6329
+ {
6330
+ "epoch": 0.9664068798710024,
6331
+ "grad_norm": 16.286813735961914,
6332
+ "learning_rate": 5.9514007918271e-07,
6333
+ "loss": 2.5732,
6334
+ "step": 899
6335
+ },
6336
+ {
6337
+ "epoch": 0.9674818597151303,
6338
+ "grad_norm": 16.142581939697266,
6339
+ "learning_rate": 5.585591412381797e-07,
6340
+ "loss": 3.1468,
6341
+ "step": 900
6342
+ },
6343
+ {
6344
+ "epoch": 0.9685568395592583,
6345
+ "grad_norm": 21.596254348754883,
6346
+ "learning_rate": 5.231352408934686e-07,
6347
+ "loss": 3.7028,
6348
+ "step": 901
6349
+ },
6350
+ {
6351
+ "epoch": 0.9696318194033862,
6352
+ "grad_norm": 10.433320999145508,
6353
+ "learning_rate": 4.88868790318675e-07,
6354
+ "loss": 2.0005,
6355
+ "step": 902
6356
+ },
6357
+ {
6358
+ "epoch": 0.9707067992475141,
6359
+ "grad_norm": 20.765460968017578,
6360
+ "learning_rate": 4.557601882164808e-07,
6361
+ "loss": 3.7903,
6362
+ "step": 903
6363
+ },
6364
+ {
6365
+ "epoch": 0.971781779091642,
6366
+ "grad_norm": 18.080036163330078,
6367
+ "learning_rate": 4.2380981981759994e-07,
6368
+ "loss": 3.3676,
6369
+ "step": 904
6370
+ },
6371
+ {
6372
+ "epoch": 0.97285675893577,
6373
+ "grad_norm": 14.852317810058594,
6374
+ "learning_rate": 3.930180568762931e-07,
6375
+ "loss": 2.6543,
6376
+ "step": 905
6377
+ },
6378
+ {
6379
+ "epoch": 0.9739317387798979,
6380
+ "grad_norm": 18.983341217041016,
6381
+ "learning_rate": 3.633852576659935e-07,
6382
+ "loss": 3.433,
6383
+ "step": 906
6384
+ },
6385
+ {
6386
+ "epoch": 0.9750067186240258,
6387
+ "grad_norm": 14.545281410217285,
6388
+ "learning_rate": 3.3491176697517667e-07,
6389
+ "loss": 2.89,
6390
+ "step": 907
6391
+ },
6392
+ {
6393
+ "epoch": 0.9760816984681537,
6394
+ "grad_norm": 10.29315185546875,
6395
+ "learning_rate": 3.0759791610335267e-07,
6396
+ "loss": 2.0145,
6397
+ "step": 908
6398
+ },
6399
+ {
6400
+ "epoch": 0.9771566783122816,
6401
+ "grad_norm": 21.322124481201172,
6402
+ "learning_rate": 2.81444022857158e-07,
6403
+ "loss": 3.5667,
6404
+ "step": 909
6405
+ },
6406
+ {
6407
+ "epoch": 0.9782316581564096,
6408
+ "grad_norm": 13.829008102416992,
6409
+ "learning_rate": 2.5645039154675864e-07,
6410
+ "loss": 2.6689,
6411
+ "step": 910
6412
+ },
6413
+ {
6414
+ "epoch": 0.9793066380005375,
6415
+ "grad_norm": 15.563042640686035,
6416
+ "learning_rate": 2.3261731298217514e-07,
6417
+ "loss": 2.4102,
6418
+ "step": 911
6419
+ },
6420
+ {
6421
+ "epoch": 0.9803816178446654,
6422
+ "grad_norm": 17.429529190063477,
6423
+ "learning_rate": 2.099450644700407e-07,
6424
+ "loss": 2.4791,
6425
+ "step": 912
6426
+ },
6427
+ {
6428
+ "epoch": 0.9814565976887933,
6429
+ "grad_norm": 15.122339248657227,
6430
+ "learning_rate": 1.8843390981024834e-07,
6431
+ "loss": 2.1212,
6432
+ "step": 913
6433
+ },
6434
+ {
6435
+ "epoch": 0.9825315775329213,
6436
+ "grad_norm": 17.688457489013672,
6437
+ "learning_rate": 1.6808409929298663e-07,
6438
+ "loss": 2.279,
6439
+ "step": 914
6440
+ },
6441
+ {
6442
+ "epoch": 0.9836065573770492,
6443
+ "grad_norm": 17.063894271850586,
6444
+ "learning_rate": 1.488958696957421e-07,
6445
+ "loss": 3.7765,
6446
+ "step": 915
6447
+ },
6448
+ {
6449
+ "epoch": 0.9846815372211771,
6450
+ "grad_norm": 10.769682884216309,
6451
+ "learning_rate": 1.3086944428060132e-07,
6452
+ "loss": 2.1393,
6453
+ "step": 916
6454
+ },
6455
+ {
6456
+ "epoch": 0.985756517065305,
6457
+ "grad_norm": 10.24843692779541,
6458
+ "learning_rate": 1.1400503279163088e-07,
6459
+ "loss": 2.2815,
6460
+ "step": 917
6461
+ },
6462
+ {
6463
+ "epoch": 0.986831496909433,
6464
+ "grad_norm": 13.591650009155273,
6465
+ "learning_rate": 9.83028314524348e-08,
6466
+ "loss": 2.809,
6467
+ "step": 918
6468
+ },
6469
+ {
6470
+ "epoch": 0.9879064767535609,
6471
+ "grad_norm": 13.300793647766113,
6472
+ "learning_rate": 8.376302296387861e-08,
6473
+ "loss": 2.9568,
6474
+ "step": 919
6475
+ },
6476
+ {
6477
+ "epoch": 0.9889814565976888,
6478
+ "grad_norm": 16.980257034301758,
6479
+ "learning_rate": 7.038577650195777e-08,
6480
+ "loss": 2.0696,
6481
+ "step": 920
6482
+ },
6483
+ {
6484
+ "epoch": 0.9900564364418167,
6485
+ "grad_norm": 17.34079360961914,
6486
+ "learning_rate": 5.8171247715854696e-08,
6487
+ "loss": 3.1045,
6488
+ "step": 921
6489
+ },
6490
+ {
6491
+ "epoch": 0.9911314162859446,
6492
+ "grad_norm": 18.76333999633789,
6493
+ "learning_rate": 4.711957872606254e-08,
6494
+ "loss": 2.967,
6495
+ "step": 922
6496
+ },
6497
+ {
6498
+ "epoch": 0.9922063961300726,
6499
+ "grad_norm": 15.434213638305664,
6500
+ "learning_rate": 3.7230898122808665e-08,
6501
+ "loss": 3.0553,
6502
+ "step": 923
6503
+ },
6504
+ {
6505
+ "epoch": 0.9932813759742005,
6506
+ "grad_norm": 20.012191772460938,
6507
+ "learning_rate": 2.850532096452252e-08,
6508
+ "loss": 3.6372,
6509
+ "step": 924
6510
+ },
6511
+ {
6512
+ "epoch": 0.9943563558183284,
6513
+ "grad_norm": 14.739432334899902,
6514
+ "learning_rate": 2.0942948776481175e-08,
6515
+ "loss": 1.9846,
6516
+ "step": 925
6517
+ },
6518
+ {
6519
+ "epoch": 0.9954313356624563,
6520
+ "grad_norm": 14.258848190307617,
6521
+ "learning_rate": 1.4543869549665801e-08,
6522
+ "loss": 2.9188,
6523
+ "step": 926
6524
+ },
6525
+ {
6526
+ "epoch": 0.9965063155065843,
6527
+ "grad_norm": 14.79078483581543,
6528
+ "learning_rate": 9.308157739706946e-09,
6529
+ "loss": 2.4791,
6530
+ "step": 927
6531
+ },
6532
+ {
6533
+ "epoch": 0.9975812953507122,
6534
+ "grad_norm": 17.466236114501953,
6535
+ "learning_rate": 5.23587426601857e-09,
6536
+ "loss": 2.1995,
6537
+ "step": 928
6538
+ },
6539
+ {
6540
+ "epoch": 0.9986562751948401,
6541
+ "grad_norm": 19.64586067199707,
6542
+ "learning_rate": 2.327066511120801e-09,
6543
+ "loss": 2.872,
6544
+ "step": 929
6545
+ },
6546
+ {
6547
+ "epoch": 0.999731255038968,
6548
+ "grad_norm": 12.937053680419922,
6549
+ "learning_rate": 5.817683200515233e-10,
6550
+ "loss": 2.6175,
6551
+ "step": 930
6552
+ },
6553
+ {
6554
+ "epoch": 1.000806234883096,
6555
+ "grad_norm": 16.165599822998047,
6556
+ "learning_rate": 0.0,
6557
+ "loss": 2.2581,
6558
+ "step": 931
6559
  }
6560
  ],
6561
  "logging_steps": 1,
 
6570
  "should_evaluate": false,
6571
  "should_log": false,
6572
  "should_save": true,
6573
+ "should_training_stop": true
6574
  },
6575
  "attributes": {}
6576
  }
6577
  },
6578
+ "total_flos": 7022441851256832.0,
6579
  "train_batch_size": 2,
6580
  "trial_name": null,
6581
  "trial_params": null