ErrorAI commited on
Commit
3ce23d1
·
verified ·
1 Parent(s): 617843c

Training in progress, step 1337, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9f527fb556b088b02effd42b66196770c7b9d92c588e808886f1f2c24f16782c
3
  size 51431872
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:72d65b08fa2983cd66a70d30a82ca8e09f6764ffa304c4e3ae8b38301a5f1bbc
3
  size 51431872
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:884465de48c63f9bda405b1c767f645f65c850bb6288f99db21a617677942be4
3
  size 26550644
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:98d48ec7ca434b1e9f4c4f61e1051da14f1ac514ce2a396d55a0746f4417ef2f
3
  size 26550644
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:10df43ab9cbc0814a13da729aa68160bb6898a5b53ade7952c3c218ba104ec9b
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8d5939e7e158ad21d97a30b2b08f06383171448c8bb26d6523a8b0b1023422b3
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:836d73836934266fc00072b06f6fadc2b85caf1d9d116f62dc82a1f768b0ff5d
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:49941719a7d531c5d88ff3914ae840c76014acca884550e614a9dcdd773ae93d
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.0033399717348660644,
5
  "eval_steps": 335,
6
- "global_step": 1005,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7074,6 +7074,2330 @@
7074
  "eval_samples_per_second": 38.95,
7075
  "eval_steps_per_second": 19.475,
7076
  "step": 1005
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7077
  }
7078
  ],
7079
  "logging_steps": 1,
@@ -7088,12 +9412,12 @@
7088
  "should_evaluate": false,
7089
  "should_log": false,
7090
  "should_save": true,
7091
- "should_training_stop": false
7092
  },
7093
  "attributes": {}
7094
  }
7095
  },
7096
- "total_flos": 7.65206849912832e+16,
7097
  "train_batch_size": 2,
7098
  "trial_name": null,
7099
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.004443325581607889,
5
  "eval_steps": 335,
6
+ "global_step": 1337,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7074
  "eval_samples_per_second": 38.95,
7075
  "eval_steps_per_second": 19.475,
7076
  "step": 1005
7077
+ },
7078
+ {
7079
+ "epoch": 0.0033432950898261305,
7080
+ "grad_norm": 1.9887334108352661,
7081
+ "learning_rate": 2.9163880954689228e-05,
7082
+ "loss": 0.8261,
7083
+ "step": 1006
7084
+ },
7085
+ {
7086
+ "epoch": 0.003346618444786196,
7087
+ "grad_norm": 2.993713140487671,
7088
+ "learning_rate": 2.8996973846694642e-05,
7089
+ "loss": 0.6206,
7090
+ "step": 1007
7091
+ },
7092
+ {
7093
+ "epoch": 0.0033499417997462618,
7094
+ "grad_norm": 1.2360352277755737,
7095
+ "learning_rate": 2.8830464694240634e-05,
7096
+ "loss": 1.2049,
7097
+ "step": 1008
7098
+ },
7099
+ {
7100
+ "epoch": 0.0033532651547063274,
7101
+ "grad_norm": 2.6683409214019775,
7102
+ "learning_rate": 2.8664354430572492e-05,
7103
+ "loss": 0.8874,
7104
+ "step": 1009
7105
+ },
7106
+ {
7107
+ "epoch": 0.0033565885096663935,
7108
+ "grad_norm": 1.849593162536621,
7109
+ "learning_rate": 2.8498643986699803e-05,
7110
+ "loss": 1.0419,
7111
+ "step": 1010
7112
+ },
7113
+ {
7114
+ "epoch": 0.003359911864626459,
7115
+ "grad_norm": 1.955989956855774,
7116
+ "learning_rate": 2.8333334291391323e-05,
7117
+ "loss": 1.3201,
7118
+ "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.0033632352195865248,
7122
+ "grad_norm": 1.4712536334991455,
7123
+ "learning_rate": 2.8168426271169623e-05,
7124
+ "loss": 0.8732,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.0033665585745465904,
7129
+ "grad_norm": 1.8448526859283447,
7130
+ "learning_rate": 2.8003920850306085e-05,
7131
+ "loss": 1.313,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.0033698819295066565,
7136
+ "grad_norm": 2.3865597248077393,
7137
+ "learning_rate": 2.783981895081549e-05,
7138
+ "loss": 1.0349,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.003373205284466722,
7143
+ "grad_norm": 3.1011106967926025,
7144
+ "learning_rate": 2.767612149245099e-05,
7145
+ "loss": 1.1726,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.0033765286394267877,
7150
+ "grad_norm": 1.5871694087982178,
7151
+ "learning_rate": 2.751282939269908e-05,
7152
+ "loss": 0.7144,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.0033798519943868534,
7157
+ "grad_norm": 2.121737480163574,
7158
+ "learning_rate": 2.734994356677416e-05,
7159
+ "loss": 1.1891,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.003383175349346919,
7164
+ "grad_norm": 1.8265715837478638,
7165
+ "learning_rate": 2.7187464927613606e-05,
7166
+ "loss": 0.6414,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.003386498704306985,
7171
+ "grad_norm": 2.1911258697509766,
7172
+ "learning_rate": 2.702539438587267e-05,
7173
+ "loss": 0.9227,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.0033898220592670507,
7178
+ "grad_norm": 2.096592903137207,
7179
+ "learning_rate": 2.6863732849919164e-05,
7180
+ "loss": 0.268,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.0033931454142271163,
7185
+ "grad_norm": 1.7348281145095825,
7186
+ "learning_rate": 2.670248122582869e-05,
7187
+ "loss": 0.9092,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.003396468769187182,
7192
+ "grad_norm": 2.108294725418091,
7193
+ "learning_rate": 2.6541640417379276e-05,
7194
+ "loss": 0.98,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.003399792124147248,
7199
+ "grad_norm": 2.166422128677368,
7200
+ "learning_rate": 2.6381211326046428e-05,
7201
+ "loss": 1.0629,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.0034031154791073137,
7206
+ "grad_norm": 1.3211616277694702,
7207
+ "learning_rate": 2.6221194850998155e-05,
7208
+ "loss": 1.1247,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.0034064388340673793,
7213
+ "grad_norm": 1.4853568077087402,
7214
+ "learning_rate": 2.6061591889089776e-05,
7215
+ "loss": 0.3974,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.003409762189027445,
7220
+ "grad_norm": 1.7520192861557007,
7221
+ "learning_rate": 2.590240333485897e-05,
7222
+ "loss": 0.8057,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.003413085543987511,
7227
+ "grad_norm": 2.130795955657959,
7228
+ "learning_rate": 2.5743630080520765e-05,
7229
+ "loss": 0.8887,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.0034164088989475767,
7234
+ "grad_norm": 2.033766269683838,
7235
+ "learning_rate": 2.558527301596251e-05,
7236
+ "loss": 0.6583,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.0034197322539076423,
7241
+ "grad_norm": 1.8105857372283936,
7242
+ "learning_rate": 2.5427333028738988e-05,
7243
+ "loss": 0.4101,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.003423055608867708,
7248
+ "grad_norm": 2.780566930770874,
7249
+ "learning_rate": 2.5269811004067256e-05,
7250
+ "loss": 0.8233,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.003426378963827774,
7255
+ "grad_norm": 1.9028615951538086,
7256
+ "learning_rate": 2.5112707824821846e-05,
7257
+ "loss": 0.8525,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.0034297023187878396,
7262
+ "grad_norm": 3.4555652141571045,
7263
+ "learning_rate": 2.495602437152975e-05,
7264
+ "loss": 0.8126,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.0034330256737479053,
7269
+ "grad_norm": 1.3704328536987305,
7270
+ "learning_rate": 2.4799761522365438e-05,
7271
+ "loss": 0.7354,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.003436349028707971,
7276
+ "grad_norm": 2.7514312267303467,
7277
+ "learning_rate": 2.4643920153146116e-05,
7278
+ "loss": 1.19,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.0034396723836680365,
7283
+ "grad_norm": 2.007598638534546,
7284
+ "learning_rate": 2.448850113732658e-05,
7285
+ "loss": 1.0406,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.0034429957386281026,
7290
+ "grad_norm": 1.9599459171295166,
7291
+ "learning_rate": 2.4333505345994433e-05,
7292
+ "loss": 1.0742,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.0034463190935881682,
7297
+ "grad_norm": 1.525658130645752,
7298
+ "learning_rate": 2.4178933647865344e-05,
7299
+ "loss": 1.0423,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.003449642448548234,
7304
+ "grad_norm": 2.253969430923462,
7305
+ "learning_rate": 2.4024786909277806e-05,
7306
+ "loss": 0.7478,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.0034529658035082995,
7311
+ "grad_norm": 2.9593136310577393,
7312
+ "learning_rate": 2.3871065994188723e-05,
7313
+ "loss": 0.9221,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.0034562891584683656,
7318
+ "grad_norm": 1.6113935708999634,
7319
+ "learning_rate": 2.3717771764168262e-05,
7320
+ "loss": 1.0702,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.003459612513428431,
7325
+ "grad_norm": 1.477838397026062,
7326
+ "learning_rate": 2.3564905078395073e-05,
7327
+ "loss": 0.8423,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.003462935868388497,
7332
+ "grad_norm": 1.8534512519836426,
7333
+ "learning_rate": 2.3412466793651654e-05,
7334
+ "loss": 0.6136,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.0034662592233485625,
7339
+ "grad_norm": 1.2977598905563354,
7340
+ "learning_rate": 2.32604577643193e-05,
7341
+ "loss": 1.0533,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.0034695825783086286,
7346
+ "grad_norm": 1.402443289756775,
7347
+ "learning_rate": 2.310887884237346e-05,
7348
+ "loss": 0.6865,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.003472905933268694,
7353
+ "grad_norm": 1.5745853185653687,
7354
+ "learning_rate": 2.2957730877378947e-05,
7355
+ "loss": 0.8526,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.00347622928822876,
7360
+ "grad_norm": 2.4579102993011475,
7361
+ "learning_rate": 2.280701471648512e-05,
7362
+ "loss": 0.5886,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.0034795526431888255,
7367
+ "grad_norm": 2.511986017227173,
7368
+ "learning_rate": 2.2656731204421255e-05,
7369
+ "loss": 1.0093,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.003482875998148891,
7374
+ "grad_norm": 1.5310604572296143,
7375
+ "learning_rate": 2.2506881183491647e-05,
7376
+ "loss": 0.5451,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.003486199353108957,
7381
+ "grad_norm": 2.594639539718628,
7382
+ "learning_rate": 2.2357465493571016e-05,
7383
+ "loss": 1.3524,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.003489522708069023,
7388
+ "grad_norm": 2.8036839962005615,
7389
+ "learning_rate": 2.2208484972099743e-05,
7390
+ "loss": 0.8427,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.0034928460630290884,
7395
+ "grad_norm": 1.729481816291809,
7396
+ "learning_rate": 2.2059940454079175e-05,
7397
+ "loss": 0.5532,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.003496169417989154,
7402
+ "grad_norm": 1.573091745376587,
7403
+ "learning_rate": 2.191183277206703e-05,
7404
+ "loss": 0.5843,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.00349949277294922,
7409
+ "grad_norm": 2.2913410663604736,
7410
+ "learning_rate": 2.176416275617259e-05,
7411
+ "loss": 0.6285,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.0035028161279092858,
7416
+ "grad_norm": 2.0742692947387695,
7417
+ "learning_rate": 2.1616931234052108e-05,
7418
+ "loss": 1.4509,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.0035061394828693514,
7423
+ "grad_norm": 2.3040852546691895,
7424
+ "learning_rate": 2.1470139030904312e-05,
7425
+ "loss": 0.8464,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.003509462837829417,
7430
+ "grad_norm": 2.0199368000030518,
7431
+ "learning_rate": 2.132378696946542e-05,
7432
+ "loss": 1.0534,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.003512786192789483,
7437
+ "grad_norm": 2.384861469268799,
7438
+ "learning_rate": 2.1177875870004993e-05,
7439
+ "loss": 1.1861,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.0035161095477495487,
7444
+ "grad_norm": 1.7507251501083374,
7445
+ "learning_rate": 2.103240655032095e-05,
7446
+ "loss": 0.6772,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.0035194329027096144,
7451
+ "grad_norm": 1.9110218286514282,
7452
+ "learning_rate": 2.0887379825735176e-05,
7453
+ "loss": 0.4735,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.00352275625766968,
7458
+ "grad_norm": 2.0105197429656982,
7459
+ "learning_rate": 2.074279650908897e-05,
7460
+ "loss": 0.6666,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.0035260796126297457,
7465
+ "grad_norm": 2.125974416732788,
7466
+ "learning_rate": 2.0598657410738343e-05,
7467
+ "loss": 1.151,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.0035294029675898117,
7472
+ "grad_norm": 1.5914584398269653,
7473
+ "learning_rate": 2.0454963338549625e-05,
7474
+ "loss": 0.7659,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.0035327263225498774,
7479
+ "grad_norm": 2.65944504737854,
7480
+ "learning_rate": 2.0311715097894855e-05,
7481
+ "loss": 0.6658,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.003536049677509943,
7486
+ "grad_norm": 1.8550827503204346,
7487
+ "learning_rate": 2.0168913491647255e-05,
7488
+ "loss": 1.1008,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.0035393730324700086,
7493
+ "grad_norm": 1.9186201095581055,
7494
+ "learning_rate": 2.0026559320176875e-05,
7495
+ "loss": 1.0043,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.0035426963874300747,
7500
+ "grad_norm": 2.0259082317352295,
7501
+ "learning_rate": 1.9884653381345875e-05,
7502
+ "loss": 1.2005,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.0035460197423901403,
7507
+ "grad_norm": 2.626133680343628,
7508
+ "learning_rate": 1.9743196470504234e-05,
7509
+ "loss": 0.9398,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.003549343097350206,
7514
+ "grad_norm": 2.803363561630249,
7515
+ "learning_rate": 1.9602189380485214e-05,
7516
+ "loss": 0.7764,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.0035526664523102716,
7521
+ "grad_norm": 2.6616218090057373,
7522
+ "learning_rate": 1.9461632901600935e-05,
7523
+ "loss": 0.867,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.0035559898072703377,
7528
+ "grad_norm": 1.805355191230774,
7529
+ "learning_rate": 1.9321527821637987e-05,
7530
+ "loss": 0.9621,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.0035593131622304033,
7535
+ "grad_norm": 1.9301918745040894,
7536
+ "learning_rate": 1.9181874925852926e-05,
7537
+ "loss": 1.1156,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.003562636517190469,
7542
+ "grad_norm": 1.2671960592269897,
7543
+ "learning_rate": 1.904267499696791e-05,
7544
+ "loss": 1.0542,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.0035659598721505346,
7549
+ "grad_norm": 1.832224726676941,
7550
+ "learning_rate": 1.8903928815166426e-05,
7551
+ "loss": 0.9923,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.0035692832271106,
7556
+ "grad_norm": 2.3667545318603516,
7557
+ "learning_rate": 1.8765637158088623e-05,
7558
+ "loss": 0.7825,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.0035726065820706663,
7563
+ "grad_norm": 1.8500324487686157,
7564
+ "learning_rate": 1.8627800800827332e-05,
7565
+ "loss": 0.4897,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.003575929937030732,
7570
+ "grad_norm": 2.8491454124450684,
7571
+ "learning_rate": 1.8490420515923445e-05,
7572
+ "loss": 1.0215,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.0035792532919907975,
7577
+ "grad_norm": 2.6926255226135254,
7578
+ "learning_rate": 1.8353497073361647e-05,
7579
+ "loss": 0.8692,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.003582576646950863,
7584
+ "grad_norm": 3.2963078022003174,
7585
+ "learning_rate": 1.821703124056623e-05,
7586
+ "loss": 1.2669,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.0035859000019109293,
7591
+ "grad_norm": 1.8386890888214111,
7592
+ "learning_rate": 1.808102378239659e-05,
7593
+ "loss": 1.0086,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.003589223356870995,
7598
+ "grad_norm": 2.384105920791626,
7599
+ "learning_rate": 1.794547546114308e-05,
7600
+ "loss": 1.6574,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.0035925467118310605,
7605
+ "grad_norm": 2.209704875946045,
7606
+ "learning_rate": 1.78103870365227e-05,
7607
+ "loss": 1.2232,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.003595870066791126,
7612
+ "grad_norm": 2.2206103801727295,
7613
+ "learning_rate": 1.7675759265674797e-05,
7614
+ "loss": 1.0329,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.0035991934217511922,
7619
+ "grad_norm": 1.4707410335540771,
7620
+ "learning_rate": 1.7541592903156933e-05,
7621
+ "loss": 0.5543,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.003602516776711258,
7626
+ "grad_norm": 1.7666308879852295,
7627
+ "learning_rate": 1.7407888700940523e-05,
7628
+ "loss": 0.6173,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.0036058401316713235,
7633
+ "grad_norm": 3.515272378921509,
7634
+ "learning_rate": 1.7274647408406698e-05,
7635
+ "loss": 0.7079,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.003609163486631389,
7640
+ "grad_norm": 1.8757985830307007,
7641
+ "learning_rate": 1.7141869772342088e-05,
7642
+ "loss": 0.6742,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.003612486841591455,
7647
+ "grad_norm": 1.7394914627075195,
7648
+ "learning_rate": 1.7009556536934602e-05,
7649
+ "loss": 0.9227,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.003615810196551521,
7654
+ "grad_norm": 1.7292208671569824,
7655
+ "learning_rate": 1.6877708443769392e-05,
7656
+ "loss": 0.6633,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.0036191335515115865,
7661
+ "grad_norm": 2.7111852169036865,
7662
+ "learning_rate": 1.6746326231824495e-05,
7663
+ "loss": 1.4088,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.003622456906471652,
7668
+ "grad_norm": 2.8773698806762695,
7669
+ "learning_rate": 1.661541063746679e-05,
7670
+ "loss": 0.9911,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.0036257802614317177,
7675
+ "grad_norm": 2.6539015769958496,
7676
+ "learning_rate": 1.648496239444799e-05,
7677
+ "loss": 0.8291,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.003629103616391784,
7682
+ "grad_norm": 1.9189116954803467,
7683
+ "learning_rate": 1.635498223390022e-05,
7684
+ "loss": 1.0237,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.0036324269713518494,
7689
+ "grad_norm": 1.969369888305664,
7690
+ "learning_rate": 1.6225470884332304e-05,
7691
+ "loss": 1.0304,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.003635750326311915,
7696
+ "grad_norm": 2.1338069438934326,
7697
+ "learning_rate": 1.6096429071625374e-05,
7698
+ "loss": 1.0386,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.0036390736812719807,
7703
+ "grad_norm": 2.693995714187622,
7704
+ "learning_rate": 1.5967857519028928e-05,
7705
+ "loss": 0.6724,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.003642397036232047,
7710
+ "grad_norm": 1.5616436004638672,
7711
+ "learning_rate": 1.5839756947156846e-05,
7712
+ "loss": 1.0765,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.0036457203911921124,
7717
+ "grad_norm": 2.3733086585998535,
7718
+ "learning_rate": 1.5712128073983146e-05,
7719
+ "loss": 0.6867,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.003649043746152178,
7724
+ "grad_norm": 1.7389389276504517,
7725
+ "learning_rate": 1.5584971614838128e-05,
7726
+ "loss": 0.9531,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 0.0036523671011122437,
7731
+ "grad_norm": 2.9344327449798584,
7732
+ "learning_rate": 1.5458288282404398e-05,
7733
+ "loss": 0.6522,
7734
+ "step": 1099
7735
+ },
7736
+ {
7737
+ "epoch": 0.0036556904560723098,
7738
+ "grad_norm": 2.1339237689971924,
7739
+ "learning_rate": 1.533207878671269e-05,
7740
+ "loss": 1.0749,
7741
+ "step": 1100
7742
+ },
7743
+ {
7744
+ "epoch": 0.0036590138110323754,
7745
+ "grad_norm": 2.975815534591675,
7746
+ "learning_rate": 1.5206343835138092e-05,
7747
+ "loss": 0.4487,
7748
+ "step": 1101
7749
+ },
7750
+ {
7751
+ "epoch": 0.003662337165992441,
7752
+ "grad_norm": 1.2044059038162231,
7753
+ "learning_rate": 1.5081084132395907e-05,
7754
+ "loss": 0.6741,
7755
+ "step": 1102
7756
+ },
7757
+ {
7758
+ "epoch": 0.0036656605209525067,
7759
+ "grad_norm": 1.7217930555343628,
7760
+ "learning_rate": 1.4956300380537747e-05,
7761
+ "loss": 1.0937,
7762
+ "step": 1103
7763
+ },
7764
+ {
7765
+ "epoch": 0.0036689838759125723,
7766
+ "grad_norm": 1.3124263286590576,
7767
+ "learning_rate": 1.4831993278947742e-05,
7768
+ "loss": 0.4858,
7769
+ "step": 1104
7770
+ },
7771
+ {
7772
+ "epoch": 0.0036723072308726384,
7773
+ "grad_norm": 2.2098429203033447,
7774
+ "learning_rate": 1.4708163524338436e-05,
7775
+ "loss": 1.0121,
7776
+ "step": 1105
7777
+ },
7778
+ {
7779
+ "epoch": 0.003675630585832704,
7780
+ "grad_norm": 1.8337208032608032,
7781
+ "learning_rate": 1.4584811810746935e-05,
7782
+ "loss": 1.2821,
7783
+ "step": 1106
7784
+ },
7785
+ {
7786
+ "epoch": 0.0036789539407927696,
7787
+ "grad_norm": 1.871624231338501,
7788
+ "learning_rate": 1.4461938829531107e-05,
7789
+ "loss": 0.6309,
7790
+ "step": 1107
7791
+ },
7792
+ {
7793
+ "epoch": 0.0036822772957528353,
7794
+ "grad_norm": 2.333550453186035,
7795
+ "learning_rate": 1.4339545269365585e-05,
7796
+ "loss": 0.9257,
7797
+ "step": 1108
7798
+ },
7799
+ {
7800
+ "epoch": 0.0036856006507129013,
7801
+ "grad_norm": 1.6626560688018799,
7802
+ "learning_rate": 1.4217631816237952e-05,
7803
+ "loss": 0.5538,
7804
+ "step": 1109
7805
+ },
7806
+ {
7807
+ "epoch": 0.003688924005672967,
7808
+ "grad_norm": 1.7753632068634033,
7809
+ "learning_rate": 1.4096199153444934e-05,
7810
+ "loss": 0.6881,
7811
+ "step": 1110
7812
+ },
7813
+ {
7814
+ "epoch": 0.0036922473606330326,
7815
+ "grad_norm": 2.1906261444091797,
7816
+ "learning_rate": 1.3975247961588478e-05,
7817
+ "loss": 1.2149,
7818
+ "step": 1111
7819
+ },
7820
+ {
7821
+ "epoch": 0.0036955707155930983,
7822
+ "grad_norm": 1.9990803003311157,
7823
+ "learning_rate": 1.385477891857211e-05,
7824
+ "loss": 0.9241,
7825
+ "step": 1112
7826
+ },
7827
+ {
7828
+ "epoch": 0.0036988940705531643,
7829
+ "grad_norm": 1.9631175994873047,
7830
+ "learning_rate": 1.3734792699596921e-05,
7831
+ "loss": 0.9384,
7832
+ "step": 1113
7833
+ },
7834
+ {
7835
+ "epoch": 0.00370221742551323,
7836
+ "grad_norm": 1.601910948753357,
7837
+ "learning_rate": 1.361528997715792e-05,
7838
+ "loss": 1.0611,
7839
+ "step": 1114
7840
+ },
7841
+ {
7842
+ "epoch": 0.0037055407804732956,
7843
+ "grad_norm": 1.8392131328582764,
7844
+ "learning_rate": 1.3496271421040219e-05,
7845
+ "loss": 0.9894,
7846
+ "step": 1115
7847
+ },
7848
+ {
7849
+ "epoch": 0.0037088641354333612,
7850
+ "grad_norm": 3.042781352996826,
7851
+ "learning_rate": 1.3377737698315295e-05,
7852
+ "loss": 0.9245,
7853
+ "step": 1116
7854
+ },
7855
+ {
7856
+ "epoch": 0.003712187490393427,
7857
+ "grad_norm": 2.590090751647949,
7858
+ "learning_rate": 1.3259689473337289e-05,
7859
+ "loss": 1.0378,
7860
+ "step": 1117
7861
+ },
7862
+ {
7863
+ "epoch": 0.003715510845353493,
7864
+ "grad_norm": 2.383646011352539,
7865
+ "learning_rate": 1.3142127407739168e-05,
7866
+ "loss": 0.5865,
7867
+ "step": 1118
7868
+ },
7869
+ {
7870
+ "epoch": 0.0037188342003135586,
7871
+ "grad_norm": 1.675218939781189,
7872
+ "learning_rate": 1.3025052160429118e-05,
7873
+ "loss": 0.442,
7874
+ "step": 1119
7875
+ },
7876
+ {
7877
+ "epoch": 0.003722157555273624,
7878
+ "grad_norm": 2.6803250312805176,
7879
+ "learning_rate": 1.290846438758687e-05,
7880
+ "loss": 1.1026,
7881
+ "step": 1120
7882
+ },
7883
+ {
7884
+ "epoch": 0.00372548091023369,
7885
+ "grad_norm": 2.088174343109131,
7886
+ "learning_rate": 1.2792364742659856e-05,
7887
+ "loss": 1.0888,
7888
+ "step": 1121
7889
+ },
7890
+ {
7891
+ "epoch": 0.003728804265193756,
7892
+ "grad_norm": 2.361299514770508,
7893
+ "learning_rate": 1.2676753876359781e-05,
7894
+ "loss": 0.9856,
7895
+ "step": 1122
7896
+ },
7897
+ {
7898
+ "epoch": 0.0037321276201538215,
7899
+ "grad_norm": 1.9991151094436646,
7900
+ "learning_rate": 1.2561632436658811e-05,
7901
+ "loss": 0.7982,
7902
+ "step": 1123
7903
+ },
7904
+ {
7905
+ "epoch": 0.003735450975113887,
7906
+ "grad_norm": 3.7411093711853027,
7907
+ "learning_rate": 1.2447001068785969e-05,
7908
+ "loss": 1.2467,
7909
+ "step": 1124
7910
+ },
7911
+ {
7912
+ "epoch": 0.003738774330073953,
7913
+ "grad_norm": 2.4900856018066406,
7914
+ "learning_rate": 1.233286041522358e-05,
7915
+ "loss": 0.707,
7916
+ "step": 1125
7917
+ },
7918
+ {
7919
+ "epoch": 0.003742097685034019,
7920
+ "grad_norm": 2.1829333305358887,
7921
+ "learning_rate": 1.2219211115703621e-05,
7922
+ "loss": 0.6891,
7923
+ "step": 1126
7924
+ },
7925
+ {
7926
+ "epoch": 0.0037454210399940845,
7927
+ "grad_norm": 1.6782306432724,
7928
+ "learning_rate": 1.210605380720411e-05,
7929
+ "loss": 1.1077,
7930
+ "step": 1127
7931
+ },
7932
+ {
7933
+ "epoch": 0.00374874439495415,
7934
+ "grad_norm": 2.4409914016723633,
7935
+ "learning_rate": 1.1993389123945597e-05,
7936
+ "loss": 0.8018,
7937
+ "step": 1128
7938
+ },
7939
+ {
7940
+ "epoch": 0.003752067749914216,
7941
+ "grad_norm": 1.8187549114227295,
7942
+ "learning_rate": 1.1881217697387547e-05,
7943
+ "loss": 1.0921,
7944
+ "step": 1129
7945
+ },
7946
+ {
7947
+ "epoch": 0.003755391104874282,
7948
+ "grad_norm": 1.4356580972671509,
7949
+ "learning_rate": 1.1769540156224923e-05,
7950
+ "loss": 0.7464,
7951
+ "step": 1130
7952
+ },
7953
+ {
7954
+ "epoch": 0.0037587144598343475,
7955
+ "grad_norm": 2.073961019515991,
7956
+ "learning_rate": 1.1658357126384479e-05,
7957
+ "loss": 0.6749,
7958
+ "step": 1131
7959
+ },
7960
+ {
7961
+ "epoch": 0.003762037814794413,
7962
+ "grad_norm": 1.284589409828186,
7963
+ "learning_rate": 1.1547669231021395e-05,
7964
+ "loss": 0.4601,
7965
+ "step": 1132
7966
+ },
7967
+ {
7968
+ "epoch": 0.0037653611697544788,
7969
+ "grad_norm": 2.1579086780548096,
7970
+ "learning_rate": 1.1437477090515713e-05,
7971
+ "loss": 1.0621,
7972
+ "step": 1133
7973
+ },
7974
+ {
7975
+ "epoch": 0.0037686845247145444,
7976
+ "grad_norm": 1.9478920698165894,
7977
+ "learning_rate": 1.1327781322468889e-05,
7978
+ "loss": 0.8049,
7979
+ "step": 1134
7980
+ },
7981
+ {
7982
+ "epoch": 0.0037720078796746105,
7983
+ "grad_norm": 1.604015827178955,
7984
+ "learning_rate": 1.1218582541700362e-05,
7985
+ "loss": 1.1651,
7986
+ "step": 1135
7987
+ },
7988
+ {
7989
+ "epoch": 0.003775331234634676,
7990
+ "grad_norm": 2.576106309890747,
7991
+ "learning_rate": 1.1109881360244034e-05,
7992
+ "loss": 1.2095,
7993
+ "step": 1136
7994
+ },
7995
+ {
7996
+ "epoch": 0.0037786545895947417,
7997
+ "grad_norm": 1.4734787940979004,
7998
+ "learning_rate": 1.100167838734486e-05,
7999
+ "loss": 0.8627,
8000
+ "step": 1137
8001
+ },
8002
+ {
8003
+ "epoch": 0.0037819779445548074,
8004
+ "grad_norm": 1.465071439743042,
8005
+ "learning_rate": 1.0893974229455538e-05,
8006
+ "loss": 1.0974,
8007
+ "step": 1138
8008
+ },
8009
+ {
8010
+ "epoch": 0.0037853012995148734,
8011
+ "grad_norm": 1.63118577003479,
8012
+ "learning_rate": 1.0786769490232895e-05,
8013
+ "loss": 1.0472,
8014
+ "step": 1139
8015
+ },
8016
+ {
8017
+ "epoch": 0.003788624654474939,
8018
+ "grad_norm": 1.9454184770584106,
8019
+ "learning_rate": 1.0680064770534748e-05,
8020
+ "loss": 1.0103,
8021
+ "step": 1140
8022
+ },
8023
+ {
8024
+ "epoch": 0.0037919480094350047,
8025
+ "grad_norm": 1.2677627801895142,
8026
+ "learning_rate": 1.0573860668416358e-05,
8027
+ "loss": 0.7591,
8028
+ "step": 1141
8029
+ },
8030
+ {
8031
+ "epoch": 0.0037952713643950703,
8032
+ "grad_norm": 1.8168962001800537,
8033
+ "learning_rate": 1.046815777912713e-05,
8034
+ "loss": 0.3897,
8035
+ "step": 1142
8036
+ },
8037
+ {
8038
+ "epoch": 0.0037985947193551364,
8039
+ "grad_norm": 2.0347893238067627,
8040
+ "learning_rate": 1.0362956695107361e-05,
8041
+ "loss": 0.9761,
8042
+ "step": 1143
8043
+ },
8044
+ {
8045
+ "epoch": 0.003801918074315202,
8046
+ "grad_norm": 1.2987099885940552,
8047
+ "learning_rate": 1.0258258005984777e-05,
8048
+ "loss": 0.7144,
8049
+ "step": 1144
8050
+ },
8051
+ {
8052
+ "epoch": 0.0038052414292752677,
8053
+ "grad_norm": 2.079082489013672,
8054
+ "learning_rate": 1.015406229857132e-05,
8055
+ "loss": 0.8902,
8056
+ "step": 1145
8057
+ },
8058
+ {
8059
+ "epoch": 0.0038085647842353333,
8060
+ "grad_norm": 1.4583004713058472,
8061
+ "learning_rate": 1.0050370156859811e-05,
8062
+ "loss": 0.8563,
8063
+ "step": 1146
8064
+ },
8065
+ {
8066
+ "epoch": 0.003811888139195399,
8067
+ "grad_norm": 2.9463703632354736,
8068
+ "learning_rate": 9.947182162020729e-06,
8069
+ "loss": 0.5976,
8070
+ "step": 1147
8071
+ },
8072
+ {
8073
+ "epoch": 0.003815211494155465,
8074
+ "grad_norm": 1.276196002960205,
8075
+ "learning_rate": 9.844498892398946e-06,
8076
+ "loss": 1.2324,
8077
+ "step": 1148
8078
+ },
8079
+ {
8080
+ "epoch": 0.0038185348491155307,
8081
+ "grad_norm": 2.1213057041168213,
8082
+ "learning_rate": 9.742320923510428e-06,
8083
+ "loss": 1.2369,
8084
+ "step": 1149
8085
+ },
8086
+ {
8087
+ "epoch": 0.0038218582040755963,
8088
+ "grad_norm": 2.704526424407959,
8089
+ "learning_rate": 9.640648828039045e-06,
8090
+ "loss": 0.9242,
8091
+ "step": 1150
8092
+ },
8093
+ {
8094
+ "epoch": 0.003825181559035662,
8095
+ "grad_norm": 1.3100472688674927,
8096
+ "learning_rate": 9.539483175833397e-06,
8097
+ "loss": 0.6016,
8098
+ "step": 1151
8099
+ },
8100
+ {
8101
+ "epoch": 0.003828504913995728,
8102
+ "grad_norm": 2.6044392585754395,
8103
+ "learning_rate": 9.438824533903545e-06,
8104
+ "loss": 0.6004,
8105
+ "step": 1152
8106
+ },
8107
+ {
8108
+ "epoch": 0.0038318282689557936,
8109
+ "grad_norm": 1.9593836069107056,
8110
+ "learning_rate": 9.338673466417924e-06,
8111
+ "loss": 1.0782,
8112
+ "step": 1153
8113
+ },
8114
+ {
8115
+ "epoch": 0.0038351516239158593,
8116
+ "grad_norm": 2.4404966831207275,
8117
+ "learning_rate": 9.2390305347001e-06,
8118
+ "loss": 0.9982,
8119
+ "step": 1154
8120
+ },
8121
+ {
8122
+ "epoch": 0.003838474978875925,
8123
+ "grad_norm": 1.8588268756866455,
8124
+ "learning_rate": 9.139896297225626e-06,
8125
+ "loss": 0.65,
8126
+ "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.003841798333835991,
8130
+ "grad_norm": 1.6673916578292847,
8131
+ "learning_rate": 9.041271309619048e-06,
8132
+ "loss": 1.3098,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.0038451216887960566,
8137
+ "grad_norm": 2.00077223777771,
8138
+ "learning_rate": 8.943156124650531e-06,
8139
+ "loss": 1.1602,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.0038484450437561222,
8144
+ "grad_norm": 3.087786912918091,
8145
+ "learning_rate": 8.845551292233045e-06,
8146
+ "loss": 0.9981,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.003851768398716188,
8151
+ "grad_norm": 1.7945916652679443,
8152
+ "learning_rate": 8.748457359419093e-06,
8153
+ "loss": 0.9974,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.0038550917536762535,
8158
+ "grad_norm": 2.521268129348755,
8159
+ "learning_rate": 8.651874870397692e-06,
8160
+ "loss": 0.9116,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.0038584151086363196,
8165
+ "grad_norm": 2.505439281463623,
8166
+ "learning_rate": 8.555804366491405e-06,
8167
+ "loss": 0.9118,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.003861738463596385,
8172
+ "grad_norm": 2.009557008743286,
8173
+ "learning_rate": 8.460246386153147e-06,
8174
+ "loss": 0.6388,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.003865061818556451,
8179
+ "grad_norm": 3.128729820251465,
8180
+ "learning_rate": 8.365201464963302e-06,
8181
+ "loss": 1.0031,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.0038683851735165165,
8186
+ "grad_norm": 1.6357756853103638,
8187
+ "learning_rate": 8.27067013562669e-06,
8188
+ "loss": 0.8037,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.0038717085284765826,
8193
+ "grad_norm": 2.719797134399414,
8194
+ "learning_rate": 8.17665292796952e-06,
8195
+ "loss": 1.0075,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.003875031883436648,
8200
+ "grad_norm": 2.046483278274536,
8201
+ "learning_rate": 8.083150368936532e-06,
8202
+ "loss": 0.2509,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.003878355238396714,
8207
+ "grad_norm": 1.5247260332107544,
8208
+ "learning_rate": 7.990162982587924e-06,
8209
+ "loss": 1.1599,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.0038816785933567795,
8214
+ "grad_norm": 1.7768243551254272,
8215
+ "learning_rate": 7.897691290096498e-06,
8216
+ "loss": 0.6034,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.0038850019483168455,
8221
+ "grad_norm": 3.438926935195923,
8222
+ "learning_rate": 7.805735809744696e-06,
8223
+ "loss": 0.6389,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.003888325303276911,
8228
+ "grad_norm": 1.7144073247909546,
8229
+ "learning_rate": 7.714297056921715e-06,
8230
+ "loss": 1.159,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.003891648658236977,
8235
+ "grad_norm": 1.8290139436721802,
8236
+ "learning_rate": 7.623375544120648e-06,
8237
+ "loss": 0.9152,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.0038949720131970424,
8242
+ "grad_norm": 2.1877503395080566,
8243
+ "learning_rate": 7.532971780935516e-06,
8244
+ "loss": 1.0348,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.003898295368157108,
8249
+ "grad_norm": 1.77268648147583,
8250
+ "learning_rate": 7.443086274058497e-06,
8251
+ "loss": 0.7937,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.003901618723117174,
8256
+ "grad_norm": 1.3810285329818726,
8257
+ "learning_rate": 7.353719527277125e-06,
8258
+ "loss": 0.9105,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.0039049420780772398,
8263
+ "grad_norm": 1.8284751176834106,
8264
+ "learning_rate": 7.2648720414712716e-06,
8265
+ "loss": 1.1995,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 0.003908265433037306,
8270
+ "grad_norm": 1.7051944732666016,
8271
+ "learning_rate": 7.1765443146106e-06,
8272
+ "loss": 0.7849,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 0.003911588787997371,
8277
+ "grad_norm": 1.6046769618988037,
8278
+ "learning_rate": 7.088736841751575e-06,
8279
+ "loss": 0.8096,
8280
+ "step": 1177
8281
+ },
8282
+ {
8283
+ "epoch": 0.003914912142957437,
8284
+ "grad_norm": 2.0210366249084473,
8285
+ "learning_rate": 7.001450115034758e-06,
8286
+ "loss": 0.6858,
8287
+ "step": 1178
8288
+ },
8289
+ {
8290
+ "epoch": 0.003918235497917502,
8291
+ "grad_norm": 1.8352065086364746,
8292
+ "learning_rate": 6.914684623682099e-06,
8293
+ "loss": 0.8634,
8294
+ "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.003921558852877568,
8298
+ "grad_norm": 1.6586220264434814,
8299
+ "learning_rate": 6.828440853994089e-06,
8300
+ "loss": 1.0516,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.0039248822078376345,
8305
+ "grad_norm": 1.8991930484771729,
8306
+ "learning_rate": 6.7427192893471105e-06,
8307
+ "loss": 1.3651,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.0039282055627977,
8312
+ "grad_norm": 2.0748491287231445,
8313
+ "learning_rate": 6.657520410190721e-06,
8314
+ "loss": 0.9304,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.003931528917757766,
8319
+ "grad_norm": 2.1835572719573975,
8320
+ "learning_rate": 6.572844694044911e-06,
8321
+ "loss": 0.7364,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.003934852272717832,
8326
+ "grad_norm": 1.8947280645370483,
8327
+ "learning_rate": 6.488692615497516e-06,
8328
+ "loss": 0.9096,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.003938175627677897,
8333
+ "grad_norm": 1.584531307220459,
8334
+ "learning_rate": 6.405064646201464e-06,
8335
+ "loss": 0.8091,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.003941498982637963,
8340
+ "grad_norm": 2.568542718887329,
8341
+ "learning_rate": 6.321961254872166e-06,
8342
+ "loss": 0.8995,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.003944822337598028,
8347
+ "grad_norm": 1.460935354232788,
8348
+ "learning_rate": 6.239382907284941e-06,
8349
+ "loss": 0.6506,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.003948145692558094,
8354
+ "grad_norm": 2.127983570098877,
8355
+ "learning_rate": 6.157330066272282e-06,
8356
+ "loss": 0.8965,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.00395146904751816,
8361
+ "grad_norm": 1.676879644393921,
8362
+ "learning_rate": 6.0758031917214296e-06,
8363
+ "loss": 1.0078,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.003954792402478226,
8368
+ "grad_norm": 1.7694756984710693,
8369
+ "learning_rate": 5.994802740571659e-06,
8370
+ "loss": 0.5985,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.003958115757438292,
8375
+ "grad_norm": 2.5703816413879395,
8376
+ "learning_rate": 5.914329166811727e-06,
8377
+ "loss": 0.9092,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.003961439112398357,
8382
+ "grad_norm": 1.5351899862289429,
8383
+ "learning_rate": 5.834382921477466e-06,
8384
+ "loss": 1.1089,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.003964762467358423,
8389
+ "grad_norm": 2.5164711475372314,
8390
+ "learning_rate": 5.754964452649037e-06,
8391
+ "loss": 0.9535,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.003968085822318489,
8396
+ "grad_norm": 2.1561896800994873,
8397
+ "learning_rate": 5.67607420544859e-06,
8398
+ "loss": 1.2628,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.003971409177278554,
8403
+ "grad_norm": 2.350405693054199,
8404
+ "learning_rate": 5.597712622037754e-06,
8405
+ "loss": 0.826,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.00397473253223862,
8410
+ "grad_norm": 2.584944009780884,
8411
+ "learning_rate": 5.519880141615042e-06,
8412
+ "loss": 0.9049,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.003978055887198686,
8417
+ "grad_norm": 1.9516925811767578,
8418
+ "learning_rate": 5.442577200413546e-06,
8419
+ "loss": 1.0605,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.0039813792421587516,
8424
+ "grad_norm": 3.750558853149414,
8425
+ "learning_rate": 5.365804231698368e-06,
8426
+ "loss": 0.9567,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.003984702597118818,
8431
+ "grad_norm": 1.9897552728652954,
8432
+ "learning_rate": 5.289561665764198e-06,
8433
+ "loss": 0.6373,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.003988025952078883,
8438
+ "grad_norm": 2.0267670154571533,
8439
+ "learning_rate": 5.213849929933024e-06,
8440
+ "loss": 0.7988,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.003991349307038949,
8445
+ "grad_norm": 1.9218477010726929,
8446
+ "learning_rate": 5.138669448551614e-06,
8447
+ "loss": 0.8301,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.003994672661999015,
8452
+ "grad_norm": 2.785154104232788,
8453
+ "learning_rate": 5.0640206429891535e-06,
8454
+ "loss": 0.8819,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 0.00399799601695908,
8459
+ "grad_norm": 1.7020105123519897,
8460
+ "learning_rate": 4.989903931634965e-06,
8461
+ "loss": 0.9052,
8462
+ "step": 1203
8463
+ },
8464
+ {
8465
+ "epoch": 0.004001319371919146,
8466
+ "grad_norm": 1.9669575691223145,
8467
+ "learning_rate": 4.916319729896057e-06,
8468
+ "loss": 0.8468,
8469
+ "step": 1204
8470
+ },
8471
+ {
8472
+ "epoch": 0.004004642726879211,
8473
+ "grad_norm": 2.421363353729248,
8474
+ "learning_rate": 4.843268450194871e-06,
8475
+ "loss": 0.7444,
8476
+ "step": 1205
8477
+ },
8478
+ {
8479
+ "epoch": 0.0040079660818392775,
8480
+ "grad_norm": 1.5673800706863403,
8481
+ "learning_rate": 4.770750501966925e-06,
8482
+ "loss": 0.9701,
8483
+ "step": 1206
8484
+ },
8485
+ {
8486
+ "epoch": 0.004011289436799344,
8487
+ "grad_norm": 1.9752105474472046,
8488
+ "learning_rate": 4.698766291658552e-06,
8489
+ "loss": 1.0881,
8490
+ "step": 1207
8491
+ },
8492
+ {
8493
+ "epoch": 0.004014612791759409,
8494
+ "grad_norm": 1.9096660614013672,
8495
+ "learning_rate": 4.627316222724598e-06,
8496
+ "loss": 0.9221,
8497
+ "step": 1208
8498
+ },
8499
+ {
8500
+ "epoch": 0.004017936146719475,
8501
+ "grad_norm": 3.038297653198242,
8502
+ "learning_rate": 4.556400695626173e-06,
8503
+ "loss": 0.7838,
8504
+ "step": 1209
8505
+ },
8506
+ {
8507
+ "epoch": 0.004021259501679541,
8508
+ "grad_norm": 2.406052350997925,
8509
+ "learning_rate": 4.486020107828448e-06,
8510
+ "loss": 1.0768,
8511
+ "step": 1210
8512
+ },
8513
+ {
8514
+ "epoch": 0.004024582856639606,
8515
+ "grad_norm": 2.2107632160186768,
8516
+ "learning_rate": 4.416174853798283e-06,
8517
+ "loss": 0.9042,
8518
+ "step": 1211
8519
+ },
8520
+ {
8521
+ "epoch": 0.004027906211599672,
8522
+ "grad_norm": 1.4963706731796265,
8523
+ "learning_rate": 4.34686532500218e-06,
8524
+ "loss": 0.7624,
8525
+ "step": 1212
8526
+ },
8527
+ {
8528
+ "epoch": 0.004031229566559737,
8529
+ "grad_norm": 1.8679277896881104,
8530
+ "learning_rate": 4.2780919099040585e-06,
8531
+ "loss": 0.9459,
8532
+ "step": 1213
8533
+ },
8534
+ {
8535
+ "epoch": 0.0040345529215198035,
8536
+ "grad_norm": 2.617995023727417,
8537
+ "learning_rate": 4.2098549939629696e-06,
8538
+ "loss": 1.009,
8539
+ "step": 1214
8540
+ },
8541
+ {
8542
+ "epoch": 0.0040378762764798695,
8543
+ "grad_norm": 1.7749000787734985,
8544
+ "learning_rate": 4.14215495963105e-06,
8545
+ "loss": 0.8112,
8546
+ "step": 1215
8547
+ },
8548
+ {
8549
+ "epoch": 0.004041199631439935,
8550
+ "grad_norm": 1.2091432809829712,
8551
+ "learning_rate": 4.074992186351367e-06,
8552
+ "loss": 0.6515,
8553
+ "step": 1216
8554
+ },
8555
+ {
8556
+ "epoch": 0.004044522986400001,
8557
+ "grad_norm": 2.0824778079986572,
8558
+ "learning_rate": 4.008367050555683e-06,
8559
+ "loss": 1.0088,
8560
+ "step": 1217
8561
+ },
8562
+ {
8563
+ "epoch": 0.004047846341360066,
8564
+ "grad_norm": 1.503562569618225,
8565
+ "learning_rate": 3.942279925662506e-06,
8566
+ "loss": 0.8859,
8567
+ "step": 1218
8568
+ },
8569
+ {
8570
+ "epoch": 0.004051169696320132,
8571
+ "grad_norm": 2.2736172676086426,
8572
+ "learning_rate": 3.876731182074888e-06,
8573
+ "loss": 0.9602,
8574
+ "step": 1219
8575
+ },
8576
+ {
8577
+ "epoch": 0.004054493051280198,
8578
+ "grad_norm": 1.9392001628875732,
8579
+ "learning_rate": 3.811721187178352e-06,
8580
+ "loss": 1.2851,
8581
+ "step": 1220
8582
+ },
8583
+ {
8584
+ "epoch": 0.004057816406240263,
8585
+ "grad_norm": 1.8600444793701172,
8586
+ "learning_rate": 3.747250305338934e-06,
8587
+ "loss": 0.3464,
8588
+ "step": 1221
8589
+ },
8590
+ {
8591
+ "epoch": 0.004061139761200329,
8592
+ "grad_norm": 3.741283655166626,
8593
+ "learning_rate": 3.6833188979009447e-06,
8594
+ "loss": 0.9047,
8595
+ "step": 1222
8596
+ },
8597
+ {
8598
+ "epoch": 0.0040644631161603955,
8599
+ "grad_norm": 2.066908359527588,
8600
+ "learning_rate": 3.6199273231852016e-06,
8601
+ "loss": 0.7508,
8602
+ "step": 1223
8603
+ },
8604
+ {
8605
+ "epoch": 0.004067786471120461,
8606
+ "grad_norm": 1.472381591796875,
8607
+ "learning_rate": 3.5570759364867976e-06,
8608
+ "loss": 1.1071,
8609
+ "step": 1224
8610
+ },
8611
+ {
8612
+ "epoch": 0.004071109826080527,
8613
+ "grad_norm": 2.138390302658081,
8614
+ "learning_rate": 3.494765090073193e-06,
8615
+ "loss": 0.7563,
8616
+ "step": 1225
8617
+ },
8618
+ {
8619
+ "epoch": 0.004074433181040592,
8620
+ "grad_norm": 1.5176939964294434,
8621
+ "learning_rate": 3.432995133182315e-06,
8622
+ "loss": 1.1034,
8623
+ "step": 1226
8624
+ },
8625
+ {
8626
+ "epoch": 0.004077756536000658,
8627
+ "grad_norm": 1.9056531190872192,
8628
+ "learning_rate": 3.3717664120204717e-06,
8629
+ "loss": 0.7667,
8630
+ "step": 1227
8631
+ },
8632
+ {
8633
+ "epoch": 0.004081079890960724,
8634
+ "grad_norm": 3.191318988800049,
8635
+ "learning_rate": 3.3110792697604755e-06,
8636
+ "loss": 0.8358,
8637
+ "step": 1228
8638
+ },
8639
+ {
8640
+ "epoch": 0.004084403245920789,
8641
+ "grad_norm": 1.8594859838485718,
8642
+ "learning_rate": 3.250934046539722e-06,
8643
+ "loss": 0.2147,
8644
+ "step": 1229
8645
+ },
8646
+ {
8647
+ "epoch": 0.004087726600880855,
8648
+ "grad_norm": 1.8989686965942383,
8649
+ "learning_rate": 3.1913310794582817e-06,
8650
+ "loss": 0.7407,
8651
+ "step": 1230
8652
+ },
8653
+ {
8654
+ "epoch": 0.0040910499558409206,
8655
+ "grad_norm": 2.4154255390167236,
8656
+ "learning_rate": 3.1322707025770114e-06,
8657
+ "loss": 0.7876,
8658
+ "step": 1231
8659
+ },
8660
+ {
8661
+ "epoch": 0.004094373310800987,
8662
+ "grad_norm": 2.14886736869812,
8663
+ "learning_rate": 3.073753246915656e-06,
8664
+ "loss": 0.8468,
8665
+ "step": 1232
8666
+ },
8667
+ {
8668
+ "epoch": 0.004097696665761053,
8669
+ "grad_norm": 2.599923849105835,
8670
+ "learning_rate": 3.015779040451017e-06,
8671
+ "loss": 0.8232,
8672
+ "step": 1233
8673
+ },
8674
+ {
8675
+ "epoch": 0.004101020020721118,
8676
+ "grad_norm": 1.8031104803085327,
8677
+ "learning_rate": 2.958348408115108e-06,
8678
+ "loss": 0.9074,
8679
+ "step": 1234
8680
+ },
8681
+ {
8682
+ "epoch": 0.004104343375681184,
8683
+ "grad_norm": 1.2037352323532104,
8684
+ "learning_rate": 2.9014616717933595e-06,
8685
+ "loss": 0.494,
8686
+ "step": 1235
8687
+ },
8688
+ {
8689
+ "epoch": 0.00410766673064125,
8690
+ "grad_norm": 1.8279937505722046,
8691
+ "learning_rate": 2.8451191503227614e-06,
8692
+ "loss": 0.7566,
8693
+ "step": 1236
8694
+ },
8695
+ {
8696
+ "epoch": 0.004110990085601315,
8697
+ "grad_norm": 1.9116507768630981,
8698
+ "learning_rate": 2.7893211594901215e-06,
8699
+ "loss": 0.937,
8700
+ "step": 1237
8701
+ },
8702
+ {
8703
+ "epoch": 0.004114313440561381,
8704
+ "grad_norm": 1.6439839601516724,
8705
+ "learning_rate": 2.7340680120302554e-06,
8706
+ "loss": 0.7953,
8707
+ "step": 1238
8708
+ },
8709
+ {
8710
+ "epoch": 0.0041176367955214465,
8711
+ "grad_norm": 2.841966390609741,
8712
+ "learning_rate": 2.6793600176243105e-06,
8713
+ "loss": 0.7789,
8714
+ "step": 1239
8715
+ },
8716
+ {
8717
+ "epoch": 0.004120960150481513,
8718
+ "grad_norm": 1.5409972667694092,
8719
+ "learning_rate": 2.625197482897912e-06,
8720
+ "loss": 0.4756,
8721
+ "step": 1240
8722
+ },
8723
+ {
8724
+ "epoch": 0.004124283505441579,
8725
+ "grad_norm": 1.8044242858886719,
8726
+ "learning_rate": 2.5715807114195525e-06,
8727
+ "loss": 0.7198,
8728
+ "step": 1241
8729
+ },
8730
+ {
8731
+ "epoch": 0.004127606860401644,
8732
+ "grad_norm": 2.6371781826019287,
8733
+ "learning_rate": 2.5185100036988484e-06,
8734
+ "loss": 0.6385,
8735
+ "step": 1242
8736
+ },
8737
+ {
8738
+ "epoch": 0.00413093021536171,
8739
+ "grad_norm": 1.3817503452301025,
8740
+ "learning_rate": 2.4659856571848105e-06,
8741
+ "loss": 0.9401,
8742
+ "step": 1243
8743
+ },
8744
+ {
8745
+ "epoch": 0.004134253570321775,
8746
+ "grad_norm": 1.8377162218093872,
8747
+ "learning_rate": 2.4140079662642865e-06,
8748
+ "loss": 0.8917,
8749
+ "step": 1244
8750
+ },
8751
+ {
8752
+ "epoch": 0.004137576925281841,
8753
+ "grad_norm": 1.7400139570236206,
8754
+ "learning_rate": 2.362577222260198e-06,
8755
+ "loss": 1.108,
8756
+ "step": 1245
8757
+ },
8758
+ {
8759
+ "epoch": 0.004140900280241907,
8760
+ "grad_norm": 1.966605544090271,
8761
+ "learning_rate": 2.3116937134299745e-06,
8762
+ "loss": 0.6442,
8763
+ "step": 1246
8764
+ },
8765
+ {
8766
+ "epoch": 0.0041442236352019724,
8767
+ "grad_norm": 1.370110273361206,
8768
+ "learning_rate": 2.2613577249639083e-06,
8769
+ "loss": 0.777,
8770
+ "step": 1247
8771
+ },
8772
+ {
8773
+ "epoch": 0.0041475469901620385,
8774
+ "grad_norm": 1.5771291255950928,
8775
+ "learning_rate": 2.2115695389835712e-06,
8776
+ "loss": 0.6103,
8777
+ "step": 1248
8778
+ },
8779
+ {
8780
+ "epoch": 0.004150870345122105,
8781
+ "grad_norm": 2.013594388961792,
8782
+ "learning_rate": 2.1623294345402447e-06,
8783
+ "loss": 1.0112,
8784
+ "step": 1249
8785
+ },
8786
+ {
8787
+ "epoch": 0.00415419370008217,
8788
+ "grad_norm": 2.0027196407318115,
8789
+ "learning_rate": 2.1136376876133234e-06,
8790
+ "loss": 0.8395,
8791
+ "step": 1250
8792
+ },
8793
+ {
8794
+ "epoch": 0.004157517055042236,
8795
+ "grad_norm": 2.6950972080230713,
8796
+ "learning_rate": 2.0654945711087834e-06,
8797
+ "loss": 1.2351,
8798
+ "step": 1251
8799
+ },
8800
+ {
8801
+ "epoch": 0.004160840410002301,
8802
+ "grad_norm": 2.4111666679382324,
8803
+ "learning_rate": 2.0179003548576602e-06,
8804
+ "loss": 1.0297,
8805
+ "step": 1252
8806
+ },
8807
+ {
8808
+ "epoch": 0.004164163764962367,
8809
+ "grad_norm": 1.8260390758514404,
8810
+ "learning_rate": 1.970855305614516e-06,
8811
+ "loss": 1.159,
8812
+ "step": 1253
8813
+ },
8814
+ {
8815
+ "epoch": 0.004167487119922433,
8816
+ "grad_norm": 2.396212577819824,
8817
+ "learning_rate": 1.9243596870559988e-06,
8818
+ "loss": 0.9679,
8819
+ "step": 1254
8820
+ },
8821
+ {
8822
+ "epoch": 0.004170810474882498,
8823
+ "grad_norm": 2.532935380935669,
8824
+ "learning_rate": 1.8784137597792738e-06,
8825
+ "loss": 0.9187,
8826
+ "step": 1255
8827
+ },
8828
+ {
8829
+ "epoch": 0.0041741338298425645,
8830
+ "grad_norm": 1.9746872186660767,
8831
+ "learning_rate": 1.8330177813006388e-06,
8832
+ "loss": 0.9043,
8833
+ "step": 1256
8834
+ },
8835
+ {
8836
+ "epoch": 0.0041774571848026305,
8837
+ "grad_norm": 1.886202335357666,
8838
+ "learning_rate": 1.7881720060540786e-06,
8839
+ "loss": 0.8272,
8840
+ "step": 1257
8841
+ },
8842
+ {
8843
+ "epoch": 0.004180780539762696,
8844
+ "grad_norm": 1.5669914484024048,
8845
+ "learning_rate": 1.7438766853897558e-06,
8846
+ "loss": 0.798,
8847
+ "step": 1258
8848
+ },
8849
+ {
8850
+ "epoch": 0.004184103894722762,
8851
+ "grad_norm": 1.6605589389801025,
8852
+ "learning_rate": 1.7001320675727239e-06,
8853
+ "loss": 1.1453,
8854
+ "step": 1259
8855
+ },
8856
+ {
8857
+ "epoch": 0.004187427249682827,
8858
+ "grad_norm": 2.4264414310455322,
8859
+ "learning_rate": 1.656938397781449e-06,
8860
+ "loss": 0.727,
8861
+ "step": 1260
8862
+ },
8863
+ {
8864
+ "epoch": 0.004190750604642893,
8865
+ "grad_norm": 2.188891887664795,
8866
+ "learning_rate": 1.6142959181064343e-06,
8867
+ "loss": 0.9834,
8868
+ "step": 1261
8869
+ },
8870
+ {
8871
+ "epoch": 0.004194073959602959,
8872
+ "grad_norm": 1.7915462255477905,
8873
+ "learning_rate": 1.5722048675489541e-06,
8874
+ "loss": 0.8014,
8875
+ "step": 1262
8876
+ },
8877
+ {
8878
+ "epoch": 0.004197397314563024,
8879
+ "grad_norm": 2.2112960815429688,
8880
+ "learning_rate": 1.5306654820195886e-06,
8881
+ "loss": 0.669,
8882
+ "step": 1263
8883
+ },
8884
+ {
8885
+ "epoch": 0.00420072066952309,
8886
+ "grad_norm": 1.741981029510498,
8887
+ "learning_rate": 1.489677994336991e-06,
8888
+ "loss": 0.9008,
8889
+ "step": 1264
8890
+ },
8891
+ {
8892
+ "epoch": 0.004204044024483156,
8893
+ "grad_norm": 1.3700710535049438,
8894
+ "learning_rate": 1.4492426342265552e-06,
8895
+ "loss": 0.7386,
8896
+ "step": 1265
8897
+ },
8898
+ {
8899
+ "epoch": 0.004207367379443222,
8900
+ "grad_norm": 2.1248631477355957,
8901
+ "learning_rate": 1.4093596283191179e-06,
8902
+ "loss": 0.977,
8903
+ "step": 1266
8904
+ },
8905
+ {
8906
+ "epoch": 0.004210690734403288,
8907
+ "grad_norm": 2.1686811447143555,
8908
+ "learning_rate": 1.3700292001497028e-06,
8909
+ "loss": 0.8883,
8910
+ "step": 1267
8911
+ },
8912
+ {
8913
+ "epoch": 0.004214014089363353,
8914
+ "grad_norm": 1.8819714784622192,
8915
+ "learning_rate": 1.3312515701562667e-06,
8916
+ "loss": 0.5279,
8917
+ "step": 1268
8918
+ },
8919
+ {
8920
+ "epoch": 0.004217337444323419,
8921
+ "grad_norm": 1.7714366912841797,
8922
+ "learning_rate": 1.2930269556784558e-06,
8923
+ "loss": 1.1745,
8924
+ "step": 1269
8925
+ },
8926
+ {
8927
+ "epoch": 0.004220660799283485,
8928
+ "grad_norm": 2.3303427696228027,
8929
+ "learning_rate": 1.2553555709564068e-06,
8930
+ "loss": 1.0176,
8931
+ "step": 1270
8932
+ },
8933
+ {
8934
+ "epoch": 0.00422398415424355,
8935
+ "grad_norm": 1.934847354888916,
8936
+ "learning_rate": 1.2182376271294815e-06,
8937
+ "loss": 1.0643,
8938
+ "step": 1271
8939
+ },
8940
+ {
8941
+ "epoch": 0.004227307509203616,
8942
+ "grad_norm": 1.9978758096694946,
8943
+ "learning_rate": 1.1816733322352114e-06,
8944
+ "loss": 1.093,
8945
+ "step": 1272
8946
+ },
8947
+ {
8948
+ "epoch": 0.0042306308641636816,
8949
+ "grad_norm": 1.9631693363189697,
8950
+ "learning_rate": 1.1456628912079992e-06,
8951
+ "loss": 1.091,
8952
+ "step": 1273
8953
+ },
8954
+ {
8955
+ "epoch": 0.004233954219123748,
8956
+ "grad_norm": 1.8431519269943237,
8957
+ "learning_rate": 1.110206505878031e-06,
8958
+ "loss": 0.8671,
8959
+ "step": 1274
8960
+ },
8961
+ {
8962
+ "epoch": 0.004237277574083814,
8963
+ "grad_norm": 2.2053067684173584,
8964
+ "learning_rate": 1.0753043749701652e-06,
8965
+ "loss": 0.8372,
8966
+ "step": 1275
8967
+ },
8968
+ {
8969
+ "epoch": 0.004240600929043879,
8970
+ "grad_norm": 2.2077174186706543,
8971
+ "learning_rate": 1.040956694102746e-06,
8972
+ "loss": 1.0352,
8973
+ "step": 1276
8974
+ },
8975
+ {
8976
+ "epoch": 0.004243924284003945,
8977
+ "grad_norm": 1.8683050870895386,
8978
+ "learning_rate": 1.0071636557866137e-06,
8979
+ "loss": 0.9413,
8980
+ "step": 1277
8981
+ },
8982
+ {
8983
+ "epoch": 0.00424724763896401,
8984
+ "grad_norm": 1.6869767904281616,
8985
+ "learning_rate": 9.73925449423896e-07,
8986
+ "loss": 0.8921,
8987
+ "step": 1278
8988
+ },
8989
+ {
8990
+ "epoch": 0.004250570993924076,
8991
+ "grad_norm": 2.4182016849517822,
8992
+ "learning_rate": 9.412422613070848e-07,
8993
+ "loss": 0.9755,
8994
+ "step": 1279
8995
+ },
8996
+ {
8997
+ "epoch": 0.004253894348884142,
8998
+ "grad_norm": 1.7648463249206543,
8999
+ "learning_rate": 9.091142746178726e-07,
9000
+ "loss": 1.1577,
9001
+ "step": 1280
9002
+ },
9003
+ {
9004
+ "epoch": 0.0042572177038442075,
9005
+ "grad_norm": 1.8752923011779785,
9006
+ "learning_rate": 8.775416694262073e-07,
9007
+ "loss": 0.96,
9008
+ "step": 1281
9009
+ },
9010
+ {
9011
+ "epoch": 0.004260541058804274,
9012
+ "grad_norm": 1.7734326124191284,
9013
+ "learning_rate": 8.465246226892154e-07,
9014
+ "loss": 0.6681,
9015
+ "step": 1282
9016
+ },
9017
+ {
9018
+ "epoch": 0.00426386441376434,
9019
+ "grad_norm": 2.1282567977905273,
9020
+ "learning_rate": 8.160633082502922e-07,
9021
+ "loss": 0.8363,
9022
+ "step": 1283
9023
+ },
9024
+ {
9025
+ "epoch": 0.004267187768724405,
9026
+ "grad_norm": 1.7843672037124634,
9027
+ "learning_rate": 7.861578968380578e-07,
9028
+ "loss": 1.0503,
9029
+ "step": 1284
9030
+ },
9031
+ {
9032
+ "epoch": 0.004270511123684471,
9033
+ "grad_norm": 1.9426231384277344,
9034
+ "learning_rate": 7.568085560654247e-07,
9035
+ "loss": 1.0447,
9036
+ "step": 1285
9037
+ },
9038
+ {
9039
+ "epoch": 0.004273834478644536,
9040
+ "grad_norm": 2.154215097427368,
9041
+ "learning_rate": 7.28015450428654e-07,
9042
+ "loss": 1.0945,
9043
+ "step": 1286
9044
+ },
9045
+ {
9046
+ "epoch": 0.004277157833604602,
9047
+ "grad_norm": 1.881326675415039,
9048
+ "learning_rate": 6.99778741306456e-07,
9049
+ "loss": 0.8126,
9050
+ "step": 1287
9051
+ },
9052
+ {
9053
+ "epoch": 0.004280481188564668,
9054
+ "grad_norm": 2.788193941116333,
9055
+ "learning_rate": 6.720985869590357e-07,
9056
+ "loss": 0.6972,
9057
+ "step": 1288
9058
+ },
9059
+ {
9060
+ "epoch": 0.0042838045435247335,
9061
+ "grad_norm": 2.3980252742767334,
9062
+ "learning_rate": 6.44975142527282e-07,
9063
+ "loss": 1.0364,
9064
+ "step": 1289
9065
+ },
9066
+ {
9067
+ "epoch": 0.0042871278984847995,
9068
+ "grad_norm": 2.5638821125030518,
9069
+ "learning_rate": 6.184085600318024e-07,
9070
+ "loss": 0.9393,
9071
+ "step": 1290
9072
+ },
9073
+ {
9074
+ "epoch": 0.004290451253444865,
9075
+ "grad_norm": 3.0566511154174805,
9076
+ "learning_rate": 5.92398988372167e-07,
9077
+ "loss": 1.0036,
9078
+ "step": 1291
9079
+ },
9080
+ {
9081
+ "epoch": 0.004293774608404931,
9082
+ "grad_norm": 2.413839101791382,
9083
+ "learning_rate": 5.669465733259994e-07,
9084
+ "loss": 1.3389,
9085
+ "step": 1292
9086
+ },
9087
+ {
9088
+ "epoch": 0.004297097963364997,
9089
+ "grad_norm": 2.7977092266082764,
9090
+ "learning_rate": 5.420514575482205e-07,
9091
+ "loss": 1.091,
9092
+ "step": 1293
9093
+ },
9094
+ {
9095
+ "epoch": 0.004300421318325062,
9096
+ "grad_norm": 3.4734342098236084,
9097
+ "learning_rate": 5.177137805701615e-07,
9098
+ "loss": 0.7818,
9099
+ "step": 1294
9100
+ },
9101
+ {
9102
+ "epoch": 0.004303744673285128,
9103
+ "grad_norm": 2.988787889480591,
9104
+ "learning_rate": 4.939336787988857e-07,
9105
+ "loss": 0.7218,
9106
+ "step": 1295
9107
+ },
9108
+ {
9109
+ "epoch": 0.004307068028245194,
9110
+ "grad_norm": 1.6737980842590332,
9111
+ "learning_rate": 4.7071128551637867e-07,
9112
+ "loss": 1.1564,
9113
+ "step": 1296
9114
+ },
9115
+ {
9116
+ "epoch": 0.004310391383205259,
9117
+ "grad_norm": 2.376605749130249,
9118
+ "learning_rate": 4.4804673087877057e-07,
9119
+ "loss": 0.3682,
9120
+ "step": 1297
9121
+ },
9122
+ {
9123
+ "epoch": 0.0043137147381653255,
9124
+ "grad_norm": 2.320552110671997,
9125
+ "learning_rate": 4.2594014191565945e-07,
9126
+ "loss": 0.9988,
9127
+ "step": 1298
9128
+ },
9129
+ {
9130
+ "epoch": 0.004317038093125391,
9131
+ "grad_norm": 2.8528194427490234,
9132
+ "learning_rate": 4.043916425293559e-07,
9133
+ "loss": 1.3724,
9134
+ "step": 1299
9135
+ },
9136
+ {
9137
+ "epoch": 0.004320361448085457,
9138
+ "grad_norm": 3.585374593734741,
9139
+ "learning_rate": 3.83401353494206e-07,
9140
+ "loss": 0.9507,
9141
+ "step": 1300
9142
+ },
9143
+ {
9144
+ "epoch": 0.004323684803045523,
9145
+ "grad_norm": 2.1745338439941406,
9146
+ "learning_rate": 3.6296939245593633e-07,
9147
+ "loss": 0.6232,
9148
+ "step": 1301
9149
+ },
9150
+ {
9151
+ "epoch": 0.004327008158005588,
9152
+ "grad_norm": 1.2730436325073242,
9153
+ "learning_rate": 3.4309587393096534e-07,
9154
+ "loss": 0.6022,
9155
+ "step": 1302
9156
+ },
9157
+ {
9158
+ "epoch": 0.004330331512965654,
9159
+ "grad_norm": 2.007568120956421,
9160
+ "learning_rate": 3.2378090930577087e-07,
9161
+ "loss": 1.1188,
9162
+ "step": 1303
9163
+ },
9164
+ {
9165
+ "epoch": 0.004333654867925719,
9166
+ "grad_norm": 3.0893633365631104,
9167
+ "learning_rate": 3.0502460683624613e-07,
9168
+ "loss": 0.5077,
9169
+ "step": 1304
9170
+ },
9171
+ {
9172
+ "epoch": 0.004336978222885785,
9173
+ "grad_norm": 1.57036554813385,
9174
+ "learning_rate": 2.868270716471444e-07,
9175
+ "loss": 0.5061,
9176
+ "step": 1305
9177
+ },
9178
+ {
9179
+ "epoch": 0.004340301577845851,
9180
+ "grad_norm": 1.7737019062042236,
9181
+ "learning_rate": 2.6918840573144644e-07,
9182
+ "loss": 1.0445,
9183
+ "step": 1306
9184
+ },
9185
+ {
9186
+ "epoch": 0.004343624932805917,
9187
+ "grad_norm": 2.042353391647339,
9188
+ "learning_rate": 2.521087079497719e-07,
9189
+ "loss": 0.9395,
9190
+ "step": 1307
9191
+ },
9192
+ {
9193
+ "epoch": 0.004346948287765983,
9194
+ "grad_norm": 2.071798086166382,
9195
+ "learning_rate": 2.3558807402989103e-07,
9196
+ "loss": 1.0835,
9197
+ "step": 1308
9198
+ },
9199
+ {
9200
+ "epoch": 0.004350271642726049,
9201
+ "grad_norm": 1.6557015180587769,
9202
+ "learning_rate": 2.1962659656614703e-07,
9203
+ "loss": 1.0824,
9204
+ "step": 1309
9205
+ },
9206
+ {
9207
+ "epoch": 0.004353594997686114,
9208
+ "grad_norm": 1.98556649684906,
9209
+ "learning_rate": 2.042243650189124e-07,
9210
+ "loss": 1.0463,
9211
+ "step": 1310
9212
+ },
9213
+ {
9214
+ "epoch": 0.00435691835264618,
9215
+ "grad_norm": 1.9155919551849365,
9216
+ "learning_rate": 1.8938146571413352e-07,
9217
+ "loss": 0.8835,
9218
+ "step": 1311
9219
+ },
9220
+ {
9221
+ "epoch": 0.004360241707606245,
9222
+ "grad_norm": 2.178790807723999,
9223
+ "learning_rate": 1.750979818428422e-07,
9224
+ "loss": 0.6642,
9225
+ "step": 1312
9226
+ },
9227
+ {
9228
+ "epoch": 0.004363565062566311,
9229
+ "grad_norm": 1.4291096925735474,
9230
+ "learning_rate": 1.6137399346064508e-07,
9231
+ "loss": 0.7367,
9232
+ "step": 1313
9233
+ },
9234
+ {
9235
+ "epoch": 0.004366888417526377,
9236
+ "grad_norm": 3.2246644496917725,
9237
+ "learning_rate": 1.4820957748733488e-07,
9238
+ "loss": 0.8849,
9239
+ "step": 1314
9240
+ },
9241
+ {
9242
+ "epoch": 0.004370211772486443,
9243
+ "grad_norm": 2.7322123050689697,
9244
+ "learning_rate": 1.3560480770642425e-07,
9245
+ "loss": 1.2786,
9246
+ "step": 1315
9247
+ },
9248
+ {
9249
+ "epoch": 0.004373535127446509,
9250
+ "grad_norm": 2.1076912879943848,
9251
+ "learning_rate": 1.235597547647127e-07,
9252
+ "loss": 1.0382,
9253
+ "step": 1316
9254
+ },
9255
+ {
9256
+ "epoch": 0.004376858482406574,
9257
+ "grad_norm": 2.021298885345459,
9258
+ "learning_rate": 1.120744861719536e-07,
9259
+ "loss": 0.7905,
9260
+ "step": 1317
9261
+ },
9262
+ {
9263
+ "epoch": 0.00438018183736664,
9264
+ "grad_norm": 2.3875844478607178,
9265
+ "learning_rate": 1.0114906630040999e-07,
9266
+ "loss": 0.7163,
9267
+ "step": 1318
9268
+ },
9269
+ {
9270
+ "epoch": 0.004383505192326706,
9271
+ "grad_norm": 1.4649884700775146,
9272
+ "learning_rate": 9.078355638453273e-08,
9273
+ "loss": 1.1184,
9274
+ "step": 1319
9275
+ },
9276
+ {
9277
+ "epoch": 0.004386828547286771,
9278
+ "grad_norm": 1.641730546951294,
9279
+ "learning_rate": 8.097801452061626e-08,
9280
+ "loss": 0.7022,
9281
+ "step": 1320
9282
+ },
9283
+ {
9284
+ "epoch": 0.004390151902246837,
9285
+ "grad_norm": 2.3859140872955322,
9286
+ "learning_rate": 7.173249566645446e-08,
9287
+ "loss": 1.2353,
9288
+ "step": 1321
9289
+ },
9290
+ {
9291
+ "epoch": 0.004393475257206903,
9292
+ "grad_norm": 1.9294756650924683,
9293
+ "learning_rate": 6.304705164104086e-08,
9294
+ "loss": 0.857,
9295
+ "step": 1322
9296
+ },
9297
+ {
9298
+ "epoch": 0.0043967986121669685,
9299
+ "grad_norm": 2.262242078781128,
9300
+ "learning_rate": 5.4921731124280007e-08,
9301
+ "loss": 0.8556,
9302
+ "step": 1323
9303
+ },
9304
+ {
9305
+ "epoch": 0.004400121967127035,
9306
+ "grad_norm": 1.5056575536727905,
9307
+ "learning_rate": 4.735657965672102e-08,
9308
+ "loss": 0.8407,
9309
+ "step": 1324
9310
+ },
9311
+ {
9312
+ "epoch": 0.0044034453220871,
9313
+ "grad_norm": 2.3266441822052,
9314
+ "learning_rate": 4.035163963926891e-08,
9315
+ "loss": 0.6501,
9316
+ "step": 1325
9317
+ },
9318
+ {
9319
+ "epoch": 0.004406768677047166,
9320
+ "grad_norm": 2.55777907371521,
9321
+ "learning_rate": 3.390695033300695e-08,
9322
+ "loss": 1.2284,
9323
+ "step": 1326
9324
+ },
9325
+ {
9326
+ "epoch": 0.004410092032007232,
9327
+ "grad_norm": 2.0342135429382324,
9328
+ "learning_rate": 2.8022547858930213e-08,
9329
+ "loss": 0.7973,
9330
+ "step": 1327
9331
+ },
9332
+ {
9333
+ "epoch": 0.004413415386967297,
9334
+ "grad_norm": 1.9018234014511108,
9335
+ "learning_rate": 2.2698465197745766e-08,
9336
+ "loss": 0.7389,
9337
+ "step": 1328
9338
+ },
9339
+ {
9340
+ "epoch": 0.004416738741927363,
9341
+ "grad_norm": 1.6029261350631714,
9342
+ "learning_rate": 1.7934732189706093e-08,
9343
+ "loss": 0.796,
9344
+ "step": 1329
9345
+ },
9346
+ {
9347
+ "epoch": 0.004420062096887428,
9348
+ "grad_norm": 1.9555233716964722,
9349
+ "learning_rate": 1.3731375534442593e-08,
9350
+ "loss": 0.5044,
9351
+ "step": 1330
9352
+ },
9353
+ {
9354
+ "epoch": 0.0044233854518474945,
9355
+ "grad_norm": 1.6823757886886597,
9356
+ "learning_rate": 1.0088418790787923e-08,
9357
+ "loss": 0.5384,
9358
+ "step": 1331
9359
+ },
9360
+ {
9361
+ "epoch": 0.0044267088068075605,
9362
+ "grad_norm": 1.7445098161697388,
9363
+ "learning_rate": 7.005882376676098e-09,
9364
+ "loss": 0.8662,
9365
+ "step": 1332
9366
+ },
9367
+ {
9368
+ "epoch": 0.004430032161767626,
9369
+ "grad_norm": 1.3536102771759033,
9370
+ "learning_rate": 4.483783568998145e-09,
9371
+ "loss": 0.6267,
9372
+ "step": 1333
9373
+ },
9374
+ {
9375
+ "epoch": 0.004433355516727692,
9376
+ "grad_norm": 2.434354543685913,
9377
+ "learning_rate": 2.5221365035577037e-09,
9378
+ "loss": 0.9421,
9379
+ "step": 1334
9380
+ },
9381
+ {
9382
+ "epoch": 0.004436678871687758,
9383
+ "grad_norm": 3.5411949157714844,
9384
+ "learning_rate": 1.1209521749155904e-09,
9385
+ "loss": 0.6256,
9386
+ "step": 1335
9387
+ },
9388
+ {
9389
+ "epoch": 0.004440002226647823,
9390
+ "grad_norm": 1.8648262023925781,
9391
+ "learning_rate": 2.8023843640090364e-10,
9392
+ "loss": 0.8315,
9393
+ "step": 1336
9394
+ },
9395
+ {
9396
+ "epoch": 0.004443325581607889,
9397
+ "grad_norm": 3.0049996376037598,
9398
+ "learning_rate": 0.0,
9399
+ "loss": 0.7712,
9400
+ "step": 1337
9401
  }
9402
  ],
9403
  "logging_steps": 1,
 
9412
  "should_evaluate": false,
9413
  "should_log": false,
9414
  "should_save": true,
9415
+ "should_training_stop": true
9416
  },
9417
  "attributes": {}
9418
  }
9419
  },
9420
+ "total_flos": 1.018183511703552e+17,
9421
  "train_batch_size": 2,
9422
  "trial_name": null,
9423
  "trial_params": null