ErrorAI commited on
Commit
b4f37ae
·
verified ·
1 Parent(s): b219e05

Training in progress, step 1544, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8f81e123d1b7458be05a402395977d62e6b049b63c73190d037cfed8454dbe5f
3
  size 10624
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dab47beb528b31b2a4f5c050fbcde0c1f6bb6c3618a6980eb81143fa3c739ef8
3
  size 10624
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:031fd4d75d3bd74b6ee50806eec2bbb8309bbb5b2c9988872adf5d4579a422cc
3
  size 26562
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:6ef645c75d4c09cffd6de316dd4b1e057fadd5794ff26a91130ec4b92a5d6337
3
  size 26562
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b02f28204d39da2c40b696b7f891696136ecb0ecc667d4409508562f1eb907cf
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d6b21f7a1c3a1b7249d3ca424a2568e0e334163bc2d986441a59f4393fa09ba7
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:17fbb88176e4a24845dc06b3ee31c6baca1754b11a0e5a07e849c54b147a6b40
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:191d3ebd8ea7d9c5929065b4868984ecccee07ef09841bd9c112aee3f2baf5e9
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.4374763883641859,
5
  "eval_steps": 500,
6
- "global_step": 1158,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -8113,6 +8113,2708 @@
8113
  "learning_rate": 1.4734990425263179e-05,
8114
  "loss": 12.3751,
8115
  "step": 1158
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8116
  }
8117
  ],
8118
  "logging_steps": 1,
@@ -8127,12 +10829,12 @@
8127
  "should_evaluate": false,
8128
  "should_log": false,
8129
  "should_save": true,
8130
- "should_training_stop": false
8131
  },
8132
  "attributes": {}
8133
  }
8134
  },
8135
- "total_flos": 547756965888.0,
8136
  "train_batch_size": 4,
8137
  "trial_name": null,
8138
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.5833018511522479,
5
  "eval_steps": 500,
6
+ "global_step": 1544,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
8113
  "learning_rate": 1.4734990425263179e-05,
8114
  "loss": 12.3751,
8115
  "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.4378541745372119,
8119
+ "grad_norm": 0.03931385651230812,
8120
+ "learning_rate": 1.4662708440729218e-05,
8121
+ "loss": 12.3822,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.438231960710238,
8126
+ "grad_norm": 0.04073174670338631,
8127
+ "learning_rate": 1.4590573706300781e-05,
8128
+ "loss": 12.3726,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.4386097468832641,
8133
+ "grad_norm": 0.036465421319007874,
8134
+ "learning_rate": 1.4518586522562511e-05,
8135
+ "loss": 12.3707,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.4389875330562901,
8140
+ "grad_norm": 0.037270959466695786,
8141
+ "learning_rate": 1.4446747189484217e-05,
8142
+ "loss": 12.3651,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.4393653192293162,
8147
+ "grad_norm": 0.03188575431704521,
8148
+ "learning_rate": 1.4375056006419607e-05,
8149
+ "loss": 12.3732,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.4397431054023423,
8154
+ "grad_norm": 0.03198220580816269,
8155
+ "learning_rate": 1.4303513272105057e-05,
8156
+ "loss": 12.3689,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.4401208915753683,
8161
+ "grad_norm": 0.030993863940238953,
8162
+ "learning_rate": 1.4232119284658347e-05,
8163
+ "loss": 12.3709,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.4404986777483944,
8168
+ "grad_norm": 0.03314605727791786,
8169
+ "learning_rate": 1.4160874341577446e-05,
8170
+ "loss": 12.3757,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.4408764639214205,
8175
+ "grad_norm": 0.03950593248009682,
8176
+ "learning_rate": 1.408977873973924e-05,
8177
+ "loss": 12.3715,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.4412542500944465,
8182
+ "grad_norm": 0.0374479666352272,
8183
+ "learning_rate": 1.4018832775398334e-05,
8184
+ "loss": 12.365,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.4416320362674726,
8189
+ "grad_norm": 0.038041599094867706,
8190
+ "learning_rate": 1.3948036744185766e-05,
8191
+ "loss": 12.3724,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.4420098224404987,
8196
+ "grad_norm": 0.03593967482447624,
8197
+ "learning_rate": 1.3877390941107826e-05,
8198
+ "loss": 12.3724,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.4423876086135247,
8203
+ "grad_norm": 0.04763636738061905,
8204
+ "learning_rate": 1.3806895660544805e-05,
8205
+ "loss": 12.3657,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.4427653947865508,
8210
+ "grad_norm": 0.03423771634697914,
8211
+ "learning_rate": 1.3736551196249759e-05,
8212
+ "loss": 12.3661,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.4431431809595769,
8217
+ "grad_norm": 0.04524846374988556,
8218
+ "learning_rate": 1.3666357841347289e-05,
8219
+ "loss": 12.3692,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.443520967132603,
8224
+ "grad_norm": 0.03168905898928642,
8225
+ "learning_rate": 1.3596315888332344e-05,
8226
+ "loss": 12.3664,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.443898753305629,
8231
+ "grad_norm": 0.043227244168519974,
8232
+ "learning_rate": 1.3526425629068967e-05,
8233
+ "loss": 12.364,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.4442765394786551,
8238
+ "grad_norm": 0.038131628185510635,
8239
+ "learning_rate": 1.3456687354789105e-05,
8240
+ "loss": 12.3692,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 0.44465432565168117,
8245
+ "grad_norm": 0.03136202692985535,
8246
+ "learning_rate": 1.3387101356091376e-05,
8247
+ "loss": 12.3723,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 0.4450321118247072,
8252
+ "grad_norm": 0.03408299386501312,
8253
+ "learning_rate": 1.3317667922939868e-05,
8254
+ "loss": 12.3697,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 0.4454098979977333,
8259
+ "grad_norm": 0.03337300196290016,
8260
+ "learning_rate": 1.3248387344662944e-05,
8261
+ "loss": 12.3668,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 0.44578768417075937,
8266
+ "grad_norm": 0.03062303178012371,
8267
+ "learning_rate": 1.3179259909952002e-05,
8268
+ "loss": 12.367,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 0.4461654703437854,
8273
+ "grad_norm": 0.04291022941470146,
8274
+ "learning_rate": 1.3110285906860315e-05,
8275
+ "loss": 12.3636,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 0.4465432565168115,
8280
+ "grad_norm": 0.0346299447119236,
8281
+ "learning_rate": 1.3041465622801779e-05,
8282
+ "loss": 12.362,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 0.44692104268983757,
8287
+ "grad_norm": 0.03581158071756363,
8288
+ "learning_rate": 1.297279934454978e-05,
8289
+ "loss": 12.371,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 0.4472988288628636,
8294
+ "grad_norm": 0.04244088754057884,
8295
+ "learning_rate": 1.2904287358235928e-05,
8296
+ "loss": 12.3672,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 0.4476766150358897,
8301
+ "grad_norm": 0.0474376305937767,
8302
+ "learning_rate": 1.283592994934893e-05,
8303
+ "loss": 12.3618,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 0.44805440120891576,
8308
+ "grad_norm": 0.04155411943793297,
8309
+ "learning_rate": 1.2767727402733348e-05,
8310
+ "loss": 12.3741,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 0.4484321873819418,
8315
+ "grad_norm": 0.03525369614362717,
8316
+ "learning_rate": 1.2699680002588443e-05,
8317
+ "loss": 12.3639,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 0.4488099735549679,
8322
+ "grad_norm": 0.0417000912129879,
8323
+ "learning_rate": 1.2631788032466995e-05,
8324
+ "loss": 12.3664,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 0.44918775972799396,
8329
+ "grad_norm": 0.036169346421957016,
8330
+ "learning_rate": 1.2564051775274088e-05,
8331
+ "loss": 12.3697,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 0.44956554590102005,
8336
+ "grad_norm": 0.04191224277019501,
8337
+ "learning_rate": 1.2496471513265968e-05,
8338
+ "loss": 12.3767,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 0.4499433320740461,
8343
+ "grad_norm": 0.04688515514135361,
8344
+ "learning_rate": 1.2429047528048838e-05,
8345
+ "loss": 12.3704,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 0.45032111824707216,
8350
+ "grad_norm": 0.03686659410595894,
8351
+ "learning_rate": 1.2361780100577703e-05,
8352
+ "loss": 12.3591,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 0.45069890442009825,
8357
+ "grad_norm": 0.05007659271359444,
8358
+ "learning_rate": 1.2294669511155193e-05,
8359
+ "loss": 12.3692,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 0.4510766905931243,
8364
+ "grad_norm": 0.058174509555101395,
8365
+ "learning_rate": 1.2227716039430404e-05,
8366
+ "loss": 12.3632,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 0.45145447676615036,
8371
+ "grad_norm": 0.056341782212257385,
8372
+ "learning_rate": 1.216091996439771e-05,
8373
+ "loss": 12.373,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.45183226293917644,
8378
+ "grad_norm": 0.05682500824332237,
8379
+ "learning_rate": 1.2094281564395627e-05,
8380
+ "loss": 12.3637,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.4522100491122025,
8385
+ "grad_norm": 0.06348198652267456,
8386
+ "learning_rate": 1.202780111710563e-05,
8387
+ "loss": 12.3755,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 0.45258783528522856,
8392
+ "grad_norm": 0.06290506571531296,
8393
+ "learning_rate": 1.1961478899551015e-05,
8394
+ "loss": 12.381,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 0.45296562145825464,
8399
+ "grad_norm": 0.09010813385248184,
8400
+ "learning_rate": 1.189531518809573e-05,
8401
+ "loss": 12.3777,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 0.45334340763128067,
8406
+ "grad_norm": 0.15625080466270447,
8407
+ "learning_rate": 1.1829310258443238e-05,
8408
+ "loss": 12.3885,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.45372119380430675,
8413
+ "grad_norm": 0.047231078147888184,
8414
+ "learning_rate": 1.1763464385635353e-05,
8415
+ "loss": 12.381,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.45409897997733284,
8420
+ "grad_norm": 0.03812883049249649,
8421
+ "learning_rate": 1.1697777844051105e-05,
8422
+ "loss": 12.3728,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.4544767661503589,
8427
+ "grad_norm": 0.03945963829755783,
8428
+ "learning_rate": 1.163225090740559e-05,
8429
+ "loss": 12.3772,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.45485455232338495,
8434
+ "grad_norm": 0.04512109234929085,
8435
+ "learning_rate": 1.1566883848748832e-05,
8436
+ "loss": 12.3682,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.45523233849641104,
8441
+ "grad_norm": 0.03057880327105522,
8442
+ "learning_rate": 1.1501676940464645e-05,
8443
+ "loss": 12.3762,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.4556101246694371,
8448
+ "grad_norm": 0.038191623985767365,
8449
+ "learning_rate": 1.1436630454269504e-05,
8450
+ "loss": 12.3757,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.45598791084246315,
8455
+ "grad_norm": 0.04440156742930412,
8456
+ "learning_rate": 1.1371744661211391e-05,
8457
+ "loss": 12.3754,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.45636569701548924,
8462
+ "grad_norm": 0.03836330398917198,
8463
+ "learning_rate": 1.1307019831668709e-05,
8464
+ "loss": 12.3745,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.4567434831885153,
8469
+ "grad_norm": 0.036225590854883194,
8470
+ "learning_rate": 1.1242456235349096e-05,
8471
+ "loss": 12.3757,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.45712126936154135,
8476
+ "grad_norm": 0.032095544040203094,
8477
+ "learning_rate": 1.1178054141288358e-05,
8478
+ "loss": 12.3712,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.45749905553456743,
8483
+ "grad_norm": 0.037354450672864914,
8484
+ "learning_rate": 1.111381381784931e-05,
8485
+ "loss": 12.3723,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.4578768417075935,
8490
+ "grad_norm": 0.03643963858485222,
8491
+ "learning_rate": 1.1049735532720673e-05,
8492
+ "loss": 12.3675,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.45825462788061955,
8497
+ "grad_norm": 0.04525665566325188,
8498
+ "learning_rate": 1.0985819552915955e-05,
8499
+ "loss": 12.3668,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.45863241405364563,
8504
+ "grad_norm": 0.03201952949166298,
8505
+ "learning_rate": 1.092206614477234e-05,
8506
+ "loss": 12.37,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.4590102002266717,
8511
+ "grad_norm": 0.04047270119190216,
8512
+ "learning_rate": 1.0858475573949589e-05,
8513
+ "loss": 12.3769,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.45938798639969775,
8518
+ "grad_norm": 0.040772419422864914,
8519
+ "learning_rate": 1.0795048105428907e-05,
8520
+ "loss": 12.3792,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.45976577257272383,
8525
+ "grad_norm": 0.02995879203081131,
8526
+ "learning_rate": 1.0731784003511852e-05,
8527
+ "loss": 12.3721,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.4601435587457499,
8532
+ "grad_norm": 0.03294239193201065,
8533
+ "learning_rate": 1.0668683531819247e-05,
8534
+ "loss": 12.3715,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.460521344918776,
8539
+ "grad_norm": 0.03151008486747742,
8540
+ "learning_rate": 1.0605746953290057e-05,
8541
+ "loss": 12.3708,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.46089913109180203,
8546
+ "grad_norm": 0.03497641906142235,
8547
+ "learning_rate": 1.0542974530180327e-05,
8548
+ "loss": 12.3742,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.4612769172648281,
8553
+ "grad_norm": 0.04114446043968201,
8554
+ "learning_rate": 1.0480366524062042e-05,
8555
+ "loss": 12.3713,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.4616547034378542,
8560
+ "grad_norm": 0.03543113172054291,
8561
+ "learning_rate": 1.0417923195822076e-05,
8562
+ "loss": 12.3751,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.4620324896108802,
8567
+ "grad_norm": 0.041865747421979904,
8568
+ "learning_rate": 1.0355644805661102e-05,
8569
+ "loss": 12.3751,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.4624102757839063,
8574
+ "grad_norm": 0.04181693121790886,
8575
+ "learning_rate": 1.0293531613092478e-05,
8576
+ "loss": 12.3672,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.4627880619569324,
8581
+ "grad_norm": 0.041295990347862244,
8582
+ "learning_rate": 1.0231583876941192e-05,
8583
+ "loss": 12.3661,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.4631658481299584,
8588
+ "grad_norm": 0.05063636973500252,
8589
+ "learning_rate": 1.0169801855342786e-05,
8590
+ "loss": 12.3639,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.4635436343029845,
8595
+ "grad_norm": 0.051273223012685776,
8596
+ "learning_rate": 1.0108185805742264e-05,
8597
+ "loss": 12.3657,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.4639214204760106,
8602
+ "grad_norm": 0.03442752733826637,
8603
+ "learning_rate": 1.0046735984893023e-05,
8604
+ "loss": 12.3626,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.4642992066490366,
8609
+ "grad_norm": 0.055842552334070206,
8610
+ "learning_rate": 9.985452648855803e-06,
8611
+ "loss": 12.3613,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.4646769928220627,
8616
+ "grad_norm": 0.03904302045702934,
8617
+ "learning_rate": 9.924336052997579e-06,
8618
+ "loss": 12.3667,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.4650547789950888,
8623
+ "grad_norm": 0.039607588201761246,
8624
+ "learning_rate": 9.863386451990536e-06,
8625
+ "loss": 12.3627,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.4654325651681148,
8630
+ "grad_norm": 0.03496779128909111,
8631
+ "learning_rate": 9.802604099810997e-06,
8632
+ "loss": 12.3662,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.4658103513411409,
8637
+ "grad_norm": 0.03711122274398804,
8638
+ "learning_rate": 9.741989249738348e-06,
8639
+ "loss": 12.3758,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.466188137514167,
8644
+ "grad_norm": 0.03672249615192413,
8645
+ "learning_rate": 9.681542154354011e-06,
8646
+ "loss": 12.3726,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.4665659236871931,
8651
+ "grad_norm": 0.03551850467920303,
8652
+ "learning_rate": 9.621263065540365e-06,
8653
+ "loss": 12.3642,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.4669437098602191,
8658
+ "grad_norm": 0.039268869906663895,
8659
+ "learning_rate": 9.561152234479714e-06,
8660
+ "loss": 12.3699,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.4673214960332452,
8665
+ "grad_norm": 0.04356931895017624,
8666
+ "learning_rate": 9.501209911653219e-06,
8667
+ "loss": 12.3671,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.46769928220627127,
8672
+ "grad_norm": 0.0456683486700058,
8673
+ "learning_rate": 9.441436346839894e-06,
8674
+ "loss": 12.3664,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.4680770683792973,
8679
+ "grad_norm": 0.031490568071603775,
8680
+ "learning_rate": 9.381831789115515e-06,
8681
+ "loss": 12.3667,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.4684548545523234,
8686
+ "grad_norm": 0.0355166494846344,
8687
+ "learning_rate": 9.322396486851626e-06,
8688
+ "loss": 12.3749,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.46883264072534947,
8693
+ "grad_norm": 0.04162101075053215,
8694
+ "learning_rate": 9.263130687714478e-06,
8695
+ "loss": 12.3661,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.4692104268983755,
8700
+ "grad_norm": 0.04071405902504921,
8701
+ "learning_rate": 9.204034638664006e-06,
8702
+ "loss": 12.3747,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.4695882130714016,
8707
+ "grad_norm": 0.0722724124789238,
8708
+ "learning_rate": 9.145108585952788e-06,
8709
+ "loss": 12.3785,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.46996599924442767,
8714
+ "grad_norm": 0.050802621990442276,
8715
+ "learning_rate": 9.086352775125046e-06,
8716
+ "loss": 12.3668,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.4703437854174537,
8721
+ "grad_norm": 0.055558983236551285,
8722
+ "learning_rate": 9.027767451015595e-06,
8723
+ "loss": 12.3663,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.4707215715904798,
8728
+ "grad_norm": 0.05985091254115105,
8729
+ "learning_rate": 8.969352857748842e-06,
8730
+ "loss": 12.381,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.47109935776350587,
8735
+ "grad_norm": 0.05538693815469742,
8736
+ "learning_rate": 8.911109238737747e-06,
8737
+ "loss": 12.3641,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.47147714393653195,
8742
+ "grad_norm": 0.07532553374767303,
8743
+ "learning_rate": 8.853036836682838e-06,
8744
+ "loss": 12.367,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.471854930109558,
8749
+ "grad_norm": 0.08992443978786469,
8750
+ "learning_rate": 8.795135893571166e-06,
8751
+ "loss": 12.3734,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.47223271628258406,
8756
+ "grad_norm": 0.12376437336206436,
8757
+ "learning_rate": 8.737406650675333e-06,
8758
+ "loss": 12.3813,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.47261050245561015,
8763
+ "grad_norm": 0.04168854281306267,
8764
+ "learning_rate": 8.679849348552455e-06,
8765
+ "loss": 12.3736,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.4729882886286362,
8770
+ "grad_norm": 0.03898398578166962,
8771
+ "learning_rate": 8.622464227043181e-06,
8772
+ "loss": 12.3767,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.47336607480166226,
8777
+ "grad_norm": 0.04223041981458664,
8778
+ "learning_rate": 8.565251525270684e-06,
8779
+ "loss": 12.3719,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.47374386097468835,
8784
+ "grad_norm": 0.03358473256230354,
8785
+ "learning_rate": 8.508211481639655e-06,
8786
+ "loss": 12.3685,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.4741216471477144,
8791
+ "grad_norm": 0.03558828681707382,
8792
+ "learning_rate": 8.451344333835338e-06,
8793
+ "loss": 12.3719,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.47449943332074046,
8798
+ "grad_norm": 0.03825223818421364,
8799
+ "learning_rate": 8.3946503188225e-06,
8800
+ "loss": 12.3784,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.47487721949376654,
8805
+ "grad_norm": 0.03340928256511688,
8806
+ "learning_rate": 8.338129672844491e-06,
8807
+ "loss": 12.3721,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.4752550056667926,
8812
+ "grad_norm": 0.04322151467204094,
8813
+ "learning_rate": 8.28178263142222e-06,
8814
+ "loss": 12.3694,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.47563279183981866,
8819
+ "grad_norm": 0.03472879156470299,
8820
+ "learning_rate": 8.225609429353187e-06,
8821
+ "loss": 12.3715,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.47601057801284474,
8826
+ "grad_norm": 0.04734859988093376,
8827
+ "learning_rate": 8.1696103007105e-06,
8828
+ "loss": 12.3765,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.47638836418587077,
8833
+ "grad_norm": 0.042171910405159,
8834
+ "learning_rate": 8.113785478841924e-06,
8835
+ "loss": 12.3667,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.47676615035889686,
8840
+ "grad_norm": 0.03718302771449089,
8841
+ "learning_rate": 8.058135196368877e-06,
8842
+ "loss": 12.3759,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.47714393653192294,
8847
+ "grad_norm": 0.04056549444794655,
8848
+ "learning_rate": 8.002659685185464e-06,
8849
+ "loss": 12.3742,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.477521722704949,
8854
+ "grad_norm": 0.042442917823791504,
8855
+ "learning_rate": 7.947359176457541e-06,
8856
+ "loss": 12.3682,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.47789950887797505,
8861
+ "grad_norm": 0.041739899665117264,
8862
+ "learning_rate": 7.89223390062172e-06,
8863
+ "loss": 12.3742,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.47827729505100114,
8868
+ "grad_norm": 0.033437564969062805,
8869
+ "learning_rate": 7.837284087384411e-06,
8870
+ "loss": 12.3677,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.4786550812240272,
8875
+ "grad_norm": 0.03466346487402916,
8876
+ "learning_rate": 7.782509965720891e-06,
8877
+ "loss": 12.3674,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.47903286739705325,
8882
+ "grad_norm": 0.03019503317773342,
8883
+ "learning_rate": 7.727911763874313e-06,
8884
+ "loss": 12.3779,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.47941065357007934,
8889
+ "grad_norm": 0.03774089366197586,
8890
+ "learning_rate": 7.673489709354798e-06,
8891
+ "loss": 12.3672,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.4797884397431054,
8896
+ "grad_norm": 0.03035971336066723,
8897
+ "learning_rate": 7.619244028938433e-06,
8898
+ "loss": 12.3657,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.48016622591613145,
8903
+ "grad_norm": 0.041345734149217606,
8904
+ "learning_rate": 7.565174948666381e-06,
8905
+ "loss": 12.3704,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.48054401208915754,
8910
+ "grad_norm": 0.034325577318668365,
8911
+ "learning_rate": 7.511282693843908e-06,
8912
+ "loss": 12.3673,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.4809217982621836,
8917
+ "grad_norm": 0.031203050166368484,
8918
+ "learning_rate": 7.457567489039441e-06,
8919
+ "loss": 12.3683,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.48129958443520965,
8924
+ "grad_norm": 0.0467066615819931,
8925
+ "learning_rate": 7.404029558083653e-06,
8926
+ "loss": 12.3686,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.48167737060823573,
8931
+ "grad_norm": 0.039916858077049255,
8932
+ "learning_rate": 7.35066912406851e-06,
8933
+ "loss": 12.3674,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.4820551567812618,
8938
+ "grad_norm": 0.035765450447797775,
8939
+ "learning_rate": 7.2974864093463545e-06,
8940
+ "loss": 12.3702,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.48243294295428785,
8945
+ "grad_norm": 0.03454265743494034,
8946
+ "learning_rate": 7.2444816355289715e-06,
8947
+ "loss": 12.3753,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.48281072912731393,
8952
+ "grad_norm": 0.03991926088929176,
8953
+ "learning_rate": 7.191655023486682e-06,
8954
+ "loss": 12.3691,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.48318851530034,
8959
+ "grad_norm": 0.047338444739580154,
8960
+ "learning_rate": 7.139006793347386e-06,
8961
+ "loss": 12.3618,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.4835663014733661,
8966
+ "grad_norm": 0.035819366574287415,
8967
+ "learning_rate": 7.086537164495688e-06,
8968
+ "loss": 12.368,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.48394408764639213,
8973
+ "grad_norm": 0.03620653226971626,
8974
+ "learning_rate": 7.034246355571944e-06,
8975
+ "loss": 12.3732,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.4843218738194182,
8980
+ "grad_norm": 0.037103258073329926,
8981
+ "learning_rate": 6.982134584471395e-06,
8982
+ "loss": 12.3646,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.4846996599924443,
8987
+ "grad_norm": 0.055807821452617645,
8988
+ "learning_rate": 6.9302020683432055e-06,
8989
+ "loss": 12.3622,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.4850774461654703,
8994
+ "grad_norm": 0.038796085864305496,
8995
+ "learning_rate": 6.878449023589601e-06,
8996
+ "loss": 12.3686,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.4854552323384964,
9001
+ "grad_norm": 0.04036309942603111,
9002
+ "learning_rate": 6.826875665864957e-06,
9003
+ "loss": 12.3711,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.4858330185115225,
9008
+ "grad_norm": 0.03805702179670334,
9009
+ "learning_rate": 6.775482210074885e-06,
9010
+ "loss": 12.3679,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.4862108046845485,
9015
+ "grad_norm": 0.03731246292591095,
9016
+ "learning_rate": 6.72426887037535e-06,
9017
+ "loss": 12.3666,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.4865885908575746,
9022
+ "grad_norm": 0.036057423800230026,
9023
+ "learning_rate": 6.673235860171778e-06,
9024
+ "loss": 12.3575,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.4869663770306007,
9029
+ "grad_norm": 0.04278253763914108,
9030
+ "learning_rate": 6.622383392118154e-06,
9031
+ "loss": 12.3602,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.4873441632036267,
9036
+ "grad_norm": 0.03653295338153839,
9037
+ "learning_rate": 6.57171167811616e-06,
9038
+ "loss": 12.3671,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.4877219493766528,
9043
+ "grad_norm": 0.04199488088488579,
9044
+ "learning_rate": 6.521220929314276e-06,
9045
+ "loss": 12.3753,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.4880997355496789,
9050
+ "grad_norm": 0.041755374521017075,
9051
+ "learning_rate": 6.470911356106885e-06,
9052
+ "loss": 12.3735,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.4884775217227049,
9057
+ "grad_norm": 0.04074932634830475,
9058
+ "learning_rate": 6.420783168133432e-06,
9059
+ "loss": 12.3671,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.488855307895731,
9064
+ "grad_norm": 0.04746726527810097,
9065
+ "learning_rate": 6.370836574277528e-06,
9066
+ "loss": 12.3705,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.4892330940687571,
9071
+ "grad_norm": 0.05516129359602928,
9072
+ "learning_rate": 6.321071782666077e-06,
9073
+ "loss": 12.3579,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.4896108802417832,
9078
+ "grad_norm": 0.046728022396564484,
9079
+ "learning_rate": 6.271489000668418e-06,
9080
+ "loss": 12.3693,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.4899886664148092,
9085
+ "grad_norm": 0.055551476776599884,
9086
+ "learning_rate": 6.222088434895462e-06,
9087
+ "loss": 12.3703,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.4903664525878353,
9092
+ "grad_norm": 0.06050414592027664,
9093
+ "learning_rate": 6.172870291198824e-06,
9094
+ "loss": 12.3741,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.4907442387608614,
9099
+ "grad_norm": 0.07734154164791107,
9100
+ "learning_rate": 6.123834774669956e-06,
9101
+ "loss": 12.3748,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.4911220249338874,
9106
+ "grad_norm": 0.11719764024019241,
9107
+ "learning_rate": 6.074982089639336e-06,
9108
+ "loss": 12.3771,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.4914998111069135,
9113
+ "grad_norm": 0.051039863377809525,
9114
+ "learning_rate": 6.026312439675552e-06,
9115
+ "loss": 12.3685,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.49187759727993957,
9120
+ "grad_norm": 0.04042213782668114,
9121
+ "learning_rate": 5.977826027584505e-06,
9122
+ "loss": 12.3719,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.4922553834529656,
9127
+ "grad_norm": 0.0355064831674099,
9128
+ "learning_rate": 5.929523055408537e-06,
9129
+ "loss": 12.3732,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.4926331696259917,
9134
+ "grad_norm": 0.04373539611697197,
9135
+ "learning_rate": 5.881403724425605e-06,
9136
+ "loss": 12.3731,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.49301095579901777,
9141
+ "grad_norm": 0.04197046160697937,
9142
+ "learning_rate": 5.833468235148437e-06,
9143
+ "loss": 12.3823,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.4933887419720438,
9148
+ "grad_norm": 0.03871211037039757,
9149
+ "learning_rate": 5.7857167873236805e-06,
9150
+ "loss": 12.3787,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.4937665281450699,
9155
+ "grad_norm": 0.034230586141347885,
9156
+ "learning_rate": 5.7381495799311015e-06,
9157
+ "loss": 12.3719,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.49414431431809597,
9162
+ "grad_norm": 0.04650005325675011,
9163
+ "learning_rate": 5.690766811182729e-06,
9164
+ "loss": 12.373,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.49452210049112205,
9169
+ "grad_norm": 0.03966010734438896,
9170
+ "learning_rate": 5.643568678522038e-06,
9171
+ "loss": 12.3681,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.4948998866641481,
9176
+ "grad_norm": 0.03580264374613762,
9177
+ "learning_rate": 5.596555378623125e-06,
9178
+ "loss": 12.3739,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.49527767283717417,
9183
+ "grad_norm": 0.039899274706840515,
9184
+ "learning_rate": 5.549727107389902e-06,
9185
+ "loss": 12.3718,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.49565545901020025,
9190
+ "grad_norm": 0.03877566382288933,
9191
+ "learning_rate": 5.503084059955255e-06,
9192
+ "loss": 12.3793,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.4960332451832263,
9197
+ "grad_norm": 0.03266843035817146,
9198
+ "learning_rate": 5.45662643068025e-06,
9199
+ "loss": 12.3717,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.49641103135625236,
9204
+ "grad_norm": 0.04085678979754448,
9205
+ "learning_rate": 5.4103544131533236e-06,
9206
+ "loss": 12.3661,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.49678881752927845,
9211
+ "grad_norm": 0.03333406522870064,
9212
+ "learning_rate": 5.364268200189454e-06,
9213
+ "loss": 12.372,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.4971666037023045,
9218
+ "grad_norm": 0.03501317277550697,
9219
+ "learning_rate": 5.318367983829392e-06,
9220
+ "loss": 12.3746,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 0.49754438987533056,
9225
+ "grad_norm": 0.036452457308769226,
9226
+ "learning_rate": 5.2726539553388296e-06,
9227
+ "loss": 12.369,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 0.49792217604835665,
9232
+ "grad_norm": 0.03703896328806877,
9233
+ "learning_rate": 5.227126305207625e-06,
9234
+ "loss": 12.3688,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 0.4982999622213827,
9239
+ "grad_norm": 0.03834862634539604,
9240
+ "learning_rate": 5.181785223148999e-06,
9241
+ "loss": 12.3725,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 0.49867774839440876,
9246
+ "grad_norm": 0.03437526896595955,
9247
+ "learning_rate": 5.136630898098732e-06,
9248
+ "loss": 12.3682,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 0.49905553456743484,
9253
+ "grad_norm": 0.04603976383805275,
9254
+ "learning_rate": 5.091663518214407e-06,
9255
+ "loss": 12.3646,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 0.4994333207404609,
9260
+ "grad_norm": 0.03163118287920952,
9261
+ "learning_rate": 5.046883270874603e-06,
9262
+ "loss": 12.3669,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 0.49981110691348696,
9267
+ "grad_norm": 0.035730570554733276,
9268
+ "learning_rate": 5.002290342678112e-06,
9269
+ "loss": 12.363,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 0.500188893086513,
9274
+ "grad_norm": 0.03787192702293396,
9275
+ "learning_rate": 4.957884919443184e-06,
9276
+ "loss": 12.3627,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 0.5005666792595391,
9281
+ "grad_norm": 0.06199578195810318,
9282
+ "learning_rate": 4.913667186206722e-06,
9283
+ "loss": 12.365,
9284
+ "step": 1325
9285
+ },
9286
+ {
9287
+ "epoch": 0.5009444654325652,
9288
+ "grad_norm": 0.031377822160720825,
9289
+ "learning_rate": 4.869637327223542e-06,
9290
+ "loss": 12.3698,
9291
+ "step": 1326
9292
+ },
9293
+ {
9294
+ "epoch": 0.5013222516055912,
9295
+ "grad_norm": 0.03355984762310982,
9296
+ "learning_rate": 4.825795525965576e-06,
9297
+ "loss": 12.3644,
9298
+ "step": 1327
9299
+ },
9300
+ {
9301
+ "epoch": 0.5017000377786173,
9302
+ "grad_norm": 0.04313547536730766,
9303
+ "learning_rate": 4.782141965121128e-06,
9304
+ "loss": 12.3668,
9305
+ "step": 1328
9306
+ },
9307
+ {
9308
+ "epoch": 0.5020778239516434,
9309
+ "grad_norm": 0.034874800592660904,
9310
+ "learning_rate": 4.738676826594113e-06,
9311
+ "loss": 12.374,
9312
+ "step": 1329
9313
+ },
9314
+ {
9315
+ "epoch": 0.5024556101246694,
9316
+ "grad_norm": 0.046843621879816055,
9317
+ "learning_rate": 4.695400291503277e-06,
9318
+ "loss": 12.3678,
9319
+ "step": 1330
9320
+ },
9321
+ {
9322
+ "epoch": 0.5028333962976955,
9323
+ "grad_norm": 0.047022756189107895,
9324
+ "learning_rate": 4.65231254018147e-06,
9325
+ "loss": 12.3689,
9326
+ "step": 1331
9327
+ },
9328
+ {
9329
+ "epoch": 0.5032111824707216,
9330
+ "grad_norm": 0.037727728486061096,
9331
+ "learning_rate": 4.6094137521748795e-06,
9332
+ "loss": 12.3677,
9333
+ "step": 1332
9334
+ },
9335
+ {
9336
+ "epoch": 0.5035889686437477,
9337
+ "grad_norm": 0.03536062315106392,
9338
+ "learning_rate": 4.566704106242281e-06,
9339
+ "loss": 12.3677,
9340
+ "step": 1333
9341
+ },
9342
+ {
9343
+ "epoch": 0.5039667548167737,
9344
+ "grad_norm": 0.03846399486064911,
9345
+ "learning_rate": 4.524183780354302e-06,
9346
+ "loss": 12.3621,
9347
+ "step": 1334
9348
+ },
9349
+ {
9350
+ "epoch": 0.5043445409897998,
9351
+ "grad_norm": 0.03362063318490982,
9352
+ "learning_rate": 4.4818529516926726e-06,
9353
+ "loss": 12.3681,
9354
+ "step": 1335
9355
+ },
9356
+ {
9357
+ "epoch": 0.5047223271628258,
9358
+ "grad_norm": 0.03910623863339424,
9359
+ "learning_rate": 4.439711796649487e-06,
9360
+ "loss": 12.375,
9361
+ "step": 1336
9362
+ },
9363
+ {
9364
+ "epoch": 0.5051001133358519,
9365
+ "grad_norm": 0.049038905650377274,
9366
+ "learning_rate": 4.397760490826481e-06,
9367
+ "loss": 12.3676,
9368
+ "step": 1337
9369
+ },
9370
+ {
9371
+ "epoch": 0.505477899508878,
9372
+ "grad_norm": 0.040389277040958405,
9373
+ "learning_rate": 4.355999209034278e-06,
9374
+ "loss": 12.3617,
9375
+ "step": 1338
9376
+ },
9377
+ {
9378
+ "epoch": 0.5058556856819041,
9379
+ "grad_norm": 0.04509030282497406,
9380
+ "learning_rate": 4.314428125291686e-06,
9381
+ "loss": 12.3689,
9382
+ "step": 1339
9383
+ },
9384
+ {
9385
+ "epoch": 0.5062334718549301,
9386
+ "grad_norm": 0.04911265894770622,
9387
+ "learning_rate": 4.273047412824954e-06,
9388
+ "loss": 12.359,
9389
+ "step": 1340
9390
+ },
9391
+ {
9392
+ "epoch": 0.5066112580279561,
9393
+ "grad_norm": 0.05804325267672539,
9394
+ "learning_rate": 4.231857244067056e-06,
9395
+ "loss": 12.3664,
9396
+ "step": 1341
9397
+ },
9398
+ {
9399
+ "epoch": 0.5069890442009822,
9400
+ "grad_norm": 0.04763133078813553,
9401
+ "learning_rate": 4.190857790656966e-06,
9402
+ "loss": 12.3685,
9403
+ "step": 1342
9404
+ },
9405
+ {
9406
+ "epoch": 0.5073668303740083,
9407
+ "grad_norm": 0.050545379519462585,
9408
+ "learning_rate": 4.150049223438962e-06,
9409
+ "loss": 12.3736,
9410
+ "step": 1343
9411
+ },
9412
+ {
9413
+ "epoch": 0.5077446165470344,
9414
+ "grad_norm": 0.060127004981040955,
9415
+ "learning_rate": 4.109431712461892e-06,
9416
+ "loss": 12.3616,
9417
+ "step": 1344
9418
+ },
9419
+ {
9420
+ "epoch": 0.5081224027200605,
9421
+ "grad_norm": 0.04868752881884575,
9422
+ "learning_rate": 4.0690054269784835e-06,
9423
+ "loss": 12.3658,
9424
+ "step": 1345
9425
+ },
9426
+ {
9427
+ "epoch": 0.5085001888930865,
9428
+ "grad_norm": 0.04811963066458702,
9429
+ "learning_rate": 4.028770535444615e-06,
9430
+ "loss": 12.3687,
9431
+ "step": 1346
9432
+ },
9433
+ {
9434
+ "epoch": 0.5088779750661125,
9435
+ "grad_norm": 0.06719520688056946,
9436
+ "learning_rate": 3.988727205518644e-06,
9437
+ "loss": 12.3734,
9438
+ "step": 1347
9439
+ },
9440
+ {
9441
+ "epoch": 0.5092557612391386,
9442
+ "grad_norm": 0.06329771876335144,
9443
+ "learning_rate": 3.948875604060681e-06,
9444
+ "loss": 12.3814,
9445
+ "step": 1348
9446
+ },
9447
+ {
9448
+ "epoch": 0.5096335474121647,
9449
+ "grad_norm": 0.07885588705539703,
9450
+ "learning_rate": 3.909215897131918e-06,
9451
+ "loss": 12.3883,
9452
+ "step": 1349
9453
+ },
9454
+ {
9455
+ "epoch": 0.5100113335851908,
9456
+ "grad_norm": 0.11217532306909561,
9457
+ "learning_rate": 3.86974824999391e-06,
9458
+ "loss": 12.3774,
9459
+ "step": 1350
9460
+ },
9461
+ {
9462
+ "epoch": 0.5103891197582169,
9463
+ "grad_norm": 0.045559655874967575,
9464
+ "learning_rate": 3.830472827107917e-06,
9465
+ "loss": 12.3755,
9466
+ "step": 1351
9467
+ },
9468
+ {
9469
+ "epoch": 0.510766905931243,
9470
+ "grad_norm": 0.049998242408037186,
9471
+ "learning_rate": 3.7913897921341866e-06,
9472
+ "loss": 12.3713,
9473
+ "step": 1352
9474
+ },
9475
+ {
9476
+ "epoch": 0.5111446921042689,
9477
+ "grad_norm": 0.05028686672449112,
9478
+ "learning_rate": 3.7524993079313066e-06,
9479
+ "loss": 12.37,
9480
+ "step": 1353
9481
+ },
9482
+ {
9483
+ "epoch": 0.511522478277295,
9484
+ "grad_norm": 0.03987390920519829,
9485
+ "learning_rate": 3.7138015365554833e-06,
9486
+ "loss": 12.3683,
9487
+ "step": 1354
9488
+ },
9489
+ {
9490
+ "epoch": 0.5119002644503211,
9491
+ "grad_norm": 0.03649371489882469,
9492
+ "learning_rate": 3.675296639259912e-06,
9493
+ "loss": 12.3795,
9494
+ "step": 1355
9495
+ },
9496
+ {
9497
+ "epoch": 0.5122780506233472,
9498
+ "grad_norm": 0.03349265828728676,
9499
+ "learning_rate": 3.636984776494079e-06,
9500
+ "loss": 12.3686,
9501
+ "step": 1356
9502
+ },
9503
+ {
9504
+ "epoch": 0.5126558367963733,
9505
+ "grad_norm": 0.04325801134109497,
9506
+ "learning_rate": 3.598866107903093e-06,
9507
+ "loss": 12.379,
9508
+ "step": 1357
9509
+ },
9510
+ {
9511
+ "epoch": 0.5130336229693994,
9512
+ "grad_norm": 0.049634095281362534,
9513
+ "learning_rate": 3.560940792327028e-06,
9514
+ "loss": 12.3746,
9515
+ "step": 1358
9516
+ },
9517
+ {
9518
+ "epoch": 0.5134114091424253,
9519
+ "grad_norm": 0.03438926115632057,
9520
+ "learning_rate": 3.5232089878002527e-06,
9521
+ "loss": 12.3732,
9522
+ "step": 1359
9523
+ },
9524
+ {
9525
+ "epoch": 0.5137891953154514,
9526
+ "grad_norm": 0.03937823325395584,
9527
+ "learning_rate": 3.485670851550782e-06,
9528
+ "loss": 12.3664,
9529
+ "step": 1360
9530
+ },
9531
+ {
9532
+ "epoch": 0.5141669814884775,
9533
+ "grad_norm": 0.031588733196258545,
9534
+ "learning_rate": 3.4483265399996246e-06,
9535
+ "loss": 12.369,
9536
+ "step": 1361
9537
+ },
9538
+ {
9539
+ "epoch": 0.5145447676615036,
9540
+ "grad_norm": 0.02943914756178856,
9541
+ "learning_rate": 3.411176208760114e-06,
9542
+ "loss": 12.3721,
9543
+ "step": 1362
9544
+ },
9545
+ {
9546
+ "epoch": 0.5149225538345297,
9547
+ "grad_norm": 0.03561398386955261,
9548
+ "learning_rate": 3.3742200126372635e-06,
9549
+ "loss": 12.3723,
9550
+ "step": 1363
9551
+ },
9552
+ {
9553
+ "epoch": 0.5153003400075558,
9554
+ "grad_norm": 0.03551902249455452,
9555
+ "learning_rate": 3.3374581056271447e-06,
9556
+ "loss": 12.3743,
9557
+ "step": 1364
9558
+ },
9559
+ {
9560
+ "epoch": 0.5156781261805818,
9561
+ "grad_norm": 0.030797170475125313,
9562
+ "learning_rate": 3.300890640916221e-06,
9563
+ "loss": 12.3748,
9564
+ "step": 1365
9565
+ },
9566
+ {
9567
+ "epoch": 0.5160559123536078,
9568
+ "grad_norm": 0.03474782407283783,
9569
+ "learning_rate": 3.2645177708807094e-06,
9570
+ "loss": 12.3704,
9571
+ "step": 1366
9572
+ },
9573
+ {
9574
+ "epoch": 0.5164336985266339,
9575
+ "grad_norm": 0.03498007729649544,
9576
+ "learning_rate": 3.228339647085965e-06,
9577
+ "loss": 12.369,
9578
+ "step": 1367
9579
+ },
9580
+ {
9581
+ "epoch": 0.51681148469966,
9582
+ "grad_norm": 0.0353989377617836,
9583
+ "learning_rate": 3.1923564202858304e-06,
9584
+ "loss": 12.3753,
9585
+ "step": 1368
9586
+ },
9587
+ {
9588
+ "epoch": 0.5171892708726861,
9589
+ "grad_norm": 0.03804413601756096,
9590
+ "learning_rate": 3.1565682404220087e-06,
9591
+ "loss": 12.3658,
9592
+ "step": 1369
9593
+ },
9594
+ {
9595
+ "epoch": 0.5175670570457122,
9596
+ "grad_norm": 0.03596872463822365,
9597
+ "learning_rate": 3.1209752566234653e-06,
9598
+ "loss": 12.3666,
9599
+ "step": 1370
9600
+ },
9601
+ {
9602
+ "epoch": 0.5179448432187382,
9603
+ "grad_norm": 0.037172719836235046,
9604
+ "learning_rate": 3.085577617205765e-06,
9605
+ "loss": 12.3758,
9606
+ "step": 1371
9607
+ },
9608
+ {
9609
+ "epoch": 0.5183226293917642,
9610
+ "grad_norm": 0.03441259264945984,
9611
+ "learning_rate": 3.0503754696704858e-06,
9612
+ "loss": 12.3764,
9613
+ "step": 1372
9614
+ },
9615
+ {
9616
+ "epoch": 0.5187004155647903,
9617
+ "grad_norm": 0.027058640494942665,
9618
+ "learning_rate": 3.0153689607045845e-06,
9619
+ "loss": 12.3705,
9620
+ "step": 1373
9621
+ },
9622
+ {
9623
+ "epoch": 0.5190782017378164,
9624
+ "grad_norm": 0.03889136761426926,
9625
+ "learning_rate": 2.9805582361798035e-06,
9626
+ "loss": 12.3753,
9627
+ "step": 1374
9628
+ },
9629
+ {
9630
+ "epoch": 0.5194559879108425,
9631
+ "grad_norm": 0.029406381770968437,
9632
+ "learning_rate": 2.9459434411520436e-06,
9633
+ "loss": 12.3662,
9634
+ "step": 1375
9635
+ },
9636
+ {
9637
+ "epoch": 0.5198337740838685,
9638
+ "grad_norm": 0.03538326919078827,
9639
+ "learning_rate": 2.9115247198607807e-06,
9640
+ "loss": 12.3644,
9641
+ "step": 1376
9642
+ },
9643
+ {
9644
+ "epoch": 0.5202115602568946,
9645
+ "grad_norm": 0.0315384678542614,
9646
+ "learning_rate": 2.87730221572845e-06,
9647
+ "loss": 12.3737,
9648
+ "step": 1377
9649
+ },
9650
+ {
9651
+ "epoch": 0.5205893464299207,
9652
+ "grad_norm": 0.035543229430913925,
9653
+ "learning_rate": 2.843276071359846e-06,
9654
+ "loss": 12.3755,
9655
+ "step": 1378
9656
+ },
9657
+ {
9658
+ "epoch": 0.5209671326029467,
9659
+ "grad_norm": 0.03708391636610031,
9660
+ "learning_rate": 2.8094464285415344e-06,
9661
+ "loss": 12.3723,
9662
+ "step": 1379
9663
+ },
9664
+ {
9665
+ "epoch": 0.5213449187759728,
9666
+ "grad_norm": 0.031074371188879013,
9667
+ "learning_rate": 2.775813428241275e-06,
9668
+ "loss": 12.3678,
9669
+ "step": 1380
9670
+ },
9671
+ {
9672
+ "epoch": 0.5217227049489989,
9673
+ "grad_norm": 0.031949955970048904,
9674
+ "learning_rate": 2.7423772106073996e-06,
9675
+ "loss": 12.3707,
9676
+ "step": 1381
9677
+ },
9678
+ {
9679
+ "epoch": 0.522100491122025,
9680
+ "grad_norm": 0.03809535875916481,
9681
+ "learning_rate": 2.7091379149682685e-06,
9682
+ "loss": 12.3634,
9683
+ "step": 1382
9684
+ },
9685
+ {
9686
+ "epoch": 0.522478277295051,
9687
+ "grad_norm": 0.03852887079119682,
9688
+ "learning_rate": 2.6760956798316582e-06,
9689
+ "loss": 12.3645,
9690
+ "step": 1383
9691
+ },
9692
+ {
9693
+ "epoch": 0.5228560634680771,
9694
+ "grad_norm": 0.04403216764330864,
9695
+ "learning_rate": 2.6432506428841987e-06,
9696
+ "loss": 12.3605,
9697
+ "step": 1384
9698
+ },
9699
+ {
9700
+ "epoch": 0.5232338496411031,
9701
+ "grad_norm": 0.03586175665259361,
9702
+ "learning_rate": 2.6106029409907974e-06,
9703
+ "loss": 12.3634,
9704
+ "step": 1385
9705
+ },
9706
+ {
9707
+ "epoch": 0.5236116358141292,
9708
+ "grad_norm": 0.039137307554483414,
9709
+ "learning_rate": 2.578152710194065e-06,
9710
+ "loss": 12.3582,
9711
+ "step": 1386
9712
+ },
9713
+ {
9714
+ "epoch": 0.5239894219871553,
9715
+ "grad_norm": 0.040835149586200714,
9716
+ "learning_rate": 2.5459000857137704e-06,
9717
+ "loss": 12.3626,
9718
+ "step": 1387
9719
+ },
9720
+ {
9721
+ "epoch": 0.5243672081601813,
9722
+ "grad_norm": 0.03839719668030739,
9723
+ "learning_rate": 2.51384520194623e-06,
9724
+ "loss": 12.3714,
9725
+ "step": 1388
9726
+ },
9727
+ {
9728
+ "epoch": 0.5247449943332074,
9729
+ "grad_norm": 0.05415833368897438,
9730
+ "learning_rate": 2.4819881924638023e-06,
9731
+ "loss": 12.3675,
9732
+ "step": 1389
9733
+ },
9734
+ {
9735
+ "epoch": 0.5251227805062335,
9736
+ "grad_norm": 0.048753414303064346,
9737
+ "learning_rate": 2.450329190014289e-06,
9738
+ "loss": 12.3703,
9739
+ "step": 1390
9740
+ },
9741
+ {
9742
+ "epoch": 0.5255005666792595,
9743
+ "grad_norm": 0.04843161255121231,
9744
+ "learning_rate": 2.4188683265204127e-06,
9745
+ "loss": 12.3663,
9746
+ "step": 1391
9747
+ },
9748
+ {
9749
+ "epoch": 0.5258783528522856,
9750
+ "grad_norm": 0.04117654263973236,
9751
+ "learning_rate": 2.3876057330792346e-06,
9752
+ "loss": 12.3666,
9753
+ "step": 1392
9754
+ },
9755
+ {
9756
+ "epoch": 0.5262561390253117,
9757
+ "grad_norm": 0.05515278875827789,
9758
+ "learning_rate": 2.3565415399616486e-06,
9759
+ "loss": 12.3725,
9760
+ "step": 1393
9761
+ },
9762
+ {
9763
+ "epoch": 0.5266339251983377,
9764
+ "grad_norm": 0.04353925958275795,
9765
+ "learning_rate": 2.325675876611805e-06,
9766
+ "loss": 12.3679,
9767
+ "step": 1394
9768
+ },
9769
+ {
9770
+ "epoch": 0.5270117113713638,
9771
+ "grad_norm": 0.06032606214284897,
9772
+ "learning_rate": 2.2950088716465755e-06,
9773
+ "loss": 12.3663,
9774
+ "step": 1395
9775
+ },
9776
+ {
9777
+ "epoch": 0.5273894975443899,
9778
+ "grad_norm": 0.04356678947806358,
9779
+ "learning_rate": 2.2645406528550405e-06,
9780
+ "loss": 12.3604,
9781
+ "step": 1396
9782
+ },
9783
+ {
9784
+ "epoch": 0.527767283717416,
9785
+ "grad_norm": 0.05580585077404976,
9786
+ "learning_rate": 2.2342713471979303e-06,
9787
+ "loss": 12.3688,
9788
+ "step": 1397
9789
+ },
9790
+ {
9791
+ "epoch": 0.528145069890442,
9792
+ "grad_norm": 0.06988968700170517,
9793
+ "learning_rate": 2.204201080807111e-06,
9794
+ "loss": 12.3727,
9795
+ "step": 1398
9796
+ },
9797
+ {
9798
+ "epoch": 0.528522856063468,
9799
+ "grad_norm": 0.10209229588508606,
9800
+ "learning_rate": 2.1743299789850457e-06,
9801
+ "loss": 12.3752,
9802
+ "step": 1399
9803
+ },
9804
+ {
9805
+ "epoch": 0.5289006422364941,
9806
+ "grad_norm": 0.12823429703712463,
9807
+ "learning_rate": 2.1446581662042942e-06,
9808
+ "loss": 12.3812,
9809
+ "step": 1400
9810
+ },
9811
+ {
9812
+ "epoch": 0.5292784284095202,
9813
+ "grad_norm": 0.05512097477912903,
9814
+ "learning_rate": 2.1151857661069696e-06,
9815
+ "loss": 12.3741,
9816
+ "step": 1401
9817
+ },
9818
+ {
9819
+ "epoch": 0.5296562145825463,
9820
+ "grad_norm": 0.03914400935173035,
9821
+ "learning_rate": 2.0859129015042445e-06,
9822
+ "loss": 12.3728,
9823
+ "step": 1402
9824
+ },
9825
+ {
9826
+ "epoch": 0.5300340007555724,
9827
+ "grad_norm": 0.051340021193027496,
9828
+ "learning_rate": 2.0568396943758172e-06,
9829
+ "loss": 12.3701,
9830
+ "step": 1403
9831
+ },
9832
+ {
9833
+ "epoch": 0.5304117869285984,
9834
+ "grad_norm": 0.05863821879029274,
9835
+ "learning_rate": 2.02796626586943e-06,
9836
+ "loss": 12.3688,
9837
+ "step": 1404
9838
+ },
9839
+ {
9840
+ "epoch": 0.5307895731016244,
9841
+ "grad_norm": 0.0406498908996582,
9842
+ "learning_rate": 1.9992927363003346e-06,
9843
+ "loss": 12.3717,
9844
+ "step": 1405
9845
+ },
9846
+ {
9847
+ "epoch": 0.5311673592746505,
9848
+ "grad_norm": 0.03591388091444969,
9849
+ "learning_rate": 1.970819225150822e-06,
9850
+ "loss": 12.3745,
9851
+ "step": 1406
9852
+ },
9853
+ {
9854
+ "epoch": 0.5315451454476766,
9855
+ "grad_norm": 0.03432812541723251,
9856
+ "learning_rate": 1.942545851069688e-06,
9857
+ "loss": 12.3726,
9858
+ "step": 1407
9859
+ },
9860
+ {
9861
+ "epoch": 0.5319229316207027,
9862
+ "grad_norm": 0.03600994497537613,
9863
+ "learning_rate": 1.9144727318717857e-06,
9864
+ "loss": 12.3738,
9865
+ "step": 1408
9866
+ },
9867
+ {
9868
+ "epoch": 0.5323007177937288,
9869
+ "grad_norm": 0.03433964028954506,
9870
+ "learning_rate": 1.8865999845374793e-06,
9871
+ "loss": 12.3706,
9872
+ "step": 1409
9873
+ },
9874
+ {
9875
+ "epoch": 0.5326785039667549,
9876
+ "grad_norm": 0.049884695559740067,
9877
+ "learning_rate": 1.8589277252122173e-06,
9878
+ "loss": 12.3731,
9879
+ "step": 1410
9880
+ },
9881
+ {
9882
+ "epoch": 0.5330562901397808,
9883
+ "grad_norm": 0.034618549048900604,
9884
+ "learning_rate": 1.8314560692059835e-06,
9885
+ "loss": 12.379,
9886
+ "step": 1411
9887
+ },
9888
+ {
9889
+ "epoch": 0.5334340763128069,
9890
+ "grad_norm": 0.04899175092577934,
9891
+ "learning_rate": 1.8041851309928802e-06,
9892
+ "loss": 12.3695,
9893
+ "step": 1412
9894
+ },
9895
+ {
9896
+ "epoch": 0.533811862485833,
9897
+ "grad_norm": 0.04382387176156044,
9898
+ "learning_rate": 1.7771150242106016e-06,
9899
+ "loss": 12.3714,
9900
+ "step": 1413
9901
+ },
9902
+ {
9903
+ "epoch": 0.5341896486588591,
9904
+ "grad_norm": 0.04348282516002655,
9905
+ "learning_rate": 1.7502458616599827e-06,
9906
+ "loss": 12.3659,
9907
+ "step": 1414
9908
+ },
9909
+ {
9910
+ "epoch": 0.5345674348318852,
9911
+ "grad_norm": 0.03303327038884163,
9912
+ "learning_rate": 1.7235777553045284e-06,
9913
+ "loss": 12.3722,
9914
+ "step": 1415
9915
+ },
9916
+ {
9917
+ "epoch": 0.5349452210049113,
9918
+ "grad_norm": 0.033907659351825714,
9919
+ "learning_rate": 1.6971108162699478e-06,
9920
+ "loss": 12.3677,
9921
+ "step": 1416
9922
+ },
9923
+ {
9924
+ "epoch": 0.5353230071779372,
9925
+ "grad_norm": 0.03980765864253044,
9926
+ "learning_rate": 1.6708451548436866e-06,
9927
+ "loss": 12.3773,
9928
+ "step": 1417
9929
+ },
9930
+ {
9931
+ "epoch": 0.5357007933509633,
9932
+ "grad_norm": 0.028395546600222588,
9933
+ "learning_rate": 1.6447808804744668e-06,
9934
+ "loss": 12.3671,
9935
+ "step": 1418
9936
+ },
9937
+ {
9938
+ "epoch": 0.5360785795239894,
9939
+ "grad_norm": 0.03201286494731903,
9940
+ "learning_rate": 1.618918101771827e-06,
9941
+ "loss": 12.3765,
9942
+ "step": 1419
9943
+ },
9944
+ {
9945
+ "epoch": 0.5364563656970155,
9946
+ "grad_norm": 0.03632766008377075,
9947
+ "learning_rate": 1.5932569265056874e-06,
9948
+ "loss": 12.3747,
9949
+ "step": 1420
9950
+ },
9951
+ {
9952
+ "epoch": 0.5368341518700416,
9953
+ "grad_norm": 0.039473291486501694,
9954
+ "learning_rate": 1.5677974616058855e-06,
9955
+ "loss": 12.3676,
9956
+ "step": 1421
9957
+ },
9958
+ {
9959
+ "epoch": 0.5372119380430677,
9960
+ "grad_norm": 0.04315740242600441,
9961
+ "learning_rate": 1.5425398131617252e-06,
9962
+ "loss": 12.3648,
9963
+ "step": 1422
9964
+ },
9965
+ {
9966
+ "epoch": 0.5375897242160937,
9967
+ "grad_norm": 0.03224621340632439,
9968
+ "learning_rate": 1.5174840864215555e-06,
9969
+ "loss": 12.3657,
9970
+ "step": 1423
9971
+ },
9972
+ {
9973
+ "epoch": 0.5379675103891197,
9974
+ "grad_norm": 0.04244806617498398,
9975
+ "learning_rate": 1.4926303857923097e-06,
9976
+ "loss": 12.3734,
9977
+ "step": 1424
9978
+ },
9979
+ {
9980
+ "epoch": 0.5383452965621458,
9981
+ "grad_norm": 0.031122561544179916,
9982
+ "learning_rate": 1.4679788148390827e-06,
9983
+ "loss": 12.3766,
9984
+ "step": 1425
9985
+ },
9986
+ {
9987
+ "epoch": 0.5387230827351719,
9988
+ "grad_norm": 0.045771513134241104,
9989
+ "learning_rate": 1.4435294762847107e-06,
9990
+ "loss": 12.3758,
9991
+ "step": 1426
9992
+ },
9993
+ {
9994
+ "epoch": 0.539100868908198,
9995
+ "grad_norm": 0.03772364929318428,
9996
+ "learning_rate": 1.419282472009309e-06,
9997
+ "loss": 12.3608,
9998
+ "step": 1427
9999
+ },
10000
+ {
10001
+ "epoch": 0.5394786550812241,
10002
+ "grad_norm": 0.0344366617500782,
10003
+ "learning_rate": 1.395237903049884e-06,
10004
+ "loss": 12.3669,
10005
+ "step": 1428
10006
+ },
10007
+ {
10008
+ "epoch": 0.5398564412542501,
10009
+ "grad_norm": 0.037167783826589584,
10010
+ "learning_rate": 1.3713958695998895e-06,
10011
+ "loss": 12.3657,
10012
+ "step": 1429
10013
+ },
10014
+ {
10015
+ "epoch": 0.5402342274272761,
10016
+ "grad_norm": 0.036133185029029846,
10017
+ "learning_rate": 1.3477564710088098e-06,
10018
+ "loss": 12.3755,
10019
+ "step": 1430
10020
+ },
10021
+ {
10022
+ "epoch": 0.5406120136003022,
10023
+ "grad_norm": 0.035620953887701035,
10024
+ "learning_rate": 1.3243198057817652e-06,
10025
+ "loss": 12.3698,
10026
+ "step": 1431
10027
+ },
10028
+ {
10029
+ "epoch": 0.5409897997733283,
10030
+ "grad_norm": 0.036473289132118225,
10031
+ "learning_rate": 1.3010859715790802e-06,
10032
+ "loss": 12.3725,
10033
+ "step": 1432
10034
+ },
10035
+ {
10036
+ "epoch": 0.5413675859463544,
10037
+ "grad_norm": 0.04385390877723694,
10038
+ "learning_rate": 1.278055065215894e-06,
10039
+ "loss": 12.373,
10040
+ "step": 1433
10041
+ },
10042
+ {
10043
+ "epoch": 0.5417453721193805,
10044
+ "grad_norm": 0.034310031682252884,
10045
+ "learning_rate": 1.255227182661728e-06,
10046
+ "loss": 12.3711,
10047
+ "step": 1434
10048
+ },
10049
+ {
10050
+ "epoch": 0.5421231582924065,
10051
+ "grad_norm": 0.04797558858990669,
10052
+ "learning_rate": 1.2326024190401242e-06,
10053
+ "loss": 12.3723,
10054
+ "step": 1435
10055
+ },
10056
+ {
10057
+ "epoch": 0.5425009444654325,
10058
+ "grad_norm": 0.03860705345869064,
10059
+ "learning_rate": 1.210180868628219e-06,
10060
+ "loss": 12.3709,
10061
+ "step": 1436
10062
+ },
10063
+ {
10064
+ "epoch": 0.5428787306384586,
10065
+ "grad_norm": 0.035169027745723724,
10066
+ "learning_rate": 1.1879626248563758e-06,
10067
+ "loss": 12.3664,
10068
+ "step": 1437
10069
+ },
10070
+ {
10071
+ "epoch": 0.5432565168114847,
10072
+ "grad_norm": 0.044533584266901016,
10073
+ "learning_rate": 1.165947780307769e-06,
10074
+ "loss": 12.3663,
10075
+ "step": 1438
10076
+ },
10077
+ {
10078
+ "epoch": 0.5436343029845108,
10079
+ "grad_norm": 0.035262878984212875,
10080
+ "learning_rate": 1.1441364267180065e-06,
10081
+ "loss": 12.375,
10082
+ "step": 1439
10083
+ },
10084
+ {
10085
+ "epoch": 0.5440120891575368,
10086
+ "grad_norm": 0.03809209540486336,
10087
+ "learning_rate": 1.1225286549747693e-06,
10088
+ "loss": 12.3636,
10089
+ "step": 1440
10090
+ },
10091
+ {
10092
+ "epoch": 0.5443898753305629,
10093
+ "grad_norm": 0.042231276631355286,
10094
+ "learning_rate": 1.1011245551173943e-06,
10095
+ "loss": 12.3714,
10096
+ "step": 1441
10097
+ },
10098
+ {
10099
+ "epoch": 0.544767661503589,
10100
+ "grad_norm": 0.043087128549814224,
10101
+ "learning_rate": 1.0799242163365419e-06,
10102
+ "loss": 12.3682,
10103
+ "step": 1442
10104
+ },
10105
+ {
10106
+ "epoch": 0.545145447676615,
10107
+ "grad_norm": 0.04966861009597778,
10108
+ "learning_rate": 1.0589277269737797e-06,
10109
+ "loss": 12.3644,
10110
+ "step": 1443
10111
+ },
10112
+ {
10113
+ "epoch": 0.5455232338496411,
10114
+ "grad_norm": 0.04546117037534714,
10115
+ "learning_rate": 1.038135174521254e-06,
10116
+ "loss": 12.3602,
10117
+ "step": 1444
10118
+ },
10119
+ {
10120
+ "epoch": 0.5459010200226672,
10121
+ "grad_norm": 0.03941427171230316,
10122
+ "learning_rate": 1.0175466456213034e-06,
10123
+ "loss": 12.3638,
10124
+ "step": 1445
10125
+ },
10126
+ {
10127
+ "epoch": 0.5462788061956932,
10128
+ "grad_norm": 0.04676871374249458,
10129
+ "learning_rate": 9.971622260661007e-07,
10130
+ "loss": 12.3773,
10131
+ "step": 1446
10132
+ },
10133
+ {
10134
+ "epoch": 0.5466565923687193,
10135
+ "grad_norm": 0.060187239199876785,
10136
+ "learning_rate": 9.769820007972997e-07,
10137
+ "loss": 12.3734,
10138
+ "step": 1447
10139
+ },
10140
+ {
10141
+ "epoch": 0.5470343785417454,
10142
+ "grad_norm": 0.0665447860956192,
10143
+ "learning_rate": 9.57006053905668e-07,
10144
+ "loss": 12.3815,
10145
+ "step": 1448
10146
+ },
10147
+ {
10148
+ "epoch": 0.5474121647147714,
10149
+ "grad_norm": 0.06303698569536209,
10150
+ "learning_rate": 9.372344686307655e-07,
10151
+ "loss": 12.3693,
10152
+ "step": 1449
10153
+ },
10154
+ {
10155
+ "epoch": 0.5477899508877975,
10156
+ "grad_norm": 0.11176969110965729,
10157
+ "learning_rate": 9.176673273605718e-07,
10158
+ "loss": 12.3815,
10159
+ "step": 1450
10160
+ },
10161
+ {
10162
+ "epoch": 0.5481677370608236,
10163
+ "grad_norm": 0.04446045309305191,
10164
+ "learning_rate": 8.983047116311428e-07,
10165
+ "loss": 12.3757,
10166
+ "step": 1451
10167
+ },
10168
+ {
10169
+ "epoch": 0.5485455232338496,
10170
+ "grad_norm": 0.03576750308275223,
10171
+ "learning_rate": 8.791467021262933e-07,
10172
+ "loss": 12.3792,
10173
+ "step": 1452
10174
+ },
10175
+ {
10176
+ "epoch": 0.5489233094068757,
10177
+ "grad_norm": 0.04086080193519592,
10178
+ "learning_rate": 8.60193378677232e-07,
10179
+ "loss": 12.3676,
10180
+ "step": 1453
10181
+ },
10182
+ {
10183
+ "epoch": 0.5493010955799018,
10184
+ "grad_norm": 0.03202464058995247,
10185
+ "learning_rate": 8.414448202622494e-07,
10186
+ "loss": 12.3765,
10187
+ "step": 1454
10188
+ },
10189
+ {
10190
+ "epoch": 0.5496788817529279,
10191
+ "grad_norm": 0.04358900710940361,
10192
+ "learning_rate": 8.22901105006385e-07,
10193
+ "loss": 12.3755,
10194
+ "step": 1455
10195
+ },
10196
+ {
10197
+ "epoch": 0.5500566679259539,
10198
+ "grad_norm": 0.03576086089015007,
10199
+ "learning_rate": 8.045623101810951e-07,
10200
+ "loss": 12.3721,
10201
+ "step": 1456
10202
+ },
10203
+ {
10204
+ "epoch": 0.55043445409898,
10205
+ "grad_norm": 0.038851261138916016,
10206
+ "learning_rate": 7.864285122039405e-07,
10207
+ "loss": 12.3728,
10208
+ "step": 1457
10209
+ },
10210
+ {
10211
+ "epoch": 0.550812240272006,
10212
+ "grad_norm": 0.03601044416427612,
10213
+ "learning_rate": 7.684997866382549e-07,
10214
+ "loss": 12.3739,
10215
+ "step": 1458
10216
+ },
10217
+ {
10218
+ "epoch": 0.5511900264450321,
10219
+ "grad_norm": 0.04070388153195381,
10220
+ "learning_rate": 7.507762081928327e-07,
10221
+ "loss": 12.3711,
10222
+ "step": 1459
10223
+ },
10224
+ {
10225
+ "epoch": 0.5515678126180582,
10226
+ "grad_norm": 0.04098959267139435,
10227
+ "learning_rate": 7.33257850721647e-07,
10228
+ "loss": 12.3686,
10229
+ "step": 1460
10230
+ },
10231
+ {
10232
+ "epoch": 0.5519455987910843,
10233
+ "grad_norm": 0.03851509839296341,
10234
+ "learning_rate": 7.159447872234881e-07,
10235
+ "loss": 12.365,
10236
+ "step": 1461
10237
+ },
10238
+ {
10239
+ "epoch": 0.5523233849641103,
10240
+ "grad_norm": 0.027653610333800316,
10241
+ "learning_rate": 6.988370898417029e-07,
10242
+ "loss": 12.374,
10243
+ "step": 1462
10244
+ },
10245
+ {
10246
+ "epoch": 0.5527011711371363,
10247
+ "grad_norm": 0.028537223115563393,
10248
+ "learning_rate": 6.819348298638839e-07,
10249
+ "loss": 12.3747,
10250
+ "step": 1463
10251
+ },
10252
+ {
10253
+ "epoch": 0.5530789573101624,
10254
+ "grad_norm": 0.0324607715010643,
10255
+ "learning_rate": 6.652380777215583e-07,
10256
+ "loss": 12.371,
10257
+ "step": 1464
10258
+ },
10259
+ {
10260
+ "epoch": 0.5534567434831885,
10261
+ "grad_norm": 0.02856702171266079,
10262
+ "learning_rate": 6.487469029899052e-07,
10263
+ "loss": 12.3648,
10264
+ "step": 1465
10265
+ },
10266
+ {
10267
+ "epoch": 0.5538345296562146,
10268
+ "grad_norm": 0.03662535548210144,
10269
+ "learning_rate": 6.324613743874774e-07,
10270
+ "loss": 12.369,
10271
+ "step": 1466
10272
+ },
10273
+ {
10274
+ "epoch": 0.5542123158292407,
10275
+ "grad_norm": 0.03720373660326004,
10276
+ "learning_rate": 6.163815597758916e-07,
10277
+ "loss": 12.3691,
10278
+ "step": 1467
10279
+ },
10280
+ {
10281
+ "epoch": 0.5545901020022668,
10282
+ "grad_norm": 0.03894321992993355,
10283
+ "learning_rate": 6.005075261595494e-07,
10284
+ "loss": 12.3679,
10285
+ "step": 1468
10286
+ },
10287
+ {
10288
+ "epoch": 0.5549678881752927,
10289
+ "grad_norm": 0.03958560526371002,
10290
+ "learning_rate": 5.848393396853891e-07,
10291
+ "loss": 12.3729,
10292
+ "step": 1469
10293
+ },
10294
+ {
10295
+ "epoch": 0.5553456743483188,
10296
+ "grad_norm": 0.03394071385264397,
10297
+ "learning_rate": 5.693770656425568e-07,
10298
+ "loss": 12.371,
10299
+ "step": 1470
10300
+ },
10301
+ {
10302
+ "epoch": 0.5557234605213449,
10303
+ "grad_norm": 0.0403885617852211,
10304
+ "learning_rate": 5.541207684621907e-07,
10305
+ "loss": 12.3771,
10306
+ "step": 1471
10307
+ },
10308
+ {
10309
+ "epoch": 0.556101246694371,
10310
+ "grad_norm": 0.03610556200146675,
10311
+ "learning_rate": 5.390705117171047e-07,
10312
+ "loss": 12.3619,
10313
+ "step": 1472
10314
+ },
10315
+ {
10316
+ "epoch": 0.5564790328673971,
10317
+ "grad_norm": 0.03496142476797104,
10318
+ "learning_rate": 5.242263581215545e-07,
10319
+ "loss": 12.3744,
10320
+ "step": 1473
10321
+ },
10322
+ {
10323
+ "epoch": 0.5568568190404232,
10324
+ "grad_norm": 0.032318051904439926,
10325
+ "learning_rate": 5.095883695309722e-07,
10326
+ "loss": 12.3707,
10327
+ "step": 1474
10328
+ },
10329
+ {
10330
+ "epoch": 0.5572346052134491,
10331
+ "grad_norm": 0.041582122445106506,
10332
+ "learning_rate": 4.95156606941688e-07,
10333
+ "loss": 12.3724,
10334
+ "step": 1475
10335
+ },
10336
+ {
10337
+ "epoch": 0.5576123913864752,
10338
+ "grad_norm": 0.04513188824057579,
10339
+ "learning_rate": 4.809311304906972e-07,
10340
+ "loss": 12.3598,
10341
+ "step": 1476
10342
+ },
10343
+ {
10344
+ "epoch": 0.5579901775595013,
10345
+ "grad_norm": 0.0343400277197361,
10346
+ "learning_rate": 4.6691199945541054e-07,
10347
+ "loss": 12.3681,
10348
+ "step": 1477
10349
+ },
10350
+ {
10351
+ "epoch": 0.5583679637325274,
10352
+ "grad_norm": 0.03323856741189957,
10353
+ "learning_rate": 4.530992722533878e-07,
10354
+ "loss": 12.3615,
10355
+ "step": 1478
10356
+ },
10357
+ {
10358
+ "epoch": 0.5587457499055535,
10359
+ "grad_norm": 0.036309778690338135,
10360
+ "learning_rate": 4.394930064421099e-07,
10361
+ "loss": 12.3667,
10362
+ "step": 1479
10363
+ },
10364
+ {
10365
+ "epoch": 0.5591235360785796,
10366
+ "grad_norm": 0.03436039388179779,
10367
+ "learning_rate": 4.2609325871874603e-07,
10368
+ "loss": 12.3606,
10369
+ "step": 1480
10370
+ },
10371
+ {
10372
+ "epoch": 0.5595013222516055,
10373
+ "grad_norm": 0.043769899755716324,
10374
+ "learning_rate": 4.129000849198872e-07,
10375
+ "loss": 12.3743,
10376
+ "step": 1481
10377
+ },
10378
+ {
10379
+ "epoch": 0.5598791084246316,
10380
+ "grad_norm": 0.03071453608572483,
10381
+ "learning_rate": 3.999135400213461e-07,
10382
+ "loss": 12.3697,
10383
+ "step": 1482
10384
+ },
10385
+ {
10386
+ "epoch": 0.5602568945976577,
10387
+ "grad_norm": 0.039880815893411636,
10388
+ "learning_rate": 3.8713367813791867e-07,
10389
+ "loss": 12.3648,
10390
+ "step": 1483
10391
+ },
10392
+ {
10393
+ "epoch": 0.5606346807706838,
10394
+ "grad_norm": 0.042634375393390656,
10395
+ "learning_rate": 3.745605525231399e-07,
10396
+ "loss": 12.3593,
10397
+ "step": 1484
10398
+ },
10399
+ {
10400
+ "epoch": 0.5610124669437099,
10401
+ "grad_norm": 0.036256734281778336,
10402
+ "learning_rate": 3.6219421556909495e-07,
10403
+ "loss": 12.3669,
10404
+ "step": 1485
10405
+ },
10406
+ {
10407
+ "epoch": 0.561390253116736,
10408
+ "grad_norm": 0.037956301122903824,
10409
+ "learning_rate": 3.5003471880616925e-07,
10410
+ "loss": 12.376,
10411
+ "step": 1486
10412
+ },
10413
+ {
10414
+ "epoch": 0.561768039289762,
10415
+ "grad_norm": 0.0457519106566906,
10416
+ "learning_rate": 3.380821129028489e-07,
10417
+ "loss": 12.367,
10418
+ "step": 1487
10419
+ },
10420
+ {
10421
+ "epoch": 0.562145825462788,
10422
+ "grad_norm": 0.04063735157251358,
10423
+ "learning_rate": 3.2633644766552064e-07,
10424
+ "loss": 12.3653,
10425
+ "step": 1488
10426
+ },
10427
+ {
10428
+ "epoch": 0.5625236116358141,
10429
+ "grad_norm": 0.04077863693237305,
10430
+ "learning_rate": 3.147977720382334e-07,
10431
+ "loss": 12.3769,
10432
+ "step": 1489
10433
+ },
10434
+ {
10435
+ "epoch": 0.5629013978088402,
10436
+ "grad_norm": 0.04038354009389877,
10437
+ "learning_rate": 3.034661341025258e-07,
10438
+ "loss": 12.3686,
10439
+ "step": 1490
10440
+ },
10441
+ {
10442
+ "epoch": 0.5632791839818663,
10443
+ "grad_norm": 0.03477098047733307,
10444
+ "learning_rate": 2.923415810772101e-07,
10445
+ "loss": 12.3716,
10446
+ "step": 1491
10447
+ },
10448
+ {
10449
+ "epoch": 0.5636569701548924,
10450
+ "grad_norm": 0.042445071041584015,
10451
+ "learning_rate": 2.8142415931817214e-07,
10452
+ "loss": 12.3724,
10453
+ "step": 1492
10454
+ },
10455
+ {
10456
+ "epoch": 0.5640347563279184,
10457
+ "grad_norm": 0.04494417831301689,
10458
+ "learning_rate": 2.7071391431818806e-07,
10459
+ "loss": 12.368,
10460
+ "step": 1493
10461
+ },
10462
+ {
10463
+ "epoch": 0.5644125425009444,
10464
+ "grad_norm": 0.050600260496139526,
10465
+ "learning_rate": 2.602108907067358e-07,
10466
+ "loss": 12.3698,
10467
+ "step": 1494
10468
+ },
10469
+ {
10470
+ "epoch": 0.5647903286739705,
10471
+ "grad_norm": 0.046449873596429825,
10472
+ "learning_rate": 2.499151322498006e-07,
10473
+ "loss": 12.3713,
10474
+ "step": 1495
10475
+ },
10476
+ {
10477
+ "epoch": 0.5651681148469966,
10478
+ "grad_norm": 0.05416286364197731,
10479
+ "learning_rate": 2.3982668184968636e-07,
10480
+ "loss": 12.376,
10481
+ "step": 1496
10482
+ },
10483
+ {
10484
+ "epoch": 0.5655459010200227,
10485
+ "grad_norm": 0.06181178241968155,
10486
+ "learning_rate": 2.2994558154486588e-07,
10487
+ "loss": 12.3673,
10488
+ "step": 1497
10489
+ },
10490
+ {
10491
+ "epoch": 0.5659236871930488,
10492
+ "grad_norm": 0.07762554287910461,
10493
+ "learning_rate": 2.202718725097641e-07,
10494
+ "loss": 12.364,
10495
+ "step": 1498
10496
+ },
10497
+ {
10498
+ "epoch": 0.5663014733660748,
10499
+ "grad_norm": 0.08430846035480499,
10500
+ "learning_rate": 2.1080559505462505e-07,
10501
+ "loss": 12.3749,
10502
+ "step": 1499
10503
+ },
10504
+ {
10505
+ "epoch": 0.5666792595391009,
10506
+ "grad_norm": 0.12796476483345032,
10507
+ "learning_rate": 2.015467886253286e-07,
10508
+ "loss": 12.3818,
10509
+ "step": 1500
10510
+ },
10511
+ {
10512
+ "epoch": 0.5670570457121269,
10513
+ "grad_norm": 0.04819419980049133,
10514
+ "learning_rate": 1.9249549180320737e-07,
10515
+ "loss": 12.3688,
10516
+ "step": 1501
10517
+ },
10518
+ {
10519
+ "epoch": 0.567434831885153,
10520
+ "grad_norm": 0.04547456279397011,
10521
+ "learning_rate": 1.8365174230492998e-07,
10522
+ "loss": 12.3766,
10523
+ "step": 1502
10524
+ },
10525
+ {
10526
+ "epoch": 0.5678126180581791,
10527
+ "grad_norm": 0.04163209721446037,
10528
+ "learning_rate": 1.7501557698229033e-07,
10529
+ "loss": 12.3779,
10530
+ "step": 1503
10531
+ },
10532
+ {
10533
+ "epoch": 0.5681904042312051,
10534
+ "grad_norm": 0.04335664585232735,
10535
+ "learning_rate": 1.665870318221019e-07,
10536
+ "loss": 12.3705,
10537
+ "step": 1504
10538
+ },
10539
+ {
10540
+ "epoch": 0.5685681904042312,
10541
+ "grad_norm": 0.04164076969027519,
10542
+ "learning_rate": 1.5836614194602027e-07,
10543
+ "loss": 12.3701,
10544
+ "step": 1505
10545
+ },
10546
+ {
10547
+ "epoch": 0.5689459765772573,
10548
+ "grad_norm": 0.040243785828351974,
10549
+ "learning_rate": 1.503529416103988e-07,
10550
+ "loss": 12.3806,
10551
+ "step": 1506
10552
+ },
10553
+ {
10554
+ "epoch": 0.5693237627502833,
10555
+ "grad_norm": 0.048739392310380936,
10556
+ "learning_rate": 1.4254746420615527e-07,
10557
+ "loss": 12.374,
10558
+ "step": 1507
10559
+ },
10560
+ {
10561
+ "epoch": 0.5697015489233094,
10562
+ "grad_norm": 0.0307659562677145,
10563
+ "learning_rate": 1.3494974225863322e-07,
10564
+ "loss": 12.3795,
10565
+ "step": 1508
10566
+ },
10567
+ {
10568
+ "epoch": 0.5700793350963355,
10569
+ "grad_norm": 0.0348367840051651,
10570
+ "learning_rate": 1.27559807427452e-07,
10571
+ "loss": 12.3701,
10572
+ "step": 1509
10573
+ },
10574
+ {
10575
+ "epoch": 0.5704571212693615,
10576
+ "grad_norm": 0.04481798782944679,
10577
+ "learning_rate": 1.2037769050639024e-07,
10578
+ "loss": 12.3769,
10579
+ "step": 1510
10580
+ },
10581
+ {
10582
+ "epoch": 0.5708349074423876,
10583
+ "grad_norm": 0.04808036610484123,
10584
+ "learning_rate": 1.1340342142325267e-07,
10585
+ "loss": 12.3664,
10586
+ "step": 1511
10587
+ },
10588
+ {
10589
+ "epoch": 0.5712126936154137,
10590
+ "grad_norm": 0.037592723965644836,
10591
+ "learning_rate": 1.0663702923973673e-07,
10592
+ "loss": 12.3692,
10593
+ "step": 1512
10594
+ },
10595
+ {
10596
+ "epoch": 0.5715904797884398,
10597
+ "grad_norm": 0.04113468527793884,
10598
+ "learning_rate": 1.0007854215132728e-07,
10599
+ "loss": 12.3699,
10600
+ "step": 1513
10601
+ },
10602
+ {
10603
+ "epoch": 0.5719682659614658,
10604
+ "grad_norm": 0.029787473380565643,
10605
+ "learning_rate": 9.372798748716883e-08,
10606
+ "loss": 12.3756,
10607
+ "step": 1514
10608
+ },
10609
+ {
10610
+ "epoch": 0.5723460521344919,
10611
+ "grad_norm": 0.03630399331450462,
10612
+ "learning_rate": 8.75853917099545e-08,
10613
+ "loss": 12.3705,
10614
+ "step": 1515
10615
+ },
10616
+ {
10617
+ "epoch": 0.5727238383075179,
10618
+ "grad_norm": 0.032823652029037476,
10619
+ "learning_rate": 8.165078041580399e-08,
10620
+ "loss": 12.3706,
10621
+ "step": 1516
10622
+ },
10623
+ {
10624
+ "epoch": 0.573101624480544,
10625
+ "grad_norm": 0.056236084550619125,
10626
+ "learning_rate": 7.59241783341913e-08,
10627
+ "loss": 12.3624,
10628
+ "step": 1517
10629
+ },
10630
+ {
10631
+ "epoch": 0.5734794106535701,
10632
+ "grad_norm": 0.03066546469926834,
10633
+ "learning_rate": 7.040560932778939e-08,
10634
+ "loss": 12.3657,
10635
+ "step": 1518
10636
+ },
10637
+ {
10638
+ "epoch": 0.5738571968265962,
10639
+ "grad_norm": 0.028224581852555275,
10640
+ "learning_rate": 6.509509639242572e-08,
10641
+ "loss": 12.3712,
10642
+ "step": 1519
10643
+ },
10644
+ {
10645
+ "epoch": 0.5742349829996222,
10646
+ "grad_norm": 0.040541455149650574,
10647
+ "learning_rate": 5.999266165694905e-08,
10648
+ "loss": 12.3674,
10649
+ "step": 1520
10650
+ },
10651
+ {
10652
+ "epoch": 0.5746127691726483,
10653
+ "grad_norm": 0.03858514502644539,
10654
+ "learning_rate": 5.509832638314061e-08,
10655
+ "loss": 12.3672,
10656
+ "step": 1521
10657
+ },
10658
+ {
10659
+ "epoch": 0.5749905553456743,
10660
+ "grad_norm": 0.03187035024166107,
10661
+ "learning_rate": 5.041211096565301e-08,
10662
+ "loss": 12.367,
10663
+ "step": 1522
10664
+ },
10665
+ {
10666
+ "epoch": 0.5753683415187004,
10667
+ "grad_norm": 0.03534197807312012,
10668
+ "learning_rate": 4.5934034931882644e-08,
10669
+ "loss": 12.3738,
10670
+ "step": 1523
10671
+ },
10672
+ {
10673
+ "epoch": 0.5757461276917265,
10674
+ "grad_norm": 0.05696889013051987,
10675
+ "learning_rate": 4.166411694193073e-08,
10676
+ "loss": 12.3633,
10677
+ "step": 1524
10678
+ },
10679
+ {
10680
+ "epoch": 0.5761239138647526,
10681
+ "grad_norm": 0.0424017570912838,
10682
+ "learning_rate": 3.760237478849793e-08,
10683
+ "loss": 12.3683,
10684
+ "step": 1525
10685
+ },
10686
+ {
10687
+ "epoch": 0.5765017000377786,
10688
+ "grad_norm": 0.030759789049625397,
10689
+ "learning_rate": 3.374882539681767e-08,
10690
+ "loss": 12.3768,
10691
+ "step": 1526
10692
+ },
10693
+ {
10694
+ "epoch": 0.5768794862108046,
10695
+ "grad_norm": 0.034990064799785614,
10696
+ "learning_rate": 3.010348482458403e-08,
10697
+ "loss": 12.3652,
10698
+ "step": 1527
10699
+ },
10700
+ {
10701
+ "epoch": 0.5772572723838307,
10702
+ "grad_norm": 0.037047334015369415,
10703
+ "learning_rate": 2.666636826189617e-08,
10704
+ "loss": 12.3693,
10705
+ "step": 1528
10706
+ },
10707
+ {
10708
+ "epoch": 0.5776350585568568,
10709
+ "grad_norm": 0.03725414723157883,
10710
+ "learning_rate": 2.3437490031180676e-08,
10711
+ "loss": 12.3682,
10712
+ "step": 1529
10713
+ },
10714
+ {
10715
+ "epoch": 0.5780128447298829,
10716
+ "grad_norm": 0.037986818701028824,
10717
+ "learning_rate": 2.0416863587141566e-08,
10718
+ "loss": 12.373,
10719
+ "step": 1530
10720
+ },
10721
+ {
10722
+ "epoch": 0.578390630902909,
10723
+ "grad_norm": 0.04022598639130592,
10724
+ "learning_rate": 1.760450151668258e-08,
10725
+ "loss": 12.3734,
10726
+ "step": 1531
10727
+ },
10728
+ {
10729
+ "epoch": 0.5787684170759351,
10730
+ "grad_norm": 0.050697073340415955,
10731
+ "learning_rate": 1.5000415538901636e-08,
10732
+ "loss": 12.3647,
10733
+ "step": 1532
10734
+ },
10735
+ {
10736
+ "epoch": 0.579146203248961,
10737
+ "grad_norm": 0.05417259410023689,
10738
+ "learning_rate": 1.2604616504985344e-08,
10739
+ "loss": 12.3676,
10740
+ "step": 1533
10741
+ },
10742
+ {
10743
+ "epoch": 0.5795239894219871,
10744
+ "grad_norm": 0.04395093396306038,
10745
+ "learning_rate": 1.0417114398209027e-08,
10746
+ "loss": 12.3633,
10747
+ "step": 1534
10748
+ },
10749
+ {
10750
+ "epoch": 0.5799017755950132,
10751
+ "grad_norm": 0.047466449439525604,
10752
+ "learning_rate": 8.437918333864536e-09,
10753
+ "loss": 12.3668,
10754
+ "step": 1535
10755
+ },
10756
+ {
10757
+ "epoch": 0.5802795617680393,
10758
+ "grad_norm": 0.03220509737730026,
10759
+ "learning_rate": 6.66703655923806e-09,
10760
+ "loss": 12.3653,
10761
+ "step": 1536
10762
+ },
10763
+ {
10764
+ "epoch": 0.5806573479410654,
10765
+ "grad_norm": 0.0401943065226078,
10766
+ "learning_rate": 5.104476453582363e-09,
10767
+ "loss": 12.365,
10768
+ "step": 1537
10769
+ },
10770
+ {
10771
+ "epoch": 0.5810351341140915,
10772
+ "grad_norm": 0.03627855330705643,
10773
+ "learning_rate": 3.750244528066826e-09,
10774
+ "loss": 12.3664,
10775
+ "step": 1538
10776
+ },
10777
+ {
10778
+ "epoch": 0.5814129202871174,
10779
+ "grad_norm": 0.03609207645058632,
10780
+ "learning_rate": 2.604346425755244e-09,
10781
+ "loss": 12.3618,
10782
+ "step": 1539
10783
+ },
10784
+ {
10785
+ "epoch": 0.5817907064601435,
10786
+ "grad_norm": 0.04659217223525047,
10787
+ "learning_rate": 1.6667869215947208e-09,
10788
+ "loss": 12.3656,
10789
+ "step": 1540
10790
+ },
10791
+ {
10792
+ "epoch": 0.5821684926331696,
10793
+ "grad_norm": 0.03406490385532379,
10794
+ "learning_rate": 9.375699223879153e-10,
10795
+ "loss": 12.3705,
10796
+ "step": 1541
10797
+ },
10798
+ {
10799
+ "epoch": 0.5825462788061957,
10800
+ "grad_norm": 0.04274613410234451,
10801
+ "learning_rate": 4.1669846677638847e-10,
10802
+ "loss": 12.3621,
10803
+ "step": 1542
10804
+ },
10805
+ {
10806
+ "epoch": 0.5829240649792218,
10807
+ "grad_norm": 0.04796082153916359,
10808
+ "learning_rate": 1.0417472521839778e-10,
10809
+ "loss": 12.3658,
10810
+ "step": 1543
10811
+ },
10812
+ {
10813
+ "epoch": 0.5833018511522479,
10814
+ "grad_norm": 0.05695313960313797,
10815
+ "learning_rate": 0.0,
10816
+ "loss": 12.369,
10817
+ "step": 1544
10818
  }
10819
  ],
10820
  "logging_steps": 1,
 
10829
  "should_evaluate": false,
10830
  "should_log": false,
10831
  "should_save": true,
10832
+ "should_training_stop": true
10833
  },
10834
  "attributes": {}
10835
  }
10836
  },
10837
+ "total_flos": 727424434176.0,
10838
  "train_batch_size": 4,
10839
  "trial_name": null,
10840
  "trial_params": null