ErrorAI commited on
Commit
0d8a999
·
verified ·
1 Parent(s): c1058ce

Training in progress, step 1540, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:37543c4c2bb4bde24575b5c358a820e89661bc4bceeb3abb18ff5ed387e82365
3
  size 104902272
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f14ef6fec965648f63b4dd06aded7a022596349469ccda0f6b809177f64c1366
3
  size 104902272
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:604369ab276d5b199273f1c8469127818e761c1aaf74553208983caa7563f01e
3
  size 53623316
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fab1fe8e9127e017ba37f7631c72f3013b210b71d943e4d88caf38ae3a1af234
3
  size 53623316
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d4b9cf3b7165cf43348408d4b77207c21d567cfc1361dc288b7c3e3b5c016b70
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:1c9a72ec94b181ba8d96906a3923edb1ec85538edfacf304bfb540b17ada23ed
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1dca927e5a5a6be3f7fb6f65a25a8ca9cd9092973128def04f8398b5e40d1623
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f799a99d50707205d4f44f1c07481ab2c434510a2f5e2b9ca9c7eb27035c6d6c
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.09238152369526095,
5
  "eval_steps": 385,
6
- "global_step": 1155,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -8124,6 +8124,2709 @@
8124
  "eval_samples_per_second": 18.265,
8125
  "eval_steps_per_second": 9.134,
8126
  "step": 1155
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
8127
  }
8128
  ],
8129
  "logging_steps": 1,
@@ -8138,12 +10841,12 @@
8138
  "should_evaluate": false,
8139
  "should_log": false,
8140
  "should_save": true,
8141
- "should_training_stop": false
8142
  },
8143
  "attributes": {}
8144
  }
8145
  },
8146
- "total_flos": 5.2636472391499776e+17,
8147
  "train_batch_size": 2,
8148
  "trial_name": null,
8149
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.1231753649270146,
5
  "eval_steps": 385,
6
+ "global_step": 1540,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
8124
  "eval_samples_per_second": 18.265,
8125
  "eval_steps_per_second": 9.134,
8126
  "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.0924615076984603,
8130
+ "grad_norm": 4.510709285736084,
8131
+ "learning_rate": 2.9507445309385294e-05,
8132
+ "loss": 4.4372,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.09254149170165966,
8137
+ "grad_norm": 3.9571750164031982,
8138
+ "learning_rate": 2.9361955260953722e-05,
8139
+ "loss": 3.642,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.09262147570485903,
8144
+ "grad_norm": 4.990582466125488,
8145
+ "learning_rate": 2.9216763033579097e-05,
8146
+ "loss": 3.3757,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.09270145970805839,
8151
+ "grad_norm": 3.8319714069366455,
8152
+ "learning_rate": 2.9071869239414663e-05,
8153
+ "loss": 3.0402,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.09278144371125775,
8158
+ "grad_norm": 5.654752731323242,
8159
+ "learning_rate": 2.8927274489355293e-05,
8160
+ "loss": 4.2507,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.09286142771445711,
8165
+ "grad_norm": 4.614495754241943,
8166
+ "learning_rate": 2.878297939303507e-05,
8167
+ "loss": 4.291,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.09294141171765646,
8172
+ "grad_norm": 4.101933479309082,
8173
+ "learning_rate": 2.8638984558824777e-05,
8174
+ "loss": 3.3441,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.09302139572085583,
8179
+ "grad_norm": 3.650947332382202,
8180
+ "learning_rate": 2.849529059382915e-05,
8181
+ "loss": 2.8172,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.09310137972405519,
8186
+ "grad_norm": 4.197967052459717,
8187
+ "learning_rate": 2.835189810388441e-05,
8188
+ "loss": 3.5285,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.09318136372725455,
8193
+ "grad_norm": 4.3074727058410645,
8194
+ "learning_rate": 2.8208807693555818e-05,
8195
+ "loss": 3.8336,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.09326134773045391,
8200
+ "grad_norm": 4.938948631286621,
8201
+ "learning_rate": 2.8066019966134904e-05,
8202
+ "loss": 3.812,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.09334133173365326,
8207
+ "grad_norm": 4.886793613433838,
8208
+ "learning_rate": 2.792353552363707e-05,
8209
+ "loss": 3.9102,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.09342131573685263,
8214
+ "grad_norm": 4.254992961883545,
8215
+ "learning_rate": 2.7781354966799078e-05,
8216
+ "loss": 3.3508,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.09350129974005199,
8221
+ "grad_norm": 3.545367956161499,
8222
+ "learning_rate": 2.7639478895076397e-05,
8223
+ "loss": 3.0721,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.09358128374325135,
8228
+ "grad_norm": 2.9493346214294434,
8229
+ "learning_rate": 2.7497907906640742e-05,
8230
+ "loss": 2.0804,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.09366126774645071,
8235
+ "grad_norm": 3.6416776180267334,
8236
+ "learning_rate": 2.7356642598377603e-05,
8237
+ "loss": 3.1277,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.09374125174965008,
8242
+ "grad_norm": 5.29701566696167,
8243
+ "learning_rate": 2.721568356588362e-05,
8244
+ "loss": 3.3519,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.09382123575284942,
8249
+ "grad_norm": 4.363441467285156,
8250
+ "learning_rate": 2.7075031403464123e-05,
8251
+ "loss": 3.1857,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.09390121975604879,
8256
+ "grad_norm": 3.976638078689575,
8257
+ "learning_rate": 2.6934686704130696e-05,
8258
+ "loss": 4.1215,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.09398120375924815,
8263
+ "grad_norm": 3.825456142425537,
8264
+ "learning_rate": 2.679465005959856e-05,
8265
+ "loss": 3.581,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 0.09406118776244751,
8270
+ "grad_norm": 3.7466976642608643,
8271
+ "learning_rate": 2.665492206028407e-05,
8272
+ "loss": 3.265,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 0.09414117176564687,
8277
+ "grad_norm": 4.0751872062683105,
8278
+ "learning_rate": 2.6515503295302447e-05,
8279
+ "loss": 4.1583,
8280
+ "step": 1177
8281
+ },
8282
+ {
8283
+ "epoch": 0.09422115576884624,
8284
+ "grad_norm": 3.220518112182617,
8285
+ "learning_rate": 2.6376394352464972e-05,
8286
+ "loss": 2.3114,
8287
+ "step": 1178
8288
+ },
8289
+ {
8290
+ "epoch": 0.09430113977204559,
8291
+ "grad_norm": 4.122797012329102,
8292
+ "learning_rate": 2.6237595818276728e-05,
8293
+ "loss": 2.8948,
8294
+ "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.09438112377524495,
8298
+ "grad_norm": 3.5874483585357666,
8299
+ "learning_rate": 2.6099108277934103e-05,
8300
+ "loss": 3.2958,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.09446110777844431,
8305
+ "grad_norm": 4.130005359649658,
8306
+ "learning_rate": 2.596093231532224e-05,
8307
+ "loss": 3.3648,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.09454109178164367,
8312
+ "grad_norm": 4.924187183380127,
8313
+ "learning_rate": 2.5823068513012595e-05,
8314
+ "loss": 2.7937,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.09462107578484304,
8319
+ "grad_norm": 3.9850120544433594,
8320
+ "learning_rate": 2.5685517452260567e-05,
8321
+ "loss": 3.303,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.09470105978804239,
8326
+ "grad_norm": 4.6082353591918945,
8327
+ "learning_rate": 2.5548279713002997e-05,
8328
+ "loss": 3.3408,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.09478104379124175,
8333
+ "grad_norm": 3.862121820449829,
8334
+ "learning_rate": 2.541135587385568e-05,
8335
+ "loss": 3.7493,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.09486102779444111,
8340
+ "grad_norm": 4.668119430541992,
8341
+ "learning_rate": 2.527474651211089e-05,
8342
+ "loss": 4.6341,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.09494101179764047,
8347
+ "grad_norm": 4.146975517272949,
8348
+ "learning_rate": 2.5138452203735173e-05,
8349
+ "loss": 3.2399,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.09502099580083984,
8354
+ "grad_norm": 4.673194885253906,
8355
+ "learning_rate": 2.500247352336664e-05,
8356
+ "loss": 4.7629,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.0951009798040392,
8361
+ "grad_norm": 4.4623122215271,
8362
+ "learning_rate": 2.4866811044312665e-05,
8363
+ "loss": 3.9425,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.09518096380723855,
8368
+ "grad_norm": 4.428549766540527,
8369
+ "learning_rate": 2.4731465338547556e-05,
8370
+ "loss": 3.7749,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.09526094781043791,
8375
+ "grad_norm": 4.835275650024414,
8376
+ "learning_rate": 2.459643697670998e-05,
8377
+ "loss": 3.5015,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.09534093181363727,
8382
+ "grad_norm": 3.94173526763916,
8383
+ "learning_rate": 2.4461726528100615e-05,
8384
+ "loss": 3.3298,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.09542091581683664,
8389
+ "grad_norm": 3.751077651977539,
8390
+ "learning_rate": 2.432733456067987e-05,
8391
+ "loss": 3.2805,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.095500899820036,
8396
+ "grad_norm": 4.054288864135742,
8397
+ "learning_rate": 2.41932616410653e-05,
8398
+ "loss": 3.4902,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.09558088382323535,
8403
+ "grad_norm": 4.829845905303955,
8404
+ "learning_rate": 2.405950833452928e-05,
8405
+ "loss": 4.494,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.09566086782643471,
8410
+ "grad_norm": 4.179841995239258,
8411
+ "learning_rate": 2.392607520499677e-05,
8412
+ "loss": 3.782,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.09574085182963407,
8417
+ "grad_norm": 4.335528373718262,
8418
+ "learning_rate": 2.3792962815042685e-05,
8419
+ "loss": 3.9263,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.09582083583283343,
8424
+ "grad_norm": 3.8097429275512695,
8425
+ "learning_rate": 2.36601717258897e-05,
8426
+ "loss": 3.6231,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.0959008198360328,
8431
+ "grad_norm": 3.452497959136963,
8432
+ "learning_rate": 2.352770249740588e-05,
8433
+ "loss": 2.9945,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.09598080383923216,
8438
+ "grad_norm": 4.345489025115967,
8439
+ "learning_rate": 2.339555568810221e-05,
8440
+ "loss": 3.0404,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.09606078784243151,
8445
+ "grad_norm": 4.521251201629639,
8446
+ "learning_rate": 2.3263731855130298e-05,
8447
+ "loss": 3.9112,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.09614077184563087,
8452
+ "grad_norm": 3.881998300552368,
8453
+ "learning_rate": 2.3132231554280136e-05,
8454
+ "loss": 3.3303,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 0.09622075584883023,
8459
+ "grad_norm": 5.4891676902771,
8460
+ "learning_rate": 2.300105533997753e-05,
8461
+ "loss": 3.3695,
8462
+ "step": 1203
8463
+ },
8464
+ {
8465
+ "epoch": 0.0963007398520296,
8466
+ "grad_norm": 3.869205951690674,
8467
+ "learning_rate": 2.2870203765281926e-05,
8468
+ "loss": 2.9992,
8469
+ "step": 1204
8470
+ },
8471
+ {
8472
+ "epoch": 0.09638072385522896,
8473
+ "grad_norm": 6.634833335876465,
8474
+ "learning_rate": 2.2739677381884115e-05,
8475
+ "loss": 4.5587,
8476
+ "step": 1205
8477
+ },
8478
+ {
8479
+ "epoch": 0.09646070785842832,
8480
+ "grad_norm": 4.484224796295166,
8481
+ "learning_rate": 2.260947674010372e-05,
8482
+ "loss": 3.9581,
8483
+ "step": 1206
8484
+ },
8485
+ {
8486
+ "epoch": 0.09654069186162767,
8487
+ "grad_norm": 4.545680999755859,
8488
+ "learning_rate": 2.2479602388887012e-05,
8489
+ "loss": 4.4443,
8490
+ "step": 1207
8491
+ },
8492
+ {
8493
+ "epoch": 0.09662067586482703,
8494
+ "grad_norm": 5.094995021820068,
8495
+ "learning_rate": 2.235005487580466e-05,
8496
+ "loss": 3.5916,
8497
+ "step": 1208
8498
+ },
8499
+ {
8500
+ "epoch": 0.0967006598680264,
8501
+ "grad_norm": 4.446115493774414,
8502
+ "learning_rate": 2.2220834747049214e-05,
8503
+ "loss": 3.7843,
8504
+ "step": 1209
8505
+ },
8506
+ {
8507
+ "epoch": 0.09678064387122576,
8508
+ "grad_norm": 4.460416316986084,
8509
+ "learning_rate": 2.2091942547432955e-05,
8510
+ "loss": 3.7152,
8511
+ "step": 1210
8512
+ },
8513
+ {
8514
+ "epoch": 0.09686062787442512,
8515
+ "grad_norm": 3.8882133960723877,
8516
+ "learning_rate": 2.1963378820385626e-05,
8517
+ "loss": 2.9874,
8518
+ "step": 1211
8519
+ },
8520
+ {
8521
+ "epoch": 0.09694061187762447,
8522
+ "grad_norm": 4.029484748840332,
8523
+ "learning_rate": 2.1835144107952022e-05,
8524
+ "loss": 3.9031,
8525
+ "step": 1212
8526
+ },
8527
+ {
8528
+ "epoch": 0.09702059588082383,
8529
+ "grad_norm": 4.002587795257568,
8530
+ "learning_rate": 2.170723895078972e-05,
8531
+ "loss": 3.0681,
8532
+ "step": 1213
8533
+ },
8534
+ {
8535
+ "epoch": 0.0971005798840232,
8536
+ "grad_norm": 6.7918620109558105,
8537
+ "learning_rate": 2.1579663888166956e-05,
8538
+ "loss": 4.8938,
8539
+ "step": 1214
8540
+ },
8541
+ {
8542
+ "epoch": 0.09718056388722256,
8543
+ "grad_norm": 3.8774309158325195,
8544
+ "learning_rate": 2.1452419457960137e-05,
8545
+ "loss": 3.4964,
8546
+ "step": 1215
8547
+ },
8548
+ {
8549
+ "epoch": 0.09726054789042192,
8550
+ "grad_norm": 3.694997549057007,
8551
+ "learning_rate": 2.132550619665168e-05,
8552
+ "loss": 3.0601,
8553
+ "step": 1216
8554
+ },
8555
+ {
8556
+ "epoch": 0.09734053189362128,
8557
+ "grad_norm": 4.705177307128906,
8558
+ "learning_rate": 2.119892463932781e-05,
8559
+ "loss": 3.7202,
8560
+ "step": 1217
8561
+ },
8562
+ {
8563
+ "epoch": 0.09742051589682063,
8564
+ "grad_norm": 4.710257053375244,
8565
+ "learning_rate": 2.107267531967618e-05,
8566
+ "loss": 4.0198,
8567
+ "step": 1218
8568
+ },
8569
+ {
8570
+ "epoch": 0.09750049990002,
8571
+ "grad_norm": 4.042464733123779,
8572
+ "learning_rate": 2.0946758769983665e-05,
8573
+ "loss": 3.5091,
8574
+ "step": 1219
8575
+ },
8576
+ {
8577
+ "epoch": 0.09758048390321936,
8578
+ "grad_norm": 4.7746734619140625,
8579
+ "learning_rate": 2.0821175521134207e-05,
8580
+ "loss": 3.528,
8581
+ "step": 1220
8582
+ },
8583
+ {
8584
+ "epoch": 0.09766046790641872,
8585
+ "grad_norm": 4.828027725219727,
8586
+ "learning_rate": 2.06959261026064e-05,
8587
+ "loss": 4.1874,
8588
+ "step": 1221
8589
+ },
8590
+ {
8591
+ "epoch": 0.09774045190961808,
8592
+ "grad_norm": 4.168130397796631,
8593
+ "learning_rate": 2.05710110424714e-05,
8594
+ "loss": 3.4702,
8595
+ "step": 1222
8596
+ },
8597
+ {
8598
+ "epoch": 0.09782043591281743,
8599
+ "grad_norm": 6.053627967834473,
8600
+ "learning_rate": 2.0446430867390696e-05,
8601
+ "loss": 4.2077,
8602
+ "step": 1223
8603
+ },
8604
+ {
8605
+ "epoch": 0.09790041991601679,
8606
+ "grad_norm": 4.410123825073242,
8607
+ "learning_rate": 2.0322186102613795e-05,
8608
+ "loss": 3.7704,
8609
+ "step": 1224
8610
+ },
8611
+ {
8612
+ "epoch": 0.09798040391921616,
8613
+ "grad_norm": 2.8216817378997803,
8614
+ "learning_rate": 2.0198277271976052e-05,
8615
+ "loss": 2.1769,
8616
+ "step": 1225
8617
+ },
8618
+ {
8619
+ "epoch": 0.09806038792241552,
8620
+ "grad_norm": 3.798919200897217,
8621
+ "learning_rate": 2.0074704897896558e-05,
8622
+ "loss": 2.9967,
8623
+ "step": 1226
8624
+ },
8625
+ {
8626
+ "epoch": 0.09814037192561488,
8627
+ "grad_norm": 3.748995542526245,
8628
+ "learning_rate": 1.995146950137575e-05,
8629
+ "loss": 2.989,
8630
+ "step": 1227
8631
+ },
8632
+ {
8633
+ "epoch": 0.09822035592881424,
8634
+ "grad_norm": 4.26412296295166,
8635
+ "learning_rate": 1.982857160199334e-05,
8636
+ "loss": 3.5748,
8637
+ "step": 1228
8638
+ },
8639
+ {
8640
+ "epoch": 0.09830033993201359,
8641
+ "grad_norm": 4.9580078125,
8642
+ "learning_rate": 1.970601171790616e-05,
8643
+ "loss": 3.6186,
8644
+ "step": 1229
8645
+ },
8646
+ {
8647
+ "epoch": 0.09838032393521295,
8648
+ "grad_norm": 4.893904685974121,
8649
+ "learning_rate": 1.9583790365845822e-05,
8650
+ "loss": 3.1621,
8651
+ "step": 1230
8652
+ },
8653
+ {
8654
+ "epoch": 0.09846030793841232,
8655
+ "grad_norm": 3.505159616470337,
8656
+ "learning_rate": 1.946190806111674e-05,
8657
+ "loss": 3.0279,
8658
+ "step": 1231
8659
+ },
8660
+ {
8661
+ "epoch": 0.09854029194161168,
8662
+ "grad_norm": 4.74012565612793,
8663
+ "learning_rate": 1.9340365317593746e-05,
8664
+ "loss": 4.0141,
8665
+ "step": 1232
8666
+ },
8667
+ {
8668
+ "epoch": 0.09862027594481104,
8669
+ "grad_norm": 4.515071868896484,
8670
+ "learning_rate": 1.921916264772011e-05,
8671
+ "loss": 3.3258,
8672
+ "step": 1233
8673
+ },
8674
+ {
8675
+ "epoch": 0.0987002599480104,
8676
+ "grad_norm": 5.331474304199219,
8677
+ "learning_rate": 1.9098300562505266e-05,
8678
+ "loss": 3.2355,
8679
+ "step": 1234
8680
+ },
8681
+ {
8682
+ "epoch": 0.09878024395120975,
8683
+ "grad_norm": 4.327870845794678,
8684
+ "learning_rate": 1.8977779571522646e-05,
8685
+ "loss": 3.7563,
8686
+ "step": 1235
8687
+ },
8688
+ {
8689
+ "epoch": 0.09886022795440912,
8690
+ "grad_norm": 4.85066032409668,
8691
+ "learning_rate": 1.8857600182907675e-05,
8692
+ "loss": 3.9254,
8693
+ "step": 1236
8694
+ },
8695
+ {
8696
+ "epoch": 0.09894021195760848,
8697
+ "grad_norm": 5.018810272216797,
8698
+ "learning_rate": 1.873776290335545e-05,
8699
+ "loss": 3.7063,
8700
+ "step": 1237
8701
+ },
8702
+ {
8703
+ "epoch": 0.09902019596080784,
8704
+ "grad_norm": 4.827825546264648,
8705
+ "learning_rate": 1.8618268238118675e-05,
8706
+ "loss": 3.0606,
8707
+ "step": 1238
8708
+ },
8709
+ {
8710
+ "epoch": 0.0991001799640072,
8711
+ "grad_norm": 3.860900640487671,
8712
+ "learning_rate": 1.8499116691005613e-05,
8713
+ "loss": 2.6762,
8714
+ "step": 1239
8715
+ },
8716
+ {
8717
+ "epoch": 0.09918016396720655,
8718
+ "grad_norm": 4.694439888000488,
8719
+ "learning_rate": 1.8380308764377842e-05,
8720
+ "loss": 3.3674,
8721
+ "step": 1240
8722
+ },
8723
+ {
8724
+ "epoch": 0.09926014797040592,
8725
+ "grad_norm": 3.836242198944092,
8726
+ "learning_rate": 1.8261844959148135e-05,
8727
+ "loss": 3.128,
8728
+ "step": 1241
8729
+ },
8730
+ {
8731
+ "epoch": 0.09934013197360528,
8732
+ "grad_norm": 4.42763090133667,
8733
+ "learning_rate": 1.8143725774778508e-05,
8734
+ "loss": 3.1887,
8735
+ "step": 1242
8736
+ },
8737
+ {
8738
+ "epoch": 0.09942011597680464,
8739
+ "grad_norm": 4.029833793640137,
8740
+ "learning_rate": 1.8025951709277898e-05,
8741
+ "loss": 3.4147,
8742
+ "step": 1243
8743
+ },
8744
+ {
8745
+ "epoch": 0.099500099980004,
8746
+ "grad_norm": 3.6723241806030273,
8747
+ "learning_rate": 1.7908523259200192e-05,
8748
+ "loss": 2.8744,
8749
+ "step": 1244
8750
+ },
8751
+ {
8752
+ "epoch": 0.09958008398320337,
8753
+ "grad_norm": 3.8148231506347656,
8754
+ "learning_rate": 1.7791440919642177e-05,
8755
+ "loss": 2.7896,
8756
+ "step": 1245
8757
+ },
8758
+ {
8759
+ "epoch": 0.09966006798640271,
8760
+ "grad_norm": 4.132092475891113,
8761
+ "learning_rate": 1.767470518424129e-05,
8762
+ "loss": 2.6917,
8763
+ "step": 1246
8764
+ },
8765
+ {
8766
+ "epoch": 0.09974005198960208,
8767
+ "grad_norm": 3.8130404949188232,
8768
+ "learning_rate": 1.755831654517365e-05,
8769
+ "loss": 3.3571,
8770
+ "step": 1247
8771
+ },
8772
+ {
8773
+ "epoch": 0.09982003599280144,
8774
+ "grad_norm": 4.179472923278809,
8775
+ "learning_rate": 1.7442275493152037e-05,
8776
+ "loss": 3.2753,
8777
+ "step": 1248
8778
+ },
8779
+ {
8780
+ "epoch": 0.0999000199960008,
8781
+ "grad_norm": 4.515778064727783,
8782
+ "learning_rate": 1.732658251742366e-05,
8783
+ "loss": 3.341,
8784
+ "step": 1249
8785
+ },
8786
+ {
8787
+ "epoch": 0.09998000399920016,
8788
+ "grad_norm": 3.3752856254577637,
8789
+ "learning_rate": 1.7211238105768214e-05,
8790
+ "loss": 2.6897,
8791
+ "step": 1250
8792
+ },
8793
+ {
8794
+ "epoch": 0.10005998800239951,
8795
+ "grad_norm": 3.830716609954834,
8796
+ "learning_rate": 1.7096242744495837e-05,
8797
+ "loss": 3.3853,
8798
+ "step": 1251
8799
+ },
8800
+ {
8801
+ "epoch": 0.10013997200559888,
8802
+ "grad_norm": 13.131118774414062,
8803
+ "learning_rate": 1.6981596918444953e-05,
8804
+ "loss": 3.8576,
8805
+ "step": 1252
8806
+ },
8807
+ {
8808
+ "epoch": 0.10021995600879824,
8809
+ "grad_norm": 4.193271636962891,
8810
+ "learning_rate": 1.6867301110980283e-05,
8811
+ "loss": 3.5221,
8812
+ "step": 1253
8813
+ },
8814
+ {
8815
+ "epoch": 0.1002999400119976,
8816
+ "grad_norm": 4.261105537414551,
8817
+ "learning_rate": 1.6753355803990912e-05,
8818
+ "loss": 4.0092,
8819
+ "step": 1254
8820
+ },
8821
+ {
8822
+ "epoch": 0.10037992401519696,
8823
+ "grad_norm": 4.289058208465576,
8824
+ "learning_rate": 1.663976147788806e-05,
8825
+ "loss": 3.6114,
8826
+ "step": 1255
8827
+ },
8828
+ {
8829
+ "epoch": 0.10045990801839633,
8830
+ "grad_norm": 4.8529181480407715,
8831
+ "learning_rate": 1.652651861160318e-05,
8832
+ "loss": 3.8212,
8833
+ "step": 1256
8834
+ },
8835
+ {
8836
+ "epoch": 0.10053989202159568,
8837
+ "grad_norm": 5.128431797027588,
8838
+ "learning_rate": 1.6413627682585965e-05,
8839
+ "loss": 4.3689,
8840
+ "step": 1257
8841
+ },
8842
+ {
8843
+ "epoch": 0.10061987602479504,
8844
+ "grad_norm": 4.320888519287109,
8845
+ "learning_rate": 1.630108916680223e-05,
8846
+ "loss": 3.6578,
8847
+ "step": 1258
8848
+ },
8849
+ {
8850
+ "epoch": 0.1006998600279944,
8851
+ "grad_norm": 5.23969030380249,
8852
+ "learning_rate": 1.6188903538731947e-05,
8853
+ "loss": 4.8745,
8854
+ "step": 1259
8855
+ },
8856
+ {
8857
+ "epoch": 0.10077984403119376,
8858
+ "grad_norm": 4.180932998657227,
8859
+ "learning_rate": 1.607707127136734e-05,
8860
+ "loss": 3.701,
8861
+ "step": 1260
8862
+ },
8863
+ {
8864
+ "epoch": 0.10085982803439313,
8865
+ "grad_norm": 4.653079032897949,
8866
+ "learning_rate": 1.5965592836210743e-05,
8867
+ "loss": 3.2031,
8868
+ "step": 1261
8869
+ },
8870
+ {
8871
+ "epoch": 0.10093981203759249,
8872
+ "grad_norm": 3.652902603149414,
8873
+ "learning_rate": 1.5854468703272663e-05,
8874
+ "loss": 2.9304,
8875
+ "step": 1262
8876
+ },
8877
+ {
8878
+ "epoch": 0.10101979604079184,
8879
+ "grad_norm": 3.9545648097991943,
8880
+ "learning_rate": 1.5743699341069895e-05,
8881
+ "loss": 4.0015,
8882
+ "step": 1263
8883
+ },
8884
+ {
8885
+ "epoch": 0.1010997800439912,
8886
+ "grad_norm": 4.3861212730407715,
8887
+ "learning_rate": 1.5633285216623385e-05,
8888
+ "loss": 3.6873,
8889
+ "step": 1264
8890
+ },
8891
+ {
8892
+ "epoch": 0.10117976404719056,
8893
+ "grad_norm": 3.4465882778167725,
8894
+ "learning_rate": 1.5523226795456347e-05,
8895
+ "loss": 3.1494,
8896
+ "step": 1265
8897
+ },
8898
+ {
8899
+ "epoch": 0.10125974805038992,
8900
+ "grad_norm": 4.774640083312988,
8901
+ "learning_rate": 1.541352454159237e-05,
8902
+ "loss": 5.2294,
8903
+ "step": 1266
8904
+ },
8905
+ {
8906
+ "epoch": 0.10133973205358929,
8907
+ "grad_norm": 4.005011081695557,
8908
+ "learning_rate": 1.5304178917553304e-05,
8909
+ "loss": 3.2125,
8910
+ "step": 1267
8911
+ },
8912
+ {
8913
+ "epoch": 0.10141971605678864,
8914
+ "grad_norm": 3.908224582672119,
8915
+ "learning_rate": 1.5195190384357404e-05,
8916
+ "loss": 2.9691,
8917
+ "step": 1268
8918
+ },
8919
+ {
8920
+ "epoch": 0.101499700059988,
8921
+ "grad_norm": 5.306667804718018,
8922
+ "learning_rate": 1.508655940151743e-05,
8923
+ "loss": 3.5111,
8924
+ "step": 1269
8925
+ },
8926
+ {
8927
+ "epoch": 0.10157968406318736,
8928
+ "grad_norm": 3.8672940731048584,
8929
+ "learning_rate": 1.4978286427038601e-05,
8930
+ "loss": 3.1632,
8931
+ "step": 1270
8932
+ },
8933
+ {
8934
+ "epoch": 0.10165966806638672,
8935
+ "grad_norm": 4.651573657989502,
8936
+ "learning_rate": 1.4870371917416703e-05,
8937
+ "loss": 3.8594,
8938
+ "step": 1271
8939
+ },
8940
+ {
8941
+ "epoch": 0.10173965206958609,
8942
+ "grad_norm": 5.070247650146484,
8943
+ "learning_rate": 1.4762816327636241e-05,
8944
+ "loss": 3.9816,
8945
+ "step": 1272
8946
+ },
8947
+ {
8948
+ "epoch": 0.10181963607278545,
8949
+ "grad_norm": 3.7501707077026367,
8950
+ "learning_rate": 1.4655620111168423e-05,
8951
+ "loss": 2.7913,
8952
+ "step": 1273
8953
+ },
8954
+ {
8955
+ "epoch": 0.1018996200759848,
8956
+ "grad_norm": 5.562809467315674,
8957
+ "learning_rate": 1.4548783719969239e-05,
8958
+ "loss": 4.0055,
8959
+ "step": 1274
8960
+ },
8961
+ {
8962
+ "epoch": 0.10197960407918416,
8963
+ "grad_norm": 4.067861557006836,
8964
+ "learning_rate": 1.444230760447769e-05,
8965
+ "loss": 3.2748,
8966
+ "step": 1275
8967
+ },
8968
+ {
8969
+ "epoch": 0.10205958808238352,
8970
+ "grad_norm": 3.589777708053589,
8971
+ "learning_rate": 1.4336192213613742e-05,
8972
+ "loss": 2.5628,
8973
+ "step": 1276
8974
+ },
8975
+ {
8976
+ "epoch": 0.10213957208558289,
8977
+ "grad_norm": 3.3339505195617676,
8978
+ "learning_rate": 1.4230437994776457e-05,
8979
+ "loss": 2.7425,
8980
+ "step": 1277
8981
+ },
8982
+ {
8983
+ "epoch": 0.10221955608878225,
8984
+ "grad_norm": 4.104794979095459,
8985
+ "learning_rate": 1.4125045393842219e-05,
8986
+ "loss": 3.3508,
8987
+ "step": 1278
8988
+ },
8989
+ {
8990
+ "epoch": 0.1022995400919816,
8991
+ "grad_norm": 4.165839195251465,
8992
+ "learning_rate": 1.4020014855162755e-05,
8993
+ "loss": 3.6149,
8994
+ "step": 1279
8995
+ },
8996
+ {
8997
+ "epoch": 0.10237952409518096,
8998
+ "grad_norm": 4.0906291007995605,
8999
+ "learning_rate": 1.3915346821563235e-05,
9000
+ "loss": 3.7574,
9001
+ "step": 1280
9002
+ },
9003
+ {
9004
+ "epoch": 0.10245950809838032,
9005
+ "grad_norm": 3.9316253662109375,
9006
+ "learning_rate": 1.3811041734340446e-05,
9007
+ "loss": 4.107,
9008
+ "step": 1281
9009
+ },
9010
+ {
9011
+ "epoch": 0.10253949210157969,
9012
+ "grad_norm": 3.3988406658172607,
9013
+ "learning_rate": 1.3707100033261034e-05,
9014
+ "loss": 2.7007,
9015
+ "step": 1282
9016
+ },
9017
+ {
9018
+ "epoch": 0.10261947610477905,
9019
+ "grad_norm": 3.6011903285980225,
9020
+ "learning_rate": 1.3603522156559446e-05,
9021
+ "loss": 2.6981,
9022
+ "step": 1283
9023
+ },
9024
+ {
9025
+ "epoch": 0.10269946010797841,
9026
+ "grad_norm": 4.022884845733643,
9027
+ "learning_rate": 1.3500308540936201e-05,
9028
+ "loss": 3.754,
9029
+ "step": 1284
9030
+ },
9031
+ {
9032
+ "epoch": 0.10277944411117776,
9033
+ "grad_norm": 4.574496746063232,
9034
+ "learning_rate": 1.339745962155613e-05,
9035
+ "loss": 3.4626,
9036
+ "step": 1285
9037
+ },
9038
+ {
9039
+ "epoch": 0.10285942811437712,
9040
+ "grad_norm": 3.933546543121338,
9041
+ "learning_rate": 1.3294975832046353e-05,
9042
+ "loss": 3.0226,
9043
+ "step": 1286
9044
+ },
9045
+ {
9046
+ "epoch": 0.10293941211757648,
9047
+ "grad_norm": 3.2701051235198975,
9048
+ "learning_rate": 1.3192857604494535e-05,
9049
+ "loss": 2.3685,
9050
+ "step": 1287
9051
+ },
9052
+ {
9053
+ "epoch": 0.10301939612077585,
9054
+ "grad_norm": 3.9511404037475586,
9055
+ "learning_rate": 1.3091105369447165e-05,
9056
+ "loss": 3.695,
9057
+ "step": 1288
9058
+ },
9059
+ {
9060
+ "epoch": 0.10309938012397521,
9061
+ "grad_norm": 3.584268569946289,
9062
+ "learning_rate": 1.2989719555907587e-05,
9063
+ "loss": 2.7863,
9064
+ "step": 1289
9065
+ },
9066
+ {
9067
+ "epoch": 0.10317936412717456,
9068
+ "grad_norm": 5.1404571533203125,
9069
+ "learning_rate": 1.2888700591334223e-05,
9070
+ "loss": 4.2853,
9071
+ "step": 1290
9072
+ },
9073
+ {
9074
+ "epoch": 0.10325934813037392,
9075
+ "grad_norm": 4.278750896453857,
9076
+ "learning_rate": 1.2788048901638917e-05,
9077
+ "loss": 3.5956,
9078
+ "step": 1291
9079
+ },
9080
+ {
9081
+ "epoch": 0.10333933213357328,
9082
+ "grad_norm": 4.515839099884033,
9083
+ "learning_rate": 1.2687764911184907e-05,
9084
+ "loss": 4.0274,
9085
+ "step": 1292
9086
+ },
9087
+ {
9088
+ "epoch": 0.10341931613677265,
9089
+ "grad_norm": 4.482051849365234,
9090
+ "learning_rate": 1.2587849042785183e-05,
9091
+ "loss": 3.4618,
9092
+ "step": 1293
9093
+ },
9094
+ {
9095
+ "epoch": 0.10349930013997201,
9096
+ "grad_norm": 4.138375759124756,
9097
+ "learning_rate": 1.2488301717700735e-05,
9098
+ "loss": 3.0179,
9099
+ "step": 1294
9100
+ },
9101
+ {
9102
+ "epoch": 0.10357928414317137,
9103
+ "grad_norm": 3.6072168350219727,
9104
+ "learning_rate": 1.2389123355638654e-05,
9105
+ "loss": 3.0613,
9106
+ "step": 1295
9107
+ },
9108
+ {
9109
+ "epoch": 0.10365926814637072,
9110
+ "grad_norm": 4.473779678344727,
9111
+ "learning_rate": 1.2290314374750422e-05,
9112
+ "loss": 3.642,
9113
+ "step": 1296
9114
+ },
9115
+ {
9116
+ "epoch": 0.10373925214957008,
9117
+ "grad_norm": 3.3354222774505615,
9118
+ "learning_rate": 1.2191875191630209e-05,
9119
+ "loss": 2.9358,
9120
+ "step": 1297
9121
+ },
9122
+ {
9123
+ "epoch": 0.10381923615276945,
9124
+ "grad_norm": 58.084869384765625,
9125
+ "learning_rate": 1.2093806221313008e-05,
9126
+ "loss": 3.8033,
9127
+ "step": 1298
9128
+ },
9129
+ {
9130
+ "epoch": 0.10389922015596881,
9131
+ "grad_norm": 4.5894646644592285,
9132
+ "learning_rate": 1.1996107877272944e-05,
9133
+ "loss": 4.5699,
9134
+ "step": 1299
9135
+ },
9136
+ {
9137
+ "epoch": 0.10397920415916817,
9138
+ "grad_norm": 3.8106391429901123,
9139
+ "learning_rate": 1.1898780571421552e-05,
9140
+ "loss": 3.0554,
9141
+ "step": 1300
9142
+ },
9143
+ {
9144
+ "epoch": 0.10405918816236753,
9145
+ "grad_norm": 3.7163541316986084,
9146
+ "learning_rate": 1.1801824714105992e-05,
9147
+ "loss": 2.7762,
9148
+ "step": 1301
9149
+ },
9150
+ {
9151
+ "epoch": 0.10413917216556688,
9152
+ "grad_norm": 4.408644676208496,
9153
+ "learning_rate": 1.1705240714107302e-05,
9154
+ "loss": 2.8706,
9155
+ "step": 1302
9156
+ },
9157
+ {
9158
+ "epoch": 0.10421915616876624,
9159
+ "grad_norm": 5.071597576141357,
9160
+ "learning_rate": 1.1609028978638803e-05,
9161
+ "loss": 3.8516,
9162
+ "step": 1303
9163
+ },
9164
+ {
9165
+ "epoch": 0.1042991401719656,
9166
+ "grad_norm": 4.749671936035156,
9167
+ "learning_rate": 1.1513189913344214e-05,
9168
+ "loss": 3.2928,
9169
+ "step": 1304
9170
+ },
9171
+ {
9172
+ "epoch": 0.10437912417516497,
9173
+ "grad_norm": 4.901279449462891,
9174
+ "learning_rate": 1.141772392229601e-05,
9175
+ "loss": 3.632,
9176
+ "step": 1305
9177
+ },
9178
+ {
9179
+ "epoch": 0.10445910817836433,
9180
+ "grad_norm": 4.000324726104736,
9181
+ "learning_rate": 1.1322631407993811e-05,
9182
+ "loss": 3.5759,
9183
+ "step": 1306
9184
+ },
9185
+ {
9186
+ "epoch": 0.10453909218156368,
9187
+ "grad_norm": 3.7913856506347656,
9188
+ "learning_rate": 1.1227912771362526e-05,
9189
+ "loss": 3.0771,
9190
+ "step": 1307
9191
+ },
9192
+ {
9193
+ "epoch": 0.10461907618476304,
9194
+ "grad_norm": 3.757390260696411,
9195
+ "learning_rate": 1.1133568411750727e-05,
9196
+ "loss": 3.5889,
9197
+ "step": 1308
9198
+ },
9199
+ {
9200
+ "epoch": 0.1046990601879624,
9201
+ "grad_norm": 3.9638967514038086,
9202
+ "learning_rate": 1.1039598726929045e-05,
9203
+ "loss": 3.413,
9204
+ "step": 1309
9205
+ },
9206
+ {
9207
+ "epoch": 0.10477904419116177,
9208
+ "grad_norm": 4.465587139129639,
9209
+ "learning_rate": 1.0946004113088381e-05,
9210
+ "loss": 3.9682,
9211
+ "step": 1310
9212
+ },
9213
+ {
9214
+ "epoch": 0.10485902819436113,
9215
+ "grad_norm": 5.90559720993042,
9216
+ "learning_rate": 1.0852784964838247e-05,
9217
+ "loss": 4.3722,
9218
+ "step": 1311
9219
+ },
9220
+ {
9221
+ "epoch": 0.1049390121975605,
9222
+ "grad_norm": 3.717155933380127,
9223
+ "learning_rate": 1.0759941675205221e-05,
9224
+ "loss": 2.7307,
9225
+ "step": 1312
9226
+ },
9227
+ {
9228
+ "epoch": 0.10501899620075984,
9229
+ "grad_norm": 5.315234184265137,
9230
+ "learning_rate": 1.0667474635631125e-05,
9231
+ "loss": 4.1049,
9232
+ "step": 1313
9233
+ },
9234
+ {
9235
+ "epoch": 0.1050989802039592,
9236
+ "grad_norm": 3.982090473175049,
9237
+ "learning_rate": 1.0575384235971465e-05,
9238
+ "loss": 3.6139,
9239
+ "step": 1314
9240
+ },
9241
+ {
9242
+ "epoch": 0.10517896420715857,
9243
+ "grad_norm": 3.9381678104400635,
9244
+ "learning_rate": 1.0483670864493778e-05,
9245
+ "loss": 2.9638,
9246
+ "step": 1315
9247
+ },
9248
+ {
9249
+ "epoch": 0.10525894821035793,
9250
+ "grad_norm": 4.617581367492676,
9251
+ "learning_rate": 1.0392334907876022e-05,
9252
+ "loss": 3.9213,
9253
+ "step": 1316
9254
+ },
9255
+ {
9256
+ "epoch": 0.1053389322135573,
9257
+ "grad_norm": 4.367071151733398,
9258
+ "learning_rate": 1.0301376751204895e-05,
9259
+ "loss": 4.1807,
9260
+ "step": 1317
9261
+ },
9262
+ {
9263
+ "epoch": 0.10541891621675664,
9264
+ "grad_norm": 3.6065549850463867,
9265
+ "learning_rate": 1.0210796777974197e-05,
9266
+ "loss": 2.5606,
9267
+ "step": 1318
9268
+ },
9269
+ {
9270
+ "epoch": 0.105498900219956,
9271
+ "grad_norm": 6.54305362701416,
9272
+ "learning_rate": 1.0120595370083318e-05,
9273
+ "loss": 4.5298,
9274
+ "step": 1319
9275
+ },
9276
+ {
9277
+ "epoch": 0.10557888422315537,
9278
+ "grad_norm": 5.466845512390137,
9279
+ "learning_rate": 1.0030772907835483e-05,
9280
+ "loss": 3.7131,
9281
+ "step": 1320
9282
+ },
9283
+ {
9284
+ "epoch": 0.10565886822635473,
9285
+ "grad_norm": 4.155703544616699,
9286
+ "learning_rate": 9.94132976993627e-06,
9287
+ "loss": 3.0387,
9288
+ "step": 1321
9289
+ },
9290
+ {
9291
+ "epoch": 0.10573885222955409,
9292
+ "grad_norm": 4.413890838623047,
9293
+ "learning_rate": 9.852266333491954e-06,
9294
+ "loss": 4.255,
9295
+ "step": 1322
9296
+ },
9297
+ {
9298
+ "epoch": 0.10581883623275345,
9299
+ "grad_norm": 3.982755661010742,
9300
+ "learning_rate": 9.763582974007934e-06,
9301
+ "loss": 3.3927,
9302
+ "step": 1323
9303
+ },
9304
+ {
9305
+ "epoch": 0.1058988202359528,
9306
+ "grad_norm": 3.7549726963043213,
9307
+ "learning_rate": 9.675280065387116e-06,
9308
+ "loss": 3.5822,
9309
+ "step": 1324
9310
+ },
9311
+ {
9312
+ "epoch": 0.10597880423915217,
9313
+ "grad_norm": 3.8914010524749756,
9314
+ "learning_rate": 9.587357979928413e-06,
9315
+ "loss": 3.4797,
9316
+ "step": 1325
9317
+ },
9318
+ {
9319
+ "epoch": 0.10605878824235153,
9320
+ "grad_norm": 3.8833811283111572,
9321
+ "learning_rate": 9.499817088325102e-06,
9322
+ "loss": 3.7417,
9323
+ "step": 1326
9324
+ },
9325
+ {
9326
+ "epoch": 0.10613877224555089,
9327
+ "grad_norm": 3.68992018699646,
9328
+ "learning_rate": 9.412657759663279e-06,
9329
+ "loss": 3.0596,
9330
+ "step": 1327
9331
+ },
9332
+ {
9333
+ "epoch": 0.10621875624875025,
9334
+ "grad_norm": 3.560129404067993,
9335
+ "learning_rate": 9.325880361420336e-06,
9336
+ "loss": 3.1886,
9337
+ "step": 1328
9338
+ },
9339
+ {
9340
+ "epoch": 0.10629874025194962,
9341
+ "grad_norm": 4.636751651763916,
9342
+ "learning_rate": 9.239485259463365e-06,
9343
+ "loss": 4.7497,
9344
+ "step": 1329
9345
+ },
9346
+ {
9347
+ "epoch": 0.10637872425514897,
9348
+ "grad_norm": 4.269623756408691,
9349
+ "learning_rate": 9.153472818047625e-06,
9350
+ "loss": 3.162,
9351
+ "step": 1330
9352
+ },
9353
+ {
9354
+ "epoch": 0.10645870825834833,
9355
+ "grad_norm": 4.405839920043945,
9356
+ "learning_rate": 9.067843399815068e-06,
9357
+ "loss": 3.7649,
9358
+ "step": 1331
9359
+ },
9360
+ {
9361
+ "epoch": 0.10653869226154769,
9362
+ "grad_norm": 4.116036891937256,
9363
+ "learning_rate": 8.982597365792711e-06,
9364
+ "loss": 3.2195,
9365
+ "step": 1332
9366
+ },
9367
+ {
9368
+ "epoch": 0.10661867626474705,
9369
+ "grad_norm": 3.428410530090332,
9370
+ "learning_rate": 8.897735075391155e-06,
9371
+ "loss": 2.9777,
9372
+ "step": 1333
9373
+ },
9374
+ {
9375
+ "epoch": 0.10669866026794642,
9376
+ "grad_norm": 4.532532215118408,
9377
+ "learning_rate": 8.813256886403164e-06,
9378
+ "loss": 3.6915,
9379
+ "step": 1334
9380
+ },
9381
+ {
9382
+ "epoch": 0.10677864427114576,
9383
+ "grad_norm": 4.025850772857666,
9384
+ "learning_rate": 8.729163155001974e-06,
9385
+ "loss": 3.0048,
9386
+ "step": 1335
9387
+ },
9388
+ {
9389
+ "epoch": 0.10685862827434513,
9390
+ "grad_norm": 4.763420104980469,
9391
+ "learning_rate": 8.645454235739903e-06,
9392
+ "loss": 4.045,
9393
+ "step": 1336
9394
+ },
9395
+ {
9396
+ "epoch": 0.10693861227754449,
9397
+ "grad_norm": 6.281853199005127,
9398
+ "learning_rate": 8.562130481546903e-06,
9399
+ "loss": 2.8622,
9400
+ "step": 1337
9401
+ },
9402
+ {
9403
+ "epoch": 0.10701859628074385,
9404
+ "grad_norm": 3.804391384124756,
9405
+ "learning_rate": 8.479192243728962e-06,
9406
+ "loss": 2.9874,
9407
+ "step": 1338
9408
+ },
9409
+ {
9410
+ "epoch": 0.10709858028394321,
9411
+ "grad_norm": 4.4125447273254395,
9412
+ "learning_rate": 8.39663987196665e-06,
9413
+ "loss": 3.7106,
9414
+ "step": 1339
9415
+ },
9416
+ {
9417
+ "epoch": 0.10717856428714258,
9418
+ "grad_norm": 3.222792863845825,
9419
+ "learning_rate": 8.314473714313719e-06,
9420
+ "loss": 2.6159,
9421
+ "step": 1340
9422
+ },
9423
+ {
9424
+ "epoch": 0.10725854829034193,
9425
+ "grad_norm": 4.708176612854004,
9426
+ "learning_rate": 8.232694117195538e-06,
9427
+ "loss": 3.6817,
9428
+ "step": 1341
9429
+ },
9430
+ {
9431
+ "epoch": 0.10733853229354129,
9432
+ "grad_norm": 5.3699631690979,
9433
+ "learning_rate": 8.151301425407699e-06,
9434
+ "loss": 3.5441,
9435
+ "step": 1342
9436
+ },
9437
+ {
9438
+ "epoch": 0.10741851629674065,
9439
+ "grad_norm": 3.633037805557251,
9440
+ "learning_rate": 8.070295982114539e-06,
9441
+ "loss": 3.1749,
9442
+ "step": 1343
9443
+ },
9444
+ {
9445
+ "epoch": 0.10749850029994001,
9446
+ "grad_norm": 3.714905261993408,
9447
+ "learning_rate": 7.9896781288477e-06,
9448
+ "loss": 2.5333,
9449
+ "step": 1344
9450
+ },
9451
+ {
9452
+ "epoch": 0.10757848430313938,
9453
+ "grad_norm": 4.083629131317139,
9454
+ "learning_rate": 7.909448205504632e-06,
9455
+ "loss": 3.3521,
9456
+ "step": 1345
9457
+ },
9458
+ {
9459
+ "epoch": 0.10765846830633873,
9460
+ "grad_norm": 4.123989105224609,
9461
+ "learning_rate": 7.829606550347313e-06,
9462
+ "loss": 3.6748,
9463
+ "step": 1346
9464
+ },
9465
+ {
9466
+ "epoch": 0.10773845230953809,
9467
+ "grad_norm": 3.817969560623169,
9468
+ "learning_rate": 7.750153500000624e-06,
9469
+ "loss": 2.841,
9470
+ "step": 1347
9471
+ },
9472
+ {
9473
+ "epoch": 0.10781843631273745,
9474
+ "grad_norm": 3.5868868827819824,
9475
+ "learning_rate": 7.671089389451058e-06,
9476
+ "loss": 3.1438,
9477
+ "step": 1348
9478
+ },
9479
+ {
9480
+ "epoch": 0.10789842031593681,
9481
+ "grad_norm": 4.903133392333984,
9482
+ "learning_rate": 7.592414552045324e-06,
9483
+ "loss": 3.7662,
9484
+ "step": 1349
9485
+ },
9486
+ {
9487
+ "epoch": 0.10797840431913618,
9488
+ "grad_norm": 3.7668721675872803,
9489
+ "learning_rate": 7.514129319488839e-06,
9490
+ "loss": 3.4625,
9491
+ "step": 1350
9492
+ },
9493
+ {
9494
+ "epoch": 0.10805838832233554,
9495
+ "grad_norm": 4.727697372436523,
9496
+ "learning_rate": 7.43623402184438e-06,
9497
+ "loss": 3.9206,
9498
+ "step": 1351
9499
+ },
9500
+ {
9501
+ "epoch": 0.10813837232553489,
9502
+ "grad_norm": 4.111035346984863,
9503
+ "learning_rate": 7.358728987530728e-06,
9504
+ "loss": 3.4021,
9505
+ "step": 1352
9506
+ },
9507
+ {
9508
+ "epoch": 0.10821835632873425,
9509
+ "grad_norm": 5.181998252868652,
9510
+ "learning_rate": 7.281614543321269e-06,
9511
+ "loss": 4.448,
9512
+ "step": 1353
9513
+ },
9514
+ {
9515
+ "epoch": 0.10829834033193361,
9516
+ "grad_norm": 4.558880805969238,
9517
+ "learning_rate": 7.204891014342552e-06,
9518
+ "loss": 4.3893,
9519
+ "step": 1354
9520
+ },
9521
+ {
9522
+ "epoch": 0.10837832433513298,
9523
+ "grad_norm": 4.556720733642578,
9524
+ "learning_rate": 7.128558724072976e-06,
9525
+ "loss": 2.9553,
9526
+ "step": 1355
9527
+ },
9528
+ {
9529
+ "epoch": 0.10845830833833234,
9530
+ "grad_norm": 3.7258121967315674,
9531
+ "learning_rate": 7.052617994341448e-06,
9532
+ "loss": 2.8388,
9533
+ "step": 1356
9534
+ },
9535
+ {
9536
+ "epoch": 0.1085382923415317,
9537
+ "grad_norm": 3.7325799465179443,
9538
+ "learning_rate": 6.977069145325987e-06,
9539
+ "loss": 2.4219,
9540
+ "step": 1357
9541
+ },
9542
+ {
9543
+ "epoch": 0.10861827634473105,
9544
+ "grad_norm": 4.148155212402344,
9545
+ "learning_rate": 6.901912495552332e-06,
9546
+ "loss": 3.422,
9547
+ "step": 1358
9548
+ },
9549
+ {
9550
+ "epoch": 0.10869826034793041,
9551
+ "grad_norm": 3.9268195629119873,
9552
+ "learning_rate": 6.827148361892721e-06,
9553
+ "loss": 2.9873,
9554
+ "step": 1359
9555
+ },
9556
+ {
9557
+ "epoch": 0.10877824435112977,
9558
+ "grad_norm": 3.8969569206237793,
9559
+ "learning_rate": 6.75277705956443e-06,
9560
+ "loss": 3.2832,
9561
+ "step": 1360
9562
+ },
9563
+ {
9564
+ "epoch": 0.10885822835432914,
9565
+ "grad_norm": 3.398939847946167,
9566
+ "learning_rate": 6.6787989021285135e-06,
9567
+ "loss": 2.8888,
9568
+ "step": 1361
9569
+ },
9570
+ {
9571
+ "epoch": 0.1089382123575285,
9572
+ "grad_norm": 3.8946545124053955,
9573
+ "learning_rate": 6.605214201488486e-06,
9574
+ "loss": 3.8039,
9575
+ "step": 1362
9576
+ },
9577
+ {
9578
+ "epoch": 0.10901819636072785,
9579
+ "grad_norm": 4.92830228805542,
9580
+ "learning_rate": 6.5320232678889536e-06,
9581
+ "loss": 3.6133,
9582
+ "step": 1363
9583
+ },
9584
+ {
9585
+ "epoch": 0.10909818036392721,
9586
+ "grad_norm": 3.7663941383361816,
9587
+ "learning_rate": 6.459226409914332e-06,
9588
+ "loss": 3.2744,
9589
+ "step": 1364
9590
+ },
9591
+ {
9592
+ "epoch": 0.10917816436712657,
9593
+ "grad_norm": 4.027180194854736,
9594
+ "learning_rate": 6.386823934487618e-06,
9595
+ "loss": 3.7264,
9596
+ "step": 1365
9597
+ },
9598
+ {
9599
+ "epoch": 0.10925814837032594,
9600
+ "grad_norm": 4.098419189453125,
9601
+ "learning_rate": 6.314816146868952e-06,
9602
+ "loss": 3.0471,
9603
+ "step": 1366
9604
+ },
9605
+ {
9606
+ "epoch": 0.1093381323735253,
9607
+ "grad_norm": 5.7975263595581055,
9608
+ "learning_rate": 6.243203350654437e-06,
9609
+ "loss": 3.7878,
9610
+ "step": 1367
9611
+ },
9612
+ {
9613
+ "epoch": 0.10941811637672466,
9614
+ "grad_norm": 4.690611362457275,
9615
+ "learning_rate": 6.171985847774864e-06,
9616
+ "loss": 3.6505,
9617
+ "step": 1368
9618
+ },
9619
+ {
9620
+ "epoch": 0.10949810037992401,
9621
+ "grad_norm": 4.184288501739502,
9622
+ "learning_rate": 6.1011639384943585e-06,
9623
+ "loss": 3.7925,
9624
+ "step": 1369
9625
+ },
9626
+ {
9627
+ "epoch": 0.10957808438312337,
9628
+ "grad_norm": 5.111532211303711,
9629
+ "learning_rate": 6.030737921409169e-06,
9630
+ "loss": 2.8176,
9631
+ "step": 1370
9632
+ },
9633
+ {
9634
+ "epoch": 0.10965806838632274,
9635
+ "grad_norm": 4.371936798095703,
9636
+ "learning_rate": 5.960708093446432e-06,
9637
+ "loss": 4.6534,
9638
+ "step": 1371
9639
+ },
9640
+ {
9641
+ "epoch": 0.1097380523895221,
9642
+ "grad_norm": 3.959766149520874,
9643
+ "learning_rate": 5.891074749862857e-06,
9644
+ "loss": 3.7773,
9645
+ "step": 1372
9646
+ },
9647
+ {
9648
+ "epoch": 0.10981803639272146,
9649
+ "grad_norm": 4.102706432342529,
9650
+ "learning_rate": 5.8218381842435e-06,
9651
+ "loss": 3.2274,
9652
+ "step": 1373
9653
+ },
9654
+ {
9655
+ "epoch": 0.10989802039592081,
9656
+ "grad_norm": 4.045333385467529,
9657
+ "learning_rate": 5.75299868850061e-06,
9658
+ "loss": 3.2656,
9659
+ "step": 1374
9660
+ },
9661
+ {
9662
+ "epoch": 0.10997800439912017,
9663
+ "grad_norm": 4.71077823638916,
9664
+ "learning_rate": 5.684556552872256e-06,
9665
+ "loss": 4.4475,
9666
+ "step": 1375
9667
+ },
9668
+ {
9669
+ "epoch": 0.11005798840231953,
9670
+ "grad_norm": 3.2355942726135254,
9671
+ "learning_rate": 5.616512065921187e-06,
9672
+ "loss": 3.0672,
9673
+ "step": 1376
9674
+ },
9675
+ {
9676
+ "epoch": 0.1101379724055189,
9677
+ "grad_norm": 4.2143731117248535,
9678
+ "learning_rate": 5.548865514533641e-06,
9679
+ "loss": 3.3803,
9680
+ "step": 1377
9681
+ },
9682
+ {
9683
+ "epoch": 0.11021795640871826,
9684
+ "grad_norm": 4.2557172775268555,
9685
+ "learning_rate": 5.481617183918053e-06,
9686
+ "loss": 3.6468,
9687
+ "step": 1378
9688
+ },
9689
+ {
9690
+ "epoch": 0.11029794041191762,
9691
+ "grad_norm": 3.4788947105407715,
9692
+ "learning_rate": 5.4147673576039e-06,
9693
+ "loss": 2.6879,
9694
+ "step": 1379
9695
+ },
9696
+ {
9697
+ "epoch": 0.11037792441511697,
9698
+ "grad_norm": 3.5003573894500732,
9699
+ "learning_rate": 5.348316317440549e-06,
9700
+ "loss": 3.0834,
9701
+ "step": 1380
9702
+ },
9703
+ {
9704
+ "epoch": 0.11045790841831633,
9705
+ "grad_norm": 4.086651802062988,
9706
+ "learning_rate": 5.282264343595978e-06,
9707
+ "loss": 3.3918,
9708
+ "step": 1381
9709
+ },
9710
+ {
9711
+ "epoch": 0.1105378924215157,
9712
+ "grad_norm": 3.577976942062378,
9713
+ "learning_rate": 5.21661171455563e-06,
9714
+ "loss": 2.9443,
9715
+ "step": 1382
9716
+ },
9717
+ {
9718
+ "epoch": 0.11061787642471506,
9719
+ "grad_norm": 3.582505464553833,
9720
+ "learning_rate": 5.151358707121301e-06,
9721
+ "loss": 2.7432,
9722
+ "step": 1383
9723
+ },
9724
+ {
9725
+ "epoch": 0.11069786042791442,
9726
+ "grad_norm": 5.2246198654174805,
9727
+ "learning_rate": 5.086505596409885e-06,
9728
+ "loss": 3.2871,
9729
+ "step": 1384
9730
+ },
9731
+ {
9732
+ "epoch": 0.11077784443111378,
9733
+ "grad_norm": 4.0024614334106445,
9734
+ "learning_rate": 5.0220526558522274e-06,
9735
+ "loss": 3.3569,
9736
+ "step": 1385
9737
+ },
9738
+ {
9739
+ "epoch": 0.11085782843431313,
9740
+ "grad_norm": 5.208253383636475,
9741
+ "learning_rate": 4.958000157192022e-06,
9742
+ "loss": 4.7191,
9743
+ "step": 1386
9744
+ },
9745
+ {
9746
+ "epoch": 0.1109378124375125,
9747
+ "grad_norm": 4.149219512939453,
9748
+ "learning_rate": 4.8943483704846475e-06,
9749
+ "loss": 3.8205,
9750
+ "step": 1387
9751
+ },
9752
+ {
9753
+ "epoch": 0.11101779644071186,
9754
+ "grad_norm": 4.099031448364258,
9755
+ "learning_rate": 4.831097564095999e-06,
9756
+ "loss": 3.699,
9757
+ "step": 1388
9758
+ },
9759
+ {
9760
+ "epoch": 0.11109778044391122,
9761
+ "grad_norm": 5.425239562988281,
9762
+ "learning_rate": 4.768248004701359e-06,
9763
+ "loss": 4.9931,
9764
+ "step": 1389
9765
+ },
9766
+ {
9767
+ "epoch": 0.11117776444711058,
9768
+ "grad_norm": 4.155279159545898,
9769
+ "learning_rate": 4.705799957284351e-06,
9770
+ "loss": 2.499,
9771
+ "step": 1390
9772
+ },
9773
+ {
9774
+ "epoch": 0.11125774845030993,
9775
+ "grad_norm": 4.97507381439209,
9776
+ "learning_rate": 4.643753685135688e-06,
9777
+ "loss": 3.4487,
9778
+ "step": 1391
9779
+ },
9780
+ {
9781
+ "epoch": 0.1113377324535093,
9782
+ "grad_norm": 3.454404592514038,
9783
+ "learning_rate": 4.582109449852168e-06,
9784
+ "loss": 3.2001,
9785
+ "step": 1392
9786
+ },
9787
+ {
9788
+ "epoch": 0.11141771645670866,
9789
+ "grad_norm": 4.447368621826172,
9790
+ "learning_rate": 4.520867511335569e-06,
9791
+ "loss": 4.0092,
9792
+ "step": 1393
9793
+ },
9794
+ {
9795
+ "epoch": 0.11149770045990802,
9796
+ "grad_norm": 3.826348066329956,
9797
+ "learning_rate": 4.4600281277914715e-06,
9798
+ "loss": 3.0956,
9799
+ "step": 1394
9800
+ },
9801
+ {
9802
+ "epoch": 0.11157768446310738,
9803
+ "grad_norm": 3.4276773929595947,
9804
+ "learning_rate": 4.399591555728233e-06,
9805
+ "loss": 2.9562,
9806
+ "step": 1395
9807
+ },
9808
+ {
9809
+ "epoch": 0.11165766846630674,
9810
+ "grad_norm": 3.9827113151550293,
9811
+ "learning_rate": 4.339558049955927e-06,
9812
+ "loss": 2.9519,
9813
+ "step": 1396
9814
+ },
9815
+ {
9816
+ "epoch": 0.1117376524695061,
9817
+ "grad_norm": 3.802614212036133,
9818
+ "learning_rate": 4.279927863585198e-06,
9819
+ "loss": 2.7602,
9820
+ "step": 1397
9821
+ },
9822
+ {
9823
+ "epoch": 0.11181763647270546,
9824
+ "grad_norm": 3.994422435760498,
9825
+ "learning_rate": 4.220701248026248e-06,
9826
+ "loss": 4.1273,
9827
+ "step": 1398
9828
+ },
9829
+ {
9830
+ "epoch": 0.11189762047590482,
9831
+ "grad_norm": 5.223484992980957,
9832
+ "learning_rate": 4.161878452987778e-06,
9833
+ "loss": 4.2757,
9834
+ "step": 1399
9835
+ },
9836
+ {
9837
+ "epoch": 0.11197760447910418,
9838
+ "grad_norm": 3.9088292121887207,
9839
+ "learning_rate": 4.103459726475889e-06,
9840
+ "loss": 3.6747,
9841
+ "step": 1400
9842
+ },
9843
+ {
9844
+ "epoch": 0.11205758848230354,
9845
+ "grad_norm": 7.126443862915039,
9846
+ "learning_rate": 4.045445314793073e-06,
9847
+ "loss": 3.1352,
9848
+ "step": 1401
9849
+ },
9850
+ {
9851
+ "epoch": 0.11213757248550289,
9852
+ "grad_norm": 4.137068271636963,
9853
+ "learning_rate": 3.987835462537193e-06,
9854
+ "loss": 3.4167,
9855
+ "step": 1402
9856
+ },
9857
+ {
9858
+ "epoch": 0.11221755648870226,
9859
+ "grad_norm": 3.08945631980896,
9860
+ "learning_rate": 3.9306304126004e-06,
9861
+ "loss": 2.4006,
9862
+ "step": 1403
9863
+ },
9864
+ {
9865
+ "epoch": 0.11229754049190162,
9866
+ "grad_norm": 4.775023937225342,
9867
+ "learning_rate": 3.873830406168111e-06,
9868
+ "loss": 4.2971,
9869
+ "step": 1404
9870
+ },
9871
+ {
9872
+ "epoch": 0.11237752449510098,
9873
+ "grad_norm": 5.087342739105225,
9874
+ "learning_rate": 3.817435682718096e-06,
9875
+ "loss": 4.5239,
9876
+ "step": 1405
9877
+ },
9878
+ {
9879
+ "epoch": 0.11245750849830034,
9880
+ "grad_norm": 18.801504135131836,
9881
+ "learning_rate": 3.761446480019315e-06,
9882
+ "loss": 4.4807,
9883
+ "step": 1406
9884
+ },
9885
+ {
9886
+ "epoch": 0.1125374925014997,
9887
+ "grad_norm": 4.829584121704102,
9888
+ "learning_rate": 3.7058630341310075e-06,
9889
+ "loss": 3.4067,
9890
+ "step": 1407
9891
+ },
9892
+ {
9893
+ "epoch": 0.11261747650469905,
9894
+ "grad_norm": 4.73903226852417,
9895
+ "learning_rate": 3.6506855794016913e-06,
9896
+ "loss": 4.2005,
9897
+ "step": 1408
9898
+ },
9899
+ {
9900
+ "epoch": 0.11269746050789842,
9901
+ "grad_norm": 3.212651014328003,
9902
+ "learning_rate": 3.595914348468166e-06,
9903
+ "loss": 2.418,
9904
+ "step": 1409
9905
+ },
9906
+ {
9907
+ "epoch": 0.11277744451109778,
9908
+ "grad_norm": 4.14359188079834,
9909
+ "learning_rate": 3.541549572254488e-06,
9910
+ "loss": 3.7558,
9911
+ "step": 1410
9912
+ },
9913
+ {
9914
+ "epoch": 0.11285742851429714,
9915
+ "grad_norm": 4.382094383239746,
9916
+ "learning_rate": 3.4875914799710974e-06,
9917
+ "loss": 3.9129,
9918
+ "step": 1411
9919
+ },
9920
+ {
9921
+ "epoch": 0.1129374125174965,
9922
+ "grad_norm": 3.705204725265503,
9923
+ "learning_rate": 3.43404029911375e-06,
9924
+ "loss": 3.7869,
9925
+ "step": 1412
9926
+ },
9927
+ {
9928
+ "epoch": 0.11301739652069587,
9929
+ "grad_norm": 4.701824188232422,
9930
+ "learning_rate": 3.3808962554625958e-06,
9931
+ "loss": 4.0207,
9932
+ "step": 1413
9933
+ },
9934
+ {
9935
+ "epoch": 0.11309738052389522,
9936
+ "grad_norm": 5.10697603225708,
9937
+ "learning_rate": 3.3281595730812575e-06,
9938
+ "loss": 4.2201,
9939
+ "step": 1414
9940
+ },
9941
+ {
9942
+ "epoch": 0.11317736452709458,
9943
+ "grad_norm": 3.4379613399505615,
9944
+ "learning_rate": 3.275830474315855e-06,
9945
+ "loss": 2.4332,
9946
+ "step": 1415
9947
+ },
9948
+ {
9949
+ "epoch": 0.11325734853029394,
9950
+ "grad_norm": 4.493072509765625,
9951
+ "learning_rate": 3.223909179794027e-06,
9952
+ "loss": 3.4741,
9953
+ "step": 1416
9954
+ },
9955
+ {
9956
+ "epoch": 0.1133373325334933,
9957
+ "grad_norm": 3.4767467975616455,
9958
+ "learning_rate": 3.1723959084241194e-06,
9959
+ "loss": 2.7417,
9960
+ "step": 1417
9961
+ },
9962
+ {
9963
+ "epoch": 0.11341731653669267,
9964
+ "grad_norm": 4.231232166290283,
9965
+ "learning_rate": 3.121290877394134e-06,
9966
+ "loss": 3.027,
9967
+ "step": 1418
9968
+ },
9969
+ {
9970
+ "epoch": 0.11349730053989202,
9971
+ "grad_norm": 4.284804344177246,
9972
+ "learning_rate": 3.0705943021708704e-06,
9973
+ "loss": 3.9684,
9974
+ "step": 1419
9975
+ },
9976
+ {
9977
+ "epoch": 0.11357728454309138,
9978
+ "grad_norm": 4.5746283531188965,
9979
+ "learning_rate": 3.0203063964990617e-06,
9980
+ "loss": 4.3571,
9981
+ "step": 1420
9982
+ },
9983
+ {
9984
+ "epoch": 0.11365726854629074,
9985
+ "grad_norm": 4.382323741912842,
9986
+ "learning_rate": 2.970427372400353e-06,
9987
+ "loss": 3.6244,
9988
+ "step": 1421
9989
+ },
9990
+ {
9991
+ "epoch": 0.1137372525494901,
9992
+ "grad_norm": 3.819322109222412,
9993
+ "learning_rate": 2.9209574401725557e-06,
9994
+ "loss": 3.1486,
9995
+ "step": 1422
9996
+ },
9997
+ {
9998
+ "epoch": 0.11381723655268947,
9999
+ "grad_norm": 4.852266788482666,
10000
+ "learning_rate": 2.8718968083886075e-06,
10001
+ "loss": 3.8628,
10002
+ "step": 1423
10003
+ },
10004
+ {
10005
+ "epoch": 0.11389722055588883,
10006
+ "grad_norm": 4.21525764465332,
10007
+ "learning_rate": 2.82324568389587e-06,
10008
+ "loss": 2.9995,
10009
+ "step": 1424
10010
+ },
10011
+ {
10012
+ "epoch": 0.11397720455908818,
10013
+ "grad_norm": 5.286691665649414,
10014
+ "learning_rate": 2.7750042718150516e-06,
10015
+ "loss": 4.7328,
10016
+ "step": 1425
10017
+ },
10018
+ {
10019
+ "epoch": 0.11405718856228754,
10020
+ "grad_norm": 4.92333459854126,
10021
+ "learning_rate": 2.7271727755395214e-06,
10022
+ "loss": 4.0131,
10023
+ "step": 1426
10024
+ },
10025
+ {
10026
+ "epoch": 0.1141371725654869,
10027
+ "grad_norm": 4.312798976898193,
10028
+ "learning_rate": 2.6797513967343645e-06,
10029
+ "loss": 3.5426,
10030
+ "step": 1427
10031
+ },
10032
+ {
10033
+ "epoch": 0.11421715656868626,
10034
+ "grad_norm": 3.709238052368164,
10035
+ "learning_rate": 2.6327403353355264e-06,
10036
+ "loss": 3.4297,
10037
+ "step": 1428
10038
+ },
10039
+ {
10040
+ "epoch": 0.11429714057188563,
10041
+ "grad_norm": 3.7097280025482178,
10042
+ "learning_rate": 2.586139789548991e-06,
10043
+ "loss": 3.3895,
10044
+ "step": 1429
10045
+ },
10046
+ {
10047
+ "epoch": 0.11437712457508498,
10048
+ "grad_norm": 3.967355251312256,
10049
+ "learning_rate": 2.539949955849985e-06,
10050
+ "loss": 3.6372,
10051
+ "step": 1430
10052
+ },
10053
+ {
10054
+ "epoch": 0.11445710857828434,
10055
+ "grad_norm": 4.879059791564941,
10056
+ "learning_rate": 2.494171028982062e-06,
10057
+ "loss": 2.6665,
10058
+ "step": 1431
10059
+ },
10060
+ {
10061
+ "epoch": 0.1145370925814837,
10062
+ "grad_norm": 4.5773515701293945,
10063
+ "learning_rate": 2.4488032019563402e-06,
10064
+ "loss": 3.8109,
10065
+ "step": 1432
10066
+ },
10067
+ {
10068
+ "epoch": 0.11461707658468306,
10069
+ "grad_norm": 6.647262096405029,
10070
+ "learning_rate": 2.403846666050691e-06,
10071
+ "loss": 2.8738,
10072
+ "step": 1433
10073
+ },
10074
+ {
10075
+ "epoch": 0.11469706058788243,
10076
+ "grad_norm": 4.358283996582031,
10077
+ "learning_rate": 2.359301610808917e-06,
10078
+ "loss": 3.696,
10079
+ "step": 1434
10080
+ },
10081
+ {
10082
+ "epoch": 0.11477704459108179,
10083
+ "grad_norm": 5.082062244415283,
10084
+ "learning_rate": 2.315168224039932e-06,
10085
+ "loss": 4.6404,
10086
+ "step": 1435
10087
+ },
10088
+ {
10089
+ "epoch": 0.11485702859428114,
10090
+ "grad_norm": 4.232576847076416,
10091
+ "learning_rate": 2.271446691817014e-06,
10092
+ "loss": 3.0782,
10093
+ "step": 1436
10094
+ },
10095
+ {
10096
+ "epoch": 0.1149370125974805,
10097
+ "grad_norm": 4.3032755851745605,
10098
+ "learning_rate": 2.228137198476976e-06,
10099
+ "loss": 3.2745,
10100
+ "step": 1437
10101
+ },
10102
+ {
10103
+ "epoch": 0.11501699660067986,
10104
+ "grad_norm": 4.733532428741455,
10105
+ "learning_rate": 2.1852399266194314e-06,
10106
+ "loss": 5.058,
10107
+ "step": 1438
10108
+ },
10109
+ {
10110
+ "epoch": 0.11509698060387923,
10111
+ "grad_norm": 4.020907878875732,
10112
+ "learning_rate": 2.1427550571060053e-06,
10113
+ "loss": 2.7802,
10114
+ "step": 1439
10115
+ },
10116
+ {
10117
+ "epoch": 0.11517696460707859,
10118
+ "grad_norm": 5.103706359863281,
10119
+ "learning_rate": 2.100682769059548e-06,
10120
+ "loss": 4.2234,
10121
+ "step": 1440
10122
+ },
10123
+ {
10124
+ "epoch": 0.11525694861027795,
10125
+ "grad_norm": 3.8497917652130127,
10126
+ "learning_rate": 2.0590232398634114e-06,
10127
+ "loss": 3.1467,
10128
+ "step": 1441
10129
+ },
10130
+ {
10131
+ "epoch": 0.1153369326134773,
10132
+ "grad_norm": 3.565351724624634,
10133
+ "learning_rate": 2.017776645160707e-06,
10134
+ "loss": 3.2625,
10135
+ "step": 1442
10136
+ },
10137
+ {
10138
+ "epoch": 0.11541691661667666,
10139
+ "grad_norm": 4.117542743682861,
10140
+ "learning_rate": 1.976943158853517e-06,
10141
+ "loss": 3.9284,
10142
+ "step": 1443
10143
+ },
10144
+ {
10145
+ "epoch": 0.11549690061987603,
10146
+ "grad_norm": 3.3290624618530273,
10147
+ "learning_rate": 1.9365229531022264e-06,
10148
+ "loss": 3.1838,
10149
+ "step": 1444
10150
+ },
10151
+ {
10152
+ "epoch": 0.11557688462307539,
10153
+ "grad_norm": 4.1593523025512695,
10154
+ "learning_rate": 1.8965161983247493e-06,
10155
+ "loss": 3.0462,
10156
+ "step": 1445
10157
+ },
10158
+ {
10159
+ "epoch": 0.11565686862627475,
10160
+ "grad_norm": 4.247846603393555,
10161
+ "learning_rate": 1.8569230631958256e-06,
10162
+ "loss": 2.9795,
10163
+ "step": 1446
10164
+ },
10165
+ {
10166
+ "epoch": 0.1157368526294741,
10167
+ "grad_norm": 4.3389363288879395,
10168
+ "learning_rate": 1.8177437146463138e-06,
10169
+ "loss": 4.2456,
10170
+ "step": 1447
10171
+ },
10172
+ {
10173
+ "epoch": 0.11581683663267346,
10174
+ "grad_norm": 4.0213446617126465,
10175
+ "learning_rate": 1.7789783178624897e-06,
10176
+ "loss": 2.616,
10177
+ "step": 1448
10178
+ },
10179
+ {
10180
+ "epoch": 0.11589682063587282,
10181
+ "grad_norm": 4.378050327301025,
10182
+ "learning_rate": 1.7406270362853249e-06,
10183
+ "loss": 3.7144,
10184
+ "step": 1449
10185
+ },
10186
+ {
10187
+ "epoch": 0.11597680463907219,
10188
+ "grad_norm": 4.620596408843994,
10189
+ "learning_rate": 1.7026900316098215e-06,
10190
+ "loss": 3.9864,
10191
+ "step": 1450
10192
+ },
10193
+ {
10194
+ "epoch": 0.11605678864227155,
10195
+ "grad_norm": 5.792392730712891,
10196
+ "learning_rate": 1.665167463784356e-06,
10197
+ "loss": 3.4818,
10198
+ "step": 1451
10199
+ },
10200
+ {
10201
+ "epoch": 0.11613677264547091,
10202
+ "grad_norm": 4.163421630859375,
10203
+ "learning_rate": 1.6280594910099256e-06,
10204
+ "loss": 3.2571,
10205
+ "step": 1452
10206
+ },
10207
+ {
10208
+ "epoch": 0.11621675664867026,
10209
+ "grad_norm": 4.461169719696045,
10210
+ "learning_rate": 1.591366269739558e-06,
10211
+ "loss": 3.4497,
10212
+ "step": 1453
10213
+ },
10214
+ {
10215
+ "epoch": 0.11629674065186962,
10216
+ "grad_norm": 3.659543037414551,
10217
+ "learning_rate": 1.5550879546776364e-06,
10218
+ "loss": 3.6999,
10219
+ "step": 1454
10220
+ },
10221
+ {
10222
+ "epoch": 0.11637672465506899,
10223
+ "grad_norm": 3.0203680992126465,
10224
+ "learning_rate": 1.5192246987791981e-06,
10225
+ "loss": 2.2908,
10226
+ "step": 1455
10227
+ },
10228
+ {
10229
+ "epoch": 0.11645670865826835,
10230
+ "grad_norm": 3.7625060081481934,
10231
+ "learning_rate": 1.4837766532493468e-06,
10232
+ "loss": 3.1457,
10233
+ "step": 1456
10234
+ },
10235
+ {
10236
+ "epoch": 0.11653669266146771,
10237
+ "grad_norm": 5.014787197113037,
10238
+ "learning_rate": 1.4487439675426094e-06,
10239
+ "loss": 3.9683,
10240
+ "step": 1457
10241
+ },
10242
+ {
10243
+ "epoch": 0.11661667666466706,
10244
+ "grad_norm": 4.519006729125977,
10245
+ "learning_rate": 1.414126789362269e-06,
10246
+ "loss": 3.9337,
10247
+ "step": 1458
10248
+ },
10249
+ {
10250
+ "epoch": 0.11669666066786642,
10251
+ "grad_norm": 4.185690879821777,
10252
+ "learning_rate": 1.3799252646597426e-06,
10253
+ "loss": 3.4311,
10254
+ "step": 1459
10255
+ },
10256
+ {
10257
+ "epoch": 0.11677664467106579,
10258
+ "grad_norm": 3.645003318786621,
10259
+ "learning_rate": 1.3461395376340502e-06,
10260
+ "loss": 3.3593,
10261
+ "step": 1460
10262
+ },
10263
+ {
10264
+ "epoch": 0.11685662867426515,
10265
+ "grad_norm": 3.9734771251678467,
10266
+ "learning_rate": 1.312769750731091e-06,
10267
+ "loss": 2.8187,
10268
+ "step": 1461
10269
+ },
10270
+ {
10271
+ "epoch": 0.11693661267746451,
10272
+ "grad_norm": 3.9598028659820557,
10273
+ "learning_rate": 1.2798160446431006e-06,
10274
+ "loss": 2.8971,
10275
+ "step": 1462
10276
+ },
10277
+ {
10278
+ "epoch": 0.11701659668066387,
10279
+ "grad_norm": 4.44677209854126,
10280
+ "learning_rate": 1.2472785583080848e-06,
10281
+ "loss": 3.8034,
10282
+ "step": 1463
10283
+ },
10284
+ {
10285
+ "epoch": 0.11709658068386322,
10286
+ "grad_norm": 3.679844617843628,
10287
+ "learning_rate": 1.2151574289091749e-06,
10288
+ "loss": 3.3024,
10289
+ "step": 1464
10290
+ },
10291
+ {
10292
+ "epoch": 0.11717656468706258,
10293
+ "grad_norm": 4.139998912811279,
10294
+ "learning_rate": 1.1834527918740623e-06,
10295
+ "loss": 3.3435,
10296
+ "step": 1465
10297
+ },
10298
+ {
10299
+ "epoch": 0.11725654869026195,
10300
+ "grad_norm": 3.545083522796631,
10301
+ "learning_rate": 1.1521647808744873e-06,
10302
+ "loss": 2.7517,
10303
+ "step": 1466
10304
+ },
10305
+ {
10306
+ "epoch": 0.11733653269346131,
10307
+ "grad_norm": 5.666535377502441,
10308
+ "learning_rate": 1.1212935278255955e-06,
10309
+ "loss": 3.9504,
10310
+ "step": 1467
10311
+ },
10312
+ {
10313
+ "epoch": 0.11741651669666067,
10314
+ "grad_norm": 5.340794563293457,
10315
+ "learning_rate": 1.0908391628854041e-06,
10316
+ "loss": 4.1832,
10317
+ "step": 1468
10318
+ },
10319
+ {
10320
+ "epoch": 0.11749650069986003,
10321
+ "grad_norm": 3.769444227218628,
10322
+ "learning_rate": 1.060801814454304e-06,
10323
+ "loss": 3.2104,
10324
+ "step": 1469
10325
+ },
10326
+ {
10327
+ "epoch": 0.11757648470305938,
10328
+ "grad_norm": 3.579387903213501,
10329
+ "learning_rate": 1.0311816091744698e-06,
10330
+ "loss": 2.7134,
10331
+ "step": 1470
10332
+ },
10333
+ {
10334
+ "epoch": 0.11765646870625875,
10335
+ "grad_norm": 5.004464149475098,
10336
+ "learning_rate": 1.0019786719293045e-06,
10337
+ "loss": 3.5459,
10338
+ "step": 1471
10339
+ },
10340
+ {
10341
+ "epoch": 0.11773645270945811,
10342
+ "grad_norm": 6.693496227264404,
10343
+ "learning_rate": 9.731931258429638e-07,
10344
+ "loss": 4.5585,
10345
+ "step": 1472
10346
+ },
10347
+ {
10348
+ "epoch": 0.11781643671265747,
10349
+ "grad_norm": 4.905187606811523,
10350
+ "learning_rate": 9.448250922798329e-07,
10351
+ "loss": 3.5167,
10352
+ "step": 1473
10353
+ },
10354
+ {
10355
+ "epoch": 0.11789642071585683,
10356
+ "grad_norm": 3.418574333190918,
10357
+ "learning_rate": 9.168746908439718e-07,
10358
+ "loss": 2.669,
10359
+ "step": 1474
10360
+ },
10361
+ {
10362
+ "epoch": 0.11797640471905618,
10363
+ "grad_norm": 3.538538694381714,
10364
+ "learning_rate": 8.893420393786489e-07,
10365
+ "loss": 3.4193,
10366
+ "step": 1475
10367
+ },
10368
+ {
10369
+ "epoch": 0.11805638872225555,
10370
+ "grad_norm": 3.831590175628662,
10371
+ "learning_rate": 8.622272539658415e-07,
10372
+ "loss": 2.9996,
10373
+ "step": 1476
10374
+ },
10375
+ {
10376
+ "epoch": 0.11813637272545491,
10377
+ "grad_norm": 3.4640448093414307,
10378
+ "learning_rate": 8.355304489257254e-07,
10379
+ "loss": 2.9861,
10380
+ "step": 1477
10381
+ },
10382
+ {
10383
+ "epoch": 0.11821635672865427,
10384
+ "grad_norm": 4.218769073486328,
10385
+ "learning_rate": 8.092517368162078e-07,
10386
+ "loss": 3.3627,
10387
+ "step": 1478
10388
+ },
10389
+ {
10390
+ "epoch": 0.11829634073185363,
10391
+ "grad_norm": 3.9875335693359375,
10392
+ "learning_rate": 7.833912284324618e-07,
10393
+ "loss": 3.6138,
10394
+ "step": 1479
10395
+ },
10396
+ {
10397
+ "epoch": 0.118376324735053,
10398
+ "grad_norm": 4.092508316040039,
10399
+ "learning_rate": 7.579490328064265e-07,
10400
+ "loss": 3.8903,
10401
+ "step": 1480
10402
+ },
10403
+ {
10404
+ "epoch": 0.11845630873825234,
10405
+ "grad_norm": 4.583672046661377,
10406
+ "learning_rate": 7.32925257206396e-07,
10407
+ "loss": 3.7078,
10408
+ "step": 1481
10409
+ },
10410
+ {
10411
+ "epoch": 0.11853629274145171,
10412
+ "grad_norm": 5.149039268493652,
10413
+ "learning_rate": 7.083200071365203e-07,
10414
+ "loss": 3.7716,
10415
+ "step": 1482
10416
+ },
10417
+ {
10418
+ "epoch": 0.11861627674465107,
10419
+ "grad_norm": 4.750640392303467,
10420
+ "learning_rate": 6.841333863363831e-07,
10421
+ "loss": 2.8942,
10422
+ "step": 1483
10423
+ },
10424
+ {
10425
+ "epoch": 0.11869626074785043,
10426
+ "grad_norm": 4.358502388000488,
10427
+ "learning_rate": 6.603654967805683e-07,
10428
+ "loss": 3.5916,
10429
+ "step": 1484
10430
+ },
10431
+ {
10432
+ "epoch": 0.1187762447510498,
10433
+ "grad_norm": 3.6885571479797363,
10434
+ "learning_rate": 6.370164386782285e-07,
10435
+ "loss": 3.0587,
10436
+ "step": 1485
10437
+ },
10438
+ {
10439
+ "epoch": 0.11885622875424914,
10440
+ "grad_norm": 4.57819128036499,
10441
+ "learning_rate": 6.140863104726391e-07,
10442
+ "loss": 4.0528,
10443
+ "step": 1486
10444
+ },
10445
+ {
10446
+ "epoch": 0.1189362127574485,
10447
+ "grad_norm": 4.245659828186035,
10448
+ "learning_rate": 5.915752088408e-07,
10449
+ "loss": 3.3928,
10450
+ "step": 1487
10451
+ },
10452
+ {
10453
+ "epoch": 0.11901619676064787,
10454
+ "grad_norm": 4.543621063232422,
10455
+ "learning_rate": 5.694832286930685e-07,
10456
+ "loss": 3.1624,
10457
+ "step": 1488
10458
+ },
10459
+ {
10460
+ "epoch": 0.11909618076384723,
10461
+ "grad_norm": 4.2259039878845215,
10462
+ "learning_rate": 5.478104631726711e-07,
10463
+ "loss": 3.4839,
10464
+ "step": 1489
10465
+ },
10466
+ {
10467
+ "epoch": 0.1191761647670466,
10468
+ "grad_norm": 4.5847039222717285,
10469
+ "learning_rate": 5.265570036553813e-07,
10470
+ "loss": 3.5966,
10471
+ "step": 1490
10472
+ },
10473
+ {
10474
+ "epoch": 0.11925614877024596,
10475
+ "grad_norm": 3.7808141708374023,
10476
+ "learning_rate": 5.057229397491204e-07,
10477
+ "loss": 3.3972,
10478
+ "step": 1491
10479
+ },
10480
+ {
10481
+ "epoch": 0.1193361327734453,
10482
+ "grad_norm": 4.415256977081299,
10483
+ "learning_rate": 4.85308359293557e-07,
10484
+ "loss": 4.3388,
10485
+ "step": 1492
10486
+ },
10487
+ {
10488
+ "epoch": 0.11941611677664467,
10489
+ "grad_norm": 4.698878288269043,
10490
+ "learning_rate": 4.653133483597638e-07,
10491
+ "loss": 2.6318,
10492
+ "step": 1493
10493
+ },
10494
+ {
10495
+ "epoch": 0.11949610077984403,
10496
+ "grad_norm": 4.164829254150391,
10497
+ "learning_rate": 4.457379912498394e-07,
10498
+ "loss": 4.389,
10499
+ "step": 1494
10500
+ },
10501
+ {
10502
+ "epoch": 0.1195760847830434,
10503
+ "grad_norm": 4.140608310699463,
10504
+ "learning_rate": 4.2658237049655323e-07,
10505
+ "loss": 4.1022,
10506
+ "step": 1495
10507
+ },
10508
+ {
10509
+ "epoch": 0.11965606878624276,
10510
+ "grad_norm": 4.643738746643066,
10511
+ "learning_rate": 4.078465668629905e-07,
10512
+ "loss": 4.2987,
10513
+ "step": 1496
10514
+ },
10515
+ {
10516
+ "epoch": 0.11973605278944212,
10517
+ "grad_norm": 3.7802324295043945,
10518
+ "learning_rate": 3.8953065934225206e-07,
10519
+ "loss": 3.1774,
10520
+ "step": 1497
10521
+ },
10522
+ {
10523
+ "epoch": 0.11981603679264147,
10524
+ "grad_norm": 4.139101982116699,
10525
+ "learning_rate": 3.716347251570551e-07,
10526
+ "loss": 3.3893,
10527
+ "step": 1498
10528
+ },
10529
+ {
10530
+ "epoch": 0.11989602079584083,
10531
+ "grad_norm": 3.5190374851226807,
10532
+ "learning_rate": 3.541588397594664e-07,
10533
+ "loss": 3.531,
10534
+ "step": 1499
10535
+ },
10536
+ {
10537
+ "epoch": 0.11997600479904019,
10538
+ "grad_norm": 3.7342114448547363,
10539
+ "learning_rate": 3.371030768305583e-07,
10540
+ "loss": 3.1928,
10541
+ "step": 1500
10542
+ },
10543
+ {
10544
+ "epoch": 0.12005598880223955,
10545
+ "grad_norm": 3.8492627143859863,
10546
+ "learning_rate": 3.204675082800979e-07,
10547
+ "loss": 3.382,
10548
+ "step": 1501
10549
+ },
10550
+ {
10551
+ "epoch": 0.12013597280543892,
10552
+ "grad_norm": 4.815494537353516,
10553
+ "learning_rate": 3.042522042462359e-07,
10554
+ "loss": 4.0397,
10555
+ "step": 1502
10556
+ },
10557
+ {
10558
+ "epoch": 0.12021595680863827,
10559
+ "grad_norm": 3.6874735355377197,
10560
+ "learning_rate": 2.8845723309525176e-07,
10561
+ "loss": 2.5105,
10562
+ "step": 1503
10563
+ },
10564
+ {
10565
+ "epoch": 0.12029594081183763,
10566
+ "grad_norm": 4.021266460418701,
10567
+ "learning_rate": 2.7308266142119785e-07,
10568
+ "loss": 3.2706,
10569
+ "step": 1504
10570
+ },
10571
+ {
10572
+ "epoch": 0.12037592481503699,
10573
+ "grad_norm": 4.5269575119018555,
10574
+ "learning_rate": 2.5812855404568905e-07,
10575
+ "loss": 4.5545,
10576
+ "step": 1505
10577
+ },
10578
+ {
10579
+ "epoch": 0.12045590881823635,
10580
+ "grad_norm": 4.050426959991455,
10581
+ "learning_rate": 2.4359497401758024e-07,
10582
+ "loss": 3.9122,
10583
+ "step": 1506
10584
+ },
10585
+ {
10586
+ "epoch": 0.12053589282143572,
10587
+ "grad_norm": 3.5586445331573486,
10588
+ "learning_rate": 2.2948198261271148e-07,
10589
+ "loss": 2.8053,
10590
+ "step": 1507
10591
+ },
10592
+ {
10593
+ "epoch": 0.12061587682463508,
10594
+ "grad_norm": 3.978595018386841,
10595
+ "learning_rate": 2.1578963933367446e-07,
10596
+ "loss": 2.9083,
10597
+ "step": 1508
10598
+ },
10599
+ {
10600
+ "epoch": 0.12069586082783443,
10601
+ "grad_norm": 4.400628566741943,
10602
+ "learning_rate": 2.0251800190953518e-07,
10603
+ "loss": 3.4607,
10604
+ "step": 1509
10605
+ },
10606
+ {
10607
+ "epoch": 0.12077584483103379,
10608
+ "grad_norm": 4.357829570770264,
10609
+ "learning_rate": 1.8966712629558957e-07,
10610
+ "loss": 3.3244,
10611
+ "step": 1510
10612
+ },
10613
+ {
10614
+ "epoch": 0.12085582883423315,
10615
+ "grad_norm": 4.234547138214111,
10616
+ "learning_rate": 1.7723706667314155e-07,
10617
+ "loss": 3.36,
10618
+ "step": 1511
10619
+ },
10620
+ {
10621
+ "epoch": 0.12093581283743252,
10622
+ "grad_norm": 3.8055272102355957,
10623
+ "learning_rate": 1.6522787544926977e-07,
10624
+ "loss": 3.672,
10625
+ "step": 1512
10626
+ },
10627
+ {
10628
+ "epoch": 0.12101579684063188,
10629
+ "grad_norm": 3.644456386566162,
10630
+ "learning_rate": 1.5363960325660565e-07,
10631
+ "loss": 2.8197,
10632
+ "step": 1513
10633
+ },
10634
+ {
10635
+ "epoch": 0.12109578084383123,
10636
+ "grad_norm": 4.6977338790893555,
10637
+ "learning_rate": 1.424722989531113e-07,
10638
+ "loss": 3.9904,
10639
+ "step": 1514
10640
+ },
10641
+ {
10642
+ "epoch": 0.12117576484703059,
10643
+ "grad_norm": 3.618805170059204,
10644
+ "learning_rate": 1.3172600962190197e-07,
10645
+ "loss": 2.9669,
10646
+ "step": 1515
10647
+ },
10648
+ {
10649
+ "epoch": 0.12125574885022995,
10650
+ "grad_norm": 3.858250141143799,
10651
+ "learning_rate": 1.2140078057101266e-07,
10652
+ "loss": 2.7861,
10653
+ "step": 1516
10654
+ },
10655
+ {
10656
+ "epoch": 0.12133573285342932,
10657
+ "grad_norm": 3.7499475479125977,
10658
+ "learning_rate": 1.1149665533320974e-07,
10659
+ "loss": 3.2523,
10660
+ "step": 1517
10661
+ },
10662
+ {
10663
+ "epoch": 0.12141571685662868,
10664
+ "grad_norm": 4.985630512237549,
10665
+ "learning_rate": 1.020136756658574e-07,
10666
+ "loss": 3.4223,
10667
+ "step": 1518
10668
+ },
10669
+ {
10670
+ "epoch": 0.12149570085982804,
10671
+ "grad_norm": 3.8844850063323975,
10672
+ "learning_rate": 9.295188155068468e-08,
10673
+ "loss": 3.3358,
10674
+ "step": 1519
10675
+ },
10676
+ {
10677
+ "epoch": 0.12157568486302739,
10678
+ "grad_norm": 4.788154602050781,
10679
+ "learning_rate": 8.43113111936189e-08,
10680
+ "loss": 4.0249,
10681
+ "step": 1520
10682
+ },
10683
+ {
10684
+ "epoch": 0.12165566886622675,
10685
+ "grad_norm": 3.8909480571746826,
10686
+ "learning_rate": 7.609200102465241e-08,
10687
+ "loss": 3.1497,
10688
+ "step": 1521
10689
+ },
10690
+ {
10691
+ "epoch": 0.12173565286942611,
10692
+ "grad_norm": 4.890474796295166,
10693
+ "learning_rate": 6.829398569770939e-08,
10694
+ "loss": 3.4871,
10695
+ "step": 1522
10696
+ },
10697
+ {
10698
+ "epoch": 0.12181563687262548,
10699
+ "grad_norm": 3.6632330417633057,
10700
+ "learning_rate": 6.09172980904238e-08,
10701
+ "loss": 3.5284,
10702
+ "step": 1523
10703
+ },
10704
+ {
10705
+ "epoch": 0.12189562087582484,
10706
+ "grad_norm": 3.084301710128784,
10707
+ "learning_rate": 5.3961969304072715e-08,
10708
+ "loss": 2.9465,
10709
+ "step": 1524
10710
+ },
10711
+ {
10712
+ "epoch": 0.1219756048790242,
10713
+ "grad_norm": 4.575099468231201,
10714
+ "learning_rate": 4.74280286634099e-08,
10715
+ "loss": 4.1169,
10716
+ "step": 1525
10717
+ },
10718
+ {
10719
+ "epoch": 0.12205558888222355,
10720
+ "grad_norm": 4.711434841156006,
10721
+ "learning_rate": 4.131550371655468e-08,
10722
+ "loss": 4.1647,
10723
+ "step": 1526
10724
+ },
10725
+ {
10726
+ "epoch": 0.12213557288542291,
10727
+ "grad_norm": 3.6860179901123047,
10728
+ "learning_rate": 3.562442023485879e-08,
10729
+ "loss": 2.6378,
10730
+ "step": 1527
10731
+ },
10732
+ {
10733
+ "epoch": 0.12221555688862228,
10734
+ "grad_norm": 4.5305070877075195,
10735
+ "learning_rate": 3.0354802212839705e-08,
10736
+ "loss": 3.7609,
10737
+ "step": 1528
10738
+ },
10739
+ {
10740
+ "epoch": 0.12229554089182164,
10741
+ "grad_norm": 4.689446926116943,
10742
+ "learning_rate": 2.550667186801414e-08,
10743
+ "loss": 3.5085,
10744
+ "step": 1529
10745
+ },
10746
+ {
10747
+ "epoch": 0.122375524895021,
10748
+ "grad_norm": 4.543569564819336,
10749
+ "learning_rate": 2.108004964086474e-08,
10750
+ "loss": 3.4681,
10751
+ "step": 1530
10752
+ },
10753
+ {
10754
+ "epoch": 0.12245550889822035,
10755
+ "grad_norm": 3.1736643314361572,
10756
+ "learning_rate": 1.7074954194729044e-08,
10757
+ "loss": 3.0281,
10758
+ "step": 1531
10759
+ },
10760
+ {
10761
+ "epoch": 0.12253549290141971,
10762
+ "grad_norm": 26.721364974975586,
10763
+ "learning_rate": 1.3491402415710675e-08,
10764
+ "loss": 4.7551,
10765
+ "step": 1532
10766
+ },
10767
+ {
10768
+ "epoch": 0.12261547690461908,
10769
+ "grad_norm": 4.449186325073242,
10770
+ "learning_rate": 1.0329409412634938e-08,
10771
+ "loss": 3.7758,
10772
+ "step": 1533
10773
+ },
10774
+ {
10775
+ "epoch": 0.12269546090781844,
10776
+ "grad_norm": 3.931652307510376,
10777
+ "learning_rate": 7.58898851693779e-09,
10778
+ "loss": 2.9284,
10779
+ "step": 1534
10780
+ },
10781
+ {
10782
+ "epoch": 0.1227754449110178,
10783
+ "grad_norm": 4.318076133728027,
10784
+ "learning_rate": 5.270151282688041e-09,
10785
+ "loss": 4.0952,
10786
+ "step": 1535
10787
+ },
10788
+ {
10789
+ "epoch": 0.12285542891421716,
10790
+ "grad_norm": 3.975515127182007,
10791
+ "learning_rate": 3.3729074864541355e-09,
10792
+ "loss": 4.1076,
10793
+ "step": 1536
10794
+ },
10795
+ {
10796
+ "epoch": 0.12293541291741651,
10797
+ "grad_norm": 3.743957281112671,
10798
+ "learning_rate": 1.897265127315251e-09,
10799
+ "loss": 3.149,
10800
+ "step": 1537
10801
+ },
10802
+ {
10803
+ "epoch": 0.12301539692061587,
10804
+ "grad_norm": 3.694349765777588,
10805
+ "learning_rate": 8.432304268057856e-10,
10806
+ "loss": 3.6728,
10807
+ "step": 1538
10808
+ },
10809
+ {
10810
+ "epoch": 0.12309538092381524,
10811
+ "grad_norm": 4.057514190673828,
10812
+ "learning_rate": 2.108078289042581e-10,
10813
+ "loss": 3.2975,
10814
+ "step": 1539
10815
+ },
10816
+ {
10817
+ "epoch": 0.1231753649270146,
10818
+ "grad_norm": 4.6135783195495605,
10819
+ "learning_rate": 0.0,
10820
+ "loss": 3.6262,
10821
+ "step": 1540
10822
+ },
10823
+ {
10824
+ "epoch": 0.1231753649270146,
10825
+ "eval_loss": 0.8568549752235413,
10826
+ "eval_runtime": 288.5378,
10827
+ "eval_samples_per_second": 18.247,
10828
+ "eval_steps_per_second": 9.125,
10829
+ "step": 1540
10830
  }
10831
  ],
10832
  "logging_steps": 1,
 
10841
  "should_evaluate": false,
10842
  "should_log": false,
10843
  "should_save": true,
10844
+ "should_training_stop": true
10845
  },
10846
  "attributes": {}
10847
  }
10848
  },
10849
+ "total_flos": 7.012705999886746e+17,
10850
  "train_batch_size": 2,
10851
  "trial_name": null,
10852
  "trial_params": null