ErrorAI commited on
Commit
968f8ec
·
verified ·
1 Parent(s): d72a899

Training in progress, step 1371, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:136098e17c8a4ed813224371766103c3ef47fc33e1a94f19e529674481c74883
3
  size 137714904
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:83da40a9154613a638d1fdae5980fa35c0d809fd92c3a4927c462d08f897d627
3
  size 137714904
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b345d00f0ecc5bc2c5a1d3b598c34bf3343d7c945b85dd8f8b6fb6f04a9d48bd
3
  size 70674644
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4d93aa50a0e61430fcc810f6fefe5a083c6f8c03dfc57b8c49e577afe7b421a7
3
  size 70674644
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d07435ee65aa1982d8bb328865f971522a59723029bfcadd9f1b4518bb23427b
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8e6390c92d64390f8337877d3c9863e3759ab2f814e191b929f8e60f0f1a489f
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cdcfc88579536b0021e76ad344ce94dc06843c2bf331b352c7f9543c30059dc6
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b70c66781e1a6941a34654d4b8193be447c36adcde318297ffbdeb2c57bc7975
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.17364890520187318,
5
  "eval_steps": 500,
6
- "global_step": 1029,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7210,6 +7210,2400 @@
7210
  "learning_rate": 1.4685340263950558e-05,
7211
  "loss": 0.6155,
7212
  "step": 1029
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7213
  }
7214
  ],
7215
  "logging_steps": 1,
@@ -7224,12 +9618,12 @@
7224
  "should_evaluate": false,
7225
  "should_log": false,
7226
  "should_save": true,
7227
- "should_training_stop": false
7228
  },
7229
  "attributes": {}
7230
  }
7231
  },
7232
- "total_flos": 1.4191292400827105e+18,
7233
  "train_batch_size": 4,
7234
  "trial_name": null,
7235
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.2313631185925832,
5
  "eval_steps": 500,
6
+ "global_step": 1371,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7210
  "learning_rate": 1.4685340263950558e-05,
7211
  "loss": 0.6155,
7212
  "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 0.17381766021178754,
7216
+ "grad_norm": 1.0319809913635254,
7217
+ "learning_rate": 1.4604028368654037e-05,
7218
+ "loss": 0.5403,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 0.17398641522170188,
7223
+ "grad_norm": 1.1701350212097168,
7224
+ "learning_rate": 1.4522903693250905e-05,
7225
+ "loss": 0.5764,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 0.17415517023161625,
7230
+ "grad_norm": 1.1631454229354858,
7231
+ "learning_rate": 1.444196666683389e-05,
7232
+ "loss": 0.5583,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 0.17432392524153062,
7237
+ "grad_norm": 1.08467435836792,
7238
+ "learning_rate": 1.4361217717503145e-05,
7239
+ "loss": 0.5135,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 0.17449268025144496,
7244
+ "grad_norm": 1.1960421800613403,
7245
+ "learning_rate": 1.4280657272364035e-05,
7246
+ "loss": 0.5745,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 0.17466143526135933,
7251
+ "grad_norm": 1.4493260383605957,
7252
+ "learning_rate": 1.4200285757524895e-05,
7253
+ "loss": 0.7502,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 0.17483019027127367,
7258
+ "grad_norm": 1.250547170639038,
7259
+ "learning_rate": 1.412010359809472e-05,
7260
+ "loss": 0.637,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 0.17499894528118803,
7265
+ "grad_norm": 1.2481725215911865,
7266
+ "learning_rate": 1.4040111218180967e-05,
7267
+ "loss": 0.6221,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 0.1751677002911024,
7272
+ "grad_norm": 1.3377397060394287,
7273
+ "learning_rate": 1.3960309040887309e-05,
7274
+ "loss": 0.7129,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 0.17533645530101674,
7279
+ "grad_norm": 1.292580008506775,
7280
+ "learning_rate": 1.3880697488311329e-05,
7281
+ "loss": 0.6901,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 0.1755052103109311,
7286
+ "grad_norm": 1.2922450304031372,
7287
+ "learning_rate": 1.3801276981542388e-05,
7288
+ "loss": 0.6255,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 0.17567396532084545,
7293
+ "grad_norm": 1.4294100999832153,
7294
+ "learning_rate": 1.3722047940659328e-05,
7295
+ "loss": 0.708,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 0.17584272033075982,
7300
+ "grad_norm": 1.4303593635559082,
7301
+ "learning_rate": 1.3643010784728245e-05,
7302
+ "loss": 0.6473,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 0.17601147534067418,
7307
+ "grad_norm": 1.499804139137268,
7308
+ "learning_rate": 1.356416593180036e-05,
7309
+ "loss": 0.7227,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 0.17618023035058852,
7314
+ "grad_norm": 1.4877763986587524,
7315
+ "learning_rate": 1.34855137989097e-05,
7316
+ "loss": 0.7049,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 0.1763489853605029,
7321
+ "grad_norm": 1.396185040473938,
7322
+ "learning_rate": 1.3407054802070924e-05,
7323
+ "loss": 0.6869,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 0.17651774037041726,
7328
+ "grad_norm": 1.8223285675048828,
7329
+ "learning_rate": 1.3328789356277194e-05,
7330
+ "loss": 0.7735,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 0.1766864953803316,
7335
+ "grad_norm": 1.9497090578079224,
7336
+ "learning_rate": 1.3250717875497864e-05,
7337
+ "loss": 0.808,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 0.17685525039024597,
7342
+ "grad_norm": 1.8972411155700684,
7343
+ "learning_rate": 1.3172840772676387e-05,
7344
+ "loss": 0.8421,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 0.1770240054001603,
7349
+ "grad_norm": 1.9117318391799927,
7350
+ "learning_rate": 1.309515845972809e-05,
7351
+ "loss": 0.8546,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 0.17719276041007467,
7356
+ "grad_norm": 2.5941343307495117,
7357
+ "learning_rate": 1.3017671347537969e-05,
7358
+ "loss": 1.081,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 0.17736151541998904,
7363
+ "grad_norm": 0.4715406000614166,
7364
+ "learning_rate": 1.294037984595859e-05,
7365
+ "loss": 0.5136,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 0.17753027042990338,
7370
+ "grad_norm": 0.5191971659660339,
7371
+ "learning_rate": 1.2863284363807831e-05,
7372
+ "loss": 0.5824,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 0.17769902543981775,
7377
+ "grad_norm": 0.5693216919898987,
7378
+ "learning_rate": 1.2786385308866772e-05,
7379
+ "loss": 0.5587,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 0.1778677804497321,
7384
+ "grad_norm": 0.6372774243354797,
7385
+ "learning_rate": 1.2709683087877573e-05,
7386
+ "loss": 0.6168,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 0.17803653545964646,
7391
+ "grad_norm": 0.6607767343521118,
7392
+ "learning_rate": 1.2633178106541216e-05,
7393
+ "loss": 0.5187,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 0.17820529046956082,
7398
+ "grad_norm": 0.6850890517234802,
7399
+ "learning_rate": 1.2556870769515493e-05,
7400
+ "loss": 0.5701,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 0.17837404547947516,
7405
+ "grad_norm": 0.7265092730522156,
7406
+ "learning_rate": 1.248076148041274e-05,
7407
+ "loss": 0.6247,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 0.17854280048938953,
7412
+ "grad_norm": 0.6663525700569153,
7413
+ "learning_rate": 1.240485064179776e-05,
7414
+ "loss": 0.5468,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 0.1787115554993039,
7419
+ "grad_norm": 0.7386102676391602,
7420
+ "learning_rate": 1.2329138655185735e-05,
7421
+ "loss": 0.5882,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 0.17888031050921824,
7426
+ "grad_norm": 0.7752735614776611,
7427
+ "learning_rate": 1.2253625921040046e-05,
7428
+ "loss": 0.6626,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 0.1790490655191326,
7433
+ "grad_norm": 0.8515707850456238,
7434
+ "learning_rate": 1.2178312838770117e-05,
7435
+ "loss": 0.6572,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 0.17921782052904695,
7440
+ "grad_norm": 0.7872768044471741,
7441
+ "learning_rate": 1.2103199806729438e-05,
7442
+ "loss": 0.5535,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 0.1793865755389613,
7447
+ "grad_norm": 0.8094439506530762,
7448
+ "learning_rate": 1.2028287222213286e-05,
7449
+ "loss": 0.4774,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 0.17955533054887568,
7454
+ "grad_norm": 0.8031929731369019,
7455
+ "learning_rate": 1.1953575481456792e-05,
7456
+ "loss": 0.4854,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 0.17972408555879002,
7461
+ "grad_norm": 0.8686875700950623,
7462
+ "learning_rate": 1.1879064979632704e-05,
7463
+ "loss": 0.5507,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.1798928405687044,
7468
+ "grad_norm": 0.9079012274742126,
7469
+ "learning_rate": 1.1804756110849363e-05,
7470
+ "loss": 0.6092,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.18006159557861873,
7475
+ "grad_norm": 0.9290295243263245,
7476
+ "learning_rate": 1.1730649268148664e-05,
7477
+ "loss": 0.5932,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 0.1802303505885331,
7482
+ "grad_norm": 0.9496090412139893,
7483
+ "learning_rate": 1.1656744843503874e-05,
7484
+ "loss": 0.5311,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 0.18039910559844746,
7489
+ "grad_norm": 0.9013460278511047,
7490
+ "learning_rate": 1.1583043227817609e-05,
7491
+ "loss": 0.5556,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 0.1805678606083618,
7496
+ "grad_norm": 0.9510790109634399,
7497
+ "learning_rate": 1.1509544810919798e-05,
7498
+ "loss": 0.5625,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 0.18073661561827617,
7503
+ "grad_norm": 0.9159001111984253,
7504
+ "learning_rate": 1.1436249981565577e-05,
7505
+ "loss": 0.5722,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 0.18090537062819054,
7510
+ "grad_norm": 0.9898829460144043,
7511
+ "learning_rate": 1.1363159127433265e-05,
7512
+ "loss": 0.6594,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 0.18107412563810488,
7517
+ "grad_norm": 0.8602355718612671,
7518
+ "learning_rate": 1.1290272635122256e-05,
7519
+ "loss": 0.412,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 0.18124288064801924,
7524
+ "grad_norm": 0.9539443254470825,
7525
+ "learning_rate": 1.121759089015103e-05,
7526
+ "loss": 0.5553,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 0.18141163565793358,
7531
+ "grad_norm": 0.9541051387786865,
7532
+ "learning_rate": 1.1145114276955121e-05,
7533
+ "loss": 0.5062,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 0.18158039066784795,
7538
+ "grad_norm": 0.982779324054718,
7539
+ "learning_rate": 1.1072843178885023e-05,
7540
+ "loss": 0.5422,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 0.18174914567776232,
7545
+ "grad_norm": 1.096030831336975,
7546
+ "learning_rate": 1.1000777978204214e-05,
7547
+ "loss": 0.501,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 0.18191790068767666,
7552
+ "grad_norm": 1.1027871370315552,
7553
+ "learning_rate": 1.0928919056087134e-05,
7554
+ "loss": 0.5381,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 0.18208665569759103,
7559
+ "grad_norm": 1.1163361072540283,
7560
+ "learning_rate": 1.0857266792617122e-05,
7561
+ "loss": 0.6133,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 0.18225541070750537,
7566
+ "grad_norm": 1.085625410079956,
7567
+ "learning_rate": 1.0785821566784482e-05,
7568
+ "loss": 0.5697,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 0.18242416571741973,
7573
+ "grad_norm": 1.2379124164581299,
7574
+ "learning_rate": 1.071458375648438e-05,
7575
+ "loss": 0.6964,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 0.1825929207273341,
7580
+ "grad_norm": 1.1840894222259521,
7581
+ "learning_rate": 1.0643553738514939e-05,
7582
+ "loss": 0.6278,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 0.18276167573724844,
7587
+ "grad_norm": 1.2528572082519531,
7588
+ "learning_rate": 1.057273188857521e-05,
7589
+ "loss": 0.5366,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 0.1829304307471628,
7594
+ "grad_norm": 1.1213513612747192,
7595
+ "learning_rate": 1.0502118581263148e-05,
7596
+ "loss": 0.4806,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 0.18309918575707718,
7601
+ "grad_norm": 1.1215614080429077,
7602
+ "learning_rate": 1.0431714190073672e-05,
7603
+ "loss": 0.4659,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 0.18326794076699152,
7608
+ "grad_norm": 1.3397492170333862,
7609
+ "learning_rate": 1.0361519087396715e-05,
7610
+ "loss": 0.6759,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.18343669577690588,
7615
+ "grad_norm": 1.2844408750534058,
7616
+ "learning_rate": 1.0291533644515167e-05,
7617
+ "loss": 0.668,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.18360545078682022,
7622
+ "grad_norm": 1.2681591510772705,
7623
+ "learning_rate": 1.0221758231603024e-05,
7624
+ "loss": 0.6039,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.1837742057967346,
7629
+ "grad_norm": 1.201204776763916,
7630
+ "learning_rate": 1.0152193217723316e-05,
7631
+ "loss": 0.5369,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.18394296080664896,
7636
+ "grad_norm": 1.266699194908142,
7637
+ "learning_rate": 1.008283897082623e-05,
7638
+ "loss": 0.5924,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.1841117158165633,
7643
+ "grad_norm": 1.433534860610962,
7644
+ "learning_rate": 1.0013695857747174e-05,
7645
+ "loss": 0.6841,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.18428047082647767,
7650
+ "grad_norm": 1.545581579208374,
7651
+ "learning_rate": 9.94476424420474e-06,
7652
+ "loss": 0.6661,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.184449225836392,
7657
+ "grad_norm": 1.4983086585998535,
7658
+ "learning_rate": 9.876044494798898e-06,
7659
+ "loss": 0.7183,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.18461798084630637,
7664
+ "grad_norm": 1.6680443286895752,
7665
+ "learning_rate": 9.807536973008985e-06,
7666
+ "loss": 0.6989,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.18478673585622074,
7671
+ "grad_norm": 1.5908889770507812,
7672
+ "learning_rate": 9.739242041191781e-06,
7673
+ "loss": 0.8823,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.18495549086613508,
7678
+ "grad_norm": 1.6729180812835693,
7679
+ "learning_rate": 9.671160060579648e-06,
7680
+ "loss": 0.6335,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.18512424587604945,
7685
+ "grad_norm": 1.7792624235153198,
7686
+ "learning_rate": 9.603291391278568e-06,
7687
+ "loss": 0.7025,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.18529300088596382,
7692
+ "grad_norm": 1.8781849145889282,
7693
+ "learning_rate": 9.535636392266234e-06,
7694
+ "loss": 0.8383,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.18546175589587816,
7699
+ "grad_norm": 1.8984248638153076,
7700
+ "learning_rate": 9.46819542139023e-06,
7701
+ "loss": 0.6684,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.18563051090579252,
7706
+ "grad_norm": 2.2846457958221436,
7707
+ "learning_rate": 9.40096883536602e-06,
7708
+ "loss": 0.7748,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.18579926591570686,
7713
+ "grad_norm": 0.4258973002433777,
7714
+ "learning_rate": 9.33395698977515e-06,
7715
+ "loss": 0.5428,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.18596802092562123,
7720
+ "grad_norm": 0.5763824582099915,
7721
+ "learning_rate": 9.267160239063356e-06,
7722
+ "loss": 0.6497,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.1861367759355356,
7727
+ "grad_norm": 0.5722477436065674,
7728
+ "learning_rate": 9.200578936538629e-06,
7729
+ "loss": 0.5187,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.18630553094544994,
7734
+ "grad_norm": 0.6180588006973267,
7735
+ "learning_rate": 9.134213434369426e-06,
7736
+ "loss": 0.583,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.1864742859553643,
7741
+ "grad_norm": 0.6868796348571777,
7742
+ "learning_rate": 9.068064083582789e-06,
7743
+ "loss": 0.5695,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.18664304096527864,
7748
+ "grad_norm": 0.7807045578956604,
7749
+ "learning_rate": 9.0021312340624e-06,
7750
+ "loss": 0.6661,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.186811795975193,
7755
+ "grad_norm": 0.7304069995880127,
7756
+ "learning_rate": 8.93641523454688e-06,
7757
+ "loss": 0.5707,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.18698055098510738,
7762
+ "grad_norm": 0.774566650390625,
7763
+ "learning_rate": 8.870916432627813e-06,
7764
+ "loss": 0.6282,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.18714930599502172,
7769
+ "grad_norm": 0.7647138833999634,
7770
+ "learning_rate": 8.805635174747962e-06,
7771
+ "loss": 0.5705,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.1873180610049361,
7776
+ "grad_norm": 0.8842149972915649,
7777
+ "learning_rate": 8.740571806199477e-06,
7778
+ "loss": 0.6233,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.18748681601485043,
7783
+ "grad_norm": 0.8789076805114746,
7784
+ "learning_rate": 8.67572667112197e-06,
7785
+ "loss": 0.6155,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.1876555710247648,
7790
+ "grad_norm": 0.8563818335533142,
7791
+ "learning_rate": 8.611100112500808e-06,
7792
+ "loss": 0.583,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.18782432603467916,
7797
+ "grad_norm": 0.7744738459587097,
7798
+ "learning_rate": 8.546692472165196e-06,
7799
+ "loss": 0.5526,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 0.1879930810445935,
7804
+ "grad_norm": 1.013342022895813,
7805
+ "learning_rate": 8.48250409078642e-06,
7806
+ "loss": 0.6404,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 0.18816183605450787,
7811
+ "grad_norm": 0.8554475903511047,
7812
+ "learning_rate": 8.418535307876058e-06,
7813
+ "loss": 0.5184,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 0.18833059106442224,
7818
+ "grad_norm": 0.8989919424057007,
7819
+ "learning_rate": 8.354786461784175e-06,
7820
+ "loss": 0.6057,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 0.18849934607433658,
7825
+ "grad_norm": 0.9024717807769775,
7826
+ "learning_rate": 8.291257889697484e-06,
7827
+ "loss": 0.4968,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 0.18866810108425094,
7832
+ "grad_norm": 0.9358378648757935,
7833
+ "learning_rate": 8.227949927637651e-06,
7834
+ "loss": 0.4916,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 0.18883685609416528,
7839
+ "grad_norm": 0.953552782535553,
7840
+ "learning_rate": 8.16486291045942e-06,
7841
+ "loss": 0.4996,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 0.18900561110407965,
7846
+ "grad_norm": 1.07173752784729,
7847
+ "learning_rate": 8.101997171848941e-06,
7848
+ "loss": 0.5665,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 0.18917436611399402,
7853
+ "grad_norm": 0.9952334761619568,
7854
+ "learning_rate": 8.039353044321918e-06,
7855
+ "loss": 0.4867,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 0.18934312112390836,
7860
+ "grad_norm": 1.0533599853515625,
7861
+ "learning_rate": 7.976930859221887e-06,
7862
+ "loss": 0.5156,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 0.18951187613382273,
7867
+ "grad_norm": 1.1125342845916748,
7868
+ "learning_rate": 7.914730946718508e-06,
7869
+ "loss": 0.6671,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 0.18968063114373707,
7874
+ "grad_norm": 1.0971851348876953,
7875
+ "learning_rate": 7.85275363580572e-06,
7876
+ "loss": 0.585,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 0.18984938615365143,
7881
+ "grad_norm": 1.0686278343200684,
7882
+ "learning_rate": 7.79099925430008e-06,
7883
+ "loss": 0.56,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 0.1900181411635658,
7888
+ "grad_norm": 1.0261794328689575,
7889
+ "learning_rate": 7.729468128839007e-06,
7890
+ "loss": 0.5615,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 0.19018689617348014,
7895
+ "grad_norm": 1.0555497407913208,
7896
+ "learning_rate": 7.66816058487907e-06,
7897
+ "loss": 0.5144,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 0.1903556511833945,
7902
+ "grad_norm": 1.1610735654830933,
7903
+ "learning_rate": 7.607076946694202e-06,
7904
+ "loss": 0.5332,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 0.19052440619330888,
7909
+ "grad_norm": 1.1955081224441528,
7910
+ "learning_rate": 7.546217537374073e-06,
7911
+ "loss": 0.6426,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 0.19069316120322322,
7916
+ "grad_norm": 1.1631394624710083,
7917
+ "learning_rate": 7.485582678822306e-06,
7918
+ "loss": 0.5139,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 0.19086191621313758,
7923
+ "grad_norm": 1.2080230712890625,
7924
+ "learning_rate": 7.42517269175485e-06,
7925
+ "loss": 0.5853,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 0.19103067122305192,
7930
+ "grad_norm": 1.1186884641647339,
7931
+ "learning_rate": 7.3649878956982055e-06,
7932
+ "loss": 0.5308,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 0.1911994262329663,
7937
+ "grad_norm": 1.2984037399291992,
7938
+ "learning_rate": 7.305028608987763e-06,
7939
+ "loss": 0.687,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 0.19136818124288066,
7944
+ "grad_norm": 1.2159451246261597,
7945
+ "learning_rate": 7.245295148766173e-06,
7946
+ "loss": 0.5976,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 0.191536936252795,
7951
+ "grad_norm": 1.2357873916625977,
7952
+ "learning_rate": 7.185787830981571e-06,
7953
+ "loss": 0.5822,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 0.19170569126270937,
7958
+ "grad_norm": 1.2717851400375366,
7959
+ "learning_rate": 7.126506970386005e-06,
7960
+ "loss": 0.5941,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 0.1918744462726237,
7965
+ "grad_norm": 1.5165656805038452,
7966
+ "learning_rate": 7.0674528805336645e-06,
7967
+ "loss": 0.6845,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 0.19204320128253807,
7972
+ "grad_norm": 1.2401753664016724,
7973
+ "learning_rate": 7.008625873779356e-06,
7974
+ "loss": 0.5117,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 0.19221195629245244,
7979
+ "grad_norm": 1.247753381729126,
7980
+ "learning_rate": 6.950026261276698e-06,
7981
+ "loss": 0.5991,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 0.19238071130236678,
7986
+ "grad_norm": 1.3807613849639893,
7987
+ "learning_rate": 6.891654352976612e-06,
7988
+ "loss": 0.6656,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 0.19254946631228115,
7993
+ "grad_norm": 1.4891915321350098,
7994
+ "learning_rate": 6.833510457625586e-06,
7995
+ "loss": 0.6281,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 0.19271822132219552,
8000
+ "grad_norm": 1.439781665802002,
8001
+ "learning_rate": 6.775594882764108e-06,
8002
+ "loss": 0.5462,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 0.19288697633210986,
8007
+ "grad_norm": 1.380350112915039,
8008
+ "learning_rate": 6.717907934724982e-06,
8009
+ "loss": 0.5989,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 0.19305573134202422,
8014
+ "grad_norm": 1.393906593322754,
8015
+ "learning_rate": 6.660449918631762e-06,
8016
+ "loss": 0.5525,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 0.19322448635193856,
8021
+ "grad_norm": 1.5263879299163818,
8022
+ "learning_rate": 6.603221138397103e-06,
8023
+ "loss": 0.6114,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 0.19339324136185293,
8028
+ "grad_norm": 1.6503808498382568,
8029
+ "learning_rate": 6.546221896721138e-06,
8030
+ "loss": 0.6674,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 0.1935619963717673,
8035
+ "grad_norm": 1.6666897535324097,
8036
+ "learning_rate": 6.48945249508996e-06,
8037
+ "loss": 0.6877,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 0.19373075138168164,
8042
+ "grad_norm": 1.6416525840759277,
8043
+ "learning_rate": 6.432913233773913e-06,
8044
+ "loss": 0.5663,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 0.193899506391596,
8049
+ "grad_norm": 1.962034821510315,
8050
+ "learning_rate": 6.376604411826071e-06,
8051
+ "loss": 0.6805,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 0.19406826140151034,
8056
+ "grad_norm": 2.3873307704925537,
8057
+ "learning_rate": 6.3205263270806665e-06,
8058
+ "loss": 0.8197,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 0.1942370164114247,
8063
+ "grad_norm": 0.4620276093482971,
8064
+ "learning_rate": 6.264679276151486e-06,
8065
+ "loss": 0.6271,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 0.19440577142133908,
8070
+ "grad_norm": 0.5824121236801147,
8071
+ "learning_rate": 6.2090635544303115e-06,
8072
+ "loss": 0.5112,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 0.19457452643125342,
8077
+ "grad_norm": 0.5734692811965942,
8078
+ "learning_rate": 6.153679456085343e-06,
8079
+ "loss": 0.5177,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 0.1947432814411678,
8084
+ "grad_norm": 0.6562824249267578,
8085
+ "learning_rate": 6.098527274059651e-06,
8086
+ "loss": 0.5824,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 0.19491203645108215,
8091
+ "grad_norm": 0.6037938594818115,
8092
+ "learning_rate": 6.043607300069654e-06,
8093
+ "loss": 0.4827,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 0.1950807914609965,
8098
+ "grad_norm": 0.7912740111351013,
8099
+ "learning_rate": 5.988919824603545e-06,
8100
+ "loss": 0.6638,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 0.19524954647091086,
8105
+ "grad_norm": 0.7995325326919556,
8106
+ "learning_rate": 5.934465136919737e-06,
8107
+ "loss": 0.6254,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 0.1954183014808252,
8112
+ "grad_norm": 0.7708985805511475,
8113
+ "learning_rate": 5.880243525045398e-06,
8114
+ "loss": 0.6051,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.19558705649073957,
8119
+ "grad_norm": 0.8647124171257019,
8120
+ "learning_rate": 5.826255275774862e-06,
8121
+ "loss": 0.6107,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.19575581150065394,
8126
+ "grad_norm": 0.8052390217781067,
8127
+ "learning_rate": 5.772500674668157e-06,
8128
+ "loss": 0.5808,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.19592456651056828,
8133
+ "grad_norm": 0.8364976644515991,
8134
+ "learning_rate": 5.718980006049446e-06,
8135
+ "loss": 0.5398,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.19609332152048264,
8140
+ "grad_norm": 0.8715554475784302,
8141
+ "learning_rate": 5.665693553005586e-06,
8142
+ "loss": 0.6081,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.19626207653039698,
8147
+ "grad_norm": 0.908320963382721,
8148
+ "learning_rate": 5.612641597384588e-06,
8149
+ "loss": 0.5801,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.19643083154031135,
8154
+ "grad_norm": 0.9266404509544373,
8155
+ "learning_rate": 5.559824419794129e-06,
8156
+ "loss": 0.6676,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.19659958655022572,
8161
+ "grad_norm": 0.7900256514549255,
8162
+ "learning_rate": 5.5072422996000625e-06,
8163
+ "loss": 0.4707,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.19676834156014006,
8168
+ "grad_norm": 0.8521780967712402,
8169
+ "learning_rate": 5.45489551492499e-06,
8170
+ "loss": 0.5061,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.19693709657005443,
8175
+ "grad_norm": 1.0226095914840698,
8176
+ "learning_rate": 5.402784342646711e-06,
8177
+ "loss": 0.6136,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.1971058515799688,
8182
+ "grad_norm": 0.9329948425292969,
8183
+ "learning_rate": 5.350909058396836e-06,
8184
+ "loss": 0.5079,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.19727460658988313,
8189
+ "grad_norm": 0.9524698257446289,
8190
+ "learning_rate": 5.299269936559276e-06,
8191
+ "loss": 0.504,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.1974433615997975,
8196
+ "grad_norm": 0.9691932797431946,
8197
+ "learning_rate": 5.2478672502687955e-06,
8198
+ "loss": 0.5377,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.19761211660971184,
8203
+ "grad_norm": 0.9309558272361755,
8204
+ "learning_rate": 5.196701271409616e-06,
8205
+ "loss": 0.4994,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.1977808716196262,
8210
+ "grad_norm": 1.0124459266662598,
8211
+ "learning_rate": 5.145772270613902e-06,
8212
+ "loss": 0.5391,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.19794962662954058,
8217
+ "grad_norm": 1.3132346868515015,
8218
+ "learning_rate": 5.0950805172603975e-06,
8219
+ "loss": 0.515,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.19811838163945492,
8224
+ "grad_norm": 0.8934838175773621,
8225
+ "learning_rate": 5.044626279472975e-06,
8226
+ "loss": 0.4449,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.19828713664936928,
8231
+ "grad_norm": 1.0268865823745728,
8232
+ "learning_rate": 4.9944098241191894e-06,
8233
+ "loss": 0.5443,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.19845589165928362,
8238
+ "grad_norm": 0.9692090153694153,
8239
+ "learning_rate": 4.944431416808931e-06,
8240
+ "loss": 0.4432,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 0.198624646669198,
8245
+ "grad_norm": 1.1712415218353271,
8246
+ "learning_rate": 4.894691321892947e-06,
8247
+ "loss": 0.5674,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 0.19879340167911236,
8252
+ "grad_norm": 1.1192066669464111,
8253
+ "learning_rate": 4.845189802461491e-06,
8254
+ "loss": 0.5008,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 0.1989621566890267,
8259
+ "grad_norm": 1.1353431940078735,
8260
+ "learning_rate": 4.795927120342941e-06,
8261
+ "loss": 0.541,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 0.19913091169894107,
8266
+ "grad_norm": 1.1462347507476807,
8267
+ "learning_rate": 4.746903536102359e-06,
8268
+ "loss": 0.5037,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 0.19929966670885543,
8273
+ "grad_norm": 1.2885733842849731,
8274
+ "learning_rate": 4.698119309040161e-06,
8275
+ "loss": 0.5725,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 0.19946842171876977,
8280
+ "grad_norm": 1.2179657220840454,
8281
+ "learning_rate": 4.6495746971907505e-06,
8282
+ "loss": 0.5973,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 0.19963717672868414,
8287
+ "grad_norm": 1.1196248531341553,
8288
+ "learning_rate": 4.601269957321091e-06,
8289
+ "loss": 0.5392,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 0.19980593173859848,
8294
+ "grad_norm": 1.3646570444107056,
8295
+ "learning_rate": 4.553205344929429e-06,
8296
+ "loss": 0.715,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 0.19997468674851285,
8301
+ "grad_norm": 1.1928213834762573,
8302
+ "learning_rate": 4.5053811142439065e-06,
8303
+ "loss": 0.602,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 0.20014344175842722,
8308
+ "grad_norm": 1.301818609237671,
8309
+ "learning_rate": 4.457797518221174e-06,
8310
+ "loss": 0.6285,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 0.20031219676834155,
8315
+ "grad_norm": 1.324830174446106,
8316
+ "learning_rate": 4.410454808545144e-06,
8317
+ "loss": 0.6589,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 0.20048095177825592,
8322
+ "grad_norm": 1.338803768157959,
8323
+ "learning_rate": 4.363353235625578e-06,
8324
+ "loss": 0.6009,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 0.20064970678817026,
8329
+ "grad_norm": 1.3291209936141968,
8330
+ "learning_rate": 4.316493048596787e-06,
8331
+ "loss": 0.6428,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 0.20081846179808463,
8336
+ "grad_norm": 1.343998908996582,
8337
+ "learning_rate": 4.269874495316351e-06,
8338
+ "loss": 0.6447,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 0.200987216807999,
8343
+ "grad_norm": 1.454965591430664,
8344
+ "learning_rate": 4.2234978223637365e-06,
8345
+ "loss": 0.7031,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 0.20115597181791334,
8350
+ "grad_norm": 1.5052690505981445,
8351
+ "learning_rate": 4.177363275039076e-06,
8352
+ "loss": 0.6319,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 0.2013247268278277,
8357
+ "grad_norm": 1.415196418762207,
8358
+ "learning_rate": 4.1314710973618e-06,
8359
+ "loss": 0.6923,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 0.20149348183774204,
8364
+ "grad_norm": 1.6829357147216797,
8365
+ "learning_rate": 4.0858215320693674e-06,
8366
+ "loss": 0.6939,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 0.2016622368476564,
8371
+ "grad_norm": 1.6496363878250122,
8372
+ "learning_rate": 4.040414820616007e-06,
8373
+ "loss": 0.7792,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.20183099185757078,
8378
+ "grad_norm": 1.9069215059280396,
8379
+ "learning_rate": 3.995251203171418e-06,
8380
+ "loss": 0.8317,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.20199974686748512,
8385
+ "grad_norm": 1.902542233467102,
8386
+ "learning_rate": 3.950330918619488e-06,
8387
+ "loss": 0.7696,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 0.2021685018773995,
8392
+ "grad_norm": 1.7510250806808472,
8393
+ "learning_rate": 3.905654204557069e-06,
8394
+ "loss": 0.6077,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 0.20233725688731385,
8399
+ "grad_norm": 2.122150182723999,
8400
+ "learning_rate": 3.861221297292655e-06,
8401
+ "loss": 0.7429,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 0.2025060118972282,
8406
+ "grad_norm": 3.036611795425415,
8407
+ "learning_rate": 3.817032431845224e-06,
8408
+ "loss": 1.1305,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.20267476690714256,
8413
+ "grad_norm": 0.46971753239631653,
8414
+ "learning_rate": 3.773087841942907e-06,
8415
+ "loss": 0.5726,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.2028435219170569,
8420
+ "grad_norm": 0.5580636262893677,
8421
+ "learning_rate": 3.729387760021785e-06,
8422
+ "loss": 0.6074,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.20301227692697127,
8427
+ "grad_norm": 0.6104133725166321,
8428
+ "learning_rate": 3.6859324172247025e-06,
8429
+ "loss": 0.5953,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.20318103193688564,
8434
+ "grad_norm": 0.6379888653755188,
8435
+ "learning_rate": 3.642722043399971e-06,
8436
+ "loss": 0.6084,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.20334978694679998,
8441
+ "grad_norm": 0.6631214618682861,
8442
+ "learning_rate": 3.5997568671001847e-06,
8443
+ "loss": 0.5401,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.20351854195671434,
8448
+ "grad_norm": 0.7642641067504883,
8449
+ "learning_rate": 3.557037115581041e-06,
8450
+ "loss": 0.6306,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.20368729696662868,
8455
+ "grad_norm": 0.7262935042381287,
8456
+ "learning_rate": 3.5145630148000985e-06,
8457
+ "loss": 0.5239,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.20385605197654305,
8462
+ "grad_norm": 0.7599579691886902,
8463
+ "learning_rate": 3.472334789415588e-06,
8464
+ "loss": 0.5652,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.20402480698645742,
8469
+ "grad_norm": 0.7735958695411682,
8470
+ "learning_rate": 3.430352662785247e-06,
8471
+ "loss": 0.5854,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.20419356199637176,
8476
+ "grad_norm": 0.7749413251876831,
8477
+ "learning_rate": 3.388616856965099e-06,
8478
+ "loss": 0.631,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.20436231700628613,
8483
+ "grad_norm": 0.830774188041687,
8484
+ "learning_rate": 3.3471275927083434e-06,
8485
+ "loss": 0.5967,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.2045310720162005,
8490
+ "grad_norm": 0.8539721369743347,
8491
+ "learning_rate": 3.3058850894641114e-06,
8492
+ "loss": 0.5401,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.20469982702611483,
8497
+ "grad_norm": 0.8092423677444458,
8498
+ "learning_rate": 3.264889565376339e-06,
8499
+ "loss": 0.5026,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.2048685820360292,
8504
+ "grad_norm": 0.9337773323059082,
8505
+ "learning_rate": 3.2241412372826517e-06,
8506
+ "loss": 0.6087,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.20503733704594354,
8511
+ "grad_norm": 0.9452828168869019,
8512
+ "learning_rate": 3.1836403207131383e-06,
8513
+ "loss": 0.5723,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.2052060920558579,
8518
+ "grad_norm": 0.9098586440086365,
8519
+ "learning_rate": 3.1433870298892996e-06,
8520
+ "loss": 0.5383,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.20537484706577228,
8525
+ "grad_norm": 0.9220548272132874,
8526
+ "learning_rate": 3.1033815777228136e-06,
8527
+ "loss": 0.5559,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.20554360207568662,
8532
+ "grad_norm": 0.9416666030883789,
8533
+ "learning_rate": 3.063624175814528e-06,
8534
+ "loss": 0.5704,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.20571235708560098,
8539
+ "grad_norm": 0.9549572467803955,
8540
+ "learning_rate": 3.0241150344532233e-06,
8541
+ "loss": 0.5763,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.20588111209551532,
8546
+ "grad_norm": 0.9730275273323059,
8547
+ "learning_rate": 2.9848543626145976e-06,
8548
+ "loss": 0.555,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.2060498671054297,
8553
+ "grad_norm": 0.992160439491272,
8554
+ "learning_rate": 2.9458423679600833e-06,
8555
+ "loss": 0.5707,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.20621862211534406,
8560
+ "grad_norm": 0.9168452620506287,
8561
+ "learning_rate": 2.907079256835815e-06,
8562
+ "loss": 0.4435,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.2063873771252584,
8567
+ "grad_norm": 1.0583746433258057,
8568
+ "learning_rate": 2.868565234271486e-06,
8569
+ "loss": 0.5124,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.20655613213517277,
8574
+ "grad_norm": 1.0423890352249146,
8575
+ "learning_rate": 2.8303005039793108e-06,
8576
+ "loss": 0.5583,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.20672488714508713,
8581
+ "grad_norm": 1.1211144924163818,
8582
+ "learning_rate": 2.79228526835289e-06,
8583
+ "loss": 0.5367,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.20689364215500147,
8588
+ "grad_norm": 1.0966883897781372,
8589
+ "learning_rate": 2.7545197284661926e-06,
8590
+ "loss": 0.5624,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.20706239716491584,
8595
+ "grad_norm": 1.232539415359497,
8596
+ "learning_rate": 2.717004084072472e-06,
8597
+ "loss": 0.6477,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.20723115217483018,
8602
+ "grad_norm": 1.1842130422592163,
8603
+ "learning_rate": 2.6797385336031987e-06,
8604
+ "loss": 0.5834,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.20739990718474455,
8609
+ "grad_norm": 1.1409043073654175,
8610
+ "learning_rate": 2.6427232741670362e-06,
8611
+ "loss": 0.5485,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.20756866219465891,
8616
+ "grad_norm": 1.2359825372695923,
8617
+ "learning_rate": 2.605958501548772e-06,
8618
+ "loss": 0.5593,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.20773741720457325,
8623
+ "grad_norm": 1.173651099205017,
8624
+ "learning_rate": 2.5694444102082937e-06,
8625
+ "loss": 0.6044,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.20790617221448762,
8630
+ "grad_norm": 1.1993813514709473,
8631
+ "learning_rate": 2.533181193279577e-06,
8632
+ "loss": 0.5074,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.20807492722440196,
8637
+ "grad_norm": 1.0826400518417358,
8638
+ "learning_rate": 2.4971690425696302e-06,
8639
+ "loss": 0.4711,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.20824368223431633,
8644
+ "grad_norm": 1.3286949396133423,
8645
+ "learning_rate": 2.4614081485574923e-06,
8646
+ "loss": 0.6885,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.2084124372442307,
8651
+ "grad_norm": 1.2414344549179077,
8652
+ "learning_rate": 2.425898700393253e-06,
8653
+ "loss": 0.6246,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.20858119225414504,
8658
+ "grad_norm": 1.2540428638458252,
8659
+ "learning_rate": 2.3906408858970164e-06,
8660
+ "loss": 0.682,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.2087499472640594,
8665
+ "grad_norm": 1.4568560123443604,
8666
+ "learning_rate": 2.3556348915579063e-06,
8667
+ "loss": 0.6347,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.20891870227397377,
8672
+ "grad_norm": 1.3099277019500732,
8673
+ "learning_rate": 2.320880902533129e-06,
8674
+ "loss": 0.6438,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.2090874572838881,
8679
+ "grad_norm": 1.4133312702178955,
8680
+ "learning_rate": 2.286379102646924e-06,
8681
+ "loss": 0.6298,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.20925621229380248,
8686
+ "grad_norm": 1.3855383396148682,
8687
+ "learning_rate": 2.252129674389658e-06,
8688
+ "loss": 0.5608,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.20942496730371682,
8693
+ "grad_norm": 1.6507779359817505,
8694
+ "learning_rate": 2.2181327989168e-06,
8695
+ "loss": 0.7996,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.2095937223136312,
8700
+ "grad_norm": 1.5349948406219482,
8701
+ "learning_rate": 2.184388656048003e-06,
8702
+ "loss": 0.6817,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.20976247732354555,
8707
+ "grad_norm": 1.7056605815887451,
8708
+ "learning_rate": 2.1508974242661627e-06,
8709
+ "loss": 0.8419,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.2099312323334599,
8714
+ "grad_norm": 1.7766491174697876,
8715
+ "learning_rate": 2.117659280716422e-06,
8716
+ "loss": 0.8449,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.21009998734337426,
8721
+ "grad_norm": 1.524853229522705,
8722
+ "learning_rate": 2.084674401205261e-06,
8723
+ "loss": 0.6829,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.2102687423532886,
8728
+ "grad_norm": 1.7471916675567627,
8729
+ "learning_rate": 2.05194296019961e-06,
8730
+ "loss": 0.8148,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.21043749736320297,
8735
+ "grad_norm": 1.6696993112564087,
8736
+ "learning_rate": 2.019465130825837e-06,
8737
+ "loss": 0.6402,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.21060625237311734,
8742
+ "grad_norm": 1.6932615041732788,
8743
+ "learning_rate": 1.9872410848689293e-06,
8744
+ "loss": 0.7545,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.21077500738303168,
8749
+ "grad_norm": 1.9034663438796997,
8750
+ "learning_rate": 1.955270992771507e-06,
8751
+ "loss": 0.6396,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.21094376239294604,
8756
+ "grad_norm": 2.3862850666046143,
8757
+ "learning_rate": 1.9235550236329556e-06,
8758
+ "loss": 0.9427,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.2111125174028604,
8763
+ "grad_norm": 0.5152022242546082,
8764
+ "learning_rate": 1.8920933452085399e-06,
8765
+ "loss": 0.5653,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.21128127241277475,
8770
+ "grad_norm": 0.5416737198829651,
8771
+ "learning_rate": 1.8608861239084951e-06,
8772
+ "loss": 0.5184,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.21145002742268912,
8777
+ "grad_norm": 0.5705904960632324,
8778
+ "learning_rate": 1.8299335247971562e-06,
8779
+ "loss": 0.5535,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.21161878243260346,
8784
+ "grad_norm": 0.6200594305992126,
8785
+ "learning_rate": 1.799235711592101e-06,
8786
+ "loss": 0.4932,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.21178753744251783,
8791
+ "grad_norm": 0.6781433820724487,
8792
+ "learning_rate": 1.768792846663242e-06,
8793
+ "loss": 0.5442,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.2119562924524322,
8798
+ "grad_norm": 0.6853250861167908,
8799
+ "learning_rate": 1.7386050910320194e-06,
8800
+ "loss": 0.544,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.21212504746234653,
8805
+ "grad_norm": 0.7194390892982483,
8806
+ "learning_rate": 1.7086726043705093e-06,
8807
+ "loss": 0.6269,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.2122938024722609,
8812
+ "grad_norm": 0.7299390435218811,
8813
+ "learning_rate": 1.6789955450005946e-06,
8814
+ "loss": 0.4949,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.21246255748217524,
8819
+ "grad_norm": 0.7063441872596741,
8820
+ "learning_rate": 1.6495740698931284e-06,
8821
+ "loss": 0.4427,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.2126313124920896,
8826
+ "grad_norm": 0.803770124912262,
8827
+ "learning_rate": 1.6204083346671061e-06,
8828
+ "loss": 0.5222,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.21280006750200398,
8833
+ "grad_norm": 0.8003373742103577,
8834
+ "learning_rate": 1.5914984935888277e-06,
8835
+ "loss": 0.5384,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.21296882251191832,
8840
+ "grad_norm": 0.8615963459014893,
8841
+ "learning_rate": 1.5628446995711144e-06,
8842
+ "loss": 0.5575,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.21313757752183268,
8847
+ "grad_norm": 1.0034806728363037,
8848
+ "learning_rate": 1.5344471041724483e-06,
8849
+ "loss": 0.594,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.21330633253174702,
8854
+ "grad_norm": 0.7860152721405029,
8855
+ "learning_rate": 1.5063058575962185e-06,
8856
+ "loss": 0.4435,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.2134750875416614,
8861
+ "grad_norm": 0.8901642560958862,
8862
+ "learning_rate": 1.4784211086899147e-06,
8863
+ "loss": 0.5453,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.21364384255157576,
8868
+ "grad_norm": 0.9191757440567017,
8869
+ "learning_rate": 1.450793004944312e-06,
8870
+ "loss": 0.6428,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.2138125975614901,
8875
+ "grad_norm": 1.0055803060531616,
8876
+ "learning_rate": 1.423421692492738e-06,
8877
+ "loss": 0.5978,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.21398135257140447,
8882
+ "grad_norm": 0.9184823036193848,
8883
+ "learning_rate": 1.3963073161102457e-06,
8884
+ "loss": 0.5046,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.21415010758131883,
8889
+ "grad_norm": 0.9808287024497986,
8890
+ "learning_rate": 1.3694500192128977e-06,
8891
+ "loss": 0.6761,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.21431886259123317,
8896
+ "grad_norm": 0.9972100257873535,
8897
+ "learning_rate": 1.3428499438569886e-06,
8898
+ "loss": 0.6078,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.21448761760114754,
8903
+ "grad_norm": 0.9385042190551758,
8904
+ "learning_rate": 1.316507230738262e-06,
8905
+ "loss": 0.5393,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.21465637261106188,
8910
+ "grad_norm": 0.9871394038200378,
8911
+ "learning_rate": 1.2904220191912398e-06,
8912
+ "loss": 0.6001,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.21482512762097625,
8917
+ "grad_norm": 0.9962787628173828,
8918
+ "learning_rate": 1.2645944471883996e-06,
8919
+ "loss": 0.5253,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.21499388263089061,
8924
+ "grad_norm": 1.0044738054275513,
8925
+ "learning_rate": 1.23902465133951e-06,
8926
+ "loss": 0.5064,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.21516263764080495,
8931
+ "grad_norm": 1.224851369857788,
8932
+ "learning_rate": 1.213712766890873e-06,
8933
+ "loss": 0.6911,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.21533139265071932,
8938
+ "grad_norm": 1.0862836837768555,
8939
+ "learning_rate": 1.188658927724634e-06,
8940
+ "loss": 0.6702,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.21550014766063366,
8945
+ "grad_norm": 1.0600032806396484,
8946
+ "learning_rate": 1.1638632663580452e-06,
8947
+ "loss": 0.5098,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.21566890267054803,
8952
+ "grad_norm": 1.1393179893493652,
8953
+ "learning_rate": 1.1393259139427904e-06,
8954
+ "loss": 0.5113,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.2158376576804624,
8959
+ "grad_norm": 1.2485078573226929,
8960
+ "learning_rate": 1.1150470002642687e-06,
8961
+ "loss": 0.5597,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.21600641269037674,
8966
+ "grad_norm": 1.165150761604309,
8967
+ "learning_rate": 1.0910266537409285e-06,
8968
+ "loss": 0.572,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.2161751677002911,
8973
+ "grad_norm": 1.0968618392944336,
8974
+ "learning_rate": 1.067265001423573e-06,
8975
+ "loss": 0.5741,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.21634392271020547,
8980
+ "grad_norm": 1.0635594129562378,
8981
+ "learning_rate": 1.0437621689946941e-06,
8982
+ "loss": 0.4003,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.2165126777201198,
8987
+ "grad_norm": 1.2414653301239014,
8988
+ "learning_rate": 1.0205182807678183e-06,
8989
+ "loss": 0.6257,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.21668143273003418,
8994
+ "grad_norm": 1.1371922492980957,
8995
+ "learning_rate": 9.975334596868225e-07,
8996
+ "loss": 0.4359,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.21685018773994852,
9001
+ "grad_norm": 1.3592020273208618,
9002
+ "learning_rate": 9.748078273253137e-07,
9003
+ "loss": 0.6194,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.2170189427498629,
9008
+ "grad_norm": 1.3216999769210815,
9009
+ "learning_rate": 9.523415038859618e-07,
9010
+ "loss": 0.6652,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.21718769775977725,
9015
+ "grad_norm": 1.2840315103530884,
9016
+ "learning_rate": 9.301346081998841e-07,
9017
+ "loss": 0.558,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.2173564527696916,
9022
+ "grad_norm": 1.1984096765518188,
9023
+ "learning_rate": 9.081872577260064e-07,
9024
+ "loss": 0.481,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.21752520777960596,
9029
+ "grad_norm": 1.289543628692627,
9030
+ "learning_rate": 8.864995685504251e-07,
9031
+ "loss": 0.5848,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.2176939627895203,
9036
+ "grad_norm": 1.4564785957336426,
9037
+ "learning_rate": 8.650716553858296e-07,
9038
+ "loss": 0.785,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.21786271779943467,
9043
+ "grad_norm": 1.3245304822921753,
9044
+ "learning_rate": 8.439036315708693e-07,
9045
+ "loss": 0.5533,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.21803147280934904,
9050
+ "grad_norm": 1.427384853363037,
9051
+ "learning_rate": 8.229956090695656e-07,
9052
+ "loss": 0.6575,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.21820022781926338,
9057
+ "grad_norm": 1.597827672958374,
9058
+ "learning_rate": 8.023476984706957e-07,
9059
+ "loss": 0.7157,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.21836898282917774,
9064
+ "grad_norm": 1.5298324823379517,
9065
+ "learning_rate": 7.819600089872592e-07,
9066
+ "loss": 0.5826,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.2185377378390921,
9071
+ "grad_norm": 1.614680290222168,
9072
+ "learning_rate": 7.618326484558402e-07,
9073
+ "loss": 0.6945,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.21870649284900645,
9078
+ "grad_norm": 1.6210813522338867,
9079
+ "learning_rate": 7.419657233360799e-07,
9080
+ "loss": 0.6229,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.21887524785892082,
9085
+ "grad_norm": 1.5343276262283325,
9086
+ "learning_rate": 7.22359338710088e-07,
9087
+ "loss": 0.6332,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.21904400286883516,
9092
+ "grad_norm": 1.890868067741394,
9093
+ "learning_rate": 7.030135982819097e-07,
9094
+ "loss": 0.7546,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.21921275787874953,
9099
+ "grad_norm": 1.822385311126709,
9100
+ "learning_rate": 6.839286043769655e-07,
9101
+ "loss": 0.6091,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.2193815128886639,
9106
+ "grad_norm": 2.7738308906555176,
9107
+ "learning_rate": 6.651044579414956e-07,
9108
+ "loss": 1.0128,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.21955026789857823,
9113
+ "grad_norm": 0.4590780735015869,
9114
+ "learning_rate": 6.465412585420438e-07,
9115
+ "loss": 0.5627,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.2197190229084926,
9120
+ "grad_norm": 0.5761750340461731,
9121
+ "learning_rate": 6.282391043649415e-07,
9122
+ "loss": 0.5758,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.21988777791840694,
9127
+ "grad_norm": 0.5773003697395325,
9128
+ "learning_rate": 6.101980922157524e-07,
9129
+ "loss": 0.606,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.2200565329283213,
9134
+ "grad_norm": 0.6117558479309082,
9135
+ "learning_rate": 5.924183175187948e-07,
9136
+ "loss": 0.4897,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.22022528793823568,
9141
+ "grad_norm": 0.6885523796081543,
9142
+ "learning_rate": 5.748998743166256e-07,
9143
+ "loss": 0.5727,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.22039404294815002,
9148
+ "grad_norm": 0.7196971774101257,
9149
+ "learning_rate": 5.576428552695301e-07,
9150
+ "loss": 0.5318,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.22056279795806438,
9155
+ "grad_norm": 0.687440812587738,
9156
+ "learning_rate": 5.406473516550603e-07,
9157
+ "loss": 0.5473,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.22073155296797875,
9162
+ "grad_norm": 0.7595966458320618,
9163
+ "learning_rate": 5.239134533675083e-07,
9164
+ "loss": 0.6343,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.2209003079778931,
9169
+ "grad_norm": 0.7847376465797424,
9170
+ "learning_rate": 5.074412489174896e-07,
9171
+ "loss": 0.4844,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.22106906298780746,
9176
+ "grad_norm": 0.7519535422325134,
9177
+ "learning_rate": 4.912308254314158e-07,
9178
+ "loss": 0.4785,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.2212378179977218,
9183
+ "grad_norm": 0.8657416701316833,
9184
+ "learning_rate": 4.7528226865107275e-07,
9185
+ "loss": 0.514,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.22140657300763616,
9190
+ "grad_norm": 0.7888314127922058,
9191
+ "learning_rate": 4.5959566293315995e-07,
9192
+ "loss": 0.4713,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.22157532801755053,
9197
+ "grad_norm": 0.8790714144706726,
9198
+ "learning_rate": 4.4417109124882395e-07,
9199
+ "loss": 0.5936,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.22174408302746487,
9204
+ "grad_norm": 0.8749496340751648,
9205
+ "learning_rate": 4.290086351832423e-07,
9206
+ "loss": 0.5844,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.22191283803737924,
9211
+ "grad_norm": 0.9149898290634155,
9212
+ "learning_rate": 4.141083749351959e-07,
9213
+ "loss": 0.5873,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.22208159304729358,
9218
+ "grad_norm": 0.9576611518859863,
9219
+ "learning_rate": 3.9947038931661964e-07,
9220
+ "loss": 0.5523,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 0.22225034805720795,
9225
+ "grad_norm": 1.0207158327102661,
9226
+ "learning_rate": 3.850947557521911e-07,
9227
+ "loss": 0.5631,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 0.22241910306712231,
9232
+ "grad_norm": 1.0233733654022217,
9233
+ "learning_rate": 3.7098155027895375e-07,
9234
+ "loss": 0.6176,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 0.22258785807703665,
9239
+ "grad_norm": 0.9032954573631287,
9240
+ "learning_rate": 3.571308475458723e-07,
9241
+ "loss": 0.4697,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 0.22275661308695102,
9246
+ "grad_norm": 1.0094698667526245,
9247
+ "learning_rate": 3.435427208134667e-07,
9248
+ "loss": 0.6105,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 0.2229253680968654,
9253
+ "grad_norm": 0.967095136642456,
9254
+ "learning_rate": 3.3021724195340107e-07,
9255
+ "loss": 0.4839,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 0.22309412310677973,
9260
+ "grad_norm": 0.9922171831130981,
9261
+ "learning_rate": 3.171544814481231e-07,
9262
+ "loss": 0.4597,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 0.2232628781166941,
9267
+ "grad_norm": 1.0829986333847046,
9268
+ "learning_rate": 3.0435450839049197e-07,
9269
+ "loss": 0.5619,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 0.22343163312660844,
9274
+ "grad_norm": 1.030965805053711,
9275
+ "learning_rate": 2.9181739048340095e-07,
9276
+ "loss": 0.579,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 0.2236003881365228,
9281
+ "grad_norm": 0.9884082078933716,
9282
+ "learning_rate": 2.7954319403940553e-07,
9283
+ "loss": 0.4673,
9284
+ "step": 1325
9285
+ },
9286
+ {
9287
+ "epoch": 0.22376914314643717,
9288
+ "grad_norm": 1.1055041551589966,
9289
+ "learning_rate": 2.67531983980418e-07,
9290
+ "loss": 0.5504,
9291
+ "step": 1326
9292
+ },
9293
+ {
9294
+ "epoch": 0.2239378981563515,
9295
+ "grad_norm": 1.2018651962280273,
9296
+ "learning_rate": 2.5578382383732444e-07,
9297
+ "loss": 0.5453,
9298
+ "step": 1327
9299
+ },
9300
+ {
9301
+ "epoch": 0.22410665316626588,
9302
+ "grad_norm": 1.1222630739212036,
9303
+ "learning_rate": 2.4429877574965734e-07,
9304
+ "loss": 0.6074,
9305
+ "step": 1328
9306
+ },
9307
+ {
9308
+ "epoch": 0.22427540817618022,
9309
+ "grad_norm": 0.9751061797142029,
9310
+ "learning_rate": 2.3307690046527885e-07,
9311
+ "loss": 0.4812,
9312
+ "step": 1329
9313
+ },
9314
+ {
9315
+ "epoch": 0.2244441631860946,
9316
+ "grad_norm": 1.1505897045135498,
9317
+ "learning_rate": 2.2211825734004266e-07,
9318
+ "loss": 0.6279,
9319
+ "step": 1330
9320
+ },
9321
+ {
9322
+ "epoch": 0.22461291819600895,
9323
+ "grad_norm": 1.1970534324645996,
9324
+ "learning_rate": 2.1142290433750488e-07,
9325
+ "loss": 0.6253,
9326
+ "step": 1331
9327
+ },
9328
+ {
9329
+ "epoch": 0.2247816732059233,
9330
+ "grad_norm": 1.2056388854980469,
9331
+ "learning_rate": 2.0099089802858017e-07,
9332
+ "loss": 0.567,
9333
+ "step": 1332
9334
+ },
9335
+ {
9336
+ "epoch": 0.22495042821583766,
9337
+ "grad_norm": 1.0611746311187744,
9338
+ "learning_rate": 1.9082229359127512e-07,
9339
+ "loss": 0.523,
9340
+ "step": 1333
9341
+ },
9342
+ {
9343
+ "epoch": 0.225119183225752,
9344
+ "grad_norm": 1.3161405324935913,
9345
+ "learning_rate": 1.8091714481038858e-07,
9346
+ "loss": 0.6177,
9347
+ "step": 1334
9348
+ },
9349
+ {
9350
+ "epoch": 0.22528793823566637,
9351
+ "grad_norm": 1.363237977027893,
9352
+ "learning_rate": 1.7127550407721182e-07,
9353
+ "loss": 0.6685,
9354
+ "step": 1335
9355
+ },
9356
+ {
9357
+ "epoch": 0.22545669324558074,
9358
+ "grad_norm": 1.3239537477493286,
9359
+ "learning_rate": 1.618974223892733e-07,
9360
+ "loss": 0.6109,
9361
+ "step": 1336
9362
+ },
9363
+ {
9364
+ "epoch": 0.22562544825549508,
9365
+ "grad_norm": 1.0830307006835938,
9366
+ "learning_rate": 1.5278294935006098e-07,
9367
+ "loss": 0.4791,
9368
+ "step": 1337
9369
+ },
9370
+ {
9371
+ "epoch": 0.22579420326540944,
9372
+ "grad_norm": 1.2744098901748657,
9373
+ "learning_rate": 1.4393213316873931e-07,
9374
+ "loss": 0.6279,
9375
+ "step": 1338
9376
+ },
9377
+ {
9378
+ "epoch": 0.2259629582753238,
9379
+ "grad_norm": 1.4248663187026978,
9380
+ "learning_rate": 1.3534502065993826e-07,
9381
+ "loss": 0.6801,
9382
+ "step": 1339
9383
+ },
9384
+ {
9385
+ "epoch": 0.22613171328523815,
9386
+ "grad_norm": 1.3996230363845825,
9387
+ "learning_rate": 1.270216572434646e-07,
9388
+ "loss": 0.5948,
9389
+ "step": 1340
9390
+ },
9391
+ {
9392
+ "epoch": 0.22630046829515252,
9393
+ "grad_norm": 1.4179376363754272,
9394
+ "learning_rate": 1.1896208694406885e-07,
9395
+ "loss": 0.6589,
9396
+ "step": 1341
9397
+ },
9398
+ {
9399
+ "epoch": 0.22646922330506686,
9400
+ "grad_norm": 1.4643542766571045,
9401
+ "learning_rate": 1.111663523912454e-07,
9402
+ "loss": 0.6187,
9403
+ "step": 1342
9404
+ },
9405
+ {
9406
+ "epoch": 0.22663797831498123,
9407
+ "grad_norm": 1.5181905031204224,
9408
+ "learning_rate": 1.0363449481896603e-07,
9409
+ "loss": 0.6958,
9410
+ "step": 1343
9411
+ },
9412
+ {
9413
+ "epoch": 0.2268067333248956,
9414
+ "grad_norm": 1.714362382888794,
9415
+ "learning_rate": 9.636655406546902e-08,
9416
+ "loss": 0.745,
9417
+ "step": 1344
9418
+ },
9419
+ {
9420
+ "epoch": 0.22697548833480993,
9421
+ "grad_norm": 1.5242582559585571,
9422
+ "learning_rate": 8.9362568573087e-08,
9423
+ "loss": 0.7357,
9424
+ "step": 1345
9425
+ },
9426
+ {
9427
+ "epoch": 0.2271442433447243,
9428
+ "grad_norm": 1.657204270362854,
9429
+ "learning_rate": 8.262257538798612e-08,
9430
+ "loss": 0.632,
9431
+ "step": 1346
9432
+ },
9433
+ {
9434
+ "epoch": 0.22731299835463864,
9435
+ "grad_norm": 1.9706053733825684,
9436
+ "learning_rate": 7.614661016001057e-08,
9437
+ "loss": 0.8604,
9438
+ "step": 1347
9439
+ },
9440
+ {
9441
+ "epoch": 0.227481753364553,
9442
+ "grad_norm": 1.9471381902694702,
9443
+ "learning_rate": 6.993470714248274e-08,
9444
+ "loss": 0.7653,
9445
+ "step": 1348
9446
+ },
9447
+ {
9448
+ "epoch": 0.22765050837446738,
9449
+ "grad_norm": 1.659595012664795,
9450
+ "learning_rate": 6.39868991920145e-08,
9451
+ "loss": 0.5757,
9452
+ "step": 1349
9453
+ },
9454
+ {
9455
+ "epoch": 0.22781926338438171,
9456
+ "grad_norm": 2.402801513671875,
9457
+ "learning_rate": 5.830321776834069e-08,
9458
+ "loss": 0.8009,
9459
+ "step": 1350
9460
+ },
9461
+ {
9462
+ "epoch": 0.22798801839429608,
9463
+ "grad_norm": 0.47180652618408203,
9464
+ "learning_rate": 5.288369293415807e-08,
9465
+ "loss": 0.5805,
9466
+ "step": 1351
9467
+ },
9468
+ {
9469
+ "epoch": 0.22815677340421045,
9470
+ "grad_norm": 0.5464998483657837,
9471
+ "learning_rate": 4.7728353354958843e-08,
9472
+ "loss": 0.5027,
9473
+ "step": 1352
9474
+ },
9475
+ {
9476
+ "epoch": 0.2283255284141248,
9477
+ "grad_norm": 0.6459171772003174,
9478
+ "learning_rate": 4.283722629887521e-08,
9479
+ "loss": 0.6744,
9480
+ "step": 1353
9481
+ },
9482
+ {
9483
+ "epoch": 0.22849428342403916,
9484
+ "grad_norm": 0.6989730596542358,
9485
+ "learning_rate": 3.821033763654058e-08,
9486
+ "loss": 0.6458,
9487
+ "step": 1354
9488
+ },
9489
+ {
9490
+ "epoch": 0.2286630384339535,
9491
+ "grad_norm": 0.6470995545387268,
9492
+ "learning_rate": 3.384771184095081e-08,
9493
+ "loss": 0.5209,
9494
+ "step": 1355
9495
+ },
9496
+ {
9497
+ "epoch": 0.22883179344386786,
9498
+ "grad_norm": 0.7597262859344482,
9499
+ "learning_rate": 2.974937198735317e-08,
9500
+ "loss": 0.5776,
9501
+ "step": 1356
9502
+ },
9503
+ {
9504
+ "epoch": 0.22900054845378223,
9505
+ "grad_norm": 0.716862142086029,
9506
+ "learning_rate": 2.5915339753085356e-08,
9507
+ "loss": 0.5438,
9508
+ "step": 1357
9509
+ },
9510
+ {
9511
+ "epoch": 0.22916930346369657,
9512
+ "grad_norm": 0.6981287598609924,
9513
+ "learning_rate": 2.234563541749224e-08,
9514
+ "loss": 0.5289,
9515
+ "step": 1358
9516
+ },
9517
+ {
9518
+ "epoch": 0.22933805847361094,
9519
+ "grad_norm": 0.7905397415161133,
9520
+ "learning_rate": 1.9040277861814836e-08,
9521
+ "loss": 0.5844,
9522
+ "step": 1359
9523
+ },
9524
+ {
9525
+ "epoch": 0.22950681348352528,
9526
+ "grad_norm": 0.7727534174919128,
9527
+ "learning_rate": 1.5999284569068184e-08,
9528
+ "loss": 0.5605,
9529
+ "step": 1360
9530
+ },
9531
+ {
9532
+ "epoch": 0.22967556849343965,
9533
+ "grad_norm": 0.7689732313156128,
9534
+ "learning_rate": 1.3222671623991378e-08,
9535
+ "loss": 0.5119,
9536
+ "step": 1361
9537
+ },
9538
+ {
9539
+ "epoch": 0.22984432350335401,
9540
+ "grad_norm": 0.7805505394935608,
9541
+ "learning_rate": 1.0710453712903245e-08,
9542
+ "loss": 0.4539,
9543
+ "step": 1362
9544
+ },
9545
+ {
9546
+ "epoch": 0.23001307851326835,
9547
+ "grad_norm": 0.7606160640716553,
9548
+ "learning_rate": 8.462644123696794e-09,
9549
+ "loss": 0.4911,
9550
+ "step": 1363
9551
+ },
9552
+ {
9553
+ "epoch": 0.23018183352318272,
9554
+ "grad_norm": 0.8344932794570923,
9555
+ "learning_rate": 6.4792547456948845e-09,
9556
+ "loss": 0.5379,
9557
+ "step": 1364
9558
+ },
9559
+ {
9560
+ "epoch": 0.2303505885330971,
9561
+ "grad_norm": 0.8788904547691345,
9562
+ "learning_rate": 4.760296069639125e-09,
9563
+ "loss": 0.5596,
9564
+ "step": 1365
9565
+ },
9566
+ {
9567
+ "epoch": 0.23051934354301143,
9568
+ "grad_norm": 0.9263433814048767,
9569
+ "learning_rate": 3.30577718762326e-09,
9570
+ "loss": 0.5956,
9571
+ "step": 1366
9572
+ },
9573
+ {
9574
+ "epoch": 0.2306880985529258,
9575
+ "grad_norm": 0.8482834696769714,
9576
+ "learning_rate": 2.115705793032108e-09,
9577
+ "loss": 0.4577,
9578
+ "step": 1367
9579
+ },
9580
+ {
9581
+ "epoch": 0.23085685356284014,
9582
+ "grad_norm": 0.8887785077095032,
9583
+ "learning_rate": 1.1900881805082532e-09,
9584
+ "loss": 0.4727,
9585
+ "step": 1368
9586
+ },
9587
+ {
9588
+ "epoch": 0.2310256085727545,
9589
+ "grad_norm": 0.9328110218048096,
9590
+ "learning_rate": 5.289292459187411e-10,
9591
+ "loss": 0.5215,
9592
+ "step": 1369
9593
+ },
9594
+ {
9595
+ "epoch": 0.23119436358266887,
9596
+ "grad_norm": 0.9682706594467163,
9597
+ "learning_rate": 1.3223248633287277e-10,
9598
+ "loss": 0.5327,
9599
+ "step": 1370
9600
+ },
9601
+ {
9602
+ "epoch": 0.2313631185925832,
9603
+ "grad_norm": 0.8991033434867859,
9604
+ "learning_rate": 0.0,
9605
+ "loss": 0.5499,
9606
+ "step": 1371
9607
  }
9608
  ],
9609
  "logging_steps": 1,
 
9618
  "should_evaluate": false,
9619
  "should_log": false,
9620
  "should_save": true,
9621
+ "should_training_stop": true
9622
  },
9623
  "attributes": {}
9624
  }
9625
  },
9626
+ "total_flos": 1.8906786208048742e+18,
9627
  "train_batch_size": 4,
9628
  "trial_name": null,
9629
  "trial_params": null