Ba2han commited on
Commit
0241cdc
·
verified ·
1 Parent(s): 333992f

Upload phase3 checkpoint-1476

Browse files
config.json CHANGED
@@ -24,7 +24,7 @@
24
  "rope_scaling": null,
25
  "rope_theta": 100000.0,
26
  "tie_word_embeddings": true,
27
- "transformers_version": "4.57.3",
28
  "unsloth_version": "2025.12.9",
29
  "use_cache": true,
30
  "vocab_size": 65537
 
24
  "rope_scaling": null,
25
  "rope_theta": 100000.0,
26
  "tie_word_embeddings": true,
27
+ "transformers_version": "4.57.1",
28
  "unsloth_version": "2025.12.9",
29
  "use_cache": true,
30
  "vocab_size": 65537
generation_config.json CHANGED
@@ -6,5 +6,5 @@
6
  ],
7
  "max_length": 8192,
8
  "pad_token_id": 2,
9
- "transformers_version": "4.57.3"
10
  }
 
6
  ],
7
  "max_length": 8192,
8
  "pad_token_id": 2,
9
+ "transformers_version": "4.57.1"
10
  }
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:93c37f6a6bccdf44864689852929d0d5a708cd15374db4da2a8122680d37dc77
3
  size 1000557344
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:62c4dafbe48c0ed9989a8be4f6e867100bc6208d43171ea8cb23b572df8d41af
3
  size 1000557344
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:aeeb1936bb4bef3825111175eb2ad517b1ec4583e37dada3206f08f1af39fa66
3
  size 1101504011
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e63a549d2219446ec9d9bb6f780ff0fdd3b7af4d8a78b3edd456442d636bbe6c
3
  size 1101504011
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7c800b778fa7e115e4c34de8529902de8b61c9a1b4bab3eb8295d06dafff030e
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:181c5f0270cf39930062ddfa3767a2481d0c360f120b11f8e25dbf533a1cdaba
3
  size 14645
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6def4629e46371b64991c2e068157ad059af9e93e546e2480bb6f139d1d1c3f9
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:50181b3a62767664c85683bef87af9713c3999da919a398071a03336ecd9c555
3
  size 1465
special_tokens_map.json CHANGED
@@ -1,12 +1,6 @@
1
  {
2
  "additional_special_tokens": [
3
- {
4
- "content": "<|im_end|>",
5
- "lstrip": false,
6
- "normalized": false,
7
- "rstrip": false,
8
- "single_word": false
9
- }
10
  ],
11
  "bos_token": {
12
  "content": "<|begin_of_text|>",
 
1
  {
2
  "additional_special_tokens": [
3
+ "<|im_end|>"
 
 
 
 
 
 
4
  ],
5
  "bos_token": {
6
  "content": "<|begin_of_text|>",
trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.2406063762078343,
6
  "eval_steps": 2951,
7
- "global_step": 2599,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -18201,6 +18201,2485 @@
18201
  "learning_rate": 0.02,
18202
  "loss": 1.7003,
18203
  "step": 2599
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
18204
  }
18205
  ],
18206
  "logging_steps": 1,
@@ -18214,13 +20693,13 @@
18214
  "should_epoch_stop": false,
18215
  "should_evaluate": false,
18216
  "should_log": false,
18217
- "should_save": false,
18218
  "should_training_stop": false
18219
  },
18220
  "attributes": {}
18221
  }
18222
  },
18223
- "total_flos": 2.289043515997251e+18,
18224
  "train_batch_size": 8,
18225
  "trial_name": null,
18226
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.27328588786668984,
6
  "eval_steps": 2951,
7
+ "global_step": 2952,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
18201
  "learning_rate": 0.02,
18202
  "loss": 1.7003,
18203
  "step": 2599
18204
+ },
18205
+ {
18206
+ "epoch": 0.24069895272811434,
18207
+ "grad_norm": 0.14453125,
18208
+ "learning_rate": 0.02,
18209
+ "loss": 1.6978,
18210
+ "step": 2600
18211
+ },
18212
+ {
18213
+ "epoch": 0.24079152924839436,
18214
+ "grad_norm": 0.1474609375,
18215
+ "learning_rate": 0.02,
18216
+ "loss": 1.6217,
18217
+ "step": 2601
18218
+ },
18219
+ {
18220
+ "epoch": 0.24088410576867442,
18221
+ "grad_norm": 0.1513671875,
18222
+ "learning_rate": 0.02,
18223
+ "loss": 1.6908,
18224
+ "step": 2602
18225
+ },
18226
+ {
18227
+ "epoch": 0.24097668228895447,
18228
+ "grad_norm": 0.1611328125,
18229
+ "learning_rate": 0.02,
18230
+ "loss": 1.6978,
18231
+ "step": 2603
18232
+ },
18233
+ {
18234
+ "epoch": 0.24106925880923452,
18235
+ "grad_norm": 0.1494140625,
18236
+ "learning_rate": 0.02,
18237
+ "loss": 1.6323,
18238
+ "step": 2604
18239
+ },
18240
+ {
18241
+ "epoch": 0.24116183532951455,
18242
+ "grad_norm": 0.14453125,
18243
+ "learning_rate": 0.02,
18244
+ "loss": 1.7372,
18245
+ "step": 2605
18246
+ },
18247
+ {
18248
+ "epoch": 0.2412544118497946,
18249
+ "grad_norm": 0.1484375,
18250
+ "learning_rate": 0.02,
18251
+ "loss": 1.6353,
18252
+ "step": 2606
18253
+ },
18254
+ {
18255
+ "epoch": 0.24134698837007465,
18256
+ "grad_norm": 0.15234375,
18257
+ "learning_rate": 0.02,
18258
+ "loss": 1.6863,
18259
+ "step": 2607
18260
+ },
18261
+ {
18262
+ "epoch": 0.24143956489035467,
18263
+ "grad_norm": 0.146484375,
18264
+ "learning_rate": 0.02,
18265
+ "loss": 1.6135,
18266
+ "step": 2608
18267
+ },
18268
+ {
18269
+ "epoch": 0.24153214141063473,
18270
+ "grad_norm": 0.154296875,
18271
+ "learning_rate": 0.02,
18272
+ "loss": 1.6775,
18273
+ "step": 2609
18274
+ },
18275
+ {
18276
+ "epoch": 0.24162471793091478,
18277
+ "grad_norm": 0.14453125,
18278
+ "learning_rate": 0.02,
18279
+ "loss": 1.6705,
18280
+ "step": 2610
18281
+ },
18282
+ {
18283
+ "epoch": 0.2417172944511948,
18284
+ "grad_norm": 0.14453125,
18285
+ "learning_rate": 0.02,
18286
+ "loss": 1.6209,
18287
+ "step": 2611
18288
+ },
18289
+ {
18290
+ "epoch": 0.24180987097147486,
18291
+ "grad_norm": 0.134765625,
18292
+ "learning_rate": 0.02,
18293
+ "loss": 1.6261,
18294
+ "step": 2612
18295
+ },
18296
+ {
18297
+ "epoch": 0.2419024474917549,
18298
+ "grad_norm": 0.1376953125,
18299
+ "learning_rate": 0.02,
18300
+ "loss": 1.6419,
18301
+ "step": 2613
18302
+ },
18303
+ {
18304
+ "epoch": 0.24199502401203496,
18305
+ "grad_norm": 0.15234375,
18306
+ "learning_rate": 0.02,
18307
+ "loss": 1.6701,
18308
+ "step": 2614
18309
+ },
18310
+ {
18311
+ "epoch": 0.24208760053231498,
18312
+ "grad_norm": 0.142578125,
18313
+ "learning_rate": 0.02,
18314
+ "loss": 1.687,
18315
+ "step": 2615
18316
+ },
18317
+ {
18318
+ "epoch": 0.24218017705259504,
18319
+ "grad_norm": 0.1435546875,
18320
+ "learning_rate": 0.02,
18321
+ "loss": 1.6425,
18322
+ "step": 2616
18323
+ },
18324
+ {
18325
+ "epoch": 0.2422727535728751,
18326
+ "grad_norm": 0.1484375,
18327
+ "learning_rate": 0.02,
18328
+ "loss": 1.6786,
18329
+ "step": 2617
18330
+ },
18331
+ {
18332
+ "epoch": 0.2423653300931551,
18333
+ "grad_norm": 0.1513671875,
18334
+ "learning_rate": 0.02,
18335
+ "loss": 1.5871,
18336
+ "step": 2618
18337
+ },
18338
+ {
18339
+ "epoch": 0.24245790661343516,
18340
+ "grad_norm": 0.1455078125,
18341
+ "learning_rate": 0.02,
18342
+ "loss": 1.603,
18343
+ "step": 2619
18344
+ },
18345
+ {
18346
+ "epoch": 0.24255048313371522,
18347
+ "grad_norm": 0.15625,
18348
+ "learning_rate": 0.02,
18349
+ "loss": 1.6614,
18350
+ "step": 2620
18351
+ },
18352
+ {
18353
+ "epoch": 0.24264305965399527,
18354
+ "grad_norm": 0.1533203125,
18355
+ "learning_rate": 0.02,
18356
+ "loss": 1.6613,
18357
+ "step": 2621
18358
+ },
18359
+ {
18360
+ "epoch": 0.2427356361742753,
18361
+ "grad_norm": 0.15625,
18362
+ "learning_rate": 0.02,
18363
+ "loss": 1.6533,
18364
+ "step": 2622
18365
+ },
18366
+ {
18367
+ "epoch": 0.24282821269455535,
18368
+ "grad_norm": 0.154296875,
18369
+ "learning_rate": 0.02,
18370
+ "loss": 1.6639,
18371
+ "step": 2623
18372
+ },
18373
+ {
18374
+ "epoch": 0.2429207892148354,
18375
+ "grad_norm": 0.16015625,
18376
+ "learning_rate": 0.02,
18377
+ "loss": 1.6339,
18378
+ "step": 2624
18379
+ },
18380
+ {
18381
+ "epoch": 0.24301336573511542,
18382
+ "grad_norm": 0.154296875,
18383
+ "learning_rate": 0.02,
18384
+ "loss": 1.6194,
18385
+ "step": 2625
18386
+ },
18387
+ {
18388
+ "epoch": 0.24310594225539547,
18389
+ "grad_norm": 0.15234375,
18390
+ "learning_rate": 0.02,
18391
+ "loss": 1.6777,
18392
+ "step": 2626
18393
+ },
18394
+ {
18395
+ "epoch": 0.24319851877567553,
18396
+ "grad_norm": 0.1533203125,
18397
+ "learning_rate": 0.02,
18398
+ "loss": 1.694,
18399
+ "step": 2627
18400
+ },
18401
+ {
18402
+ "epoch": 0.24329109529595555,
18403
+ "grad_norm": 0.14453125,
18404
+ "learning_rate": 0.02,
18405
+ "loss": 1.666,
18406
+ "step": 2628
18407
+ },
18408
+ {
18409
+ "epoch": 0.2433836718162356,
18410
+ "grad_norm": 0.1494140625,
18411
+ "learning_rate": 0.02,
18412
+ "loss": 1.6598,
18413
+ "step": 2629
18414
+ },
18415
+ {
18416
+ "epoch": 0.24347624833651565,
18417
+ "grad_norm": 0.1474609375,
18418
+ "learning_rate": 0.02,
18419
+ "loss": 1.6678,
18420
+ "step": 2630
18421
+ },
18422
+ {
18423
+ "epoch": 0.2435688248567957,
18424
+ "grad_norm": 0.1513671875,
18425
+ "learning_rate": 0.02,
18426
+ "loss": 1.6775,
18427
+ "step": 2631
18428
+ },
18429
+ {
18430
+ "epoch": 0.24366140137707573,
18431
+ "grad_norm": 0.1494140625,
18432
+ "learning_rate": 0.02,
18433
+ "loss": 1.6848,
18434
+ "step": 2632
18435
+ },
18436
+ {
18437
+ "epoch": 0.24375397789735578,
18438
+ "grad_norm": 0.1494140625,
18439
+ "learning_rate": 0.02,
18440
+ "loss": 1.6924,
18441
+ "step": 2633
18442
+ },
18443
+ {
18444
+ "epoch": 0.24384655441763584,
18445
+ "grad_norm": 0.1357421875,
18446
+ "learning_rate": 0.02,
18447
+ "loss": 1.5874,
18448
+ "step": 2634
18449
+ },
18450
+ {
18451
+ "epoch": 0.24393913093791586,
18452
+ "grad_norm": 0.1416015625,
18453
+ "learning_rate": 0.02,
18454
+ "loss": 1.6152,
18455
+ "step": 2635
18456
+ },
18457
+ {
18458
+ "epoch": 0.2440317074581959,
18459
+ "grad_norm": 0.1357421875,
18460
+ "learning_rate": 0.02,
18461
+ "loss": 1.6561,
18462
+ "step": 2636
18463
+ },
18464
+ {
18465
+ "epoch": 0.24412428397847596,
18466
+ "grad_norm": 0.150390625,
18467
+ "learning_rate": 0.02,
18468
+ "loss": 1.6867,
18469
+ "step": 2637
18470
+ },
18471
+ {
18472
+ "epoch": 0.24421686049875602,
18473
+ "grad_norm": 0.16015625,
18474
+ "learning_rate": 0.02,
18475
+ "loss": 1.7139,
18476
+ "step": 2638
18477
+ },
18478
+ {
18479
+ "epoch": 0.24430943701903604,
18480
+ "grad_norm": 0.154296875,
18481
+ "learning_rate": 0.02,
18482
+ "loss": 1.6819,
18483
+ "step": 2639
18484
+ },
18485
+ {
18486
+ "epoch": 0.2444020135393161,
18487
+ "grad_norm": 0.146484375,
18488
+ "learning_rate": 0.02,
18489
+ "loss": 1.6436,
18490
+ "step": 2640
18491
+ },
18492
+ {
18493
+ "epoch": 0.24449459005959615,
18494
+ "grad_norm": 0.1513671875,
18495
+ "learning_rate": 0.02,
18496
+ "loss": 1.6243,
18497
+ "step": 2641
18498
+ },
18499
+ {
18500
+ "epoch": 0.24458716657987617,
18501
+ "grad_norm": 0.1416015625,
18502
+ "learning_rate": 0.02,
18503
+ "loss": 1.6036,
18504
+ "step": 2642
18505
+ },
18506
+ {
18507
+ "epoch": 0.24467974310015622,
18508
+ "grad_norm": 0.150390625,
18509
+ "learning_rate": 0.02,
18510
+ "loss": 1.6353,
18511
+ "step": 2643
18512
+ },
18513
+ {
18514
+ "epoch": 0.24477231962043627,
18515
+ "grad_norm": 0.1494140625,
18516
+ "learning_rate": 0.02,
18517
+ "loss": 1.5888,
18518
+ "step": 2644
18519
+ },
18520
+ {
18521
+ "epoch": 0.2448648961407163,
18522
+ "grad_norm": 0.1455078125,
18523
+ "learning_rate": 0.02,
18524
+ "loss": 1.6343,
18525
+ "step": 2645
18526
+ },
18527
+ {
18528
+ "epoch": 0.24495747266099635,
18529
+ "grad_norm": 0.1396484375,
18530
+ "learning_rate": 0.02,
18531
+ "loss": 1.6279,
18532
+ "step": 2646
18533
+ },
18534
+ {
18535
+ "epoch": 0.2450500491812764,
18536
+ "grad_norm": 0.1435546875,
18537
+ "learning_rate": 0.02,
18538
+ "loss": 1.703,
18539
+ "step": 2647
18540
+ },
18541
+ {
18542
+ "epoch": 0.24514262570155645,
18543
+ "grad_norm": 0.142578125,
18544
+ "learning_rate": 0.02,
18545
+ "loss": 1.6384,
18546
+ "step": 2648
18547
+ },
18548
+ {
18549
+ "epoch": 0.24523520222183648,
18550
+ "grad_norm": 0.1474609375,
18551
+ "learning_rate": 0.02,
18552
+ "loss": 1.6152,
18553
+ "step": 2649
18554
+ },
18555
+ {
18556
+ "epoch": 0.24532777874211653,
18557
+ "grad_norm": 0.150390625,
18558
+ "learning_rate": 0.02,
18559
+ "loss": 1.6887,
18560
+ "step": 2650
18561
+ },
18562
+ {
18563
+ "epoch": 0.24542035526239658,
18564
+ "grad_norm": 0.1494140625,
18565
+ "learning_rate": 0.02,
18566
+ "loss": 1.6758,
18567
+ "step": 2651
18568
+ },
18569
+ {
18570
+ "epoch": 0.2455129317826766,
18571
+ "grad_norm": 0.1494140625,
18572
+ "learning_rate": 0.02,
18573
+ "loss": 1.6623,
18574
+ "step": 2652
18575
+ },
18576
+ {
18577
+ "epoch": 0.24560550830295666,
18578
+ "grad_norm": 0.154296875,
18579
+ "learning_rate": 0.02,
18580
+ "loss": 1.706,
18581
+ "step": 2653
18582
+ },
18583
+ {
18584
+ "epoch": 0.2456980848232367,
18585
+ "grad_norm": 0.1669921875,
18586
+ "learning_rate": 0.02,
18587
+ "loss": 1.7213,
18588
+ "step": 2654
18589
+ },
18590
+ {
18591
+ "epoch": 0.24579066134351676,
18592
+ "grad_norm": 0.1669921875,
18593
+ "learning_rate": 0.02,
18594
+ "loss": 1.7687,
18595
+ "step": 2655
18596
+ },
18597
+ {
18598
+ "epoch": 0.2458832378637968,
18599
+ "grad_norm": 0.1611328125,
18600
+ "learning_rate": 0.02,
18601
+ "loss": 1.7282,
18602
+ "step": 2656
18603
+ },
18604
+ {
18605
+ "epoch": 0.24597581438407684,
18606
+ "grad_norm": 0.1611328125,
18607
+ "learning_rate": 0.02,
18608
+ "loss": 1.7056,
18609
+ "step": 2657
18610
+ },
18611
+ {
18612
+ "epoch": 0.2460683909043569,
18613
+ "grad_norm": 0.15234375,
18614
+ "learning_rate": 0.02,
18615
+ "loss": 1.6426,
18616
+ "step": 2658
18617
+ },
18618
+ {
18619
+ "epoch": 0.24616096742463692,
18620
+ "grad_norm": 0.1552734375,
18621
+ "learning_rate": 0.02,
18622
+ "loss": 1.6115,
18623
+ "step": 2659
18624
+ },
18625
+ {
18626
+ "epoch": 0.24625354394491697,
18627
+ "grad_norm": 0.154296875,
18628
+ "learning_rate": 0.02,
18629
+ "loss": 1.6938,
18630
+ "step": 2660
18631
+ },
18632
+ {
18633
+ "epoch": 0.24634612046519702,
18634
+ "grad_norm": 0.1591796875,
18635
+ "learning_rate": 0.02,
18636
+ "loss": 1.6401,
18637
+ "step": 2661
18638
+ },
18639
+ {
18640
+ "epoch": 0.24643869698547705,
18641
+ "grad_norm": 0.1484375,
18642
+ "learning_rate": 0.02,
18643
+ "loss": 1.6226,
18644
+ "step": 2662
18645
+ },
18646
+ {
18647
+ "epoch": 0.2465312735057571,
18648
+ "grad_norm": 0.158203125,
18649
+ "learning_rate": 0.02,
18650
+ "loss": 1.6953,
18651
+ "step": 2663
18652
+ },
18653
+ {
18654
+ "epoch": 0.24662385002603715,
18655
+ "grad_norm": 0.158203125,
18656
+ "learning_rate": 0.02,
18657
+ "loss": 1.6921,
18658
+ "step": 2664
18659
+ },
18660
+ {
18661
+ "epoch": 0.2467164265463172,
18662
+ "grad_norm": 0.1484375,
18663
+ "learning_rate": 0.02,
18664
+ "loss": 1.6004,
18665
+ "step": 2665
18666
+ },
18667
+ {
18668
+ "epoch": 0.24680900306659723,
18669
+ "grad_norm": 0.1396484375,
18670
+ "learning_rate": 0.02,
18671
+ "loss": 1.6302,
18672
+ "step": 2666
18673
+ },
18674
+ {
18675
+ "epoch": 0.24690157958687728,
18676
+ "grad_norm": 0.1435546875,
18677
+ "learning_rate": 0.02,
18678
+ "loss": 1.604,
18679
+ "step": 2667
18680
+ },
18681
+ {
18682
+ "epoch": 0.24699415610715733,
18683
+ "grad_norm": 0.1494140625,
18684
+ "learning_rate": 0.02,
18685
+ "loss": 1.5945,
18686
+ "step": 2668
18687
+ },
18688
+ {
18689
+ "epoch": 0.24708673262743736,
18690
+ "grad_norm": 0.1630859375,
18691
+ "learning_rate": 0.02,
18692
+ "loss": 1.6713,
18693
+ "step": 2669
18694
+ },
18695
+ {
18696
+ "epoch": 0.2471793091477174,
18697
+ "grad_norm": 0.158203125,
18698
+ "learning_rate": 0.02,
18699
+ "loss": 1.6453,
18700
+ "step": 2670
18701
+ },
18702
+ {
18703
+ "epoch": 0.24727188566799746,
18704
+ "grad_norm": 0.15234375,
18705
+ "learning_rate": 0.02,
18706
+ "loss": 1.6212,
18707
+ "step": 2671
18708
+ },
18709
+ {
18710
+ "epoch": 0.2473644621882775,
18711
+ "grad_norm": 0.1552734375,
18712
+ "learning_rate": 0.02,
18713
+ "loss": 1.6691,
18714
+ "step": 2672
18715
+ },
18716
+ {
18717
+ "epoch": 0.24745703870855754,
18718
+ "grad_norm": 0.16015625,
18719
+ "learning_rate": 0.02,
18720
+ "loss": 1.6895,
18721
+ "step": 2673
18722
+ },
18723
+ {
18724
+ "epoch": 0.2475496152288376,
18725
+ "grad_norm": 0.1494140625,
18726
+ "learning_rate": 0.02,
18727
+ "loss": 1.6548,
18728
+ "step": 2674
18729
+ },
18730
+ {
18731
+ "epoch": 0.24764219174911764,
18732
+ "grad_norm": 0.15625,
18733
+ "learning_rate": 0.02,
18734
+ "loss": 1.6663,
18735
+ "step": 2675
18736
+ },
18737
+ {
18738
+ "epoch": 0.24773476826939766,
18739
+ "grad_norm": 0.15234375,
18740
+ "learning_rate": 0.02,
18741
+ "loss": 1.6238,
18742
+ "step": 2676
18743
+ },
18744
+ {
18745
+ "epoch": 0.24782734478967772,
18746
+ "grad_norm": 0.16015625,
18747
+ "learning_rate": 0.02,
18748
+ "loss": 1.6859,
18749
+ "step": 2677
18750
+ },
18751
+ {
18752
+ "epoch": 0.24791992130995777,
18753
+ "grad_norm": 0.1630859375,
18754
+ "learning_rate": 0.02,
18755
+ "loss": 1.5579,
18756
+ "step": 2678
18757
+ },
18758
+ {
18759
+ "epoch": 0.2480124978302378,
18760
+ "grad_norm": 0.1572265625,
18761
+ "learning_rate": 0.02,
18762
+ "loss": 1.6192,
18763
+ "step": 2679
18764
+ },
18765
+ {
18766
+ "epoch": 0.24810507435051785,
18767
+ "grad_norm": 0.1552734375,
18768
+ "learning_rate": 0.02,
18769
+ "loss": 1.6615,
18770
+ "step": 2680
18771
+ },
18772
+ {
18773
+ "epoch": 0.2481976508707979,
18774
+ "grad_norm": 0.1552734375,
18775
+ "learning_rate": 0.02,
18776
+ "loss": 1.6472,
18777
+ "step": 2681
18778
+ },
18779
+ {
18780
+ "epoch": 0.24829022739107795,
18781
+ "grad_norm": 0.1484375,
18782
+ "learning_rate": 0.02,
18783
+ "loss": 1.6743,
18784
+ "step": 2682
18785
+ },
18786
+ {
18787
+ "epoch": 0.24838280391135797,
18788
+ "grad_norm": 0.150390625,
18789
+ "learning_rate": 0.02,
18790
+ "loss": 1.6743,
18791
+ "step": 2683
18792
+ },
18793
+ {
18794
+ "epoch": 0.24847538043163803,
18795
+ "grad_norm": 0.140625,
18796
+ "learning_rate": 0.02,
18797
+ "loss": 1.676,
18798
+ "step": 2684
18799
+ },
18800
+ {
18801
+ "epoch": 0.24856795695191808,
18802
+ "grad_norm": 0.1396484375,
18803
+ "learning_rate": 0.02,
18804
+ "loss": 1.6005,
18805
+ "step": 2685
18806
+ },
18807
+ {
18808
+ "epoch": 0.2486605334721981,
18809
+ "grad_norm": 0.13671875,
18810
+ "learning_rate": 0.02,
18811
+ "loss": 1.6041,
18812
+ "step": 2686
18813
+ },
18814
+ {
18815
+ "epoch": 0.24875310999247816,
18816
+ "grad_norm": 0.1455078125,
18817
+ "learning_rate": 0.02,
18818
+ "loss": 1.6173,
18819
+ "step": 2687
18820
+ },
18821
+ {
18822
+ "epoch": 0.2488456865127582,
18823
+ "grad_norm": 0.13671875,
18824
+ "learning_rate": 0.02,
18825
+ "loss": 1.6514,
18826
+ "step": 2688
18827
+ },
18828
+ {
18829
+ "epoch": 0.24893826303303826,
18830
+ "grad_norm": 0.1376953125,
18831
+ "learning_rate": 0.02,
18832
+ "loss": 1.6773,
18833
+ "step": 2689
18834
+ },
18835
+ {
18836
+ "epoch": 0.24903083955331828,
18837
+ "grad_norm": 0.14453125,
18838
+ "learning_rate": 0.02,
18839
+ "loss": 1.6496,
18840
+ "step": 2690
18841
+ },
18842
+ {
18843
+ "epoch": 0.24912341607359834,
18844
+ "grad_norm": 0.1572265625,
18845
+ "learning_rate": 0.02,
18846
+ "loss": 1.6966,
18847
+ "step": 2691
18848
+ },
18849
+ {
18850
+ "epoch": 0.2492159925938784,
18851
+ "grad_norm": 0.1513671875,
18852
+ "learning_rate": 0.02,
18853
+ "loss": 1.6741,
18854
+ "step": 2692
18855
+ },
18856
+ {
18857
+ "epoch": 0.2493085691141584,
18858
+ "grad_norm": 0.166015625,
18859
+ "learning_rate": 0.02,
18860
+ "loss": 1.6864,
18861
+ "step": 2693
18862
+ },
18863
+ {
18864
+ "epoch": 0.24940114563443846,
18865
+ "grad_norm": 0.1572265625,
18866
+ "learning_rate": 0.02,
18867
+ "loss": 1.6526,
18868
+ "step": 2694
18869
+ },
18870
+ {
18871
+ "epoch": 0.24949372215471852,
18872
+ "grad_norm": 0.1611328125,
18873
+ "learning_rate": 0.02,
18874
+ "loss": 1.7017,
18875
+ "step": 2695
18876
+ },
18877
+ {
18878
+ "epoch": 0.24958629867499854,
18879
+ "grad_norm": 0.1533203125,
18880
+ "learning_rate": 0.02,
18881
+ "loss": 1.6501,
18882
+ "step": 2696
18883
+ },
18884
+ {
18885
+ "epoch": 0.2496788751952786,
18886
+ "grad_norm": 0.16015625,
18887
+ "learning_rate": 0.02,
18888
+ "loss": 1.6995,
18889
+ "step": 2697
18890
+ },
18891
+ {
18892
+ "epoch": 0.24977145171555865,
18893
+ "grad_norm": 0.1552734375,
18894
+ "learning_rate": 0.02,
18895
+ "loss": 1.6778,
18896
+ "step": 2698
18897
+ },
18898
+ {
18899
+ "epoch": 0.2498640282358387,
18900
+ "grad_norm": 0.1552734375,
18901
+ "learning_rate": 0.02,
18902
+ "loss": 1.6304,
18903
+ "step": 2699
18904
+ },
18905
+ {
18906
+ "epoch": 0.24995660475611872,
18907
+ "grad_norm": 0.142578125,
18908
+ "learning_rate": 0.02,
18909
+ "loss": 1.7184,
18910
+ "step": 2700
18911
+ },
18912
+ {
18913
+ "epoch": 0.25004918127639875,
18914
+ "grad_norm": 0.16015625,
18915
+ "learning_rate": 0.02,
18916
+ "loss": 1.7369,
18917
+ "step": 2701
18918
+ },
18919
+ {
18920
+ "epoch": 0.2501417577966788,
18921
+ "grad_norm": 0.1484375,
18922
+ "learning_rate": 0.02,
18923
+ "loss": 1.6094,
18924
+ "step": 2702
18925
+ },
18926
+ {
18927
+ "epoch": 0.25023433431695885,
18928
+ "grad_norm": 0.1533203125,
18929
+ "learning_rate": 0.02,
18930
+ "loss": 1.6358,
18931
+ "step": 2703
18932
+ },
18933
+ {
18934
+ "epoch": 0.2503269108372389,
18935
+ "grad_norm": 0.15234375,
18936
+ "learning_rate": 0.02,
18937
+ "loss": 1.6927,
18938
+ "step": 2704
18939
+ },
18940
+ {
18941
+ "epoch": 0.25041948735751896,
18942
+ "grad_norm": 0.1572265625,
18943
+ "learning_rate": 0.02,
18944
+ "loss": 1.6453,
18945
+ "step": 2705
18946
+ },
18947
+ {
18948
+ "epoch": 0.250512063877799,
18949
+ "grad_norm": 0.1728515625,
18950
+ "learning_rate": 0.02,
18951
+ "loss": 1.6397,
18952
+ "step": 2706
18953
+ },
18954
+ {
18955
+ "epoch": 0.25060464039807906,
18956
+ "grad_norm": 0.1533203125,
18957
+ "learning_rate": 0.02,
18958
+ "loss": 1.6373,
18959
+ "step": 2707
18960
+ },
18961
+ {
18962
+ "epoch": 0.25069721691835906,
18963
+ "grad_norm": 0.1572265625,
18964
+ "learning_rate": 0.02,
18965
+ "loss": 1.6574,
18966
+ "step": 2708
18967
+ },
18968
+ {
18969
+ "epoch": 0.2507897934386391,
18970
+ "grad_norm": 0.1669921875,
18971
+ "learning_rate": 0.02,
18972
+ "loss": 1.683,
18973
+ "step": 2709
18974
+ },
18975
+ {
18976
+ "epoch": 0.25088236995891916,
18977
+ "grad_norm": 0.1640625,
18978
+ "learning_rate": 0.02,
18979
+ "loss": 1.7074,
18980
+ "step": 2710
18981
+ },
18982
+ {
18983
+ "epoch": 0.2509749464791992,
18984
+ "grad_norm": 0.158203125,
18985
+ "learning_rate": 0.02,
18986
+ "loss": 1.6745,
18987
+ "step": 2711
18988
+ },
18989
+ {
18990
+ "epoch": 0.25106752299947926,
18991
+ "grad_norm": 0.1552734375,
18992
+ "learning_rate": 0.02,
18993
+ "loss": 1.6705,
18994
+ "step": 2712
18995
+ },
18996
+ {
18997
+ "epoch": 0.2511600995197593,
18998
+ "grad_norm": 0.162109375,
18999
+ "learning_rate": 0.02,
19000
+ "loss": 1.6188,
19001
+ "step": 2713
19002
+ },
19003
+ {
19004
+ "epoch": 0.25125267604003937,
19005
+ "grad_norm": 0.1474609375,
19006
+ "learning_rate": 0.02,
19007
+ "loss": 1.6323,
19008
+ "step": 2714
19009
+ },
19010
+ {
19011
+ "epoch": 0.25134525256031937,
19012
+ "grad_norm": 0.158203125,
19013
+ "learning_rate": 0.02,
19014
+ "loss": 1.6792,
19015
+ "step": 2715
19016
+ },
19017
+ {
19018
+ "epoch": 0.2514378290805994,
19019
+ "grad_norm": 0.1552734375,
19020
+ "learning_rate": 0.02,
19021
+ "loss": 1.7093,
19022
+ "step": 2716
19023
+ },
19024
+ {
19025
+ "epoch": 0.25153040560087947,
19026
+ "grad_norm": 0.158203125,
19027
+ "learning_rate": 0.02,
19028
+ "loss": 1.6941,
19029
+ "step": 2717
19030
+ },
19031
+ {
19032
+ "epoch": 0.2516229821211595,
19033
+ "grad_norm": 0.1474609375,
19034
+ "learning_rate": 0.02,
19035
+ "loss": 1.6991,
19036
+ "step": 2718
19037
+ },
19038
+ {
19039
+ "epoch": 0.2517155586414396,
19040
+ "grad_norm": 0.150390625,
19041
+ "learning_rate": 0.02,
19042
+ "loss": 1.6604,
19043
+ "step": 2719
19044
+ },
19045
+ {
19046
+ "epoch": 0.2518081351617196,
19047
+ "grad_norm": 0.142578125,
19048
+ "learning_rate": 0.02,
19049
+ "loss": 1.7023,
19050
+ "step": 2720
19051
+ },
19052
+ {
19053
+ "epoch": 0.2519007116819997,
19054
+ "grad_norm": 0.1552734375,
19055
+ "learning_rate": 0.02,
19056
+ "loss": 1.72,
19057
+ "step": 2721
19058
+ },
19059
+ {
19060
+ "epoch": 0.2519932882022797,
19061
+ "grad_norm": 0.1474609375,
19062
+ "learning_rate": 0.02,
19063
+ "loss": 1.6754,
19064
+ "step": 2722
19065
+ },
19066
+ {
19067
+ "epoch": 0.2520858647225597,
19068
+ "grad_norm": 0.146484375,
19069
+ "learning_rate": 0.02,
19070
+ "loss": 1.713,
19071
+ "step": 2723
19072
+ },
19073
+ {
19074
+ "epoch": 0.2521784412428398,
19075
+ "grad_norm": 0.150390625,
19076
+ "learning_rate": 0.02,
19077
+ "loss": 1.728,
19078
+ "step": 2724
19079
+ },
19080
+ {
19081
+ "epoch": 0.25227101776311983,
19082
+ "grad_norm": 0.1533203125,
19083
+ "learning_rate": 0.02,
19084
+ "loss": 1.6826,
19085
+ "step": 2725
19086
+ },
19087
+ {
19088
+ "epoch": 0.2523635942833999,
19089
+ "grad_norm": 0.158203125,
19090
+ "learning_rate": 0.02,
19091
+ "loss": 1.6465,
19092
+ "step": 2726
19093
+ },
19094
+ {
19095
+ "epoch": 0.25245617080367994,
19096
+ "grad_norm": 0.1533203125,
19097
+ "learning_rate": 0.02,
19098
+ "loss": 1.6399,
19099
+ "step": 2727
19100
+ },
19101
+ {
19102
+ "epoch": 0.25254874732396,
19103
+ "grad_norm": 0.1435546875,
19104
+ "learning_rate": 0.02,
19105
+ "loss": 1.6052,
19106
+ "step": 2728
19107
+ },
19108
+ {
19109
+ "epoch": 0.25264132384424,
19110
+ "grad_norm": 0.1416015625,
19111
+ "learning_rate": 0.02,
19112
+ "loss": 1.5989,
19113
+ "step": 2729
19114
+ },
19115
+ {
19116
+ "epoch": 0.25273390036452004,
19117
+ "grad_norm": 0.14453125,
19118
+ "learning_rate": 0.02,
19119
+ "loss": 1.6454,
19120
+ "step": 2730
19121
+ },
19122
+ {
19123
+ "epoch": 0.2528264768848001,
19124
+ "grad_norm": 0.1533203125,
19125
+ "learning_rate": 0.02,
19126
+ "loss": 1.6814,
19127
+ "step": 2731
19128
+ },
19129
+ {
19130
+ "epoch": 0.25291905340508014,
19131
+ "grad_norm": 0.166015625,
19132
+ "learning_rate": 0.02,
19133
+ "loss": 1.6407,
19134
+ "step": 2732
19135
+ },
19136
+ {
19137
+ "epoch": 0.2530116299253602,
19138
+ "grad_norm": 0.1484375,
19139
+ "learning_rate": 0.02,
19140
+ "loss": 1.6849,
19141
+ "step": 2733
19142
+ },
19143
+ {
19144
+ "epoch": 0.25310420644564025,
19145
+ "grad_norm": 0.1552734375,
19146
+ "learning_rate": 0.02,
19147
+ "loss": 1.5967,
19148
+ "step": 2734
19149
+ },
19150
+ {
19151
+ "epoch": 0.25319678296592024,
19152
+ "grad_norm": 0.1640625,
19153
+ "learning_rate": 0.02,
19154
+ "loss": 1.6596,
19155
+ "step": 2735
19156
+ },
19157
+ {
19158
+ "epoch": 0.2532893594862003,
19159
+ "grad_norm": 0.15234375,
19160
+ "learning_rate": 0.02,
19161
+ "loss": 1.6836,
19162
+ "step": 2736
19163
+ },
19164
+ {
19165
+ "epoch": 0.25338193600648035,
19166
+ "grad_norm": 0.146484375,
19167
+ "learning_rate": 0.02,
19168
+ "loss": 1.689,
19169
+ "step": 2737
19170
+ },
19171
+ {
19172
+ "epoch": 0.2534745125267604,
19173
+ "grad_norm": 0.150390625,
19174
+ "learning_rate": 0.02,
19175
+ "loss": 1.7011,
19176
+ "step": 2738
19177
+ },
19178
+ {
19179
+ "epoch": 0.25356708904704045,
19180
+ "grad_norm": 0.140625,
19181
+ "learning_rate": 0.02,
19182
+ "loss": 1.6348,
19183
+ "step": 2739
19184
+ },
19185
+ {
19186
+ "epoch": 0.2536596655673205,
19187
+ "grad_norm": 0.142578125,
19188
+ "learning_rate": 0.02,
19189
+ "loss": 1.6331,
19190
+ "step": 2740
19191
+ },
19192
+ {
19193
+ "epoch": 0.25375224208760055,
19194
+ "grad_norm": 0.1484375,
19195
+ "learning_rate": 0.02,
19196
+ "loss": 1.62,
19197
+ "step": 2741
19198
+ },
19199
+ {
19200
+ "epoch": 0.25384481860788055,
19201
+ "grad_norm": 0.146484375,
19202
+ "learning_rate": 0.02,
19203
+ "loss": 1.6445,
19204
+ "step": 2742
19205
+ },
19206
+ {
19207
+ "epoch": 0.2539373951281606,
19208
+ "grad_norm": 0.1416015625,
19209
+ "learning_rate": 0.02,
19210
+ "loss": 1.6724,
19211
+ "step": 2743
19212
+ },
19213
+ {
19214
+ "epoch": 0.25402997164844066,
19215
+ "grad_norm": 0.150390625,
19216
+ "learning_rate": 0.02,
19217
+ "loss": 1.6466,
19218
+ "step": 2744
19219
+ },
19220
+ {
19221
+ "epoch": 0.2541225481687207,
19222
+ "grad_norm": 0.146484375,
19223
+ "learning_rate": 0.02,
19224
+ "loss": 1.689,
19225
+ "step": 2745
19226
+ },
19227
+ {
19228
+ "epoch": 0.25421512468900076,
19229
+ "grad_norm": 0.1494140625,
19230
+ "learning_rate": 0.02,
19231
+ "loss": 1.6311,
19232
+ "step": 2746
19233
+ },
19234
+ {
19235
+ "epoch": 0.2543077012092808,
19236
+ "grad_norm": 0.158203125,
19237
+ "learning_rate": 0.02,
19238
+ "loss": 1.6765,
19239
+ "step": 2747
19240
+ },
19241
+ {
19242
+ "epoch": 0.25440027772956086,
19243
+ "grad_norm": 0.1611328125,
19244
+ "learning_rate": 0.02,
19245
+ "loss": 1.6515,
19246
+ "step": 2748
19247
+ },
19248
+ {
19249
+ "epoch": 0.25449285424984086,
19250
+ "grad_norm": 0.15234375,
19251
+ "learning_rate": 0.02,
19252
+ "loss": 1.6626,
19253
+ "step": 2749
19254
+ },
19255
+ {
19256
+ "epoch": 0.2545854307701209,
19257
+ "grad_norm": 0.158203125,
19258
+ "learning_rate": 0.02,
19259
+ "loss": 1.7178,
19260
+ "step": 2750
19261
+ },
19262
+ {
19263
+ "epoch": 0.25467800729040097,
19264
+ "grad_norm": 0.1513671875,
19265
+ "learning_rate": 0.02,
19266
+ "loss": 1.6839,
19267
+ "step": 2751
19268
+ },
19269
+ {
19270
+ "epoch": 0.254770583810681,
19271
+ "grad_norm": 0.1572265625,
19272
+ "learning_rate": 0.02,
19273
+ "loss": 1.6863,
19274
+ "step": 2752
19275
+ },
19276
+ {
19277
+ "epoch": 0.25486316033096107,
19278
+ "grad_norm": 0.1552734375,
19279
+ "learning_rate": 0.02,
19280
+ "loss": 1.6898,
19281
+ "step": 2753
19282
+ },
19283
+ {
19284
+ "epoch": 0.2549557368512411,
19285
+ "grad_norm": 0.1630859375,
19286
+ "learning_rate": 0.02,
19287
+ "loss": 1.609,
19288
+ "step": 2754
19289
+ },
19290
+ {
19291
+ "epoch": 0.2550483133715212,
19292
+ "grad_norm": 0.1533203125,
19293
+ "learning_rate": 0.02,
19294
+ "loss": 1.616,
19295
+ "step": 2755
19296
+ },
19297
+ {
19298
+ "epoch": 0.25514088989180117,
19299
+ "grad_norm": 0.158203125,
19300
+ "learning_rate": 0.02,
19301
+ "loss": 1.6102,
19302
+ "step": 2756
19303
+ },
19304
+ {
19305
+ "epoch": 0.2552334664120812,
19306
+ "grad_norm": 0.1572265625,
19307
+ "learning_rate": 0.02,
19308
+ "loss": 1.6667,
19309
+ "step": 2757
19310
+ },
19311
+ {
19312
+ "epoch": 0.2553260429323613,
19313
+ "grad_norm": 0.154296875,
19314
+ "learning_rate": 0.02,
19315
+ "loss": 1.7157,
19316
+ "step": 2758
19317
+ },
19318
+ {
19319
+ "epoch": 0.2554186194526413,
19320
+ "grad_norm": 0.150390625,
19321
+ "learning_rate": 0.02,
19322
+ "loss": 1.6555,
19323
+ "step": 2759
19324
+ },
19325
+ {
19326
+ "epoch": 0.2555111959729214,
19327
+ "grad_norm": 0.142578125,
19328
+ "learning_rate": 0.02,
19329
+ "loss": 1.6451,
19330
+ "step": 2760
19331
+ },
19332
+ {
19333
+ "epoch": 0.25560377249320143,
19334
+ "grad_norm": 0.154296875,
19335
+ "learning_rate": 0.02,
19336
+ "loss": 1.5886,
19337
+ "step": 2761
19338
+ },
19339
+ {
19340
+ "epoch": 0.2556963490134815,
19341
+ "grad_norm": 0.1416015625,
19342
+ "learning_rate": 0.02,
19343
+ "loss": 1.6771,
19344
+ "step": 2762
19345
+ },
19346
+ {
19347
+ "epoch": 0.2557889255337615,
19348
+ "grad_norm": 0.1572265625,
19349
+ "learning_rate": 0.02,
19350
+ "loss": 1.6772,
19351
+ "step": 2763
19352
+ },
19353
+ {
19354
+ "epoch": 0.25588150205404153,
19355
+ "grad_norm": 0.1591796875,
19356
+ "learning_rate": 0.02,
19357
+ "loss": 1.6507,
19358
+ "step": 2764
19359
+ },
19360
+ {
19361
+ "epoch": 0.2559740785743216,
19362
+ "grad_norm": 0.15234375,
19363
+ "learning_rate": 0.02,
19364
+ "loss": 1.6707,
19365
+ "step": 2765
19366
+ },
19367
+ {
19368
+ "epoch": 0.25606665509460164,
19369
+ "grad_norm": 0.14453125,
19370
+ "learning_rate": 0.02,
19371
+ "loss": 1.624,
19372
+ "step": 2766
19373
+ },
19374
+ {
19375
+ "epoch": 0.2561592316148817,
19376
+ "grad_norm": 0.140625,
19377
+ "learning_rate": 0.02,
19378
+ "loss": 1.6516,
19379
+ "step": 2767
19380
+ },
19381
+ {
19382
+ "epoch": 0.25625180813516174,
19383
+ "grad_norm": 0.1513671875,
19384
+ "learning_rate": 0.02,
19385
+ "loss": 1.6816,
19386
+ "step": 2768
19387
+ },
19388
+ {
19389
+ "epoch": 0.25634438465544174,
19390
+ "grad_norm": 0.15625,
19391
+ "learning_rate": 0.02,
19392
+ "loss": 1.6997,
19393
+ "step": 2769
19394
+ },
19395
+ {
19396
+ "epoch": 0.2564369611757218,
19397
+ "grad_norm": 0.142578125,
19398
+ "learning_rate": 0.02,
19399
+ "loss": 1.6429,
19400
+ "step": 2770
19401
+ },
19402
+ {
19403
+ "epoch": 0.25652953769600184,
19404
+ "grad_norm": 0.1572265625,
19405
+ "learning_rate": 0.02,
19406
+ "loss": 1.6529,
19407
+ "step": 2771
19408
+ },
19409
+ {
19410
+ "epoch": 0.2566221142162819,
19411
+ "grad_norm": 0.1572265625,
19412
+ "learning_rate": 0.02,
19413
+ "loss": 1.6278,
19414
+ "step": 2772
19415
+ },
19416
+ {
19417
+ "epoch": 0.25671469073656195,
19418
+ "grad_norm": 0.16015625,
19419
+ "learning_rate": 0.02,
19420
+ "loss": 1.6645,
19421
+ "step": 2773
19422
+ },
19423
+ {
19424
+ "epoch": 0.256807267256842,
19425
+ "grad_norm": 0.1513671875,
19426
+ "learning_rate": 0.02,
19427
+ "loss": 1.6599,
19428
+ "step": 2774
19429
+ },
19430
+ {
19431
+ "epoch": 0.25689984377712205,
19432
+ "grad_norm": 0.154296875,
19433
+ "learning_rate": 0.02,
19434
+ "loss": 1.6418,
19435
+ "step": 2775
19436
+ },
19437
+ {
19438
+ "epoch": 0.25699242029740205,
19439
+ "grad_norm": 0.1484375,
19440
+ "learning_rate": 0.02,
19441
+ "loss": 1.6788,
19442
+ "step": 2776
19443
+ },
19444
+ {
19445
+ "epoch": 0.2570849968176821,
19446
+ "grad_norm": 0.154296875,
19447
+ "learning_rate": 0.02,
19448
+ "loss": 1.638,
19449
+ "step": 2777
19450
+ },
19451
+ {
19452
+ "epoch": 0.25717757333796215,
19453
+ "grad_norm": 0.1484375,
19454
+ "learning_rate": 0.02,
19455
+ "loss": 1.6118,
19456
+ "step": 2778
19457
+ },
19458
+ {
19459
+ "epoch": 0.2572701498582422,
19460
+ "grad_norm": 0.1494140625,
19461
+ "learning_rate": 0.02,
19462
+ "loss": 1.6631,
19463
+ "step": 2779
19464
+ },
19465
+ {
19466
+ "epoch": 0.25736272637852226,
19467
+ "grad_norm": 0.15234375,
19468
+ "learning_rate": 0.02,
19469
+ "loss": 1.6593,
19470
+ "step": 2780
19471
+ },
19472
+ {
19473
+ "epoch": 0.2574553028988023,
19474
+ "grad_norm": 0.1572265625,
19475
+ "learning_rate": 0.02,
19476
+ "loss": 1.7023,
19477
+ "step": 2781
19478
+ },
19479
+ {
19480
+ "epoch": 0.25754787941908236,
19481
+ "grad_norm": 0.1484375,
19482
+ "learning_rate": 0.02,
19483
+ "loss": 1.6811,
19484
+ "step": 2782
19485
+ },
19486
+ {
19487
+ "epoch": 0.25764045593936236,
19488
+ "grad_norm": 0.142578125,
19489
+ "learning_rate": 0.02,
19490
+ "loss": 1.6432,
19491
+ "step": 2783
19492
+ },
19493
+ {
19494
+ "epoch": 0.2577330324596424,
19495
+ "grad_norm": 0.150390625,
19496
+ "learning_rate": 0.02,
19497
+ "loss": 1.663,
19498
+ "step": 2784
19499
+ },
19500
+ {
19501
+ "epoch": 0.25782560897992246,
19502
+ "grad_norm": 0.142578125,
19503
+ "learning_rate": 0.02,
19504
+ "loss": 1.5793,
19505
+ "step": 2785
19506
+ },
19507
+ {
19508
+ "epoch": 0.2579181855002025,
19509
+ "grad_norm": 0.1494140625,
19510
+ "learning_rate": 0.02,
19511
+ "loss": 1.6421,
19512
+ "step": 2786
19513
+ },
19514
+ {
19515
+ "epoch": 0.25801076202048256,
19516
+ "grad_norm": 0.150390625,
19517
+ "learning_rate": 0.02,
19518
+ "loss": 1.6715,
19519
+ "step": 2787
19520
+ },
19521
+ {
19522
+ "epoch": 0.2581033385407626,
19523
+ "grad_norm": 0.1396484375,
19524
+ "learning_rate": 0.02,
19525
+ "loss": 1.7028,
19526
+ "step": 2788
19527
+ },
19528
+ {
19529
+ "epoch": 0.25819591506104267,
19530
+ "grad_norm": 0.150390625,
19531
+ "learning_rate": 0.02,
19532
+ "loss": 1.5634,
19533
+ "step": 2789
19534
+ },
19535
+ {
19536
+ "epoch": 0.25828849158132267,
19537
+ "grad_norm": 0.154296875,
19538
+ "learning_rate": 0.02,
19539
+ "loss": 1.7299,
19540
+ "step": 2790
19541
+ },
19542
+ {
19543
+ "epoch": 0.2583810681016027,
19544
+ "grad_norm": 0.1455078125,
19545
+ "learning_rate": 0.02,
19546
+ "loss": 1.6353,
19547
+ "step": 2791
19548
+ },
19549
+ {
19550
+ "epoch": 0.25847364462188277,
19551
+ "grad_norm": 0.1396484375,
19552
+ "learning_rate": 0.02,
19553
+ "loss": 1.6583,
19554
+ "step": 2792
19555
+ },
19556
+ {
19557
+ "epoch": 0.2585662211421628,
19558
+ "grad_norm": 0.13671875,
19559
+ "learning_rate": 0.02,
19560
+ "loss": 1.6632,
19561
+ "step": 2793
19562
+ },
19563
+ {
19564
+ "epoch": 0.2586587976624429,
19565
+ "grad_norm": 0.1474609375,
19566
+ "learning_rate": 0.02,
19567
+ "loss": 1.7041,
19568
+ "step": 2794
19569
+ },
19570
+ {
19571
+ "epoch": 0.2587513741827229,
19572
+ "grad_norm": 0.1474609375,
19573
+ "learning_rate": 0.02,
19574
+ "loss": 1.6851,
19575
+ "step": 2795
19576
+ },
19577
+ {
19578
+ "epoch": 0.258843950703003,
19579
+ "grad_norm": 0.1416015625,
19580
+ "learning_rate": 0.02,
19581
+ "loss": 1.6089,
19582
+ "step": 2796
19583
+ },
19584
+ {
19585
+ "epoch": 0.258936527223283,
19586
+ "grad_norm": 0.154296875,
19587
+ "learning_rate": 0.02,
19588
+ "loss": 1.6764,
19589
+ "step": 2797
19590
+ },
19591
+ {
19592
+ "epoch": 0.259029103743563,
19593
+ "grad_norm": 0.1455078125,
19594
+ "learning_rate": 0.02,
19595
+ "loss": 1.5725,
19596
+ "step": 2798
19597
+ },
19598
+ {
19599
+ "epoch": 0.2591216802638431,
19600
+ "grad_norm": 0.1513671875,
19601
+ "learning_rate": 0.02,
19602
+ "loss": 1.6125,
19603
+ "step": 2799
19604
+ },
19605
+ {
19606
+ "epoch": 0.25921425678412313,
19607
+ "grad_norm": 0.154296875,
19608
+ "learning_rate": 0.02,
19609
+ "loss": 1.6711,
19610
+ "step": 2800
19611
+ },
19612
+ {
19613
+ "epoch": 0.2593068333044032,
19614
+ "grad_norm": 0.154296875,
19615
+ "learning_rate": 0.02,
19616
+ "loss": 1.6687,
19617
+ "step": 2801
19618
+ },
19619
+ {
19620
+ "epoch": 0.25939940982468324,
19621
+ "grad_norm": 0.154296875,
19622
+ "learning_rate": 0.02,
19623
+ "loss": 1.6241,
19624
+ "step": 2802
19625
+ },
19626
+ {
19627
+ "epoch": 0.25949198634496323,
19628
+ "grad_norm": 0.1484375,
19629
+ "learning_rate": 0.02,
19630
+ "loss": 1.6478,
19631
+ "step": 2803
19632
+ },
19633
+ {
19634
+ "epoch": 0.2595845628652433,
19635
+ "grad_norm": 0.1455078125,
19636
+ "learning_rate": 0.02,
19637
+ "loss": 1.6141,
19638
+ "step": 2804
19639
+ },
19640
+ {
19641
+ "epoch": 0.25967713938552334,
19642
+ "grad_norm": 0.1513671875,
19643
+ "learning_rate": 0.02,
19644
+ "loss": 1.6976,
19645
+ "step": 2805
19646
+ },
19647
+ {
19648
+ "epoch": 0.2597697159058034,
19649
+ "grad_norm": 0.1484375,
19650
+ "learning_rate": 0.02,
19651
+ "loss": 1.6385,
19652
+ "step": 2806
19653
+ },
19654
+ {
19655
+ "epoch": 0.25986229242608344,
19656
+ "grad_norm": 0.15234375,
19657
+ "learning_rate": 0.02,
19658
+ "loss": 1.6946,
19659
+ "step": 2807
19660
+ },
19661
+ {
19662
+ "epoch": 0.2599548689463635,
19663
+ "grad_norm": 0.1484375,
19664
+ "learning_rate": 0.02,
19665
+ "loss": 1.6303,
19666
+ "step": 2808
19667
+ },
19668
+ {
19669
+ "epoch": 0.26004744546664355,
19670
+ "grad_norm": 0.1591796875,
19671
+ "learning_rate": 0.02,
19672
+ "loss": 1.7219,
19673
+ "step": 2809
19674
+ },
19675
+ {
19676
+ "epoch": 0.26014002198692354,
19677
+ "grad_norm": 0.158203125,
19678
+ "learning_rate": 0.02,
19679
+ "loss": 1.6885,
19680
+ "step": 2810
19681
+ },
19682
+ {
19683
+ "epoch": 0.2602325985072036,
19684
+ "grad_norm": 0.1513671875,
19685
+ "learning_rate": 0.02,
19686
+ "loss": 1.6945,
19687
+ "step": 2811
19688
+ },
19689
+ {
19690
+ "epoch": 0.26032517502748365,
19691
+ "grad_norm": 0.1435546875,
19692
+ "learning_rate": 0.02,
19693
+ "loss": 1.6883,
19694
+ "step": 2812
19695
+ },
19696
+ {
19697
+ "epoch": 0.2604177515477637,
19698
+ "grad_norm": 0.15625,
19699
+ "learning_rate": 0.02,
19700
+ "loss": 1.7024,
19701
+ "step": 2813
19702
+ },
19703
+ {
19704
+ "epoch": 0.26051032806804375,
19705
+ "grad_norm": 0.154296875,
19706
+ "learning_rate": 0.02,
19707
+ "loss": 1.7098,
19708
+ "step": 2814
19709
+ },
19710
+ {
19711
+ "epoch": 0.2606029045883238,
19712
+ "grad_norm": 0.1455078125,
19713
+ "learning_rate": 0.02,
19714
+ "loss": 1.6763,
19715
+ "step": 2815
19716
+ },
19717
+ {
19718
+ "epoch": 0.26069548110860385,
19719
+ "grad_norm": 0.146484375,
19720
+ "learning_rate": 0.02,
19721
+ "loss": 1.6422,
19722
+ "step": 2816
19723
+ },
19724
+ {
19725
+ "epoch": 0.26078805762888385,
19726
+ "grad_norm": 0.140625,
19727
+ "learning_rate": 0.02,
19728
+ "loss": 1.6549,
19729
+ "step": 2817
19730
+ },
19731
+ {
19732
+ "epoch": 0.2608806341491639,
19733
+ "grad_norm": 0.1474609375,
19734
+ "learning_rate": 0.02,
19735
+ "loss": 1.6597,
19736
+ "step": 2818
19737
+ },
19738
+ {
19739
+ "epoch": 0.26097321066944396,
19740
+ "grad_norm": 0.1435546875,
19741
+ "learning_rate": 0.02,
19742
+ "loss": 1.632,
19743
+ "step": 2819
19744
+ },
19745
+ {
19746
+ "epoch": 0.261065787189724,
19747
+ "grad_norm": 0.1494140625,
19748
+ "learning_rate": 0.02,
19749
+ "loss": 1.7053,
19750
+ "step": 2820
19751
+ },
19752
+ {
19753
+ "epoch": 0.26115836371000406,
19754
+ "grad_norm": 0.140625,
19755
+ "learning_rate": 0.02,
19756
+ "loss": 1.6298,
19757
+ "step": 2821
19758
+ },
19759
+ {
19760
+ "epoch": 0.2612509402302841,
19761
+ "grad_norm": 0.1435546875,
19762
+ "learning_rate": 0.02,
19763
+ "loss": 1.6617,
19764
+ "step": 2822
19765
+ },
19766
+ {
19767
+ "epoch": 0.26134351675056416,
19768
+ "grad_norm": 0.1455078125,
19769
+ "learning_rate": 0.02,
19770
+ "loss": 1.6142,
19771
+ "step": 2823
19772
+ },
19773
+ {
19774
+ "epoch": 0.26143609327084416,
19775
+ "grad_norm": 0.146484375,
19776
+ "learning_rate": 0.02,
19777
+ "loss": 1.6591,
19778
+ "step": 2824
19779
+ },
19780
+ {
19781
+ "epoch": 0.2615286697911242,
19782
+ "grad_norm": 0.1396484375,
19783
+ "learning_rate": 0.02,
19784
+ "loss": 1.6943,
19785
+ "step": 2825
19786
+ },
19787
+ {
19788
+ "epoch": 0.26162124631140427,
19789
+ "grad_norm": 0.14453125,
19790
+ "learning_rate": 0.02,
19791
+ "loss": 1.6459,
19792
+ "step": 2826
19793
+ },
19794
+ {
19795
+ "epoch": 0.2617138228316843,
19796
+ "grad_norm": 0.1494140625,
19797
+ "learning_rate": 0.02,
19798
+ "loss": 1.7123,
19799
+ "step": 2827
19800
+ },
19801
+ {
19802
+ "epoch": 0.26180639935196437,
19803
+ "grad_norm": 0.1552734375,
19804
+ "learning_rate": 0.02,
19805
+ "loss": 1.7169,
19806
+ "step": 2828
19807
+ },
19808
+ {
19809
+ "epoch": 0.2618989758722444,
19810
+ "grad_norm": 0.1435546875,
19811
+ "learning_rate": 0.02,
19812
+ "loss": 1.6423,
19813
+ "step": 2829
19814
+ },
19815
+ {
19816
+ "epoch": 0.2619915523925244,
19817
+ "grad_norm": 0.134765625,
19818
+ "learning_rate": 0.02,
19819
+ "loss": 1.6434,
19820
+ "step": 2830
19821
+ },
19822
+ {
19823
+ "epoch": 0.26208412891280447,
19824
+ "grad_norm": 0.1494140625,
19825
+ "learning_rate": 0.02,
19826
+ "loss": 1.6682,
19827
+ "step": 2831
19828
+ },
19829
+ {
19830
+ "epoch": 0.2621767054330845,
19831
+ "grad_norm": 0.1552734375,
19832
+ "learning_rate": 0.02,
19833
+ "loss": 1.6019,
19834
+ "step": 2832
19835
+ },
19836
+ {
19837
+ "epoch": 0.2622692819533646,
19838
+ "grad_norm": 0.1552734375,
19839
+ "learning_rate": 0.02,
19840
+ "loss": 1.6233,
19841
+ "step": 2833
19842
+ },
19843
+ {
19844
+ "epoch": 0.2623618584736446,
19845
+ "grad_norm": 0.1552734375,
19846
+ "learning_rate": 0.02,
19847
+ "loss": 1.6967,
19848
+ "step": 2834
19849
+ },
19850
+ {
19851
+ "epoch": 0.2624544349939247,
19852
+ "grad_norm": 0.158203125,
19853
+ "learning_rate": 0.02,
19854
+ "loss": 1.6257,
19855
+ "step": 2835
19856
+ },
19857
+ {
19858
+ "epoch": 0.26254701151420473,
19859
+ "grad_norm": 0.15234375,
19860
+ "learning_rate": 0.02,
19861
+ "loss": 1.6696,
19862
+ "step": 2836
19863
+ },
19864
+ {
19865
+ "epoch": 0.26263958803448473,
19866
+ "grad_norm": 0.158203125,
19867
+ "learning_rate": 0.02,
19868
+ "loss": 1.6953,
19869
+ "step": 2837
19870
+ },
19871
+ {
19872
+ "epoch": 0.2627321645547648,
19873
+ "grad_norm": 0.1474609375,
19874
+ "learning_rate": 0.02,
19875
+ "loss": 1.6865,
19876
+ "step": 2838
19877
+ },
19878
+ {
19879
+ "epoch": 0.26282474107504483,
19880
+ "grad_norm": 0.1513671875,
19881
+ "learning_rate": 0.02,
19882
+ "loss": 1.6295,
19883
+ "step": 2839
19884
+ },
19885
+ {
19886
+ "epoch": 0.2629173175953249,
19887
+ "grad_norm": 0.1591796875,
19888
+ "learning_rate": 0.02,
19889
+ "loss": 1.6418,
19890
+ "step": 2840
19891
+ },
19892
+ {
19893
+ "epoch": 0.26300989411560494,
19894
+ "grad_norm": 0.1572265625,
19895
+ "learning_rate": 0.02,
19896
+ "loss": 1.6713,
19897
+ "step": 2841
19898
+ },
19899
+ {
19900
+ "epoch": 0.263102470635885,
19901
+ "grad_norm": 0.1474609375,
19902
+ "learning_rate": 0.02,
19903
+ "loss": 1.6951,
19904
+ "step": 2842
19905
+ },
19906
+ {
19907
+ "epoch": 0.26319504715616504,
19908
+ "grad_norm": 0.1474609375,
19909
+ "learning_rate": 0.02,
19910
+ "loss": 1.6727,
19911
+ "step": 2843
19912
+ },
19913
+ {
19914
+ "epoch": 0.26328762367644504,
19915
+ "grad_norm": 0.146484375,
19916
+ "learning_rate": 0.02,
19917
+ "loss": 1.5912,
19918
+ "step": 2844
19919
+ },
19920
+ {
19921
+ "epoch": 0.2633802001967251,
19922
+ "grad_norm": 0.1533203125,
19923
+ "learning_rate": 0.02,
19924
+ "loss": 1.6671,
19925
+ "step": 2845
19926
+ },
19927
+ {
19928
+ "epoch": 0.26347277671700514,
19929
+ "grad_norm": 0.1533203125,
19930
+ "learning_rate": 0.02,
19931
+ "loss": 1.6898,
19932
+ "step": 2846
19933
+ },
19934
+ {
19935
+ "epoch": 0.2635653532372852,
19936
+ "grad_norm": 0.1591796875,
19937
+ "learning_rate": 0.02,
19938
+ "loss": 1.6778,
19939
+ "step": 2847
19940
+ },
19941
+ {
19942
+ "epoch": 0.26365792975756525,
19943
+ "grad_norm": 0.1484375,
19944
+ "learning_rate": 0.02,
19945
+ "loss": 1.6392,
19946
+ "step": 2848
19947
+ },
19948
+ {
19949
+ "epoch": 0.2637505062778453,
19950
+ "grad_norm": 0.1591796875,
19951
+ "learning_rate": 0.02,
19952
+ "loss": 1.6483,
19953
+ "step": 2849
19954
+ },
19955
+ {
19956
+ "epoch": 0.26384308279812535,
19957
+ "grad_norm": 0.154296875,
19958
+ "learning_rate": 0.02,
19959
+ "loss": 1.6028,
19960
+ "step": 2850
19961
+ },
19962
+ {
19963
+ "epoch": 0.26393565931840535,
19964
+ "grad_norm": 0.16015625,
19965
+ "learning_rate": 0.02,
19966
+ "loss": 1.5759,
19967
+ "step": 2851
19968
+ },
19969
+ {
19970
+ "epoch": 0.2640282358386854,
19971
+ "grad_norm": 0.16015625,
19972
+ "learning_rate": 0.02,
19973
+ "loss": 1.6332,
19974
+ "step": 2852
19975
+ },
19976
+ {
19977
+ "epoch": 0.26412081235896545,
19978
+ "grad_norm": 0.15625,
19979
+ "learning_rate": 0.02,
19980
+ "loss": 1.6672,
19981
+ "step": 2853
19982
+ },
19983
+ {
19984
+ "epoch": 0.2642133888792455,
19985
+ "grad_norm": 0.1611328125,
19986
+ "learning_rate": 0.02,
19987
+ "loss": 1.6469,
19988
+ "step": 2854
19989
+ },
19990
+ {
19991
+ "epoch": 0.26430596539952556,
19992
+ "grad_norm": 0.1513671875,
19993
+ "learning_rate": 0.02,
19994
+ "loss": 1.7041,
19995
+ "step": 2855
19996
+ },
19997
+ {
19998
+ "epoch": 0.2643985419198056,
19999
+ "grad_norm": 0.1494140625,
20000
+ "learning_rate": 0.02,
20001
+ "loss": 1.6714,
20002
+ "step": 2856
20003
+ },
20004
+ {
20005
+ "epoch": 0.26449111844008566,
20006
+ "grad_norm": 0.142578125,
20007
+ "learning_rate": 0.02,
20008
+ "loss": 1.5934,
20009
+ "step": 2857
20010
+ },
20011
+ {
20012
+ "epoch": 0.26458369496036566,
20013
+ "grad_norm": 0.15234375,
20014
+ "learning_rate": 0.02,
20015
+ "loss": 1.6739,
20016
+ "step": 2858
20017
+ },
20018
+ {
20019
+ "epoch": 0.2646762714806457,
20020
+ "grad_norm": 0.1474609375,
20021
+ "learning_rate": 0.02,
20022
+ "loss": 1.6576,
20023
+ "step": 2859
20024
+ },
20025
+ {
20026
+ "epoch": 0.26476884800092576,
20027
+ "grad_norm": 0.154296875,
20028
+ "learning_rate": 0.02,
20029
+ "loss": 1.6805,
20030
+ "step": 2860
20031
+ },
20032
+ {
20033
+ "epoch": 0.2648614245212058,
20034
+ "grad_norm": 0.1416015625,
20035
+ "learning_rate": 0.02,
20036
+ "loss": 1.6645,
20037
+ "step": 2861
20038
+ },
20039
+ {
20040
+ "epoch": 0.26495400104148586,
20041
+ "grad_norm": 0.15234375,
20042
+ "learning_rate": 0.02,
20043
+ "loss": 1.6594,
20044
+ "step": 2862
20045
+ },
20046
+ {
20047
+ "epoch": 0.2650465775617659,
20048
+ "grad_norm": 0.146484375,
20049
+ "learning_rate": 0.02,
20050
+ "loss": 1.6264,
20051
+ "step": 2863
20052
+ },
20053
+ {
20054
+ "epoch": 0.2651391540820459,
20055
+ "grad_norm": 0.1455078125,
20056
+ "learning_rate": 0.02,
20057
+ "loss": 1.6439,
20058
+ "step": 2864
20059
+ },
20060
+ {
20061
+ "epoch": 0.26523173060232597,
20062
+ "grad_norm": 0.1396484375,
20063
+ "learning_rate": 0.02,
20064
+ "loss": 1.6258,
20065
+ "step": 2865
20066
+ },
20067
+ {
20068
+ "epoch": 0.265324307122606,
20069
+ "grad_norm": 0.150390625,
20070
+ "learning_rate": 0.02,
20071
+ "loss": 1.6453,
20072
+ "step": 2866
20073
+ },
20074
+ {
20075
+ "epoch": 0.26541688364288607,
20076
+ "grad_norm": 0.150390625,
20077
+ "learning_rate": 0.02,
20078
+ "loss": 1.643,
20079
+ "step": 2867
20080
+ },
20081
+ {
20082
+ "epoch": 0.2655094601631661,
20083
+ "grad_norm": 0.1474609375,
20084
+ "learning_rate": 0.02,
20085
+ "loss": 1.7105,
20086
+ "step": 2868
20087
+ },
20088
+ {
20089
+ "epoch": 0.2656020366834462,
20090
+ "grad_norm": 0.1591796875,
20091
+ "learning_rate": 0.02,
20092
+ "loss": 1.6835,
20093
+ "step": 2869
20094
+ },
20095
+ {
20096
+ "epoch": 0.2656946132037262,
20097
+ "grad_norm": 0.1484375,
20098
+ "learning_rate": 0.02,
20099
+ "loss": 1.6739,
20100
+ "step": 2870
20101
+ },
20102
+ {
20103
+ "epoch": 0.2657871897240062,
20104
+ "grad_norm": 0.154296875,
20105
+ "learning_rate": 0.02,
20106
+ "loss": 1.6796,
20107
+ "step": 2871
20108
+ },
20109
+ {
20110
+ "epoch": 0.2658797662442863,
20111
+ "grad_norm": 0.146484375,
20112
+ "learning_rate": 0.02,
20113
+ "loss": 1.6223,
20114
+ "step": 2872
20115
+ },
20116
+ {
20117
+ "epoch": 0.2659723427645663,
20118
+ "grad_norm": 0.1455078125,
20119
+ "learning_rate": 0.02,
20120
+ "loss": 1.6662,
20121
+ "step": 2873
20122
+ },
20123
+ {
20124
+ "epoch": 0.2660649192848464,
20125
+ "grad_norm": 0.1455078125,
20126
+ "learning_rate": 0.02,
20127
+ "loss": 1.6816,
20128
+ "step": 2874
20129
+ },
20130
+ {
20131
+ "epoch": 0.26615749580512643,
20132
+ "grad_norm": 0.1513671875,
20133
+ "learning_rate": 0.02,
20134
+ "loss": 1.6126,
20135
+ "step": 2875
20136
+ },
20137
+ {
20138
+ "epoch": 0.2662500723254065,
20139
+ "grad_norm": 0.1572265625,
20140
+ "learning_rate": 0.02,
20141
+ "loss": 1.719,
20142
+ "step": 2876
20143
+ },
20144
+ {
20145
+ "epoch": 0.26634264884568654,
20146
+ "grad_norm": 0.15234375,
20147
+ "learning_rate": 0.02,
20148
+ "loss": 1.639,
20149
+ "step": 2877
20150
+ },
20151
+ {
20152
+ "epoch": 0.26643522536596653,
20153
+ "grad_norm": 0.154296875,
20154
+ "learning_rate": 0.02,
20155
+ "loss": 1.6367,
20156
+ "step": 2878
20157
+ },
20158
+ {
20159
+ "epoch": 0.2665278018862466,
20160
+ "grad_norm": 0.1494140625,
20161
+ "learning_rate": 0.02,
20162
+ "loss": 1.5886,
20163
+ "step": 2879
20164
+ },
20165
+ {
20166
+ "epoch": 0.26662037840652664,
20167
+ "grad_norm": 0.154296875,
20168
+ "learning_rate": 0.02,
20169
+ "loss": 1.5996,
20170
+ "step": 2880
20171
+ },
20172
+ {
20173
+ "epoch": 0.2667129549268067,
20174
+ "grad_norm": 0.1474609375,
20175
+ "learning_rate": 0.02,
20176
+ "loss": 1.6856,
20177
+ "step": 2881
20178
+ },
20179
+ {
20180
+ "epoch": 0.26680553144708674,
20181
+ "grad_norm": 0.16015625,
20182
+ "learning_rate": 0.02,
20183
+ "loss": 1.7201,
20184
+ "step": 2882
20185
+ },
20186
+ {
20187
+ "epoch": 0.2668981079673668,
20188
+ "grad_norm": 0.1474609375,
20189
+ "learning_rate": 0.02,
20190
+ "loss": 1.6602,
20191
+ "step": 2883
20192
+ },
20193
+ {
20194
+ "epoch": 0.26699068448764685,
20195
+ "grad_norm": 0.1611328125,
20196
+ "learning_rate": 0.02,
20197
+ "loss": 1.7035,
20198
+ "step": 2884
20199
+ },
20200
+ {
20201
+ "epoch": 0.26708326100792684,
20202
+ "grad_norm": 0.15625,
20203
+ "learning_rate": 0.02,
20204
+ "loss": 1.6811,
20205
+ "step": 2885
20206
+ },
20207
+ {
20208
+ "epoch": 0.2671758375282069,
20209
+ "grad_norm": 0.16015625,
20210
+ "learning_rate": 0.02,
20211
+ "loss": 1.6841,
20212
+ "step": 2886
20213
+ },
20214
+ {
20215
+ "epoch": 0.26726841404848695,
20216
+ "grad_norm": 0.1435546875,
20217
+ "learning_rate": 0.02,
20218
+ "loss": 1.6108,
20219
+ "step": 2887
20220
+ },
20221
+ {
20222
+ "epoch": 0.267360990568767,
20223
+ "grad_norm": 0.15625,
20224
+ "learning_rate": 0.02,
20225
+ "loss": 1.7174,
20226
+ "step": 2888
20227
+ },
20228
+ {
20229
+ "epoch": 0.26745356708904705,
20230
+ "grad_norm": 0.1435546875,
20231
+ "learning_rate": 0.02,
20232
+ "loss": 1.5924,
20233
+ "step": 2889
20234
+ },
20235
+ {
20236
+ "epoch": 0.2675461436093271,
20237
+ "grad_norm": 0.1513671875,
20238
+ "learning_rate": 0.02,
20239
+ "loss": 1.6595,
20240
+ "step": 2890
20241
+ },
20242
+ {
20243
+ "epoch": 0.26763872012960715,
20244
+ "grad_norm": 0.1513671875,
20245
+ "learning_rate": 0.02,
20246
+ "loss": 1.6713,
20247
+ "step": 2891
20248
+ },
20249
+ {
20250
+ "epoch": 0.26773129664988715,
20251
+ "grad_norm": 0.162109375,
20252
+ "learning_rate": 0.02,
20253
+ "loss": 1.7279,
20254
+ "step": 2892
20255
+ },
20256
+ {
20257
+ "epoch": 0.2678238731701672,
20258
+ "grad_norm": 0.1455078125,
20259
+ "learning_rate": 0.02,
20260
+ "loss": 1.6218,
20261
+ "step": 2893
20262
+ },
20263
+ {
20264
+ "epoch": 0.26791644969044726,
20265
+ "grad_norm": 0.158203125,
20266
+ "learning_rate": 0.02,
20267
+ "loss": 1.6724,
20268
+ "step": 2894
20269
+ },
20270
+ {
20271
+ "epoch": 0.2680090262107273,
20272
+ "grad_norm": 0.1474609375,
20273
+ "learning_rate": 0.02,
20274
+ "loss": 1.7069,
20275
+ "step": 2895
20276
+ },
20277
+ {
20278
+ "epoch": 0.26810160273100736,
20279
+ "grad_norm": 0.1494140625,
20280
+ "learning_rate": 0.02,
20281
+ "loss": 1.6208,
20282
+ "step": 2896
20283
+ },
20284
+ {
20285
+ "epoch": 0.2681941792512874,
20286
+ "grad_norm": 0.1396484375,
20287
+ "learning_rate": 0.02,
20288
+ "loss": 1.691,
20289
+ "step": 2897
20290
+ },
20291
+ {
20292
+ "epoch": 0.2682867557715674,
20293
+ "grad_norm": 0.1591796875,
20294
+ "learning_rate": 0.02,
20295
+ "loss": 1.7264,
20296
+ "step": 2898
20297
+ },
20298
+ {
20299
+ "epoch": 0.26837933229184746,
20300
+ "grad_norm": 0.1455078125,
20301
+ "learning_rate": 0.02,
20302
+ "loss": 1.6605,
20303
+ "step": 2899
20304
+ },
20305
+ {
20306
+ "epoch": 0.2684719088121275,
20307
+ "grad_norm": 0.150390625,
20308
+ "learning_rate": 0.02,
20309
+ "loss": 1.6441,
20310
+ "step": 2900
20311
+ },
20312
+ {
20313
+ "epoch": 0.26856448533240757,
20314
+ "grad_norm": 0.1494140625,
20315
+ "learning_rate": 0.02,
20316
+ "loss": 1.6617,
20317
+ "step": 2901
20318
+ },
20319
+ {
20320
+ "epoch": 0.2686570618526876,
20321
+ "grad_norm": 0.1552734375,
20322
+ "learning_rate": 0.02,
20323
+ "loss": 1.6914,
20324
+ "step": 2902
20325
+ },
20326
+ {
20327
+ "epoch": 0.26874963837296767,
20328
+ "grad_norm": 0.1513671875,
20329
+ "learning_rate": 0.02,
20330
+ "loss": 1.6822,
20331
+ "step": 2903
20332
+ },
20333
+ {
20334
+ "epoch": 0.2688422148932477,
20335
+ "grad_norm": 0.1376953125,
20336
+ "learning_rate": 0.02,
20337
+ "loss": 1.5771,
20338
+ "step": 2904
20339
+ },
20340
+ {
20341
+ "epoch": 0.2689347914135277,
20342
+ "grad_norm": 0.146484375,
20343
+ "learning_rate": 0.02,
20344
+ "loss": 1.6515,
20345
+ "step": 2905
20346
+ },
20347
+ {
20348
+ "epoch": 0.26902736793380777,
20349
+ "grad_norm": 0.1494140625,
20350
+ "learning_rate": 0.02,
20351
+ "loss": 1.6529,
20352
+ "step": 2906
20353
+ },
20354
+ {
20355
+ "epoch": 0.2691199444540878,
20356
+ "grad_norm": 0.1474609375,
20357
+ "learning_rate": 0.02,
20358
+ "loss": 1.639,
20359
+ "step": 2907
20360
+ },
20361
+ {
20362
+ "epoch": 0.2692125209743679,
20363
+ "grad_norm": 0.1435546875,
20364
+ "learning_rate": 0.02,
20365
+ "loss": 1.6697,
20366
+ "step": 2908
20367
+ },
20368
+ {
20369
+ "epoch": 0.2693050974946479,
20370
+ "grad_norm": 0.1396484375,
20371
+ "learning_rate": 0.02,
20372
+ "loss": 1.6447,
20373
+ "step": 2909
20374
+ },
20375
+ {
20376
+ "epoch": 0.269397674014928,
20377
+ "grad_norm": 0.142578125,
20378
+ "learning_rate": 0.02,
20379
+ "loss": 1.6552,
20380
+ "step": 2910
20381
+ },
20382
+ {
20383
+ "epoch": 0.26949025053520803,
20384
+ "grad_norm": 0.1494140625,
20385
+ "learning_rate": 0.02,
20386
+ "loss": 1.7034,
20387
+ "step": 2911
20388
+ },
20389
+ {
20390
+ "epoch": 0.26958282705548803,
20391
+ "grad_norm": 0.1484375,
20392
+ "learning_rate": 0.02,
20393
+ "loss": 1.7098,
20394
+ "step": 2912
20395
+ },
20396
+ {
20397
+ "epoch": 0.2696754035757681,
20398
+ "grad_norm": 0.1494140625,
20399
+ "learning_rate": 0.02,
20400
+ "loss": 1.7295,
20401
+ "step": 2913
20402
+ },
20403
+ {
20404
+ "epoch": 0.26976798009604813,
20405
+ "grad_norm": 0.1474609375,
20406
+ "learning_rate": 0.02,
20407
+ "loss": 1.6588,
20408
+ "step": 2914
20409
+ },
20410
+ {
20411
+ "epoch": 0.2698605566163282,
20412
+ "grad_norm": 0.138671875,
20413
+ "learning_rate": 0.02,
20414
+ "loss": 1.6701,
20415
+ "step": 2915
20416
+ },
20417
+ {
20418
+ "epoch": 0.26995313313660824,
20419
+ "grad_norm": 0.154296875,
20420
+ "learning_rate": 0.02,
20421
+ "loss": 1.6751,
20422
+ "step": 2916
20423
+ },
20424
+ {
20425
+ "epoch": 0.2700457096568883,
20426
+ "grad_norm": 0.1513671875,
20427
+ "learning_rate": 0.02,
20428
+ "loss": 1.6817,
20429
+ "step": 2917
20430
+ },
20431
+ {
20432
+ "epoch": 0.27013828617716834,
20433
+ "grad_norm": 0.1494140625,
20434
+ "learning_rate": 0.02,
20435
+ "loss": 1.7306,
20436
+ "step": 2918
20437
+ },
20438
+ {
20439
+ "epoch": 0.27023086269744834,
20440
+ "grad_norm": 0.142578125,
20441
+ "learning_rate": 0.02,
20442
+ "loss": 1.6562,
20443
+ "step": 2919
20444
+ },
20445
+ {
20446
+ "epoch": 0.2703234392177284,
20447
+ "grad_norm": 0.142578125,
20448
+ "learning_rate": 0.02,
20449
+ "loss": 1.5626,
20450
+ "step": 2920
20451
+ },
20452
+ {
20453
+ "epoch": 0.27041601573800844,
20454
+ "grad_norm": 0.1416015625,
20455
+ "learning_rate": 0.02,
20456
+ "loss": 1.6434,
20457
+ "step": 2921
20458
+ },
20459
+ {
20460
+ "epoch": 0.2705085922582885,
20461
+ "grad_norm": 0.1513671875,
20462
+ "learning_rate": 0.02,
20463
+ "loss": 1.6845,
20464
+ "step": 2922
20465
+ },
20466
+ {
20467
+ "epoch": 0.27060116877856855,
20468
+ "grad_norm": 0.1435546875,
20469
+ "learning_rate": 0.02,
20470
+ "loss": 1.6769,
20471
+ "step": 2923
20472
+ },
20473
+ {
20474
+ "epoch": 0.2706937452988486,
20475
+ "grad_norm": 0.146484375,
20476
+ "learning_rate": 0.02,
20477
+ "loss": 1.6294,
20478
+ "step": 2924
20479
+ },
20480
+ {
20481
+ "epoch": 0.27078632181912865,
20482
+ "grad_norm": 0.1435546875,
20483
+ "learning_rate": 0.02,
20484
+ "loss": 1.6379,
20485
+ "step": 2925
20486
+ },
20487
+ {
20488
+ "epoch": 0.27087889833940865,
20489
+ "grad_norm": 0.142578125,
20490
+ "learning_rate": 0.02,
20491
+ "loss": 1.6709,
20492
+ "step": 2926
20493
+ },
20494
+ {
20495
+ "epoch": 0.2709714748596887,
20496
+ "grad_norm": 0.1357421875,
20497
+ "learning_rate": 0.02,
20498
+ "loss": 1.586,
20499
+ "step": 2927
20500
+ },
20501
+ {
20502
+ "epoch": 0.27106405137996875,
20503
+ "grad_norm": 0.14453125,
20504
+ "learning_rate": 0.02,
20505
+ "loss": 1.5888,
20506
+ "step": 2928
20507
+ },
20508
+ {
20509
+ "epoch": 0.2711566279002488,
20510
+ "grad_norm": 0.142578125,
20511
+ "learning_rate": 0.02,
20512
+ "loss": 1.587,
20513
+ "step": 2929
20514
+ },
20515
+ {
20516
+ "epoch": 0.27124920442052886,
20517
+ "grad_norm": 0.146484375,
20518
+ "learning_rate": 0.02,
20519
+ "loss": 1.6487,
20520
+ "step": 2930
20521
+ },
20522
+ {
20523
+ "epoch": 0.2713417809408089,
20524
+ "grad_norm": 0.1474609375,
20525
+ "learning_rate": 0.02,
20526
+ "loss": 1.6153,
20527
+ "step": 2931
20528
+ },
20529
+ {
20530
+ "epoch": 0.2714343574610889,
20531
+ "grad_norm": 0.16015625,
20532
+ "learning_rate": 0.02,
20533
+ "loss": 1.6689,
20534
+ "step": 2932
20535
+ },
20536
+ {
20537
+ "epoch": 0.27152693398136896,
20538
+ "grad_norm": 0.1669921875,
20539
+ "learning_rate": 0.02,
20540
+ "loss": 1.6482,
20541
+ "step": 2933
20542
+ },
20543
+ {
20544
+ "epoch": 0.271619510501649,
20545
+ "grad_norm": 0.150390625,
20546
+ "learning_rate": 0.02,
20547
+ "loss": 1.7232,
20548
+ "step": 2934
20549
+ },
20550
+ {
20551
+ "epoch": 0.27171208702192906,
20552
+ "grad_norm": 0.14453125,
20553
+ "learning_rate": 0.02,
20554
+ "loss": 1.6562,
20555
+ "step": 2935
20556
+ },
20557
+ {
20558
+ "epoch": 0.2718046635422091,
20559
+ "grad_norm": 0.1552734375,
20560
+ "learning_rate": 0.02,
20561
+ "loss": 1.6476,
20562
+ "step": 2936
20563
+ },
20564
+ {
20565
+ "epoch": 0.27189724006248916,
20566
+ "grad_norm": 0.16015625,
20567
+ "learning_rate": 0.02,
20568
+ "loss": 1.6312,
20569
+ "step": 2937
20570
+ },
20571
+ {
20572
+ "epoch": 0.2719898165827692,
20573
+ "grad_norm": 0.15234375,
20574
+ "learning_rate": 0.02,
20575
+ "loss": 1.7164,
20576
+ "step": 2938
20577
+ },
20578
+ {
20579
+ "epoch": 0.2720823931030492,
20580
+ "grad_norm": 0.1533203125,
20581
+ "learning_rate": 0.02,
20582
+ "loss": 1.6385,
20583
+ "step": 2939
20584
+ },
20585
+ {
20586
+ "epoch": 0.27217496962332927,
20587
+ "grad_norm": 0.1455078125,
20588
+ "learning_rate": 0.02,
20589
+ "loss": 1.6087,
20590
+ "step": 2940
20591
+ },
20592
+ {
20593
+ "epoch": 0.2722675461436093,
20594
+ "grad_norm": 0.1494140625,
20595
+ "learning_rate": 0.02,
20596
+ "loss": 1.6188,
20597
+ "step": 2941
20598
+ },
20599
+ {
20600
+ "epoch": 0.27236012266388937,
20601
+ "grad_norm": 0.142578125,
20602
+ "learning_rate": 0.02,
20603
+ "loss": 1.6092,
20604
+ "step": 2942
20605
+ },
20606
+ {
20607
+ "epoch": 0.2724526991841694,
20608
+ "grad_norm": 0.14453125,
20609
+ "learning_rate": 0.02,
20610
+ "loss": 1.6976,
20611
+ "step": 2943
20612
+ },
20613
+ {
20614
+ "epoch": 0.2725452757044495,
20615
+ "grad_norm": 0.1416015625,
20616
+ "learning_rate": 0.02,
20617
+ "loss": 1.6015,
20618
+ "step": 2944
20619
+ },
20620
+ {
20621
+ "epoch": 0.2726378522247295,
20622
+ "grad_norm": 0.154296875,
20623
+ "learning_rate": 0.02,
20624
+ "loss": 1.6333,
20625
+ "step": 2945
20626
+ },
20627
+ {
20628
+ "epoch": 0.2727304287450095,
20629
+ "grad_norm": 0.158203125,
20630
+ "learning_rate": 0.02,
20631
+ "loss": 1.7133,
20632
+ "step": 2946
20633
+ },
20634
+ {
20635
+ "epoch": 0.2728230052652896,
20636
+ "grad_norm": 0.1533203125,
20637
+ "learning_rate": 0.02,
20638
+ "loss": 1.6359,
20639
+ "step": 2947
20640
+ },
20641
+ {
20642
+ "epoch": 0.2729155817855696,
20643
+ "grad_norm": 0.15625,
20644
+ "learning_rate": 0.02,
20645
+ "loss": 1.5624,
20646
+ "step": 2948
20647
+ },
20648
+ {
20649
+ "epoch": 0.2730081583058497,
20650
+ "grad_norm": 0.154296875,
20651
+ "learning_rate": 0.02,
20652
+ "loss": 1.6915,
20653
+ "step": 2949
20654
+ },
20655
+ {
20656
+ "epoch": 0.27310073482612973,
20657
+ "grad_norm": 0.154296875,
20658
+ "learning_rate": 0.02,
20659
+ "loss": 1.647,
20660
+ "step": 2950
20661
+ },
20662
+ {
20663
+ "epoch": 0.2731933113464098,
20664
+ "grad_norm": 0.158203125,
20665
+ "learning_rate": 0.02,
20666
+ "loss": 1.7084,
20667
+ "step": 2951
20668
+ },
20669
+ {
20670
+ "epoch": 0.2731933113464098,
20671
+ "eval_loss": 1.6467796564102173,
20672
+ "eval_runtime": 63.8421,
20673
+ "eval_samples_per_second": 23.871,
20674
+ "eval_steps_per_second": 5.968,
20675
+ "step": 2951
20676
+ },
20677
+ {
20678
+ "epoch": 0.27328588786668984,
20679
+ "grad_norm": 0.1552734375,
20680
+ "learning_rate": 0.02,
20681
+ "loss": 1.6319,
20682
+ "step": 2952
20683
  }
20684
  ],
20685
  "logging_steps": 1,
 
20693
  "should_epoch_stop": false,
20694
  "should_evaluate": false,
20695
  "should_log": false,
20696
+ "should_save": true,
20697
  "should_training_stop": false
20698
  },
20699
  "attributes": {}
20700
  }
20701
  },
20702
+ "total_flos": 2.600022217489206e+18,
20703
  "train_batch_size": 8,
20704
  "trial_name": null,
20705
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f0fa2dff4a28ea392527801a97cefbeaf6a58926b48909a38e969e48c1da3623
3
  size 6289
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a499b9bb471364e5825828d6af1b283be4f20e4fd8b98f02f170cadf22e490d7
3
  size 6289