Ba2han commited on
Commit
f47729c
·
verified ·
1 Parent(s): f5d576d

Training in progress, step 2700, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:54932d33ebcf25bfd3c895c34573324d8adbafd1f70c81b5a2545943b888b88d
3
  size 1229999800
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:89238a08b358a0c70ad5e7fc890d3908036739a605af401c0e364bdc47e68d85
3
  size 1229999800
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7a4e17e5d1f66bc9871b4e88176179cee4d65f598036901d05a6524ec93c2542
3
  size 490531915
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:37d605dabe9f85ed056ce1b7f2f229bfd451a288f6ce1d4f79216493cb396038
3
  size 490531915
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2769ffe98e907a39e5a96dab75149dc1fea62d048c5ad6016b2e3232bd23df8e
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f7c8b32ae9584f3191fca40d3a805b4272cfbf9dfe2760f7809fc0c4a810f28f
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.06,
6
  "eval_steps": 3000,
7
- "global_step": 1800,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -6308,6 +6308,3156 @@
6308
  "learning_rate": 0.024,
6309
  "loss": 2.5452637672424316,
6310
  "step": 1800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6311
  }
6312
  ],
6313
  "logging_steps": 2,
@@ -6327,7 +9477,7 @@
6327
  "attributes": {}
6328
  }
6329
  },
6330
- "total_flos": 6.353926565071421e+18,
6331
  "train_batch_size": 4,
6332
  "trial_name": null,
6333
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.09,
6
  "eval_steps": 3000,
7
+ "global_step": 2700,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
6308
  "learning_rate": 0.024,
6309
  "loss": 2.5452637672424316,
6310
  "step": 1800
6311
+ },
6312
+ {
6313
+ "epoch": 0.060066666666666664,
6314
+ "grad_norm": 0.12451171875,
6315
+ "learning_rate": 0.024,
6316
+ "loss": 2.569338798522949,
6317
+ "step": 1802
6318
+ },
6319
+ {
6320
+ "epoch": 0.06013333333333333,
6321
+ "grad_norm": 0.1259765625,
6322
+ "learning_rate": 0.024,
6323
+ "loss": 2.5777580738067627,
6324
+ "step": 1804
6325
+ },
6326
+ {
6327
+ "epoch": 0.0602,
6328
+ "grad_norm": 0.123046875,
6329
+ "learning_rate": 0.024,
6330
+ "loss": 2.5599722862243652,
6331
+ "step": 1806
6332
+ },
6333
+ {
6334
+ "epoch": 0.06026666666666667,
6335
+ "grad_norm": 0.1259765625,
6336
+ "learning_rate": 0.024,
6337
+ "loss": 2.573601722717285,
6338
+ "step": 1808
6339
+ },
6340
+ {
6341
+ "epoch": 0.060333333333333336,
6342
+ "grad_norm": 0.119140625,
6343
+ "learning_rate": 0.024,
6344
+ "loss": 2.5864529609680176,
6345
+ "step": 1810
6346
+ },
6347
+ {
6348
+ "epoch": 0.0604,
6349
+ "grad_norm": 0.1318359375,
6350
+ "learning_rate": 0.024,
6351
+ "loss": 2.5724658966064453,
6352
+ "step": 1812
6353
+ },
6354
+ {
6355
+ "epoch": 0.06046666666666667,
6356
+ "grad_norm": 0.123046875,
6357
+ "learning_rate": 0.024,
6358
+ "loss": 2.56249737739563,
6359
+ "step": 1814
6360
+ },
6361
+ {
6362
+ "epoch": 0.060533333333333335,
6363
+ "grad_norm": 0.11669921875,
6364
+ "learning_rate": 0.024,
6365
+ "loss": 2.570132255554199,
6366
+ "step": 1816
6367
+ },
6368
+ {
6369
+ "epoch": 0.0606,
6370
+ "grad_norm": 0.109375,
6371
+ "learning_rate": 0.024,
6372
+ "loss": 2.5228590965270996,
6373
+ "step": 1818
6374
+ },
6375
+ {
6376
+ "epoch": 0.06066666666666667,
6377
+ "grad_norm": 0.111328125,
6378
+ "learning_rate": 0.024,
6379
+ "loss": 2.5534024238586426,
6380
+ "step": 1820
6381
+ },
6382
+ {
6383
+ "epoch": 0.060733333333333334,
6384
+ "grad_norm": 0.1240234375,
6385
+ "learning_rate": 0.024,
6386
+ "loss": 2.5609068870544434,
6387
+ "step": 1822
6388
+ },
6389
+ {
6390
+ "epoch": 0.0608,
6391
+ "grad_norm": 0.140625,
6392
+ "learning_rate": 0.024,
6393
+ "loss": 2.567209243774414,
6394
+ "step": 1824
6395
+ },
6396
+ {
6397
+ "epoch": 0.060866666666666666,
6398
+ "grad_norm": 0.1455078125,
6399
+ "learning_rate": 0.024,
6400
+ "loss": 2.5738117694854736,
6401
+ "step": 1826
6402
+ },
6403
+ {
6404
+ "epoch": 0.06093333333333333,
6405
+ "grad_norm": 0.1318359375,
6406
+ "learning_rate": 0.024,
6407
+ "loss": 2.5670642852783203,
6408
+ "step": 1828
6409
+ },
6410
+ {
6411
+ "epoch": 0.061,
6412
+ "grad_norm": 0.134765625,
6413
+ "learning_rate": 0.024,
6414
+ "loss": 2.559083938598633,
6415
+ "step": 1830
6416
+ },
6417
+ {
6418
+ "epoch": 0.061066666666666665,
6419
+ "grad_norm": 0.1357421875,
6420
+ "learning_rate": 0.024,
6421
+ "loss": 2.5296576023101807,
6422
+ "step": 1832
6423
+ },
6424
+ {
6425
+ "epoch": 0.06113333333333333,
6426
+ "grad_norm": 0.1259765625,
6427
+ "learning_rate": 0.024,
6428
+ "loss": 2.533463478088379,
6429
+ "step": 1834
6430
+ },
6431
+ {
6432
+ "epoch": 0.0612,
6433
+ "grad_norm": 0.1396484375,
6434
+ "learning_rate": 0.024,
6435
+ "loss": 2.559816360473633,
6436
+ "step": 1836
6437
+ },
6438
+ {
6439
+ "epoch": 0.061266666666666664,
6440
+ "grad_norm": 0.134765625,
6441
+ "learning_rate": 0.024,
6442
+ "loss": 2.576200008392334,
6443
+ "step": 1838
6444
+ },
6445
+ {
6446
+ "epoch": 0.06133333333333333,
6447
+ "grad_norm": 0.126953125,
6448
+ "learning_rate": 0.024,
6449
+ "loss": 2.545314073562622,
6450
+ "step": 1840
6451
+ },
6452
+ {
6453
+ "epoch": 0.0614,
6454
+ "grad_norm": 0.1259765625,
6455
+ "learning_rate": 0.024,
6456
+ "loss": 2.5452423095703125,
6457
+ "step": 1842
6458
+ },
6459
+ {
6460
+ "epoch": 0.06146666666666667,
6461
+ "grad_norm": 0.12060546875,
6462
+ "learning_rate": 0.024,
6463
+ "loss": 2.554497480392456,
6464
+ "step": 1844
6465
+ },
6466
+ {
6467
+ "epoch": 0.061533333333333336,
6468
+ "grad_norm": 0.134765625,
6469
+ "learning_rate": 0.024,
6470
+ "loss": 2.5747251510620117,
6471
+ "step": 1846
6472
+ },
6473
+ {
6474
+ "epoch": 0.0616,
6475
+ "grad_norm": 0.12890625,
6476
+ "learning_rate": 0.024,
6477
+ "loss": 2.572216033935547,
6478
+ "step": 1848
6479
+ },
6480
+ {
6481
+ "epoch": 0.06166666666666667,
6482
+ "grad_norm": 0.1298828125,
6483
+ "learning_rate": 0.024,
6484
+ "loss": 2.575991630554199,
6485
+ "step": 1850
6486
+ },
6487
+ {
6488
+ "epoch": 0.061733333333333335,
6489
+ "grad_norm": 0.123046875,
6490
+ "learning_rate": 0.024,
6491
+ "loss": 2.519928455352783,
6492
+ "step": 1852
6493
+ },
6494
+ {
6495
+ "epoch": 0.0618,
6496
+ "grad_norm": 0.125,
6497
+ "learning_rate": 0.024,
6498
+ "loss": 2.5588929653167725,
6499
+ "step": 1854
6500
+ },
6501
+ {
6502
+ "epoch": 0.06186666666666667,
6503
+ "grad_norm": 0.1435546875,
6504
+ "learning_rate": 0.024,
6505
+ "loss": 2.5480475425720215,
6506
+ "step": 1856
6507
+ },
6508
+ {
6509
+ "epoch": 0.06193333333333333,
6510
+ "grad_norm": 0.1240234375,
6511
+ "learning_rate": 0.024,
6512
+ "loss": 2.5279743671417236,
6513
+ "step": 1858
6514
+ },
6515
+ {
6516
+ "epoch": 0.062,
6517
+ "grad_norm": 0.1298828125,
6518
+ "learning_rate": 0.024,
6519
+ "loss": 2.5410337448120117,
6520
+ "step": 1860
6521
+ },
6522
+ {
6523
+ "epoch": 0.062066666666666666,
6524
+ "grad_norm": 0.13671875,
6525
+ "learning_rate": 0.024,
6526
+ "loss": 2.5687594413757324,
6527
+ "step": 1862
6528
+ },
6529
+ {
6530
+ "epoch": 0.06213333333333333,
6531
+ "grad_norm": 0.1337890625,
6532
+ "learning_rate": 0.024,
6533
+ "loss": 2.5404186248779297,
6534
+ "step": 1864
6535
+ },
6536
+ {
6537
+ "epoch": 0.0622,
6538
+ "grad_norm": 0.134765625,
6539
+ "learning_rate": 0.024,
6540
+ "loss": 2.5329010486602783,
6541
+ "step": 1866
6542
+ },
6543
+ {
6544
+ "epoch": 0.062266666666666665,
6545
+ "grad_norm": 0.134765625,
6546
+ "learning_rate": 0.024,
6547
+ "loss": 2.5459961891174316,
6548
+ "step": 1868
6549
+ },
6550
+ {
6551
+ "epoch": 0.06233333333333333,
6552
+ "grad_norm": 0.12353515625,
6553
+ "learning_rate": 0.024,
6554
+ "loss": 2.548553943634033,
6555
+ "step": 1870
6556
+ },
6557
+ {
6558
+ "epoch": 0.0624,
6559
+ "grad_norm": 0.123046875,
6560
+ "learning_rate": 0.024,
6561
+ "loss": 2.5243616104125977,
6562
+ "step": 1872
6563
+ },
6564
+ {
6565
+ "epoch": 0.06246666666666666,
6566
+ "grad_norm": 0.126953125,
6567
+ "learning_rate": 0.024,
6568
+ "loss": 2.5530776977539062,
6569
+ "step": 1874
6570
+ },
6571
+ {
6572
+ "epoch": 0.06253333333333333,
6573
+ "grad_norm": 0.12451171875,
6574
+ "learning_rate": 0.024,
6575
+ "loss": 2.529531240463257,
6576
+ "step": 1876
6577
+ },
6578
+ {
6579
+ "epoch": 0.0626,
6580
+ "grad_norm": 0.1181640625,
6581
+ "learning_rate": 0.024,
6582
+ "loss": 2.5573575496673584,
6583
+ "step": 1878
6584
+ },
6585
+ {
6586
+ "epoch": 0.06266666666666666,
6587
+ "grad_norm": 0.1220703125,
6588
+ "learning_rate": 0.024,
6589
+ "loss": 2.563154458999634,
6590
+ "step": 1880
6591
+ },
6592
+ {
6593
+ "epoch": 0.06273333333333334,
6594
+ "grad_norm": 0.1220703125,
6595
+ "learning_rate": 0.024,
6596
+ "loss": 2.550346851348877,
6597
+ "step": 1882
6598
+ },
6599
+ {
6600
+ "epoch": 0.0628,
6601
+ "grad_norm": 0.1259765625,
6602
+ "learning_rate": 0.024,
6603
+ "loss": 2.5470595359802246,
6604
+ "step": 1884
6605
+ },
6606
+ {
6607
+ "epoch": 0.06286666666666667,
6608
+ "grad_norm": 0.1298828125,
6609
+ "learning_rate": 0.024,
6610
+ "loss": 2.547924041748047,
6611
+ "step": 1886
6612
+ },
6613
+ {
6614
+ "epoch": 0.06293333333333333,
6615
+ "grad_norm": 0.12890625,
6616
+ "learning_rate": 0.024,
6617
+ "loss": 2.5183868408203125,
6618
+ "step": 1888
6619
+ },
6620
+ {
6621
+ "epoch": 0.063,
6622
+ "grad_norm": 0.12451171875,
6623
+ "learning_rate": 0.024,
6624
+ "loss": 2.553501605987549,
6625
+ "step": 1890
6626
+ },
6627
+ {
6628
+ "epoch": 0.06306666666666666,
6629
+ "grad_norm": 0.1328125,
6630
+ "learning_rate": 0.024,
6631
+ "loss": 2.546158790588379,
6632
+ "step": 1892
6633
+ },
6634
+ {
6635
+ "epoch": 0.06313333333333333,
6636
+ "grad_norm": 0.1259765625,
6637
+ "learning_rate": 0.024,
6638
+ "loss": 2.548990488052368,
6639
+ "step": 1894
6640
+ },
6641
+ {
6642
+ "epoch": 0.0632,
6643
+ "grad_norm": 0.1298828125,
6644
+ "learning_rate": 0.024,
6645
+ "loss": 2.5339243412017822,
6646
+ "step": 1896
6647
+ },
6648
+ {
6649
+ "epoch": 0.06326666666666667,
6650
+ "grad_norm": 0.126953125,
6651
+ "learning_rate": 0.024,
6652
+ "loss": 2.51304292678833,
6653
+ "step": 1898
6654
+ },
6655
+ {
6656
+ "epoch": 0.06333333333333334,
6657
+ "grad_norm": 0.1337890625,
6658
+ "learning_rate": 0.024,
6659
+ "loss": 2.5470099449157715,
6660
+ "step": 1900
6661
+ },
6662
+ {
6663
+ "epoch": 0.0634,
6664
+ "grad_norm": 0.126953125,
6665
+ "learning_rate": 0.024,
6666
+ "loss": 2.530630588531494,
6667
+ "step": 1902
6668
+ },
6669
+ {
6670
+ "epoch": 0.06346666666666667,
6671
+ "grad_norm": 0.11962890625,
6672
+ "learning_rate": 0.024,
6673
+ "loss": 2.511193037033081,
6674
+ "step": 1904
6675
+ },
6676
+ {
6677
+ "epoch": 0.06353333333333333,
6678
+ "grad_norm": 0.1337890625,
6679
+ "learning_rate": 0.024,
6680
+ "loss": 2.5632686614990234,
6681
+ "step": 1906
6682
+ },
6683
+ {
6684
+ "epoch": 0.0636,
6685
+ "grad_norm": 0.134765625,
6686
+ "learning_rate": 0.024,
6687
+ "loss": 2.5192604064941406,
6688
+ "step": 1908
6689
+ },
6690
+ {
6691
+ "epoch": 0.06366666666666666,
6692
+ "grad_norm": 0.1396484375,
6693
+ "learning_rate": 0.024,
6694
+ "loss": 2.5467233657836914,
6695
+ "step": 1910
6696
+ },
6697
+ {
6698
+ "epoch": 0.06373333333333334,
6699
+ "grad_norm": 0.126953125,
6700
+ "learning_rate": 0.024,
6701
+ "loss": 2.5744805335998535,
6702
+ "step": 1912
6703
+ },
6704
+ {
6705
+ "epoch": 0.0638,
6706
+ "grad_norm": 0.138671875,
6707
+ "learning_rate": 0.024,
6708
+ "loss": 2.5504322052001953,
6709
+ "step": 1914
6710
+ },
6711
+ {
6712
+ "epoch": 0.06386666666666667,
6713
+ "grad_norm": 0.12109375,
6714
+ "learning_rate": 0.024,
6715
+ "loss": 2.5278401374816895,
6716
+ "step": 1916
6717
+ },
6718
+ {
6719
+ "epoch": 0.06393333333333333,
6720
+ "grad_norm": 0.1318359375,
6721
+ "learning_rate": 0.024,
6722
+ "loss": 2.5411078929901123,
6723
+ "step": 1918
6724
+ },
6725
+ {
6726
+ "epoch": 0.064,
6727
+ "grad_norm": 0.1279296875,
6728
+ "learning_rate": 0.024,
6729
+ "loss": 2.559210777282715,
6730
+ "step": 1920
6731
+ },
6732
+ {
6733
+ "epoch": 0.06406666666666666,
6734
+ "grad_norm": 0.126953125,
6735
+ "learning_rate": 0.024,
6736
+ "loss": 2.569319248199463,
6737
+ "step": 1922
6738
+ },
6739
+ {
6740
+ "epoch": 0.06413333333333333,
6741
+ "grad_norm": 0.138671875,
6742
+ "learning_rate": 0.024,
6743
+ "loss": 2.5676989555358887,
6744
+ "step": 1924
6745
+ },
6746
+ {
6747
+ "epoch": 0.0642,
6748
+ "grad_norm": 0.14453125,
6749
+ "learning_rate": 0.024,
6750
+ "loss": 2.544966697692871,
6751
+ "step": 1926
6752
+ },
6753
+ {
6754
+ "epoch": 0.06426666666666667,
6755
+ "grad_norm": 0.134765625,
6756
+ "learning_rate": 0.024,
6757
+ "loss": 2.56976318359375,
6758
+ "step": 1928
6759
+ },
6760
+ {
6761
+ "epoch": 0.06433333333333334,
6762
+ "grad_norm": 0.142578125,
6763
+ "learning_rate": 0.024,
6764
+ "loss": 2.552765369415283,
6765
+ "step": 1930
6766
+ },
6767
+ {
6768
+ "epoch": 0.0644,
6769
+ "grad_norm": 0.1259765625,
6770
+ "learning_rate": 0.024,
6771
+ "loss": 2.5527706146240234,
6772
+ "step": 1932
6773
+ },
6774
+ {
6775
+ "epoch": 0.06446666666666667,
6776
+ "grad_norm": 0.12353515625,
6777
+ "learning_rate": 0.024,
6778
+ "loss": 2.545017957687378,
6779
+ "step": 1934
6780
+ },
6781
+ {
6782
+ "epoch": 0.06453333333333333,
6783
+ "grad_norm": 0.125,
6784
+ "learning_rate": 0.024,
6785
+ "loss": 2.547788619995117,
6786
+ "step": 1936
6787
+ },
6788
+ {
6789
+ "epoch": 0.0646,
6790
+ "grad_norm": 0.12890625,
6791
+ "learning_rate": 0.024,
6792
+ "loss": 2.543565034866333,
6793
+ "step": 1938
6794
+ },
6795
+ {
6796
+ "epoch": 0.06466666666666666,
6797
+ "grad_norm": 0.1416015625,
6798
+ "learning_rate": 0.024,
6799
+ "loss": 2.5435585975646973,
6800
+ "step": 1940
6801
+ },
6802
+ {
6803
+ "epoch": 0.06473333333333334,
6804
+ "grad_norm": 0.134765625,
6805
+ "learning_rate": 0.024,
6806
+ "loss": 2.555972099304199,
6807
+ "step": 1942
6808
+ },
6809
+ {
6810
+ "epoch": 0.0648,
6811
+ "grad_norm": 0.13671875,
6812
+ "learning_rate": 0.024,
6813
+ "loss": 2.556340217590332,
6814
+ "step": 1944
6815
+ },
6816
+ {
6817
+ "epoch": 0.06486666666666667,
6818
+ "grad_norm": 0.1396484375,
6819
+ "learning_rate": 0.024,
6820
+ "loss": 2.538971185684204,
6821
+ "step": 1946
6822
+ },
6823
+ {
6824
+ "epoch": 0.06493333333333333,
6825
+ "grad_norm": 0.119140625,
6826
+ "learning_rate": 0.024,
6827
+ "loss": 2.553755283355713,
6828
+ "step": 1948
6829
+ },
6830
+ {
6831
+ "epoch": 0.065,
6832
+ "grad_norm": 0.125,
6833
+ "learning_rate": 0.024,
6834
+ "loss": 2.539469003677368,
6835
+ "step": 1950
6836
+ },
6837
+ {
6838
+ "epoch": 0.06506666666666666,
6839
+ "grad_norm": 0.11865234375,
6840
+ "learning_rate": 0.024,
6841
+ "loss": 2.527385711669922,
6842
+ "step": 1952
6843
+ },
6844
+ {
6845
+ "epoch": 0.06513333333333333,
6846
+ "grad_norm": 0.1201171875,
6847
+ "learning_rate": 0.024,
6848
+ "loss": 2.5588977336883545,
6849
+ "step": 1954
6850
+ },
6851
+ {
6852
+ "epoch": 0.0652,
6853
+ "grad_norm": 0.1259765625,
6854
+ "learning_rate": 0.024,
6855
+ "loss": 2.5593953132629395,
6856
+ "step": 1956
6857
+ },
6858
+ {
6859
+ "epoch": 0.06526666666666667,
6860
+ "grad_norm": 0.11572265625,
6861
+ "learning_rate": 0.024,
6862
+ "loss": 2.5357370376586914,
6863
+ "step": 1958
6864
+ },
6865
+ {
6866
+ "epoch": 0.06533333333333333,
6867
+ "grad_norm": 0.1162109375,
6868
+ "learning_rate": 0.024,
6869
+ "loss": 2.5383386611938477,
6870
+ "step": 1960
6871
+ },
6872
+ {
6873
+ "epoch": 0.0654,
6874
+ "grad_norm": 0.1171875,
6875
+ "learning_rate": 0.024,
6876
+ "loss": 2.544996738433838,
6877
+ "step": 1962
6878
+ },
6879
+ {
6880
+ "epoch": 0.06546666666666667,
6881
+ "grad_norm": 0.119140625,
6882
+ "learning_rate": 0.024,
6883
+ "loss": 2.5530028343200684,
6884
+ "step": 1964
6885
+ },
6886
+ {
6887
+ "epoch": 0.06553333333333333,
6888
+ "grad_norm": 0.11962890625,
6889
+ "learning_rate": 0.024,
6890
+ "loss": 2.5257625579833984,
6891
+ "step": 1966
6892
+ },
6893
+ {
6894
+ "epoch": 0.0656,
6895
+ "grad_norm": 0.16015625,
6896
+ "learning_rate": 0.024,
6897
+ "loss": 2.5441951751708984,
6898
+ "step": 1968
6899
+ },
6900
+ {
6901
+ "epoch": 0.06566666666666666,
6902
+ "grad_norm": 0.15625,
6903
+ "learning_rate": 0.024,
6904
+ "loss": 2.571016788482666,
6905
+ "step": 1970
6906
+ },
6907
+ {
6908
+ "epoch": 0.06573333333333334,
6909
+ "grad_norm": 0.1513671875,
6910
+ "learning_rate": 0.024,
6911
+ "loss": 2.5555129051208496,
6912
+ "step": 1972
6913
+ },
6914
+ {
6915
+ "epoch": 0.0658,
6916
+ "grad_norm": 0.15625,
6917
+ "learning_rate": 0.024,
6918
+ "loss": 2.529484748840332,
6919
+ "step": 1974
6920
+ },
6921
+ {
6922
+ "epoch": 0.06586666666666667,
6923
+ "grad_norm": 0.1533203125,
6924
+ "learning_rate": 0.024,
6925
+ "loss": 2.5483548641204834,
6926
+ "step": 1976
6927
+ },
6928
+ {
6929
+ "epoch": 0.06593333333333333,
6930
+ "grad_norm": 0.1396484375,
6931
+ "learning_rate": 0.024,
6932
+ "loss": 2.5214314460754395,
6933
+ "step": 1978
6934
+ },
6935
+ {
6936
+ "epoch": 0.066,
6937
+ "grad_norm": 0.13671875,
6938
+ "learning_rate": 0.024,
6939
+ "loss": 2.5474371910095215,
6940
+ "step": 1980
6941
+ },
6942
+ {
6943
+ "epoch": 0.06606666666666666,
6944
+ "grad_norm": 0.1435546875,
6945
+ "learning_rate": 0.024,
6946
+ "loss": 2.5462963581085205,
6947
+ "step": 1982
6948
+ },
6949
+ {
6950
+ "epoch": 0.06613333333333334,
6951
+ "grad_norm": 0.134765625,
6952
+ "learning_rate": 0.024,
6953
+ "loss": 2.5304617881774902,
6954
+ "step": 1984
6955
+ },
6956
+ {
6957
+ "epoch": 0.0662,
6958
+ "grad_norm": 0.12890625,
6959
+ "learning_rate": 0.024,
6960
+ "loss": 2.5452170372009277,
6961
+ "step": 1986
6962
+ },
6963
+ {
6964
+ "epoch": 0.06626666666666667,
6965
+ "grad_norm": 0.126953125,
6966
+ "learning_rate": 0.024,
6967
+ "loss": 2.5242438316345215,
6968
+ "step": 1988
6969
+ },
6970
+ {
6971
+ "epoch": 0.06633333333333333,
6972
+ "grad_norm": 0.12451171875,
6973
+ "learning_rate": 0.024,
6974
+ "loss": 2.541255474090576,
6975
+ "step": 1990
6976
+ },
6977
+ {
6978
+ "epoch": 0.0664,
6979
+ "grad_norm": 0.1259765625,
6980
+ "learning_rate": 0.024,
6981
+ "loss": 2.558724880218506,
6982
+ "step": 1992
6983
+ },
6984
+ {
6985
+ "epoch": 0.06646666666666666,
6986
+ "grad_norm": 0.1318359375,
6987
+ "learning_rate": 0.024,
6988
+ "loss": 2.545896053314209,
6989
+ "step": 1994
6990
+ },
6991
+ {
6992
+ "epoch": 0.06653333333333333,
6993
+ "grad_norm": 0.115234375,
6994
+ "learning_rate": 0.024,
6995
+ "loss": 2.518601655960083,
6996
+ "step": 1996
6997
+ },
6998
+ {
6999
+ "epoch": 0.0666,
7000
+ "grad_norm": 0.134765625,
7001
+ "learning_rate": 0.024,
7002
+ "loss": 2.5202219486236572,
7003
+ "step": 1998
7004
+ },
7005
+ {
7006
+ "epoch": 0.06666666666666667,
7007
+ "grad_norm": 0.1328125,
7008
+ "learning_rate": 0.024,
7009
+ "loss": 2.5155420303344727,
7010
+ "step": 2000
7011
+ },
7012
+ {
7013
+ "epoch": 0.06673333333333334,
7014
+ "grad_norm": 0.12451171875,
7015
+ "learning_rate": 0.024,
7016
+ "loss": 2.5277628898620605,
7017
+ "step": 2002
7018
+ },
7019
+ {
7020
+ "epoch": 0.0668,
7021
+ "grad_norm": 0.1259765625,
7022
+ "learning_rate": 0.024,
7023
+ "loss": 2.519035577774048,
7024
+ "step": 2004
7025
+ },
7026
+ {
7027
+ "epoch": 0.06686666666666667,
7028
+ "grad_norm": 0.1298828125,
7029
+ "learning_rate": 0.024,
7030
+ "loss": 2.539534091949463,
7031
+ "step": 2006
7032
+ },
7033
+ {
7034
+ "epoch": 0.06693333333333333,
7035
+ "grad_norm": 0.1337890625,
7036
+ "learning_rate": 0.024,
7037
+ "loss": 2.537809133529663,
7038
+ "step": 2008
7039
+ },
7040
+ {
7041
+ "epoch": 0.067,
7042
+ "grad_norm": 0.1396484375,
7043
+ "learning_rate": 0.024,
7044
+ "loss": 2.552292823791504,
7045
+ "step": 2010
7046
+ },
7047
+ {
7048
+ "epoch": 0.06706666666666666,
7049
+ "grad_norm": 0.13671875,
7050
+ "learning_rate": 0.024,
7051
+ "loss": 2.5333142280578613,
7052
+ "step": 2012
7053
+ },
7054
+ {
7055
+ "epoch": 0.06713333333333334,
7056
+ "grad_norm": 0.12060546875,
7057
+ "learning_rate": 0.024,
7058
+ "loss": 2.499540328979492,
7059
+ "step": 2014
7060
+ },
7061
+ {
7062
+ "epoch": 0.0672,
7063
+ "grad_norm": 0.1328125,
7064
+ "learning_rate": 0.024,
7065
+ "loss": 2.5161995887756348,
7066
+ "step": 2016
7067
+ },
7068
+ {
7069
+ "epoch": 0.06726666666666667,
7070
+ "grad_norm": 0.1328125,
7071
+ "learning_rate": 0.024,
7072
+ "loss": 2.5145719051361084,
7073
+ "step": 2018
7074
+ },
7075
+ {
7076
+ "epoch": 0.06733333333333333,
7077
+ "grad_norm": 0.1259765625,
7078
+ "learning_rate": 0.024,
7079
+ "loss": 2.550220489501953,
7080
+ "step": 2020
7081
+ },
7082
+ {
7083
+ "epoch": 0.0674,
7084
+ "grad_norm": 0.1298828125,
7085
+ "learning_rate": 0.024,
7086
+ "loss": 2.5368566513061523,
7087
+ "step": 2022
7088
+ },
7089
+ {
7090
+ "epoch": 0.06746666666666666,
7091
+ "grad_norm": 0.12109375,
7092
+ "learning_rate": 0.024,
7093
+ "loss": 2.5455024242401123,
7094
+ "step": 2024
7095
+ },
7096
+ {
7097
+ "epoch": 0.06753333333333333,
7098
+ "grad_norm": 0.1328125,
7099
+ "learning_rate": 0.024,
7100
+ "loss": 2.5259101390838623,
7101
+ "step": 2026
7102
+ },
7103
+ {
7104
+ "epoch": 0.0676,
7105
+ "grad_norm": 0.1318359375,
7106
+ "learning_rate": 0.024,
7107
+ "loss": 2.520277738571167,
7108
+ "step": 2028
7109
+ },
7110
+ {
7111
+ "epoch": 0.06766666666666667,
7112
+ "grad_norm": 0.1416015625,
7113
+ "learning_rate": 0.024,
7114
+ "loss": 2.535874843597412,
7115
+ "step": 2030
7116
+ },
7117
+ {
7118
+ "epoch": 0.06773333333333334,
7119
+ "grad_norm": 0.1494140625,
7120
+ "learning_rate": 0.024,
7121
+ "loss": 2.5386714935302734,
7122
+ "step": 2032
7123
+ },
7124
+ {
7125
+ "epoch": 0.0678,
7126
+ "grad_norm": 0.142578125,
7127
+ "learning_rate": 0.024,
7128
+ "loss": 2.5651144981384277,
7129
+ "step": 2034
7130
+ },
7131
+ {
7132
+ "epoch": 0.06786666666666667,
7133
+ "grad_norm": 0.140625,
7134
+ "learning_rate": 0.024,
7135
+ "loss": 2.551469326019287,
7136
+ "step": 2036
7137
+ },
7138
+ {
7139
+ "epoch": 0.06793333333333333,
7140
+ "grad_norm": 0.130859375,
7141
+ "learning_rate": 0.024,
7142
+ "loss": 2.5224156379699707,
7143
+ "step": 2038
7144
+ },
7145
+ {
7146
+ "epoch": 0.068,
7147
+ "grad_norm": 0.1328125,
7148
+ "learning_rate": 0.024,
7149
+ "loss": 2.5141685009002686,
7150
+ "step": 2040
7151
+ },
7152
+ {
7153
+ "epoch": 0.06806666666666666,
7154
+ "grad_norm": 0.126953125,
7155
+ "learning_rate": 0.024,
7156
+ "loss": 2.5304462909698486,
7157
+ "step": 2042
7158
+ },
7159
+ {
7160
+ "epoch": 0.06813333333333334,
7161
+ "grad_norm": 0.1357421875,
7162
+ "learning_rate": 0.024,
7163
+ "loss": 2.488400459289551,
7164
+ "step": 2044
7165
+ },
7166
+ {
7167
+ "epoch": 0.0682,
7168
+ "grad_norm": 0.123046875,
7169
+ "learning_rate": 0.024,
7170
+ "loss": 2.5380659103393555,
7171
+ "step": 2046
7172
+ },
7173
+ {
7174
+ "epoch": 0.06826666666666667,
7175
+ "grad_norm": 0.125,
7176
+ "learning_rate": 0.024,
7177
+ "loss": 2.4991705417633057,
7178
+ "step": 2048
7179
+ },
7180
+ {
7181
+ "epoch": 0.06833333333333333,
7182
+ "grad_norm": 0.1259765625,
7183
+ "learning_rate": 0.024,
7184
+ "loss": 2.5209641456604004,
7185
+ "step": 2050
7186
+ },
7187
+ {
7188
+ "epoch": 0.0684,
7189
+ "grad_norm": 0.130859375,
7190
+ "learning_rate": 0.024,
7191
+ "loss": 2.5099904537200928,
7192
+ "step": 2052
7193
+ },
7194
+ {
7195
+ "epoch": 0.06846666666666666,
7196
+ "grad_norm": 0.142578125,
7197
+ "learning_rate": 0.024,
7198
+ "loss": 2.5184130668640137,
7199
+ "step": 2054
7200
+ },
7201
+ {
7202
+ "epoch": 0.06853333333333333,
7203
+ "grad_norm": 0.154296875,
7204
+ "learning_rate": 0.024,
7205
+ "loss": 2.5453414916992188,
7206
+ "step": 2056
7207
+ },
7208
+ {
7209
+ "epoch": 0.0686,
7210
+ "grad_norm": 0.1337890625,
7211
+ "learning_rate": 0.024,
7212
+ "loss": 2.510538101196289,
7213
+ "step": 2058
7214
+ },
7215
+ {
7216
+ "epoch": 0.06866666666666667,
7217
+ "grad_norm": 0.126953125,
7218
+ "learning_rate": 0.024,
7219
+ "loss": 2.500110387802124,
7220
+ "step": 2060
7221
+ },
7222
+ {
7223
+ "epoch": 0.06873333333333333,
7224
+ "grad_norm": 0.134765625,
7225
+ "learning_rate": 0.024,
7226
+ "loss": 2.5305421352386475,
7227
+ "step": 2062
7228
+ },
7229
+ {
7230
+ "epoch": 0.0688,
7231
+ "grad_norm": 0.1455078125,
7232
+ "learning_rate": 0.024,
7233
+ "loss": 2.5203981399536133,
7234
+ "step": 2064
7235
+ },
7236
+ {
7237
+ "epoch": 0.06886666666666667,
7238
+ "grad_norm": 0.134765625,
7239
+ "learning_rate": 0.024,
7240
+ "loss": 2.529106616973877,
7241
+ "step": 2066
7242
+ },
7243
+ {
7244
+ "epoch": 0.06893333333333333,
7245
+ "grad_norm": 0.1328125,
7246
+ "learning_rate": 0.024,
7247
+ "loss": 2.520951986312866,
7248
+ "step": 2068
7249
+ },
7250
+ {
7251
+ "epoch": 0.069,
7252
+ "grad_norm": 0.134765625,
7253
+ "learning_rate": 0.024,
7254
+ "loss": 2.5203216075897217,
7255
+ "step": 2070
7256
+ },
7257
+ {
7258
+ "epoch": 0.06906666666666667,
7259
+ "grad_norm": 0.1416015625,
7260
+ "learning_rate": 0.024,
7261
+ "loss": 2.526902198791504,
7262
+ "step": 2072
7263
+ },
7264
+ {
7265
+ "epoch": 0.06913333333333334,
7266
+ "grad_norm": 0.123046875,
7267
+ "learning_rate": 0.024,
7268
+ "loss": 2.490509510040283,
7269
+ "step": 2074
7270
+ },
7271
+ {
7272
+ "epoch": 0.0692,
7273
+ "grad_norm": 0.1357421875,
7274
+ "learning_rate": 0.024,
7275
+ "loss": 2.523263931274414,
7276
+ "step": 2076
7277
+ },
7278
+ {
7279
+ "epoch": 0.06926666666666667,
7280
+ "grad_norm": 0.1279296875,
7281
+ "learning_rate": 0.024,
7282
+ "loss": 2.540936231613159,
7283
+ "step": 2078
7284
+ },
7285
+ {
7286
+ "epoch": 0.06933333333333333,
7287
+ "grad_norm": 0.12890625,
7288
+ "learning_rate": 0.024,
7289
+ "loss": 2.5226340293884277,
7290
+ "step": 2080
7291
+ },
7292
+ {
7293
+ "epoch": 0.0694,
7294
+ "grad_norm": 0.12890625,
7295
+ "learning_rate": 0.024,
7296
+ "loss": 2.5141401290893555,
7297
+ "step": 2082
7298
+ },
7299
+ {
7300
+ "epoch": 0.06946666666666666,
7301
+ "grad_norm": 0.138671875,
7302
+ "learning_rate": 0.024,
7303
+ "loss": 2.514082431793213,
7304
+ "step": 2084
7305
+ },
7306
+ {
7307
+ "epoch": 0.06953333333333334,
7308
+ "grad_norm": 0.1416015625,
7309
+ "learning_rate": 0.024,
7310
+ "loss": 2.512528657913208,
7311
+ "step": 2086
7312
+ },
7313
+ {
7314
+ "epoch": 0.0696,
7315
+ "grad_norm": 0.1337890625,
7316
+ "learning_rate": 0.024,
7317
+ "loss": 2.53226900100708,
7318
+ "step": 2088
7319
+ },
7320
+ {
7321
+ "epoch": 0.06966666666666667,
7322
+ "grad_norm": 0.1376953125,
7323
+ "learning_rate": 0.024,
7324
+ "loss": 2.524186611175537,
7325
+ "step": 2090
7326
+ },
7327
+ {
7328
+ "epoch": 0.06973333333333333,
7329
+ "grad_norm": 0.146484375,
7330
+ "learning_rate": 0.024,
7331
+ "loss": 2.5241150856018066,
7332
+ "step": 2092
7333
+ },
7334
+ {
7335
+ "epoch": 0.0698,
7336
+ "grad_norm": 0.1337890625,
7337
+ "learning_rate": 0.024,
7338
+ "loss": 2.5103323459625244,
7339
+ "step": 2094
7340
+ },
7341
+ {
7342
+ "epoch": 0.06986666666666666,
7343
+ "grad_norm": 0.1318359375,
7344
+ "learning_rate": 0.024,
7345
+ "loss": 2.5076236724853516,
7346
+ "step": 2096
7347
+ },
7348
+ {
7349
+ "epoch": 0.06993333333333333,
7350
+ "grad_norm": 0.1142578125,
7351
+ "learning_rate": 0.024,
7352
+ "loss": 2.514268398284912,
7353
+ "step": 2098
7354
+ },
7355
+ {
7356
+ "epoch": 0.07,
7357
+ "grad_norm": 0.1318359375,
7358
+ "learning_rate": 0.024,
7359
+ "loss": 2.5267558097839355,
7360
+ "step": 2100
7361
+ },
7362
+ {
7363
+ "epoch": 0.07006666666666667,
7364
+ "grad_norm": 0.14453125,
7365
+ "learning_rate": 0.024,
7366
+ "loss": 2.513030767440796,
7367
+ "step": 2102
7368
+ },
7369
+ {
7370
+ "epoch": 0.07013333333333334,
7371
+ "grad_norm": 0.1279296875,
7372
+ "learning_rate": 0.024,
7373
+ "loss": 2.5348806381225586,
7374
+ "step": 2104
7375
+ },
7376
+ {
7377
+ "epoch": 0.0702,
7378
+ "grad_norm": 0.12890625,
7379
+ "learning_rate": 0.024,
7380
+ "loss": 2.520638942718506,
7381
+ "step": 2106
7382
+ },
7383
+ {
7384
+ "epoch": 0.07026666666666667,
7385
+ "grad_norm": 0.1376953125,
7386
+ "learning_rate": 0.024,
7387
+ "loss": 2.513845682144165,
7388
+ "step": 2108
7389
+ },
7390
+ {
7391
+ "epoch": 0.07033333333333333,
7392
+ "grad_norm": 0.130859375,
7393
+ "learning_rate": 0.024,
7394
+ "loss": 2.5257697105407715,
7395
+ "step": 2110
7396
+ },
7397
+ {
7398
+ "epoch": 0.0704,
7399
+ "grad_norm": 0.130859375,
7400
+ "learning_rate": 0.024,
7401
+ "loss": 2.5159904956817627,
7402
+ "step": 2112
7403
+ },
7404
+ {
7405
+ "epoch": 0.07046666666666666,
7406
+ "grad_norm": 0.126953125,
7407
+ "learning_rate": 0.024,
7408
+ "loss": 2.515014171600342,
7409
+ "step": 2114
7410
+ },
7411
+ {
7412
+ "epoch": 0.07053333333333334,
7413
+ "grad_norm": 0.1357421875,
7414
+ "learning_rate": 0.024,
7415
+ "loss": 2.531278133392334,
7416
+ "step": 2116
7417
+ },
7418
+ {
7419
+ "epoch": 0.0706,
7420
+ "grad_norm": 0.140625,
7421
+ "learning_rate": 0.024,
7422
+ "loss": 2.5393929481506348,
7423
+ "step": 2118
7424
+ },
7425
+ {
7426
+ "epoch": 0.07066666666666667,
7427
+ "grad_norm": 0.1279296875,
7428
+ "learning_rate": 0.024,
7429
+ "loss": 2.5215487480163574,
7430
+ "step": 2120
7431
+ },
7432
+ {
7433
+ "epoch": 0.07073333333333333,
7434
+ "grad_norm": 0.1357421875,
7435
+ "learning_rate": 0.024,
7436
+ "loss": 2.5300040245056152,
7437
+ "step": 2122
7438
+ },
7439
+ {
7440
+ "epoch": 0.0708,
7441
+ "grad_norm": 0.126953125,
7442
+ "learning_rate": 0.024,
7443
+ "loss": 2.5426228046417236,
7444
+ "step": 2124
7445
+ },
7446
+ {
7447
+ "epoch": 0.07086666666666666,
7448
+ "grad_norm": 0.134765625,
7449
+ "learning_rate": 0.024,
7450
+ "loss": 2.5463128089904785,
7451
+ "step": 2126
7452
+ },
7453
+ {
7454
+ "epoch": 0.07093333333333333,
7455
+ "grad_norm": 0.12158203125,
7456
+ "learning_rate": 0.024,
7457
+ "loss": 2.496859550476074,
7458
+ "step": 2128
7459
+ },
7460
+ {
7461
+ "epoch": 0.071,
7462
+ "grad_norm": 0.12353515625,
7463
+ "learning_rate": 0.024,
7464
+ "loss": 2.525080680847168,
7465
+ "step": 2130
7466
+ },
7467
+ {
7468
+ "epoch": 0.07106666666666667,
7469
+ "grad_norm": 0.12158203125,
7470
+ "learning_rate": 0.024,
7471
+ "loss": 2.5107860565185547,
7472
+ "step": 2132
7473
+ },
7474
+ {
7475
+ "epoch": 0.07113333333333334,
7476
+ "grad_norm": 0.119140625,
7477
+ "learning_rate": 0.024,
7478
+ "loss": 2.5021870136260986,
7479
+ "step": 2134
7480
+ },
7481
+ {
7482
+ "epoch": 0.0712,
7483
+ "grad_norm": 0.11962890625,
7484
+ "learning_rate": 0.024,
7485
+ "loss": 2.512336254119873,
7486
+ "step": 2136
7487
+ },
7488
+ {
7489
+ "epoch": 0.07126666666666667,
7490
+ "grad_norm": 0.125,
7491
+ "learning_rate": 0.024,
7492
+ "loss": 2.490960121154785,
7493
+ "step": 2138
7494
+ },
7495
+ {
7496
+ "epoch": 0.07133333333333333,
7497
+ "grad_norm": 0.134765625,
7498
+ "learning_rate": 0.024,
7499
+ "loss": 2.5399327278137207,
7500
+ "step": 2140
7501
+ },
7502
+ {
7503
+ "epoch": 0.0714,
7504
+ "grad_norm": 0.1416015625,
7505
+ "learning_rate": 0.024,
7506
+ "loss": 2.5249319076538086,
7507
+ "step": 2142
7508
+ },
7509
+ {
7510
+ "epoch": 0.07146666666666666,
7511
+ "grad_norm": 0.1513671875,
7512
+ "learning_rate": 0.024,
7513
+ "loss": 2.524134397506714,
7514
+ "step": 2144
7515
+ },
7516
+ {
7517
+ "epoch": 0.07153333333333334,
7518
+ "grad_norm": 0.142578125,
7519
+ "learning_rate": 0.024,
7520
+ "loss": 2.5025577545166016,
7521
+ "step": 2146
7522
+ },
7523
+ {
7524
+ "epoch": 0.0716,
7525
+ "grad_norm": 0.1435546875,
7526
+ "learning_rate": 0.024,
7527
+ "loss": 2.5362634658813477,
7528
+ "step": 2148
7529
+ },
7530
+ {
7531
+ "epoch": 0.07166666666666667,
7532
+ "grad_norm": 0.1416015625,
7533
+ "learning_rate": 0.024,
7534
+ "loss": 2.5437891483306885,
7535
+ "step": 2150
7536
+ },
7537
+ {
7538
+ "epoch": 0.07173333333333333,
7539
+ "grad_norm": 0.146484375,
7540
+ "learning_rate": 0.024,
7541
+ "loss": 2.5564589500427246,
7542
+ "step": 2152
7543
+ },
7544
+ {
7545
+ "epoch": 0.0718,
7546
+ "grad_norm": 0.134765625,
7547
+ "learning_rate": 0.024,
7548
+ "loss": 2.5114998817443848,
7549
+ "step": 2154
7550
+ },
7551
+ {
7552
+ "epoch": 0.07186666666666666,
7553
+ "grad_norm": 0.142578125,
7554
+ "learning_rate": 0.024,
7555
+ "loss": 2.545654058456421,
7556
+ "step": 2156
7557
+ },
7558
+ {
7559
+ "epoch": 0.07193333333333334,
7560
+ "grad_norm": 0.1416015625,
7561
+ "learning_rate": 0.024,
7562
+ "loss": 2.4990549087524414,
7563
+ "step": 2158
7564
+ },
7565
+ {
7566
+ "epoch": 0.072,
7567
+ "grad_norm": 0.123046875,
7568
+ "learning_rate": 0.024,
7569
+ "loss": 2.505018472671509,
7570
+ "step": 2160
7571
+ },
7572
+ {
7573
+ "epoch": 0.07206666666666667,
7574
+ "grad_norm": 0.1279296875,
7575
+ "learning_rate": 0.024,
7576
+ "loss": 2.5265235900878906,
7577
+ "step": 2162
7578
+ },
7579
+ {
7580
+ "epoch": 0.07213333333333333,
7581
+ "grad_norm": 0.126953125,
7582
+ "learning_rate": 0.024,
7583
+ "loss": 2.4940223693847656,
7584
+ "step": 2164
7585
+ },
7586
+ {
7587
+ "epoch": 0.0722,
7588
+ "grad_norm": 0.13671875,
7589
+ "learning_rate": 0.024,
7590
+ "loss": 2.5442395210266113,
7591
+ "step": 2166
7592
+ },
7593
+ {
7594
+ "epoch": 0.07226666666666667,
7595
+ "grad_norm": 0.138671875,
7596
+ "learning_rate": 0.024,
7597
+ "loss": 2.530285120010376,
7598
+ "step": 2168
7599
+ },
7600
+ {
7601
+ "epoch": 0.07233333333333333,
7602
+ "grad_norm": 0.1298828125,
7603
+ "learning_rate": 0.024,
7604
+ "loss": 2.522183656692505,
7605
+ "step": 2170
7606
+ },
7607
+ {
7608
+ "epoch": 0.0724,
7609
+ "grad_norm": 0.1337890625,
7610
+ "learning_rate": 0.024,
7611
+ "loss": 2.535551071166992,
7612
+ "step": 2172
7613
+ },
7614
+ {
7615
+ "epoch": 0.07246666666666667,
7616
+ "grad_norm": 0.13671875,
7617
+ "learning_rate": 0.024,
7618
+ "loss": 2.514585494995117,
7619
+ "step": 2174
7620
+ },
7621
+ {
7622
+ "epoch": 0.07253333333333334,
7623
+ "grad_norm": 0.1396484375,
7624
+ "learning_rate": 0.024,
7625
+ "loss": 2.520874500274658,
7626
+ "step": 2176
7627
+ },
7628
+ {
7629
+ "epoch": 0.0726,
7630
+ "grad_norm": 0.134765625,
7631
+ "learning_rate": 0.024,
7632
+ "loss": 2.496281623840332,
7633
+ "step": 2178
7634
+ },
7635
+ {
7636
+ "epoch": 0.07266666666666667,
7637
+ "grad_norm": 0.13671875,
7638
+ "learning_rate": 0.024,
7639
+ "loss": 2.5122807025909424,
7640
+ "step": 2180
7641
+ },
7642
+ {
7643
+ "epoch": 0.07273333333333333,
7644
+ "grad_norm": 0.138671875,
7645
+ "learning_rate": 0.024,
7646
+ "loss": 2.520357608795166,
7647
+ "step": 2182
7648
+ },
7649
+ {
7650
+ "epoch": 0.0728,
7651
+ "grad_norm": 0.1318359375,
7652
+ "learning_rate": 0.024,
7653
+ "loss": 2.5027403831481934,
7654
+ "step": 2184
7655
+ },
7656
+ {
7657
+ "epoch": 0.07286666666666666,
7658
+ "grad_norm": 0.1318359375,
7659
+ "learning_rate": 0.024,
7660
+ "loss": 2.5386621952056885,
7661
+ "step": 2186
7662
+ },
7663
+ {
7664
+ "epoch": 0.07293333333333334,
7665
+ "grad_norm": 0.1337890625,
7666
+ "learning_rate": 0.024,
7667
+ "loss": 2.502387523651123,
7668
+ "step": 2188
7669
+ },
7670
+ {
7671
+ "epoch": 0.073,
7672
+ "grad_norm": 0.1318359375,
7673
+ "learning_rate": 0.024,
7674
+ "loss": 2.528862476348877,
7675
+ "step": 2190
7676
+ },
7677
+ {
7678
+ "epoch": 0.07306666666666667,
7679
+ "grad_norm": 0.1337890625,
7680
+ "learning_rate": 0.024,
7681
+ "loss": 2.5131232738494873,
7682
+ "step": 2192
7683
+ },
7684
+ {
7685
+ "epoch": 0.07313333333333333,
7686
+ "grad_norm": 0.1435546875,
7687
+ "learning_rate": 0.024,
7688
+ "loss": 2.5242111682891846,
7689
+ "step": 2194
7690
+ },
7691
+ {
7692
+ "epoch": 0.0732,
7693
+ "grad_norm": 0.1435546875,
7694
+ "learning_rate": 0.024,
7695
+ "loss": 2.518951177597046,
7696
+ "step": 2196
7697
+ },
7698
+ {
7699
+ "epoch": 0.07326666666666666,
7700
+ "grad_norm": 0.1416015625,
7701
+ "learning_rate": 0.024,
7702
+ "loss": 2.4943814277648926,
7703
+ "step": 2198
7704
+ },
7705
+ {
7706
+ "epoch": 0.07333333333333333,
7707
+ "grad_norm": 0.14453125,
7708
+ "learning_rate": 0.024,
7709
+ "loss": 2.514301300048828,
7710
+ "step": 2200
7711
+ },
7712
+ {
7713
+ "epoch": 0.0734,
7714
+ "grad_norm": 0.1376953125,
7715
+ "learning_rate": 0.024,
7716
+ "loss": 2.5048890113830566,
7717
+ "step": 2202
7718
+ },
7719
+ {
7720
+ "epoch": 0.07346666666666667,
7721
+ "grad_norm": 0.140625,
7722
+ "learning_rate": 0.024,
7723
+ "loss": 2.5223183631896973,
7724
+ "step": 2204
7725
+ },
7726
+ {
7727
+ "epoch": 0.07353333333333334,
7728
+ "grad_norm": 0.13671875,
7729
+ "learning_rate": 0.024,
7730
+ "loss": 2.536425828933716,
7731
+ "step": 2206
7732
+ },
7733
+ {
7734
+ "epoch": 0.0736,
7735
+ "grad_norm": 0.13671875,
7736
+ "learning_rate": 0.024,
7737
+ "loss": 2.532869577407837,
7738
+ "step": 2208
7739
+ },
7740
+ {
7741
+ "epoch": 0.07366666666666667,
7742
+ "grad_norm": 0.1279296875,
7743
+ "learning_rate": 0.024,
7744
+ "loss": 2.48431658744812,
7745
+ "step": 2210
7746
+ },
7747
+ {
7748
+ "epoch": 0.07373333333333333,
7749
+ "grad_norm": 0.1259765625,
7750
+ "learning_rate": 0.024,
7751
+ "loss": 2.509939432144165,
7752
+ "step": 2212
7753
+ },
7754
+ {
7755
+ "epoch": 0.0738,
7756
+ "grad_norm": 0.13671875,
7757
+ "learning_rate": 0.024,
7758
+ "loss": 2.514744997024536,
7759
+ "step": 2214
7760
+ },
7761
+ {
7762
+ "epoch": 0.07386666666666666,
7763
+ "grad_norm": 0.138671875,
7764
+ "learning_rate": 0.024,
7765
+ "loss": 2.5346953868865967,
7766
+ "step": 2216
7767
+ },
7768
+ {
7769
+ "epoch": 0.07393333333333334,
7770
+ "grad_norm": 0.140625,
7771
+ "learning_rate": 0.024,
7772
+ "loss": 2.5324933528900146,
7773
+ "step": 2218
7774
+ },
7775
+ {
7776
+ "epoch": 0.074,
7777
+ "grad_norm": 0.12890625,
7778
+ "learning_rate": 0.024,
7779
+ "loss": 2.5055108070373535,
7780
+ "step": 2220
7781
+ },
7782
+ {
7783
+ "epoch": 0.07406666666666667,
7784
+ "grad_norm": 0.134765625,
7785
+ "learning_rate": 0.024,
7786
+ "loss": 2.507762908935547,
7787
+ "step": 2222
7788
+ },
7789
+ {
7790
+ "epoch": 0.07413333333333333,
7791
+ "grad_norm": 0.1396484375,
7792
+ "learning_rate": 0.024,
7793
+ "loss": 2.5312764644622803,
7794
+ "step": 2224
7795
+ },
7796
+ {
7797
+ "epoch": 0.0742,
7798
+ "grad_norm": 0.1318359375,
7799
+ "learning_rate": 0.024,
7800
+ "loss": 2.523515224456787,
7801
+ "step": 2226
7802
+ },
7803
+ {
7804
+ "epoch": 0.07426666666666666,
7805
+ "grad_norm": 0.1259765625,
7806
+ "learning_rate": 0.024,
7807
+ "loss": 2.5554890632629395,
7808
+ "step": 2228
7809
+ },
7810
+ {
7811
+ "epoch": 0.07433333333333333,
7812
+ "grad_norm": 0.1318359375,
7813
+ "learning_rate": 0.024,
7814
+ "loss": 2.520169734954834,
7815
+ "step": 2230
7816
+ },
7817
+ {
7818
+ "epoch": 0.0744,
7819
+ "grad_norm": 0.1318359375,
7820
+ "learning_rate": 0.024,
7821
+ "loss": 2.4945826530456543,
7822
+ "step": 2232
7823
+ },
7824
+ {
7825
+ "epoch": 0.07446666666666667,
7826
+ "grad_norm": 0.1376953125,
7827
+ "learning_rate": 0.024,
7828
+ "loss": 2.507697105407715,
7829
+ "step": 2234
7830
+ },
7831
+ {
7832
+ "epoch": 0.07453333333333333,
7833
+ "grad_norm": 0.1416015625,
7834
+ "learning_rate": 0.024,
7835
+ "loss": 2.522549629211426,
7836
+ "step": 2236
7837
+ },
7838
+ {
7839
+ "epoch": 0.0746,
7840
+ "grad_norm": 0.1396484375,
7841
+ "learning_rate": 0.024,
7842
+ "loss": 2.5305752754211426,
7843
+ "step": 2238
7844
+ },
7845
+ {
7846
+ "epoch": 0.07466666666666667,
7847
+ "grad_norm": 0.138671875,
7848
+ "learning_rate": 0.024,
7849
+ "loss": 2.52522611618042,
7850
+ "step": 2240
7851
+ },
7852
+ {
7853
+ "epoch": 0.07473333333333333,
7854
+ "grad_norm": 0.1298828125,
7855
+ "learning_rate": 0.024,
7856
+ "loss": 2.529209852218628,
7857
+ "step": 2242
7858
+ },
7859
+ {
7860
+ "epoch": 0.0748,
7861
+ "grad_norm": 0.140625,
7862
+ "learning_rate": 0.024,
7863
+ "loss": 2.5129199028015137,
7864
+ "step": 2244
7865
+ },
7866
+ {
7867
+ "epoch": 0.07486666666666666,
7868
+ "grad_norm": 0.13671875,
7869
+ "learning_rate": 0.024,
7870
+ "loss": 2.55380916595459,
7871
+ "step": 2246
7872
+ },
7873
+ {
7874
+ "epoch": 0.07493333333333334,
7875
+ "grad_norm": 0.1259765625,
7876
+ "learning_rate": 0.024,
7877
+ "loss": 2.5148444175720215,
7878
+ "step": 2248
7879
+ },
7880
+ {
7881
+ "epoch": 0.075,
7882
+ "grad_norm": 0.1279296875,
7883
+ "learning_rate": 0.024,
7884
+ "loss": 2.5343594551086426,
7885
+ "step": 2250
7886
+ },
7887
+ {
7888
+ "epoch": 0.07506666666666667,
7889
+ "grad_norm": 0.1298828125,
7890
+ "learning_rate": 0.024,
7891
+ "loss": 2.53523588180542,
7892
+ "step": 2252
7893
+ },
7894
+ {
7895
+ "epoch": 0.07513333333333333,
7896
+ "grad_norm": 0.130859375,
7897
+ "learning_rate": 0.024,
7898
+ "loss": 2.5026402473449707,
7899
+ "step": 2254
7900
+ },
7901
+ {
7902
+ "epoch": 0.0752,
7903
+ "grad_norm": 0.13671875,
7904
+ "learning_rate": 0.024,
7905
+ "loss": 2.5246546268463135,
7906
+ "step": 2256
7907
+ },
7908
+ {
7909
+ "epoch": 0.07526666666666666,
7910
+ "grad_norm": 0.138671875,
7911
+ "learning_rate": 0.024,
7912
+ "loss": 2.5268139839172363,
7913
+ "step": 2258
7914
+ },
7915
+ {
7916
+ "epoch": 0.07533333333333334,
7917
+ "grad_norm": 0.134765625,
7918
+ "learning_rate": 0.024,
7919
+ "loss": 2.488208532333374,
7920
+ "step": 2260
7921
+ },
7922
+ {
7923
+ "epoch": 0.0754,
7924
+ "grad_norm": 0.13671875,
7925
+ "learning_rate": 0.024,
7926
+ "loss": 2.509843111038208,
7927
+ "step": 2262
7928
+ },
7929
+ {
7930
+ "epoch": 0.07546666666666667,
7931
+ "grad_norm": 0.12451171875,
7932
+ "learning_rate": 0.024,
7933
+ "loss": 2.5116147994995117,
7934
+ "step": 2264
7935
+ },
7936
+ {
7937
+ "epoch": 0.07553333333333333,
7938
+ "grad_norm": 0.1298828125,
7939
+ "learning_rate": 0.024,
7940
+ "loss": 2.4962964057922363,
7941
+ "step": 2266
7942
+ },
7943
+ {
7944
+ "epoch": 0.0756,
7945
+ "grad_norm": 0.130859375,
7946
+ "learning_rate": 0.024,
7947
+ "loss": 2.4942378997802734,
7948
+ "step": 2268
7949
+ },
7950
+ {
7951
+ "epoch": 0.07566666666666666,
7952
+ "grad_norm": 0.126953125,
7953
+ "learning_rate": 0.024,
7954
+ "loss": 2.490889072418213,
7955
+ "step": 2270
7956
+ },
7957
+ {
7958
+ "epoch": 0.07573333333333333,
7959
+ "grad_norm": 0.130859375,
7960
+ "learning_rate": 0.024,
7961
+ "loss": 2.5039639472961426,
7962
+ "step": 2272
7963
+ },
7964
+ {
7965
+ "epoch": 0.0758,
7966
+ "grad_norm": 0.13671875,
7967
+ "learning_rate": 0.024,
7968
+ "loss": 2.5267558097839355,
7969
+ "step": 2274
7970
+ },
7971
+ {
7972
+ "epoch": 0.07586666666666667,
7973
+ "grad_norm": 0.13671875,
7974
+ "learning_rate": 0.024,
7975
+ "loss": 2.519744396209717,
7976
+ "step": 2276
7977
+ },
7978
+ {
7979
+ "epoch": 0.07593333333333334,
7980
+ "grad_norm": 0.1494140625,
7981
+ "learning_rate": 0.024,
7982
+ "loss": 2.5044825077056885,
7983
+ "step": 2278
7984
+ },
7985
+ {
7986
+ "epoch": 0.076,
7987
+ "grad_norm": 0.1435546875,
7988
+ "learning_rate": 0.024,
7989
+ "loss": 2.528287887573242,
7990
+ "step": 2280
7991
+ },
7992
+ {
7993
+ "epoch": 0.07606666666666667,
7994
+ "grad_norm": 0.134765625,
7995
+ "learning_rate": 0.024,
7996
+ "loss": 2.5060362815856934,
7997
+ "step": 2282
7998
+ },
7999
+ {
8000
+ "epoch": 0.07613333333333333,
8001
+ "grad_norm": 0.13671875,
8002
+ "learning_rate": 0.024,
8003
+ "loss": 2.501401662826538,
8004
+ "step": 2284
8005
+ },
8006
+ {
8007
+ "epoch": 0.0762,
8008
+ "grad_norm": 0.134765625,
8009
+ "learning_rate": 0.024,
8010
+ "loss": 2.493673324584961,
8011
+ "step": 2286
8012
+ },
8013
+ {
8014
+ "epoch": 0.07626666666666666,
8015
+ "grad_norm": 0.142578125,
8016
+ "learning_rate": 0.024,
8017
+ "loss": 2.5139894485473633,
8018
+ "step": 2288
8019
+ },
8020
+ {
8021
+ "epoch": 0.07633333333333334,
8022
+ "grad_norm": 0.134765625,
8023
+ "learning_rate": 0.024,
8024
+ "loss": 2.5207998752593994,
8025
+ "step": 2290
8026
+ },
8027
+ {
8028
+ "epoch": 0.0764,
8029
+ "grad_norm": 0.134765625,
8030
+ "learning_rate": 0.024,
8031
+ "loss": 2.5084922313690186,
8032
+ "step": 2292
8033
+ },
8034
+ {
8035
+ "epoch": 0.07646666666666667,
8036
+ "grad_norm": 0.1416015625,
8037
+ "learning_rate": 0.024,
8038
+ "loss": 2.491182804107666,
8039
+ "step": 2294
8040
+ },
8041
+ {
8042
+ "epoch": 0.07653333333333333,
8043
+ "grad_norm": 0.12451171875,
8044
+ "learning_rate": 0.024,
8045
+ "loss": 2.4934356212615967,
8046
+ "step": 2296
8047
+ },
8048
+ {
8049
+ "epoch": 0.0766,
8050
+ "grad_norm": 0.1435546875,
8051
+ "learning_rate": 0.024,
8052
+ "loss": 2.5145645141601562,
8053
+ "step": 2298
8054
+ },
8055
+ {
8056
+ "epoch": 0.07666666666666666,
8057
+ "grad_norm": 0.1416015625,
8058
+ "learning_rate": 0.024,
8059
+ "loss": 2.4874978065490723,
8060
+ "step": 2300
8061
+ },
8062
+ {
8063
+ "epoch": 0.07673333333333333,
8064
+ "grad_norm": 0.1357421875,
8065
+ "learning_rate": 0.024,
8066
+ "loss": 2.528188467025757,
8067
+ "step": 2302
8068
+ },
8069
+ {
8070
+ "epoch": 0.0768,
8071
+ "grad_norm": 0.1376953125,
8072
+ "learning_rate": 0.024,
8073
+ "loss": 2.517683506011963,
8074
+ "step": 2304
8075
+ },
8076
+ {
8077
+ "epoch": 0.07686666666666667,
8078
+ "grad_norm": 0.126953125,
8079
+ "learning_rate": 0.024,
8080
+ "loss": 2.5002853870391846,
8081
+ "step": 2306
8082
+ },
8083
+ {
8084
+ "epoch": 0.07693333333333334,
8085
+ "grad_norm": 0.134765625,
8086
+ "learning_rate": 0.024,
8087
+ "loss": 2.5130889415740967,
8088
+ "step": 2308
8089
+ },
8090
+ {
8091
+ "epoch": 0.077,
8092
+ "grad_norm": 0.1298828125,
8093
+ "learning_rate": 0.024,
8094
+ "loss": 2.487621307373047,
8095
+ "step": 2310
8096
+ },
8097
+ {
8098
+ "epoch": 0.07706666666666667,
8099
+ "grad_norm": 0.1298828125,
8100
+ "learning_rate": 0.024,
8101
+ "loss": 2.509045362472534,
8102
+ "step": 2312
8103
+ },
8104
+ {
8105
+ "epoch": 0.07713333333333333,
8106
+ "grad_norm": 0.12451171875,
8107
+ "learning_rate": 0.024,
8108
+ "loss": 2.5027506351470947,
8109
+ "step": 2314
8110
+ },
8111
+ {
8112
+ "epoch": 0.0772,
8113
+ "grad_norm": 0.134765625,
8114
+ "learning_rate": 0.024,
8115
+ "loss": 2.500427722930908,
8116
+ "step": 2316
8117
+ },
8118
+ {
8119
+ "epoch": 0.07726666666666666,
8120
+ "grad_norm": 0.1298828125,
8121
+ "learning_rate": 0.024,
8122
+ "loss": 2.496835708618164,
8123
+ "step": 2318
8124
+ },
8125
+ {
8126
+ "epoch": 0.07733333333333334,
8127
+ "grad_norm": 0.12060546875,
8128
+ "learning_rate": 0.024,
8129
+ "loss": 2.5054640769958496,
8130
+ "step": 2320
8131
+ },
8132
+ {
8133
+ "epoch": 0.0774,
8134
+ "grad_norm": 0.1396484375,
8135
+ "learning_rate": 0.024,
8136
+ "loss": 2.4961600303649902,
8137
+ "step": 2322
8138
+ },
8139
+ {
8140
+ "epoch": 0.07746666666666667,
8141
+ "grad_norm": 0.138671875,
8142
+ "learning_rate": 0.024,
8143
+ "loss": 2.482238292694092,
8144
+ "step": 2324
8145
+ },
8146
+ {
8147
+ "epoch": 0.07753333333333333,
8148
+ "grad_norm": 0.1416015625,
8149
+ "learning_rate": 0.024,
8150
+ "loss": 2.506683826446533,
8151
+ "step": 2326
8152
+ },
8153
+ {
8154
+ "epoch": 0.0776,
8155
+ "grad_norm": 0.1396484375,
8156
+ "learning_rate": 0.024,
8157
+ "loss": 2.4870386123657227,
8158
+ "step": 2328
8159
+ },
8160
+ {
8161
+ "epoch": 0.07766666666666666,
8162
+ "grad_norm": 0.1298828125,
8163
+ "learning_rate": 0.024,
8164
+ "loss": 2.4940545558929443,
8165
+ "step": 2330
8166
+ },
8167
+ {
8168
+ "epoch": 0.07773333333333333,
8169
+ "grad_norm": 0.1337890625,
8170
+ "learning_rate": 0.024,
8171
+ "loss": 2.506056308746338,
8172
+ "step": 2332
8173
+ },
8174
+ {
8175
+ "epoch": 0.0778,
8176
+ "grad_norm": 0.1357421875,
8177
+ "learning_rate": 0.024,
8178
+ "loss": 2.468635320663452,
8179
+ "step": 2334
8180
+ },
8181
+ {
8182
+ "epoch": 0.07786666666666667,
8183
+ "grad_norm": 0.146484375,
8184
+ "learning_rate": 0.024,
8185
+ "loss": 2.532853603363037,
8186
+ "step": 2336
8187
+ },
8188
+ {
8189
+ "epoch": 0.07793333333333333,
8190
+ "grad_norm": 0.1318359375,
8191
+ "learning_rate": 0.024,
8192
+ "loss": 2.5033726692199707,
8193
+ "step": 2338
8194
+ },
8195
+ {
8196
+ "epoch": 0.078,
8197
+ "grad_norm": 0.146484375,
8198
+ "learning_rate": 0.024,
8199
+ "loss": 2.511658191680908,
8200
+ "step": 2340
8201
+ },
8202
+ {
8203
+ "epoch": 0.07806666666666667,
8204
+ "grad_norm": 0.134765625,
8205
+ "learning_rate": 0.024,
8206
+ "loss": 2.527937412261963,
8207
+ "step": 2342
8208
+ },
8209
+ {
8210
+ "epoch": 0.07813333333333333,
8211
+ "grad_norm": 0.1259765625,
8212
+ "learning_rate": 0.024,
8213
+ "loss": 2.488713026046753,
8214
+ "step": 2344
8215
+ },
8216
+ {
8217
+ "epoch": 0.0782,
8218
+ "grad_norm": 0.1435546875,
8219
+ "learning_rate": 0.024,
8220
+ "loss": 2.492262125015259,
8221
+ "step": 2346
8222
+ },
8223
+ {
8224
+ "epoch": 0.07826666666666666,
8225
+ "grad_norm": 0.1328125,
8226
+ "learning_rate": 0.024,
8227
+ "loss": 2.4996371269226074,
8228
+ "step": 2348
8229
+ },
8230
+ {
8231
+ "epoch": 0.07833333333333334,
8232
+ "grad_norm": 0.1328125,
8233
+ "learning_rate": 0.024,
8234
+ "loss": 2.491748332977295,
8235
+ "step": 2350
8236
+ },
8237
+ {
8238
+ "epoch": 0.0784,
8239
+ "grad_norm": 0.1279296875,
8240
+ "learning_rate": 0.024,
8241
+ "loss": 2.50101375579834,
8242
+ "step": 2352
8243
+ },
8244
+ {
8245
+ "epoch": 0.07846666666666667,
8246
+ "grad_norm": 0.12451171875,
8247
+ "learning_rate": 0.024,
8248
+ "loss": 2.469797134399414,
8249
+ "step": 2354
8250
+ },
8251
+ {
8252
+ "epoch": 0.07853333333333333,
8253
+ "grad_norm": 0.1162109375,
8254
+ "learning_rate": 0.024,
8255
+ "loss": 2.5174248218536377,
8256
+ "step": 2356
8257
+ },
8258
+ {
8259
+ "epoch": 0.0786,
8260
+ "grad_norm": 0.126953125,
8261
+ "learning_rate": 0.024,
8262
+ "loss": 2.4905271530151367,
8263
+ "step": 2358
8264
+ },
8265
+ {
8266
+ "epoch": 0.07866666666666666,
8267
+ "grad_norm": 0.11865234375,
8268
+ "learning_rate": 0.024,
8269
+ "loss": 2.478358745574951,
8270
+ "step": 2360
8271
+ },
8272
+ {
8273
+ "epoch": 0.07873333333333334,
8274
+ "grad_norm": 0.12255859375,
8275
+ "learning_rate": 0.024,
8276
+ "loss": 2.524962902069092,
8277
+ "step": 2362
8278
+ },
8279
+ {
8280
+ "epoch": 0.0788,
8281
+ "grad_norm": 0.1162109375,
8282
+ "learning_rate": 0.024,
8283
+ "loss": 2.47163724899292,
8284
+ "step": 2364
8285
+ },
8286
+ {
8287
+ "epoch": 0.07886666666666667,
8288
+ "grad_norm": 0.1240234375,
8289
+ "learning_rate": 0.024,
8290
+ "loss": 2.507870674133301,
8291
+ "step": 2366
8292
+ },
8293
+ {
8294
+ "epoch": 0.07893333333333333,
8295
+ "grad_norm": 0.1494140625,
8296
+ "learning_rate": 0.024,
8297
+ "loss": 2.509158134460449,
8298
+ "step": 2368
8299
+ },
8300
+ {
8301
+ "epoch": 0.079,
8302
+ "grad_norm": 0.146484375,
8303
+ "learning_rate": 0.024,
8304
+ "loss": 2.4933276176452637,
8305
+ "step": 2370
8306
+ },
8307
+ {
8308
+ "epoch": 0.07906666666666666,
8309
+ "grad_norm": 0.14453125,
8310
+ "learning_rate": 0.024,
8311
+ "loss": 2.463233470916748,
8312
+ "step": 2372
8313
+ },
8314
+ {
8315
+ "epoch": 0.07913333333333333,
8316
+ "grad_norm": 0.1396484375,
8317
+ "learning_rate": 0.024,
8318
+ "loss": 2.485257387161255,
8319
+ "step": 2374
8320
+ },
8321
+ {
8322
+ "epoch": 0.0792,
8323
+ "grad_norm": 0.14453125,
8324
+ "learning_rate": 0.024,
8325
+ "loss": 2.5096302032470703,
8326
+ "step": 2376
8327
+ },
8328
+ {
8329
+ "epoch": 0.07926666666666667,
8330
+ "grad_norm": 0.1396484375,
8331
+ "learning_rate": 0.024,
8332
+ "loss": 2.468250036239624,
8333
+ "step": 2378
8334
+ },
8335
+ {
8336
+ "epoch": 0.07933333333333334,
8337
+ "grad_norm": 0.1376953125,
8338
+ "learning_rate": 0.024,
8339
+ "loss": 2.50042724609375,
8340
+ "step": 2380
8341
+ },
8342
+ {
8343
+ "epoch": 0.0794,
8344
+ "grad_norm": 0.13671875,
8345
+ "learning_rate": 0.024,
8346
+ "loss": 2.4752354621887207,
8347
+ "step": 2382
8348
+ },
8349
+ {
8350
+ "epoch": 0.07946666666666667,
8351
+ "grad_norm": 0.1318359375,
8352
+ "learning_rate": 0.024,
8353
+ "loss": 2.474621295928955,
8354
+ "step": 2384
8355
+ },
8356
+ {
8357
+ "epoch": 0.07953333333333333,
8358
+ "grad_norm": 0.1259765625,
8359
+ "learning_rate": 0.024,
8360
+ "loss": 2.4954416751861572,
8361
+ "step": 2386
8362
+ },
8363
+ {
8364
+ "epoch": 0.0796,
8365
+ "grad_norm": 0.134765625,
8366
+ "learning_rate": 0.024,
8367
+ "loss": 2.463834285736084,
8368
+ "step": 2388
8369
+ },
8370
+ {
8371
+ "epoch": 0.07966666666666666,
8372
+ "grad_norm": 0.1298828125,
8373
+ "learning_rate": 0.024,
8374
+ "loss": 2.4888548851013184,
8375
+ "step": 2390
8376
+ },
8377
+ {
8378
+ "epoch": 0.07973333333333334,
8379
+ "grad_norm": 0.138671875,
8380
+ "learning_rate": 0.024,
8381
+ "loss": 2.4717626571655273,
8382
+ "step": 2392
8383
+ },
8384
+ {
8385
+ "epoch": 0.0798,
8386
+ "grad_norm": 0.13671875,
8387
+ "learning_rate": 0.024,
8388
+ "loss": 2.4812471866607666,
8389
+ "step": 2394
8390
+ },
8391
+ {
8392
+ "epoch": 0.07986666666666667,
8393
+ "grad_norm": 0.1328125,
8394
+ "learning_rate": 0.024,
8395
+ "loss": 2.486240863800049,
8396
+ "step": 2396
8397
+ },
8398
+ {
8399
+ "epoch": 0.07993333333333333,
8400
+ "grad_norm": 0.1279296875,
8401
+ "learning_rate": 0.024,
8402
+ "loss": 2.474318027496338,
8403
+ "step": 2398
8404
+ },
8405
+ {
8406
+ "epoch": 0.08,
8407
+ "grad_norm": 0.126953125,
8408
+ "learning_rate": 0.024,
8409
+ "loss": 2.489696979522705,
8410
+ "step": 2400
8411
+ },
8412
+ {
8413
+ "epoch": 0.08006666666666666,
8414
+ "grad_norm": 0.130859375,
8415
+ "learning_rate": 0.024,
8416
+ "loss": 2.4938652515411377,
8417
+ "step": 2402
8418
+ },
8419
+ {
8420
+ "epoch": 0.08013333333333333,
8421
+ "grad_norm": 0.1279296875,
8422
+ "learning_rate": 0.024,
8423
+ "loss": 2.4822235107421875,
8424
+ "step": 2404
8425
+ },
8426
+ {
8427
+ "epoch": 0.0802,
8428
+ "grad_norm": 0.1376953125,
8429
+ "learning_rate": 0.024,
8430
+ "loss": 2.4559247493743896,
8431
+ "step": 2406
8432
+ },
8433
+ {
8434
+ "epoch": 0.08026666666666667,
8435
+ "grad_norm": 0.12890625,
8436
+ "learning_rate": 0.024,
8437
+ "loss": 2.46779203414917,
8438
+ "step": 2408
8439
+ },
8440
+ {
8441
+ "epoch": 0.08033333333333334,
8442
+ "grad_norm": 0.142578125,
8443
+ "learning_rate": 0.024,
8444
+ "loss": 2.485757827758789,
8445
+ "step": 2410
8446
+ },
8447
+ {
8448
+ "epoch": 0.0804,
8449
+ "grad_norm": 0.130859375,
8450
+ "learning_rate": 0.024,
8451
+ "loss": 2.48610782623291,
8452
+ "step": 2412
8453
+ },
8454
+ {
8455
+ "epoch": 0.08046666666666667,
8456
+ "grad_norm": 0.1376953125,
8457
+ "learning_rate": 0.024,
8458
+ "loss": 2.488147735595703,
8459
+ "step": 2414
8460
+ },
8461
+ {
8462
+ "epoch": 0.08053333333333333,
8463
+ "grad_norm": 0.1318359375,
8464
+ "learning_rate": 0.024,
8465
+ "loss": 2.4799294471740723,
8466
+ "step": 2416
8467
+ },
8468
+ {
8469
+ "epoch": 0.0806,
8470
+ "grad_norm": 0.1337890625,
8471
+ "learning_rate": 0.024,
8472
+ "loss": 2.481074333190918,
8473
+ "step": 2418
8474
+ },
8475
+ {
8476
+ "epoch": 0.08066666666666666,
8477
+ "grad_norm": 0.130859375,
8478
+ "learning_rate": 0.024,
8479
+ "loss": 2.4997544288635254,
8480
+ "step": 2420
8481
+ },
8482
+ {
8483
+ "epoch": 0.08073333333333334,
8484
+ "grad_norm": 0.1298828125,
8485
+ "learning_rate": 0.024,
8486
+ "loss": 2.4875309467315674,
8487
+ "step": 2422
8488
+ },
8489
+ {
8490
+ "epoch": 0.0808,
8491
+ "grad_norm": 0.12890625,
8492
+ "learning_rate": 0.024,
8493
+ "loss": 2.4688830375671387,
8494
+ "step": 2424
8495
+ },
8496
+ {
8497
+ "epoch": 0.08086666666666667,
8498
+ "grad_norm": 0.1279296875,
8499
+ "learning_rate": 0.024,
8500
+ "loss": 2.490117311477661,
8501
+ "step": 2426
8502
+ },
8503
+ {
8504
+ "epoch": 0.08093333333333333,
8505
+ "grad_norm": 0.12890625,
8506
+ "learning_rate": 0.024,
8507
+ "loss": 2.481964111328125,
8508
+ "step": 2428
8509
+ },
8510
+ {
8511
+ "epoch": 0.081,
8512
+ "grad_norm": 0.1318359375,
8513
+ "learning_rate": 0.024,
8514
+ "loss": 2.481565475463867,
8515
+ "step": 2430
8516
+ },
8517
+ {
8518
+ "epoch": 0.08106666666666666,
8519
+ "grad_norm": 0.1318359375,
8520
+ "learning_rate": 0.024,
8521
+ "loss": 2.4859671592712402,
8522
+ "step": 2432
8523
+ },
8524
+ {
8525
+ "epoch": 0.08113333333333334,
8526
+ "grad_norm": 0.1318359375,
8527
+ "learning_rate": 0.024,
8528
+ "loss": 2.487536668777466,
8529
+ "step": 2434
8530
+ },
8531
+ {
8532
+ "epoch": 0.0812,
8533
+ "grad_norm": 0.1357421875,
8534
+ "learning_rate": 0.024,
8535
+ "loss": 2.477055072784424,
8536
+ "step": 2436
8537
+ },
8538
+ {
8539
+ "epoch": 0.08126666666666667,
8540
+ "grad_norm": 0.130859375,
8541
+ "learning_rate": 0.024,
8542
+ "loss": 2.4863100051879883,
8543
+ "step": 2438
8544
+ },
8545
+ {
8546
+ "epoch": 0.08133333333333333,
8547
+ "grad_norm": 0.1376953125,
8548
+ "learning_rate": 0.024,
8549
+ "loss": 2.4700167179107666,
8550
+ "step": 2440
8551
+ },
8552
+ {
8553
+ "epoch": 0.0814,
8554
+ "grad_norm": 0.1376953125,
8555
+ "learning_rate": 0.024,
8556
+ "loss": 2.477933645248413,
8557
+ "step": 2442
8558
+ },
8559
+ {
8560
+ "epoch": 0.08146666666666667,
8561
+ "grad_norm": 0.1357421875,
8562
+ "learning_rate": 0.024,
8563
+ "loss": 2.463407516479492,
8564
+ "step": 2444
8565
+ },
8566
+ {
8567
+ "epoch": 0.08153333333333333,
8568
+ "grad_norm": 0.140625,
8569
+ "learning_rate": 0.024,
8570
+ "loss": 2.4872241020202637,
8571
+ "step": 2446
8572
+ },
8573
+ {
8574
+ "epoch": 0.0816,
8575
+ "grad_norm": 0.1357421875,
8576
+ "learning_rate": 0.024,
8577
+ "loss": 2.489342212677002,
8578
+ "step": 2448
8579
+ },
8580
+ {
8581
+ "epoch": 0.08166666666666667,
8582
+ "grad_norm": 0.1328125,
8583
+ "learning_rate": 0.024,
8584
+ "loss": 2.462839126586914,
8585
+ "step": 2450
8586
+ },
8587
+ {
8588
+ "epoch": 0.08173333333333334,
8589
+ "grad_norm": 0.138671875,
8590
+ "learning_rate": 0.024,
8591
+ "loss": 2.469646692276001,
8592
+ "step": 2452
8593
+ },
8594
+ {
8595
+ "epoch": 0.0818,
8596
+ "grad_norm": 0.1328125,
8597
+ "learning_rate": 0.024,
8598
+ "loss": 2.4553442001342773,
8599
+ "step": 2454
8600
+ },
8601
+ {
8602
+ "epoch": 0.08186666666666667,
8603
+ "grad_norm": 0.1357421875,
8604
+ "learning_rate": 0.024,
8605
+ "loss": 2.4894590377807617,
8606
+ "step": 2456
8607
+ },
8608
+ {
8609
+ "epoch": 0.08193333333333333,
8610
+ "grad_norm": 0.12255859375,
8611
+ "learning_rate": 0.024,
8612
+ "loss": 2.4684720039367676,
8613
+ "step": 2458
8614
+ },
8615
+ {
8616
+ "epoch": 0.082,
8617
+ "grad_norm": 0.1318359375,
8618
+ "learning_rate": 0.024,
8619
+ "loss": 2.4616589546203613,
8620
+ "step": 2460
8621
+ },
8622
+ {
8623
+ "epoch": 0.08206666666666666,
8624
+ "grad_norm": 0.123046875,
8625
+ "learning_rate": 0.024,
8626
+ "loss": 2.4741649627685547,
8627
+ "step": 2462
8628
+ },
8629
+ {
8630
+ "epoch": 0.08213333333333334,
8631
+ "grad_norm": 0.1328125,
8632
+ "learning_rate": 0.024,
8633
+ "loss": 2.488070011138916,
8634
+ "step": 2464
8635
+ },
8636
+ {
8637
+ "epoch": 0.0822,
8638
+ "grad_norm": 0.134765625,
8639
+ "learning_rate": 0.024,
8640
+ "loss": 2.464705467224121,
8641
+ "step": 2466
8642
+ },
8643
+ {
8644
+ "epoch": 0.08226666666666667,
8645
+ "grad_norm": 0.1416015625,
8646
+ "learning_rate": 0.024,
8647
+ "loss": 2.487086534500122,
8648
+ "step": 2468
8649
+ },
8650
+ {
8651
+ "epoch": 0.08233333333333333,
8652
+ "grad_norm": 0.1337890625,
8653
+ "learning_rate": 0.024,
8654
+ "loss": 2.483262538909912,
8655
+ "step": 2470
8656
+ },
8657
+ {
8658
+ "epoch": 0.0824,
8659
+ "grad_norm": 0.1376953125,
8660
+ "learning_rate": 0.024,
8661
+ "loss": 2.4715678691864014,
8662
+ "step": 2472
8663
+ },
8664
+ {
8665
+ "epoch": 0.08246666666666666,
8666
+ "grad_norm": 0.146484375,
8667
+ "learning_rate": 0.024,
8668
+ "loss": 2.4888999462127686,
8669
+ "step": 2474
8670
+ },
8671
+ {
8672
+ "epoch": 0.08253333333333333,
8673
+ "grad_norm": 0.138671875,
8674
+ "learning_rate": 0.024,
8675
+ "loss": 2.4896762371063232,
8676
+ "step": 2476
8677
+ },
8678
+ {
8679
+ "epoch": 0.0826,
8680
+ "grad_norm": 0.1376953125,
8681
+ "learning_rate": 0.024,
8682
+ "loss": 2.4949934482574463,
8683
+ "step": 2478
8684
+ },
8685
+ {
8686
+ "epoch": 0.08266666666666667,
8687
+ "grad_norm": 0.1259765625,
8688
+ "learning_rate": 0.024,
8689
+ "loss": 2.4483609199523926,
8690
+ "step": 2480
8691
+ },
8692
+ {
8693
+ "epoch": 0.08273333333333334,
8694
+ "grad_norm": 0.1279296875,
8695
+ "learning_rate": 0.024,
8696
+ "loss": 2.479379653930664,
8697
+ "step": 2482
8698
+ },
8699
+ {
8700
+ "epoch": 0.0828,
8701
+ "grad_norm": 0.1328125,
8702
+ "learning_rate": 0.024,
8703
+ "loss": 2.4692671298980713,
8704
+ "step": 2484
8705
+ },
8706
+ {
8707
+ "epoch": 0.08286666666666667,
8708
+ "grad_norm": 0.1240234375,
8709
+ "learning_rate": 0.024,
8710
+ "loss": 2.4770898818969727,
8711
+ "step": 2486
8712
+ },
8713
+ {
8714
+ "epoch": 0.08293333333333333,
8715
+ "grad_norm": 0.1357421875,
8716
+ "learning_rate": 0.024,
8717
+ "loss": 2.482712984085083,
8718
+ "step": 2488
8719
+ },
8720
+ {
8721
+ "epoch": 0.083,
8722
+ "grad_norm": 0.1435546875,
8723
+ "learning_rate": 0.024,
8724
+ "loss": 2.4809489250183105,
8725
+ "step": 2490
8726
+ },
8727
+ {
8728
+ "epoch": 0.08306666666666666,
8729
+ "grad_norm": 0.138671875,
8730
+ "learning_rate": 0.024,
8731
+ "loss": 2.4629902839660645,
8732
+ "step": 2492
8733
+ },
8734
+ {
8735
+ "epoch": 0.08313333333333334,
8736
+ "grad_norm": 0.126953125,
8737
+ "learning_rate": 0.024,
8738
+ "loss": 2.482154369354248,
8739
+ "step": 2494
8740
+ },
8741
+ {
8742
+ "epoch": 0.0832,
8743
+ "grad_norm": 0.1435546875,
8744
+ "learning_rate": 0.024,
8745
+ "loss": 2.47510027885437,
8746
+ "step": 2496
8747
+ },
8748
+ {
8749
+ "epoch": 0.08326666666666667,
8750
+ "grad_norm": 0.1376953125,
8751
+ "learning_rate": 0.024,
8752
+ "loss": 2.4816689491271973,
8753
+ "step": 2498
8754
+ },
8755
+ {
8756
+ "epoch": 0.08333333333333333,
8757
+ "grad_norm": 0.1201171875,
8758
+ "learning_rate": 0.024,
8759
+ "loss": 2.454716682434082,
8760
+ "step": 2500
8761
+ },
8762
+ {
8763
+ "epoch": 0.0834,
8764
+ "grad_norm": 0.1318359375,
8765
+ "learning_rate": 0.024,
8766
+ "loss": 2.451078414916992,
8767
+ "step": 2502
8768
+ },
8769
+ {
8770
+ "epoch": 0.08346666666666666,
8771
+ "grad_norm": 0.130859375,
8772
+ "learning_rate": 0.024,
8773
+ "loss": 2.489987850189209,
8774
+ "step": 2504
8775
+ },
8776
+ {
8777
+ "epoch": 0.08353333333333333,
8778
+ "grad_norm": 0.1328125,
8779
+ "learning_rate": 0.024,
8780
+ "loss": 2.4450559616088867,
8781
+ "step": 2506
8782
+ },
8783
+ {
8784
+ "epoch": 0.0836,
8785
+ "grad_norm": 0.1318359375,
8786
+ "learning_rate": 0.024,
8787
+ "loss": 2.478503704071045,
8788
+ "step": 2508
8789
+ },
8790
+ {
8791
+ "epoch": 0.08366666666666667,
8792
+ "grad_norm": 0.1318359375,
8793
+ "learning_rate": 0.024,
8794
+ "loss": 2.459144115447998,
8795
+ "step": 2510
8796
+ },
8797
+ {
8798
+ "epoch": 0.08373333333333334,
8799
+ "grad_norm": 0.142578125,
8800
+ "learning_rate": 0.024,
8801
+ "loss": 2.462160110473633,
8802
+ "step": 2512
8803
+ },
8804
+ {
8805
+ "epoch": 0.0838,
8806
+ "grad_norm": 0.1337890625,
8807
+ "learning_rate": 0.024,
8808
+ "loss": 2.467226028442383,
8809
+ "step": 2514
8810
+ },
8811
+ {
8812
+ "epoch": 0.08386666666666667,
8813
+ "grad_norm": 0.1328125,
8814
+ "learning_rate": 0.024,
8815
+ "loss": 2.476752758026123,
8816
+ "step": 2516
8817
+ },
8818
+ {
8819
+ "epoch": 0.08393333333333333,
8820
+ "grad_norm": 0.1328125,
8821
+ "learning_rate": 0.024,
8822
+ "loss": 2.473904848098755,
8823
+ "step": 2518
8824
+ },
8825
+ {
8826
+ "epoch": 0.084,
8827
+ "grad_norm": 0.13671875,
8828
+ "learning_rate": 0.024,
8829
+ "loss": 2.4709560871124268,
8830
+ "step": 2520
8831
+ },
8832
+ {
8833
+ "epoch": 0.08406666666666666,
8834
+ "grad_norm": 0.1357421875,
8835
+ "learning_rate": 0.024,
8836
+ "loss": 2.4859871864318848,
8837
+ "step": 2522
8838
+ },
8839
+ {
8840
+ "epoch": 0.08413333333333334,
8841
+ "grad_norm": 0.130859375,
8842
+ "learning_rate": 0.024,
8843
+ "loss": 2.469136953353882,
8844
+ "step": 2524
8845
+ },
8846
+ {
8847
+ "epoch": 0.0842,
8848
+ "grad_norm": 0.1396484375,
8849
+ "learning_rate": 0.024,
8850
+ "loss": 2.4992470741271973,
8851
+ "step": 2526
8852
+ },
8853
+ {
8854
+ "epoch": 0.08426666666666667,
8855
+ "grad_norm": 0.13671875,
8856
+ "learning_rate": 0.024,
8857
+ "loss": 2.4427859783172607,
8858
+ "step": 2528
8859
+ },
8860
+ {
8861
+ "epoch": 0.08433333333333333,
8862
+ "grad_norm": 0.1318359375,
8863
+ "learning_rate": 0.024,
8864
+ "loss": 2.4867401123046875,
8865
+ "step": 2530
8866
+ },
8867
+ {
8868
+ "epoch": 0.0844,
8869
+ "grad_norm": 0.1435546875,
8870
+ "learning_rate": 0.024,
8871
+ "loss": 2.4521312713623047,
8872
+ "step": 2532
8873
+ },
8874
+ {
8875
+ "epoch": 0.08446666666666666,
8876
+ "grad_norm": 0.1328125,
8877
+ "learning_rate": 0.024,
8878
+ "loss": 2.451993227005005,
8879
+ "step": 2534
8880
+ },
8881
+ {
8882
+ "epoch": 0.08453333333333334,
8883
+ "grad_norm": 0.134765625,
8884
+ "learning_rate": 0.024,
8885
+ "loss": 2.4463424682617188,
8886
+ "step": 2536
8887
+ },
8888
+ {
8889
+ "epoch": 0.0846,
8890
+ "grad_norm": 0.138671875,
8891
+ "learning_rate": 0.024,
8892
+ "loss": 2.460749864578247,
8893
+ "step": 2538
8894
+ },
8895
+ {
8896
+ "epoch": 0.08466666666666667,
8897
+ "grad_norm": 0.134765625,
8898
+ "learning_rate": 0.024,
8899
+ "loss": 2.467698097229004,
8900
+ "step": 2540
8901
+ },
8902
+ {
8903
+ "epoch": 0.08473333333333333,
8904
+ "grad_norm": 0.1357421875,
8905
+ "learning_rate": 0.024,
8906
+ "loss": 2.450331449508667,
8907
+ "step": 2542
8908
+ },
8909
+ {
8910
+ "epoch": 0.0848,
8911
+ "grad_norm": 0.1435546875,
8912
+ "learning_rate": 0.024,
8913
+ "loss": 2.479083299636841,
8914
+ "step": 2544
8915
+ },
8916
+ {
8917
+ "epoch": 0.08486666666666667,
8918
+ "grad_norm": 0.1435546875,
8919
+ "learning_rate": 0.024,
8920
+ "loss": 2.453357219696045,
8921
+ "step": 2546
8922
+ },
8923
+ {
8924
+ "epoch": 0.08493333333333333,
8925
+ "grad_norm": 0.134765625,
8926
+ "learning_rate": 0.024,
8927
+ "loss": 2.472700834274292,
8928
+ "step": 2548
8929
+ },
8930
+ {
8931
+ "epoch": 0.085,
8932
+ "grad_norm": 0.130859375,
8933
+ "learning_rate": 0.024,
8934
+ "loss": 2.4666004180908203,
8935
+ "step": 2550
8936
+ },
8937
+ {
8938
+ "epoch": 0.08506666666666667,
8939
+ "grad_norm": 0.138671875,
8940
+ "learning_rate": 0.024,
8941
+ "loss": 2.472712516784668,
8942
+ "step": 2552
8943
+ },
8944
+ {
8945
+ "epoch": 0.08513333333333334,
8946
+ "grad_norm": 0.1328125,
8947
+ "learning_rate": 0.024,
8948
+ "loss": 2.477809429168701,
8949
+ "step": 2554
8950
+ },
8951
+ {
8952
+ "epoch": 0.0852,
8953
+ "grad_norm": 0.1259765625,
8954
+ "learning_rate": 0.024,
8955
+ "loss": 2.445784330368042,
8956
+ "step": 2556
8957
+ },
8958
+ {
8959
+ "epoch": 0.08526666666666667,
8960
+ "grad_norm": 0.1259765625,
8961
+ "learning_rate": 0.024,
8962
+ "loss": 2.4723987579345703,
8963
+ "step": 2558
8964
+ },
8965
+ {
8966
+ "epoch": 0.08533333333333333,
8967
+ "grad_norm": 0.1328125,
8968
+ "learning_rate": 0.024,
8969
+ "loss": 2.467571258544922,
8970
+ "step": 2560
8971
+ },
8972
+ {
8973
+ "epoch": 0.0854,
8974
+ "grad_norm": 0.1298828125,
8975
+ "learning_rate": 0.024,
8976
+ "loss": 2.4568405151367188,
8977
+ "step": 2562
8978
+ },
8979
+ {
8980
+ "epoch": 0.08546666666666666,
8981
+ "grad_norm": 0.1337890625,
8982
+ "learning_rate": 0.024,
8983
+ "loss": 2.4680705070495605,
8984
+ "step": 2564
8985
+ },
8986
+ {
8987
+ "epoch": 0.08553333333333334,
8988
+ "grad_norm": 0.1328125,
8989
+ "learning_rate": 0.024,
8990
+ "loss": 2.455409288406372,
8991
+ "step": 2566
8992
+ },
8993
+ {
8994
+ "epoch": 0.0856,
8995
+ "grad_norm": 0.1376953125,
8996
+ "learning_rate": 0.024,
8997
+ "loss": 2.4806253910064697,
8998
+ "step": 2568
8999
+ },
9000
+ {
9001
+ "epoch": 0.08566666666666667,
9002
+ "grad_norm": 0.12890625,
9003
+ "learning_rate": 0.024,
9004
+ "loss": 2.4782142639160156,
9005
+ "step": 2570
9006
+ },
9007
+ {
9008
+ "epoch": 0.08573333333333333,
9009
+ "grad_norm": 0.1357421875,
9010
+ "learning_rate": 0.024,
9011
+ "loss": 2.4784772396087646,
9012
+ "step": 2572
9013
+ },
9014
+ {
9015
+ "epoch": 0.0858,
9016
+ "grad_norm": 0.134765625,
9017
+ "learning_rate": 0.024,
9018
+ "loss": 2.471813201904297,
9019
+ "step": 2574
9020
+ },
9021
+ {
9022
+ "epoch": 0.08586666666666666,
9023
+ "grad_norm": 0.125,
9024
+ "learning_rate": 0.024,
9025
+ "loss": 2.474647045135498,
9026
+ "step": 2576
9027
+ },
9028
+ {
9029
+ "epoch": 0.08593333333333333,
9030
+ "grad_norm": 0.134765625,
9031
+ "learning_rate": 0.024,
9032
+ "loss": 2.462315082550049,
9033
+ "step": 2578
9034
+ },
9035
+ {
9036
+ "epoch": 0.086,
9037
+ "grad_norm": 0.12158203125,
9038
+ "learning_rate": 0.024,
9039
+ "loss": 2.456050395965576,
9040
+ "step": 2580
9041
+ },
9042
+ {
9043
+ "epoch": 0.08606666666666667,
9044
+ "grad_norm": 0.125,
9045
+ "learning_rate": 0.024,
9046
+ "loss": 2.4736804962158203,
9047
+ "step": 2582
9048
+ },
9049
+ {
9050
+ "epoch": 0.08613333333333334,
9051
+ "grad_norm": 0.123046875,
9052
+ "learning_rate": 0.024,
9053
+ "loss": 2.4521636962890625,
9054
+ "step": 2584
9055
+ },
9056
+ {
9057
+ "epoch": 0.0862,
9058
+ "grad_norm": 0.1171875,
9059
+ "learning_rate": 0.024,
9060
+ "loss": 2.4418671131134033,
9061
+ "step": 2586
9062
+ },
9063
+ {
9064
+ "epoch": 0.08626666666666667,
9065
+ "grad_norm": 0.12060546875,
9066
+ "learning_rate": 0.024,
9067
+ "loss": 2.4714131355285645,
9068
+ "step": 2588
9069
+ },
9070
+ {
9071
+ "epoch": 0.08633333333333333,
9072
+ "grad_norm": 0.12158203125,
9073
+ "learning_rate": 0.024,
9074
+ "loss": 2.4726314544677734,
9075
+ "step": 2590
9076
+ },
9077
+ {
9078
+ "epoch": 0.0864,
9079
+ "grad_norm": 0.12060546875,
9080
+ "learning_rate": 0.024,
9081
+ "loss": 2.454468250274658,
9082
+ "step": 2592
9083
+ },
9084
+ {
9085
+ "epoch": 0.08646666666666666,
9086
+ "grad_norm": 0.115234375,
9087
+ "learning_rate": 0.024,
9088
+ "loss": 2.460784435272217,
9089
+ "step": 2594
9090
+ },
9091
+ {
9092
+ "epoch": 0.08653333333333334,
9093
+ "grad_norm": 0.10693359375,
9094
+ "learning_rate": 0.024,
9095
+ "loss": 2.4447386264801025,
9096
+ "step": 2596
9097
+ },
9098
+ {
9099
+ "epoch": 0.0866,
9100
+ "grad_norm": 0.12060546875,
9101
+ "learning_rate": 0.024,
9102
+ "loss": 2.467482089996338,
9103
+ "step": 2598
9104
+ },
9105
+ {
9106
+ "epoch": 0.08666666666666667,
9107
+ "grad_norm": 0.16015625,
9108
+ "learning_rate": 0.024,
9109
+ "loss": 2.462367057800293,
9110
+ "step": 2600
9111
+ },
9112
+ {
9113
+ "epoch": 0.08673333333333333,
9114
+ "grad_norm": 0.154296875,
9115
+ "learning_rate": 0.024,
9116
+ "loss": 2.4505529403686523,
9117
+ "step": 2602
9118
+ },
9119
+ {
9120
+ "epoch": 0.0868,
9121
+ "grad_norm": 0.1630859375,
9122
+ "learning_rate": 0.024,
9123
+ "loss": 2.434373378753662,
9124
+ "step": 2604
9125
+ },
9126
+ {
9127
+ "epoch": 0.08686666666666666,
9128
+ "grad_norm": 0.158203125,
9129
+ "learning_rate": 0.024,
9130
+ "loss": 2.441555976867676,
9131
+ "step": 2606
9132
+ },
9133
+ {
9134
+ "epoch": 0.08693333333333333,
9135
+ "grad_norm": 0.14453125,
9136
+ "learning_rate": 0.024,
9137
+ "loss": 2.444498062133789,
9138
+ "step": 2608
9139
+ },
9140
+ {
9141
+ "epoch": 0.087,
9142
+ "grad_norm": 0.1435546875,
9143
+ "learning_rate": 0.024,
9144
+ "loss": 2.4550669193267822,
9145
+ "step": 2610
9146
+ },
9147
+ {
9148
+ "epoch": 0.08706666666666667,
9149
+ "grad_norm": 0.1328125,
9150
+ "learning_rate": 0.024,
9151
+ "loss": 2.4605517387390137,
9152
+ "step": 2612
9153
+ },
9154
+ {
9155
+ "epoch": 0.08713333333333333,
9156
+ "grad_norm": 0.138671875,
9157
+ "learning_rate": 0.024,
9158
+ "loss": 2.4643704891204834,
9159
+ "step": 2614
9160
+ },
9161
+ {
9162
+ "epoch": 0.0872,
9163
+ "grad_norm": 0.1396484375,
9164
+ "learning_rate": 0.024,
9165
+ "loss": 2.4476377964019775,
9166
+ "step": 2616
9167
+ },
9168
+ {
9169
+ "epoch": 0.08726666666666667,
9170
+ "grad_norm": 0.130859375,
9171
+ "learning_rate": 0.024,
9172
+ "loss": 2.4495160579681396,
9173
+ "step": 2618
9174
+ },
9175
+ {
9176
+ "epoch": 0.08733333333333333,
9177
+ "grad_norm": 0.130859375,
9178
+ "learning_rate": 0.024,
9179
+ "loss": 2.4198243618011475,
9180
+ "step": 2620
9181
+ },
9182
+ {
9183
+ "epoch": 0.0874,
9184
+ "grad_norm": 0.1318359375,
9185
+ "learning_rate": 0.024,
9186
+ "loss": 2.4477100372314453,
9187
+ "step": 2622
9188
+ },
9189
+ {
9190
+ "epoch": 0.08746666666666666,
9191
+ "grad_norm": 0.1357421875,
9192
+ "learning_rate": 0.024,
9193
+ "loss": 2.4503936767578125,
9194
+ "step": 2624
9195
+ },
9196
+ {
9197
+ "epoch": 0.08753333333333334,
9198
+ "grad_norm": 0.130859375,
9199
+ "learning_rate": 0.024,
9200
+ "loss": 2.4359898567199707,
9201
+ "step": 2626
9202
+ },
9203
+ {
9204
+ "epoch": 0.0876,
9205
+ "grad_norm": 0.12890625,
9206
+ "learning_rate": 0.024,
9207
+ "loss": 2.4532463550567627,
9208
+ "step": 2628
9209
+ },
9210
+ {
9211
+ "epoch": 0.08766666666666667,
9212
+ "grad_norm": 0.134765625,
9213
+ "learning_rate": 0.024,
9214
+ "loss": 2.4573493003845215,
9215
+ "step": 2630
9216
+ },
9217
+ {
9218
+ "epoch": 0.08773333333333333,
9219
+ "grad_norm": 0.1416015625,
9220
+ "learning_rate": 0.024,
9221
+ "loss": 2.446930408477783,
9222
+ "step": 2632
9223
+ },
9224
+ {
9225
+ "epoch": 0.0878,
9226
+ "grad_norm": 0.1396484375,
9227
+ "learning_rate": 0.024,
9228
+ "loss": 2.4631919860839844,
9229
+ "step": 2634
9230
+ },
9231
+ {
9232
+ "epoch": 0.08786666666666666,
9233
+ "grad_norm": 0.1396484375,
9234
+ "learning_rate": 0.024,
9235
+ "loss": 2.4393277168273926,
9236
+ "step": 2636
9237
+ },
9238
+ {
9239
+ "epoch": 0.08793333333333334,
9240
+ "grad_norm": 0.134765625,
9241
+ "learning_rate": 0.024,
9242
+ "loss": 2.439279317855835,
9243
+ "step": 2638
9244
+ },
9245
+ {
9246
+ "epoch": 0.088,
9247
+ "grad_norm": 0.1416015625,
9248
+ "learning_rate": 0.024,
9249
+ "loss": 2.4698636531829834,
9250
+ "step": 2640
9251
+ },
9252
+ {
9253
+ "epoch": 0.08806666666666667,
9254
+ "grad_norm": 0.1328125,
9255
+ "learning_rate": 0.024,
9256
+ "loss": 2.4606924057006836,
9257
+ "step": 2642
9258
+ },
9259
+ {
9260
+ "epoch": 0.08813333333333333,
9261
+ "grad_norm": 0.12060546875,
9262
+ "learning_rate": 0.024,
9263
+ "loss": 2.4482932090759277,
9264
+ "step": 2644
9265
+ },
9266
+ {
9267
+ "epoch": 0.0882,
9268
+ "grad_norm": 0.166015625,
9269
+ "learning_rate": 0.024,
9270
+ "loss": 2.4607863426208496,
9271
+ "step": 2646
9272
+ },
9273
+ {
9274
+ "epoch": 0.08826666666666666,
9275
+ "grad_norm": 0.126953125,
9276
+ "learning_rate": 0.024,
9277
+ "loss": 2.4275074005126953,
9278
+ "step": 2648
9279
+ },
9280
+ {
9281
+ "epoch": 0.08833333333333333,
9282
+ "grad_norm": 0.12060546875,
9283
+ "learning_rate": 0.024,
9284
+ "loss": 2.4469661712646484,
9285
+ "step": 2650
9286
+ },
9287
+ {
9288
+ "epoch": 0.0884,
9289
+ "grad_norm": 0.126953125,
9290
+ "learning_rate": 0.024,
9291
+ "loss": 2.451223134994507,
9292
+ "step": 2652
9293
+ },
9294
+ {
9295
+ "epoch": 0.08846666666666667,
9296
+ "grad_norm": 0.1328125,
9297
+ "learning_rate": 0.024,
9298
+ "loss": 2.4480249881744385,
9299
+ "step": 2654
9300
+ },
9301
+ {
9302
+ "epoch": 0.08853333333333334,
9303
+ "grad_norm": 0.138671875,
9304
+ "learning_rate": 0.024,
9305
+ "loss": 2.4557228088378906,
9306
+ "step": 2656
9307
+ },
9308
+ {
9309
+ "epoch": 0.0886,
9310
+ "grad_norm": 0.1396484375,
9311
+ "learning_rate": 0.024,
9312
+ "loss": 2.447399616241455,
9313
+ "step": 2658
9314
+ },
9315
+ {
9316
+ "epoch": 0.08866666666666667,
9317
+ "grad_norm": 0.1435546875,
9318
+ "learning_rate": 0.024,
9319
+ "loss": 2.454662561416626,
9320
+ "step": 2660
9321
+ },
9322
+ {
9323
+ "epoch": 0.08873333333333333,
9324
+ "grad_norm": 0.138671875,
9325
+ "learning_rate": 0.024,
9326
+ "loss": 2.440804958343506,
9327
+ "step": 2662
9328
+ },
9329
+ {
9330
+ "epoch": 0.0888,
9331
+ "grad_norm": 0.1416015625,
9332
+ "learning_rate": 0.024,
9333
+ "loss": 2.453713893890381,
9334
+ "step": 2664
9335
+ },
9336
+ {
9337
+ "epoch": 0.08886666666666666,
9338
+ "grad_norm": 0.1318359375,
9339
+ "learning_rate": 0.024,
9340
+ "loss": 2.447749614715576,
9341
+ "step": 2666
9342
+ },
9343
+ {
9344
+ "epoch": 0.08893333333333334,
9345
+ "grad_norm": 0.1357421875,
9346
+ "learning_rate": 0.024,
9347
+ "loss": 2.439183235168457,
9348
+ "step": 2668
9349
+ },
9350
+ {
9351
+ "epoch": 0.089,
9352
+ "grad_norm": 0.1240234375,
9353
+ "learning_rate": 0.024,
9354
+ "loss": 2.438260078430176,
9355
+ "step": 2670
9356
+ },
9357
+ {
9358
+ "epoch": 0.08906666666666667,
9359
+ "grad_norm": 0.1298828125,
9360
+ "learning_rate": 0.024,
9361
+ "loss": 2.416799545288086,
9362
+ "step": 2672
9363
+ },
9364
+ {
9365
+ "epoch": 0.08913333333333333,
9366
+ "grad_norm": 0.134765625,
9367
+ "learning_rate": 0.024,
9368
+ "loss": 2.4327666759490967,
9369
+ "step": 2674
9370
+ },
9371
+ {
9372
+ "epoch": 0.0892,
9373
+ "grad_norm": 0.13671875,
9374
+ "learning_rate": 0.024,
9375
+ "loss": 2.429088830947876,
9376
+ "step": 2676
9377
+ },
9378
+ {
9379
+ "epoch": 0.08926666666666666,
9380
+ "grad_norm": 0.1376953125,
9381
+ "learning_rate": 0.024,
9382
+ "loss": 2.458042621612549,
9383
+ "step": 2678
9384
+ },
9385
+ {
9386
+ "epoch": 0.08933333333333333,
9387
+ "grad_norm": 0.1298828125,
9388
+ "learning_rate": 0.024,
9389
+ "loss": 2.435832977294922,
9390
+ "step": 2680
9391
+ },
9392
+ {
9393
+ "epoch": 0.0894,
9394
+ "grad_norm": 0.12890625,
9395
+ "learning_rate": 0.024,
9396
+ "loss": 2.469553232192993,
9397
+ "step": 2682
9398
+ },
9399
+ {
9400
+ "epoch": 0.08946666666666667,
9401
+ "grad_norm": 0.1318359375,
9402
+ "learning_rate": 0.024,
9403
+ "loss": 2.467775344848633,
9404
+ "step": 2684
9405
+ },
9406
+ {
9407
+ "epoch": 0.08953333333333334,
9408
+ "grad_norm": 0.134765625,
9409
+ "learning_rate": 0.024,
9410
+ "loss": 2.427727222442627,
9411
+ "step": 2686
9412
+ },
9413
+ {
9414
+ "epoch": 0.0896,
9415
+ "grad_norm": 0.13671875,
9416
+ "learning_rate": 0.024,
9417
+ "loss": 2.4435319900512695,
9418
+ "step": 2688
9419
+ },
9420
+ {
9421
+ "epoch": 0.08966666666666667,
9422
+ "grad_norm": 0.1298828125,
9423
+ "learning_rate": 0.024,
9424
+ "loss": 2.4431381225585938,
9425
+ "step": 2690
9426
+ },
9427
+ {
9428
+ "epoch": 0.08973333333333333,
9429
+ "grad_norm": 0.1357421875,
9430
+ "learning_rate": 0.024,
9431
+ "loss": 2.456393241882324,
9432
+ "step": 2692
9433
+ },
9434
+ {
9435
+ "epoch": 0.0898,
9436
+ "grad_norm": 0.130859375,
9437
+ "learning_rate": 0.024,
9438
+ "loss": 2.4278430938720703,
9439
+ "step": 2694
9440
+ },
9441
+ {
9442
+ "epoch": 0.08986666666666666,
9443
+ "grad_norm": 0.1376953125,
9444
+ "learning_rate": 0.024,
9445
+ "loss": 2.4540486335754395,
9446
+ "step": 2696
9447
+ },
9448
+ {
9449
+ "epoch": 0.08993333333333334,
9450
+ "grad_norm": 0.1357421875,
9451
+ "learning_rate": 0.024,
9452
+ "loss": 2.447831630706787,
9453
+ "step": 2698
9454
+ },
9455
+ {
9456
+ "epoch": 0.09,
9457
+ "grad_norm": 0.1357421875,
9458
+ "learning_rate": 0.024,
9459
+ "loss": 2.4438486099243164,
9460
+ "step": 2700
9461
  }
9462
  ],
9463
  "logging_steps": 2,
 
9477
  "attributes": {}
9478
  }
9479
  },
9480
+ "total_flos": 9.537461020600041e+18,
9481
  "train_batch_size": 4,
9482
  "trial_name": null,
9483
  "trial_params": null