omeryentur commited on
Commit
2ece9de
·
verified ·
1 Parent(s): a348784

Upload folder using huggingface_hub

Browse files
Files changed (4) hide show
  1. adapter_model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. scheduler.pt +1 -1
  4. trainer_state.json +3503 -3
adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:523c85731213f36cc5108c92eb1c3fdab9b622e7509b9c21fa9e9d6229df8016
3
  size 1728658208
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:635a4a5eccec6e90fbd9e03e4a035575f6eb9aad65905ea7aa505ec343fa16cc
3
  size 1728658208
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:38c014824b710a148d83a94f82ce3ff9c3228e9f40d85ccaa1b52a06e53a8018
3
  size 878485380
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:45a158cb4b1813a1b753cf0354b21f7f35de8aa54dd074770a6097fb67421644
3
  size 878485380
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:57fd7c60f97b1ec04f4863b17961e76ebd87ddb2a813a39ae70828c143a250a6
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e8cfa4bbfbaa016233c07ad7188a329dd106c70ae970f9e363d6f182d78c9d1c
3
  size 1064
trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.043701518627772315,
5
  "eval_steps": 500,
6
- "global_step": 500,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -3507,6 +3507,3506 @@
3507
  "learning_rate": 0.00047835781741867783,
3508
  "loss": 1.046,
3509
  "step": 500
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
3510
  }
3511
  ],
3512
  "logging_steps": 1,
@@ -3526,7 +7026,7 @@
3526
  "attributes": {}
3527
  }
3528
  },
3529
- "total_flos": 4.30391936679936e+17,
3530
  "train_batch_size": 2,
3531
  "trial_name": null,
3532
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.08740303725554463,
5
  "eval_steps": 500,
6
+ "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
3507
  "learning_rate": 0.00047835781741867783,
3508
  "loss": 1.046,
3509
  "step": 500
3510
+ },
3511
+ {
3512
+ "epoch": 0.04378892166502786,
3513
+ "grad_norm": 0.3747900128364563,
3514
+ "learning_rate": 0.00047831409583770553,
3515
+ "loss": 1.0201,
3516
+ "step": 501
3517
+ },
3518
+ {
3519
+ "epoch": 0.043876324702283406,
3520
+ "grad_norm": 0.3672393262386322,
3521
+ "learning_rate": 0.0004782703742567331,
3522
+ "loss": 1.0021,
3523
+ "step": 502
3524
+ },
3525
+ {
3526
+ "epoch": 0.04396372773953895,
3527
+ "grad_norm": 0.3505338132381439,
3528
+ "learning_rate": 0.00047822665267576077,
3529
+ "loss": 1.0002,
3530
+ "step": 503
3531
+ },
3532
+ {
3533
+ "epoch": 0.04405113077679449,
3534
+ "grad_norm": 5.722542762756348,
3535
+ "learning_rate": 0.0004781829310947884,
3536
+ "loss": 2.5431,
3537
+ "step": 504
3538
+ },
3539
+ {
3540
+ "epoch": 0.044138533814050036,
3541
+ "grad_norm": 0.5349693298339844,
3542
+ "learning_rate": 0.000478139209513816,
3543
+ "loss": 1.151,
3544
+ "step": 505
3545
+ },
3546
+ {
3547
+ "epoch": 0.04422593685130558,
3548
+ "grad_norm": 0.4468895494937897,
3549
+ "learning_rate": 0.0004780954879328437,
3550
+ "loss": 0.9958,
3551
+ "step": 506
3552
+ },
3553
+ {
3554
+ "epoch": 0.04431333988856113,
3555
+ "grad_norm": 0.47205036878585815,
3556
+ "learning_rate": 0.0004780517663518713,
3557
+ "loss": 0.9401,
3558
+ "step": 507
3559
+ },
3560
+ {
3561
+ "epoch": 0.04440074292581667,
3562
+ "grad_norm": 0.35336941480636597,
3563
+ "learning_rate": 0.00047800804477089894,
3564
+ "loss": 1.0982,
3565
+ "step": 508
3566
+ },
3567
+ {
3568
+ "epoch": 0.04448814596307222,
3569
+ "grad_norm": 1.8884743452072144,
3570
+ "learning_rate": 0.00047796432318992653,
3571
+ "loss": 0.9199,
3572
+ "step": 509
3573
+ },
3574
+ {
3575
+ "epoch": 0.044575549000327765,
3576
+ "grad_norm": 0.4091229736804962,
3577
+ "learning_rate": 0.0004779206016089542,
3578
+ "loss": 0.8953,
3579
+ "step": 510
3580
+ },
3581
+ {
3582
+ "epoch": 0.0446629520375833,
3583
+ "grad_norm": 0.4730583131313324,
3584
+ "learning_rate": 0.0004778768800279818,
3585
+ "loss": 0.8085,
3586
+ "step": 511
3587
+ },
3588
+ {
3589
+ "epoch": 0.04475035507483885,
3590
+ "grad_norm": 0.3801075220108032,
3591
+ "learning_rate": 0.00047783315844700946,
3592
+ "loss": 0.9914,
3593
+ "step": 512
3594
+ },
3595
+ {
3596
+ "epoch": 0.044837758112094395,
3597
+ "grad_norm": 0.3660631477832794,
3598
+ "learning_rate": 0.0004777894368660371,
3599
+ "loss": 0.9804,
3600
+ "step": 513
3601
+ },
3602
+ {
3603
+ "epoch": 0.04492516114934994,
3604
+ "grad_norm": 0.8466418981552124,
3605
+ "learning_rate": 0.0004777457152850647,
3606
+ "loss": 1.1207,
3607
+ "step": 514
3608
+ },
3609
+ {
3610
+ "epoch": 0.045012564186605486,
3611
+ "grad_norm": 0.3560774624347687,
3612
+ "learning_rate": 0.00047770199370409234,
3613
+ "loss": 0.8773,
3614
+ "step": 515
3615
+ },
3616
+ {
3617
+ "epoch": 0.04509996722386103,
3618
+ "grad_norm": 0.49633318185806274,
3619
+ "learning_rate": 0.00047765827212312,
3620
+ "loss": 1.0111,
3621
+ "step": 516
3622
+ },
3623
+ {
3624
+ "epoch": 0.04518737026111657,
3625
+ "grad_norm": 0.6001185178756714,
3626
+ "learning_rate": 0.00047761455054214764,
3627
+ "loss": 1.2566,
3628
+ "step": 517
3629
+ },
3630
+ {
3631
+ "epoch": 0.045274773298372116,
3632
+ "grad_norm": 0.7423095703125,
3633
+ "learning_rate": 0.0004775708289611753,
3634
+ "loss": 1.1431,
3635
+ "step": 518
3636
+ },
3637
+ {
3638
+ "epoch": 0.04536217633562766,
3639
+ "grad_norm": 0.34218892455101013,
3640
+ "learning_rate": 0.00047752710738020287,
3641
+ "loss": 0.9254,
3642
+ "step": 519
3643
+ },
3644
+ {
3645
+ "epoch": 0.04544957937288321,
3646
+ "grad_norm": 0.336230605840683,
3647
+ "learning_rate": 0.0004774833857992305,
3648
+ "loss": 1.0015,
3649
+ "step": 520
3650
+ },
3651
+ {
3652
+ "epoch": 0.04553698241013875,
3653
+ "grad_norm": 0.39158111810684204,
3654
+ "learning_rate": 0.0004774396642182581,
3655
+ "loss": 0.8319,
3656
+ "step": 521
3657
+ },
3658
+ {
3659
+ "epoch": 0.0456243854473943,
3660
+ "grad_norm": 0.4045357406139374,
3661
+ "learning_rate": 0.00047739594263728575,
3662
+ "loss": 0.8531,
3663
+ "step": 522
3664
+ },
3665
+ {
3666
+ "epoch": 0.045711788484649844,
3667
+ "grad_norm": 0.5861966013908386,
3668
+ "learning_rate": 0.00047735222105631345,
3669
+ "loss": 0.9975,
3670
+ "step": 523
3671
+ },
3672
+ {
3673
+ "epoch": 0.04579919152190538,
3674
+ "grad_norm": 0.33865249156951904,
3675
+ "learning_rate": 0.00047730849947534104,
3676
+ "loss": 0.94,
3677
+ "step": 524
3678
+ },
3679
+ {
3680
+ "epoch": 0.04588659455916093,
3681
+ "grad_norm": 0.4759502112865448,
3682
+ "learning_rate": 0.0004772647778943687,
3683
+ "loss": 0.9581,
3684
+ "step": 525
3685
+ },
3686
+ {
3687
+ "epoch": 0.045973997596416474,
3688
+ "grad_norm": 0.492929607629776,
3689
+ "learning_rate": 0.0004772210563133963,
3690
+ "loss": 1.3563,
3691
+ "step": 526
3692
+ },
3693
+ {
3694
+ "epoch": 0.04606140063367202,
3695
+ "grad_norm": 0.31947705149650574,
3696
+ "learning_rate": 0.0004771773347324239,
3697
+ "loss": 0.8052,
3698
+ "step": 527
3699
+ },
3700
+ {
3701
+ "epoch": 0.046148803670927566,
3702
+ "grad_norm": 0.3842394948005676,
3703
+ "learning_rate": 0.0004771336131514515,
3704
+ "loss": 0.9723,
3705
+ "step": 528
3706
+ },
3707
+ {
3708
+ "epoch": 0.04623620670818311,
3709
+ "grad_norm": 0.338451623916626,
3710
+ "learning_rate": 0.0004770898915704792,
3711
+ "loss": 1.0315,
3712
+ "step": 529
3713
+ },
3714
+ {
3715
+ "epoch": 0.04632360974543866,
3716
+ "grad_norm": 1.9640684127807617,
3717
+ "learning_rate": 0.00047704616998950686,
3718
+ "loss": 1.2013,
3719
+ "step": 530
3720
+ },
3721
+ {
3722
+ "epoch": 0.046411012782694196,
3723
+ "grad_norm": 0.501758337020874,
3724
+ "learning_rate": 0.00047700244840853445,
3725
+ "loss": 1.0096,
3726
+ "step": 531
3727
+ },
3728
+ {
3729
+ "epoch": 0.04649841581994974,
3730
+ "grad_norm": 0.5867491960525513,
3731
+ "learning_rate": 0.0004769587268275621,
3732
+ "loss": 0.9708,
3733
+ "step": 532
3734
+ },
3735
+ {
3736
+ "epoch": 0.04658581885720529,
3737
+ "grad_norm": 2.1122539043426514,
3738
+ "learning_rate": 0.0004769150052465897,
3739
+ "loss": 0.8145,
3740
+ "step": 533
3741
+ },
3742
+ {
3743
+ "epoch": 0.04667322189446083,
3744
+ "grad_norm": 0.7969621419906616,
3745
+ "learning_rate": 0.0004768712836656174,
3746
+ "loss": 0.829,
3747
+ "step": 534
3748
+ },
3749
+ {
3750
+ "epoch": 0.04676062493171638,
3751
+ "grad_norm": 0.4205247461795807,
3752
+ "learning_rate": 0.00047682756208464503,
3753
+ "loss": 1.0063,
3754
+ "step": 535
3755
+ },
3756
+ {
3757
+ "epoch": 0.046848027968971924,
3758
+ "grad_norm": 0.3231610059738159,
3759
+ "learning_rate": 0.0004767838405036726,
3760
+ "loss": 0.968,
3761
+ "step": 536
3762
+ },
3763
+ {
3764
+ "epoch": 0.04693543100622747,
3765
+ "grad_norm": 1.369025707244873,
3766
+ "learning_rate": 0.00047674011892270027,
3767
+ "loss": 1.7445,
3768
+ "step": 537
3769
+ },
3770
+ {
3771
+ "epoch": 0.04702283404348301,
3772
+ "grad_norm": 0.42706942558288574,
3773
+ "learning_rate": 0.00047669639734172786,
3774
+ "loss": 1.1781,
3775
+ "step": 538
3776
+ },
3777
+ {
3778
+ "epoch": 0.047110237080738554,
3779
+ "grad_norm": 0.36257731914520264,
3780
+ "learning_rate": 0.0004766526757607555,
3781
+ "loss": 1.0557,
3782
+ "step": 539
3783
+ },
3784
+ {
3785
+ "epoch": 0.0471976401179941,
3786
+ "grad_norm": 0.4783022105693817,
3787
+ "learning_rate": 0.00047660895417978315,
3788
+ "loss": 1.053,
3789
+ "step": 540
3790
+ },
3791
+ {
3792
+ "epoch": 0.047285043155249645,
3793
+ "grad_norm": 0.3079909384250641,
3794
+ "learning_rate": 0.0004765652325988108,
3795
+ "loss": 1.1313,
3796
+ "step": 541
3797
+ },
3798
+ {
3799
+ "epoch": 0.04737244619250519,
3800
+ "grad_norm": 0.4072510302066803,
3801
+ "learning_rate": 0.00047652151101783844,
3802
+ "loss": 0.8678,
3803
+ "step": 542
3804
+ },
3805
+ {
3806
+ "epoch": 0.04745984922976074,
3807
+ "grad_norm": 0.36985546350479126,
3808
+ "learning_rate": 0.00047647778943686603,
3809
+ "loss": 0.9387,
3810
+ "step": 543
3811
+ },
3812
+ {
3813
+ "epoch": 0.04754725226701628,
3814
+ "grad_norm": 0.4222630262374878,
3815
+ "learning_rate": 0.0004764340678558937,
3816
+ "loss": 0.9083,
3817
+ "step": 544
3818
+ },
3819
+ {
3820
+ "epoch": 0.04763465530427182,
3821
+ "grad_norm": 0.39896291494369507,
3822
+ "learning_rate": 0.0004763903462749213,
3823
+ "loss": 0.9773,
3824
+ "step": 545
3825
+ },
3826
+ {
3827
+ "epoch": 0.04772205834152737,
3828
+ "grad_norm": 0.3235687017440796,
3829
+ "learning_rate": 0.00047634662469394896,
3830
+ "loss": 0.9484,
3831
+ "step": 546
3832
+ },
3833
+ {
3834
+ "epoch": 0.04780946137878291,
3835
+ "grad_norm": 0.3377327620983124,
3836
+ "learning_rate": 0.0004763029031129766,
3837
+ "loss": 0.9319,
3838
+ "step": 547
3839
+ },
3840
+ {
3841
+ "epoch": 0.04789686441603846,
3842
+ "grad_norm": 0.37998026609420776,
3843
+ "learning_rate": 0.0004762591815320042,
3844
+ "loss": 1.3499,
3845
+ "step": 548
3846
+ },
3847
+ {
3848
+ "epoch": 0.047984267453294004,
3849
+ "grad_norm": 0.37219107151031494,
3850
+ "learning_rate": 0.00047621545995103184,
3851
+ "loss": 1.1132,
3852
+ "step": 549
3853
+ },
3854
+ {
3855
+ "epoch": 0.04807167049054955,
3856
+ "grad_norm": 0.3147220313549042,
3857
+ "learning_rate": 0.00047617173837005944,
3858
+ "loss": 0.9306,
3859
+ "step": 550
3860
+ },
3861
+ {
3862
+ "epoch": 0.04815907352780509,
3863
+ "grad_norm": 0.3832624852657318,
3864
+ "learning_rate": 0.00047612801678908713,
3865
+ "loss": 0.8518,
3866
+ "step": 551
3867
+ },
3868
+ {
3869
+ "epoch": 0.048246476565060634,
3870
+ "grad_norm": 0.3098907172679901,
3871
+ "learning_rate": 0.0004760842952081147,
3872
+ "loss": 0.8183,
3873
+ "step": 552
3874
+ },
3875
+ {
3876
+ "epoch": 0.04833387960231618,
3877
+ "grad_norm": 0.3062676191329956,
3878
+ "learning_rate": 0.00047604057362714237,
3879
+ "loss": 0.9226,
3880
+ "step": 553
3881
+ },
3882
+ {
3883
+ "epoch": 0.048421282639571725,
3884
+ "grad_norm": 0.3292568624019623,
3885
+ "learning_rate": 0.00047599685204617,
3886
+ "loss": 0.9204,
3887
+ "step": 554
3888
+ },
3889
+ {
3890
+ "epoch": 0.04850868567682727,
3891
+ "grad_norm": 0.45942652225494385,
3892
+ "learning_rate": 0.0004759531304651976,
3893
+ "loss": 1.1571,
3894
+ "step": 555
3895
+ },
3896
+ {
3897
+ "epoch": 0.048596088714082816,
3898
+ "grad_norm": 0.3519571125507355,
3899
+ "learning_rate": 0.00047590940888422525,
3900
+ "loss": 0.9566,
3901
+ "step": 556
3902
+ },
3903
+ {
3904
+ "epoch": 0.04868349175133836,
3905
+ "grad_norm": 0.3418327569961548,
3906
+ "learning_rate": 0.0004758656873032529,
3907
+ "loss": 1.146,
3908
+ "step": 557
3909
+ },
3910
+ {
3911
+ "epoch": 0.0487708947885939,
3912
+ "grad_norm": 0.3338674008846283,
3913
+ "learning_rate": 0.00047582196572228054,
3914
+ "loss": 1.0859,
3915
+ "step": 558
3916
+ },
3917
+ {
3918
+ "epoch": 0.048858297825849446,
3919
+ "grad_norm": 1.2700949907302856,
3920
+ "learning_rate": 0.00047577824414130813,
3921
+ "loss": 1.3166,
3922
+ "step": 559
3923
+ },
3924
+ {
3925
+ "epoch": 0.04894570086310499,
3926
+ "grad_norm": 0.706069827079773,
3927
+ "learning_rate": 0.0004757345225603358,
3928
+ "loss": 1.2259,
3929
+ "step": 560
3930
+ },
3931
+ {
3932
+ "epoch": 0.04903310390036054,
3933
+ "grad_norm": 0.5171198844909668,
3934
+ "learning_rate": 0.0004756908009793634,
3935
+ "loss": 0.7985,
3936
+ "step": 561
3937
+ },
3938
+ {
3939
+ "epoch": 0.04912050693761608,
3940
+ "grad_norm": 0.8621017932891846,
3941
+ "learning_rate": 0.00047564707939839107,
3942
+ "loss": 1.0042,
3943
+ "step": 562
3944
+ },
3945
+ {
3946
+ "epoch": 0.04920790997487163,
3947
+ "grad_norm": 0.926487922668457,
3948
+ "learning_rate": 0.0004756033578174187,
3949
+ "loss": 0.9945,
3950
+ "step": 563
3951
+ },
3952
+ {
3953
+ "epoch": 0.049295313012127175,
3954
+ "grad_norm": 0.9586560726165771,
3955
+ "learning_rate": 0.0004755596362364463,
3956
+ "loss": 1.5266,
3957
+ "step": 564
3958
+ },
3959
+ {
3960
+ "epoch": 0.04938271604938271,
3961
+ "grad_norm": 0.507824182510376,
3962
+ "learning_rate": 0.00047551591465547395,
3963
+ "loss": 0.8737,
3964
+ "step": 565
3965
+ },
3966
+ {
3967
+ "epoch": 0.04947011908663826,
3968
+ "grad_norm": 0.38291049003601074,
3969
+ "learning_rate": 0.0004754721930745016,
3970
+ "loss": 0.7636,
3971
+ "step": 566
3972
+ },
3973
+ {
3974
+ "epoch": 0.049557522123893805,
3975
+ "grad_norm": 0.40479573607444763,
3976
+ "learning_rate": 0.0004754284714935292,
3977
+ "loss": 0.781,
3978
+ "step": 567
3979
+ },
3980
+ {
3981
+ "epoch": 0.04964492516114935,
3982
+ "grad_norm": 0.6375040411949158,
3983
+ "learning_rate": 0.0004753847499125569,
3984
+ "loss": 1.1493,
3985
+ "step": 568
3986
+ },
3987
+ {
3988
+ "epoch": 0.049732328198404896,
3989
+ "grad_norm": 0.3949948847293854,
3990
+ "learning_rate": 0.0004753410283315845,
3991
+ "loss": 0.9626,
3992
+ "step": 569
3993
+ },
3994
+ {
3995
+ "epoch": 0.04981973123566044,
3996
+ "grad_norm": 0.3734526038169861,
3997
+ "learning_rate": 0.0004752973067506121,
3998
+ "loss": 0.9207,
3999
+ "step": 570
4000
+ },
4001
+ {
4002
+ "epoch": 0.04990713427291599,
4003
+ "grad_norm": 0.5179705619812012,
4004
+ "learning_rate": 0.0004752535851696397,
4005
+ "loss": 1.3906,
4006
+ "step": 571
4007
+ },
4008
+ {
4009
+ "epoch": 0.049994537310171526,
4010
+ "grad_norm": 0.4602389931678772,
4011
+ "learning_rate": 0.00047520986358866736,
4012
+ "loss": 1.0577,
4013
+ "step": 572
4014
+ },
4015
+ {
4016
+ "epoch": 0.05008194034742707,
4017
+ "grad_norm": 0.30401960015296936,
4018
+ "learning_rate": 0.00047516614200769506,
4019
+ "loss": 1.13,
4020
+ "step": 573
4021
+ },
4022
+ {
4023
+ "epoch": 0.05016934338468262,
4024
+ "grad_norm": 0.3481753170490265,
4025
+ "learning_rate": 0.00047512242042672265,
4026
+ "loss": 0.857,
4027
+ "step": 574
4028
+ },
4029
+ {
4030
+ "epoch": 0.05025674642193816,
4031
+ "grad_norm": 0.4005964398384094,
4032
+ "learning_rate": 0.0004750786988457503,
4033
+ "loss": 0.9569,
4034
+ "step": 575
4035
+ },
4036
+ {
4037
+ "epoch": 0.05034414945919371,
4038
+ "grad_norm": 0.43765851855278015,
4039
+ "learning_rate": 0.0004750349772647779,
4040
+ "loss": 1.2156,
4041
+ "step": 576
4042
+ },
4043
+ {
4044
+ "epoch": 0.050431552496449254,
4045
+ "grad_norm": 0.3252186179161072,
4046
+ "learning_rate": 0.00047499125568380553,
4047
+ "loss": 1.0392,
4048
+ "step": 577
4049
+ },
4050
+ {
4051
+ "epoch": 0.05051895553370479,
4052
+ "grad_norm": 0.3639061152935028,
4053
+ "learning_rate": 0.0004749475341028331,
4054
+ "loss": 0.914,
4055
+ "step": 578
4056
+ },
4057
+ {
4058
+ "epoch": 0.05060635857096034,
4059
+ "grad_norm": 0.3080824911594391,
4060
+ "learning_rate": 0.0004749038125218608,
4061
+ "loss": 0.9735,
4062
+ "step": 579
4063
+ },
4064
+ {
4065
+ "epoch": 0.050693761608215884,
4066
+ "grad_norm": 0.33566662669181824,
4067
+ "learning_rate": 0.00047486009094088846,
4068
+ "loss": 1.1619,
4069
+ "step": 580
4070
+ },
4071
+ {
4072
+ "epoch": 0.05078116464547143,
4073
+ "grad_norm": 0.2990110218524933,
4074
+ "learning_rate": 0.00047481636935991605,
4075
+ "loss": 0.97,
4076
+ "step": 581
4077
+ },
4078
+ {
4079
+ "epoch": 0.050868567682726976,
4080
+ "grad_norm": 0.3264564871788025,
4081
+ "learning_rate": 0.0004747726477789437,
4082
+ "loss": 0.824,
4083
+ "step": 582
4084
+ },
4085
+ {
4086
+ "epoch": 0.05095597071998252,
4087
+ "grad_norm": 0.37740233540534973,
4088
+ "learning_rate": 0.0004747289261979713,
4089
+ "loss": 1.1715,
4090
+ "step": 583
4091
+ },
4092
+ {
4093
+ "epoch": 0.05104337375723807,
4094
+ "grad_norm": 0.39894765615463257,
4095
+ "learning_rate": 0.00047468520461699894,
4096
+ "loss": 1.3263,
4097
+ "step": 584
4098
+ },
4099
+ {
4100
+ "epoch": 0.051130776794493606,
4101
+ "grad_norm": 0.3279603123664856,
4102
+ "learning_rate": 0.00047464148303602663,
4103
+ "loss": 0.8633,
4104
+ "step": 585
4105
+ },
4106
+ {
4107
+ "epoch": 0.05121817983174915,
4108
+ "grad_norm": 0.30895987153053284,
4109
+ "learning_rate": 0.0004745977614550542,
4110
+ "loss": 0.9019,
4111
+ "step": 586
4112
+ },
4113
+ {
4114
+ "epoch": 0.0513055828690047,
4115
+ "grad_norm": 0.8510332703590393,
4116
+ "learning_rate": 0.00047455403987408187,
4117
+ "loss": 0.9492,
4118
+ "step": 587
4119
+ },
4120
+ {
4121
+ "epoch": 0.05139298590626024,
4122
+ "grad_norm": 0.5336425304412842,
4123
+ "learning_rate": 0.00047451031829310946,
4124
+ "loss": 0.8209,
4125
+ "step": 588
4126
+ },
4127
+ {
4128
+ "epoch": 0.05148038894351579,
4129
+ "grad_norm": 0.3380926847457886,
4130
+ "learning_rate": 0.0004744665967121371,
4131
+ "loss": 0.8024,
4132
+ "step": 589
4133
+ },
4134
+ {
4135
+ "epoch": 0.051567791980771334,
4136
+ "grad_norm": 0.3537689447402954,
4137
+ "learning_rate": 0.00047442287513116475,
4138
+ "loss": 1.1219,
4139
+ "step": 590
4140
+ },
4141
+ {
4142
+ "epoch": 0.05165519501802688,
4143
+ "grad_norm": 0.5417413711547852,
4144
+ "learning_rate": 0.0004743791535501924,
4145
+ "loss": 1.0341,
4146
+ "step": 591
4147
+ },
4148
+ {
4149
+ "epoch": 0.05174259805528242,
4150
+ "grad_norm": 0.4394038915634155,
4151
+ "learning_rate": 0.00047433543196922004,
4152
+ "loss": 0.934,
4153
+ "step": 592
4154
+ },
4155
+ {
4156
+ "epoch": 0.051830001092537964,
4157
+ "grad_norm": 0.738370954990387,
4158
+ "learning_rate": 0.00047429171038824763,
4159
+ "loss": 1.1953,
4160
+ "step": 593
4161
+ },
4162
+ {
4163
+ "epoch": 0.05191740412979351,
4164
+ "grad_norm": 0.33024734258651733,
4165
+ "learning_rate": 0.0004742479888072753,
4166
+ "loss": 0.687,
4167
+ "step": 594
4168
+ },
4169
+ {
4170
+ "epoch": 0.052004807167049055,
4171
+ "grad_norm": 0.3696803152561188,
4172
+ "learning_rate": 0.00047420426722630287,
4173
+ "loss": 1.0533,
4174
+ "step": 595
4175
+ },
4176
+ {
4177
+ "epoch": 0.0520922102043046,
4178
+ "grad_norm": 0.31398460268974304,
4179
+ "learning_rate": 0.00047416054564533057,
4180
+ "loss": 1.0434,
4181
+ "step": 596
4182
+ },
4183
+ {
4184
+ "epoch": 0.05217961324156015,
4185
+ "grad_norm": 0.3482360541820526,
4186
+ "learning_rate": 0.0004741168240643582,
4187
+ "loss": 1.2415,
4188
+ "step": 597
4189
+ },
4190
+ {
4191
+ "epoch": 0.05226701627881569,
4192
+ "grad_norm": 0.32207486033439636,
4193
+ "learning_rate": 0.0004740731024833858,
4194
+ "loss": 1.1465,
4195
+ "step": 598
4196
+ },
4197
+ {
4198
+ "epoch": 0.05235441931607123,
4199
+ "grad_norm": 0.2964969277381897,
4200
+ "learning_rate": 0.00047402938090241345,
4201
+ "loss": 0.8746,
4202
+ "step": 599
4203
+ },
4204
+ {
4205
+ "epoch": 0.05244182235332678,
4206
+ "grad_norm": 0.26993119716644287,
4207
+ "learning_rate": 0.00047398565932144104,
4208
+ "loss": 0.9161,
4209
+ "step": 600
4210
+ },
4211
+ {
4212
+ "epoch": 0.05252922539058232,
4213
+ "grad_norm": 0.31088942289352417,
4214
+ "learning_rate": 0.00047394193774046874,
4215
+ "loss": 0.938,
4216
+ "step": 601
4217
+ },
4218
+ {
4219
+ "epoch": 0.05261662842783787,
4220
+ "grad_norm": 0.2921091318130493,
4221
+ "learning_rate": 0.00047389821615949633,
4222
+ "loss": 0.914,
4223
+ "step": 602
4224
+ },
4225
+ {
4226
+ "epoch": 0.052704031465093414,
4227
+ "grad_norm": 0.4693572223186493,
4228
+ "learning_rate": 0.000473854494578524,
4229
+ "loss": 0.9083,
4230
+ "step": 603
4231
+ },
4232
+ {
4233
+ "epoch": 0.05279143450234896,
4234
+ "grad_norm": 0.6201152801513672,
4235
+ "learning_rate": 0.0004738107729975516,
4236
+ "loss": 1.1098,
4237
+ "step": 604
4238
+ },
4239
+ {
4240
+ "epoch": 0.0528788375396045,
4241
+ "grad_norm": 0.48871442675590515,
4242
+ "learning_rate": 0.0004737670514165792,
4243
+ "loss": 1.1571,
4244
+ "step": 605
4245
+ },
4246
+ {
4247
+ "epoch": 0.052966240576860044,
4248
+ "grad_norm": 0.26332658529281616,
4249
+ "learning_rate": 0.00047372332983560686,
4250
+ "loss": 0.995,
4251
+ "step": 606
4252
+ },
4253
+ {
4254
+ "epoch": 0.05305364361411559,
4255
+ "grad_norm": 0.7663961052894592,
4256
+ "learning_rate": 0.0004736796082546345,
4257
+ "loss": 1.0206,
4258
+ "step": 607
4259
+ },
4260
+ {
4261
+ "epoch": 0.053141046651371135,
4262
+ "grad_norm": 0.3350706100463867,
4263
+ "learning_rate": 0.00047363588667366215,
4264
+ "loss": 1.0328,
4265
+ "step": 608
4266
+ },
4267
+ {
4268
+ "epoch": 0.05322844968862668,
4269
+ "grad_norm": 0.30147233605384827,
4270
+ "learning_rate": 0.00047359216509268974,
4271
+ "loss": 0.8874,
4272
+ "step": 609
4273
+ },
4274
+ {
4275
+ "epoch": 0.053315852725882226,
4276
+ "grad_norm": 0.4487704038619995,
4277
+ "learning_rate": 0.0004735484435117174,
4278
+ "loss": 0.8327,
4279
+ "step": 610
4280
+ },
4281
+ {
4282
+ "epoch": 0.05340325576313777,
4283
+ "grad_norm": 0.474685400724411,
4284
+ "learning_rate": 0.00047350472193074503,
4285
+ "loss": 0.8405,
4286
+ "step": 611
4287
+ },
4288
+ {
4289
+ "epoch": 0.05349065880039331,
4290
+ "grad_norm": 0.6512682437896729,
4291
+ "learning_rate": 0.0004734610003497726,
4292
+ "loss": 1.418,
4293
+ "step": 612
4294
+ },
4295
+ {
4296
+ "epoch": 0.053578061837648856,
4297
+ "grad_norm": 0.3829117715358734,
4298
+ "learning_rate": 0.0004734172787688003,
4299
+ "loss": 0.9036,
4300
+ "step": 613
4301
+ },
4302
+ {
4303
+ "epoch": 0.0536654648749044,
4304
+ "grad_norm": 0.3626525402069092,
4305
+ "learning_rate": 0.0004733735571878279,
4306
+ "loss": 0.9919,
4307
+ "step": 614
4308
+ },
4309
+ {
4310
+ "epoch": 0.05375286791215995,
4311
+ "grad_norm": 0.6899876594543457,
4312
+ "learning_rate": 0.00047332983560685555,
4313
+ "loss": 0.8781,
4314
+ "step": 615
4315
+ },
4316
+ {
4317
+ "epoch": 0.05384027094941549,
4318
+ "grad_norm": 0.33936572074890137,
4319
+ "learning_rate": 0.0004732861140258832,
4320
+ "loss": 0.7375,
4321
+ "step": 616
4322
+ },
4323
+ {
4324
+ "epoch": 0.05392767398667104,
4325
+ "grad_norm": 0.45376959443092346,
4326
+ "learning_rate": 0.0004732423924449108,
4327
+ "loss": 0.868,
4328
+ "step": 617
4329
+ },
4330
+ {
4331
+ "epoch": 0.054015077023926585,
4332
+ "grad_norm": 0.5580937266349792,
4333
+ "learning_rate": 0.0004731986708639385,
4334
+ "loss": 1.182,
4335
+ "step": 618
4336
+ },
4337
+ {
4338
+ "epoch": 0.05410248006118212,
4339
+ "grad_norm": 0.3207378685474396,
4340
+ "learning_rate": 0.0004731549492829661,
4341
+ "loss": 0.9069,
4342
+ "step": 619
4343
+ },
4344
+ {
4345
+ "epoch": 0.05418988309843767,
4346
+ "grad_norm": 0.3553832769393921,
4347
+ "learning_rate": 0.0004731112277019937,
4348
+ "loss": 1.4,
4349
+ "step": 620
4350
+ },
4351
+ {
4352
+ "epoch": 0.054277286135693215,
4353
+ "grad_norm": 0.3708738386631012,
4354
+ "learning_rate": 0.0004730675061210213,
4355
+ "loss": 1.1475,
4356
+ "step": 621
4357
+ },
4358
+ {
4359
+ "epoch": 0.05436468917294876,
4360
+ "grad_norm": 0.35041436553001404,
4361
+ "learning_rate": 0.00047302378454004896,
4362
+ "loss": 0.9505,
4363
+ "step": 622
4364
+ },
4365
+ {
4366
+ "epoch": 0.054452092210204306,
4367
+ "grad_norm": 0.37304723262786865,
4368
+ "learning_rate": 0.0004729800629590766,
4369
+ "loss": 0.8858,
4370
+ "step": 623
4371
+ },
4372
+ {
4373
+ "epoch": 0.05453949524745985,
4374
+ "grad_norm": 0.34602999687194824,
4375
+ "learning_rate": 0.00047293634137810425,
4376
+ "loss": 1.0687,
4377
+ "step": 624
4378
+ },
4379
+ {
4380
+ "epoch": 0.0546268982847154,
4381
+ "grad_norm": 0.3194156587123871,
4382
+ "learning_rate": 0.0004728926197971319,
4383
+ "loss": 0.9222,
4384
+ "step": 625
4385
+ },
4386
+ {
4387
+ "epoch": 0.054714301321970936,
4388
+ "grad_norm": 0.34864407777786255,
4389
+ "learning_rate": 0.0004728488982161595,
4390
+ "loss": 1.1291,
4391
+ "step": 626
4392
+ },
4393
+ {
4394
+ "epoch": 0.05480170435922648,
4395
+ "grad_norm": 0.27222639322280884,
4396
+ "learning_rate": 0.00047280517663518713,
4397
+ "loss": 0.9762,
4398
+ "step": 627
4399
+ },
4400
+ {
4401
+ "epoch": 0.05488910739648203,
4402
+ "grad_norm": 0.289035826921463,
4403
+ "learning_rate": 0.0004727614550542148,
4404
+ "loss": 0.84,
4405
+ "step": 628
4406
+ },
4407
+ {
4408
+ "epoch": 0.05497651043373757,
4409
+ "grad_norm": 1.1678911447525024,
4410
+ "learning_rate": 0.0004727177334732424,
4411
+ "loss": 0.8835,
4412
+ "step": 629
4413
+ },
4414
+ {
4415
+ "epoch": 0.05506391347099312,
4416
+ "grad_norm": 0.32149800658226013,
4417
+ "learning_rate": 0.00047267401189227007,
4418
+ "loss": 0.8814,
4419
+ "step": 630
4420
+ },
4421
+ {
4422
+ "epoch": 0.055151316508248664,
4423
+ "grad_norm": 0.3312610387802124,
4424
+ "learning_rate": 0.00047263029031129766,
4425
+ "loss": 0.9001,
4426
+ "step": 631
4427
+ },
4428
+ {
4429
+ "epoch": 0.0552387195455042,
4430
+ "grad_norm": 0.32734236121177673,
4431
+ "learning_rate": 0.0004725865687303253,
4432
+ "loss": 0.6587,
4433
+ "step": 632
4434
+ },
4435
+ {
4436
+ "epoch": 0.05532612258275975,
4437
+ "grad_norm": 0.780978798866272,
4438
+ "learning_rate": 0.0004725428471493529,
4439
+ "loss": 1.1513,
4440
+ "step": 633
4441
+ },
4442
+ {
4443
+ "epoch": 0.055413525620015294,
4444
+ "grad_norm": 0.3088547885417938,
4445
+ "learning_rate": 0.00047249912556838054,
4446
+ "loss": 0.8629,
4447
+ "step": 634
4448
+ },
4449
+ {
4450
+ "epoch": 0.05550092865727084,
4451
+ "grad_norm": 0.34646108746528625,
4452
+ "learning_rate": 0.00047245540398740824,
4453
+ "loss": 0.8972,
4454
+ "step": 635
4455
+ },
4456
+ {
4457
+ "epoch": 0.055588331694526386,
4458
+ "grad_norm": 0.47034963965415955,
4459
+ "learning_rate": 0.00047241168240643583,
4460
+ "loss": 1.414,
4461
+ "step": 636
4462
+ },
4463
+ {
4464
+ "epoch": 0.05567573473178193,
4465
+ "grad_norm": 0.3200039565563202,
4466
+ "learning_rate": 0.0004723679608254635,
4467
+ "loss": 1.0516,
4468
+ "step": 637
4469
+ },
4470
+ {
4471
+ "epoch": 0.05576313776903748,
4472
+ "grad_norm": 0.3332134187221527,
4473
+ "learning_rate": 0.00047232423924449107,
4474
+ "loss": 0.9086,
4475
+ "step": 638
4476
+ },
4477
+ {
4478
+ "epoch": 0.055850540806293016,
4479
+ "grad_norm": 0.4804655611515045,
4480
+ "learning_rate": 0.0004722805176635187,
4481
+ "loss": 0.9719,
4482
+ "step": 639
4483
+ },
4484
+ {
4485
+ "epoch": 0.05593794384354856,
4486
+ "grad_norm": 0.3591998219490051,
4487
+ "learning_rate": 0.0004722367960825463,
4488
+ "loss": 0.7201,
4489
+ "step": 640
4490
+ },
4491
+ {
4492
+ "epoch": 0.05602534688080411,
4493
+ "grad_norm": 0.3319551944732666,
4494
+ "learning_rate": 0.000472193074501574,
4495
+ "loss": 1.1264,
4496
+ "step": 641
4497
+ },
4498
+ {
4499
+ "epoch": 0.05611274991805965,
4500
+ "grad_norm": 0.3312825858592987,
4501
+ "learning_rate": 0.00047214935292060165,
4502
+ "loss": 1.0482,
4503
+ "step": 642
4504
+ },
4505
+ {
4506
+ "epoch": 0.0562001529553152,
4507
+ "grad_norm": 0.3713119328022003,
4508
+ "learning_rate": 0.00047210563133962924,
4509
+ "loss": 1.1576,
4510
+ "step": 643
4511
+ },
4512
+ {
4513
+ "epoch": 0.056287555992570744,
4514
+ "grad_norm": 0.35899418592453003,
4515
+ "learning_rate": 0.0004720619097586569,
4516
+ "loss": 0.7906,
4517
+ "step": 644
4518
+ },
4519
+ {
4520
+ "epoch": 0.05637495902982629,
4521
+ "grad_norm": 0.31557363271713257,
4522
+ "learning_rate": 0.0004720181881776845,
4523
+ "loss": 0.9632,
4524
+ "step": 645
4525
+ },
4526
+ {
4527
+ "epoch": 0.05646236206708183,
4528
+ "grad_norm": 0.40129950642585754,
4529
+ "learning_rate": 0.00047197446659671217,
4530
+ "loss": 1.3243,
4531
+ "step": 646
4532
+ },
4533
+ {
4534
+ "epoch": 0.056549765104337374,
4535
+ "grad_norm": 0.3548416495323181,
4536
+ "learning_rate": 0.0004719307450157398,
4537
+ "loss": 1.0228,
4538
+ "step": 647
4539
+ },
4540
+ {
4541
+ "epoch": 0.05663716814159292,
4542
+ "grad_norm": 0.5984897017478943,
4543
+ "learning_rate": 0.0004718870234347674,
4544
+ "loss": 0.9532,
4545
+ "step": 648
4546
+ },
4547
+ {
4548
+ "epoch": 0.056724571178848465,
4549
+ "grad_norm": 0.2719477117061615,
4550
+ "learning_rate": 0.00047184330185379505,
4551
+ "loss": 0.9909,
4552
+ "step": 649
4553
+ },
4554
+ {
4555
+ "epoch": 0.05681197421610401,
4556
+ "grad_norm": 0.2690770626068115,
4557
+ "learning_rate": 0.00047179958027282264,
4558
+ "loss": 0.9754,
4559
+ "step": 650
4560
+ },
4561
+ {
4562
+ "epoch": 0.05689937725335956,
4563
+ "grad_norm": 0.3287508189678192,
4564
+ "learning_rate": 0.0004717558586918503,
4565
+ "loss": 0.823,
4566
+ "step": 651
4567
+ },
4568
+ {
4569
+ "epoch": 0.0569867802906151,
4570
+ "grad_norm": 0.6442591547966003,
4571
+ "learning_rate": 0.00047171213711087793,
4572
+ "loss": 1.1211,
4573
+ "step": 652
4574
+ },
4575
+ {
4576
+ "epoch": 0.05707418332787064,
4577
+ "grad_norm": 0.3647923469543457,
4578
+ "learning_rate": 0.0004716684155299056,
4579
+ "loss": 0.8892,
4580
+ "step": 653
4581
+ },
4582
+ {
4583
+ "epoch": 0.05716158636512619,
4584
+ "grad_norm": 0.3035934269428253,
4585
+ "learning_rate": 0.0004716246939489332,
4586
+ "loss": 0.9781,
4587
+ "step": 654
4588
+ },
4589
+ {
4590
+ "epoch": 0.05724898940238173,
4591
+ "grad_norm": 0.2986050546169281,
4592
+ "learning_rate": 0.0004715809723679608,
4593
+ "loss": 0.873,
4594
+ "step": 655
4595
+ },
4596
+ {
4597
+ "epoch": 0.05733639243963728,
4598
+ "grad_norm": 0.3101188540458679,
4599
+ "learning_rate": 0.00047153725078698846,
4600
+ "loss": 1.1788,
4601
+ "step": 656
4602
+ },
4603
+ {
4604
+ "epoch": 0.057423795476892824,
4605
+ "grad_norm": 1.2602791786193848,
4606
+ "learning_rate": 0.0004714935292060161,
4607
+ "loss": 1.376,
4608
+ "step": 657
4609
+ },
4610
+ {
4611
+ "epoch": 0.05751119851414837,
4612
+ "grad_norm": 0.374224454164505,
4613
+ "learning_rate": 0.00047144980762504375,
4614
+ "loss": 0.9379,
4615
+ "step": 658
4616
+ },
4617
+ {
4618
+ "epoch": 0.05759860155140391,
4619
+ "grad_norm": 0.35825932025909424,
4620
+ "learning_rate": 0.0004714060860440714,
4621
+ "loss": 0.9601,
4622
+ "step": 659
4623
+ },
4624
+ {
4625
+ "epoch": 0.057686004588659454,
4626
+ "grad_norm": 0.37547796964645386,
4627
+ "learning_rate": 0.000471362364463099,
4628
+ "loss": 1.5432,
4629
+ "step": 660
4630
+ },
4631
+ {
4632
+ "epoch": 0.057773407625915,
4633
+ "grad_norm": 0.30925118923187256,
4634
+ "learning_rate": 0.00047131864288212663,
4635
+ "loss": 0.9129,
4636
+ "step": 661
4637
+ },
4638
+ {
4639
+ "epoch": 0.057860810663170545,
4640
+ "grad_norm": 0.43315598368644714,
4641
+ "learning_rate": 0.0004712749213011542,
4642
+ "loss": 0.7993,
4643
+ "step": 662
4644
+ },
4645
+ {
4646
+ "epoch": 0.05794821370042609,
4647
+ "grad_norm": 1.0459505319595337,
4648
+ "learning_rate": 0.0004712311997201819,
4649
+ "loss": 1.4232,
4650
+ "step": 663
4651
+ },
4652
+ {
4653
+ "epoch": 0.058035616737681636,
4654
+ "grad_norm": 0.4363897740840912,
4655
+ "learning_rate": 0.0004711874781392095,
4656
+ "loss": 1.3812,
4657
+ "step": 664
4658
+ },
4659
+ {
4660
+ "epoch": 0.05812301977493718,
4661
+ "grad_norm": 0.2475530058145523,
4662
+ "learning_rate": 0.00047114375655823716,
4663
+ "loss": 0.8574,
4664
+ "step": 665
4665
+ },
4666
+ {
4667
+ "epoch": 0.05821042281219272,
4668
+ "grad_norm": 0.352760910987854,
4669
+ "learning_rate": 0.0004711000349772648,
4670
+ "loss": 1.1236,
4671
+ "step": 666
4672
+ },
4673
+ {
4674
+ "epoch": 0.058297825849448266,
4675
+ "grad_norm": 0.5032192468643188,
4676
+ "learning_rate": 0.0004710563133962924,
4677
+ "loss": 1.1754,
4678
+ "step": 667
4679
+ },
4680
+ {
4681
+ "epoch": 0.05838522888670381,
4682
+ "grad_norm": 0.35939404368400574,
4683
+ "learning_rate": 0.0004710125918153201,
4684
+ "loss": 0.963,
4685
+ "step": 668
4686
+ },
4687
+ {
4688
+ "epoch": 0.05847263192395936,
4689
+ "grad_norm": 0.4467969834804535,
4690
+ "learning_rate": 0.0004709688702343477,
4691
+ "loss": 2.0293,
4692
+ "step": 669
4693
+ },
4694
+ {
4695
+ "epoch": 0.0585600349612149,
4696
+ "grad_norm": 0.3420664966106415,
4697
+ "learning_rate": 0.00047092514865337533,
4698
+ "loss": 1.0342,
4699
+ "step": 670
4700
+ },
4701
+ {
4702
+ "epoch": 0.05864743799847045,
4703
+ "grad_norm": 0.3728554844856262,
4704
+ "learning_rate": 0.0004708814270724029,
4705
+ "loss": 0.9747,
4706
+ "step": 671
4707
+ },
4708
+ {
4709
+ "epoch": 0.058734841035725995,
4710
+ "grad_norm": 1.2405109405517578,
4711
+ "learning_rate": 0.00047083770549143057,
4712
+ "loss": 1.6034,
4713
+ "step": 672
4714
+ },
4715
+ {
4716
+ "epoch": 0.05882224407298153,
4717
+ "grad_norm": 0.3643404543399811,
4718
+ "learning_rate": 0.0004707939839104582,
4719
+ "loss": 0.7948,
4720
+ "step": 673
4721
+ },
4722
+ {
4723
+ "epoch": 0.05890964711023708,
4724
+ "grad_norm": 0.31262850761413574,
4725
+ "learning_rate": 0.00047075026232948586,
4726
+ "loss": 0.8154,
4727
+ "step": 674
4728
+ },
4729
+ {
4730
+ "epoch": 0.058997050147492625,
4731
+ "grad_norm": 0.49073535203933716,
4732
+ "learning_rate": 0.0004707065407485135,
4733
+ "loss": 0.9082,
4734
+ "step": 675
4735
+ },
4736
+ {
4737
+ "epoch": 0.05908445318474817,
4738
+ "grad_norm": 0.39412635564804077,
4739
+ "learning_rate": 0.0004706628191675411,
4740
+ "loss": 1.0025,
4741
+ "step": 676
4742
+ },
4743
+ {
4744
+ "epoch": 0.059171856222003716,
4745
+ "grad_norm": 0.40831953287124634,
4746
+ "learning_rate": 0.00047061909758656874,
4747
+ "loss": 1.0005,
4748
+ "step": 677
4749
+ },
4750
+ {
4751
+ "epoch": 0.05925925925925926,
4752
+ "grad_norm": 0.5391172766685486,
4753
+ "learning_rate": 0.0004705753760055964,
4754
+ "loss": 0.9031,
4755
+ "step": 678
4756
+ },
4757
+ {
4758
+ "epoch": 0.05934666229651481,
4759
+ "grad_norm": 0.31176143884658813,
4760
+ "learning_rate": 0.000470531654424624,
4761
+ "loss": 0.9589,
4762
+ "step": 679
4763
+ },
4764
+ {
4765
+ "epoch": 0.059434065333770346,
4766
+ "grad_norm": 0.4320748448371887,
4767
+ "learning_rate": 0.00047048793284365167,
4768
+ "loss": 1.0996,
4769
+ "step": 680
4770
+ },
4771
+ {
4772
+ "epoch": 0.05952146837102589,
4773
+ "grad_norm": 0.4102902412414551,
4774
+ "learning_rate": 0.00047044421126267926,
4775
+ "loss": 2.0338,
4776
+ "step": 681
4777
+ },
4778
+ {
4779
+ "epoch": 0.05960887140828144,
4780
+ "grad_norm": 0.36022135615348816,
4781
+ "learning_rate": 0.0004704004896817069,
4782
+ "loss": 0.9675,
4783
+ "step": 682
4784
+ },
4785
+ {
4786
+ "epoch": 0.05969627444553698,
4787
+ "grad_norm": 0.34680843353271484,
4788
+ "learning_rate": 0.0004703567681007345,
4789
+ "loss": 0.8765,
4790
+ "step": 683
4791
+ },
4792
+ {
4793
+ "epoch": 0.05978367748279253,
4794
+ "grad_norm": 0.29740166664123535,
4795
+ "learning_rate": 0.00047031304651976214,
4796
+ "loss": 1.0053,
4797
+ "step": 684
4798
+ },
4799
+ {
4800
+ "epoch": 0.059871080520048074,
4801
+ "grad_norm": 0.31341496109962463,
4802
+ "learning_rate": 0.00047026932493878984,
4803
+ "loss": 1.0295,
4804
+ "step": 685
4805
+ },
4806
+ {
4807
+ "epoch": 0.05995848355730361,
4808
+ "grad_norm": 2.076716184616089,
4809
+ "learning_rate": 0.00047022560335781743,
4810
+ "loss": 1.5646,
4811
+ "step": 686
4812
+ },
4813
+ {
4814
+ "epoch": 0.06004588659455916,
4815
+ "grad_norm": 0.2896002531051636,
4816
+ "learning_rate": 0.0004701818817768451,
4817
+ "loss": 0.9136,
4818
+ "step": 687
4819
+ },
4820
+ {
4821
+ "epoch": 0.060133289631814704,
4822
+ "grad_norm": 0.37143734097480774,
4823
+ "learning_rate": 0.00047013816019587267,
4824
+ "loss": 0.8871,
4825
+ "step": 688
4826
+ },
4827
+ {
4828
+ "epoch": 0.06022069266907025,
4829
+ "grad_norm": 0.49429547786712646,
4830
+ "learning_rate": 0.0004700944386149003,
4831
+ "loss": 1.1602,
4832
+ "step": 689
4833
+ },
4834
+ {
4835
+ "epoch": 0.060308095706325796,
4836
+ "grad_norm": 0.3905726671218872,
4837
+ "learning_rate": 0.0004700507170339279,
4838
+ "loss": 1.1543,
4839
+ "step": 690
4840
+ },
4841
+ {
4842
+ "epoch": 0.06039549874358134,
4843
+ "grad_norm": 0.3924982249736786,
4844
+ "learning_rate": 0.0004700069954529556,
4845
+ "loss": 0.8275,
4846
+ "step": 691
4847
+ },
4848
+ {
4849
+ "epoch": 0.06048290178083689,
4850
+ "grad_norm": 0.27903103828430176,
4851
+ "learning_rate": 0.00046996327387198325,
4852
+ "loss": 0.8494,
4853
+ "step": 692
4854
+ },
4855
+ {
4856
+ "epoch": 0.060570304818092426,
4857
+ "grad_norm": 0.382907897233963,
4858
+ "learning_rate": 0.00046991955229101084,
4859
+ "loss": 0.9531,
4860
+ "step": 693
4861
+ },
4862
+ {
4863
+ "epoch": 0.06065770785534797,
4864
+ "grad_norm": 0.37153640389442444,
4865
+ "learning_rate": 0.0004698758307100385,
4866
+ "loss": 0.9131,
4867
+ "step": 694
4868
+ },
4869
+ {
4870
+ "epoch": 0.06074511089260352,
4871
+ "grad_norm": 0.3007877767086029,
4872
+ "learning_rate": 0.0004698321091290661,
4873
+ "loss": 0.9513,
4874
+ "step": 695
4875
+ },
4876
+ {
4877
+ "epoch": 0.06083251392985906,
4878
+ "grad_norm": 0.2546001672744751,
4879
+ "learning_rate": 0.0004697883875480938,
4880
+ "loss": 0.944,
4881
+ "step": 696
4882
+ },
4883
+ {
4884
+ "epoch": 0.06091991696711461,
4885
+ "grad_norm": 0.27665847539901733,
4886
+ "learning_rate": 0.0004697446659671214,
4887
+ "loss": 0.7422,
4888
+ "step": 697
4889
+ },
4890
+ {
4891
+ "epoch": 0.061007320004370154,
4892
+ "grad_norm": 0.28401628136634827,
4893
+ "learning_rate": 0.000469700944386149,
4894
+ "loss": 0.8458,
4895
+ "step": 698
4896
+ },
4897
+ {
4898
+ "epoch": 0.0610947230416257,
4899
+ "grad_norm": 0.5097898840904236,
4900
+ "learning_rate": 0.00046965722280517666,
4901
+ "loss": 1.0018,
4902
+ "step": 699
4903
+ },
4904
+ {
4905
+ "epoch": 0.06118212607888124,
4906
+ "grad_norm": 0.44888317584991455,
4907
+ "learning_rate": 0.00046961350122420425,
4908
+ "loss": 1.1203,
4909
+ "step": 700
4910
+ },
4911
+ {
4912
+ "epoch": 0.061269529116136784,
4913
+ "grad_norm": 0.25764307379722595,
4914
+ "learning_rate": 0.0004695697796432319,
4915
+ "loss": 1.0156,
4916
+ "step": 701
4917
+ },
4918
+ {
4919
+ "epoch": 0.06135693215339233,
4920
+ "grad_norm": 0.31590837240219116,
4921
+ "learning_rate": 0.00046952605806225954,
4922
+ "loss": 0.8823,
4923
+ "step": 702
4924
+ },
4925
+ {
4926
+ "epoch": 0.061444335190647875,
4927
+ "grad_norm": 0.6337835192680359,
4928
+ "learning_rate": 0.0004694823364812872,
4929
+ "loss": 1.1565,
4930
+ "step": 703
4931
+ },
4932
+ {
4933
+ "epoch": 0.06153173822790342,
4934
+ "grad_norm": 0.34477898478507996,
4935
+ "learning_rate": 0.00046943861490031483,
4936
+ "loss": 0.7563,
4937
+ "step": 704
4938
+ },
4939
+ {
4940
+ "epoch": 0.061619141265158967,
4941
+ "grad_norm": 0.39787057042121887,
4942
+ "learning_rate": 0.0004693948933193424,
4943
+ "loss": 0.9804,
4944
+ "step": 705
4945
+ },
4946
+ {
4947
+ "epoch": 0.06170654430241451,
4948
+ "grad_norm": 0.28919321298599243,
4949
+ "learning_rate": 0.00046935117173837007,
4950
+ "loss": 1.0019,
4951
+ "step": 706
4952
+ },
4953
+ {
4954
+ "epoch": 0.06179394733967005,
4955
+ "grad_norm": 0.25737130641937256,
4956
+ "learning_rate": 0.00046930745015739766,
4957
+ "loss": 0.8751,
4958
+ "step": 707
4959
+ },
4960
+ {
4961
+ "epoch": 0.0618813503769256,
4962
+ "grad_norm": 0.2699412703514099,
4963
+ "learning_rate": 0.00046926372857642536,
4964
+ "loss": 0.8999,
4965
+ "step": 708
4966
+ },
4967
+ {
4968
+ "epoch": 0.06196875341418114,
4969
+ "grad_norm": 0.2957920730113983,
4970
+ "learning_rate": 0.000469220006995453,
4971
+ "loss": 0.9083,
4972
+ "step": 709
4973
+ },
4974
+ {
4975
+ "epoch": 0.06205615645143669,
4976
+ "grad_norm": 0.2826875150203705,
4977
+ "learning_rate": 0.0004691762854144806,
4978
+ "loss": 0.946,
4979
+ "step": 710
4980
+ },
4981
+ {
4982
+ "epoch": 0.062143559488692234,
4983
+ "grad_norm": 0.29016223549842834,
4984
+ "learning_rate": 0.00046913256383350824,
4985
+ "loss": 0.8126,
4986
+ "step": 711
4987
+ },
4988
+ {
4989
+ "epoch": 0.06223096252594778,
4990
+ "grad_norm": 0.3504863679409027,
4991
+ "learning_rate": 0.00046908884225253583,
4992
+ "loss": 0.9127,
4993
+ "step": 712
4994
+ },
4995
+ {
4996
+ "epoch": 0.06231836556320332,
4997
+ "grad_norm": 0.2627776861190796,
4998
+ "learning_rate": 0.00046904512067156353,
4999
+ "loss": 0.9476,
5000
+ "step": 713
5001
+ },
5002
+ {
5003
+ "epoch": 0.062405768600458864,
5004
+ "grad_norm": 0.3002050220966339,
5005
+ "learning_rate": 0.0004690013990905911,
5006
+ "loss": 0.9444,
5007
+ "step": 714
5008
+ },
5009
+ {
5010
+ "epoch": 0.06249317163771441,
5011
+ "grad_norm": 0.8539018630981445,
5012
+ "learning_rate": 0.00046895767750961876,
5013
+ "loss": 0.8977,
5014
+ "step": 715
5015
+ },
5016
+ {
5017
+ "epoch": 0.06258057467496995,
5018
+ "grad_norm": 0.25260186195373535,
5019
+ "learning_rate": 0.0004689139559286464,
5020
+ "loss": 0.9615,
5021
+ "step": 716
5022
+ },
5023
+ {
5024
+ "epoch": 0.0626679777122255,
5025
+ "grad_norm": 0.25615084171295166,
5026
+ "learning_rate": 0.000468870234347674,
5027
+ "loss": 0.8912,
5028
+ "step": 717
5029
+ },
5030
+ {
5031
+ "epoch": 0.06275538074948105,
5032
+ "grad_norm": 0.3263600170612335,
5033
+ "learning_rate": 0.00046882651276670164,
5034
+ "loss": 0.843,
5035
+ "step": 718
5036
+ },
5037
+ {
5038
+ "epoch": 0.06284278378673659,
5039
+ "grad_norm": 0.5694889426231384,
5040
+ "learning_rate": 0.0004687827911857293,
5041
+ "loss": 1.1624,
5042
+ "step": 719
5043
+ },
5044
+ {
5045
+ "epoch": 0.06293018682399214,
5046
+ "grad_norm": 0.3248819410800934,
5047
+ "learning_rate": 0.00046873906960475693,
5048
+ "loss": 0.9452,
5049
+ "step": 720
5050
+ },
5051
+ {
5052
+ "epoch": 0.06301758986124768,
5053
+ "grad_norm": 0.40857037901878357,
5054
+ "learning_rate": 0.0004686953480237845,
5055
+ "loss": 0.9117,
5056
+ "step": 721
5057
+ },
5058
+ {
5059
+ "epoch": 0.06310499289850323,
5060
+ "grad_norm": 0.3211118280887604,
5061
+ "learning_rate": 0.00046865162644281217,
5062
+ "loss": 0.794,
5063
+ "step": 722
5064
+ },
5065
+ {
5066
+ "epoch": 0.06319239593575877,
5067
+ "grad_norm": 0.32386934757232666,
5068
+ "learning_rate": 0.0004686079048618398,
5069
+ "loss": 1.2288,
5070
+ "step": 723
5071
+ },
5072
+ {
5073
+ "epoch": 0.0632797989730143,
5074
+ "grad_norm": 0.3044579029083252,
5075
+ "learning_rate": 0.00046856418328086746,
5076
+ "loss": 0.9187,
5077
+ "step": 724
5078
+ },
5079
+ {
5080
+ "epoch": 0.06336720201026985,
5081
+ "grad_norm": 0.6175875067710876,
5082
+ "learning_rate": 0.0004685204616998951,
5083
+ "loss": 0.8695,
5084
+ "step": 725
5085
+ },
5086
+ {
5087
+ "epoch": 0.0634546050475254,
5088
+ "grad_norm": 0.7931004166603088,
5089
+ "learning_rate": 0.0004684767401189227,
5090
+ "loss": 1.3616,
5091
+ "step": 726
5092
+ },
5093
+ {
5094
+ "epoch": 0.06354200808478094,
5095
+ "grad_norm": 0.337348997592926,
5096
+ "learning_rate": 0.00046843301853795034,
5097
+ "loss": 0.8654,
5098
+ "step": 727
5099
+ },
5100
+ {
5101
+ "epoch": 0.06362941112203649,
5102
+ "grad_norm": 0.4152870178222656,
5103
+ "learning_rate": 0.000468389296956978,
5104
+ "loss": 1.2349,
5105
+ "step": 728
5106
+ },
5107
+ {
5108
+ "epoch": 0.06371681415929203,
5109
+ "grad_norm": 0.3474035859107971,
5110
+ "learning_rate": 0.0004683455753760056,
5111
+ "loss": 0.9225,
5112
+ "step": 729
5113
+ },
5114
+ {
5115
+ "epoch": 0.06380421719654758,
5116
+ "grad_norm": 0.35225990414619446,
5117
+ "learning_rate": 0.0004683018537950333,
5118
+ "loss": 0.9248,
5119
+ "step": 730
5120
+ },
5121
+ {
5122
+ "epoch": 0.06389162023380313,
5123
+ "grad_norm": 0.24920597672462463,
5124
+ "learning_rate": 0.00046825813221406087,
5125
+ "loss": 0.8138,
5126
+ "step": 731
5127
+ },
5128
+ {
5129
+ "epoch": 0.06397902327105867,
5130
+ "grad_norm": 0.3522126376628876,
5131
+ "learning_rate": 0.0004682144106330885,
5132
+ "loss": 0.9314,
5133
+ "step": 732
5134
+ },
5135
+ {
5136
+ "epoch": 0.06406642630831422,
5137
+ "grad_norm": 0.4510492980480194,
5138
+ "learning_rate": 0.0004681706890521161,
5139
+ "loss": 0.8733,
5140
+ "step": 733
5141
+ },
5142
+ {
5143
+ "epoch": 0.06415382934556976,
5144
+ "grad_norm": 0.2538619935512543,
5145
+ "learning_rate": 0.00046812696747114375,
5146
+ "loss": 0.8893,
5147
+ "step": 734
5148
+ },
5149
+ {
5150
+ "epoch": 0.06424123238282531,
5151
+ "grad_norm": 0.39753592014312744,
5152
+ "learning_rate": 0.0004680832458901714,
5153
+ "loss": 1.0493,
5154
+ "step": 735
5155
+ },
5156
+ {
5157
+ "epoch": 0.06432863542008085,
5158
+ "grad_norm": 0.40073463320732117,
5159
+ "learning_rate": 0.00046803952430919904,
5160
+ "loss": 0.8895,
5161
+ "step": 736
5162
+ },
5163
+ {
5164
+ "epoch": 0.06441603845733639,
5165
+ "grad_norm": 0.31110239028930664,
5166
+ "learning_rate": 0.0004679958027282267,
5167
+ "loss": 0.8689,
5168
+ "step": 737
5169
+ },
5170
+ {
5171
+ "epoch": 0.06450344149459193,
5172
+ "grad_norm": 0.29956865310668945,
5173
+ "learning_rate": 0.0004679520811472543,
5174
+ "loss": 0.8385,
5175
+ "step": 738
5176
+ },
5177
+ {
5178
+ "epoch": 0.06459084453184748,
5179
+ "grad_norm": 0.3735499382019043,
5180
+ "learning_rate": 0.0004679083595662819,
5181
+ "loss": 0.8552,
5182
+ "step": 739
5183
+ },
5184
+ {
5185
+ "epoch": 0.06467824756910302,
5186
+ "grad_norm": 0.4668900966644287,
5187
+ "learning_rate": 0.0004678646379853095,
5188
+ "loss": 1.4957,
5189
+ "step": 740
5190
+ },
5191
+ {
5192
+ "epoch": 0.06476565060635857,
5193
+ "grad_norm": 0.363799512386322,
5194
+ "learning_rate": 0.0004678209164043372,
5195
+ "loss": 1.0365,
5196
+ "step": 741
5197
+ },
5198
+ {
5199
+ "epoch": 0.06485305364361411,
5200
+ "grad_norm": 0.3261052668094635,
5201
+ "learning_rate": 0.00046777719482336486,
5202
+ "loss": 0.8972,
5203
+ "step": 742
5204
+ },
5205
+ {
5206
+ "epoch": 0.06494045668086966,
5207
+ "grad_norm": 0.27814945578575134,
5208
+ "learning_rate": 0.00046773347324239245,
5209
+ "loss": 0.8051,
5210
+ "step": 743
5211
+ },
5212
+ {
5213
+ "epoch": 0.0650278597181252,
5214
+ "grad_norm": 0.37245509028434753,
5215
+ "learning_rate": 0.0004676897516614201,
5216
+ "loss": 0.9421,
5217
+ "step": 744
5218
+ },
5219
+ {
5220
+ "epoch": 0.06511526275538075,
5221
+ "grad_norm": 0.2978193163871765,
5222
+ "learning_rate": 0.0004676460300804477,
5223
+ "loss": 0.8464,
5224
+ "step": 745
5225
+ },
5226
+ {
5227
+ "epoch": 0.0652026657926363,
5228
+ "grad_norm": 0.41827908158302307,
5229
+ "learning_rate": 0.00046760230849947533,
5230
+ "loss": 1.3154,
5231
+ "step": 746
5232
+ },
5233
+ {
5234
+ "epoch": 0.06529006882989184,
5235
+ "grad_norm": 0.28153055906295776,
5236
+ "learning_rate": 0.000467558586918503,
5237
+ "loss": 0.812,
5238
+ "step": 747
5239
+ },
5240
+ {
5241
+ "epoch": 0.06537747186714739,
5242
+ "grad_norm": 0.3568740487098694,
5243
+ "learning_rate": 0.0004675148653375306,
5244
+ "loss": 0.9333,
5245
+ "step": 748
5246
+ },
5247
+ {
5248
+ "epoch": 0.06546487490440293,
5249
+ "grad_norm": 0.5805249810218811,
5250
+ "learning_rate": 0.00046747114375655826,
5251
+ "loss": 1.3821,
5252
+ "step": 749
5253
+ },
5254
+ {
5255
+ "epoch": 0.06555227794165848,
5256
+ "grad_norm": 0.30053797364234924,
5257
+ "learning_rate": 0.00046742742217558585,
5258
+ "loss": 0.9358,
5259
+ "step": 750
5260
+ },
5261
+ {
5262
+ "epoch": 0.06563968097891401,
5263
+ "grad_norm": 0.3179711699485779,
5264
+ "learning_rate": 0.0004673837005946135,
5265
+ "loss": 0.9094,
5266
+ "step": 751
5267
+ },
5268
+ {
5269
+ "epoch": 0.06572708401616956,
5270
+ "grad_norm": 0.2717473804950714,
5271
+ "learning_rate": 0.00046733997901364114,
5272
+ "loss": 0.7255,
5273
+ "step": 752
5274
+ },
5275
+ {
5276
+ "epoch": 0.0658144870534251,
5277
+ "grad_norm": 0.24072229862213135,
5278
+ "learning_rate": 0.0004672962574326688,
5279
+ "loss": 1.1008,
5280
+ "step": 753
5281
+ },
5282
+ {
5283
+ "epoch": 0.06590189009068065,
5284
+ "grad_norm": 0.3099074363708496,
5285
+ "learning_rate": 0.00046725253585169643,
5286
+ "loss": 0.8751,
5287
+ "step": 754
5288
+ },
5289
+ {
5290
+ "epoch": 0.0659892931279362,
5291
+ "grad_norm": 0.31873032450675964,
5292
+ "learning_rate": 0.000467208814270724,
5293
+ "loss": 0.8932,
5294
+ "step": 755
5295
+ },
5296
+ {
5297
+ "epoch": 0.06607669616519174,
5298
+ "grad_norm": 0.31468328833580017,
5299
+ "learning_rate": 0.00046716509268975167,
5300
+ "loss": 0.8792,
5301
+ "step": 756
5302
+ },
5303
+ {
5304
+ "epoch": 0.06616409920244729,
5305
+ "grad_norm": 0.35658881068229675,
5306
+ "learning_rate": 0.00046712137110877926,
5307
+ "loss": 0.8955,
5308
+ "step": 757
5309
+ },
5310
+ {
5311
+ "epoch": 0.06625150223970283,
5312
+ "grad_norm": 0.3107976019382477,
5313
+ "learning_rate": 0.00046707764952780696,
5314
+ "loss": 0.9174,
5315
+ "step": 758
5316
+ },
5317
+ {
5318
+ "epoch": 0.06633890527695838,
5319
+ "grad_norm": 0.2277815192937851,
5320
+ "learning_rate": 0.0004670339279468346,
5321
+ "loss": 0.7611,
5322
+ "step": 759
5323
+ },
5324
+ {
5325
+ "epoch": 0.06642630831421392,
5326
+ "grad_norm": 0.25561246275901794,
5327
+ "learning_rate": 0.0004669902063658622,
5328
+ "loss": 0.8041,
5329
+ "step": 760
5330
+ },
5331
+ {
5332
+ "epoch": 0.06651371135146947,
5333
+ "grad_norm": 0.2826947271823883,
5334
+ "learning_rate": 0.00046694648478488984,
5335
+ "loss": 0.7732,
5336
+ "step": 761
5337
+ },
5338
+ {
5339
+ "epoch": 0.06660111438872501,
5340
+ "grad_norm": 0.2515583038330078,
5341
+ "learning_rate": 0.00046690276320391743,
5342
+ "loss": 1.0321,
5343
+ "step": 762
5344
+ },
5345
+ {
5346
+ "epoch": 0.06668851742598056,
5347
+ "grad_norm": 0.26518338918685913,
5348
+ "learning_rate": 0.0004668590416229451,
5349
+ "loss": 1.1347,
5350
+ "step": 763
5351
+ },
5352
+ {
5353
+ "epoch": 0.06677592046323609,
5354
+ "grad_norm": 0.2963607609272003,
5355
+ "learning_rate": 0.0004668153200419727,
5356
+ "loss": 0.9982,
5357
+ "step": 764
5358
+ },
5359
+ {
5360
+ "epoch": 0.06686332350049164,
5361
+ "grad_norm": 0.2876517176628113,
5362
+ "learning_rate": 0.00046677159846100037,
5363
+ "loss": 0.6918,
5364
+ "step": 765
5365
+ },
5366
+ {
5367
+ "epoch": 0.06695072653774718,
5368
+ "grad_norm": 0.3714672923088074,
5369
+ "learning_rate": 0.000466727876880028,
5370
+ "loss": 0.9023,
5371
+ "step": 766
5372
+ },
5373
+ {
5374
+ "epoch": 0.06703812957500273,
5375
+ "grad_norm": 0.3568623960018158,
5376
+ "learning_rate": 0.0004666841552990556,
5377
+ "loss": 0.8378,
5378
+ "step": 767
5379
+ },
5380
+ {
5381
+ "epoch": 0.06712553261225827,
5382
+ "grad_norm": 0.4770544469356537,
5383
+ "learning_rate": 0.00046664043371808325,
5384
+ "loss": 1.0266,
5385
+ "step": 768
5386
+ },
5387
+ {
5388
+ "epoch": 0.06721293564951382,
5389
+ "grad_norm": 0.2760886549949646,
5390
+ "learning_rate": 0.0004665967121371109,
5391
+ "loss": 0.8276,
5392
+ "step": 769
5393
+ },
5394
+ {
5395
+ "epoch": 0.06730033868676936,
5396
+ "grad_norm": 0.31360816955566406,
5397
+ "learning_rate": 0.00046655299055613854,
5398
+ "loss": 0.8646,
5399
+ "step": 770
5400
+ },
5401
+ {
5402
+ "epoch": 0.06738774172402491,
5403
+ "grad_norm": 0.3075156509876251,
5404
+ "learning_rate": 0.00046650926897516613,
5405
+ "loss": 1.1144,
5406
+ "step": 771
5407
+ },
5408
+ {
5409
+ "epoch": 0.06747514476128046,
5410
+ "grad_norm": 0.3104390501976013,
5411
+ "learning_rate": 0.0004664655473941938,
5412
+ "loss": 0.8923,
5413
+ "step": 772
5414
+ },
5415
+ {
5416
+ "epoch": 0.067562547798536,
5417
+ "grad_norm": 0.3964294493198395,
5418
+ "learning_rate": 0.0004664218258132214,
5419
+ "loss": 1.0969,
5420
+ "step": 773
5421
+ },
5422
+ {
5423
+ "epoch": 0.06764995083579155,
5424
+ "grad_norm": 0.3698040843009949,
5425
+ "learning_rate": 0.000466378104232249,
5426
+ "loss": 0.9078,
5427
+ "step": 774
5428
+ },
5429
+ {
5430
+ "epoch": 0.0677373538730471,
5431
+ "grad_norm": 0.28510838747024536,
5432
+ "learning_rate": 0.0004663343826512767,
5433
+ "loss": 1.0075,
5434
+ "step": 775
5435
+ },
5436
+ {
5437
+ "epoch": 0.06782475691030264,
5438
+ "grad_norm": 0.25500908493995667,
5439
+ "learning_rate": 0.0004662906610703043,
5440
+ "loss": 0.8457,
5441
+ "step": 776
5442
+ },
5443
+ {
5444
+ "epoch": 0.06791215994755818,
5445
+ "grad_norm": 0.27927708625793457,
5446
+ "learning_rate": 0.00046624693948933195,
5447
+ "loss": 1.01,
5448
+ "step": 777
5449
+ },
5450
+ {
5451
+ "epoch": 0.06799956298481372,
5452
+ "grad_norm": 0.2683468461036682,
5453
+ "learning_rate": 0.0004662032179083596,
5454
+ "loss": 1.0491,
5455
+ "step": 778
5456
+ },
5457
+ {
5458
+ "epoch": 0.06808696602206926,
5459
+ "grad_norm": 0.31843262910842896,
5460
+ "learning_rate": 0.0004661594963273872,
5461
+ "loss": 0.9467,
5462
+ "step": 779
5463
+ },
5464
+ {
5465
+ "epoch": 0.06817436905932481,
5466
+ "grad_norm": 0.27564141154289246,
5467
+ "learning_rate": 0.0004661157747464149,
5468
+ "loss": 0.9487,
5469
+ "step": 780
5470
+ },
5471
+ {
5472
+ "epoch": 0.06826177209658035,
5473
+ "grad_norm": 0.2407764047384262,
5474
+ "learning_rate": 0.00046607205316544247,
5475
+ "loss": 0.8939,
5476
+ "step": 781
5477
+ },
5478
+ {
5479
+ "epoch": 0.0683491751338359,
5480
+ "grad_norm": 0.3025217652320862,
5481
+ "learning_rate": 0.0004660283315844701,
5482
+ "loss": 0.9859,
5483
+ "step": 782
5484
+ },
5485
+ {
5486
+ "epoch": 0.06843657817109144,
5487
+ "grad_norm": 0.2979051470756531,
5488
+ "learning_rate": 0.0004659846100034977,
5489
+ "loss": 0.9136,
5490
+ "step": 783
5491
+ },
5492
+ {
5493
+ "epoch": 0.06852398120834699,
5494
+ "grad_norm": 0.28788650035858154,
5495
+ "learning_rate": 0.00046594088842252535,
5496
+ "loss": 0.9734,
5497
+ "step": 784
5498
+ },
5499
+ {
5500
+ "epoch": 0.06861138424560254,
5501
+ "grad_norm": 0.2947753667831421,
5502
+ "learning_rate": 0.000465897166841553,
5503
+ "loss": 0.735,
5504
+ "step": 785
5505
+ },
5506
+ {
5507
+ "epoch": 0.06869878728285808,
5508
+ "grad_norm": 0.3203105032444,
5509
+ "learning_rate": 0.00046585344526058064,
5510
+ "loss": 0.8992,
5511
+ "step": 786
5512
+ },
5513
+ {
5514
+ "epoch": 0.06878619032011363,
5515
+ "grad_norm": 0.2638401985168457,
5516
+ "learning_rate": 0.0004658097236796083,
5517
+ "loss": 0.8669,
5518
+ "step": 787
5519
+ },
5520
+ {
5521
+ "epoch": 0.06887359335736917,
5522
+ "grad_norm": 0.26712629199028015,
5523
+ "learning_rate": 0.0004657660020986359,
5524
+ "loss": 0.9765,
5525
+ "step": 788
5526
+ },
5527
+ {
5528
+ "epoch": 0.06896099639462472,
5529
+ "grad_norm": 0.4055823087692261,
5530
+ "learning_rate": 0.0004657222805176635,
5531
+ "loss": 0.8117,
5532
+ "step": 789
5533
+ },
5534
+ {
5535
+ "epoch": 0.06904839943188026,
5536
+ "grad_norm": 0.2518852651119232,
5537
+ "learning_rate": 0.00046567855893669117,
5538
+ "loss": 0.9517,
5539
+ "step": 790
5540
+ },
5541
+ {
5542
+ "epoch": 0.0691358024691358,
5543
+ "grad_norm": 0.27589836716651917,
5544
+ "learning_rate": 0.00046563483735571876,
5545
+ "loss": 0.7855,
5546
+ "step": 791
5547
+ },
5548
+ {
5549
+ "epoch": 0.06922320550639134,
5550
+ "grad_norm": 0.2739314138889313,
5551
+ "learning_rate": 0.00046559111577474646,
5552
+ "loss": 0.8862,
5553
+ "step": 792
5554
+ },
5555
+ {
5556
+ "epoch": 0.06931060854364689,
5557
+ "grad_norm": 0.3271756172180176,
5558
+ "learning_rate": 0.00046554739419377405,
5559
+ "loss": 1.2893,
5560
+ "step": 793
5561
+ },
5562
+ {
5563
+ "epoch": 0.06939801158090243,
5564
+ "grad_norm": 0.27038949728012085,
5565
+ "learning_rate": 0.0004655036726128017,
5566
+ "loss": 0.8059,
5567
+ "step": 794
5568
+ },
5569
+ {
5570
+ "epoch": 0.06948541461815798,
5571
+ "grad_norm": 0.2605447471141815,
5572
+ "learning_rate": 0.0004654599510318293,
5573
+ "loss": 0.8816,
5574
+ "step": 795
5575
+ },
5576
+ {
5577
+ "epoch": 0.06957281765541352,
5578
+ "grad_norm": 0.2714409828186035,
5579
+ "learning_rate": 0.00046541622945085693,
5580
+ "loss": 0.9307,
5581
+ "step": 796
5582
+ },
5583
+ {
5584
+ "epoch": 0.06966022069266907,
5585
+ "grad_norm": 0.2455201894044876,
5586
+ "learning_rate": 0.00046537250786988463,
5587
+ "loss": 0.8321,
5588
+ "step": 797
5589
+ },
5590
+ {
5591
+ "epoch": 0.06974762372992462,
5592
+ "grad_norm": 0.29036253690719604,
5593
+ "learning_rate": 0.0004653287862889122,
5594
+ "loss": 0.8605,
5595
+ "step": 798
5596
+ },
5597
+ {
5598
+ "epoch": 0.06983502676718016,
5599
+ "grad_norm": 0.24069538712501526,
5600
+ "learning_rate": 0.00046528506470793987,
5601
+ "loss": 1.0819,
5602
+ "step": 799
5603
+ },
5604
+ {
5605
+ "epoch": 0.0699224298044357,
5606
+ "grad_norm": 0.254304975271225,
5607
+ "learning_rate": 0.00046524134312696746,
5608
+ "loss": 0.7388,
5609
+ "step": 800
5610
+ },
5611
+ {
5612
+ "epoch": 0.07000983284169125,
5613
+ "grad_norm": 0.27309149503707886,
5614
+ "learning_rate": 0.0004651976215459951,
5615
+ "loss": 0.7796,
5616
+ "step": 801
5617
+ },
5618
+ {
5619
+ "epoch": 0.0700972358789468,
5620
+ "grad_norm": 0.26903948187828064,
5621
+ "learning_rate": 0.0004651538999650227,
5622
+ "loss": 1.0103,
5623
+ "step": 802
5624
+ },
5625
+ {
5626
+ "epoch": 0.07018463891620234,
5627
+ "grad_norm": 0.2526533901691437,
5628
+ "learning_rate": 0.0004651101783840504,
5629
+ "loss": 0.8566,
5630
+ "step": 803
5631
+ },
5632
+ {
5633
+ "epoch": 0.07027204195345789,
5634
+ "grad_norm": 0.2822379469871521,
5635
+ "learning_rate": 0.00046506645680307804,
5636
+ "loss": 0.9441,
5637
+ "step": 804
5638
+ },
5639
+ {
5640
+ "epoch": 0.07035944499071342,
5641
+ "grad_norm": 0.27883851528167725,
5642
+ "learning_rate": 0.00046502273522210563,
5643
+ "loss": 0.9006,
5644
+ "step": 805
5645
+ },
5646
+ {
5647
+ "epoch": 0.07044684802796897,
5648
+ "grad_norm": 0.23839306831359863,
5649
+ "learning_rate": 0.0004649790136411333,
5650
+ "loss": 0.8387,
5651
+ "step": 806
5652
+ },
5653
+ {
5654
+ "epoch": 0.07053425106522451,
5655
+ "grad_norm": 0.2352200597524643,
5656
+ "learning_rate": 0.00046493529206016087,
5657
+ "loss": 0.8228,
5658
+ "step": 807
5659
+ },
5660
+ {
5661
+ "epoch": 0.07062165410248006,
5662
+ "grad_norm": 0.31958913803100586,
5663
+ "learning_rate": 0.00046489157047918857,
5664
+ "loss": 1.0312,
5665
+ "step": 808
5666
+ },
5667
+ {
5668
+ "epoch": 0.0707090571397356,
5669
+ "grad_norm": 0.286045640707016,
5670
+ "learning_rate": 0.0004648478488982162,
5671
+ "loss": 0.8427,
5672
+ "step": 809
5673
+ },
5674
+ {
5675
+ "epoch": 0.07079646017699115,
5676
+ "grad_norm": 0.24101607501506805,
5677
+ "learning_rate": 0.0004648041273172438,
5678
+ "loss": 0.9986,
5679
+ "step": 810
5680
+ },
5681
+ {
5682
+ "epoch": 0.0708838632142467,
5683
+ "grad_norm": 0.28324073553085327,
5684
+ "learning_rate": 0.00046476040573627145,
5685
+ "loss": 0.778,
5686
+ "step": 811
5687
+ },
5688
+ {
5689
+ "epoch": 0.07097126625150224,
5690
+ "grad_norm": 0.30368572473526,
5691
+ "learning_rate": 0.00046471668415529904,
5692
+ "loss": 0.9543,
5693
+ "step": 812
5694
+ },
5695
+ {
5696
+ "epoch": 0.07105866928875779,
5697
+ "grad_norm": 0.3159104585647583,
5698
+ "learning_rate": 0.0004646729625743267,
5699
+ "loss": 0.9481,
5700
+ "step": 813
5701
+ },
5702
+ {
5703
+ "epoch": 0.07114607232601333,
5704
+ "grad_norm": 0.2856074869632721,
5705
+ "learning_rate": 0.00046462924099335433,
5706
+ "loss": 1.0117,
5707
+ "step": 814
5708
+ },
5709
+ {
5710
+ "epoch": 0.07123347536326888,
5711
+ "grad_norm": 0.32605329155921936,
5712
+ "learning_rate": 0.00046458551941238197,
5713
+ "loss": 0.8451,
5714
+ "step": 815
5715
+ },
5716
+ {
5717
+ "epoch": 0.07132087840052442,
5718
+ "grad_norm": 0.22008907794952393,
5719
+ "learning_rate": 0.0004645417978314096,
5720
+ "loss": 0.8965,
5721
+ "step": 816
5722
+ },
5723
+ {
5724
+ "epoch": 0.07140828143777997,
5725
+ "grad_norm": 0.26317551732063293,
5726
+ "learning_rate": 0.0004644980762504372,
5727
+ "loss": 0.8644,
5728
+ "step": 817
5729
+ },
5730
+ {
5731
+ "epoch": 0.0714956844750355,
5732
+ "grad_norm": 0.22049389779567719,
5733
+ "learning_rate": 0.00046445435466946485,
5734
+ "loss": 0.8144,
5735
+ "step": 818
5736
+ },
5737
+ {
5738
+ "epoch": 0.07158308751229105,
5739
+ "grad_norm": 0.2786102890968323,
5740
+ "learning_rate": 0.00046441063308849244,
5741
+ "loss": 0.8841,
5742
+ "step": 819
5743
+ },
5744
+ {
5745
+ "epoch": 0.07167049054954659,
5746
+ "grad_norm": 0.31796136498451233,
5747
+ "learning_rate": 0.00046436691150752014,
5748
+ "loss": 1.0665,
5749
+ "step": 820
5750
+ },
5751
+ {
5752
+ "epoch": 0.07175789358680214,
5753
+ "grad_norm": 0.29958993196487427,
5754
+ "learning_rate": 0.0004643231899265478,
5755
+ "loss": 0.8789,
5756
+ "step": 821
5757
+ },
5758
+ {
5759
+ "epoch": 0.07184529662405768,
5760
+ "grad_norm": 0.2706652283668518,
5761
+ "learning_rate": 0.0004642794683455754,
5762
+ "loss": 0.8721,
5763
+ "step": 822
5764
+ },
5765
+ {
5766
+ "epoch": 0.07193269966131323,
5767
+ "grad_norm": 0.22537319362163544,
5768
+ "learning_rate": 0.000464235746764603,
5769
+ "loss": 0.9403,
5770
+ "step": 823
5771
+ },
5772
+ {
5773
+ "epoch": 0.07202010269856877,
5774
+ "grad_norm": 0.34331005811691284,
5775
+ "learning_rate": 0.0004641920251836306,
5776
+ "loss": 1.1497,
5777
+ "step": 824
5778
+ },
5779
+ {
5780
+ "epoch": 0.07210750573582432,
5781
+ "grad_norm": 0.25914907455444336,
5782
+ "learning_rate": 0.0004641483036026583,
5783
+ "loss": 1.1589,
5784
+ "step": 825
5785
+ },
5786
+ {
5787
+ "epoch": 0.07219490877307987,
5788
+ "grad_norm": 0.2956130802631378,
5789
+ "learning_rate": 0.0004641045820216859,
5790
+ "loss": 0.8587,
5791
+ "step": 826
5792
+ },
5793
+ {
5794
+ "epoch": 0.07228231181033541,
5795
+ "grad_norm": 0.30292391777038574,
5796
+ "learning_rate": 0.00046406086044071355,
5797
+ "loss": 0.9224,
5798
+ "step": 827
5799
+ },
5800
+ {
5801
+ "epoch": 0.07236971484759096,
5802
+ "grad_norm": 0.3101223409175873,
5803
+ "learning_rate": 0.0004640171388597412,
5804
+ "loss": 0.9115,
5805
+ "step": 828
5806
+ },
5807
+ {
5808
+ "epoch": 0.0724571178848465,
5809
+ "grad_norm": 0.2720979154109955,
5810
+ "learning_rate": 0.0004639734172787688,
5811
+ "loss": 0.8112,
5812
+ "step": 829
5813
+ },
5814
+ {
5815
+ "epoch": 0.07254452092210205,
5816
+ "grad_norm": 0.2774461507797241,
5817
+ "learning_rate": 0.00046392969569779643,
5818
+ "loss": 0.9776,
5819
+ "step": 830
5820
+ },
5821
+ {
5822
+ "epoch": 0.0726319239593576,
5823
+ "grad_norm": 0.25150200724601746,
5824
+ "learning_rate": 0.0004638859741168241,
5825
+ "loss": 1.0255,
5826
+ "step": 831
5827
+ },
5828
+ {
5829
+ "epoch": 0.07271932699661313,
5830
+ "grad_norm": 0.2526938319206238,
5831
+ "learning_rate": 0.0004638422525358517,
5832
+ "loss": 0.7242,
5833
+ "step": 832
5834
+ },
5835
+ {
5836
+ "epoch": 0.07280673003386867,
5837
+ "grad_norm": 0.29642441868782043,
5838
+ "learning_rate": 0.0004637985309548793,
5839
+ "loss": 1.0944,
5840
+ "step": 833
5841
+ },
5842
+ {
5843
+ "epoch": 0.07289413307112422,
5844
+ "grad_norm": 0.250478595495224,
5845
+ "learning_rate": 0.00046375480937390696,
5846
+ "loss": 0.8324,
5847
+ "step": 834
5848
+ },
5849
+ {
5850
+ "epoch": 0.07298153610837976,
5851
+ "grad_norm": 0.28843697905540466,
5852
+ "learning_rate": 0.0004637110877929346,
5853
+ "loss": 0.8646,
5854
+ "step": 835
5855
+ },
5856
+ {
5857
+ "epoch": 0.07306893914563531,
5858
+ "grad_norm": 0.22244645655155182,
5859
+ "learning_rate": 0.00046366736621196225,
5860
+ "loss": 0.7966,
5861
+ "step": 836
5862
+ },
5863
+ {
5864
+ "epoch": 0.07315634218289085,
5865
+ "grad_norm": 0.2418157458305359,
5866
+ "learning_rate": 0.0004636236446309899,
5867
+ "loss": 0.8101,
5868
+ "step": 837
5869
+ },
5870
+ {
5871
+ "epoch": 0.0732437452201464,
5872
+ "grad_norm": 0.2781657874584198,
5873
+ "learning_rate": 0.0004635799230500175,
5874
+ "loss": 0.9902,
5875
+ "step": 838
5876
+ },
5877
+ {
5878
+ "epoch": 0.07333114825740195,
5879
+ "grad_norm": 0.24249030649662018,
5880
+ "learning_rate": 0.00046353620146904513,
5881
+ "loss": 0.7445,
5882
+ "step": 839
5883
+ },
5884
+ {
5885
+ "epoch": 0.07341855129465749,
5886
+ "grad_norm": 0.23980437219142914,
5887
+ "learning_rate": 0.0004634924798880728,
5888
+ "loss": 0.8168,
5889
+ "step": 840
5890
+ },
5891
+ {
5892
+ "epoch": 0.07350595433191304,
5893
+ "grad_norm": 0.3362947106361389,
5894
+ "learning_rate": 0.00046344875830710037,
5895
+ "loss": 1.1176,
5896
+ "step": 841
5897
+ },
5898
+ {
5899
+ "epoch": 0.07359335736916858,
5900
+ "grad_norm": 0.23380422592163086,
5901
+ "learning_rate": 0.00046340503672612807,
5902
+ "loss": 0.8311,
5903
+ "step": 842
5904
+ },
5905
+ {
5906
+ "epoch": 0.07368076040642413,
5907
+ "grad_norm": 0.2908138632774353,
5908
+ "learning_rate": 0.00046336131514515566,
5909
+ "loss": 0.8315,
5910
+ "step": 843
5911
+ },
5912
+ {
5913
+ "epoch": 0.07376816344367967,
5914
+ "grad_norm": 0.2556897699832916,
5915
+ "learning_rate": 0.0004633175935641833,
5916
+ "loss": 0.939,
5917
+ "step": 844
5918
+ },
5919
+ {
5920
+ "epoch": 0.0738555664809352,
5921
+ "grad_norm": 0.3416728079319,
5922
+ "learning_rate": 0.0004632738719832109,
5923
+ "loss": 0.746,
5924
+ "step": 845
5925
+ },
5926
+ {
5927
+ "epoch": 0.07394296951819075,
5928
+ "grad_norm": 0.2219434678554535,
5929
+ "learning_rate": 0.00046323015040223854,
5930
+ "loss": 1.0259,
5931
+ "step": 846
5932
+ },
5933
+ {
5934
+ "epoch": 0.0740303725554463,
5935
+ "grad_norm": 0.3327368497848511,
5936
+ "learning_rate": 0.0004631864288212662,
5937
+ "loss": 1.4831,
5938
+ "step": 847
5939
+ },
5940
+ {
5941
+ "epoch": 0.07411777559270184,
5942
+ "grad_norm": 0.28128185868263245,
5943
+ "learning_rate": 0.00046314270724029383,
5944
+ "loss": 0.9478,
5945
+ "step": 848
5946
+ },
5947
+ {
5948
+ "epoch": 0.07420517862995739,
5949
+ "grad_norm": 0.29582032561302185,
5950
+ "learning_rate": 0.00046309898565932147,
5951
+ "loss": 0.9397,
5952
+ "step": 849
5953
+ },
5954
+ {
5955
+ "epoch": 0.07429258166721293,
5956
+ "grad_norm": 0.26146262884140015,
5957
+ "learning_rate": 0.00046305526407834906,
5958
+ "loss": 0.6904,
5959
+ "step": 850
5960
+ },
5961
+ {
5962
+ "epoch": 0.07437998470446848,
5963
+ "grad_norm": 0.3188638389110565,
5964
+ "learning_rate": 0.0004630115424973767,
5965
+ "loss": 0.7268,
5966
+ "step": 851
5967
+ },
5968
+ {
5969
+ "epoch": 0.07446738774172403,
5970
+ "grad_norm": 0.2691085934638977,
5971
+ "learning_rate": 0.0004629678209164043,
5972
+ "loss": 0.7836,
5973
+ "step": 852
5974
+ },
5975
+ {
5976
+ "epoch": 0.07455479077897957,
5977
+ "grad_norm": 0.2730037569999695,
5978
+ "learning_rate": 0.000462924099335432,
5979
+ "loss": 0.8207,
5980
+ "step": 853
5981
+ },
5982
+ {
5983
+ "epoch": 0.07464219381623512,
5984
+ "grad_norm": 0.23849952220916748,
5985
+ "learning_rate": 0.00046288037775445964,
5986
+ "loss": 0.9859,
5987
+ "step": 854
5988
+ },
5989
+ {
5990
+ "epoch": 0.07472959685349066,
5991
+ "grad_norm": 0.24940194189548492,
5992
+ "learning_rate": 0.00046283665617348723,
5993
+ "loss": 0.7821,
5994
+ "step": 855
5995
+ },
5996
+ {
5997
+ "epoch": 0.07481699989074621,
5998
+ "grad_norm": 0.23495396971702576,
5999
+ "learning_rate": 0.0004627929345925149,
6000
+ "loss": 0.8847,
6001
+ "step": 856
6002
+ },
6003
+ {
6004
+ "epoch": 0.07490440292800175,
6005
+ "grad_norm": 0.25201091170310974,
6006
+ "learning_rate": 0.00046274921301154247,
6007
+ "loss": 0.8386,
6008
+ "step": 857
6009
+ },
6010
+ {
6011
+ "epoch": 0.0749918059652573,
6012
+ "grad_norm": 0.25054988265037537,
6013
+ "learning_rate": 0.0004627054914305701,
6014
+ "loss": 0.9939,
6015
+ "step": 858
6016
+ },
6017
+ {
6018
+ "epoch": 0.07507920900251283,
6019
+ "grad_norm": 0.39931726455688477,
6020
+ "learning_rate": 0.0004626617698495978,
6021
+ "loss": 1.1039,
6022
+ "step": 859
6023
+ },
6024
+ {
6025
+ "epoch": 0.07516661203976838,
6026
+ "grad_norm": 0.2789982855319977,
6027
+ "learning_rate": 0.0004626180482686254,
6028
+ "loss": 1.1707,
6029
+ "step": 860
6030
+ },
6031
+ {
6032
+ "epoch": 0.07525401507702392,
6033
+ "grad_norm": 0.282528817653656,
6034
+ "learning_rate": 0.00046257432668765305,
6035
+ "loss": 0.8738,
6036
+ "step": 861
6037
+ },
6038
+ {
6039
+ "epoch": 0.07534141811427947,
6040
+ "grad_norm": 0.2707865536212921,
6041
+ "learning_rate": 0.00046253060510668064,
6042
+ "loss": 0.832,
6043
+ "step": 862
6044
+ },
6045
+ {
6046
+ "epoch": 0.07542882115153501,
6047
+ "grad_norm": 0.19732601940631866,
6048
+ "learning_rate": 0.0004624868835257083,
6049
+ "loss": 0.8948,
6050
+ "step": 863
6051
+ },
6052
+ {
6053
+ "epoch": 0.07551622418879056,
6054
+ "grad_norm": 0.2605394721031189,
6055
+ "learning_rate": 0.00046244316194473593,
6056
+ "loss": 0.7346,
6057
+ "step": 864
6058
+ },
6059
+ {
6060
+ "epoch": 0.0756036272260461,
6061
+ "grad_norm": 0.26202288269996643,
6062
+ "learning_rate": 0.0004623994403637636,
6063
+ "loss": 0.8521,
6064
+ "step": 865
6065
+ },
6066
+ {
6067
+ "epoch": 0.07569103026330165,
6068
+ "grad_norm": 0.3473947048187256,
6069
+ "learning_rate": 0.0004623557187827912,
6070
+ "loss": 1.043,
6071
+ "step": 866
6072
+ },
6073
+ {
6074
+ "epoch": 0.0757784333005572,
6075
+ "grad_norm": 0.7824636697769165,
6076
+ "learning_rate": 0.0004623119972018188,
6077
+ "loss": 1.2121,
6078
+ "step": 867
6079
+ },
6080
+ {
6081
+ "epoch": 0.07586583633781274,
6082
+ "grad_norm": 0.26076897978782654,
6083
+ "learning_rate": 0.00046226827562084646,
6084
+ "loss": 0.8669,
6085
+ "step": 868
6086
+ },
6087
+ {
6088
+ "epoch": 0.07595323937506829,
6089
+ "grad_norm": 0.3360956013202667,
6090
+ "learning_rate": 0.00046222455403987405,
6091
+ "loss": 0.8806,
6092
+ "step": 869
6093
+ },
6094
+ {
6095
+ "epoch": 0.07604064241232383,
6096
+ "grad_norm": 0.27572354674339294,
6097
+ "learning_rate": 0.00046218083245890175,
6098
+ "loss": 0.8105,
6099
+ "step": 870
6100
+ },
6101
+ {
6102
+ "epoch": 0.07612804544957938,
6103
+ "grad_norm": 0.22802734375,
6104
+ "learning_rate": 0.0004621371108779294,
6105
+ "loss": 0.6879,
6106
+ "step": 871
6107
+ },
6108
+ {
6109
+ "epoch": 0.07621544848683491,
6110
+ "grad_norm": 0.31544265151023865,
6111
+ "learning_rate": 0.000462093389296957,
6112
+ "loss": 0.835,
6113
+ "step": 872
6114
+ },
6115
+ {
6116
+ "epoch": 0.07630285152409046,
6117
+ "grad_norm": 0.3530902564525604,
6118
+ "learning_rate": 0.00046204966771598463,
6119
+ "loss": 0.7543,
6120
+ "step": 873
6121
+ },
6122
+ {
6123
+ "epoch": 0.076390254561346,
6124
+ "grad_norm": 0.28108978271484375,
6125
+ "learning_rate": 0.0004620059461350122,
6126
+ "loss": 0.9433,
6127
+ "step": 874
6128
+ },
6129
+ {
6130
+ "epoch": 0.07647765759860155,
6131
+ "grad_norm": 0.2918491065502167,
6132
+ "learning_rate": 0.00046196222455403987,
6133
+ "loss": 0.9016,
6134
+ "step": 875
6135
+ },
6136
+ {
6137
+ "epoch": 0.0765650606358571,
6138
+ "grad_norm": 0.3130475580692291,
6139
+ "learning_rate": 0.0004619185029730675,
6140
+ "loss": 0.8612,
6141
+ "step": 876
6142
+ },
6143
+ {
6144
+ "epoch": 0.07665246367311264,
6145
+ "grad_norm": 0.2697352468967438,
6146
+ "learning_rate": 0.00046187478139209516,
6147
+ "loss": 1.0324,
6148
+ "step": 877
6149
+ },
6150
+ {
6151
+ "epoch": 0.07673986671036818,
6152
+ "grad_norm": 0.3534733057022095,
6153
+ "learning_rate": 0.0004618310598111228,
6154
+ "loss": 0.7769,
6155
+ "step": 878
6156
+ },
6157
+ {
6158
+ "epoch": 0.07682726974762373,
6159
+ "grad_norm": 0.46239951252937317,
6160
+ "learning_rate": 0.0004617873382301504,
6161
+ "loss": 0.8155,
6162
+ "step": 879
6163
+ },
6164
+ {
6165
+ "epoch": 0.07691467278487928,
6166
+ "grad_norm": 0.2869885265827179,
6167
+ "learning_rate": 0.00046174361664917804,
6168
+ "loss": 0.8088,
6169
+ "step": 880
6170
+ },
6171
+ {
6172
+ "epoch": 0.07700207582213482,
6173
+ "grad_norm": 0.544746458530426,
6174
+ "learning_rate": 0.0004616998950682057,
6175
+ "loss": 1.0332,
6176
+ "step": 881
6177
+ },
6178
+ {
6179
+ "epoch": 0.07708947885939037,
6180
+ "grad_norm": 0.28001531958580017,
6181
+ "learning_rate": 0.0004616561734872333,
6182
+ "loss": 0.8363,
6183
+ "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.07717688189664591,
6187
+ "grad_norm": 0.244185671210289,
6188
+ "learning_rate": 0.0004616124519062609,
6189
+ "loss": 0.8611,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.07726428493390146,
6194
+ "grad_norm": 0.3561322093009949,
6195
+ "learning_rate": 0.00046156873032528856,
6196
+ "loss": 0.9298,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.077351687971157,
6201
+ "grad_norm": 0.2852579355239868,
6202
+ "learning_rate": 0.0004615250087443162,
6203
+ "loss": 0.9415,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.07743909100841254,
6208
+ "grad_norm": 0.3458700180053711,
6209
+ "learning_rate": 0.0004614812871633438,
6210
+ "loss": 0.7855,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.07752649404566808,
6215
+ "grad_norm": 0.33211758732795715,
6216
+ "learning_rate": 0.0004614375655823715,
6217
+ "loss": 0.7652,
6218
+ "step": 887
6219
+ },
6220
+ {
6221
+ "epoch": 0.07761389708292363,
6222
+ "grad_norm": 0.2643268406391144,
6223
+ "learning_rate": 0.0004613938440013991,
6224
+ "loss": 0.813,
6225
+ "step": 888
6226
+ },
6227
+ {
6228
+ "epoch": 0.07770130012017917,
6229
+ "grad_norm": 0.26717138290405273,
6230
+ "learning_rate": 0.00046135012242042673,
6231
+ "loss": 0.673,
6232
+ "step": 889
6233
+ },
6234
+ {
6235
+ "epoch": 0.07778870315743472,
6236
+ "grad_norm": 0.2716834843158722,
6237
+ "learning_rate": 0.0004613064008394544,
6238
+ "loss": 1.0343,
6239
+ "step": 890
6240
+ },
6241
+ {
6242
+ "epoch": 0.07787610619469026,
6243
+ "grad_norm": 0.4963998794555664,
6244
+ "learning_rate": 0.00046126267925848197,
6245
+ "loss": 1.3856,
6246
+ "step": 891
6247
+ },
6248
+ {
6249
+ "epoch": 0.07796350923194581,
6250
+ "grad_norm": 0.3124493360519409,
6251
+ "learning_rate": 0.00046121895767750967,
6252
+ "loss": 1.0451,
6253
+ "step": 892
6254
+ },
6255
+ {
6256
+ "epoch": 0.07805091226920136,
6257
+ "grad_norm": 0.5837683081626892,
6258
+ "learning_rate": 0.00046117523609653726,
6259
+ "loss": 1.0501,
6260
+ "step": 893
6261
+ },
6262
+ {
6263
+ "epoch": 0.0781383153064569,
6264
+ "grad_norm": 0.31839168071746826,
6265
+ "learning_rate": 0.0004611315145155649,
6266
+ "loss": 0.9903,
6267
+ "step": 894
6268
+ },
6269
+ {
6270
+ "epoch": 0.07822571834371245,
6271
+ "grad_norm": 0.5437602996826172,
6272
+ "learning_rate": 0.0004610877929345925,
6273
+ "loss": 1.0399,
6274
+ "step": 895
6275
+ },
6276
+ {
6277
+ "epoch": 0.07831312138096799,
6278
+ "grad_norm": 0.3862234354019165,
6279
+ "learning_rate": 0.00046104407135362014,
6280
+ "loss": 1.0355,
6281
+ "step": 896
6282
+ },
6283
+ {
6284
+ "epoch": 0.07840052441822354,
6285
+ "grad_norm": 0.7273140549659729,
6286
+ "learning_rate": 0.0004610003497726478,
6287
+ "loss": 0.9339,
6288
+ "step": 897
6289
+ },
6290
+ {
6291
+ "epoch": 0.07848792745547908,
6292
+ "grad_norm": 0.31776732206344604,
6293
+ "learning_rate": 0.00046095662819167543,
6294
+ "loss": 1.405,
6295
+ "step": 898
6296
+ },
6297
+ {
6298
+ "epoch": 0.07857533049273462,
6299
+ "grad_norm": 0.33975592255592346,
6300
+ "learning_rate": 0.0004609129066107031,
6301
+ "loss": 0.9493,
6302
+ "step": 899
6303
+ },
6304
+ {
6305
+ "epoch": 0.07866273352999016,
6306
+ "grad_norm": 0.3096635937690735,
6307
+ "learning_rate": 0.00046086918502973067,
6308
+ "loss": 0.8949,
6309
+ "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.07875013656724571,
6313
+ "grad_norm": 0.22939470410346985,
6314
+ "learning_rate": 0.0004608254634487583,
6315
+ "loss": 1.0486,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.07883753960450125,
6320
+ "grad_norm": 0.27594518661499023,
6321
+ "learning_rate": 0.0004607817418677859,
6322
+ "loss": 0.7005,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.0789249426417568,
6327
+ "grad_norm": 0.38164445757865906,
6328
+ "learning_rate": 0.0004607380202868136,
6329
+ "loss": 1.2305,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.07901234567901234,
6334
+ "grad_norm": 0.26803824305534363,
6335
+ "learning_rate": 0.00046069429870584125,
6336
+ "loss": 0.824,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.07909974871626789,
6341
+ "grad_norm": 0.3049018085002899,
6342
+ "learning_rate": 0.00046065057712486884,
6343
+ "loss": 0.8824,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.07918715175352344,
6348
+ "grad_norm": 0.30478763580322266,
6349
+ "learning_rate": 0.0004606068555438965,
6350
+ "loss": 0.9809,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.07927455479077898,
6355
+ "grad_norm": 0.276212602853775,
6356
+ "learning_rate": 0.0004605631339629241,
6357
+ "loss": 0.8166,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.07936195782803453,
6362
+ "grad_norm": 0.8416312336921692,
6363
+ "learning_rate": 0.0004605194123819517,
6364
+ "loss": 1.5118,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.07944936086529007,
6369
+ "grad_norm": 0.3249102532863617,
6370
+ "learning_rate": 0.0004604756908009794,
6371
+ "loss": 0.905,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.07953676390254562,
6376
+ "grad_norm": 0.3695957064628601,
6377
+ "learning_rate": 0.000460431969220007,
6378
+ "loss": 0.809,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.07962416693980116,
6383
+ "grad_norm": 0.2533642649650574,
6384
+ "learning_rate": 0.00046038824763903466,
6385
+ "loss": 0.8706,
6386
+ "step": 911
6387
+ },
6388
+ {
6389
+ "epoch": 0.07971156997705671,
6390
+ "grad_norm": 1.895600438117981,
6391
+ "learning_rate": 0.00046034452605806225,
6392
+ "loss": 0.906,
6393
+ "step": 912
6394
+ },
6395
+ {
6396
+ "epoch": 0.07979897301431224,
6397
+ "grad_norm": 0.3041301369667053,
6398
+ "learning_rate": 0.0004603008044770899,
6399
+ "loss": 0.8028,
6400
+ "step": 913
6401
+ },
6402
+ {
6403
+ "epoch": 0.07988637605156779,
6404
+ "grad_norm": 0.39580902457237244,
6405
+ "learning_rate": 0.0004602570828961175,
6406
+ "loss": 0.8785,
6407
+ "step": 914
6408
+ },
6409
+ {
6410
+ "epoch": 0.07997377908882333,
6411
+ "grad_norm": 0.3260571360588074,
6412
+ "learning_rate": 0.0004602133613151452,
6413
+ "loss": 0.908,
6414
+ "step": 915
6415
+ },
6416
+ {
6417
+ "epoch": 0.08006118212607888,
6418
+ "grad_norm": 0.3628925681114197,
6419
+ "learning_rate": 0.0004601696397341728,
6420
+ "loss": 0.8364,
6421
+ "step": 916
6422
+ },
6423
+ {
6424
+ "epoch": 0.08014858516333442,
6425
+ "grad_norm": 0.4076823890209198,
6426
+ "learning_rate": 0.0004601259181532004,
6427
+ "loss": 1.93,
6428
+ "step": 917
6429
+ },
6430
+ {
6431
+ "epoch": 0.08023598820058997,
6432
+ "grad_norm": 0.6916859149932861,
6433
+ "learning_rate": 0.00046008219657222806,
6434
+ "loss": 1.1446,
6435
+ "step": 918
6436
+ },
6437
+ {
6438
+ "epoch": 0.08032339123784552,
6439
+ "grad_norm": 1.301007866859436,
6440
+ "learning_rate": 0.00046003847499125565,
6441
+ "loss": 1.117,
6442
+ "step": 919
6443
+ },
6444
+ {
6445
+ "epoch": 0.08041079427510106,
6446
+ "grad_norm": 2.9351885318756104,
6447
+ "learning_rate": 0.00045999475341028335,
6448
+ "loss": 1.8147,
6449
+ "step": 920
6450
+ },
6451
+ {
6452
+ "epoch": 0.0804981973123566,
6453
+ "grad_norm": 3.5363566875457764,
6454
+ "learning_rate": 0.000459951031829311,
6455
+ "loss": 1.4487,
6456
+ "step": 921
6457
+ },
6458
+ {
6459
+ "epoch": 0.08058560034961215,
6460
+ "grad_norm": 1.0070669651031494,
6461
+ "learning_rate": 0.0004599073102483386,
6462
+ "loss": 0.9901,
6463
+ "step": 922
6464
+ },
6465
+ {
6466
+ "epoch": 0.0806730033868677,
6467
+ "grad_norm": 0.42096540331840515,
6468
+ "learning_rate": 0.00045986358866736623,
6469
+ "loss": 0.8757,
6470
+ "step": 923
6471
+ },
6472
+ {
6473
+ "epoch": 0.08076040642412324,
6474
+ "grad_norm": 0.7990926504135132,
6475
+ "learning_rate": 0.0004598198670863938,
6476
+ "loss": 1.1409,
6477
+ "step": 924
6478
+ },
6479
+ {
6480
+ "epoch": 0.08084780946137879,
6481
+ "grad_norm": 0.6880809664726257,
6482
+ "learning_rate": 0.00045977614550542147,
6483
+ "loss": 0.9678,
6484
+ "step": 925
6485
+ },
6486
+ {
6487
+ "epoch": 0.08093521249863432,
6488
+ "grad_norm": 0.7126320004463196,
6489
+ "learning_rate": 0.0004597324239244491,
6490
+ "loss": 0.8932,
6491
+ "step": 926
6492
+ },
6493
+ {
6494
+ "epoch": 0.08102261553588987,
6495
+ "grad_norm": 1.2712117433547974,
6496
+ "learning_rate": 0.00045968870234347676,
6497
+ "loss": 1.7774,
6498
+ "step": 927
6499
+ },
6500
+ {
6501
+ "epoch": 0.08111001857314541,
6502
+ "grad_norm": 1.9836965799331665,
6503
+ "learning_rate": 0.0004596449807625044,
6504
+ "loss": 1.1419,
6505
+ "step": 928
6506
+ },
6507
+ {
6508
+ "epoch": 0.08119742161040096,
6509
+ "grad_norm": 0.6894294023513794,
6510
+ "learning_rate": 0.000459601259181532,
6511
+ "loss": 0.9666,
6512
+ "step": 929
6513
+ },
6514
+ {
6515
+ "epoch": 0.0812848246476565,
6516
+ "grad_norm": 2.2530252933502197,
6517
+ "learning_rate": 0.00045955753760055964,
6518
+ "loss": 1.5093,
6519
+ "step": 930
6520
+ },
6521
+ {
6522
+ "epoch": 0.08137222768491205,
6523
+ "grad_norm": 14.37427043914795,
6524
+ "learning_rate": 0.0004595138160195873,
6525
+ "loss": 1.3134,
6526
+ "step": 931
6527
+ },
6528
+ {
6529
+ "epoch": 0.0814596307221676,
6530
+ "grad_norm": 3.392730236053467,
6531
+ "learning_rate": 0.00045947009443861493,
6532
+ "loss": 1.0883,
6533
+ "step": 932
6534
+ },
6535
+ {
6536
+ "epoch": 0.08154703375942314,
6537
+ "grad_norm": 1.097122073173523,
6538
+ "learning_rate": 0.0004594263728576425,
6539
+ "loss": 1.0587,
6540
+ "step": 933
6541
+ },
6542
+ {
6543
+ "epoch": 0.08163443679667869,
6544
+ "grad_norm": 0.7270208597183228,
6545
+ "learning_rate": 0.00045938265127667017,
6546
+ "loss": 1.1386,
6547
+ "step": 934
6548
+ },
6549
+ {
6550
+ "epoch": 0.08172183983393423,
6551
+ "grad_norm": 3.5602266788482666,
6552
+ "learning_rate": 0.0004593389296956978,
6553
+ "loss": 1.1204,
6554
+ "step": 935
6555
+ },
6556
+ {
6557
+ "epoch": 0.08180924287118978,
6558
+ "grad_norm": 1.953038215637207,
6559
+ "learning_rate": 0.0004592952081147254,
6560
+ "loss": 1.2367,
6561
+ "step": 936
6562
+ },
6563
+ {
6564
+ "epoch": 0.08189664590844532,
6565
+ "grad_norm": 1.90444016456604,
6566
+ "learning_rate": 0.0004592514865337531,
6567
+ "loss": 1.1981,
6568
+ "step": 937
6569
+ },
6570
+ {
6571
+ "epoch": 0.08198404894570087,
6572
+ "grad_norm": 9.526935577392578,
6573
+ "learning_rate": 0.0004592077649527807,
6574
+ "loss": 1.4363,
6575
+ "step": 938
6576
+ },
6577
+ {
6578
+ "epoch": 0.08207145198295641,
6579
+ "grad_norm": 5.361575603485107,
6580
+ "learning_rate": 0.00045916404337180834,
6581
+ "loss": 1.4758,
6582
+ "step": 939
6583
+ },
6584
+ {
6585
+ "epoch": 0.08215885502021195,
6586
+ "grad_norm": 49.836151123046875,
6587
+ "learning_rate": 0.000459120321790836,
6588
+ "loss": 3.2272,
6589
+ "step": 940
6590
+ },
6591
+ {
6592
+ "epoch": 0.08224625805746749,
6593
+ "grad_norm": 6.1282877922058105,
6594
+ "learning_rate": 0.0004590766002098636,
6595
+ "loss": 2.0861,
6596
+ "step": 941
6597
+ },
6598
+ {
6599
+ "epoch": 0.08233366109472304,
6600
+ "grad_norm": 9.320550918579102,
6601
+ "learning_rate": 0.0004590328786288912,
6602
+ "loss": 2.0217,
6603
+ "step": 942
6604
+ },
6605
+ {
6606
+ "epoch": 0.08242106413197858,
6607
+ "grad_norm": 3.1131937503814697,
6608
+ "learning_rate": 0.00045898915704791887,
6609
+ "loss": 1.4848,
6610
+ "step": 943
6611
+ },
6612
+ {
6613
+ "epoch": 0.08250846716923413,
6614
+ "grad_norm": 51.67763137817383,
6615
+ "learning_rate": 0.0004589454354669465,
6616
+ "loss": 3.2458,
6617
+ "step": 944
6618
+ },
6619
+ {
6620
+ "epoch": 0.08259587020648967,
6621
+ "grad_norm": 7.247336387634277,
6622
+ "learning_rate": 0.0004589017138859741,
6623
+ "loss": 2.6957,
6624
+ "step": 945
6625
+ },
6626
+ {
6627
+ "epoch": 0.08268327324374522,
6628
+ "grad_norm": 3.2208497524261475,
6629
+ "learning_rate": 0.00045885799230500175,
6630
+ "loss": 1.9059,
6631
+ "step": 946
6632
+ },
6633
+ {
6634
+ "epoch": 0.08277067628100077,
6635
+ "grad_norm": 78.9037094116211,
6636
+ "learning_rate": 0.0004588142707240294,
6637
+ "loss": 5.5682,
6638
+ "step": 947
6639
+ },
6640
+ {
6641
+ "epoch": 0.08285807931825631,
6642
+ "grad_norm": 4.832467079162598,
6643
+ "learning_rate": 0.00045877054914305704,
6644
+ "loss": 1.6731,
6645
+ "step": 948
6646
+ },
6647
+ {
6648
+ "epoch": 0.08294548235551186,
6649
+ "grad_norm": 7.1308674812316895,
6650
+ "learning_rate": 0.0004587268275620847,
6651
+ "loss": 2.2772,
6652
+ "step": 949
6653
+ },
6654
+ {
6655
+ "epoch": 0.0830328853927674,
6656
+ "grad_norm": 4.155465126037598,
6657
+ "learning_rate": 0.00045868310598111227,
6658
+ "loss": 2.2794,
6659
+ "step": 950
6660
+ },
6661
+ {
6662
+ "epoch": 0.08312028843002295,
6663
+ "grad_norm": 51.88750457763672,
6664
+ "learning_rate": 0.0004586393844001399,
6665
+ "loss": 4.0774,
6666
+ "step": 951
6667
+ },
6668
+ {
6669
+ "epoch": 0.0832076914672785,
6670
+ "grad_norm": 2.969212532043457,
6671
+ "learning_rate": 0.00045859566281916756,
6672
+ "loss": 1.9225,
6673
+ "step": 952
6674
+ },
6675
+ {
6676
+ "epoch": 0.08329509450453403,
6677
+ "grad_norm": 3.454350233078003,
6678
+ "learning_rate": 0.00045855194123819515,
6679
+ "loss": 1.6258,
6680
+ "step": 953
6681
+ },
6682
+ {
6683
+ "epoch": 0.08338249754178957,
6684
+ "grad_norm": 46.18666458129883,
6685
+ "learning_rate": 0.00045850821965722285,
6686
+ "loss": 1.7273,
6687
+ "step": 954
6688
+ },
6689
+ {
6690
+ "epoch": 0.08346990057904512,
6691
+ "grad_norm": 13.307456016540527,
6692
+ "learning_rate": 0.00045846449807625044,
6693
+ "loss": 2.1933,
6694
+ "step": 955
6695
+ },
6696
+ {
6697
+ "epoch": 0.08355730361630066,
6698
+ "grad_norm": 8.283126831054688,
6699
+ "learning_rate": 0.0004584207764952781,
6700
+ "loss": 2.499,
6701
+ "step": 956
6702
+ },
6703
+ {
6704
+ "epoch": 0.08364470665355621,
6705
+ "grad_norm": 6.291905403137207,
6706
+ "learning_rate": 0.0004583770549143057,
6707
+ "loss": 1.8399,
6708
+ "step": 957
6709
+ },
6710
+ {
6711
+ "epoch": 0.08373210969081175,
6712
+ "grad_norm": 19.28121566772461,
6713
+ "learning_rate": 0.0004583333333333333,
6714
+ "loss": 2.6815,
6715
+ "step": 958
6716
+ },
6717
+ {
6718
+ "epoch": 0.0838195127280673,
6719
+ "grad_norm": 9.661205291748047,
6720
+ "learning_rate": 0.000458289611752361,
6721
+ "loss": 2.3274,
6722
+ "step": 959
6723
+ },
6724
+ {
6725
+ "epoch": 0.08390691576532285,
6726
+ "grad_norm": 15.012873649597168,
6727
+ "learning_rate": 0.0004582458901713886,
6728
+ "loss": 2.1736,
6729
+ "step": 960
6730
+ },
6731
+ {
6732
+ "epoch": 0.08399431880257839,
6733
+ "grad_norm": 10.02956485748291,
6734
+ "learning_rate": 0.00045820216859041626,
6735
+ "loss": 2.4168,
6736
+ "step": 961
6737
+ },
6738
+ {
6739
+ "epoch": 0.08408172183983394,
6740
+ "grad_norm": 2.234221935272217,
6741
+ "learning_rate": 0.00045815844700944385,
6742
+ "loss": 1.7808,
6743
+ "step": 962
6744
+ },
6745
+ {
6746
+ "epoch": 0.08416912487708948,
6747
+ "grad_norm": 7.04872989654541,
6748
+ "learning_rate": 0.0004581147254284715,
6749
+ "loss": 2.1456,
6750
+ "step": 963
6751
+ },
6752
+ {
6753
+ "epoch": 0.08425652791434503,
6754
+ "grad_norm": 3.498042106628418,
6755
+ "learning_rate": 0.0004580710038474991,
6756
+ "loss": 1.6212,
6757
+ "step": 964
6758
+ },
6759
+ {
6760
+ "epoch": 0.08434393095160057,
6761
+ "grad_norm": 2.731658935546875,
6762
+ "learning_rate": 0.0004580272822665268,
6763
+ "loss": 1.6905,
6764
+ "step": 965
6765
+ },
6766
+ {
6767
+ "epoch": 0.08443133398885612,
6768
+ "grad_norm": 4.867488384246826,
6769
+ "learning_rate": 0.00045798356068555443,
6770
+ "loss": 1.4945,
6771
+ "step": 966
6772
+ },
6773
+ {
6774
+ "epoch": 0.08451873702611165,
6775
+ "grad_norm": 10.225361824035645,
6776
+ "learning_rate": 0.000457939839104582,
6777
+ "loss": 2.4163,
6778
+ "step": 967
6779
+ },
6780
+ {
6781
+ "epoch": 0.0846061400633672,
6782
+ "grad_norm": 2.749767780303955,
6783
+ "learning_rate": 0.00045789611752360967,
6784
+ "loss": 1.49,
6785
+ "step": 968
6786
+ },
6787
+ {
6788
+ "epoch": 0.08469354310062274,
6789
+ "grad_norm": 14.945262908935547,
6790
+ "learning_rate": 0.00045785239594263726,
6791
+ "loss": 2.4579,
6792
+ "step": 969
6793
+ },
6794
+ {
6795
+ "epoch": 0.08478094613787829,
6796
+ "grad_norm": 4.0551228523254395,
6797
+ "learning_rate": 0.0004578086743616649,
6798
+ "loss": 1.6358,
6799
+ "step": 970
6800
+ },
6801
+ {
6802
+ "epoch": 0.08486834917513383,
6803
+ "grad_norm": 2.8462789058685303,
6804
+ "learning_rate": 0.0004577649527806926,
6805
+ "loss": 1.6568,
6806
+ "step": 971
6807
+ },
6808
+ {
6809
+ "epoch": 0.08495575221238938,
6810
+ "grad_norm": 3.82456111907959,
6811
+ "learning_rate": 0.0004577212311997202,
6812
+ "loss": 1.696,
6813
+ "step": 972
6814
+ },
6815
+ {
6816
+ "epoch": 0.08504315524964493,
6817
+ "grad_norm": 2.9463558197021484,
6818
+ "learning_rate": 0.00045767750961874784,
6819
+ "loss": 1.8359,
6820
+ "step": 973
6821
+ },
6822
+ {
6823
+ "epoch": 0.08513055828690047,
6824
+ "grad_norm": 2.811894416809082,
6825
+ "learning_rate": 0.00045763378803777543,
6826
+ "loss": 1.369,
6827
+ "step": 974
6828
+ },
6829
+ {
6830
+ "epoch": 0.08521796132415602,
6831
+ "grad_norm": 2.092231512069702,
6832
+ "learning_rate": 0.0004575900664568031,
6833
+ "loss": 1.5433,
6834
+ "step": 975
6835
+ },
6836
+ {
6837
+ "epoch": 0.08530536436141156,
6838
+ "grad_norm": 4.028072357177734,
6839
+ "learning_rate": 0.0004575463448758307,
6840
+ "loss": 2.4999,
6841
+ "step": 976
6842
+ },
6843
+ {
6844
+ "epoch": 0.08539276739866711,
6845
+ "grad_norm": 10.593165397644043,
6846
+ "learning_rate": 0.00045750262329485836,
6847
+ "loss": 1.5753,
6848
+ "step": 977
6849
+ },
6850
+ {
6851
+ "epoch": 0.08548017043592265,
6852
+ "grad_norm": 6.811407089233398,
6853
+ "learning_rate": 0.000457458901713886,
6854
+ "loss": 1.7268,
6855
+ "step": 978
6856
+ },
6857
+ {
6858
+ "epoch": 0.0855675734731782,
6859
+ "grad_norm": 2.3520467281341553,
6860
+ "learning_rate": 0.0004574151801329136,
6861
+ "loss": 1.4044,
6862
+ "step": 979
6863
+ },
6864
+ {
6865
+ "epoch": 0.08565497651043373,
6866
+ "grad_norm": 3.668078660964966,
6867
+ "learning_rate": 0.00045737145855194125,
6868
+ "loss": 1.718,
6869
+ "step": 980
6870
+ },
6871
+ {
6872
+ "epoch": 0.08574237954768928,
6873
+ "grad_norm": 10.229111671447754,
6874
+ "learning_rate": 0.00045732773697096884,
6875
+ "loss": 1.7006,
6876
+ "step": 981
6877
+ },
6878
+ {
6879
+ "epoch": 0.08582978258494482,
6880
+ "grad_norm": 5.428765773773193,
6881
+ "learning_rate": 0.00045728401538999654,
6882
+ "loss": 2.2021,
6883
+ "step": 982
6884
+ },
6885
+ {
6886
+ "epoch": 0.08591718562220037,
6887
+ "grad_norm": 2.0686569213867188,
6888
+ "learning_rate": 0.0004572402938090242,
6889
+ "loss": 1.687,
6890
+ "step": 983
6891
+ },
6892
+ {
6893
+ "epoch": 0.08600458865945591,
6894
+ "grad_norm": 2.371243715286255,
6895
+ "learning_rate": 0.00045719657222805177,
6896
+ "loss": 1.6734,
6897
+ "step": 984
6898
+ },
6899
+ {
6900
+ "epoch": 0.08609199169671146,
6901
+ "grad_norm": 1.6429576873779297,
6902
+ "learning_rate": 0.0004571528506470794,
6903
+ "loss": 1.8382,
6904
+ "step": 985
6905
+ },
6906
+ {
6907
+ "epoch": 0.086179394733967,
6908
+ "grad_norm": 2.408743381500244,
6909
+ "learning_rate": 0.000457109129066107,
6910
+ "loss": 1.45,
6911
+ "step": 986
6912
+ },
6913
+ {
6914
+ "epoch": 0.08626679777122255,
6915
+ "grad_norm": 4.068368434906006,
6916
+ "learning_rate": 0.0004570654074851347,
6917
+ "loss": 1.7464,
6918
+ "step": 987
6919
+ },
6920
+ {
6921
+ "epoch": 0.0863542008084781,
6922
+ "grad_norm": 1.9330801963806152,
6923
+ "learning_rate": 0.0004570216859041623,
6924
+ "loss": 1.6335,
6925
+ "step": 988
6926
+ },
6927
+ {
6928
+ "epoch": 0.08644160384573364,
6929
+ "grad_norm": 4.200726509094238,
6930
+ "learning_rate": 0.00045697796432318994,
6931
+ "loss": 1.6781,
6932
+ "step": 989
6933
+ },
6934
+ {
6935
+ "epoch": 0.08652900688298919,
6936
+ "grad_norm": 4.335032939910889,
6937
+ "learning_rate": 0.0004569342427422176,
6938
+ "loss": 1.7382,
6939
+ "step": 990
6940
+ },
6941
+ {
6942
+ "epoch": 0.08661640992024473,
6943
+ "grad_norm": 2.2428669929504395,
6944
+ "learning_rate": 0.0004568905211612452,
6945
+ "loss": 1.4791,
6946
+ "step": 991
6947
+ },
6948
+ {
6949
+ "epoch": 0.08670381295750028,
6950
+ "grad_norm": 2.2247121334075928,
6951
+ "learning_rate": 0.0004568467995802728,
6952
+ "loss": 1.8668,
6953
+ "step": 992
6954
+ },
6955
+ {
6956
+ "epoch": 0.08679121599475582,
6957
+ "grad_norm": 2.013319492340088,
6958
+ "learning_rate": 0.00045680307799930047,
6959
+ "loss": 1.4925,
6960
+ "step": 993
6961
+ },
6962
+ {
6963
+ "epoch": 0.08687861903201136,
6964
+ "grad_norm": 1.5773614645004272,
6965
+ "learning_rate": 0.0004567593564183281,
6966
+ "loss": 1.3334,
6967
+ "step": 994
6968
+ },
6969
+ {
6970
+ "epoch": 0.0869660220692669,
6971
+ "grad_norm": 1.1663486957550049,
6972
+ "learning_rate": 0.0004567156348373557,
6973
+ "loss": 1.5022,
6974
+ "step": 995
6975
+ },
6976
+ {
6977
+ "epoch": 0.08705342510652245,
6978
+ "grad_norm": 1.763238549232483,
6979
+ "learning_rate": 0.00045667191325638335,
6980
+ "loss": 1.5118,
6981
+ "step": 996
6982
+ },
6983
+ {
6984
+ "epoch": 0.08714082814377799,
6985
+ "grad_norm": 1.4888843297958374,
6986
+ "learning_rate": 0.000456628191675411,
6987
+ "loss": 1.6713,
6988
+ "step": 997
6989
+ },
6990
+ {
6991
+ "epoch": 0.08722823118103354,
6992
+ "grad_norm": 2.5363516807556152,
6993
+ "learning_rate": 0.0004565844700944386,
6994
+ "loss": 1.4999,
6995
+ "step": 998
6996
+ },
6997
+ {
6998
+ "epoch": 0.08731563421828908,
6999
+ "grad_norm": 2.134773015975952,
7000
+ "learning_rate": 0.0004565407485134663,
7001
+ "loss": 1.5086,
7002
+ "step": 999
7003
+ },
7004
+ {
7005
+ "epoch": 0.08740303725554463,
7006
+ "grad_norm": 15.75776481628418,
7007
+ "learning_rate": 0.0004564970269324939,
7008
+ "loss": 2.11,
7009
+ "step": 1000
7010
  }
7011
  ],
7012
  "logging_steps": 1,
 
7026
  "attributes": {}
7027
  }
7028
  },
7029
+ "total_flos": 8.60783873359872e+17,
7030
  "train_batch_size": 2,
7031
  "trial_name": null,
7032
  "trial_params": null