Ba2han commited on
Commit
2dbdcd5
·
verified ·
1 Parent(s): c83b1af

Training in progress, step 4500, checkpoint

Browse files
last-checkpoint/model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:78422334f598aaae486edd522ccaf2f11ba634464043add0f09ee4af317b6105
3
  size 1229999800
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c680bb4a5040ef0e48d015c7a12c5f4e41f96515bcfc410b5cd05d60b88f0155
3
  size 1229999800
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8a703ea18e6e1a189c5309f12fa2387d3060ee69cc70e10aa31afe4a7f21055d
3
  size 490531915
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:948e61d950be46fd3952d87c1da4e9be624ff31d0e5c8893c4b4a910bc45e24f
3
  size 490531915
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:89dd91368a106fb702addd45870d1732e622bb6c3ed284fbfaadf6d9b2a57299
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:01fb2dd3a221f4f86e7a7276692c3336860660e04b234b110de764c629eabe82
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.12,
6
  "eval_steps": 3000,
7
- "global_step": 3600,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -12608,6 +12608,3156 @@
12608
  "learning_rate": 0.024,
12609
  "loss": 2.4164199829101562,
12610
  "step": 3600
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
12611
  }
12612
  ],
12613
  "logging_steps": 2,
@@ -12627,7 +15777,7 @@
12627
  "attributes": {}
12628
  }
12629
  },
12630
- "total_flos": 1.272083682701607e+19,
12631
  "train_batch_size": 4,
12632
  "trial_name": null,
12633
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.15,
6
  "eval_steps": 3000,
7
+ "global_step": 4500,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
12608
  "learning_rate": 0.024,
12609
  "loss": 2.4164199829101562,
12610
  "step": 3600
12611
+ },
12612
+ {
12613
+ "epoch": 0.12006666666666667,
12614
+ "grad_norm": 0.12890625,
12615
+ "learning_rate": 0.024,
12616
+ "loss": 2.4011921882629395,
12617
+ "step": 3602
12618
+ },
12619
+ {
12620
+ "epoch": 0.12013333333333333,
12621
+ "grad_norm": 0.1357421875,
12622
+ "learning_rate": 0.024,
12623
+ "loss": 2.427804470062256,
12624
+ "step": 3604
12625
+ },
12626
+ {
12627
+ "epoch": 0.1202,
12628
+ "grad_norm": 0.12451171875,
12629
+ "learning_rate": 0.024,
12630
+ "loss": 2.4052743911743164,
12631
+ "step": 3606
12632
+ },
12633
+ {
12634
+ "epoch": 0.12026666666666666,
12635
+ "grad_norm": 0.12890625,
12636
+ "learning_rate": 0.024,
12637
+ "loss": 2.412158489227295,
12638
+ "step": 3608
12639
+ },
12640
+ {
12641
+ "epoch": 0.12033333333333333,
12642
+ "grad_norm": 0.12451171875,
12643
+ "learning_rate": 0.024,
12644
+ "loss": 2.403179168701172,
12645
+ "step": 3610
12646
+ },
12647
+ {
12648
+ "epoch": 0.1204,
12649
+ "grad_norm": 0.126953125,
12650
+ "learning_rate": 0.024,
12651
+ "loss": 2.398909568786621,
12652
+ "step": 3612
12653
+ },
12654
+ {
12655
+ "epoch": 0.12046666666666667,
12656
+ "grad_norm": 0.12890625,
12657
+ "learning_rate": 0.024,
12658
+ "loss": 2.415963888168335,
12659
+ "step": 3614
12660
+ },
12661
+ {
12662
+ "epoch": 0.12053333333333334,
12663
+ "grad_norm": 0.123046875,
12664
+ "learning_rate": 0.024,
12665
+ "loss": 2.416398525238037,
12666
+ "step": 3616
12667
+ },
12668
+ {
12669
+ "epoch": 0.1206,
12670
+ "grad_norm": 0.125,
12671
+ "learning_rate": 0.024,
12672
+ "loss": 2.379307508468628,
12673
+ "step": 3618
12674
+ },
12675
+ {
12676
+ "epoch": 0.12066666666666667,
12677
+ "grad_norm": 0.1298828125,
12678
+ "learning_rate": 0.024,
12679
+ "loss": 2.4079151153564453,
12680
+ "step": 3620
12681
+ },
12682
+ {
12683
+ "epoch": 0.12073333333333333,
12684
+ "grad_norm": 0.1142578125,
12685
+ "learning_rate": 0.024,
12686
+ "loss": 2.40400767326355,
12687
+ "step": 3622
12688
+ },
12689
+ {
12690
+ "epoch": 0.1208,
12691
+ "grad_norm": 0.130859375,
12692
+ "learning_rate": 0.024,
12693
+ "loss": 2.4404966831207275,
12694
+ "step": 3624
12695
+ },
12696
+ {
12697
+ "epoch": 0.12086666666666666,
12698
+ "grad_norm": 0.1279296875,
12699
+ "learning_rate": 0.024,
12700
+ "loss": 2.4328360557556152,
12701
+ "step": 3626
12702
+ },
12703
+ {
12704
+ "epoch": 0.12093333333333334,
12705
+ "grad_norm": 0.123046875,
12706
+ "learning_rate": 0.024,
12707
+ "loss": 2.4026076793670654,
12708
+ "step": 3628
12709
+ },
12710
+ {
12711
+ "epoch": 0.121,
12712
+ "grad_norm": 0.1318359375,
12713
+ "learning_rate": 0.024,
12714
+ "loss": 2.4100027084350586,
12715
+ "step": 3630
12716
+ },
12717
+ {
12718
+ "epoch": 0.12106666666666667,
12719
+ "grad_norm": 0.12451171875,
12720
+ "learning_rate": 0.024,
12721
+ "loss": 2.41629958152771,
12722
+ "step": 3632
12723
+ },
12724
+ {
12725
+ "epoch": 0.12113333333333333,
12726
+ "grad_norm": 0.12451171875,
12727
+ "learning_rate": 0.024,
12728
+ "loss": 2.3833088874816895,
12729
+ "step": 3634
12730
+ },
12731
+ {
12732
+ "epoch": 0.1212,
12733
+ "grad_norm": 0.12890625,
12734
+ "learning_rate": 0.024,
12735
+ "loss": 2.3819260597229004,
12736
+ "step": 3636
12737
+ },
12738
+ {
12739
+ "epoch": 0.12126666666666666,
12740
+ "grad_norm": 0.1318359375,
12741
+ "learning_rate": 0.024,
12742
+ "loss": 2.3865809440612793,
12743
+ "step": 3638
12744
+ },
12745
+ {
12746
+ "epoch": 0.12133333333333333,
12747
+ "grad_norm": 0.1396484375,
12748
+ "learning_rate": 0.024,
12749
+ "loss": 2.4073989391326904,
12750
+ "step": 3640
12751
+ },
12752
+ {
12753
+ "epoch": 0.1214,
12754
+ "grad_norm": 0.13671875,
12755
+ "learning_rate": 0.024,
12756
+ "loss": 2.398315906524658,
12757
+ "step": 3642
12758
+ },
12759
+ {
12760
+ "epoch": 0.12146666666666667,
12761
+ "grad_norm": 0.1328125,
12762
+ "learning_rate": 0.024,
12763
+ "loss": 2.4219884872436523,
12764
+ "step": 3644
12765
+ },
12766
+ {
12767
+ "epoch": 0.12153333333333333,
12768
+ "grad_norm": 0.1259765625,
12769
+ "learning_rate": 0.024,
12770
+ "loss": 2.4168853759765625,
12771
+ "step": 3646
12772
+ },
12773
+ {
12774
+ "epoch": 0.1216,
12775
+ "grad_norm": 0.115234375,
12776
+ "learning_rate": 0.024,
12777
+ "loss": 2.414362907409668,
12778
+ "step": 3648
12779
+ },
12780
+ {
12781
+ "epoch": 0.12166666666666667,
12782
+ "grad_norm": 0.12158203125,
12783
+ "learning_rate": 0.024,
12784
+ "loss": 2.382805347442627,
12785
+ "step": 3650
12786
+ },
12787
+ {
12788
+ "epoch": 0.12173333333333333,
12789
+ "grad_norm": 0.12890625,
12790
+ "learning_rate": 0.024,
12791
+ "loss": 2.427590847015381,
12792
+ "step": 3652
12793
+ },
12794
+ {
12795
+ "epoch": 0.1218,
12796
+ "grad_norm": 0.138671875,
12797
+ "learning_rate": 0.024,
12798
+ "loss": 2.4051952362060547,
12799
+ "step": 3654
12800
+ },
12801
+ {
12802
+ "epoch": 0.12186666666666666,
12803
+ "grad_norm": 0.1328125,
12804
+ "learning_rate": 0.024,
12805
+ "loss": 2.4132471084594727,
12806
+ "step": 3656
12807
+ },
12808
+ {
12809
+ "epoch": 0.12193333333333334,
12810
+ "grad_norm": 0.1396484375,
12811
+ "learning_rate": 0.024,
12812
+ "loss": 2.416978597640991,
12813
+ "step": 3658
12814
+ },
12815
+ {
12816
+ "epoch": 0.122,
12817
+ "grad_norm": 0.1396484375,
12818
+ "learning_rate": 0.024,
12819
+ "loss": 2.4009478092193604,
12820
+ "step": 3660
12821
+ },
12822
+ {
12823
+ "epoch": 0.12206666666666667,
12824
+ "grad_norm": 0.1396484375,
12825
+ "learning_rate": 0.024,
12826
+ "loss": 2.4033687114715576,
12827
+ "step": 3662
12828
+ },
12829
+ {
12830
+ "epoch": 0.12213333333333333,
12831
+ "grad_norm": 0.138671875,
12832
+ "learning_rate": 0.024,
12833
+ "loss": 2.402921676635742,
12834
+ "step": 3664
12835
+ },
12836
+ {
12837
+ "epoch": 0.1222,
12838
+ "grad_norm": 0.130859375,
12839
+ "learning_rate": 0.024,
12840
+ "loss": 2.3990068435668945,
12841
+ "step": 3666
12842
+ },
12843
+ {
12844
+ "epoch": 0.12226666666666666,
12845
+ "grad_norm": 0.1279296875,
12846
+ "learning_rate": 0.024,
12847
+ "loss": 2.413029193878174,
12848
+ "step": 3668
12849
+ },
12850
+ {
12851
+ "epoch": 0.12233333333333334,
12852
+ "grad_norm": 0.130859375,
12853
+ "learning_rate": 0.024,
12854
+ "loss": 2.3891119956970215,
12855
+ "step": 3670
12856
+ },
12857
+ {
12858
+ "epoch": 0.1224,
12859
+ "grad_norm": 0.130859375,
12860
+ "learning_rate": 0.024,
12861
+ "loss": 2.4084033966064453,
12862
+ "step": 3672
12863
+ },
12864
+ {
12865
+ "epoch": 0.12246666666666667,
12866
+ "grad_norm": 0.1484375,
12867
+ "learning_rate": 0.024,
12868
+ "loss": 2.3892369270324707,
12869
+ "step": 3674
12870
+ },
12871
+ {
12872
+ "epoch": 0.12253333333333333,
12873
+ "grad_norm": 0.13671875,
12874
+ "learning_rate": 0.024,
12875
+ "loss": 2.367910861968994,
12876
+ "step": 3676
12877
+ },
12878
+ {
12879
+ "epoch": 0.1226,
12880
+ "grad_norm": 0.12451171875,
12881
+ "learning_rate": 0.024,
12882
+ "loss": 2.3568520545959473,
12883
+ "step": 3678
12884
+ },
12885
+ {
12886
+ "epoch": 0.12266666666666666,
12887
+ "grad_norm": 0.1318359375,
12888
+ "learning_rate": 0.024,
12889
+ "loss": 2.4197208881378174,
12890
+ "step": 3680
12891
+ },
12892
+ {
12893
+ "epoch": 0.12273333333333333,
12894
+ "grad_norm": 0.1298828125,
12895
+ "learning_rate": 0.024,
12896
+ "loss": 2.415536880493164,
12897
+ "step": 3682
12898
+ },
12899
+ {
12900
+ "epoch": 0.1228,
12901
+ "grad_norm": 0.130859375,
12902
+ "learning_rate": 0.024,
12903
+ "loss": 2.4307994842529297,
12904
+ "step": 3684
12905
+ },
12906
+ {
12907
+ "epoch": 0.12286666666666667,
12908
+ "grad_norm": 0.1357421875,
12909
+ "learning_rate": 0.024,
12910
+ "loss": 2.3882856369018555,
12911
+ "step": 3686
12912
+ },
12913
+ {
12914
+ "epoch": 0.12293333333333334,
12915
+ "grad_norm": 0.126953125,
12916
+ "learning_rate": 0.024,
12917
+ "loss": 2.406144618988037,
12918
+ "step": 3688
12919
+ },
12920
+ {
12921
+ "epoch": 0.123,
12922
+ "grad_norm": 0.1337890625,
12923
+ "learning_rate": 0.024,
12924
+ "loss": 2.377098560333252,
12925
+ "step": 3690
12926
+ },
12927
+ {
12928
+ "epoch": 0.12306666666666667,
12929
+ "grad_norm": 0.1279296875,
12930
+ "learning_rate": 0.024,
12931
+ "loss": 2.3935470581054688,
12932
+ "step": 3692
12933
+ },
12934
+ {
12935
+ "epoch": 0.12313333333333333,
12936
+ "grad_norm": 0.1181640625,
12937
+ "learning_rate": 0.024,
12938
+ "loss": 2.3825440406799316,
12939
+ "step": 3694
12940
+ },
12941
+ {
12942
+ "epoch": 0.1232,
12943
+ "grad_norm": 0.11572265625,
12944
+ "learning_rate": 0.024,
12945
+ "loss": 2.3986525535583496,
12946
+ "step": 3696
12947
+ },
12948
+ {
12949
+ "epoch": 0.12326666666666666,
12950
+ "grad_norm": 0.1279296875,
12951
+ "learning_rate": 0.024,
12952
+ "loss": 2.4108262062072754,
12953
+ "step": 3698
12954
+ },
12955
+ {
12956
+ "epoch": 0.12333333333333334,
12957
+ "grad_norm": 0.1240234375,
12958
+ "learning_rate": 0.024,
12959
+ "loss": 2.3969693183898926,
12960
+ "step": 3700
12961
+ },
12962
+ {
12963
+ "epoch": 0.1234,
12964
+ "grad_norm": 0.1337890625,
12965
+ "learning_rate": 0.024,
12966
+ "loss": 2.409869909286499,
12967
+ "step": 3702
12968
+ },
12969
+ {
12970
+ "epoch": 0.12346666666666667,
12971
+ "grad_norm": 0.12353515625,
12972
+ "learning_rate": 0.024,
12973
+ "loss": 2.4007859230041504,
12974
+ "step": 3704
12975
+ },
12976
+ {
12977
+ "epoch": 0.12353333333333333,
12978
+ "grad_norm": 0.1416015625,
12979
+ "learning_rate": 0.024,
12980
+ "loss": 2.4266932010650635,
12981
+ "step": 3706
12982
+ },
12983
+ {
12984
+ "epoch": 0.1236,
12985
+ "grad_norm": 0.1396484375,
12986
+ "learning_rate": 0.024,
12987
+ "loss": 2.3845696449279785,
12988
+ "step": 3708
12989
+ },
12990
+ {
12991
+ "epoch": 0.12366666666666666,
12992
+ "grad_norm": 0.138671875,
12993
+ "learning_rate": 0.024,
12994
+ "loss": 2.3770651817321777,
12995
+ "step": 3710
12996
+ },
12997
+ {
12998
+ "epoch": 0.12373333333333333,
12999
+ "grad_norm": 0.150390625,
13000
+ "learning_rate": 0.024,
13001
+ "loss": 2.404356002807617,
13002
+ "step": 3712
13003
+ },
13004
+ {
13005
+ "epoch": 0.1238,
13006
+ "grad_norm": 0.126953125,
13007
+ "learning_rate": 0.024,
13008
+ "loss": 2.355290412902832,
13009
+ "step": 3714
13010
+ },
13011
+ {
13012
+ "epoch": 0.12386666666666667,
13013
+ "grad_norm": 0.12890625,
13014
+ "learning_rate": 0.024,
13015
+ "loss": 2.382802963256836,
13016
+ "step": 3716
13017
+ },
13018
+ {
13019
+ "epoch": 0.12393333333333334,
13020
+ "grad_norm": 0.12451171875,
13021
+ "learning_rate": 0.024,
13022
+ "loss": 2.385908365249634,
13023
+ "step": 3718
13024
+ },
13025
+ {
13026
+ "epoch": 0.124,
13027
+ "grad_norm": 0.1220703125,
13028
+ "learning_rate": 0.024,
13029
+ "loss": 2.3875515460968018,
13030
+ "step": 3720
13031
+ },
13032
+ {
13033
+ "epoch": 0.12406666666666667,
13034
+ "grad_norm": 0.11767578125,
13035
+ "learning_rate": 0.024,
13036
+ "loss": 2.370589256286621,
13037
+ "step": 3722
13038
+ },
13039
+ {
13040
+ "epoch": 0.12413333333333333,
13041
+ "grad_norm": 0.10888671875,
13042
+ "learning_rate": 0.024,
13043
+ "loss": 2.389080047607422,
13044
+ "step": 3724
13045
+ },
13046
+ {
13047
+ "epoch": 0.1242,
13048
+ "grad_norm": 0.11865234375,
13049
+ "learning_rate": 0.024,
13050
+ "loss": 2.383751392364502,
13051
+ "step": 3726
13052
+ },
13053
+ {
13054
+ "epoch": 0.12426666666666666,
13055
+ "grad_norm": 0.11181640625,
13056
+ "learning_rate": 0.024,
13057
+ "loss": 2.385361433029175,
13058
+ "step": 3728
13059
+ },
13060
+ {
13061
+ "epoch": 0.12433333333333334,
13062
+ "grad_norm": 0.1328125,
13063
+ "learning_rate": 0.024,
13064
+ "loss": 2.373563766479492,
13065
+ "step": 3730
13066
+ },
13067
+ {
13068
+ "epoch": 0.1244,
13069
+ "grad_norm": 0.1318359375,
13070
+ "learning_rate": 0.024,
13071
+ "loss": 2.407423973083496,
13072
+ "step": 3732
13073
+ },
13074
+ {
13075
+ "epoch": 0.12446666666666667,
13076
+ "grad_norm": 0.142578125,
13077
+ "learning_rate": 0.024,
13078
+ "loss": 2.3536858558654785,
13079
+ "step": 3734
13080
+ },
13081
+ {
13082
+ "epoch": 0.12453333333333333,
13083
+ "grad_norm": 0.138671875,
13084
+ "learning_rate": 0.024,
13085
+ "loss": 2.3897664546966553,
13086
+ "step": 3736
13087
+ },
13088
+ {
13089
+ "epoch": 0.1246,
13090
+ "grad_norm": 0.1337890625,
13091
+ "learning_rate": 0.024,
13092
+ "loss": 2.3618383407592773,
13093
+ "step": 3738
13094
+ },
13095
+ {
13096
+ "epoch": 0.12466666666666666,
13097
+ "grad_norm": 0.1279296875,
13098
+ "learning_rate": 0.024,
13099
+ "loss": 2.3776140213012695,
13100
+ "step": 3740
13101
+ },
13102
+ {
13103
+ "epoch": 0.12473333333333333,
13104
+ "grad_norm": 0.13671875,
13105
+ "learning_rate": 0.024,
13106
+ "loss": 2.3997998237609863,
13107
+ "step": 3742
13108
+ },
13109
+ {
13110
+ "epoch": 0.1248,
13111
+ "grad_norm": 0.1279296875,
13112
+ "learning_rate": 0.024,
13113
+ "loss": 2.3725056648254395,
13114
+ "step": 3744
13115
+ },
13116
+ {
13117
+ "epoch": 0.12486666666666667,
13118
+ "grad_norm": 0.126953125,
13119
+ "learning_rate": 0.024,
13120
+ "loss": 2.3934664726257324,
13121
+ "step": 3746
13122
+ },
13123
+ {
13124
+ "epoch": 0.12493333333333333,
13125
+ "grad_norm": 0.123046875,
13126
+ "learning_rate": 0.024,
13127
+ "loss": 2.3850443363189697,
13128
+ "step": 3748
13129
+ },
13130
+ {
13131
+ "epoch": 0.125,
13132
+ "grad_norm": 0.126953125,
13133
+ "learning_rate": 0.024,
13134
+ "loss": 2.3826987743377686,
13135
+ "step": 3750
13136
+ },
13137
+ {
13138
+ "epoch": 0.12506666666666666,
13139
+ "grad_norm": 0.1357421875,
13140
+ "learning_rate": 0.024,
13141
+ "loss": 2.3847384452819824,
13142
+ "step": 3752
13143
+ },
13144
+ {
13145
+ "epoch": 0.12513333333333335,
13146
+ "grad_norm": 0.1259765625,
13147
+ "learning_rate": 0.024,
13148
+ "loss": 2.358799934387207,
13149
+ "step": 3754
13150
+ },
13151
+ {
13152
+ "epoch": 0.1252,
13153
+ "grad_norm": 0.1220703125,
13154
+ "learning_rate": 0.024,
13155
+ "loss": 2.383861541748047,
13156
+ "step": 3756
13157
+ },
13158
+ {
13159
+ "epoch": 0.12526666666666667,
13160
+ "grad_norm": 0.1201171875,
13161
+ "learning_rate": 0.024,
13162
+ "loss": 2.3852736949920654,
13163
+ "step": 3758
13164
+ },
13165
+ {
13166
+ "epoch": 0.12533333333333332,
13167
+ "grad_norm": 0.1279296875,
13168
+ "learning_rate": 0.024,
13169
+ "loss": 2.363457441329956,
13170
+ "step": 3760
13171
+ },
13172
+ {
13173
+ "epoch": 0.1254,
13174
+ "grad_norm": 0.125,
13175
+ "learning_rate": 0.024,
13176
+ "loss": 2.3848607540130615,
13177
+ "step": 3762
13178
+ },
13179
+ {
13180
+ "epoch": 0.12546666666666667,
13181
+ "grad_norm": 0.1318359375,
13182
+ "learning_rate": 0.024,
13183
+ "loss": 2.370737075805664,
13184
+ "step": 3764
13185
+ },
13186
+ {
13187
+ "epoch": 0.12553333333333333,
13188
+ "grad_norm": 0.1328125,
13189
+ "learning_rate": 0.024,
13190
+ "loss": 2.398829460144043,
13191
+ "step": 3766
13192
+ },
13193
+ {
13194
+ "epoch": 0.1256,
13195
+ "grad_norm": 0.134765625,
13196
+ "learning_rate": 0.024,
13197
+ "loss": 2.387014150619507,
13198
+ "step": 3768
13199
+ },
13200
+ {
13201
+ "epoch": 0.12566666666666668,
13202
+ "grad_norm": 0.1396484375,
13203
+ "learning_rate": 0.024,
13204
+ "loss": 2.3569459915161133,
13205
+ "step": 3770
13206
+ },
13207
+ {
13208
+ "epoch": 0.12573333333333334,
13209
+ "grad_norm": 0.126953125,
13210
+ "learning_rate": 0.024,
13211
+ "loss": 2.376526355743408,
13212
+ "step": 3772
13213
+ },
13214
+ {
13215
+ "epoch": 0.1258,
13216
+ "grad_norm": 0.12890625,
13217
+ "learning_rate": 0.024,
13218
+ "loss": 2.3798880577087402,
13219
+ "step": 3774
13220
+ },
13221
+ {
13222
+ "epoch": 0.12586666666666665,
13223
+ "grad_norm": 0.1337890625,
13224
+ "learning_rate": 0.024,
13225
+ "loss": 2.391993522644043,
13226
+ "step": 3776
13227
+ },
13228
+ {
13229
+ "epoch": 0.12593333333333334,
13230
+ "grad_norm": 0.1318359375,
13231
+ "learning_rate": 0.024,
13232
+ "loss": 2.37076997756958,
13233
+ "step": 3778
13234
+ },
13235
+ {
13236
+ "epoch": 0.126,
13237
+ "grad_norm": 0.12451171875,
13238
+ "learning_rate": 0.024,
13239
+ "loss": 2.3788928985595703,
13240
+ "step": 3780
13241
+ },
13242
+ {
13243
+ "epoch": 0.12606666666666666,
13244
+ "grad_norm": 0.1337890625,
13245
+ "learning_rate": 0.024,
13246
+ "loss": 2.3889245986938477,
13247
+ "step": 3782
13248
+ },
13249
+ {
13250
+ "epoch": 0.12613333333333332,
13251
+ "grad_norm": 0.1318359375,
13252
+ "learning_rate": 0.024,
13253
+ "loss": 2.392484188079834,
13254
+ "step": 3784
13255
+ },
13256
+ {
13257
+ "epoch": 0.1262,
13258
+ "grad_norm": 0.130859375,
13259
+ "learning_rate": 0.024,
13260
+ "loss": 2.3864212036132812,
13261
+ "step": 3786
13262
+ },
13263
+ {
13264
+ "epoch": 0.12626666666666667,
13265
+ "grad_norm": 0.126953125,
13266
+ "learning_rate": 0.024,
13267
+ "loss": 2.379127025604248,
13268
+ "step": 3788
13269
+ },
13270
+ {
13271
+ "epoch": 0.12633333333333333,
13272
+ "grad_norm": 0.12353515625,
13273
+ "learning_rate": 0.024,
13274
+ "loss": 2.3574647903442383,
13275
+ "step": 3790
13276
+ },
13277
+ {
13278
+ "epoch": 0.1264,
13279
+ "grad_norm": 0.134765625,
13280
+ "learning_rate": 0.024,
13281
+ "loss": 2.3823697566986084,
13282
+ "step": 3792
13283
+ },
13284
+ {
13285
+ "epoch": 0.12646666666666667,
13286
+ "grad_norm": 0.12060546875,
13287
+ "learning_rate": 0.024,
13288
+ "loss": 2.3856654167175293,
13289
+ "step": 3794
13290
+ },
13291
+ {
13292
+ "epoch": 0.12653333333333333,
13293
+ "grad_norm": 0.12109375,
13294
+ "learning_rate": 0.024,
13295
+ "loss": 2.372711658477783,
13296
+ "step": 3796
13297
+ },
13298
+ {
13299
+ "epoch": 0.1266,
13300
+ "grad_norm": 0.1279296875,
13301
+ "learning_rate": 0.024,
13302
+ "loss": 2.3880176544189453,
13303
+ "step": 3798
13304
+ },
13305
+ {
13306
+ "epoch": 0.12666666666666668,
13307
+ "grad_norm": 0.123046875,
13308
+ "learning_rate": 0.024,
13309
+ "loss": 2.3888955116271973,
13310
+ "step": 3800
13311
+ },
13312
+ {
13313
+ "epoch": 0.12673333333333334,
13314
+ "grad_norm": 0.1259765625,
13315
+ "learning_rate": 0.024,
13316
+ "loss": 2.351850748062134,
13317
+ "step": 3802
13318
+ },
13319
+ {
13320
+ "epoch": 0.1268,
13321
+ "grad_norm": 0.1328125,
13322
+ "learning_rate": 0.024,
13323
+ "loss": 2.37087345123291,
13324
+ "step": 3804
13325
+ },
13326
+ {
13327
+ "epoch": 0.12686666666666666,
13328
+ "grad_norm": 0.130859375,
13329
+ "learning_rate": 0.024,
13330
+ "loss": 2.3732619285583496,
13331
+ "step": 3806
13332
+ },
13333
+ {
13334
+ "epoch": 0.12693333333333334,
13335
+ "grad_norm": 0.1328125,
13336
+ "learning_rate": 0.024,
13337
+ "loss": 2.3541526794433594,
13338
+ "step": 3808
13339
+ },
13340
+ {
13341
+ "epoch": 0.127,
13342
+ "grad_norm": 0.130859375,
13343
+ "learning_rate": 0.024,
13344
+ "loss": 2.38732647895813,
13345
+ "step": 3810
13346
+ },
13347
+ {
13348
+ "epoch": 0.12706666666666666,
13349
+ "grad_norm": 0.12158203125,
13350
+ "learning_rate": 0.024,
13351
+ "loss": 2.379753589630127,
13352
+ "step": 3812
13353
+ },
13354
+ {
13355
+ "epoch": 0.12713333333333332,
13356
+ "grad_norm": 0.12255859375,
13357
+ "learning_rate": 0.024,
13358
+ "loss": 2.3826904296875,
13359
+ "step": 3814
13360
+ },
13361
+ {
13362
+ "epoch": 0.1272,
13363
+ "grad_norm": 0.11962890625,
13364
+ "learning_rate": 0.024,
13365
+ "loss": 2.3559939861297607,
13366
+ "step": 3816
13367
+ },
13368
+ {
13369
+ "epoch": 0.12726666666666667,
13370
+ "grad_norm": 0.1328125,
13371
+ "learning_rate": 0.024,
13372
+ "loss": 2.39199161529541,
13373
+ "step": 3818
13374
+ },
13375
+ {
13376
+ "epoch": 0.12733333333333333,
13377
+ "grad_norm": 0.134765625,
13378
+ "learning_rate": 0.024,
13379
+ "loss": 2.350497245788574,
13380
+ "step": 3820
13381
+ },
13382
+ {
13383
+ "epoch": 0.1274,
13384
+ "grad_norm": 0.130859375,
13385
+ "learning_rate": 0.024,
13386
+ "loss": 2.3753068447113037,
13387
+ "step": 3822
13388
+ },
13389
+ {
13390
+ "epoch": 0.12746666666666667,
13391
+ "grad_norm": 0.1279296875,
13392
+ "learning_rate": 0.024,
13393
+ "loss": 2.360866069793701,
13394
+ "step": 3824
13395
+ },
13396
+ {
13397
+ "epoch": 0.12753333333333333,
13398
+ "grad_norm": 0.12353515625,
13399
+ "learning_rate": 0.024,
13400
+ "loss": 2.383366584777832,
13401
+ "step": 3826
13402
+ },
13403
+ {
13404
+ "epoch": 0.1276,
13405
+ "grad_norm": 0.11865234375,
13406
+ "learning_rate": 0.024,
13407
+ "loss": 2.3676815032958984,
13408
+ "step": 3828
13409
+ },
13410
+ {
13411
+ "epoch": 0.12766666666666668,
13412
+ "grad_norm": 0.12158203125,
13413
+ "learning_rate": 0.024,
13414
+ "loss": 2.3946785926818848,
13415
+ "step": 3830
13416
+ },
13417
+ {
13418
+ "epoch": 0.12773333333333334,
13419
+ "grad_norm": 0.1171875,
13420
+ "learning_rate": 0.024,
13421
+ "loss": 2.3763437271118164,
13422
+ "step": 3832
13423
+ },
13424
+ {
13425
+ "epoch": 0.1278,
13426
+ "grad_norm": 0.123046875,
13427
+ "learning_rate": 0.024,
13428
+ "loss": 2.3707990646362305,
13429
+ "step": 3834
13430
+ },
13431
+ {
13432
+ "epoch": 0.12786666666666666,
13433
+ "grad_norm": 0.11572265625,
13434
+ "learning_rate": 0.024,
13435
+ "loss": 2.3518829345703125,
13436
+ "step": 3836
13437
+ },
13438
+ {
13439
+ "epoch": 0.12793333333333334,
13440
+ "grad_norm": 0.1435546875,
13441
+ "learning_rate": 0.024,
13442
+ "loss": 2.385516405105591,
13443
+ "step": 3838
13444
+ },
13445
+ {
13446
+ "epoch": 0.128,
13447
+ "grad_norm": 0.134765625,
13448
+ "learning_rate": 0.024,
13449
+ "loss": 2.376420021057129,
13450
+ "step": 3840
13451
+ },
13452
+ {
13453
+ "epoch": 0.12806666666666666,
13454
+ "grad_norm": 0.12890625,
13455
+ "learning_rate": 0.024,
13456
+ "loss": 2.3339686393737793,
13457
+ "step": 3842
13458
+ },
13459
+ {
13460
+ "epoch": 0.12813333333333332,
13461
+ "grad_norm": 0.134765625,
13462
+ "learning_rate": 0.024,
13463
+ "loss": 2.3762047290802,
13464
+ "step": 3844
13465
+ },
13466
+ {
13467
+ "epoch": 0.1282,
13468
+ "grad_norm": 0.1298828125,
13469
+ "learning_rate": 0.024,
13470
+ "loss": 2.3800315856933594,
13471
+ "step": 3846
13472
+ },
13473
+ {
13474
+ "epoch": 0.12826666666666667,
13475
+ "grad_norm": 0.1318359375,
13476
+ "learning_rate": 0.024,
13477
+ "loss": 2.3711705207824707,
13478
+ "step": 3848
13479
+ },
13480
+ {
13481
+ "epoch": 0.12833333333333333,
13482
+ "grad_norm": 0.1318359375,
13483
+ "learning_rate": 0.024,
13484
+ "loss": 2.3684375286102295,
13485
+ "step": 3850
13486
+ },
13487
+ {
13488
+ "epoch": 0.1284,
13489
+ "grad_norm": 0.12255859375,
13490
+ "learning_rate": 0.024,
13491
+ "loss": 2.3598742485046387,
13492
+ "step": 3852
13493
+ },
13494
+ {
13495
+ "epoch": 0.12846666666666667,
13496
+ "grad_norm": 0.1298828125,
13497
+ "learning_rate": 0.024,
13498
+ "loss": 2.3889265060424805,
13499
+ "step": 3854
13500
+ },
13501
+ {
13502
+ "epoch": 0.12853333333333333,
13503
+ "grad_norm": 0.1298828125,
13504
+ "learning_rate": 0.024,
13505
+ "loss": 2.375478982925415,
13506
+ "step": 3856
13507
+ },
13508
+ {
13509
+ "epoch": 0.1286,
13510
+ "grad_norm": 0.13671875,
13511
+ "learning_rate": 0.024,
13512
+ "loss": 2.391953229904175,
13513
+ "step": 3858
13514
+ },
13515
+ {
13516
+ "epoch": 0.12866666666666668,
13517
+ "grad_norm": 0.1259765625,
13518
+ "learning_rate": 0.024,
13519
+ "loss": 2.358128309249878,
13520
+ "step": 3860
13521
+ },
13522
+ {
13523
+ "epoch": 0.12873333333333334,
13524
+ "grad_norm": 0.11962890625,
13525
+ "learning_rate": 0.024,
13526
+ "loss": 2.3574161529541016,
13527
+ "step": 3862
13528
+ },
13529
+ {
13530
+ "epoch": 0.1288,
13531
+ "grad_norm": 0.11962890625,
13532
+ "learning_rate": 0.024,
13533
+ "loss": 2.369072914123535,
13534
+ "step": 3864
13535
+ },
13536
+ {
13537
+ "epoch": 0.12886666666666666,
13538
+ "grad_norm": 0.1259765625,
13539
+ "learning_rate": 0.024,
13540
+ "loss": 2.366975784301758,
13541
+ "step": 3866
13542
+ },
13543
+ {
13544
+ "epoch": 0.12893333333333334,
13545
+ "grad_norm": 0.1240234375,
13546
+ "learning_rate": 0.024,
13547
+ "loss": 2.411951780319214,
13548
+ "step": 3868
13549
+ },
13550
+ {
13551
+ "epoch": 0.129,
13552
+ "grad_norm": 0.1142578125,
13553
+ "learning_rate": 0.024,
13554
+ "loss": 2.3797030448913574,
13555
+ "step": 3870
13556
+ },
13557
+ {
13558
+ "epoch": 0.12906666666666666,
13559
+ "grad_norm": 0.119140625,
13560
+ "learning_rate": 0.024,
13561
+ "loss": 2.39070463180542,
13562
+ "step": 3872
13563
+ },
13564
+ {
13565
+ "epoch": 0.12913333333333332,
13566
+ "grad_norm": 0.1298828125,
13567
+ "learning_rate": 0.024,
13568
+ "loss": 2.374511241912842,
13569
+ "step": 3874
13570
+ },
13571
+ {
13572
+ "epoch": 0.1292,
13573
+ "grad_norm": 0.126953125,
13574
+ "learning_rate": 0.024,
13575
+ "loss": 2.355795383453369,
13576
+ "step": 3876
13577
+ },
13578
+ {
13579
+ "epoch": 0.12926666666666667,
13580
+ "grad_norm": 0.1337890625,
13581
+ "learning_rate": 0.024,
13582
+ "loss": 2.353588819503784,
13583
+ "step": 3878
13584
+ },
13585
+ {
13586
+ "epoch": 0.12933333333333333,
13587
+ "grad_norm": 0.146484375,
13588
+ "learning_rate": 0.024,
13589
+ "loss": 2.371487855911255,
13590
+ "step": 3880
13591
+ },
13592
+ {
13593
+ "epoch": 0.1294,
13594
+ "grad_norm": 0.1416015625,
13595
+ "learning_rate": 0.024,
13596
+ "loss": 2.362095355987549,
13597
+ "step": 3882
13598
+ },
13599
+ {
13600
+ "epoch": 0.12946666666666667,
13601
+ "grad_norm": 0.1357421875,
13602
+ "learning_rate": 0.024,
13603
+ "loss": 2.3710289001464844,
13604
+ "step": 3884
13605
+ },
13606
+ {
13607
+ "epoch": 0.12953333333333333,
13608
+ "grad_norm": 0.134765625,
13609
+ "learning_rate": 0.024,
13610
+ "loss": 2.379239082336426,
13611
+ "step": 3886
13612
+ },
13613
+ {
13614
+ "epoch": 0.1296,
13615
+ "grad_norm": 0.1328125,
13616
+ "learning_rate": 0.024,
13617
+ "loss": 2.3746304512023926,
13618
+ "step": 3888
13619
+ },
13620
+ {
13621
+ "epoch": 0.12966666666666668,
13622
+ "grad_norm": 0.130859375,
13623
+ "learning_rate": 0.024,
13624
+ "loss": 2.3979411125183105,
13625
+ "step": 3890
13626
+ },
13627
+ {
13628
+ "epoch": 0.12973333333333334,
13629
+ "grad_norm": 0.126953125,
13630
+ "learning_rate": 0.024,
13631
+ "loss": 2.365600109100342,
13632
+ "step": 3892
13633
+ },
13634
+ {
13635
+ "epoch": 0.1298,
13636
+ "grad_norm": 0.130859375,
13637
+ "learning_rate": 0.024,
13638
+ "loss": 2.3684284687042236,
13639
+ "step": 3894
13640
+ },
13641
+ {
13642
+ "epoch": 0.12986666666666666,
13643
+ "grad_norm": 0.1171875,
13644
+ "learning_rate": 0.024,
13645
+ "loss": 2.3519463539123535,
13646
+ "step": 3896
13647
+ },
13648
+ {
13649
+ "epoch": 0.12993333333333335,
13650
+ "grad_norm": 0.12890625,
13651
+ "learning_rate": 0.024,
13652
+ "loss": 2.3602192401885986,
13653
+ "step": 3898
13654
+ },
13655
+ {
13656
+ "epoch": 0.13,
13657
+ "grad_norm": 0.11669921875,
13658
+ "learning_rate": 0.024,
13659
+ "loss": 2.3658294677734375,
13660
+ "step": 3900
13661
+ },
13662
+ {
13663
+ "epoch": 0.13006666666666666,
13664
+ "grad_norm": 0.1220703125,
13665
+ "learning_rate": 0.024,
13666
+ "loss": 2.3803629875183105,
13667
+ "step": 3902
13668
+ },
13669
+ {
13670
+ "epoch": 0.13013333333333332,
13671
+ "grad_norm": 0.11865234375,
13672
+ "learning_rate": 0.024,
13673
+ "loss": 2.357875108718872,
13674
+ "step": 3904
13675
+ },
13676
+ {
13677
+ "epoch": 0.1302,
13678
+ "grad_norm": 0.13671875,
13679
+ "learning_rate": 0.024,
13680
+ "loss": 2.366445541381836,
13681
+ "step": 3906
13682
+ },
13683
+ {
13684
+ "epoch": 0.13026666666666667,
13685
+ "grad_norm": 0.1376953125,
13686
+ "learning_rate": 0.024,
13687
+ "loss": 2.3689982891082764,
13688
+ "step": 3908
13689
+ },
13690
+ {
13691
+ "epoch": 0.13033333333333333,
13692
+ "grad_norm": 0.146484375,
13693
+ "learning_rate": 0.024,
13694
+ "loss": 2.3774566650390625,
13695
+ "step": 3910
13696
+ },
13697
+ {
13698
+ "epoch": 0.1304,
13699
+ "grad_norm": 0.1376953125,
13700
+ "learning_rate": 0.024,
13701
+ "loss": 2.3610658645629883,
13702
+ "step": 3912
13703
+ },
13704
+ {
13705
+ "epoch": 0.13046666666666668,
13706
+ "grad_norm": 0.142578125,
13707
+ "learning_rate": 0.024,
13708
+ "loss": 2.382052421569824,
13709
+ "step": 3914
13710
+ },
13711
+ {
13712
+ "epoch": 0.13053333333333333,
13713
+ "grad_norm": 0.1279296875,
13714
+ "learning_rate": 0.024,
13715
+ "loss": 2.3656699657440186,
13716
+ "step": 3916
13717
+ },
13718
+ {
13719
+ "epoch": 0.1306,
13720
+ "grad_norm": 0.1357421875,
13721
+ "learning_rate": 0.024,
13722
+ "loss": 2.373307704925537,
13723
+ "step": 3918
13724
+ },
13725
+ {
13726
+ "epoch": 0.13066666666666665,
13727
+ "grad_norm": 0.1279296875,
13728
+ "learning_rate": 0.024,
13729
+ "loss": 2.3438265323638916,
13730
+ "step": 3920
13731
+ },
13732
+ {
13733
+ "epoch": 0.13073333333333334,
13734
+ "grad_norm": 0.130859375,
13735
+ "learning_rate": 0.024,
13736
+ "loss": 2.3491063117980957,
13737
+ "step": 3922
13738
+ },
13739
+ {
13740
+ "epoch": 0.1308,
13741
+ "grad_norm": 0.12255859375,
13742
+ "learning_rate": 0.024,
13743
+ "loss": 2.323322296142578,
13744
+ "step": 3924
13745
+ },
13746
+ {
13747
+ "epoch": 0.13086666666666666,
13748
+ "grad_norm": 0.1279296875,
13749
+ "learning_rate": 0.024,
13750
+ "loss": 2.3593077659606934,
13751
+ "step": 3926
13752
+ },
13753
+ {
13754
+ "epoch": 0.13093333333333335,
13755
+ "grad_norm": 0.12353515625,
13756
+ "learning_rate": 0.024,
13757
+ "loss": 2.3386120796203613,
13758
+ "step": 3928
13759
+ },
13760
+ {
13761
+ "epoch": 0.131,
13762
+ "grad_norm": 0.1328125,
13763
+ "learning_rate": 0.024,
13764
+ "loss": 2.3712174892425537,
13765
+ "step": 3930
13766
+ },
13767
+ {
13768
+ "epoch": 0.13106666666666666,
13769
+ "grad_norm": 0.1337890625,
13770
+ "learning_rate": 0.024,
13771
+ "loss": 2.363861322402954,
13772
+ "step": 3932
13773
+ },
13774
+ {
13775
+ "epoch": 0.13113333333333332,
13776
+ "grad_norm": 0.1318359375,
13777
+ "learning_rate": 0.024,
13778
+ "loss": 2.376966714859009,
13779
+ "step": 3934
13780
+ },
13781
+ {
13782
+ "epoch": 0.1312,
13783
+ "grad_norm": 0.12060546875,
13784
+ "learning_rate": 0.024,
13785
+ "loss": 2.3700568675994873,
13786
+ "step": 3936
13787
+ },
13788
+ {
13789
+ "epoch": 0.13126666666666667,
13790
+ "grad_norm": 0.1240234375,
13791
+ "learning_rate": 0.024,
13792
+ "loss": 2.358997344970703,
13793
+ "step": 3938
13794
+ },
13795
+ {
13796
+ "epoch": 0.13133333333333333,
13797
+ "grad_norm": 0.1240234375,
13798
+ "learning_rate": 0.024,
13799
+ "loss": 2.345806837081909,
13800
+ "step": 3940
13801
+ },
13802
+ {
13803
+ "epoch": 0.1314,
13804
+ "grad_norm": 0.130859375,
13805
+ "learning_rate": 0.024,
13806
+ "loss": 2.356936454772949,
13807
+ "step": 3942
13808
+ },
13809
+ {
13810
+ "epoch": 0.13146666666666668,
13811
+ "grad_norm": 0.130859375,
13812
+ "learning_rate": 0.024,
13813
+ "loss": 2.335139751434326,
13814
+ "step": 3944
13815
+ },
13816
+ {
13817
+ "epoch": 0.13153333333333334,
13818
+ "grad_norm": 0.12109375,
13819
+ "learning_rate": 0.024,
13820
+ "loss": 2.3710455894470215,
13821
+ "step": 3946
13822
+ },
13823
+ {
13824
+ "epoch": 0.1316,
13825
+ "grad_norm": 0.1240234375,
13826
+ "learning_rate": 0.024,
13827
+ "loss": 2.362119436264038,
13828
+ "step": 3948
13829
+ },
13830
+ {
13831
+ "epoch": 0.13166666666666665,
13832
+ "grad_norm": 0.12890625,
13833
+ "learning_rate": 0.024,
13834
+ "loss": 2.382863759994507,
13835
+ "step": 3950
13836
+ },
13837
+ {
13838
+ "epoch": 0.13173333333333334,
13839
+ "grad_norm": 0.12109375,
13840
+ "learning_rate": 0.024,
13841
+ "loss": 2.370539426803589,
13842
+ "step": 3952
13843
+ },
13844
+ {
13845
+ "epoch": 0.1318,
13846
+ "grad_norm": 0.11767578125,
13847
+ "learning_rate": 0.024,
13848
+ "loss": 2.350999355316162,
13849
+ "step": 3954
13850
+ },
13851
+ {
13852
+ "epoch": 0.13186666666666666,
13853
+ "grad_norm": 0.12890625,
13854
+ "learning_rate": 0.024,
13855
+ "loss": 2.370344877243042,
13856
+ "step": 3956
13857
+ },
13858
+ {
13859
+ "epoch": 0.13193333333333335,
13860
+ "grad_norm": 0.119140625,
13861
+ "learning_rate": 0.024,
13862
+ "loss": 2.3524131774902344,
13863
+ "step": 3958
13864
+ },
13865
+ {
13866
+ "epoch": 0.132,
13867
+ "grad_norm": 0.1240234375,
13868
+ "learning_rate": 0.024,
13869
+ "loss": 2.355928659439087,
13870
+ "step": 3960
13871
+ },
13872
+ {
13873
+ "epoch": 0.13206666666666667,
13874
+ "grad_norm": 0.1201171875,
13875
+ "learning_rate": 0.024,
13876
+ "loss": 2.371035099029541,
13877
+ "step": 3962
13878
+ },
13879
+ {
13880
+ "epoch": 0.13213333333333332,
13881
+ "grad_norm": 0.11572265625,
13882
+ "learning_rate": 0.024,
13883
+ "loss": 2.35784912109375,
13884
+ "step": 3964
13885
+ },
13886
+ {
13887
+ "epoch": 0.1322,
13888
+ "grad_norm": 0.1171875,
13889
+ "learning_rate": 0.024,
13890
+ "loss": 2.3640050888061523,
13891
+ "step": 3966
13892
+ },
13893
+ {
13894
+ "epoch": 0.13226666666666667,
13895
+ "grad_norm": 0.115234375,
13896
+ "learning_rate": 0.024,
13897
+ "loss": 2.3359017372131348,
13898
+ "step": 3968
13899
+ },
13900
+ {
13901
+ "epoch": 0.13233333333333333,
13902
+ "grad_norm": 0.12255859375,
13903
+ "learning_rate": 0.024,
13904
+ "loss": 2.3528425693511963,
13905
+ "step": 3970
13906
+ },
13907
+ {
13908
+ "epoch": 0.1324,
13909
+ "grad_norm": 0.15625,
13910
+ "learning_rate": 0.024,
13911
+ "loss": 2.340224504470825,
13912
+ "step": 3972
13913
+ },
13914
+ {
13915
+ "epoch": 0.13246666666666668,
13916
+ "grad_norm": 0.13671875,
13917
+ "learning_rate": 0.024,
13918
+ "loss": 2.3440139293670654,
13919
+ "step": 3974
13920
+ },
13921
+ {
13922
+ "epoch": 0.13253333333333334,
13923
+ "grad_norm": 0.1318359375,
13924
+ "learning_rate": 0.024,
13925
+ "loss": 2.3364996910095215,
13926
+ "step": 3976
13927
+ },
13928
+ {
13929
+ "epoch": 0.1326,
13930
+ "grad_norm": 0.1298828125,
13931
+ "learning_rate": 0.024,
13932
+ "loss": 2.3523592948913574,
13933
+ "step": 3978
13934
+ },
13935
+ {
13936
+ "epoch": 0.13266666666666665,
13937
+ "grad_norm": 0.12890625,
13938
+ "learning_rate": 0.024,
13939
+ "loss": 2.3675007820129395,
13940
+ "step": 3980
13941
+ },
13942
+ {
13943
+ "epoch": 0.13273333333333334,
13944
+ "grad_norm": 0.1328125,
13945
+ "learning_rate": 0.024,
13946
+ "loss": 2.375647783279419,
13947
+ "step": 3982
13948
+ },
13949
+ {
13950
+ "epoch": 0.1328,
13951
+ "grad_norm": 0.130859375,
13952
+ "learning_rate": 0.024,
13953
+ "loss": 2.3719310760498047,
13954
+ "step": 3984
13955
+ },
13956
+ {
13957
+ "epoch": 0.13286666666666666,
13958
+ "grad_norm": 0.126953125,
13959
+ "learning_rate": 0.024,
13960
+ "loss": 2.3563833236694336,
13961
+ "step": 3986
13962
+ },
13963
+ {
13964
+ "epoch": 0.13293333333333332,
13965
+ "grad_norm": 0.1240234375,
13966
+ "learning_rate": 0.024,
13967
+ "loss": 2.37358021736145,
13968
+ "step": 3988
13969
+ },
13970
+ {
13971
+ "epoch": 0.133,
13972
+ "grad_norm": 0.1328125,
13973
+ "learning_rate": 0.024,
13974
+ "loss": 2.35754656791687,
13975
+ "step": 3990
13976
+ },
13977
+ {
13978
+ "epoch": 0.13306666666666667,
13979
+ "grad_norm": 0.125,
13980
+ "learning_rate": 0.024,
13981
+ "loss": 2.367353677749634,
13982
+ "step": 3992
13983
+ },
13984
+ {
13985
+ "epoch": 0.13313333333333333,
13986
+ "grad_norm": 0.1259765625,
13987
+ "learning_rate": 0.024,
13988
+ "loss": 2.3672807216644287,
13989
+ "step": 3994
13990
+ },
13991
+ {
13992
+ "epoch": 0.1332,
13993
+ "grad_norm": 0.11572265625,
13994
+ "learning_rate": 0.024,
13995
+ "loss": 2.3530383110046387,
13996
+ "step": 3996
13997
+ },
13998
+ {
13999
+ "epoch": 0.13326666666666667,
14000
+ "grad_norm": 0.11669921875,
14001
+ "learning_rate": 0.024,
14002
+ "loss": 2.326172351837158,
14003
+ "step": 3998
14004
+ },
14005
+ {
14006
+ "epoch": 0.13333333333333333,
14007
+ "grad_norm": 0.12109375,
14008
+ "learning_rate": 0.024,
14009
+ "loss": 2.356168746948242,
14010
+ "step": 4000
14011
+ },
14012
+ {
14013
+ "epoch": 0.1334,
14014
+ "grad_norm": 0.12109375,
14015
+ "learning_rate": 0.024,
14016
+ "loss": 2.3455612659454346,
14017
+ "step": 4002
14018
+ },
14019
+ {
14020
+ "epoch": 0.13346666666666668,
14021
+ "grad_norm": 0.11328125,
14022
+ "learning_rate": 0.024,
14023
+ "loss": 2.342073440551758,
14024
+ "step": 4004
14025
+ },
14026
+ {
14027
+ "epoch": 0.13353333333333334,
14028
+ "grad_norm": 0.1171875,
14029
+ "learning_rate": 0.024,
14030
+ "loss": 2.3537275791168213,
14031
+ "step": 4006
14032
+ },
14033
+ {
14034
+ "epoch": 0.1336,
14035
+ "grad_norm": 0.119140625,
14036
+ "learning_rate": 0.024,
14037
+ "loss": 2.3786559104919434,
14038
+ "step": 4008
14039
+ },
14040
+ {
14041
+ "epoch": 0.13366666666666666,
14042
+ "grad_norm": 0.1259765625,
14043
+ "learning_rate": 0.024,
14044
+ "loss": 2.351339340209961,
14045
+ "step": 4010
14046
+ },
14047
+ {
14048
+ "epoch": 0.13373333333333334,
14049
+ "grad_norm": 0.1298828125,
14050
+ "learning_rate": 0.024,
14051
+ "loss": 2.3444066047668457,
14052
+ "step": 4012
14053
+ },
14054
+ {
14055
+ "epoch": 0.1338,
14056
+ "grad_norm": 0.1357421875,
14057
+ "learning_rate": 0.024,
14058
+ "loss": 2.3518483638763428,
14059
+ "step": 4014
14060
+ },
14061
+ {
14062
+ "epoch": 0.13386666666666666,
14063
+ "grad_norm": 0.1357421875,
14064
+ "learning_rate": 0.024,
14065
+ "loss": 2.3703365325927734,
14066
+ "step": 4016
14067
+ },
14068
+ {
14069
+ "epoch": 0.13393333333333332,
14070
+ "grad_norm": 0.138671875,
14071
+ "learning_rate": 0.024,
14072
+ "loss": 2.3571722507476807,
14073
+ "step": 4018
14074
+ },
14075
+ {
14076
+ "epoch": 0.134,
14077
+ "grad_norm": 0.1279296875,
14078
+ "learning_rate": 0.024,
14079
+ "loss": 2.360157012939453,
14080
+ "step": 4020
14081
+ },
14082
+ {
14083
+ "epoch": 0.13406666666666667,
14084
+ "grad_norm": 0.1318359375,
14085
+ "learning_rate": 0.024,
14086
+ "loss": 2.350553512573242,
14087
+ "step": 4022
14088
+ },
14089
+ {
14090
+ "epoch": 0.13413333333333333,
14091
+ "grad_norm": 0.1298828125,
14092
+ "learning_rate": 0.024,
14093
+ "loss": 2.3694136142730713,
14094
+ "step": 4024
14095
+ },
14096
+ {
14097
+ "epoch": 0.1342,
14098
+ "grad_norm": 0.125,
14099
+ "learning_rate": 0.024,
14100
+ "loss": 2.380239486694336,
14101
+ "step": 4026
14102
+ },
14103
+ {
14104
+ "epoch": 0.13426666666666667,
14105
+ "grad_norm": 0.1201171875,
14106
+ "learning_rate": 0.024,
14107
+ "loss": 2.361875295639038,
14108
+ "step": 4028
14109
+ },
14110
+ {
14111
+ "epoch": 0.13433333333333333,
14112
+ "grad_norm": 0.12353515625,
14113
+ "learning_rate": 0.024,
14114
+ "loss": 2.3673288822174072,
14115
+ "step": 4030
14116
+ },
14117
+ {
14118
+ "epoch": 0.1344,
14119
+ "grad_norm": 0.12158203125,
14120
+ "learning_rate": 0.024,
14121
+ "loss": 2.349339723587036,
14122
+ "step": 4032
14123
+ },
14124
+ {
14125
+ "epoch": 0.13446666666666668,
14126
+ "grad_norm": 0.1279296875,
14127
+ "learning_rate": 0.024,
14128
+ "loss": 2.3550848960876465,
14129
+ "step": 4034
14130
+ },
14131
+ {
14132
+ "epoch": 0.13453333333333334,
14133
+ "grad_norm": 0.1298828125,
14134
+ "learning_rate": 0.024,
14135
+ "loss": 2.3394227027893066,
14136
+ "step": 4036
14137
+ },
14138
+ {
14139
+ "epoch": 0.1346,
14140
+ "grad_norm": 0.130859375,
14141
+ "learning_rate": 0.024,
14142
+ "loss": 2.3543996810913086,
14143
+ "step": 4038
14144
+ },
14145
+ {
14146
+ "epoch": 0.13466666666666666,
14147
+ "grad_norm": 0.12890625,
14148
+ "learning_rate": 0.024,
14149
+ "loss": 2.352705955505371,
14150
+ "step": 4040
14151
+ },
14152
+ {
14153
+ "epoch": 0.13473333333333334,
14154
+ "grad_norm": 0.1328125,
14155
+ "learning_rate": 0.024,
14156
+ "loss": 2.355576753616333,
14157
+ "step": 4042
14158
+ },
14159
+ {
14160
+ "epoch": 0.1348,
14161
+ "grad_norm": 0.126953125,
14162
+ "learning_rate": 0.024,
14163
+ "loss": 2.344717264175415,
14164
+ "step": 4044
14165
+ },
14166
+ {
14167
+ "epoch": 0.13486666666666666,
14168
+ "grad_norm": 0.1181640625,
14169
+ "learning_rate": 0.024,
14170
+ "loss": 2.3356359004974365,
14171
+ "step": 4046
14172
+ },
14173
+ {
14174
+ "epoch": 0.13493333333333332,
14175
+ "grad_norm": 0.1181640625,
14176
+ "learning_rate": 0.024,
14177
+ "loss": 2.33597993850708,
14178
+ "step": 4048
14179
+ },
14180
+ {
14181
+ "epoch": 0.135,
14182
+ "grad_norm": 0.11669921875,
14183
+ "learning_rate": 0.024,
14184
+ "loss": 2.3693370819091797,
14185
+ "step": 4050
14186
+ },
14187
+ {
14188
+ "epoch": 0.13506666666666667,
14189
+ "grad_norm": 0.1298828125,
14190
+ "learning_rate": 0.024,
14191
+ "loss": 2.368928909301758,
14192
+ "step": 4052
14193
+ },
14194
+ {
14195
+ "epoch": 0.13513333333333333,
14196
+ "grad_norm": 0.126953125,
14197
+ "learning_rate": 0.024,
14198
+ "loss": 2.344752311706543,
14199
+ "step": 4054
14200
+ },
14201
+ {
14202
+ "epoch": 0.1352,
14203
+ "grad_norm": 0.12890625,
14204
+ "learning_rate": 0.024,
14205
+ "loss": 2.356283187866211,
14206
+ "step": 4056
14207
+ },
14208
+ {
14209
+ "epoch": 0.13526666666666667,
14210
+ "grad_norm": 0.1259765625,
14211
+ "learning_rate": 0.024,
14212
+ "loss": 2.3414721488952637,
14213
+ "step": 4058
14214
+ },
14215
+ {
14216
+ "epoch": 0.13533333333333333,
14217
+ "grad_norm": 0.11962890625,
14218
+ "learning_rate": 0.024,
14219
+ "loss": 2.3490262031555176,
14220
+ "step": 4060
14221
+ },
14222
+ {
14223
+ "epoch": 0.1354,
14224
+ "grad_norm": 0.1279296875,
14225
+ "learning_rate": 0.024,
14226
+ "loss": 2.339972972869873,
14227
+ "step": 4062
14228
+ },
14229
+ {
14230
+ "epoch": 0.13546666666666668,
14231
+ "grad_norm": 0.123046875,
14232
+ "learning_rate": 0.024,
14233
+ "loss": 2.358412981033325,
14234
+ "step": 4064
14235
+ },
14236
+ {
14237
+ "epoch": 0.13553333333333334,
14238
+ "grad_norm": 0.12060546875,
14239
+ "learning_rate": 0.024,
14240
+ "loss": 2.359578847885132,
14241
+ "step": 4066
14242
+ },
14243
+ {
14244
+ "epoch": 0.1356,
14245
+ "grad_norm": 0.123046875,
14246
+ "learning_rate": 0.024,
14247
+ "loss": 2.362105369567871,
14248
+ "step": 4068
14249
+ },
14250
+ {
14251
+ "epoch": 0.13566666666666666,
14252
+ "grad_norm": 0.126953125,
14253
+ "learning_rate": 0.024,
14254
+ "loss": 2.348503828048706,
14255
+ "step": 4070
14256
+ },
14257
+ {
14258
+ "epoch": 0.13573333333333334,
14259
+ "grad_norm": 0.11865234375,
14260
+ "learning_rate": 0.024,
14261
+ "loss": 2.3370113372802734,
14262
+ "step": 4072
14263
+ },
14264
+ {
14265
+ "epoch": 0.1358,
14266
+ "grad_norm": 0.1142578125,
14267
+ "learning_rate": 0.024,
14268
+ "loss": 2.37503719329834,
14269
+ "step": 4074
14270
+ },
14271
+ {
14272
+ "epoch": 0.13586666666666666,
14273
+ "grad_norm": 0.12060546875,
14274
+ "learning_rate": 0.024,
14275
+ "loss": 2.3442020416259766,
14276
+ "step": 4076
14277
+ },
14278
+ {
14279
+ "epoch": 0.13593333333333332,
14280
+ "grad_norm": 0.12158203125,
14281
+ "learning_rate": 0.024,
14282
+ "loss": 2.3377575874328613,
14283
+ "step": 4078
14284
+ },
14285
+ {
14286
+ "epoch": 0.136,
14287
+ "grad_norm": 0.12109375,
14288
+ "learning_rate": 0.024,
14289
+ "loss": 2.349966526031494,
14290
+ "step": 4080
14291
+ },
14292
+ {
14293
+ "epoch": 0.13606666666666667,
14294
+ "grad_norm": 0.1240234375,
14295
+ "learning_rate": 0.024,
14296
+ "loss": 2.355309009552002,
14297
+ "step": 4082
14298
+ },
14299
+ {
14300
+ "epoch": 0.13613333333333333,
14301
+ "grad_norm": 0.1162109375,
14302
+ "learning_rate": 0.024,
14303
+ "loss": 2.3450968265533447,
14304
+ "step": 4084
14305
+ },
14306
+ {
14307
+ "epoch": 0.1362,
14308
+ "grad_norm": 0.123046875,
14309
+ "learning_rate": 0.024,
14310
+ "loss": 2.354180335998535,
14311
+ "step": 4086
14312
+ },
14313
+ {
14314
+ "epoch": 0.13626666666666667,
14315
+ "grad_norm": 0.12158203125,
14316
+ "learning_rate": 0.024,
14317
+ "loss": 2.357496738433838,
14318
+ "step": 4088
14319
+ },
14320
+ {
14321
+ "epoch": 0.13633333333333333,
14322
+ "grad_norm": 0.126953125,
14323
+ "learning_rate": 0.024,
14324
+ "loss": 2.3622710704803467,
14325
+ "step": 4090
14326
+ },
14327
+ {
14328
+ "epoch": 0.1364,
14329
+ "grad_norm": 0.1337890625,
14330
+ "learning_rate": 0.024,
14331
+ "loss": 2.3677077293395996,
14332
+ "step": 4092
14333
+ },
14334
+ {
14335
+ "epoch": 0.13646666666666665,
14336
+ "grad_norm": 0.1279296875,
14337
+ "learning_rate": 0.024,
14338
+ "loss": 2.367555856704712,
14339
+ "step": 4094
14340
+ },
14341
+ {
14342
+ "epoch": 0.13653333333333334,
14343
+ "grad_norm": 0.1279296875,
14344
+ "learning_rate": 0.024,
14345
+ "loss": 2.366637706756592,
14346
+ "step": 4096
14347
+ },
14348
+ {
14349
+ "epoch": 0.1366,
14350
+ "grad_norm": 0.1298828125,
14351
+ "learning_rate": 0.024,
14352
+ "loss": 2.3600311279296875,
14353
+ "step": 4098
14354
+ },
14355
+ {
14356
+ "epoch": 0.13666666666666666,
14357
+ "grad_norm": 0.125,
14358
+ "learning_rate": 0.024,
14359
+ "loss": 2.3585643768310547,
14360
+ "step": 4100
14361
+ },
14362
+ {
14363
+ "epoch": 0.13673333333333335,
14364
+ "grad_norm": 0.1259765625,
14365
+ "learning_rate": 0.024,
14366
+ "loss": 2.369309902191162,
14367
+ "step": 4102
14368
+ },
14369
+ {
14370
+ "epoch": 0.1368,
14371
+ "grad_norm": 0.12451171875,
14372
+ "learning_rate": 0.024,
14373
+ "loss": 2.36922287940979,
14374
+ "step": 4104
14375
+ },
14376
+ {
14377
+ "epoch": 0.13686666666666666,
14378
+ "grad_norm": 0.12060546875,
14379
+ "learning_rate": 0.024,
14380
+ "loss": 2.3728013038635254,
14381
+ "step": 4106
14382
+ },
14383
+ {
14384
+ "epoch": 0.13693333333333332,
14385
+ "grad_norm": 0.1201171875,
14386
+ "learning_rate": 0.024,
14387
+ "loss": 2.353452205657959,
14388
+ "step": 4108
14389
+ },
14390
+ {
14391
+ "epoch": 0.137,
14392
+ "grad_norm": 0.1142578125,
14393
+ "learning_rate": 0.024,
14394
+ "loss": 2.363727569580078,
14395
+ "step": 4110
14396
+ },
14397
+ {
14398
+ "epoch": 0.13706666666666667,
14399
+ "grad_norm": 0.10888671875,
14400
+ "learning_rate": 0.024,
14401
+ "loss": 2.3332877159118652,
14402
+ "step": 4112
14403
+ },
14404
+ {
14405
+ "epoch": 0.13713333333333333,
14406
+ "grad_norm": 0.107421875,
14407
+ "learning_rate": 0.024,
14408
+ "loss": 2.3386197090148926,
14409
+ "step": 4114
14410
+ },
14411
+ {
14412
+ "epoch": 0.1372,
14413
+ "grad_norm": 0.10595703125,
14414
+ "learning_rate": 0.024,
14415
+ "loss": 2.3320839405059814,
14416
+ "step": 4116
14417
+ },
14418
+ {
14419
+ "epoch": 0.13726666666666668,
14420
+ "grad_norm": 0.1181640625,
14421
+ "learning_rate": 0.024,
14422
+ "loss": 2.3547754287719727,
14423
+ "step": 4118
14424
+ },
14425
+ {
14426
+ "epoch": 0.13733333333333334,
14427
+ "grad_norm": 0.138671875,
14428
+ "learning_rate": 0.024,
14429
+ "loss": 2.343266725540161,
14430
+ "step": 4120
14431
+ },
14432
+ {
14433
+ "epoch": 0.1374,
14434
+ "grad_norm": 0.154296875,
14435
+ "learning_rate": 0.024,
14436
+ "loss": 2.360288143157959,
14437
+ "step": 4122
14438
+ },
14439
+ {
14440
+ "epoch": 0.13746666666666665,
14441
+ "grad_norm": 0.134765625,
14442
+ "learning_rate": 0.024,
14443
+ "loss": 2.349087715148926,
14444
+ "step": 4124
14445
+ },
14446
+ {
14447
+ "epoch": 0.13753333333333334,
14448
+ "grad_norm": 0.1318359375,
14449
+ "learning_rate": 0.024,
14450
+ "loss": 2.339775562286377,
14451
+ "step": 4126
14452
+ },
14453
+ {
14454
+ "epoch": 0.1376,
14455
+ "grad_norm": 0.130859375,
14456
+ "learning_rate": 0.024,
14457
+ "loss": 2.3660402297973633,
14458
+ "step": 4128
14459
+ },
14460
+ {
14461
+ "epoch": 0.13766666666666666,
14462
+ "grad_norm": 0.13671875,
14463
+ "learning_rate": 0.024,
14464
+ "loss": 2.3620176315307617,
14465
+ "step": 4130
14466
+ },
14467
+ {
14468
+ "epoch": 0.13773333333333335,
14469
+ "grad_norm": 0.1337890625,
14470
+ "learning_rate": 0.024,
14471
+ "loss": 2.386262893676758,
14472
+ "step": 4132
14473
+ },
14474
+ {
14475
+ "epoch": 0.1378,
14476
+ "grad_norm": 0.1279296875,
14477
+ "learning_rate": 0.024,
14478
+ "loss": 2.368394374847412,
14479
+ "step": 4134
14480
+ },
14481
+ {
14482
+ "epoch": 0.13786666666666667,
14483
+ "grad_norm": 0.125,
14484
+ "learning_rate": 0.024,
14485
+ "loss": 2.3420932292938232,
14486
+ "step": 4136
14487
+ },
14488
+ {
14489
+ "epoch": 0.13793333333333332,
14490
+ "grad_norm": 0.12060546875,
14491
+ "learning_rate": 0.024,
14492
+ "loss": 2.3396427631378174,
14493
+ "step": 4138
14494
+ },
14495
+ {
14496
+ "epoch": 0.138,
14497
+ "grad_norm": 0.1259765625,
14498
+ "learning_rate": 0.024,
14499
+ "loss": 2.377284288406372,
14500
+ "step": 4140
14501
+ },
14502
+ {
14503
+ "epoch": 0.13806666666666667,
14504
+ "grad_norm": 0.1171875,
14505
+ "learning_rate": 0.024,
14506
+ "loss": 2.3598570823669434,
14507
+ "step": 4142
14508
+ },
14509
+ {
14510
+ "epoch": 0.13813333333333333,
14511
+ "grad_norm": 0.125,
14512
+ "learning_rate": 0.024,
14513
+ "loss": 2.353452444076538,
14514
+ "step": 4144
14515
+ },
14516
+ {
14517
+ "epoch": 0.1382,
14518
+ "grad_norm": 0.1357421875,
14519
+ "learning_rate": 0.024,
14520
+ "loss": 2.3518528938293457,
14521
+ "step": 4146
14522
+ },
14523
+ {
14524
+ "epoch": 0.13826666666666668,
14525
+ "grad_norm": 0.126953125,
14526
+ "learning_rate": 0.024,
14527
+ "loss": 2.3733091354370117,
14528
+ "step": 4148
14529
+ },
14530
+ {
14531
+ "epoch": 0.13833333333333334,
14532
+ "grad_norm": 0.126953125,
14533
+ "learning_rate": 0.024,
14534
+ "loss": 2.3304283618927,
14535
+ "step": 4150
14536
+ },
14537
+ {
14538
+ "epoch": 0.1384,
14539
+ "grad_norm": 0.12451171875,
14540
+ "learning_rate": 0.024,
14541
+ "loss": 2.3714590072631836,
14542
+ "step": 4152
14543
+ },
14544
+ {
14545
+ "epoch": 0.13846666666666665,
14546
+ "grad_norm": 0.1298828125,
14547
+ "learning_rate": 0.024,
14548
+ "loss": 2.3830068111419678,
14549
+ "step": 4154
14550
+ },
14551
+ {
14552
+ "epoch": 0.13853333333333334,
14553
+ "grad_norm": 0.123046875,
14554
+ "learning_rate": 0.024,
14555
+ "loss": 2.3345937728881836,
14556
+ "step": 4156
14557
+ },
14558
+ {
14559
+ "epoch": 0.1386,
14560
+ "grad_norm": 0.11767578125,
14561
+ "learning_rate": 0.024,
14562
+ "loss": 2.3253772258758545,
14563
+ "step": 4158
14564
+ },
14565
+ {
14566
+ "epoch": 0.13866666666666666,
14567
+ "grad_norm": 0.1240234375,
14568
+ "learning_rate": 0.024,
14569
+ "loss": 2.3325822353363037,
14570
+ "step": 4160
14571
+ },
14572
+ {
14573
+ "epoch": 0.13873333333333332,
14574
+ "grad_norm": 0.1259765625,
14575
+ "learning_rate": 0.024,
14576
+ "loss": 2.3441290855407715,
14577
+ "step": 4162
14578
+ },
14579
+ {
14580
+ "epoch": 0.1388,
14581
+ "grad_norm": 0.1142578125,
14582
+ "learning_rate": 0.024,
14583
+ "loss": 2.3370306491851807,
14584
+ "step": 4164
14585
+ },
14586
+ {
14587
+ "epoch": 0.13886666666666667,
14588
+ "grad_norm": 0.125,
14589
+ "learning_rate": 0.024,
14590
+ "loss": 2.343620777130127,
14591
+ "step": 4166
14592
+ },
14593
+ {
14594
+ "epoch": 0.13893333333333333,
14595
+ "grad_norm": 0.1279296875,
14596
+ "learning_rate": 0.024,
14597
+ "loss": 2.3186464309692383,
14598
+ "step": 4168
14599
+ },
14600
+ {
14601
+ "epoch": 0.139,
14602
+ "grad_norm": 0.126953125,
14603
+ "learning_rate": 0.024,
14604
+ "loss": 2.3640966415405273,
14605
+ "step": 4170
14606
+ },
14607
+ {
14608
+ "epoch": 0.13906666666666667,
14609
+ "grad_norm": 0.1220703125,
14610
+ "learning_rate": 0.024,
14611
+ "loss": 2.346224784851074,
14612
+ "step": 4172
14613
+ },
14614
+ {
14615
+ "epoch": 0.13913333333333333,
14616
+ "grad_norm": 0.12353515625,
14617
+ "learning_rate": 0.024,
14618
+ "loss": 2.341198205947876,
14619
+ "step": 4174
14620
+ },
14621
+ {
14622
+ "epoch": 0.1392,
14623
+ "grad_norm": 0.1259765625,
14624
+ "learning_rate": 0.024,
14625
+ "loss": 2.354318141937256,
14626
+ "step": 4176
14627
+ },
14628
+ {
14629
+ "epoch": 0.13926666666666668,
14630
+ "grad_norm": 0.12255859375,
14631
+ "learning_rate": 0.024,
14632
+ "loss": 2.3600947856903076,
14633
+ "step": 4178
14634
+ },
14635
+ {
14636
+ "epoch": 0.13933333333333334,
14637
+ "grad_norm": 0.1279296875,
14638
+ "learning_rate": 0.024,
14639
+ "loss": 2.3591785430908203,
14640
+ "step": 4180
14641
+ },
14642
+ {
14643
+ "epoch": 0.1394,
14644
+ "grad_norm": 0.1162109375,
14645
+ "learning_rate": 0.024,
14646
+ "loss": 2.3701624870300293,
14647
+ "step": 4182
14648
+ },
14649
+ {
14650
+ "epoch": 0.13946666666666666,
14651
+ "grad_norm": 0.1201171875,
14652
+ "learning_rate": 0.024,
14653
+ "loss": 2.3860068321228027,
14654
+ "step": 4184
14655
+ },
14656
+ {
14657
+ "epoch": 0.13953333333333334,
14658
+ "grad_norm": 0.1201171875,
14659
+ "learning_rate": 0.024,
14660
+ "loss": 2.3419768810272217,
14661
+ "step": 4186
14662
+ },
14663
+ {
14664
+ "epoch": 0.1396,
14665
+ "grad_norm": 0.1181640625,
14666
+ "learning_rate": 0.024,
14667
+ "loss": 2.339036703109741,
14668
+ "step": 4188
14669
+ },
14670
+ {
14671
+ "epoch": 0.13966666666666666,
14672
+ "grad_norm": 0.12890625,
14673
+ "learning_rate": 0.024,
14674
+ "loss": 2.3597829341888428,
14675
+ "step": 4190
14676
+ },
14677
+ {
14678
+ "epoch": 0.13973333333333332,
14679
+ "grad_norm": 0.11376953125,
14680
+ "learning_rate": 0.024,
14681
+ "loss": 2.362138032913208,
14682
+ "step": 4192
14683
+ },
14684
+ {
14685
+ "epoch": 0.1398,
14686
+ "grad_norm": 0.12451171875,
14687
+ "learning_rate": 0.024,
14688
+ "loss": 2.3344664573669434,
14689
+ "step": 4194
14690
+ },
14691
+ {
14692
+ "epoch": 0.13986666666666667,
14693
+ "grad_norm": 0.11865234375,
14694
+ "learning_rate": 0.024,
14695
+ "loss": 2.3207502365112305,
14696
+ "step": 4196
14697
+ },
14698
+ {
14699
+ "epoch": 0.13993333333333333,
14700
+ "grad_norm": 0.123046875,
14701
+ "learning_rate": 0.024,
14702
+ "loss": 2.3412649631500244,
14703
+ "step": 4198
14704
+ },
14705
+ {
14706
+ "epoch": 0.14,
14707
+ "grad_norm": 0.1298828125,
14708
+ "learning_rate": 0.024,
14709
+ "loss": 2.363893747329712,
14710
+ "step": 4200
14711
+ },
14712
+ {
14713
+ "epoch": 0.14006666666666667,
14714
+ "grad_norm": 0.126953125,
14715
+ "learning_rate": 0.024,
14716
+ "loss": 2.3572630882263184,
14717
+ "step": 4202
14718
+ },
14719
+ {
14720
+ "epoch": 0.14013333333333333,
14721
+ "grad_norm": 0.12158203125,
14722
+ "learning_rate": 0.024,
14723
+ "loss": 2.3289670944213867,
14724
+ "step": 4204
14725
+ },
14726
+ {
14727
+ "epoch": 0.1402,
14728
+ "grad_norm": 0.1220703125,
14729
+ "learning_rate": 0.024,
14730
+ "loss": 2.3222928047180176,
14731
+ "step": 4206
14732
+ },
14733
+ {
14734
+ "epoch": 0.14026666666666668,
14735
+ "grad_norm": 0.126953125,
14736
+ "learning_rate": 0.024,
14737
+ "loss": 2.350545883178711,
14738
+ "step": 4208
14739
+ },
14740
+ {
14741
+ "epoch": 0.14033333333333334,
14742
+ "grad_norm": 0.12158203125,
14743
+ "learning_rate": 0.024,
14744
+ "loss": 2.3578591346740723,
14745
+ "step": 4210
14746
+ },
14747
+ {
14748
+ "epoch": 0.1404,
14749
+ "grad_norm": 0.11376953125,
14750
+ "learning_rate": 0.024,
14751
+ "loss": 2.329137086868286,
14752
+ "step": 4212
14753
+ },
14754
+ {
14755
+ "epoch": 0.14046666666666666,
14756
+ "grad_norm": 0.12158203125,
14757
+ "learning_rate": 0.024,
14758
+ "loss": 2.3566205501556396,
14759
+ "step": 4214
14760
+ },
14761
+ {
14762
+ "epoch": 0.14053333333333334,
14763
+ "grad_norm": 0.1279296875,
14764
+ "learning_rate": 0.024,
14765
+ "loss": 2.3469624519348145,
14766
+ "step": 4216
14767
+ },
14768
+ {
14769
+ "epoch": 0.1406,
14770
+ "grad_norm": 0.11865234375,
14771
+ "learning_rate": 0.024,
14772
+ "loss": 2.347811698913574,
14773
+ "step": 4218
14774
+ },
14775
+ {
14776
+ "epoch": 0.14066666666666666,
14777
+ "grad_norm": 0.11376953125,
14778
+ "learning_rate": 0.024,
14779
+ "loss": 2.3360273838043213,
14780
+ "step": 4220
14781
+ },
14782
+ {
14783
+ "epoch": 0.14073333333333332,
14784
+ "grad_norm": 0.109375,
14785
+ "learning_rate": 0.024,
14786
+ "loss": 2.3265347480773926,
14787
+ "step": 4222
14788
+ },
14789
+ {
14790
+ "epoch": 0.1408,
14791
+ "grad_norm": 0.12109375,
14792
+ "learning_rate": 0.024,
14793
+ "loss": 2.3565149307250977,
14794
+ "step": 4224
14795
+ },
14796
+ {
14797
+ "epoch": 0.14086666666666667,
14798
+ "grad_norm": 0.123046875,
14799
+ "learning_rate": 0.024,
14800
+ "loss": 2.3632330894470215,
14801
+ "step": 4226
14802
+ },
14803
+ {
14804
+ "epoch": 0.14093333333333333,
14805
+ "grad_norm": 0.1142578125,
14806
+ "learning_rate": 0.024,
14807
+ "loss": 2.336488723754883,
14808
+ "step": 4228
14809
+ },
14810
+ {
14811
+ "epoch": 0.141,
14812
+ "grad_norm": 0.1181640625,
14813
+ "learning_rate": 0.024,
14814
+ "loss": 2.343090534210205,
14815
+ "step": 4230
14816
+ },
14817
+ {
14818
+ "epoch": 0.14106666666666667,
14819
+ "grad_norm": 0.12255859375,
14820
+ "learning_rate": 0.024,
14821
+ "loss": 2.3526129722595215,
14822
+ "step": 4232
14823
+ },
14824
+ {
14825
+ "epoch": 0.14113333333333333,
14826
+ "grad_norm": 0.126953125,
14827
+ "learning_rate": 0.024,
14828
+ "loss": 2.3366219997406006,
14829
+ "step": 4234
14830
+ },
14831
+ {
14832
+ "epoch": 0.1412,
14833
+ "grad_norm": 0.12451171875,
14834
+ "learning_rate": 0.024,
14835
+ "loss": 2.3541088104248047,
14836
+ "step": 4236
14837
+ },
14838
+ {
14839
+ "epoch": 0.14126666666666668,
14840
+ "grad_norm": 0.1201171875,
14841
+ "learning_rate": 0.024,
14842
+ "loss": 2.3402581214904785,
14843
+ "step": 4238
14844
+ },
14845
+ {
14846
+ "epoch": 0.14133333333333334,
14847
+ "grad_norm": 0.12109375,
14848
+ "learning_rate": 0.024,
14849
+ "loss": 2.3441638946533203,
14850
+ "step": 4240
14851
+ },
14852
+ {
14853
+ "epoch": 0.1414,
14854
+ "grad_norm": 0.11279296875,
14855
+ "learning_rate": 0.024,
14856
+ "loss": 2.35387921333313,
14857
+ "step": 4242
14858
+ },
14859
+ {
14860
+ "epoch": 0.14146666666666666,
14861
+ "grad_norm": 0.11181640625,
14862
+ "learning_rate": 0.024,
14863
+ "loss": 2.3445141315460205,
14864
+ "step": 4244
14865
+ },
14866
+ {
14867
+ "epoch": 0.14153333333333334,
14868
+ "grad_norm": 0.11181640625,
14869
+ "learning_rate": 0.024,
14870
+ "loss": 2.3642542362213135,
14871
+ "step": 4246
14872
+ },
14873
+ {
14874
+ "epoch": 0.1416,
14875
+ "grad_norm": 0.11572265625,
14876
+ "learning_rate": 0.024,
14877
+ "loss": 2.3433997631073,
14878
+ "step": 4248
14879
+ },
14880
+ {
14881
+ "epoch": 0.14166666666666666,
14882
+ "grad_norm": 0.12890625,
14883
+ "learning_rate": 0.024,
14884
+ "loss": 2.3520236015319824,
14885
+ "step": 4250
14886
+ },
14887
+ {
14888
+ "epoch": 0.14173333333333332,
14889
+ "grad_norm": 0.12890625,
14890
+ "learning_rate": 0.024,
14891
+ "loss": 2.3472962379455566,
14892
+ "step": 4252
14893
+ },
14894
+ {
14895
+ "epoch": 0.1418,
14896
+ "grad_norm": 0.12353515625,
14897
+ "learning_rate": 0.024,
14898
+ "loss": 2.3269095420837402,
14899
+ "step": 4254
14900
+ },
14901
+ {
14902
+ "epoch": 0.14186666666666667,
14903
+ "grad_norm": 0.1318359375,
14904
+ "learning_rate": 0.024,
14905
+ "loss": 2.3242759704589844,
14906
+ "step": 4256
14907
+ },
14908
+ {
14909
+ "epoch": 0.14193333333333333,
14910
+ "grad_norm": 0.1240234375,
14911
+ "learning_rate": 0.024,
14912
+ "loss": 2.3449528217315674,
14913
+ "step": 4258
14914
+ },
14915
+ {
14916
+ "epoch": 0.142,
14917
+ "grad_norm": 0.11962890625,
14918
+ "learning_rate": 0.024,
14919
+ "loss": 2.3220975399017334,
14920
+ "step": 4260
14921
+ },
14922
+ {
14923
+ "epoch": 0.14206666666666667,
14924
+ "grad_norm": 0.12451171875,
14925
+ "learning_rate": 0.024,
14926
+ "loss": 2.3498308658599854,
14927
+ "step": 4262
14928
+ },
14929
+ {
14930
+ "epoch": 0.14213333333333333,
14931
+ "grad_norm": 0.11767578125,
14932
+ "learning_rate": 0.024,
14933
+ "loss": 2.3885695934295654,
14934
+ "step": 4264
14935
+ },
14936
+ {
14937
+ "epoch": 0.1422,
14938
+ "grad_norm": 0.123046875,
14939
+ "learning_rate": 0.024,
14940
+ "loss": 2.353013277053833,
14941
+ "step": 4266
14942
+ },
14943
+ {
14944
+ "epoch": 0.14226666666666668,
14945
+ "grad_norm": 0.12109375,
14946
+ "learning_rate": 0.024,
14947
+ "loss": 2.3224804401397705,
14948
+ "step": 4268
14949
+ },
14950
+ {
14951
+ "epoch": 0.14233333333333334,
14952
+ "grad_norm": 0.123046875,
14953
+ "learning_rate": 0.024,
14954
+ "loss": 2.319916248321533,
14955
+ "step": 4270
14956
+ },
14957
+ {
14958
+ "epoch": 0.1424,
14959
+ "grad_norm": 0.12109375,
14960
+ "learning_rate": 0.024,
14961
+ "loss": 2.344547748565674,
14962
+ "step": 4272
14963
+ },
14964
+ {
14965
+ "epoch": 0.14246666666666666,
14966
+ "grad_norm": 0.12353515625,
14967
+ "learning_rate": 0.024,
14968
+ "loss": 2.3362879753112793,
14969
+ "step": 4274
14970
+ },
14971
+ {
14972
+ "epoch": 0.14253333333333335,
14973
+ "grad_norm": 0.126953125,
14974
+ "learning_rate": 0.024,
14975
+ "loss": 2.334904432296753,
14976
+ "step": 4276
14977
+ },
14978
+ {
14979
+ "epoch": 0.1426,
14980
+ "grad_norm": 0.12451171875,
14981
+ "learning_rate": 0.024,
14982
+ "loss": 2.3535361289978027,
14983
+ "step": 4278
14984
+ },
14985
+ {
14986
+ "epoch": 0.14266666666666666,
14987
+ "grad_norm": 0.1318359375,
14988
+ "learning_rate": 0.024,
14989
+ "loss": 2.3535141944885254,
14990
+ "step": 4280
14991
+ },
14992
+ {
14993
+ "epoch": 0.14273333333333332,
14994
+ "grad_norm": 0.1279296875,
14995
+ "learning_rate": 0.024,
14996
+ "loss": 2.3646187782287598,
14997
+ "step": 4282
14998
+ },
14999
+ {
15000
+ "epoch": 0.1428,
15001
+ "grad_norm": 0.11669921875,
15002
+ "learning_rate": 0.024,
15003
+ "loss": 2.336981773376465,
15004
+ "step": 4284
15005
+ },
15006
+ {
15007
+ "epoch": 0.14286666666666667,
15008
+ "grad_norm": 0.1181640625,
15009
+ "learning_rate": 0.024,
15010
+ "loss": 2.35300874710083,
15011
+ "step": 4286
15012
+ },
15013
+ {
15014
+ "epoch": 0.14293333333333333,
15015
+ "grad_norm": 0.12255859375,
15016
+ "learning_rate": 0.024,
15017
+ "loss": 2.31760311126709,
15018
+ "step": 4288
15019
+ },
15020
+ {
15021
+ "epoch": 0.143,
15022
+ "grad_norm": 0.1259765625,
15023
+ "learning_rate": 0.024,
15024
+ "loss": 2.3494584560394287,
15025
+ "step": 4290
15026
+ },
15027
+ {
15028
+ "epoch": 0.14306666666666668,
15029
+ "grad_norm": 0.126953125,
15030
+ "learning_rate": 0.024,
15031
+ "loss": 2.3451247215270996,
15032
+ "step": 4292
15033
+ },
15034
+ {
15035
+ "epoch": 0.14313333333333333,
15036
+ "grad_norm": 0.126953125,
15037
+ "learning_rate": 0.024,
15038
+ "loss": 2.36978816986084,
15039
+ "step": 4294
15040
+ },
15041
+ {
15042
+ "epoch": 0.1432,
15043
+ "grad_norm": 0.126953125,
15044
+ "learning_rate": 0.024,
15045
+ "loss": 2.3315482139587402,
15046
+ "step": 4296
15047
+ },
15048
+ {
15049
+ "epoch": 0.14326666666666665,
15050
+ "grad_norm": 0.11962890625,
15051
+ "learning_rate": 0.024,
15052
+ "loss": 2.335247278213501,
15053
+ "step": 4298
15054
+ },
15055
+ {
15056
+ "epoch": 0.14333333333333334,
15057
+ "grad_norm": 0.12158203125,
15058
+ "learning_rate": 0.024,
15059
+ "loss": 2.370162010192871,
15060
+ "step": 4300
15061
+ },
15062
+ {
15063
+ "epoch": 0.1434,
15064
+ "grad_norm": 0.12255859375,
15065
+ "learning_rate": 0.024,
15066
+ "loss": 2.34334659576416,
15067
+ "step": 4302
15068
+ },
15069
+ {
15070
+ "epoch": 0.14346666666666666,
15071
+ "grad_norm": 0.12890625,
15072
+ "learning_rate": 0.024,
15073
+ "loss": 2.349900960922241,
15074
+ "step": 4304
15075
+ },
15076
+ {
15077
+ "epoch": 0.14353333333333335,
15078
+ "grad_norm": 0.1318359375,
15079
+ "learning_rate": 0.024,
15080
+ "loss": 2.329265594482422,
15081
+ "step": 4306
15082
+ },
15083
+ {
15084
+ "epoch": 0.1436,
15085
+ "grad_norm": 0.125,
15086
+ "learning_rate": 0.024,
15087
+ "loss": 2.3498120307922363,
15088
+ "step": 4308
15089
+ },
15090
+ {
15091
+ "epoch": 0.14366666666666666,
15092
+ "grad_norm": 0.1220703125,
15093
+ "learning_rate": 0.024,
15094
+ "loss": 2.3502120971679688,
15095
+ "step": 4310
15096
+ },
15097
+ {
15098
+ "epoch": 0.14373333333333332,
15099
+ "grad_norm": 0.12451171875,
15100
+ "learning_rate": 0.024,
15101
+ "loss": 2.319915771484375,
15102
+ "step": 4312
15103
+ },
15104
+ {
15105
+ "epoch": 0.1438,
15106
+ "grad_norm": 0.125,
15107
+ "learning_rate": 0.024,
15108
+ "loss": 2.3262972831726074,
15109
+ "step": 4314
15110
+ },
15111
+ {
15112
+ "epoch": 0.14386666666666667,
15113
+ "grad_norm": 0.123046875,
15114
+ "learning_rate": 0.024,
15115
+ "loss": 2.3361048698425293,
15116
+ "step": 4316
15117
+ },
15118
+ {
15119
+ "epoch": 0.14393333333333333,
15120
+ "grad_norm": 0.1259765625,
15121
+ "learning_rate": 0.024,
15122
+ "loss": 2.350599765777588,
15123
+ "step": 4318
15124
+ },
15125
+ {
15126
+ "epoch": 0.144,
15127
+ "grad_norm": 0.12109375,
15128
+ "learning_rate": 0.024,
15129
+ "loss": 2.337160587310791,
15130
+ "step": 4320
15131
+ },
15132
+ {
15133
+ "epoch": 0.14406666666666668,
15134
+ "grad_norm": 0.1259765625,
15135
+ "learning_rate": 0.024,
15136
+ "loss": 2.3304052352905273,
15137
+ "step": 4322
15138
+ },
15139
+ {
15140
+ "epoch": 0.14413333333333334,
15141
+ "grad_norm": 0.12255859375,
15142
+ "learning_rate": 0.024,
15143
+ "loss": 2.338160514831543,
15144
+ "step": 4324
15145
+ },
15146
+ {
15147
+ "epoch": 0.1442,
15148
+ "grad_norm": 0.1259765625,
15149
+ "learning_rate": 0.024,
15150
+ "loss": 2.357461929321289,
15151
+ "step": 4326
15152
+ },
15153
+ {
15154
+ "epoch": 0.14426666666666665,
15155
+ "grad_norm": 0.12255859375,
15156
+ "learning_rate": 0.024,
15157
+ "loss": 2.352400779724121,
15158
+ "step": 4328
15159
+ },
15160
+ {
15161
+ "epoch": 0.14433333333333334,
15162
+ "grad_norm": 0.11962890625,
15163
+ "learning_rate": 0.024,
15164
+ "loss": 2.358729362487793,
15165
+ "step": 4330
15166
+ },
15167
+ {
15168
+ "epoch": 0.1444,
15169
+ "grad_norm": 0.126953125,
15170
+ "learning_rate": 0.024,
15171
+ "loss": 2.373351812362671,
15172
+ "step": 4332
15173
+ },
15174
+ {
15175
+ "epoch": 0.14446666666666666,
15176
+ "grad_norm": 0.12109375,
15177
+ "learning_rate": 0.024,
15178
+ "loss": 2.362307548522949,
15179
+ "step": 4334
15180
+ },
15181
+ {
15182
+ "epoch": 0.14453333333333335,
15183
+ "grad_norm": 0.1240234375,
15184
+ "learning_rate": 0.024,
15185
+ "loss": 2.3485960960388184,
15186
+ "step": 4336
15187
+ },
15188
+ {
15189
+ "epoch": 0.1446,
15190
+ "grad_norm": 0.11962890625,
15191
+ "learning_rate": 0.024,
15192
+ "loss": 2.3364505767822266,
15193
+ "step": 4338
15194
+ },
15195
+ {
15196
+ "epoch": 0.14466666666666667,
15197
+ "grad_norm": 0.12158203125,
15198
+ "learning_rate": 0.024,
15199
+ "loss": 2.3484888076782227,
15200
+ "step": 4340
15201
+ },
15202
+ {
15203
+ "epoch": 0.14473333333333332,
15204
+ "grad_norm": 0.11572265625,
15205
+ "learning_rate": 0.024,
15206
+ "loss": 2.3570985794067383,
15207
+ "step": 4342
15208
+ },
15209
+ {
15210
+ "epoch": 0.1448,
15211
+ "grad_norm": 0.1171875,
15212
+ "learning_rate": 0.024,
15213
+ "loss": 2.352726936340332,
15214
+ "step": 4344
15215
+ },
15216
+ {
15217
+ "epoch": 0.14486666666666667,
15218
+ "grad_norm": 0.11279296875,
15219
+ "learning_rate": 0.024,
15220
+ "loss": 2.3433704376220703,
15221
+ "step": 4346
15222
+ },
15223
+ {
15224
+ "epoch": 0.14493333333333333,
15225
+ "grad_norm": 0.11279296875,
15226
+ "learning_rate": 0.024,
15227
+ "loss": 2.3129963874816895,
15228
+ "step": 4348
15229
+ },
15230
+ {
15231
+ "epoch": 0.145,
15232
+ "grad_norm": 0.1162109375,
15233
+ "learning_rate": 0.024,
15234
+ "loss": 2.3472275733947754,
15235
+ "step": 4350
15236
+ },
15237
+ {
15238
+ "epoch": 0.14506666666666668,
15239
+ "grad_norm": 0.1220703125,
15240
+ "learning_rate": 0.024,
15241
+ "loss": 2.352952718734741,
15242
+ "step": 4352
15243
+ },
15244
+ {
15245
+ "epoch": 0.14513333333333334,
15246
+ "grad_norm": 0.130859375,
15247
+ "learning_rate": 0.024,
15248
+ "loss": 2.3204283714294434,
15249
+ "step": 4354
15250
+ },
15251
+ {
15252
+ "epoch": 0.1452,
15253
+ "grad_norm": 0.12890625,
15254
+ "learning_rate": 0.024,
15255
+ "loss": 2.3298873901367188,
15256
+ "step": 4356
15257
+ },
15258
+ {
15259
+ "epoch": 0.14526666666666666,
15260
+ "grad_norm": 0.1181640625,
15261
+ "learning_rate": 0.024,
15262
+ "loss": 2.3033618927001953,
15263
+ "step": 4358
15264
+ },
15265
+ {
15266
+ "epoch": 0.14533333333333334,
15267
+ "grad_norm": 0.1279296875,
15268
+ "learning_rate": 0.024,
15269
+ "loss": 2.363480567932129,
15270
+ "step": 4360
15271
+ },
15272
+ {
15273
+ "epoch": 0.1454,
15274
+ "grad_norm": 0.12353515625,
15275
+ "learning_rate": 0.024,
15276
+ "loss": 2.3193047046661377,
15277
+ "step": 4362
15278
+ },
15279
+ {
15280
+ "epoch": 0.14546666666666666,
15281
+ "grad_norm": 0.1259765625,
15282
+ "learning_rate": 0.024,
15283
+ "loss": 2.352076768875122,
15284
+ "step": 4364
15285
+ },
15286
+ {
15287
+ "epoch": 0.14553333333333332,
15288
+ "grad_norm": 0.11767578125,
15289
+ "learning_rate": 0.024,
15290
+ "loss": 2.3680427074432373,
15291
+ "step": 4366
15292
+ },
15293
+ {
15294
+ "epoch": 0.1456,
15295
+ "grad_norm": 0.11474609375,
15296
+ "learning_rate": 0.024,
15297
+ "loss": 2.3321995735168457,
15298
+ "step": 4368
15299
+ },
15300
+ {
15301
+ "epoch": 0.14566666666666667,
15302
+ "grad_norm": 0.1162109375,
15303
+ "learning_rate": 0.024,
15304
+ "loss": 2.332864999771118,
15305
+ "step": 4370
15306
+ },
15307
+ {
15308
+ "epoch": 0.14573333333333333,
15309
+ "grad_norm": 0.11474609375,
15310
+ "learning_rate": 0.024,
15311
+ "loss": 2.3408894538879395,
15312
+ "step": 4372
15313
+ },
15314
+ {
15315
+ "epoch": 0.1458,
15316
+ "grad_norm": 0.109375,
15317
+ "learning_rate": 0.024,
15318
+ "loss": 2.3581578731536865,
15319
+ "step": 4374
15320
+ },
15321
+ {
15322
+ "epoch": 0.14586666666666667,
15323
+ "grad_norm": 0.10888671875,
15324
+ "learning_rate": 0.024,
15325
+ "loss": 2.361327886581421,
15326
+ "step": 4376
15327
+ },
15328
+ {
15329
+ "epoch": 0.14593333333333333,
15330
+ "grad_norm": 0.10693359375,
15331
+ "learning_rate": 0.024,
15332
+ "loss": 2.314284324645996,
15333
+ "step": 4378
15334
+ },
15335
+ {
15336
+ "epoch": 0.146,
15337
+ "grad_norm": 0.109375,
15338
+ "learning_rate": 0.024,
15339
+ "loss": 2.3254711627960205,
15340
+ "step": 4380
15341
+ },
15342
+ {
15343
+ "epoch": 0.14606666666666668,
15344
+ "grad_norm": 0.1279296875,
15345
+ "learning_rate": 0.024,
15346
+ "loss": 2.352815866470337,
15347
+ "step": 4382
15348
+ },
15349
+ {
15350
+ "epoch": 0.14613333333333334,
15351
+ "grad_norm": 0.134765625,
15352
+ "learning_rate": 0.024,
15353
+ "loss": 2.335772752761841,
15354
+ "step": 4384
15355
+ },
15356
+ {
15357
+ "epoch": 0.1462,
15358
+ "grad_norm": 0.14453125,
15359
+ "learning_rate": 0.024,
15360
+ "loss": 2.333116054534912,
15361
+ "step": 4386
15362
+ },
15363
+ {
15364
+ "epoch": 0.14626666666666666,
15365
+ "grad_norm": 0.1337890625,
15366
+ "learning_rate": 0.024,
15367
+ "loss": 2.3517322540283203,
15368
+ "step": 4388
15369
+ },
15370
+ {
15371
+ "epoch": 0.14633333333333334,
15372
+ "grad_norm": 0.1328125,
15373
+ "learning_rate": 0.024,
15374
+ "loss": 2.3381826877593994,
15375
+ "step": 4390
15376
+ },
15377
+ {
15378
+ "epoch": 0.1464,
15379
+ "grad_norm": 0.1279296875,
15380
+ "learning_rate": 0.024,
15381
+ "loss": 2.340165138244629,
15382
+ "step": 4392
15383
+ },
15384
+ {
15385
+ "epoch": 0.14646666666666666,
15386
+ "grad_norm": 0.1259765625,
15387
+ "learning_rate": 0.024,
15388
+ "loss": 2.335726499557495,
15389
+ "step": 4394
15390
+ },
15391
+ {
15392
+ "epoch": 0.14653333333333332,
15393
+ "grad_norm": 0.11865234375,
15394
+ "learning_rate": 0.024,
15395
+ "loss": 2.3280858993530273,
15396
+ "step": 4396
15397
+ },
15398
+ {
15399
+ "epoch": 0.1466,
15400
+ "grad_norm": 0.123046875,
15401
+ "learning_rate": 0.024,
15402
+ "loss": 2.3164925575256348,
15403
+ "step": 4398
15404
+ },
15405
+ {
15406
+ "epoch": 0.14666666666666667,
15407
+ "grad_norm": 0.11767578125,
15408
+ "learning_rate": 0.024,
15409
+ "loss": 2.3375089168548584,
15410
+ "step": 4400
15411
+ },
15412
+ {
15413
+ "epoch": 0.14673333333333333,
15414
+ "grad_norm": 0.1240234375,
15415
+ "learning_rate": 0.024,
15416
+ "loss": 2.349285840988159,
15417
+ "step": 4402
15418
+ },
15419
+ {
15420
+ "epoch": 0.1468,
15421
+ "grad_norm": 0.11669921875,
15422
+ "learning_rate": 0.024,
15423
+ "loss": 2.337632656097412,
15424
+ "step": 4404
15425
+ },
15426
+ {
15427
+ "epoch": 0.14686666666666667,
15428
+ "grad_norm": 0.11669921875,
15429
+ "learning_rate": 0.024,
15430
+ "loss": 2.3261642456054688,
15431
+ "step": 4406
15432
+ },
15433
+ {
15434
+ "epoch": 0.14693333333333333,
15435
+ "grad_norm": 0.12060546875,
15436
+ "learning_rate": 0.024,
15437
+ "loss": 2.333888053894043,
15438
+ "step": 4408
15439
+ },
15440
+ {
15441
+ "epoch": 0.147,
15442
+ "grad_norm": 0.1259765625,
15443
+ "learning_rate": 0.024,
15444
+ "loss": 2.3392157554626465,
15445
+ "step": 4410
15446
+ },
15447
+ {
15448
+ "epoch": 0.14706666666666668,
15449
+ "grad_norm": 0.125,
15450
+ "learning_rate": 0.024,
15451
+ "loss": 2.3787808418273926,
15452
+ "step": 4412
15453
+ },
15454
+ {
15455
+ "epoch": 0.14713333333333334,
15456
+ "grad_norm": 0.11767578125,
15457
+ "learning_rate": 0.024,
15458
+ "loss": 2.310211658477783,
15459
+ "step": 4414
15460
+ },
15461
+ {
15462
+ "epoch": 0.1472,
15463
+ "grad_norm": 0.1240234375,
15464
+ "learning_rate": 0.024,
15465
+ "loss": 2.3551604747772217,
15466
+ "step": 4416
15467
+ },
15468
+ {
15469
+ "epoch": 0.14726666666666666,
15470
+ "grad_norm": 0.12158203125,
15471
+ "learning_rate": 0.024,
15472
+ "loss": 2.371136426925659,
15473
+ "step": 4418
15474
+ },
15475
+ {
15476
+ "epoch": 0.14733333333333334,
15477
+ "grad_norm": 0.119140625,
15478
+ "learning_rate": 0.024,
15479
+ "loss": 2.324181079864502,
15480
+ "step": 4420
15481
+ },
15482
+ {
15483
+ "epoch": 0.1474,
15484
+ "grad_norm": 0.11767578125,
15485
+ "learning_rate": 0.024,
15486
+ "loss": 2.327481269836426,
15487
+ "step": 4422
15488
+ },
15489
+ {
15490
+ "epoch": 0.14746666666666666,
15491
+ "grad_norm": 0.1220703125,
15492
+ "learning_rate": 0.024,
15493
+ "loss": 2.3461403846740723,
15494
+ "step": 4424
15495
+ },
15496
+ {
15497
+ "epoch": 0.14753333333333332,
15498
+ "grad_norm": 0.10888671875,
15499
+ "learning_rate": 0.024,
15500
+ "loss": 2.317086935043335,
15501
+ "step": 4426
15502
+ },
15503
+ {
15504
+ "epoch": 0.1476,
15505
+ "grad_norm": 0.115234375,
15506
+ "learning_rate": 0.024,
15507
+ "loss": 2.3115646839141846,
15508
+ "step": 4428
15509
+ },
15510
+ {
15511
+ "epoch": 0.14766666666666667,
15512
+ "grad_norm": 0.1181640625,
15513
+ "learning_rate": 0.024,
15514
+ "loss": 2.320719003677368,
15515
+ "step": 4430
15516
+ },
15517
+ {
15518
+ "epoch": 0.14773333333333333,
15519
+ "grad_norm": 0.126953125,
15520
+ "learning_rate": 0.024,
15521
+ "loss": 2.33951473236084,
15522
+ "step": 4432
15523
+ },
15524
+ {
15525
+ "epoch": 0.1478,
15526
+ "grad_norm": 0.1318359375,
15527
+ "learning_rate": 0.024,
15528
+ "loss": 2.351905345916748,
15529
+ "step": 4434
15530
+ },
15531
+ {
15532
+ "epoch": 0.14786666666666667,
15533
+ "grad_norm": 0.126953125,
15534
+ "learning_rate": 0.024,
15535
+ "loss": 2.3300156593322754,
15536
+ "step": 4436
15537
+ },
15538
+ {
15539
+ "epoch": 0.14793333333333333,
15540
+ "grad_norm": 0.1279296875,
15541
+ "learning_rate": 0.024,
15542
+ "loss": 2.325958013534546,
15543
+ "step": 4438
15544
+ },
15545
+ {
15546
+ "epoch": 0.148,
15547
+ "grad_norm": 0.1259765625,
15548
+ "learning_rate": 0.024,
15549
+ "loss": 2.3221209049224854,
15550
+ "step": 4440
15551
+ },
15552
+ {
15553
+ "epoch": 0.14806666666666668,
15554
+ "grad_norm": 0.12451171875,
15555
+ "learning_rate": 0.024,
15556
+ "loss": 2.3375089168548584,
15557
+ "step": 4442
15558
+ },
15559
+ {
15560
+ "epoch": 0.14813333333333334,
15561
+ "grad_norm": 0.12060546875,
15562
+ "learning_rate": 0.024,
15563
+ "loss": 2.317953109741211,
15564
+ "step": 4444
15565
+ },
15566
+ {
15567
+ "epoch": 0.1482,
15568
+ "grad_norm": 0.11962890625,
15569
+ "learning_rate": 0.024,
15570
+ "loss": 2.3226099014282227,
15571
+ "step": 4446
15572
+ },
15573
+ {
15574
+ "epoch": 0.14826666666666666,
15575
+ "grad_norm": 0.1201171875,
15576
+ "learning_rate": 0.024,
15577
+ "loss": 2.302257537841797,
15578
+ "step": 4448
15579
+ },
15580
+ {
15581
+ "epoch": 0.14833333333333334,
15582
+ "grad_norm": 0.1220703125,
15583
+ "learning_rate": 0.024,
15584
+ "loss": 2.326132297515869,
15585
+ "step": 4450
15586
+ },
15587
+ {
15588
+ "epoch": 0.1484,
15589
+ "grad_norm": 0.1181640625,
15590
+ "learning_rate": 0.024,
15591
+ "loss": 2.3271889686584473,
15592
+ "step": 4452
15593
+ },
15594
+ {
15595
+ "epoch": 0.14846666666666666,
15596
+ "grad_norm": 0.11865234375,
15597
+ "learning_rate": 0.024,
15598
+ "loss": 2.3187763690948486,
15599
+ "step": 4454
15600
+ },
15601
+ {
15602
+ "epoch": 0.14853333333333332,
15603
+ "grad_norm": 0.1201171875,
15604
+ "learning_rate": 0.024,
15605
+ "loss": 2.3347959518432617,
15606
+ "step": 4456
15607
+ },
15608
+ {
15609
+ "epoch": 0.1486,
15610
+ "grad_norm": 0.11669921875,
15611
+ "learning_rate": 0.024,
15612
+ "loss": 2.331998348236084,
15613
+ "step": 4458
15614
+ },
15615
+ {
15616
+ "epoch": 0.14866666666666667,
15617
+ "grad_norm": 0.119140625,
15618
+ "learning_rate": 0.024,
15619
+ "loss": 2.337888717651367,
15620
+ "step": 4460
15621
+ },
15622
+ {
15623
+ "epoch": 0.14873333333333333,
15624
+ "grad_norm": 0.11572265625,
15625
+ "learning_rate": 0.024,
15626
+ "loss": 2.3315348625183105,
15627
+ "step": 4462
15628
+ },
15629
+ {
15630
+ "epoch": 0.1488,
15631
+ "grad_norm": 0.11767578125,
15632
+ "learning_rate": 0.024,
15633
+ "loss": 2.3312745094299316,
15634
+ "step": 4464
15635
+ },
15636
+ {
15637
+ "epoch": 0.14886666666666667,
15638
+ "grad_norm": 0.1201171875,
15639
+ "learning_rate": 0.024,
15640
+ "loss": 2.294875144958496,
15641
+ "step": 4466
15642
+ },
15643
+ {
15644
+ "epoch": 0.14893333333333333,
15645
+ "grad_norm": 0.12255859375,
15646
+ "learning_rate": 0.024,
15647
+ "loss": 2.3433821201324463,
15648
+ "step": 4468
15649
+ },
15650
+ {
15651
+ "epoch": 0.149,
15652
+ "grad_norm": 0.12109375,
15653
+ "learning_rate": 0.024,
15654
+ "loss": 2.3426616191864014,
15655
+ "step": 4470
15656
+ },
15657
+ {
15658
+ "epoch": 0.14906666666666665,
15659
+ "grad_norm": 0.11865234375,
15660
+ "learning_rate": 0.024,
15661
+ "loss": 2.3035764694213867,
15662
+ "step": 4472
15663
+ },
15664
+ {
15665
+ "epoch": 0.14913333333333334,
15666
+ "grad_norm": 0.119140625,
15667
+ "learning_rate": 0.024,
15668
+ "loss": 2.339334011077881,
15669
+ "step": 4474
15670
+ },
15671
+ {
15672
+ "epoch": 0.1492,
15673
+ "grad_norm": 0.12158203125,
15674
+ "learning_rate": 0.024,
15675
+ "loss": 2.3440170288085938,
15676
+ "step": 4476
15677
+ },
15678
+ {
15679
+ "epoch": 0.14926666666666666,
15680
+ "grad_norm": 0.12255859375,
15681
+ "learning_rate": 0.024,
15682
+ "loss": 2.341160297393799,
15683
+ "step": 4478
15684
+ },
15685
+ {
15686
+ "epoch": 0.14933333333333335,
15687
+ "grad_norm": 0.11767578125,
15688
+ "learning_rate": 0.024,
15689
+ "loss": 2.2926297187805176,
15690
+ "step": 4480
15691
+ },
15692
+ {
15693
+ "epoch": 0.1494,
15694
+ "grad_norm": 0.1142578125,
15695
+ "learning_rate": 0.024,
15696
+ "loss": 2.3161168098449707,
15697
+ "step": 4482
15698
+ },
15699
+ {
15700
+ "epoch": 0.14946666666666666,
15701
+ "grad_norm": 0.1259765625,
15702
+ "learning_rate": 0.024,
15703
+ "loss": 2.3305134773254395,
15704
+ "step": 4484
15705
+ },
15706
+ {
15707
+ "epoch": 0.14953333333333332,
15708
+ "grad_norm": 0.119140625,
15709
+ "learning_rate": 0.024,
15710
+ "loss": 2.3210959434509277,
15711
+ "step": 4486
15712
+ },
15713
+ {
15714
+ "epoch": 0.1496,
15715
+ "grad_norm": 0.1123046875,
15716
+ "learning_rate": 0.024,
15717
+ "loss": 2.336179256439209,
15718
+ "step": 4488
15719
+ },
15720
+ {
15721
+ "epoch": 0.14966666666666667,
15722
+ "grad_norm": 0.10546875,
15723
+ "learning_rate": 0.024,
15724
+ "loss": 2.308634042739868,
15725
+ "step": 4490
15726
+ },
15727
+ {
15728
+ "epoch": 0.14973333333333333,
15729
+ "grad_norm": 0.10498046875,
15730
+ "learning_rate": 0.024,
15731
+ "loss": 2.310300827026367,
15732
+ "step": 4492
15733
+ },
15734
+ {
15735
+ "epoch": 0.1498,
15736
+ "grad_norm": 0.1044921875,
15737
+ "learning_rate": 0.024,
15738
+ "loss": 2.3223447799682617,
15739
+ "step": 4494
15740
+ },
15741
+ {
15742
+ "epoch": 0.14986666666666668,
15743
+ "grad_norm": 0.11474609375,
15744
+ "learning_rate": 0.024,
15745
+ "loss": 2.3199844360351562,
15746
+ "step": 4496
15747
+ },
15748
+ {
15749
+ "epoch": 0.14993333333333334,
15750
+ "grad_norm": 0.134765625,
15751
+ "learning_rate": 0.024,
15752
+ "loss": 2.331547498703003,
15753
+ "step": 4498
15754
+ },
15755
+ {
15756
+ "epoch": 0.15,
15757
+ "grad_norm": 0.12890625,
15758
+ "learning_rate": 0.024,
15759
+ "loss": 2.3322529792785645,
15760
+ "step": 4500
15761
  }
15762
  ],
15763
  "logging_steps": 2,
 
15777
  "attributes": {}
15778
  }
15779
  },
15780
+ "total_flos": 1.5903636621409386e+19,
15781
  "train_batch_size": 4,
15782
  "trial_name": null,
15783
  "trial_params": null