ErrorAI commited on
Commit
c315f05
·
verified ·
1 Parent(s): 0756005

Training in progress, step 1074, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:cc5e35513ed20df4c05df83254d91159f68c7eb1f40a548be4cc618697e136b3
3
  size 327040
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e5f4d52450587f4fa8f738d530dc02f74bedc8aa67258375566da1b71480db5f
3
  size 327040
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7ed77ebadda4ebfce139e4d32bc8369bc18c155bb4644ed3f4bc0aacca2f47d1
3
  size 739578
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:080422a5ebc8a5201dbdbaae1098e13469b38bd3698b73429fd225dcbb6518a7
3
  size 739578
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ac20dc175f4540fdff64ade05e8a714d0c1acd37e7b87cbc44d0747c8c205201
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fdca2119bcae4b80ee49c3f4f99fa78f0d111539f3150b42fe3915937204f0a5
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3dd198f4d9ab54ad337ba9f5916df8e8ccc52de98019032673a88b44f39e2e68
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:85fea812480d166bed0e9c88b3d70d26dfa1e02f1b479a6ccde4090471653360
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.027848273582061978,
5
  "eval_steps": 358,
6
- "global_step": 716,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5043,6 +5043,2520 @@
5043
  "eval_samples_per_second": 79.172,
5044
  "eval_steps_per_second": 39.586,
5045
  "step": 716
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5046
  }
5047
  ],
5048
  "logging_steps": 1,
@@ -5062,7 +7576,7 @@
5062
  "attributes": {}
5063
  }
5064
  },
5065
- "total_flos": 89611648892928.0,
5066
  "train_batch_size": 2,
5067
  "trial_name": null,
5068
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.04177241037309297,
5
  "eval_steps": 358,
6
+ "global_step": 1074,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5043
  "eval_samples_per_second": 79.172,
5044
  "eval_steps_per_second": 39.586,
5045
  "step": 716
5046
+ },
5047
+ {
5048
+ "epoch": 0.02788716781890843,
5049
+ "grad_norm": 0.08253801614046097,
5050
+ "learning_rate": 0.00010077378357218021,
5051
+ "loss": 11.4232,
5052
+ "step": 717
5053
+ },
5054
+ {
5055
+ "epoch": 0.02792606205575489,
5056
+ "grad_norm": 0.13256096839904785,
5057
+ "learning_rate": 0.00010055270525306016,
5058
+ "loss": 11.4315,
5059
+ "step": 718
5060
+ },
5061
+ {
5062
+ "epoch": 0.027964956292601345,
5063
+ "grad_norm": 0.17937391996383667,
5064
+ "learning_rate": 0.00010033162423243987,
5065
+ "loss": 11.4851,
5066
+ "step": 719
5067
+ },
5068
+ {
5069
+ "epoch": 0.0280038505294478,
5070
+ "grad_norm": 0.20057813823223114,
5071
+ "learning_rate": 0.0001001105415909142,
5072
+ "loss": 11.5311,
5073
+ "step": 720
5074
+ },
5075
+ {
5076
+ "epoch": 0.028042744766294255,
5077
+ "grad_norm": 0.08090359717607498,
5078
+ "learning_rate": 9.988945840908583e-05,
5079
+ "loss": 11.4295,
5080
+ "step": 721
5081
+ },
5082
+ {
5083
+ "epoch": 0.02808163900314071,
5084
+ "grad_norm": 0.082366943359375,
5085
+ "learning_rate": 9.966837576756016e-05,
5086
+ "loss": 11.4418,
5087
+ "step": 722
5088
+ },
5089
+ {
5090
+ "epoch": 0.028120533239987165,
5091
+ "grad_norm": 0.15174053609371185,
5092
+ "learning_rate": 9.944729474693987e-05,
5093
+ "loss": 11.4378,
5094
+ "step": 723
5095
+ },
5096
+ {
5097
+ "epoch": 0.02815942747683362,
5098
+ "grad_norm": 0.09956763684749603,
5099
+ "learning_rate": 9.92262164278198e-05,
5100
+ "loss": 11.4256,
5101
+ "step": 724
5102
+ },
5103
+ {
5104
+ "epoch": 0.028198321713680075,
5105
+ "grad_norm": 0.06715458631515503,
5106
+ "learning_rate": 9.900514189078155e-05,
5107
+ "loss": 11.444,
5108
+ "step": 725
5109
+ },
5110
+ {
5111
+ "epoch": 0.028237215950526532,
5112
+ "grad_norm": 0.10695479065179825,
5113
+ "learning_rate": 9.878407221638816e-05,
5114
+ "loss": 11.4519,
5115
+ "step": 726
5116
+ },
5117
+ {
5118
+ "epoch": 0.028276110187372985,
5119
+ "grad_norm": 0.08852813392877579,
5120
+ "learning_rate": 9.85630084851791e-05,
5121
+ "loss": 11.4474,
5122
+ "step": 727
5123
+ },
5124
+ {
5125
+ "epoch": 0.028315004424219442,
5126
+ "grad_norm": 0.1369630992412567,
5127
+ "learning_rate": 9.834195177766452e-05,
5128
+ "loss": 11.4339,
5129
+ "step": 728
5130
+ },
5131
+ {
5132
+ "epoch": 0.028353898661065895,
5133
+ "grad_norm": 0.09969980269670486,
5134
+ "learning_rate": 9.81209031743205e-05,
5135
+ "loss": 11.4579,
5136
+ "step": 729
5137
+ },
5138
+ {
5139
+ "epoch": 0.028392792897912352,
5140
+ "grad_norm": 0.15188638865947723,
5141
+ "learning_rate": 9.789986375558331e-05,
5142
+ "loss": 11.5502,
5143
+ "step": 730
5144
+ },
5145
+ {
5146
+ "epoch": 0.028431687134758805,
5147
+ "grad_norm": 0.08629871159791946,
5148
+ "learning_rate": 9.767883460184443e-05,
5149
+ "loss": 11.4381,
5150
+ "step": 731
5151
+ },
5152
+ {
5153
+ "epoch": 0.028470581371605262,
5154
+ "grad_norm": 0.19648370146751404,
5155
+ "learning_rate": 9.74578167934452e-05,
5156
+ "loss": 11.4772,
5157
+ "step": 732
5158
+ },
5159
+ {
5160
+ "epoch": 0.02850947560845172,
5161
+ "grad_norm": 0.10891472548246384,
5162
+ "learning_rate": 9.723681141067139e-05,
5163
+ "loss": 11.4388,
5164
+ "step": 733
5165
+ },
5166
+ {
5167
+ "epoch": 0.028548369845298172,
5168
+ "grad_norm": 0.1772705316543579,
5169
+ "learning_rate": 9.701581953374815e-05,
5170
+ "loss": 11.4936,
5171
+ "step": 734
5172
+ },
5173
+ {
5174
+ "epoch": 0.02858726408214463,
5175
+ "grad_norm": 0.29078036546707153,
5176
+ "learning_rate": 9.679484224283449e-05,
5177
+ "loss": 11.5355,
5178
+ "step": 735
5179
+ },
5180
+ {
5181
+ "epoch": 0.028626158318991082,
5182
+ "grad_norm": 0.10268472880125046,
5183
+ "learning_rate": 9.657388061801828e-05,
5184
+ "loss": 11.4682,
5185
+ "step": 736
5186
+ },
5187
+ {
5188
+ "epoch": 0.02866505255583754,
5189
+ "grad_norm": 0.11252088099718094,
5190
+ "learning_rate": 9.635293573931072e-05,
5191
+ "loss": 11.4544,
5192
+ "step": 737
5193
+ },
5194
+ {
5195
+ "epoch": 0.028703946792683992,
5196
+ "grad_norm": 0.0970296636223793,
5197
+ "learning_rate": 9.613200868664112e-05,
5198
+ "loss": 11.4352,
5199
+ "step": 738
5200
+ },
5201
+ {
5202
+ "epoch": 0.02874284102953045,
5203
+ "grad_norm": 0.13067781925201416,
5204
+ "learning_rate": 9.591110053985182e-05,
5205
+ "loss": 11.4347,
5206
+ "step": 739
5207
+ },
5208
+ {
5209
+ "epoch": 0.028781735266376906,
5210
+ "grad_norm": 0.17787784337997437,
5211
+ "learning_rate": 9.569021237869258e-05,
5212
+ "loss": 11.4483,
5213
+ "step": 740
5214
+ },
5215
+ {
5216
+ "epoch": 0.02882062950322336,
5217
+ "grad_norm": 0.15255478024482727,
5218
+ "learning_rate": 9.54693452828156e-05,
5219
+ "loss": 11.4333,
5220
+ "step": 741
5221
+ },
5222
+ {
5223
+ "epoch": 0.028859523740069816,
5224
+ "grad_norm": 0.09174659103155136,
5225
+ "learning_rate": 9.524850033177e-05,
5226
+ "loss": 11.4265,
5227
+ "step": 742
5228
+ },
5229
+ {
5230
+ "epoch": 0.02889841797691627,
5231
+ "grad_norm": 0.1348842978477478,
5232
+ "learning_rate": 9.502767860499672e-05,
5233
+ "loss": 11.4743,
5234
+ "step": 743
5235
+ },
5236
+ {
5237
+ "epoch": 0.028937312213762726,
5238
+ "grad_norm": 0.17099758982658386,
5239
+ "learning_rate": 9.48068811818233e-05,
5240
+ "loss": 11.4782,
5241
+ "step": 744
5242
+ },
5243
+ {
5244
+ "epoch": 0.02897620645060918,
5245
+ "grad_norm": 0.0950162261724472,
5246
+ "learning_rate": 9.458610914145826e-05,
5247
+ "loss": 11.4753,
5248
+ "step": 745
5249
+ },
5250
+ {
5251
+ "epoch": 0.029015100687455636,
5252
+ "grad_norm": 0.11666002869606018,
5253
+ "learning_rate": 9.436536356298624e-05,
5254
+ "loss": 11.4198,
5255
+ "step": 746
5256
+ },
5257
+ {
5258
+ "epoch": 0.029053994924302093,
5259
+ "grad_norm": 0.1315421611070633,
5260
+ "learning_rate": 9.414464552536242e-05,
5261
+ "loss": 11.4877,
5262
+ "step": 747
5263
+ },
5264
+ {
5265
+ "epoch": 0.029092889161148546,
5266
+ "grad_norm": 0.15513554215431213,
5267
+ "learning_rate": 9.39239561074075e-05,
5268
+ "loss": 11.4861,
5269
+ "step": 748
5270
+ },
5271
+ {
5272
+ "epoch": 0.029131783397995003,
5273
+ "grad_norm": 0.1369619071483612,
5274
+ "learning_rate": 9.370329638780213e-05,
5275
+ "loss": 11.5185,
5276
+ "step": 749
5277
+ },
5278
+ {
5279
+ "epoch": 0.029170677634841456,
5280
+ "grad_norm": 0.10951586067676544,
5281
+ "learning_rate": 9.348266744508191e-05,
5282
+ "loss": 11.4876,
5283
+ "step": 750
5284
+ },
5285
+ {
5286
+ "epoch": 0.029209571871687913,
5287
+ "grad_norm": 0.0937129557132721,
5288
+ "learning_rate": 9.326207035763202e-05,
5289
+ "loss": 11.4312,
5290
+ "step": 751
5291
+ },
5292
+ {
5293
+ "epoch": 0.029248466108534366,
5294
+ "grad_norm": 0.1251746565103531,
5295
+ "learning_rate": 9.304150620368188e-05,
5296
+ "loss": 11.4397,
5297
+ "step": 752
5298
+ },
5299
+ {
5300
+ "epoch": 0.029287360345380823,
5301
+ "grad_norm": 0.13234980404376984,
5302
+ "learning_rate": 9.282097606129998e-05,
5303
+ "loss": 11.4528,
5304
+ "step": 753
5305
+ },
5306
+ {
5307
+ "epoch": 0.02932625458222728,
5308
+ "grad_norm": 0.16654668748378754,
5309
+ "learning_rate": 9.260048100838848e-05,
5310
+ "loss": 11.4857,
5311
+ "step": 754
5312
+ },
5313
+ {
5314
+ "epoch": 0.029365148819073733,
5315
+ "grad_norm": 0.40939077734947205,
5316
+ "learning_rate": 9.238002212267821e-05,
5317
+ "loss": 11.4327,
5318
+ "step": 755
5319
+ },
5320
+ {
5321
+ "epoch": 0.02940404305592019,
5322
+ "grad_norm": 0.14264138042926788,
5323
+ "learning_rate": 9.215960048172299e-05,
5324
+ "loss": 11.4855,
5325
+ "step": 756
5326
+ },
5327
+ {
5328
+ "epoch": 0.029442937292766643,
5329
+ "grad_norm": 0.14503702521324158,
5330
+ "learning_rate": 9.193921716289482e-05,
5331
+ "loss": 11.4595,
5332
+ "step": 757
5333
+ },
5334
+ {
5335
+ "epoch": 0.0294818315296131,
5336
+ "grad_norm": 0.11121979355812073,
5337
+ "learning_rate": 9.171887324337826e-05,
5338
+ "loss": 11.4433,
5339
+ "step": 758
5340
+ },
5341
+ {
5342
+ "epoch": 0.029520725766459553,
5343
+ "grad_norm": 0.11435031145811081,
5344
+ "learning_rate": 9.149856980016529e-05,
5345
+ "loss": 11.4518,
5346
+ "step": 759
5347
+ },
5348
+ {
5349
+ "epoch": 0.02955962000330601,
5350
+ "grad_norm": 0.21833956241607666,
5351
+ "learning_rate": 9.127830791005015e-05,
5352
+ "loss": 11.452,
5353
+ "step": 760
5354
+ },
5355
+ {
5356
+ "epoch": 0.029598514240152467,
5357
+ "grad_norm": 0.12180177867412567,
5358
+ "learning_rate": 9.105808864962384e-05,
5359
+ "loss": 11.4448,
5360
+ "step": 761
5361
+ },
5362
+ {
5363
+ "epoch": 0.02963740847699892,
5364
+ "grad_norm": 0.13487689197063446,
5365
+ "learning_rate": 9.083791309526908e-05,
5366
+ "loss": 11.4377,
5367
+ "step": 762
5368
+ },
5369
+ {
5370
+ "epoch": 0.029676302713845377,
5371
+ "grad_norm": 0.17410726845264435,
5372
+ "learning_rate": 9.061778232315505e-05,
5373
+ "loss": 11.441,
5374
+ "step": 763
5375
+ },
5376
+ {
5377
+ "epoch": 0.02971519695069183,
5378
+ "grad_norm": 0.12577226758003235,
5379
+ "learning_rate": 9.039769740923183e-05,
5380
+ "loss": 11.4545,
5381
+ "step": 764
5382
+ },
5383
+ {
5384
+ "epoch": 0.029754091187538287,
5385
+ "grad_norm": 0.10234140604734421,
5386
+ "learning_rate": 9.017765942922554e-05,
5387
+ "loss": 11.4476,
5388
+ "step": 765
5389
+ },
5390
+ {
5391
+ "epoch": 0.02979298542438474,
5392
+ "grad_norm": 0.17257264256477356,
5393
+ "learning_rate": 8.995766945863277e-05,
5394
+ "loss": 11.4764,
5395
+ "step": 766
5396
+ },
5397
+ {
5398
+ "epoch": 0.029831879661231197,
5399
+ "grad_norm": 0.1410018652677536,
5400
+ "learning_rate": 8.973772857271558e-05,
5401
+ "loss": 11.4282,
5402
+ "step": 767
5403
+ },
5404
+ {
5405
+ "epoch": 0.029870773898077654,
5406
+ "grad_norm": 0.11423639208078384,
5407
+ "learning_rate": 8.951783784649602e-05,
5408
+ "loss": 11.4617,
5409
+ "step": 768
5410
+ },
5411
+ {
5412
+ "epoch": 0.029909668134924107,
5413
+ "grad_norm": 0.10588809102773666,
5414
+ "learning_rate": 8.929799835475093e-05,
5415
+ "loss": 11.4645,
5416
+ "step": 769
5417
+ },
5418
+ {
5419
+ "epoch": 0.029948562371770564,
5420
+ "grad_norm": 0.18268363177776337,
5421
+ "learning_rate": 8.907821117200694e-05,
5422
+ "loss": 11.4531,
5423
+ "step": 770
5424
+ },
5425
+ {
5426
+ "epoch": 0.029987456608617017,
5427
+ "grad_norm": 0.10537099093198776,
5428
+ "learning_rate": 8.88584773725347e-05,
5429
+ "loss": 11.4033,
5430
+ "step": 771
5431
+ },
5432
+ {
5433
+ "epoch": 0.030026350845463474,
5434
+ "grad_norm": 0.13354121148586273,
5435
+ "learning_rate": 8.863879803034421e-05,
5436
+ "loss": 11.4562,
5437
+ "step": 772
5438
+ },
5439
+ {
5440
+ "epoch": 0.030065245082309927,
5441
+ "grad_norm": 0.09870657324790955,
5442
+ "learning_rate": 8.841917421917912e-05,
5443
+ "loss": 11.4425,
5444
+ "step": 773
5445
+ },
5446
+ {
5447
+ "epoch": 0.030104139319156384,
5448
+ "grad_norm": 0.08798401057720184,
5449
+ "learning_rate": 8.819960701251175e-05,
5450
+ "loss": 11.4367,
5451
+ "step": 774
5452
+ },
5453
+ {
5454
+ "epoch": 0.03014303355600284,
5455
+ "grad_norm": 0.139079287648201,
5456
+ "learning_rate": 8.798009748353765e-05,
5457
+ "loss": 11.4877,
5458
+ "step": 775
5459
+ },
5460
+ {
5461
+ "epoch": 0.030181927792849294,
5462
+ "grad_norm": 0.1492471843957901,
5463
+ "learning_rate": 8.776064670517059e-05,
5464
+ "loss": 11.4751,
5465
+ "step": 776
5466
+ },
5467
+ {
5468
+ "epoch": 0.03022082202969575,
5469
+ "grad_norm": 0.15318681299686432,
5470
+ "learning_rate": 8.754125575003708e-05,
5471
+ "loss": 11.4705,
5472
+ "step": 777
5473
+ },
5474
+ {
5475
+ "epoch": 0.030259716266542204,
5476
+ "grad_norm": 0.14461193978786469,
5477
+ "learning_rate": 8.732192569047126e-05,
5478
+ "loss": 11.4745,
5479
+ "step": 778
5480
+ },
5481
+ {
5482
+ "epoch": 0.03029861050338866,
5483
+ "grad_norm": 0.14277328550815582,
5484
+ "learning_rate": 8.710265759850963e-05,
5485
+ "loss": 11.4334,
5486
+ "step": 779
5487
+ },
5488
+ {
5489
+ "epoch": 0.030337504740235114,
5490
+ "grad_norm": 0.09315398335456848,
5491
+ "learning_rate": 8.688345254588578e-05,
5492
+ "loss": 11.4297,
5493
+ "step": 780
5494
+ },
5495
+ {
5496
+ "epoch": 0.03037639897708157,
5497
+ "grad_norm": 0.08005926758050919,
5498
+ "learning_rate": 8.666431160402518e-05,
5499
+ "loss": 11.4431,
5500
+ "step": 781
5501
+ },
5502
+ {
5503
+ "epoch": 0.030415293213928028,
5504
+ "grad_norm": 0.10046279430389404,
5505
+ "learning_rate": 8.644523584404003e-05,
5506
+ "loss": 11.4787,
5507
+ "step": 782
5508
+ },
5509
+ {
5510
+ "epoch": 0.03045418745077448,
5511
+ "grad_norm": 0.14663808047771454,
5512
+ "learning_rate": 8.62262263367238e-05,
5513
+ "loss": 11.4878,
5514
+ "step": 783
5515
+ },
5516
+ {
5517
+ "epoch": 0.030493081687620938,
5518
+ "grad_norm": 0.17167599499225616,
5519
+ "learning_rate": 8.600728415254624e-05,
5520
+ "loss": 11.5243,
5521
+ "step": 784
5522
+ },
5523
+ {
5524
+ "epoch": 0.03053197592446739,
5525
+ "grad_norm": 0.11615641415119171,
5526
+ "learning_rate": 8.578841036164794e-05,
5527
+ "loss": 11.4355,
5528
+ "step": 785
5529
+ },
5530
+ {
5531
+ "epoch": 0.030570870161313848,
5532
+ "grad_norm": 0.08393886685371399,
5533
+ "learning_rate": 8.55696060338353e-05,
5534
+ "loss": 11.4553,
5535
+ "step": 786
5536
+ },
5537
+ {
5538
+ "epoch": 0.0306097643981603,
5539
+ "grad_norm": 0.16598129272460938,
5540
+ "learning_rate": 8.535087223857508e-05,
5541
+ "loss": 11.446,
5542
+ "step": 787
5543
+ },
5544
+ {
5545
+ "epoch": 0.030648658635006758,
5546
+ "grad_norm": 0.1524801105260849,
5547
+ "learning_rate": 8.513221004498946e-05,
5548
+ "loss": 11.4439,
5549
+ "step": 788
5550
+ },
5551
+ {
5552
+ "epoch": 0.030687552871853215,
5553
+ "grad_norm": 0.1081952229142189,
5554
+ "learning_rate": 8.491362052185053e-05,
5555
+ "loss": 11.4627,
5556
+ "step": 789
5557
+ },
5558
+ {
5559
+ "epoch": 0.030726447108699668,
5560
+ "grad_norm": 0.13826072216033936,
5561
+ "learning_rate": 8.469510473757513e-05,
5562
+ "loss": 11.4835,
5563
+ "step": 790
5564
+ },
5565
+ {
5566
+ "epoch": 0.030765341345546125,
5567
+ "grad_norm": 0.1568002849817276,
5568
+ "learning_rate": 8.447666376021985e-05,
5569
+ "loss": 11.4659,
5570
+ "step": 791
5571
+ },
5572
+ {
5573
+ "epoch": 0.030804235582392578,
5574
+ "grad_norm": 0.09875816106796265,
5575
+ "learning_rate": 8.425829865747549e-05,
5576
+ "loss": 11.4209,
5577
+ "step": 792
5578
+ },
5579
+ {
5580
+ "epoch": 0.030843129819239035,
5581
+ "grad_norm": 0.18653692305088043,
5582
+ "learning_rate": 8.404001049666211e-05,
5583
+ "loss": 11.4606,
5584
+ "step": 793
5585
+ },
5586
+ {
5587
+ "epoch": 0.030882024056085488,
5588
+ "grad_norm": 0.19002626836299896,
5589
+ "learning_rate": 8.382180034472353e-05,
5590
+ "loss": 11.4729,
5591
+ "step": 794
5592
+ },
5593
+ {
5594
+ "epoch": 0.030920918292931945,
5595
+ "grad_norm": 0.09468155354261398,
5596
+ "learning_rate": 8.360366926822247e-05,
5597
+ "loss": 11.4465,
5598
+ "step": 795
5599
+ },
5600
+ {
5601
+ "epoch": 0.0309598125297784,
5602
+ "grad_norm": 0.12331503629684448,
5603
+ "learning_rate": 8.338561833333506e-05,
5604
+ "loss": 11.4442,
5605
+ "step": 796
5606
+ },
5607
+ {
5608
+ "epoch": 0.030998706766624855,
5609
+ "grad_norm": 0.1488187164068222,
5610
+ "learning_rate": 8.316764860584567e-05,
5611
+ "loss": 11.4704,
5612
+ "step": 797
5613
+ },
5614
+ {
5615
+ "epoch": 0.03103760100347131,
5616
+ "grad_norm": 0.08257905393838882,
5617
+ "learning_rate": 8.294976115114184e-05,
5618
+ "loss": 11.4504,
5619
+ "step": 798
5620
+ },
5621
+ {
5622
+ "epoch": 0.031076495240317765,
5623
+ "grad_norm": 0.11658480763435364,
5624
+ "learning_rate": 8.273195703420884e-05,
5625
+ "loss": 11.4836,
5626
+ "step": 799
5627
+ },
5628
+ {
5629
+ "epoch": 0.03111538947716422,
5630
+ "grad_norm": 0.11987362056970596,
5631
+ "learning_rate": 8.25142373196248e-05,
5632
+ "loss": 11.4406,
5633
+ "step": 800
5634
+ },
5635
+ {
5636
+ "epoch": 0.031154283714010675,
5637
+ "grad_norm": 0.1509653776884079,
5638
+ "learning_rate": 8.229660307155518e-05,
5639
+ "loss": 11.497,
5640
+ "step": 801
5641
+ },
5642
+ {
5643
+ "epoch": 0.03119317795085713,
5644
+ "grad_norm": 0.11979538947343826,
5645
+ "learning_rate": 8.207905535374767e-05,
5646
+ "loss": 11.4391,
5647
+ "step": 802
5648
+ },
5649
+ {
5650
+ "epoch": 0.03123207218770359,
5651
+ "grad_norm": 0.18861103057861328,
5652
+ "learning_rate": 8.186159522952716e-05,
5653
+ "loss": 11.4934,
5654
+ "step": 803
5655
+ },
5656
+ {
5657
+ "epoch": 0.031270966424550045,
5658
+ "grad_norm": 0.06771805882453918,
5659
+ "learning_rate": 8.164422376179023e-05,
5660
+ "loss": 11.442,
5661
+ "step": 804
5662
+ },
5663
+ {
5664
+ "epoch": 0.031309860661396495,
5665
+ "grad_norm": 0.28224071860313416,
5666
+ "learning_rate": 8.142694201300027e-05,
5667
+ "loss": 11.4551,
5668
+ "step": 805
5669
+ },
5670
+ {
5671
+ "epoch": 0.03134875489824295,
5672
+ "grad_norm": 0.15878629684448242,
5673
+ "learning_rate": 8.120975104518203e-05,
5674
+ "loss": 11.4591,
5675
+ "step": 806
5676
+ },
5677
+ {
5678
+ "epoch": 0.03138764913508941,
5679
+ "grad_norm": 0.16484294831752777,
5680
+ "learning_rate": 8.099265191991665e-05,
5681
+ "loss": 11.5227,
5682
+ "step": 807
5683
+ },
5684
+ {
5685
+ "epoch": 0.031426543371935865,
5686
+ "grad_norm": 0.19311536848545074,
5687
+ "learning_rate": 8.077564569833632e-05,
5688
+ "loss": 11.4931,
5689
+ "step": 808
5690
+ },
5691
+ {
5692
+ "epoch": 0.03146543760878232,
5693
+ "grad_norm": 0.11146111786365509,
5694
+ "learning_rate": 8.055873344111906e-05,
5695
+ "loss": 11.4418,
5696
+ "step": 809
5697
+ },
5698
+ {
5699
+ "epoch": 0.03150433184562877,
5700
+ "grad_norm": 0.12124677747488022,
5701
+ "learning_rate": 8.03419162084838e-05,
5702
+ "loss": 11.4164,
5703
+ "step": 810
5704
+ },
5705
+ {
5706
+ "epoch": 0.03154322608247523,
5707
+ "grad_norm": 0.09567411988973618,
5708
+ "learning_rate": 8.012519506018476e-05,
5709
+ "loss": 11.4232,
5710
+ "step": 811
5711
+ },
5712
+ {
5713
+ "epoch": 0.031582120319321685,
5714
+ "grad_norm": 0.0929986760020256,
5715
+ "learning_rate": 7.990857105550675e-05,
5716
+ "loss": 11.4187,
5717
+ "step": 812
5718
+ },
5719
+ {
5720
+ "epoch": 0.03162101455616814,
5721
+ "grad_norm": 0.13243938982486725,
5722
+ "learning_rate": 7.969204525325962e-05,
5723
+ "loss": 11.4515,
5724
+ "step": 813
5725
+ },
5726
+ {
5727
+ "epoch": 0.03165990879301459,
5728
+ "grad_norm": 0.1833588033914566,
5729
+ "learning_rate": 7.947561871177327e-05,
5730
+ "loss": 11.4609,
5731
+ "step": 814
5732
+ },
5733
+ {
5734
+ "epoch": 0.03169880302986105,
5735
+ "grad_norm": 0.1955696940422058,
5736
+ "learning_rate": 7.92592924888925e-05,
5737
+ "loss": 11.5276,
5738
+ "step": 815
5739
+ },
5740
+ {
5741
+ "epoch": 0.031737697266707506,
5742
+ "grad_norm": 0.12613818049430847,
5743
+ "learning_rate": 7.904306764197168e-05,
5744
+ "loss": 11.4316,
5745
+ "step": 816
5746
+ },
5747
+ {
5748
+ "epoch": 0.03177659150355396,
5749
+ "grad_norm": 0.13009190559387207,
5750
+ "learning_rate": 7.882694522786974e-05,
5751
+ "loss": 11.4452,
5752
+ "step": 817
5753
+ },
5754
+ {
5755
+ "epoch": 0.03181548574040042,
5756
+ "grad_norm": 0.10820070654153824,
5757
+ "learning_rate": 7.861092630294484e-05,
5758
+ "loss": 11.4772,
5759
+ "step": 818
5760
+ },
5761
+ {
5762
+ "epoch": 0.03185437997724687,
5763
+ "grad_norm": 0.15169255435466766,
5764
+ "learning_rate": 7.839501192304947e-05,
5765
+ "loss": 11.4619,
5766
+ "step": 819
5767
+ },
5768
+ {
5769
+ "epoch": 0.031893274214093326,
5770
+ "grad_norm": 0.13594582676887512,
5771
+ "learning_rate": 7.817920314352503e-05,
5772
+ "loss": 11.4355,
5773
+ "step": 820
5774
+ },
5775
+ {
5776
+ "epoch": 0.03193216845093978,
5777
+ "grad_norm": 0.1923629492521286,
5778
+ "learning_rate": 7.796350101919671e-05,
5779
+ "loss": 11.4255,
5780
+ "step": 821
5781
+ },
5782
+ {
5783
+ "epoch": 0.03197106268778624,
5784
+ "grad_norm": 0.10615510493516922,
5785
+ "learning_rate": 7.774790660436858e-05,
5786
+ "loss": 11.4286,
5787
+ "step": 822
5788
+ },
5789
+ {
5790
+ "epoch": 0.032009956924632696,
5791
+ "grad_norm": 0.08784908056259155,
5792
+ "learning_rate": 7.753242095281802e-05,
5793
+ "loss": 11.4347,
5794
+ "step": 823
5795
+ },
5796
+ {
5797
+ "epoch": 0.032048851161479146,
5798
+ "grad_norm": 0.11678597331047058,
5799
+ "learning_rate": 7.731704511779099e-05,
5800
+ "loss": 11.4353,
5801
+ "step": 824
5802
+ },
5803
+ {
5804
+ "epoch": 0.0320877453983256,
5805
+ "grad_norm": 0.14838770031929016,
5806
+ "learning_rate": 7.710178015199655e-05,
5807
+ "loss": 11.465,
5808
+ "step": 825
5809
+ },
5810
+ {
5811
+ "epoch": 0.03212663963517206,
5812
+ "grad_norm": 0.09852113574743271,
5813
+ "learning_rate": 7.688662710760194e-05,
5814
+ "loss": 11.4075,
5815
+ "step": 826
5816
+ },
5817
+ {
5818
+ "epoch": 0.032165533872018516,
5819
+ "grad_norm": 0.09276288747787476,
5820
+ "learning_rate": 7.667158703622739e-05,
5821
+ "loss": 11.4557,
5822
+ "step": 827
5823
+ },
5824
+ {
5825
+ "epoch": 0.032204428108864966,
5826
+ "grad_norm": 0.10213444381952286,
5827
+ "learning_rate": 7.645666098894082e-05,
5828
+ "loss": 11.4035,
5829
+ "step": 828
5830
+ },
5831
+ {
5832
+ "epoch": 0.03224332234571142,
5833
+ "grad_norm": 0.1934029459953308,
5834
+ "learning_rate": 7.624185001625292e-05,
5835
+ "loss": 11.4614,
5836
+ "step": 829
5837
+ },
5838
+ {
5839
+ "epoch": 0.03228221658255788,
5840
+ "grad_norm": 0.09062288701534271,
5841
+ "learning_rate": 7.602715516811183e-05,
5842
+ "loss": 11.4192,
5843
+ "step": 830
5844
+ },
5845
+ {
5846
+ "epoch": 0.032321110819404336,
5847
+ "grad_norm": 0.12071729451417923,
5848
+ "learning_rate": 7.581257749389828e-05,
5849
+ "loss": 11.4517,
5850
+ "step": 831
5851
+ },
5852
+ {
5853
+ "epoch": 0.03236000505625079,
5854
+ "grad_norm": 0.18437331914901733,
5855
+ "learning_rate": 7.559811804242008e-05,
5856
+ "loss": 11.5739,
5857
+ "step": 832
5858
+ },
5859
+ {
5860
+ "epoch": 0.03239889929309724,
5861
+ "grad_norm": 0.1351187527179718,
5862
+ "learning_rate": 7.538377786190724e-05,
5863
+ "loss": 11.467,
5864
+ "step": 833
5865
+ },
5866
+ {
5867
+ "epoch": 0.0324377935299437,
5868
+ "grad_norm": 0.11380963027477264,
5869
+ "learning_rate": 7.516955800000696e-05,
5870
+ "loss": 11.4142,
5871
+ "step": 834
5872
+ },
5873
+ {
5874
+ "epoch": 0.032476687766790156,
5875
+ "grad_norm": 0.20516403019428253,
5876
+ "learning_rate": 7.49554595037781e-05,
5877
+ "loss": 11.4732,
5878
+ "step": 835
5879
+ },
5880
+ {
5881
+ "epoch": 0.03251558200363661,
5882
+ "grad_norm": 0.11636844277381897,
5883
+ "learning_rate": 7.474148341968652e-05,
5884
+ "loss": 11.4619,
5885
+ "step": 836
5886
+ },
5887
+ {
5888
+ "epoch": 0.03255447624048307,
5889
+ "grad_norm": 0.10400319844484329,
5890
+ "learning_rate": 7.45276307935996e-05,
5891
+ "loss": 11.4187,
5892
+ "step": 837
5893
+ },
5894
+ {
5895
+ "epoch": 0.03259337047732952,
5896
+ "grad_norm": 0.13016699254512787,
5897
+ "learning_rate": 7.431390267078142e-05,
5898
+ "loss": 11.4434,
5899
+ "step": 838
5900
+ },
5901
+ {
5902
+ "epoch": 0.032632264714175976,
5903
+ "grad_norm": 0.07082528620958328,
5904
+ "learning_rate": 7.410030009588744e-05,
5905
+ "loss": 11.4225,
5906
+ "step": 839
5907
+ },
5908
+ {
5909
+ "epoch": 0.03267115895102243,
5910
+ "grad_norm": 0.13742923736572266,
5911
+ "learning_rate": 7.388682411295946e-05,
5912
+ "loss": 11.4645,
5913
+ "step": 840
5914
+ },
5915
+ {
5916
+ "epoch": 0.03271005318786889,
5917
+ "grad_norm": 0.11265579611063004,
5918
+ "learning_rate": 7.367347576542059e-05,
5919
+ "loss": 11.4307,
5920
+ "step": 841
5921
+ },
5922
+ {
5923
+ "epoch": 0.03274894742471534,
5924
+ "grad_norm": 0.1302904635667801,
5925
+ "learning_rate": 7.346025609606996e-05,
5926
+ "loss": 11.4813,
5927
+ "step": 842
5928
+ },
5929
+ {
5930
+ "epoch": 0.032787841661561797,
5931
+ "grad_norm": 0.12135647982358932,
5932
+ "learning_rate": 7.324716614707793e-05,
5933
+ "loss": 11.4464,
5934
+ "step": 843
5935
+ },
5936
+ {
5937
+ "epoch": 0.03282673589840825,
5938
+ "grad_norm": 0.11820655316114426,
5939
+ "learning_rate": 7.30342069599807e-05,
5940
+ "loss": 11.4554,
5941
+ "step": 844
5942
+ },
5943
+ {
5944
+ "epoch": 0.03286563013525471,
5945
+ "grad_norm": 0.10697997361421585,
5946
+ "learning_rate": 7.282137957567528e-05,
5947
+ "loss": 11.4417,
5948
+ "step": 845
5949
+ },
5950
+ {
5951
+ "epoch": 0.03290452437210117,
5952
+ "grad_norm": 0.09324019402265549,
5953
+ "learning_rate": 7.260868503441466e-05,
5954
+ "loss": 11.4145,
5955
+ "step": 846
5956
+ },
5957
+ {
5958
+ "epoch": 0.03294341860894762,
5959
+ "grad_norm": 0.09825508296489716,
5960
+ "learning_rate": 7.23961243758023e-05,
5961
+ "loss": 11.4253,
5962
+ "step": 847
5963
+ },
5964
+ {
5965
+ "epoch": 0.03298231284579407,
5966
+ "grad_norm": 0.1215229257941246,
5967
+ "learning_rate": 7.218369863878744e-05,
5968
+ "loss": 11.4605,
5969
+ "step": 848
5970
+ },
5971
+ {
5972
+ "epoch": 0.03302120708264053,
5973
+ "grad_norm": 0.15956827998161316,
5974
+ "learning_rate": 7.197140886165969e-05,
5975
+ "loss": 11.4586,
5976
+ "step": 849
5977
+ },
5978
+ {
5979
+ "epoch": 0.03306010131948699,
5980
+ "grad_norm": 0.11994804441928864,
5981
+ "learning_rate": 7.175925608204428e-05,
5982
+ "loss": 11.4953,
5983
+ "step": 850
5984
+ },
5985
+ {
5986
+ "epoch": 0.033098995556333444,
5987
+ "grad_norm": 0.12891148030757904,
5988
+ "learning_rate": 7.154724133689677e-05,
5989
+ "loss": 11.4618,
5990
+ "step": 851
5991
+ },
5992
+ {
5993
+ "epoch": 0.033137889793179894,
5994
+ "grad_norm": 0.16294585168361664,
5995
+ "learning_rate": 7.133536566249794e-05,
5996
+ "loss": 11.4927,
5997
+ "step": 852
5998
+ },
5999
+ {
6000
+ "epoch": 0.03317678403002635,
6001
+ "grad_norm": 0.1092517077922821,
6002
+ "learning_rate": 7.112363009444903e-05,
6003
+ "loss": 11.4409,
6004
+ "step": 853
6005
+ },
6006
+ {
6007
+ "epoch": 0.03321567826687281,
6008
+ "grad_norm": 0.12596727907657623,
6009
+ "learning_rate": 7.091203566766622e-05,
6010
+ "loss": 11.4381,
6011
+ "step": 854
6012
+ },
6013
+ {
6014
+ "epoch": 0.033254572503719264,
6015
+ "grad_norm": 0.22151672840118408,
6016
+ "learning_rate": 7.070058341637605e-05,
6017
+ "loss": 11.4834,
6018
+ "step": 855
6019
+ },
6020
+ {
6021
+ "epoch": 0.033293466740565714,
6022
+ "grad_norm": 0.16800400614738464,
6023
+ "learning_rate": 7.048927437410999e-05,
6024
+ "loss": 11.4446,
6025
+ "step": 856
6026
+ },
6027
+ {
6028
+ "epoch": 0.03333236097741217,
6029
+ "grad_norm": 0.11195861548185349,
6030
+ "learning_rate": 7.027810957369957e-05,
6031
+ "loss": 11.4279,
6032
+ "step": 857
6033
+ },
6034
+ {
6035
+ "epoch": 0.03337125521425863,
6036
+ "grad_norm": 0.08265417069196701,
6037
+ "learning_rate": 7.006709004727139e-05,
6038
+ "loss": 11.4501,
6039
+ "step": 858
6040
+ },
6041
+ {
6042
+ "epoch": 0.033410149451105084,
6043
+ "grad_norm": 0.12703652679920197,
6044
+ "learning_rate": 6.985621682624183e-05,
6045
+ "loss": 11.48,
6046
+ "step": 859
6047
+ },
6048
+ {
6049
+ "epoch": 0.03344904368795154,
6050
+ "grad_norm": 0.14403915405273438,
6051
+ "learning_rate": 6.964549094131229e-05,
6052
+ "loss": 11.4881,
6053
+ "step": 860
6054
+ },
6055
+ {
6056
+ "epoch": 0.03348793792479799,
6057
+ "grad_norm": 0.07923027873039246,
6058
+ "learning_rate": 6.943491342246393e-05,
6059
+ "loss": 11.4331,
6060
+ "step": 861
6061
+ },
6062
+ {
6063
+ "epoch": 0.03352683216164445,
6064
+ "grad_norm": 0.16718092560768127,
6065
+ "learning_rate": 6.922448529895282e-05,
6066
+ "loss": 11.481,
6067
+ "step": 862
6068
+ },
6069
+ {
6070
+ "epoch": 0.033565726398490904,
6071
+ "grad_norm": 0.12445984780788422,
6072
+ "learning_rate": 6.901420759930473e-05,
6073
+ "loss": 11.4598,
6074
+ "step": 863
6075
+ },
6076
+ {
6077
+ "epoch": 0.03360462063533736,
6078
+ "grad_norm": 0.10626041144132614,
6079
+ "learning_rate": 6.880408135131022e-05,
6080
+ "loss": 11.4551,
6081
+ "step": 864
6082
+ },
6083
+ {
6084
+ "epoch": 0.03364351487218382,
6085
+ "grad_norm": 0.13476891815662384,
6086
+ "learning_rate": 6.85941075820197e-05,
6087
+ "loss": 11.4829,
6088
+ "step": 865
6089
+ },
6090
+ {
6091
+ "epoch": 0.03368240910903027,
6092
+ "grad_norm": 0.13352851569652557,
6093
+ "learning_rate": 6.838428731773806e-05,
6094
+ "loss": 11.485,
6095
+ "step": 866
6096
+ },
6097
+ {
6098
+ "epoch": 0.033721303345876724,
6099
+ "grad_norm": 0.11239789426326752,
6100
+ "learning_rate": 6.817462158402015e-05,
6101
+ "loss": 11.4483,
6102
+ "step": 867
6103
+ },
6104
+ {
6105
+ "epoch": 0.03376019758272318,
6106
+ "grad_norm": 0.08315054327249527,
6107
+ "learning_rate": 6.796511140566531e-05,
6108
+ "loss": 11.4452,
6109
+ "step": 868
6110
+ },
6111
+ {
6112
+ "epoch": 0.03379909181956964,
6113
+ "grad_norm": 0.22786268591880798,
6114
+ "learning_rate": 6.775575780671266e-05,
6115
+ "loss": 11.5424,
6116
+ "step": 869
6117
+ },
6118
+ {
6119
+ "epoch": 0.03383798605641609,
6120
+ "grad_norm": 0.17151309549808502,
6121
+ "learning_rate": 6.754656181043602e-05,
6122
+ "loss": 11.4625,
6123
+ "step": 870
6124
+ },
6125
+ {
6126
+ "epoch": 0.033876880293262544,
6127
+ "grad_norm": 0.13574554026126862,
6128
+ "learning_rate": 6.733752443933878e-05,
6129
+ "loss": 11.4441,
6130
+ "step": 871
6131
+ },
6132
+ {
6133
+ "epoch": 0.033915774530109,
6134
+ "grad_norm": 0.13274209201335907,
6135
+ "learning_rate": 6.712864671514911e-05,
6136
+ "loss": 11.4399,
6137
+ "step": 872
6138
+ },
6139
+ {
6140
+ "epoch": 0.03395466876695546,
6141
+ "grad_norm": 0.13931576907634735,
6142
+ "learning_rate": 6.691992965881475e-05,
6143
+ "loss": 11.4427,
6144
+ "step": 873
6145
+ },
6146
+ {
6147
+ "epoch": 0.033993563003801915,
6148
+ "grad_norm": 0.1982814520597458,
6149
+ "learning_rate": 6.671137429049827e-05,
6150
+ "loss": 11.4683,
6151
+ "step": 874
6152
+ },
6153
+ {
6154
+ "epoch": 0.034032457240648364,
6155
+ "grad_norm": 0.09911420941352844,
6156
+ "learning_rate": 6.650298162957183e-05,
6157
+ "loss": 11.4214,
6158
+ "step": 875
6159
+ },
6160
+ {
6161
+ "epoch": 0.03407135147749482,
6162
+ "grad_norm": 0.17978575825691223,
6163
+ "learning_rate": 6.629475269461234e-05,
6164
+ "loss": 11.4612,
6165
+ "step": 876
6166
+ },
6167
+ {
6168
+ "epoch": 0.03411024571434128,
6169
+ "grad_norm": 0.16942349076271057,
6170
+ "learning_rate": 6.608668850339652e-05,
6171
+ "loss": 11.4971,
6172
+ "step": 877
6173
+ },
6174
+ {
6175
+ "epoch": 0.034149139951187735,
6176
+ "grad_norm": 0.14842084050178528,
6177
+ "learning_rate": 6.587879007289576e-05,
6178
+ "loss": 11.4384,
6179
+ "step": 878
6180
+ },
6181
+ {
6182
+ "epoch": 0.03418803418803419,
6183
+ "grad_norm": 0.12057257443666458,
6184
+ "learning_rate": 6.567105841927132e-05,
6185
+ "loss": 11.4452,
6186
+ "step": 879
6187
+ },
6188
+ {
6189
+ "epoch": 0.03422692842488064,
6190
+ "grad_norm": 0.12537352740764618,
6191
+ "learning_rate": 6.546349455786926e-05,
6192
+ "loss": 11.4557,
6193
+ "step": 880
6194
+ },
6195
+ {
6196
+ "epoch": 0.0342658226617271,
6197
+ "grad_norm": 0.18904034793376923,
6198
+ "learning_rate": 6.525609950321552e-05,
6199
+ "loss": 11.4493,
6200
+ "step": 881
6201
+ },
6202
+ {
6203
+ "epoch": 0.034304716898573555,
6204
+ "grad_norm": 0.18003982305526733,
6205
+ "learning_rate": 6.50488742690109e-05,
6206
+ "loss": 11.4539,
6207
+ "step": 882
6208
+ },
6209
+ {
6210
+ "epoch": 0.03434361113542001,
6211
+ "grad_norm": 0.15979625284671783,
6212
+ "learning_rate": 6.484181986812625e-05,
6213
+ "loss": 11.553,
6214
+ "step": 883
6215
+ },
6216
+ {
6217
+ "epoch": 0.03438250537226646,
6218
+ "grad_norm": 0.10028652101755142,
6219
+ "learning_rate": 6.463493731259742e-05,
6220
+ "loss": 11.4449,
6221
+ "step": 884
6222
+ },
6223
+ {
6224
+ "epoch": 0.03442139960911292,
6225
+ "grad_norm": 0.22036820650100708,
6226
+ "learning_rate": 6.442822761362015e-05,
6227
+ "loss": 11.5304,
6228
+ "step": 885
6229
+ },
6230
+ {
6231
+ "epoch": 0.034460293845959375,
6232
+ "grad_norm": 0.1596294641494751,
6233
+ "learning_rate": 6.422169178154556e-05,
6234
+ "loss": 11.4617,
6235
+ "step": 886
6236
+ },
6237
+ {
6238
+ "epoch": 0.03449918808280583,
6239
+ "grad_norm": 0.23585407435894012,
6240
+ "learning_rate": 6.40153308258747e-05,
6241
+ "loss": 11.5596,
6242
+ "step": 887
6243
+ },
6244
+ {
6245
+ "epoch": 0.03453808231965229,
6246
+ "grad_norm": 0.134441077709198,
6247
+ "learning_rate": 6.3809145755254e-05,
6248
+ "loss": 11.4394,
6249
+ "step": 888
6250
+ },
6251
+ {
6252
+ "epoch": 0.03457697655649874,
6253
+ "grad_norm": 0.08511587977409363,
6254
+ "learning_rate": 6.360313757747022e-05,
6255
+ "loss": 11.4562,
6256
+ "step": 889
6257
+ },
6258
+ {
6259
+ "epoch": 0.034615870793345195,
6260
+ "grad_norm": 0.17673659324645996,
6261
+ "learning_rate": 6.33973072994454e-05,
6262
+ "loss": 11.4896,
6263
+ "step": 890
6264
+ },
6265
+ {
6266
+ "epoch": 0.03465476503019165,
6267
+ "grad_norm": 0.0889359638094902,
6268
+ "learning_rate": 6.319165592723218e-05,
6269
+ "loss": 11.4523,
6270
+ "step": 891
6271
+ },
6272
+ {
6273
+ "epoch": 0.03469365926703811,
6274
+ "grad_norm": 0.15608401596546173,
6275
+ "learning_rate": 6.298618446600856e-05,
6276
+ "loss": 11.4688,
6277
+ "step": 892
6278
+ },
6279
+ {
6280
+ "epoch": 0.034732553503884565,
6281
+ "grad_norm": 0.17957602441310883,
6282
+ "learning_rate": 6.278089392007343e-05,
6283
+ "loss": 11.4594,
6284
+ "step": 893
6285
+ },
6286
+ {
6287
+ "epoch": 0.034771447740731015,
6288
+ "grad_norm": 0.23120824992656708,
6289
+ "learning_rate": 6.257578529284113e-05,
6290
+ "loss": 11.5103,
6291
+ "step": 894
6292
+ },
6293
+ {
6294
+ "epoch": 0.03481034197757747,
6295
+ "grad_norm": 0.10850831866264343,
6296
+ "learning_rate": 6.237085958683704e-05,
6297
+ "loss": 11.467,
6298
+ "step": 895
6299
+ },
6300
+ {
6301
+ "epoch": 0.03484923621442393,
6302
+ "grad_norm": 0.06931223720312119,
6303
+ "learning_rate": 6.216611780369238e-05,
6304
+ "loss": 11.4337,
6305
+ "step": 896
6306
+ },
6307
+ {
6308
+ "epoch": 0.034888130451270385,
6309
+ "grad_norm": 0.1407434195280075,
6310
+ "learning_rate": 6.196156094413934e-05,
6311
+ "loss": 11.4687,
6312
+ "step": 897
6313
+ },
6314
+ {
6315
+ "epoch": 0.034927024688116835,
6316
+ "grad_norm": 0.17006301879882812,
6317
+ "learning_rate": 6.175719000800637e-05,
6318
+ "loss": 11.4503,
6319
+ "step": 898
6320
+ },
6321
+ {
6322
+ "epoch": 0.03496591892496329,
6323
+ "grad_norm": 0.10757336020469666,
6324
+ "learning_rate": 6.155300599421306e-05,
6325
+ "loss": 11.4638,
6326
+ "step": 899
6327
+ },
6328
+ {
6329
+ "epoch": 0.03500481316180975,
6330
+ "grad_norm": 0.10327316075563431,
6331
+ "learning_rate": 6.134900990076541e-05,
6332
+ "loss": 11.4722,
6333
+ "step": 900
6334
+ },
6335
+ {
6336
+ "epoch": 0.035043707398656206,
6337
+ "grad_norm": 0.10495606809854507,
6338
+ "learning_rate": 6.114520272475088e-05,
6339
+ "loss": 11.4596,
6340
+ "step": 901
6341
+ },
6342
+ {
6343
+ "epoch": 0.03508260163550266,
6344
+ "grad_norm": 0.17221322655677795,
6345
+ "learning_rate": 6.094158546233359e-05,
6346
+ "loss": 11.4826,
6347
+ "step": 902
6348
+ },
6349
+ {
6350
+ "epoch": 0.03512149587234911,
6351
+ "grad_norm": 0.16179487109184265,
6352
+ "learning_rate": 6.073815910874942e-05,
6353
+ "loss": 11.4734,
6354
+ "step": 903
6355
+ },
6356
+ {
6357
+ "epoch": 0.03516039010919557,
6358
+ "grad_norm": 0.1274636834859848,
6359
+ "learning_rate": 6.053492465830097e-05,
6360
+ "loss": 11.4439,
6361
+ "step": 904
6362
+ },
6363
+ {
6364
+ "epoch": 0.035199284346042026,
6365
+ "grad_norm": 0.11228005588054657,
6366
+ "learning_rate": 6.0331883104353115e-05,
6367
+ "loss": 11.4514,
6368
+ "step": 905
6369
+ },
6370
+ {
6371
+ "epoch": 0.03523817858288848,
6372
+ "grad_norm": 0.17040938138961792,
6373
+ "learning_rate": 6.012903543932766e-05,
6374
+ "loss": 11.4617,
6375
+ "step": 906
6376
+ },
6377
+ {
6378
+ "epoch": 0.03527707281973493,
6379
+ "grad_norm": 0.15520794689655304,
6380
+ "learning_rate": 5.9926382654698857e-05,
6381
+ "loss": 11.4857,
6382
+ "step": 907
6383
+ },
6384
+ {
6385
+ "epoch": 0.03531596705658139,
6386
+ "grad_norm": 0.12189356982707977,
6387
+ "learning_rate": 5.972392574098844e-05,
6388
+ "loss": 11.4562,
6389
+ "step": 908
6390
+ },
6391
+ {
6392
+ "epoch": 0.035354861293427846,
6393
+ "grad_norm": 0.0995606780052185,
6394
+ "learning_rate": 5.952166568776062e-05,
6395
+ "loss": 11.4251,
6396
+ "step": 909
6397
+ },
6398
+ {
6399
+ "epoch": 0.0353937555302743,
6400
+ "grad_norm": 0.1529882550239563,
6401
+ "learning_rate": 5.931960348361759e-05,
6402
+ "loss": 11.4374,
6403
+ "step": 910
6404
+ },
6405
+ {
6406
+ "epoch": 0.03543264976712076,
6407
+ "grad_norm": 0.12336838990449905,
6408
+ "learning_rate": 5.9117740116194375e-05,
6409
+ "loss": 11.4488,
6410
+ "step": 911
6411
+ },
6412
+ {
6413
+ "epoch": 0.03547154400396721,
6414
+ "grad_norm": 0.11592377722263336,
6415
+ "learning_rate": 5.8916076572154165e-05,
6416
+ "loss": 11.4422,
6417
+ "step": 912
6418
+ },
6419
+ {
6420
+ "epoch": 0.035510438240813666,
6421
+ "grad_norm": 0.15878193080425262,
6422
+ "learning_rate": 5.871461383718344e-05,
6423
+ "loss": 11.4852,
6424
+ "step": 913
6425
+ },
6426
+ {
6427
+ "epoch": 0.03554933247766012,
6428
+ "grad_norm": 0.14143121242523193,
6429
+ "learning_rate": 5.851335289598722e-05,
6430
+ "loss": 11.4936,
6431
+ "step": 914
6432
+ },
6433
+ {
6434
+ "epoch": 0.03558822671450658,
6435
+ "grad_norm": 0.20466415584087372,
6436
+ "learning_rate": 5.831229473228418e-05,
6437
+ "loss": 11.5021,
6438
+ "step": 915
6439
+ },
6440
+ {
6441
+ "epoch": 0.035627120951353036,
6442
+ "grad_norm": 0.1679922640323639,
6443
+ "learning_rate": 5.811144032880182e-05,
6444
+ "loss": 11.4565,
6445
+ "step": 916
6446
+ },
6447
+ {
6448
+ "epoch": 0.035666015188199486,
6449
+ "grad_norm": 0.11905571073293686,
6450
+ "learning_rate": 5.791079066727174e-05,
6451
+ "loss": 11.4342,
6452
+ "step": 917
6453
+ },
6454
+ {
6455
+ "epoch": 0.03570490942504594,
6456
+ "grad_norm": 0.08226253092288971,
6457
+ "learning_rate": 5.7710346728424836e-05,
6458
+ "loss": 11.4062,
6459
+ "step": 918
6460
+ },
6461
+ {
6462
+ "epoch": 0.0357438036618924,
6463
+ "grad_norm": 0.1482539027929306,
6464
+ "learning_rate": 5.751010949198643e-05,
6465
+ "loss": 11.4366,
6466
+ "step": 919
6467
+ },
6468
+ {
6469
+ "epoch": 0.035782697898738856,
6470
+ "grad_norm": 0.10693041235208511,
6471
+ "learning_rate": 5.7310079936671545e-05,
6472
+ "loss": 11.4555,
6473
+ "step": 920
6474
+ },
6475
+ {
6476
+ "epoch": 0.035821592135585306,
6477
+ "grad_norm": 0.16853336989879608,
6478
+ "learning_rate": 5.711025904018013e-05,
6479
+ "loss": 11.4451,
6480
+ "step": 921
6481
+ },
6482
+ {
6483
+ "epoch": 0.03586048637243176,
6484
+ "grad_norm": 0.16642871499061584,
6485
+ "learning_rate": 5.691064777919223e-05,
6486
+ "loss": 11.4352,
6487
+ "step": 922
6488
+ },
6489
+ {
6490
+ "epoch": 0.03589938060927822,
6491
+ "grad_norm": 0.11272871494293213,
6492
+ "learning_rate": 5.6711247129363156e-05,
6493
+ "loss": 11.4952,
6494
+ "step": 923
6495
+ },
6496
+ {
6497
+ "epoch": 0.035938274846124676,
6498
+ "grad_norm": 0.13608944416046143,
6499
+ "learning_rate": 5.651205806531903e-05,
6500
+ "loss": 11.4288,
6501
+ "step": 924
6502
+ },
6503
+ {
6504
+ "epoch": 0.03597716908297113,
6505
+ "grad_norm": 0.14277823269367218,
6506
+ "learning_rate": 5.631308156065152e-05,
6507
+ "loss": 11.4076,
6508
+ "step": 925
6509
+ },
6510
+ {
6511
+ "epoch": 0.03601606331981758,
6512
+ "grad_norm": 0.10945692658424377,
6513
+ "learning_rate": 5.611431858791348e-05,
6514
+ "loss": 11.4533,
6515
+ "step": 926
6516
+ },
6517
+ {
6518
+ "epoch": 0.03605495755666404,
6519
+ "grad_norm": 0.10961952060461044,
6520
+ "learning_rate": 5.59157701186142e-05,
6521
+ "loss": 11.473,
6522
+ "step": 927
6523
+ },
6524
+ {
6525
+ "epoch": 0.0360938517935105,
6526
+ "grad_norm": 0.08197829127311707,
6527
+ "learning_rate": 5.571743712321422e-05,
6528
+ "loss": 11.4289,
6529
+ "step": 928
6530
+ },
6531
+ {
6532
+ "epoch": 0.03613274603035695,
6533
+ "grad_norm": 0.11842351406812668,
6534
+ "learning_rate": 5.551932057112115e-05,
6535
+ "loss": 11.4473,
6536
+ "step": 929
6537
+ },
6538
+ {
6539
+ "epoch": 0.03617164026720341,
6540
+ "grad_norm": 0.14072228968143463,
6541
+ "learning_rate": 5.532142143068455e-05,
6542
+ "loss": 11.4301,
6543
+ "step": 930
6544
+ },
6545
+ {
6546
+ "epoch": 0.03621053450404986,
6547
+ "grad_norm": 0.1937941163778305,
6548
+ "learning_rate": 5.512374066919137e-05,
6549
+ "loss": 11.4606,
6550
+ "step": 931
6551
+ },
6552
+ {
6553
+ "epoch": 0.03624942874089632,
6554
+ "grad_norm": 0.13401161134243011,
6555
+ "learning_rate": 5.492627925286113e-05,
6556
+ "loss": 11.4766,
6557
+ "step": 932
6558
+ },
6559
+ {
6560
+ "epoch": 0.036288322977742773,
6561
+ "grad_norm": 0.11659156531095505,
6562
+ "learning_rate": 5.4729038146841294e-05,
6563
+ "loss": 11.4341,
6564
+ "step": 933
6565
+ },
6566
+ {
6567
+ "epoch": 0.03632721721458923,
6568
+ "grad_norm": 0.14816398918628693,
6569
+ "learning_rate": 5.453201831520245e-05,
6570
+ "loss": 11.4842,
6571
+ "step": 934
6572
+ },
6573
+ {
6574
+ "epoch": 0.03636611145143568,
6575
+ "grad_norm": 0.15731480717658997,
6576
+ "learning_rate": 5.4335220720933664e-05,
6577
+ "loss": 11.4512,
6578
+ "step": 935
6579
+ },
6580
+ {
6581
+ "epoch": 0.03640500568828214,
6582
+ "grad_norm": 0.10614141076803207,
6583
+ "learning_rate": 5.4138646325937813e-05,
6584
+ "loss": 11.4329,
6585
+ "step": 936
6586
+ },
6587
+ {
6588
+ "epoch": 0.036443899925128594,
6589
+ "grad_norm": 0.13888613879680634,
6590
+ "learning_rate": 5.3942296091026656e-05,
6591
+ "loss": 11.4717,
6592
+ "step": 937
6593
+ },
6594
+ {
6595
+ "epoch": 0.03648279416197505,
6596
+ "grad_norm": 0.14382483065128326,
6597
+ "learning_rate": 5.37461709759165e-05,
6598
+ "loss": 11.4275,
6599
+ "step": 938
6600
+ },
6601
+ {
6602
+ "epoch": 0.03652168839882151,
6603
+ "grad_norm": 0.11295495927333832,
6604
+ "learning_rate": 5.3550271939223195e-05,
6605
+ "loss": 11.4522,
6606
+ "step": 939
6607
+ },
6608
+ {
6609
+ "epoch": 0.03656058263566796,
6610
+ "grad_norm": 0.28914937376976013,
6611
+ "learning_rate": 5.335459993845764e-05,
6612
+ "loss": 11.5041,
6613
+ "step": 940
6614
+ },
6615
+ {
6616
+ "epoch": 0.036599476872514414,
6617
+ "grad_norm": 0.16712334752082825,
6618
+ "learning_rate": 5.3159155930021e-05,
6619
+ "loss": 11.4382,
6620
+ "step": 941
6621
+ },
6622
+ {
6623
+ "epoch": 0.03663837110936087,
6624
+ "grad_norm": 0.22522681951522827,
6625
+ "learning_rate": 5.2963940869200056e-05,
6626
+ "loss": 11.5194,
6627
+ "step": 942
6628
+ },
6629
+ {
6630
+ "epoch": 0.03667726534620733,
6631
+ "grad_norm": 0.10965728759765625,
6632
+ "learning_rate": 5.276895571016257e-05,
6633
+ "loss": 11.4299,
6634
+ "step": 943
6635
+ },
6636
+ {
6637
+ "epoch": 0.036716159583053784,
6638
+ "grad_norm": 0.11578682065010071,
6639
+ "learning_rate": 5.257420140595257e-05,
6640
+ "loss": 11.4538,
6641
+ "step": 944
6642
+ },
6643
+ {
6644
+ "epoch": 0.036755053819900234,
6645
+ "grad_norm": 0.10459594428539276,
6646
+ "learning_rate": 5.237967890848574e-05,
6647
+ "loss": 11.4419,
6648
+ "step": 945
6649
+ },
6650
+ {
6651
+ "epoch": 0.03679394805674669,
6652
+ "grad_norm": 0.1656852513551712,
6653
+ "learning_rate": 5.218538916854473e-05,
6654
+ "loss": 11.4236,
6655
+ "step": 946
6656
+ },
6657
+ {
6658
+ "epoch": 0.03683284229359315,
6659
+ "grad_norm": 0.1385713666677475,
6660
+ "learning_rate": 5.1991333135774525e-05,
6661
+ "loss": 11.4504,
6662
+ "step": 947
6663
+ },
6664
+ {
6665
+ "epoch": 0.036871736530439604,
6666
+ "grad_norm": 0.15063555538654327,
6667
+ "learning_rate": 5.179751175867784e-05,
6668
+ "loss": 11.4632,
6669
+ "step": 948
6670
+ },
6671
+ {
6672
+ "epoch": 0.036910630767286054,
6673
+ "grad_norm": 0.13096244633197784,
6674
+ "learning_rate": 5.1603925984610326e-05,
6675
+ "loss": 11.4364,
6676
+ "step": 949
6677
+ },
6678
+ {
6679
+ "epoch": 0.03694952500413251,
6680
+ "grad_norm": 0.11817897111177444,
6681
+ "learning_rate": 5.141057675977619e-05,
6682
+ "loss": 11.4361,
6683
+ "step": 950
6684
+ },
6685
+ {
6686
+ "epoch": 0.03698841924097897,
6687
+ "grad_norm": 0.10221054404973984,
6688
+ "learning_rate": 5.1217465029223375e-05,
6689
+ "loss": 11.4402,
6690
+ "step": 951
6691
+ },
6692
+ {
6693
+ "epoch": 0.037027313477825424,
6694
+ "grad_norm": 0.13744771480560303,
6695
+ "learning_rate": 5.102459173683903e-05,
6696
+ "loss": 11.5,
6697
+ "step": 952
6698
+ },
6699
+ {
6700
+ "epoch": 0.03706620771467188,
6701
+ "grad_norm": 0.19383054971694946,
6702
+ "learning_rate": 5.0831957825344865e-05,
6703
+ "loss": 11.5256,
6704
+ "step": 953
6705
+ },
6706
+ {
6707
+ "epoch": 0.03710510195151833,
6708
+ "grad_norm": 0.1514645218849182,
6709
+ "learning_rate": 5.063956423629255e-05,
6710
+ "loss": 11.4661,
6711
+ "step": 954
6712
+ },
6713
+ {
6714
+ "epoch": 0.03714399618836479,
6715
+ "grad_norm": 0.11683838069438934,
6716
+ "learning_rate": 5.044741191005908e-05,
6717
+ "loss": 11.4504,
6718
+ "step": 955
6719
+ },
6720
+ {
6721
+ "epoch": 0.037182890425211244,
6722
+ "grad_norm": 0.11084909737110138,
6723
+ "learning_rate": 5.025550178584226e-05,
6724
+ "loss": 11.4211,
6725
+ "step": 956
6726
+ },
6727
+ {
6728
+ "epoch": 0.0372217846620577,
6729
+ "grad_norm": 0.20357000827789307,
6730
+ "learning_rate": 5.0063834801656084e-05,
6731
+ "loss": 11.4345,
6732
+ "step": 957
6733
+ },
6734
+ {
6735
+ "epoch": 0.03726067889890416,
6736
+ "grad_norm": 0.1357165426015854,
6737
+ "learning_rate": 4.9872411894325965e-05,
6738
+ "loss": 11.4705,
6739
+ "step": 958
6740
+ },
6741
+ {
6742
+ "epoch": 0.03729957313575061,
6743
+ "grad_norm": 0.15270249545574188,
6744
+ "learning_rate": 4.9681233999484564e-05,
6745
+ "loss": 11.4765,
6746
+ "step": 959
6747
+ },
6748
+ {
6749
+ "epoch": 0.037338467372597064,
6750
+ "grad_norm": 0.097058966755867,
6751
+ "learning_rate": 4.9490302051566886e-05,
6752
+ "loss": 11.4642,
6753
+ "step": 960
6754
+ },
6755
+ {
6756
+ "epoch": 0.03737736160944352,
6757
+ "grad_norm": 0.11222375929355621,
6758
+ "learning_rate": 4.929961698380564e-05,
6759
+ "loss": 11.4392,
6760
+ "step": 961
6761
+ },
6762
+ {
6763
+ "epoch": 0.03741625584628998,
6764
+ "grad_norm": 0.11173541843891144,
6765
+ "learning_rate": 4.910917972822713e-05,
6766
+ "loss": 11.4275,
6767
+ "step": 962
6768
+ },
6769
+ {
6770
+ "epoch": 0.03745515008313643,
6771
+ "grad_norm": 0.21483619511127472,
6772
+ "learning_rate": 4.891899121564615e-05,
6773
+ "loss": 11.4803,
6774
+ "step": 963
6775
+ },
6776
+ {
6777
+ "epoch": 0.037494044319982885,
6778
+ "grad_norm": 0.10671492666006088,
6779
+ "learning_rate": 4.872905237566183e-05,
6780
+ "loss": 11.4381,
6781
+ "step": 964
6782
+ },
6783
+ {
6784
+ "epoch": 0.03753293855682934,
6785
+ "grad_norm": 0.12410018593072891,
6786
+ "learning_rate": 4.853936413665294e-05,
6787
+ "loss": 11.4423,
6788
+ "step": 965
6789
+ },
6790
+ {
6791
+ "epoch": 0.0375718327936758,
6792
+ "grad_norm": 0.13656941056251526,
6793
+ "learning_rate": 4.8349927425773345e-05,
6794
+ "loss": 11.4282,
6795
+ "step": 966
6796
+ },
6797
+ {
6798
+ "epoch": 0.037610727030522255,
6799
+ "grad_norm": 0.1547286957502365,
6800
+ "learning_rate": 4.8160743168947496e-05,
6801
+ "loss": 11.4462,
6802
+ "step": 967
6803
+ },
6804
+ {
6805
+ "epoch": 0.037649621267368705,
6806
+ "grad_norm": 0.10143474489450455,
6807
+ "learning_rate": 4.797181229086594e-05,
6808
+ "loss": 11.4454,
6809
+ "step": 968
6810
+ },
6811
+ {
6812
+ "epoch": 0.03768851550421516,
6813
+ "grad_norm": 0.13370105624198914,
6814
+ "learning_rate": 4.7783135714980744e-05,
6815
+ "loss": 11.4257,
6816
+ "step": 969
6817
+ },
6818
+ {
6819
+ "epoch": 0.03772740974106162,
6820
+ "grad_norm": 0.16253124177455902,
6821
+ "learning_rate": 4.7594714363500915e-05,
6822
+ "loss": 11.4393,
6823
+ "step": 970
6824
+ },
6825
+ {
6826
+ "epoch": 0.037766303977908075,
6827
+ "grad_norm": 0.14151079952716827,
6828
+ "learning_rate": 4.7406549157388156e-05,
6829
+ "loss": 11.4231,
6830
+ "step": 971
6831
+ },
6832
+ {
6833
+ "epoch": 0.03780519821475453,
6834
+ "grad_norm": 0.13136602938175201,
6835
+ "learning_rate": 4.721864101635211e-05,
6836
+ "loss": 11.4503,
6837
+ "step": 972
6838
+ },
6839
+ {
6840
+ "epoch": 0.03784409245160098,
6841
+ "grad_norm": 0.11752691119909286,
6842
+ "learning_rate": 4.70309908588458e-05,
6843
+ "loss": 11.431,
6844
+ "step": 973
6845
+ },
6846
+ {
6847
+ "epoch": 0.03788298668844744,
6848
+ "grad_norm": 0.13689513504505157,
6849
+ "learning_rate": 4.6843599602061583e-05,
6850
+ "loss": 11.4344,
6851
+ "step": 974
6852
+ },
6853
+ {
6854
+ "epoch": 0.037921880925293895,
6855
+ "grad_norm": 0.1035035029053688,
6856
+ "learning_rate": 4.665646816192606e-05,
6857
+ "loss": 11.4391,
6858
+ "step": 975
6859
+ },
6860
+ {
6861
+ "epoch": 0.03796077516214035,
6862
+ "grad_norm": 0.1925671100616455,
6863
+ "learning_rate": 4.646959745309609e-05,
6864
+ "loss": 11.459,
6865
+ "step": 976
6866
+ },
6867
+ {
6868
+ "epoch": 0.0379996693989868,
6869
+ "grad_norm": 0.17556695640087128,
6870
+ "learning_rate": 4.62829883889541e-05,
6871
+ "loss": 11.4547,
6872
+ "step": 977
6873
+ },
6874
+ {
6875
+ "epoch": 0.03803856363583326,
6876
+ "grad_norm": 0.15916649997234344,
6877
+ "learning_rate": 4.609664188160362e-05,
6878
+ "loss": 11.4699,
6879
+ "step": 978
6880
+ },
6881
+ {
6882
+ "epoch": 0.038077457872679715,
6883
+ "grad_norm": 0.15165077149868011,
6884
+ "learning_rate": 4.591055884186489e-05,
6885
+ "loss": 11.4279,
6886
+ "step": 979
6887
+ },
6888
+ {
6889
+ "epoch": 0.03811635210952617,
6890
+ "grad_norm": 0.13335153460502625,
6891
+ "learning_rate": 4.572474017927038e-05,
6892
+ "loss": 11.4491,
6893
+ "step": 980
6894
+ },
6895
+ {
6896
+ "epoch": 0.03815524634637263,
6897
+ "grad_norm": 0.12981079518795013,
6898
+ "learning_rate": 4.553918680206037e-05,
6899
+ "loss": 11.4268,
6900
+ "step": 981
6901
+ },
6902
+ {
6903
+ "epoch": 0.03819414058321908,
6904
+ "grad_norm": 0.17829671502113342,
6905
+ "learning_rate": 4.535389961717834e-05,
6906
+ "loss": 11.4539,
6907
+ "step": 982
6908
+ },
6909
+ {
6910
+ "epoch": 0.038233034820065535,
6911
+ "grad_norm": 0.17136840522289276,
6912
+ "learning_rate": 4.516887953026691e-05,
6913
+ "loss": 11.5136,
6914
+ "step": 983
6915
+ },
6916
+ {
6917
+ "epoch": 0.03827192905691199,
6918
+ "grad_norm": 0.13877429068088531,
6919
+ "learning_rate": 4.498412744566305e-05,
6920
+ "loss": 11.4558,
6921
+ "step": 984
6922
+ },
6923
+ {
6924
+ "epoch": 0.03831082329375845,
6925
+ "grad_norm": 0.16534513235092163,
6926
+ "learning_rate": 4.47996442663937e-05,
6927
+ "loss": 11.4867,
6928
+ "step": 985
6929
+ },
6930
+ {
6931
+ "epoch": 0.038349717530604906,
6932
+ "grad_norm": 0.1574074625968933,
6933
+ "learning_rate": 4.461543089417173e-05,
6934
+ "loss": 11.4415,
6935
+ "step": 986
6936
+ },
6937
+ {
6938
+ "epoch": 0.038388611767451356,
6939
+ "grad_norm": 0.2112518548965454,
6940
+ "learning_rate": 4.443148822939095e-05,
6941
+ "loss": 11.4709,
6942
+ "step": 987
6943
+ },
6944
+ {
6945
+ "epoch": 0.03842750600429781,
6946
+ "grad_norm": 0.18481174111366272,
6947
+ "learning_rate": 4.42478171711222e-05,
6948
+ "loss": 11.4723,
6949
+ "step": 988
6950
+ },
6951
+ {
6952
+ "epoch": 0.03846640024114427,
6953
+ "grad_norm": 0.1394161880016327,
6954
+ "learning_rate": 4.406441861710871e-05,
6955
+ "loss": 11.4503,
6956
+ "step": 989
6957
+ },
6958
+ {
6959
+ "epoch": 0.038505294477990726,
6960
+ "grad_norm": 0.11776059120893478,
6961
+ "learning_rate": 4.388129346376178e-05,
6962
+ "loss": 11.4752,
6963
+ "step": 990
6964
+ },
6965
+ {
6966
+ "epoch": 0.038544188714837176,
6967
+ "grad_norm": 0.1907920092344284,
6968
+ "learning_rate": 4.369844260615635e-05,
6969
+ "loss": 11.4634,
6970
+ "step": 991
6971
+ },
6972
+ {
6973
+ "epoch": 0.03858308295168363,
6974
+ "grad_norm": 0.16755948960781097,
6975
+ "learning_rate": 4.351586693802674e-05,
6976
+ "loss": 11.4734,
6977
+ "step": 992
6978
+ },
6979
+ {
6980
+ "epoch": 0.03862197718853009,
6981
+ "grad_norm": 0.10538428276777267,
6982
+ "learning_rate": 4.333356735176218e-05,
6983
+ "loss": 11.431,
6984
+ "step": 993
6985
+ },
6986
+ {
6987
+ "epoch": 0.038660871425376546,
6988
+ "grad_norm": 0.18529963493347168,
6989
+ "learning_rate": 4.315154473840235e-05,
6990
+ "loss": 11.5198,
6991
+ "step": 994
6992
+ },
6993
+ {
6994
+ "epoch": 0.038699765662223,
6995
+ "grad_norm": 0.1970740407705307,
6996
+ "learning_rate": 4.296979998763338e-05,
6997
+ "loss": 11.4301,
6998
+ "step": 995
6999
+ },
7000
+ {
7001
+ "epoch": 0.03873865989906945,
7002
+ "grad_norm": 0.14860780537128448,
7003
+ "learning_rate": 4.278833398778306e-05,
7004
+ "loss": 11.4689,
7005
+ "step": 996
7006
+ },
7007
+ {
7008
+ "epoch": 0.03877755413591591,
7009
+ "grad_norm": 0.16582021117210388,
7010
+ "learning_rate": 4.260714762581677e-05,
7011
+ "loss": 11.4262,
7012
+ "step": 997
7013
+ },
7014
+ {
7015
+ "epoch": 0.038816448372762366,
7016
+ "grad_norm": 0.11632680147886276,
7017
+ "learning_rate": 4.242624178733322e-05,
7018
+ "loss": 11.4374,
7019
+ "step": 998
7020
+ },
7021
+ {
7022
+ "epoch": 0.03885534260960882,
7023
+ "grad_norm": 0.20491375029087067,
7024
+ "learning_rate": 4.224561735655977e-05,
7025
+ "loss": 11.4342,
7026
+ "step": 999
7027
+ },
7028
+ {
7029
+ "epoch": 0.03889423684645528,
7030
+ "grad_norm": 0.10806465148925781,
7031
+ "learning_rate": 4.206527521634842e-05,
7032
+ "loss": 11.4343,
7033
+ "step": 1000
7034
+ },
7035
+ {
7036
+ "epoch": 0.03893313108330173,
7037
+ "grad_norm": 0.1917140781879425,
7038
+ "learning_rate": 4.1885216248171425e-05,
7039
+ "loss": 11.4662,
7040
+ "step": 1001
7041
+ },
7042
+ {
7043
+ "epoch": 0.038972025320148186,
7044
+ "grad_norm": 0.1264260858297348,
7045
+ "learning_rate": 4.17054413321169e-05,
7046
+ "loss": 11.4654,
7047
+ "step": 1002
7048
+ },
7049
+ {
7050
+ "epoch": 0.03901091955699464,
7051
+ "grad_norm": 0.10900475829839706,
7052
+ "learning_rate": 4.152595134688464e-05,
7053
+ "loss": 11.4422,
7054
+ "step": 1003
7055
+ },
7056
+ {
7057
+ "epoch": 0.0390498137938411,
7058
+ "grad_norm": 0.10250162333250046,
7059
+ "learning_rate": 4.13467471697817e-05,
7060
+ "loss": 11.4218,
7061
+ "step": 1004
7062
+ },
7063
+ {
7064
+ "epoch": 0.03908870803068755,
7065
+ "grad_norm": 0.11095335334539413,
7066
+ "learning_rate": 4.1167829676718225e-05,
7067
+ "loss": 11.4274,
7068
+ "step": 1005
7069
+ },
7070
+ {
7071
+ "epoch": 0.039127602267534006,
7072
+ "grad_norm": 0.12225431948900223,
7073
+ "learning_rate": 4.0989199742203e-05,
7074
+ "loss": 11.4403,
7075
+ "step": 1006
7076
+ },
7077
+ {
7078
+ "epoch": 0.03916649650438046,
7079
+ "grad_norm": 0.10829450935125351,
7080
+ "learning_rate": 4.081085823933949e-05,
7081
+ "loss": 11.4363,
7082
+ "step": 1007
7083
+ },
7084
+ {
7085
+ "epoch": 0.03920539074122692,
7086
+ "grad_norm": 0.15065525472164154,
7087
+ "learning_rate": 4.0632806039821145e-05,
7088
+ "loss": 11.4778,
7089
+ "step": 1008
7090
+ },
7091
+ {
7092
+ "epoch": 0.03924428497807338,
7093
+ "grad_norm": 0.13061833381652832,
7094
+ "learning_rate": 4.045504401392749e-05,
7095
+ "loss": 11.4449,
7096
+ "step": 1009
7097
+ },
7098
+ {
7099
+ "epoch": 0.039283179214919826,
7100
+ "grad_norm": 0.13270919024944305,
7101
+ "learning_rate": 4.02775730305198e-05,
7102
+ "loss": 11.4269,
7103
+ "step": 1010
7104
+ },
7105
+ {
7106
+ "epoch": 0.03932207345176628,
7107
+ "grad_norm": 0.11030741780996323,
7108
+ "learning_rate": 4.010039395703664e-05,
7109
+ "loss": 11.4468,
7110
+ "step": 1011
7111
+ },
7112
+ {
7113
+ "epoch": 0.03936096768861274,
7114
+ "grad_norm": 0.17667675018310547,
7115
+ "learning_rate": 3.99235076594899e-05,
7116
+ "loss": 11.4739,
7117
+ "step": 1012
7118
+ },
7119
+ {
7120
+ "epoch": 0.0393998619254592,
7121
+ "grad_norm": 0.17058613896369934,
7122
+ "learning_rate": 3.9746915002460405e-05,
7123
+ "loss": 11.4725,
7124
+ "step": 1013
7125
+ },
7126
+ {
7127
+ "epoch": 0.03943875616230565,
7128
+ "grad_norm": 0.1783858984708786,
7129
+ "learning_rate": 3.9570616849093745e-05,
7130
+ "loss": 11.4287,
7131
+ "step": 1014
7132
+ },
7133
+ {
7134
+ "epoch": 0.0394776503991521,
7135
+ "grad_norm": 0.13282090425491333,
7136
+ "learning_rate": 3.939461406109605e-05,
7137
+ "loss": 11.443,
7138
+ "step": 1015
7139
+ },
7140
+ {
7141
+ "epoch": 0.03951654463599856,
7142
+ "grad_norm": 0.1711062490940094,
7143
+ "learning_rate": 3.921890749872973e-05,
7144
+ "loss": 11.4178,
7145
+ "step": 1016
7146
+ },
7147
+ {
7148
+ "epoch": 0.03955543887284502,
7149
+ "grad_norm": 0.10078589618206024,
7150
+ "learning_rate": 3.90434980208094e-05,
7151
+ "loss": 11.438,
7152
+ "step": 1017
7153
+ },
7154
+ {
7155
+ "epoch": 0.039594333109691474,
7156
+ "grad_norm": 0.11982541531324387,
7157
+ "learning_rate": 3.8868386484697417e-05,
7158
+ "loss": 11.4521,
7159
+ "step": 1018
7160
+ },
7161
+ {
7162
+ "epoch": 0.03963322734653792,
7163
+ "grad_norm": 0.13653124868869781,
7164
+ "learning_rate": 3.869357374630011e-05,
7165
+ "loss": 11.4497,
7166
+ "step": 1019
7167
+ },
7168
+ {
7169
+ "epoch": 0.03967212158338438,
7170
+ "grad_norm": 0.15596039593219757,
7171
+ "learning_rate": 3.851906066006311e-05,
7172
+ "loss": 11.4674,
7173
+ "step": 1020
7174
+ },
7175
+ {
7176
+ "epoch": 0.03971101582023084,
7177
+ "grad_norm": 0.13571912050247192,
7178
+ "learning_rate": 3.834484807896753e-05,
7179
+ "loss": 11.4646,
7180
+ "step": 1021
7181
+ },
7182
+ {
7183
+ "epoch": 0.039749910057077294,
7184
+ "grad_norm": 0.14839304983615875,
7185
+ "learning_rate": 3.817093685452578e-05,
7186
+ "loss": 11.4354,
7187
+ "step": 1022
7188
+ },
7189
+ {
7190
+ "epoch": 0.03978880429392375,
7191
+ "grad_norm": 0.11423840373754501,
7192
+ "learning_rate": 3.799732783677711e-05,
7193
+ "loss": 11.4233,
7194
+ "step": 1023
7195
+ },
7196
+ {
7197
+ "epoch": 0.0398276985307702,
7198
+ "grad_norm": 0.12816986441612244,
7199
+ "learning_rate": 3.7824021874283745e-05,
7200
+ "loss": 11.4109,
7201
+ "step": 1024
7202
+ },
7203
+ {
7204
+ "epoch": 0.03986659276761666,
7205
+ "grad_norm": 0.1389741748571396,
7206
+ "learning_rate": 3.7651019814126654e-05,
7207
+ "loss": 11.4411,
7208
+ "step": 1025
7209
+ },
7210
+ {
7211
+ "epoch": 0.039905487004463114,
7212
+ "grad_norm": 0.2206103503704071,
7213
+ "learning_rate": 3.747832250190139e-05,
7214
+ "loss": 11.484,
7215
+ "step": 1026
7216
+ },
7217
+ {
7218
+ "epoch": 0.03994438124130957,
7219
+ "grad_norm": 0.1348106563091278,
7220
+ "learning_rate": 3.730593078171396e-05,
7221
+ "loss": 11.4859,
7222
+ "step": 1027
7223
+ },
7224
+ {
7225
+ "epoch": 0.03998327547815603,
7226
+ "grad_norm": 0.1366932988166809,
7227
+ "learning_rate": 3.713384549617669e-05,
7228
+ "loss": 11.4695,
7229
+ "step": 1028
7230
+ },
7231
+ {
7232
+ "epoch": 0.04002216971500248,
7233
+ "grad_norm": 0.13749776780605316,
7234
+ "learning_rate": 3.696206748640416e-05,
7235
+ "loss": 11.4675,
7236
+ "step": 1029
7237
+ },
7238
+ {
7239
+ "epoch": 0.040061063951848934,
7240
+ "grad_norm": 0.11645928025245667,
7241
+ "learning_rate": 3.679059759200901e-05,
7242
+ "loss": 11.4201,
7243
+ "step": 1030
7244
+ },
7245
+ {
7246
+ "epoch": 0.04009995818869539,
7247
+ "grad_norm": 0.20807428658008575,
7248
+ "learning_rate": 3.661943665109796e-05,
7249
+ "loss": 11.4443,
7250
+ "step": 1031
7251
+ },
7252
+ {
7253
+ "epoch": 0.04013885242554185,
7254
+ "grad_norm": 0.09833139926195145,
7255
+ "learning_rate": 3.6448585500267485e-05,
7256
+ "loss": 11.4419,
7257
+ "step": 1032
7258
+ },
7259
+ {
7260
+ "epoch": 0.0401777466623883,
7261
+ "grad_norm": 0.1817658692598343,
7262
+ "learning_rate": 3.627804497460001e-05,
7263
+ "loss": 11.4636,
7264
+ "step": 1033
7265
+ },
7266
+ {
7267
+ "epoch": 0.040216640899234754,
7268
+ "grad_norm": 0.13411729037761688,
7269
+ "learning_rate": 3.610781590765966e-05,
7270
+ "loss": 11.4606,
7271
+ "step": 1034
7272
+ },
7273
+ {
7274
+ "epoch": 0.04025553513608121,
7275
+ "grad_norm": 0.0920453742146492,
7276
+ "learning_rate": 3.593789913148818e-05,
7277
+ "loss": 11.4563,
7278
+ "step": 1035
7279
+ },
7280
+ {
7281
+ "epoch": 0.04029442937292767,
7282
+ "grad_norm": 0.1194140836596489,
7283
+ "learning_rate": 3.576829547660098e-05,
7284
+ "loss": 11.4411,
7285
+ "step": 1036
7286
+ },
7287
+ {
7288
+ "epoch": 0.040333323609774124,
7289
+ "grad_norm": 0.16156767308712006,
7290
+ "learning_rate": 3.559900577198292e-05,
7291
+ "loss": 11.4888,
7292
+ "step": 1037
7293
+ },
7294
+ {
7295
+ "epoch": 0.040372217846620574,
7296
+ "grad_norm": 0.25374388694763184,
7297
+ "learning_rate": 3.5430030845084406e-05,
7298
+ "loss": 11.5209,
7299
+ "step": 1038
7300
+ },
7301
+ {
7302
+ "epoch": 0.04041111208346703,
7303
+ "grad_norm": 0.12839582562446594,
7304
+ "learning_rate": 3.5261371521817244e-05,
7305
+ "loss": 11.4657,
7306
+ "step": 1039
7307
+ },
7308
+ {
7309
+ "epoch": 0.04045000632031349,
7310
+ "grad_norm": 0.1393585056066513,
7311
+ "learning_rate": 3.509302862655064e-05,
7312
+ "loss": 11.4392,
7313
+ "step": 1040
7314
+ },
7315
+ {
7316
+ "epoch": 0.040488900557159944,
7317
+ "grad_norm": 0.17082121968269348,
7318
+ "learning_rate": 3.4925002982107205e-05,
7319
+ "loss": 11.4479,
7320
+ "step": 1041
7321
+ },
7322
+ {
7323
+ "epoch": 0.0405277947940064,
7324
+ "grad_norm": 0.11696211993694305,
7325
+ "learning_rate": 3.475729540975885e-05,
7326
+ "loss": 11.4272,
7327
+ "step": 1042
7328
+ },
7329
+ {
7330
+ "epoch": 0.04056668903085285,
7331
+ "grad_norm": 0.21628519892692566,
7332
+ "learning_rate": 3.45899067292229e-05,
7333
+ "loss": 11.4565,
7334
+ "step": 1043
7335
+ },
7336
+ {
7337
+ "epoch": 0.04060558326769931,
7338
+ "grad_norm": 0.2241363525390625,
7339
+ "learning_rate": 3.442283775865783e-05,
7340
+ "loss": 11.436,
7341
+ "step": 1044
7342
+ },
7343
+ {
7344
+ "epoch": 0.040644477504545765,
7345
+ "grad_norm": 0.16380998492240906,
7346
+ "learning_rate": 3.4256089314659725e-05,
7347
+ "loss": 11.4788,
7348
+ "step": 1045
7349
+ },
7350
+ {
7351
+ "epoch": 0.04068337174139222,
7352
+ "grad_norm": 0.12565840780735016,
7353
+ "learning_rate": 3.408966221225773e-05,
7354
+ "loss": 11.4718,
7355
+ "step": 1046
7356
+ },
7357
+ {
7358
+ "epoch": 0.04072226597823867,
7359
+ "grad_norm": 0.1578199714422226,
7360
+ "learning_rate": 3.3923557264910514e-05,
7361
+ "loss": 11.4613,
7362
+ "step": 1047
7363
+ },
7364
+ {
7365
+ "epoch": 0.04076116021508513,
7366
+ "grad_norm": 0.11667878925800323,
7367
+ "learning_rate": 3.3757775284502045e-05,
7368
+ "loss": 11.4321,
7369
+ "step": 1048
7370
+ },
7371
+ {
7372
+ "epoch": 0.040800054451931585,
7373
+ "grad_norm": 0.1548505276441574,
7374
+ "learning_rate": 3.3592317081337755e-05,
7375
+ "loss": 11.4568,
7376
+ "step": 1049
7377
+ },
7378
+ {
7379
+ "epoch": 0.04083894868877804,
7380
+ "grad_norm": 0.14588265120983124,
7381
+ "learning_rate": 3.342718346414049e-05,
7382
+ "loss": 11.4962,
7383
+ "step": 1050
7384
+ },
7385
+ {
7386
+ "epoch": 0.0408778429256245,
7387
+ "grad_norm": 0.12974365055561066,
7388
+ "learning_rate": 3.3262375240046596e-05,
7389
+ "loss": 11.4519,
7390
+ "step": 1051
7391
+ },
7392
+ {
7393
+ "epoch": 0.04091673716247095,
7394
+ "grad_norm": 0.1877010613679886,
7395
+ "learning_rate": 3.309789321460202e-05,
7396
+ "loss": 11.4317,
7397
+ "step": 1052
7398
+ },
7399
+ {
7400
+ "epoch": 0.040955631399317405,
7401
+ "grad_norm": 0.1269165575504303,
7402
+ "learning_rate": 3.293373819175816e-05,
7403
+ "loss": 11.4635,
7404
+ "step": 1053
7405
+ },
7406
+ {
7407
+ "epoch": 0.04099452563616386,
7408
+ "grad_norm": 0.12434379011392593,
7409
+ "learning_rate": 3.276991097386831e-05,
7410
+ "loss": 11.429,
7411
+ "step": 1054
7412
+ },
7413
+ {
7414
+ "epoch": 0.04103341987301032,
7415
+ "grad_norm": 0.12698589265346527,
7416
+ "learning_rate": 3.260641236168346e-05,
7417
+ "loss": 11.4503,
7418
+ "step": 1055
7419
+ },
7420
+ {
7421
+ "epoch": 0.041072314109856775,
7422
+ "grad_norm": 0.18467244505882263,
7423
+ "learning_rate": 3.24432431543483e-05,
7424
+ "loss": 11.4486,
7425
+ "step": 1056
7426
+ },
7427
+ {
7428
+ "epoch": 0.041111208346703225,
7429
+ "grad_norm": 0.14477095007896423,
7430
+ "learning_rate": 3.228040414939773e-05,
7431
+ "loss": 11.4645,
7432
+ "step": 1057
7433
+ },
7434
+ {
7435
+ "epoch": 0.04115010258354968,
7436
+ "grad_norm": 0.1388678103685379,
7437
+ "learning_rate": 3.211789614275241e-05,
7438
+ "loss": 11.4697,
7439
+ "step": 1058
7440
+ },
7441
+ {
7442
+ "epoch": 0.04118899682039614,
7443
+ "grad_norm": 0.14132258296012878,
7444
+ "learning_rate": 3.1955719928715345e-05,
7445
+ "loss": 11.4368,
7446
+ "step": 1059
7447
+ },
7448
+ {
7449
+ "epoch": 0.041227891057242595,
7450
+ "grad_norm": 0.18010205030441284,
7451
+ "learning_rate": 3.1793876299967816e-05,
7452
+ "loss": 11.4437,
7453
+ "step": 1060
7454
+ },
7455
+ {
7456
+ "epoch": 0.041266785294089045,
7457
+ "grad_norm": 0.10433457046747208,
7458
+ "learning_rate": 3.163236604756535e-05,
7459
+ "loss": 11.4442,
7460
+ "step": 1061
7461
+ },
7462
+ {
7463
+ "epoch": 0.0413056795309355,
7464
+ "grad_norm": 0.16652584075927734,
7465
+ "learning_rate": 3.1471189960934146e-05,
7466
+ "loss": 11.4379,
7467
+ "step": 1062
7468
+ },
7469
+ {
7470
+ "epoch": 0.04134457376778196,
7471
+ "grad_norm": 0.12524031102657318,
7472
+ "learning_rate": 3.1310348827867006e-05,
7473
+ "loss": 11.4358,
7474
+ "step": 1063
7475
+ },
7476
+ {
7477
+ "epoch": 0.041383468004628415,
7478
+ "grad_norm": 0.12246005982160568,
7479
+ "learning_rate": 3.114984343451963e-05,
7480
+ "loss": 11.4099,
7481
+ "step": 1064
7482
+ },
7483
+ {
7484
+ "epoch": 0.04142236224147487,
7485
+ "grad_norm": 0.13616223633289337,
7486
+ "learning_rate": 3.098967456540652e-05,
7487
+ "loss": 11.4322,
7488
+ "step": 1065
7489
+ },
7490
+ {
7491
+ "epoch": 0.04146125647832132,
7492
+ "grad_norm": 0.145111083984375,
7493
+ "learning_rate": 3.082984300339756e-05,
7494
+ "loss": 11.5065,
7495
+ "step": 1066
7496
+ },
7497
+ {
7498
+ "epoch": 0.04150015071516778,
7499
+ "grad_norm": 0.13896699249744415,
7500
+ "learning_rate": 3.0670349529713816e-05,
7501
+ "loss": 11.4505,
7502
+ "step": 1067
7503
+ },
7504
+ {
7505
+ "epoch": 0.041539044952014235,
7506
+ "grad_norm": 0.11143442243337631,
7507
+ "learning_rate": 3.051119492392379e-05,
7508
+ "loss": 11.4411,
7509
+ "step": 1068
7510
+ },
7511
+ {
7512
+ "epoch": 0.04157793918886069,
7513
+ "grad_norm": 0.15392428636550903,
7514
+ "learning_rate": 3.0352379963939883e-05,
7515
+ "loss": 11.4361,
7516
+ "step": 1069
7517
+ },
7518
+ {
7519
+ "epoch": 0.04161683342570715,
7520
+ "grad_norm": 0.16626837849617004,
7521
+ "learning_rate": 3.0193905426014146e-05,
7522
+ "loss": 11.4083,
7523
+ "step": 1070
7524
+ },
7525
+ {
7526
+ "epoch": 0.0416557276625536,
7527
+ "grad_norm": 0.2432129830121994,
7528
+ "learning_rate": 3.003577208473488e-05,
7529
+ "loss": 11.5145,
7530
+ "step": 1071
7531
+ },
7532
+ {
7533
+ "epoch": 0.041694621899400056,
7534
+ "grad_norm": 0.10259351879358292,
7535
+ "learning_rate": 2.9877980713022648e-05,
7536
+ "loss": 11.4465,
7537
+ "step": 1072
7538
+ },
7539
+ {
7540
+ "epoch": 0.04173351613624651,
7541
+ "grad_norm": 0.22118544578552246,
7542
+ "learning_rate": 2.9720532082126518e-05,
7543
+ "loss": 11.4629,
7544
+ "step": 1073
7545
+ },
7546
+ {
7547
+ "epoch": 0.04177241037309297,
7548
+ "grad_norm": 0.21239879727363586,
7549
+ "learning_rate": 2.9563426961620367e-05,
7550
+ "loss": 11.4424,
7551
+ "step": 1074
7552
+ },
7553
+ {
7554
+ "epoch": 0.04177241037309297,
7555
+ "eval_loss": 11.48007583618164,
7556
+ "eval_runtime": 139.1239,
7557
+ "eval_samples_per_second": 77.816,
7558
+ "eval_steps_per_second": 38.908,
7559
+ "step": 1074
7560
  }
7561
  ],
7562
  "logging_steps": 1,
 
7576
  "attributes": {}
7577
  }
7578
  },
7579
+ "total_flos": 134417473339392.0,
7580
  "train_batch_size": 2,
7581
  "trial_name": null,
7582
  "trial_params": null