ErrorAI commited on
Commit
fb7c853
·
verified ·
1 Parent(s): 203a3fa

Training in progress, step 1080, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:12340e8da7371c2c772b9d8ec5c6b6398871d8098cfa069e97580464dc600df4
3
  size 100059752
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:caf1dfc663d54875b2858a0d751629545f6e776794355547863522a659a0d194
3
  size 100059752
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7b9758ea4fd5c7ae12c8fcfd3b1781269ebb73ac9c9724d780d1a058f58f5099
3
  size 51244404
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c5b137c8eb22b98e3f5361ff4d5bf05eeb7b1d2b6e251d4374a83036ee6cf458
3
  size 51244404
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f7fc001aec4c54b263d0ba7f23e56d361b8b3192ce2f21797077d0625a9af9d9
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2db36a653237a36900e264b9145238e7d817d66288441b8c45d83b48afa65679
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c751754c2c8000694856a12336d4a1428868ebf1effc9fc316038fddb0033058
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:57b5b8603397b8d79216ebee27d8b8db17a05e79b402ad6bde186043bff2a03a
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.06075308511760363,
5
  "eval_steps": 360,
6
- "global_step": 720,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5071,6 +5071,2534 @@
5071
  "eval_samples_per_second": 28.162,
5072
  "eval_steps_per_second": 14.081,
5073
  "step": 720
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5074
  }
5075
  ],
5076
  "logging_steps": 1,
@@ -5090,7 +7618,7 @@
5090
  "attributes": {}
5091
  }
5092
  },
5093
- "total_flos": 1.3931856424599552e+17,
5094
  "train_batch_size": 2,
5095
  "trial_name": null,
5096
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.09112962767640544,
5
  "eval_steps": 360,
6
+ "global_step": 1080,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5071
  "eval_samples_per_second": 28.162,
5072
  "eval_steps_per_second": 14.081,
5073
  "step": 720
5074
+ },
5075
+ {
5076
+ "epoch": 0.06083746440248919,
5077
+ "grad_norm": 3.229191780090332,
5078
+ "learning_rate": 0.00010055038135820225,
5079
+ "loss": 1.4377,
5080
+ "step": 721
5081
+ },
5082
+ {
5083
+ "epoch": 0.06092184368737475,
5084
+ "grad_norm": 3.5044431686401367,
5085
+ "learning_rate": 0.00010033022988195178,
5086
+ "loss": 1.4915,
5087
+ "step": 722
5088
+ },
5089
+ {
5090
+ "epoch": 0.06100622297226031,
5091
+ "grad_norm": 3.6912529468536377,
5092
+ "learning_rate": 0.00010011007680515593,
5093
+ "loss": 1.4665,
5094
+ "step": 723
5095
+ },
5096
+ {
5097
+ "epoch": 0.06109060225714587,
5098
+ "grad_norm": 3.602473735809326,
5099
+ "learning_rate": 9.988992319484408e-05,
5100
+ "loss": 1.6845,
5101
+ "step": 724
5102
+ },
5103
+ {
5104
+ "epoch": 0.06117498154203143,
5105
+ "grad_norm": 4.103678226470947,
5106
+ "learning_rate": 9.966977011804823e-05,
5107
+ "loss": 2.0198,
5108
+ "step": 725
5109
+ },
5110
+ {
5111
+ "epoch": 0.06125936082691699,
5112
+ "grad_norm": 3.193321943283081,
5113
+ "learning_rate": 9.944961864179774e-05,
5114
+ "loss": 1.5488,
5115
+ "step": 726
5116
+ },
5117
+ {
5118
+ "epoch": 0.061343740111802554,
5119
+ "grad_norm": 3.6511833667755127,
5120
+ "learning_rate": 9.92294698331143e-05,
5121
+ "loss": 1.3478,
5122
+ "step": 727
5123
+ },
5124
+ {
5125
+ "epoch": 0.061428119396688116,
5126
+ "grad_norm": 3.9025187492370605,
5127
+ "learning_rate": 9.90093247590066e-05,
5128
+ "loss": 1.5672,
5129
+ "step": 728
5130
+ },
5131
+ {
5132
+ "epoch": 0.06151249868157367,
5133
+ "grad_norm": 3.2794833183288574,
5134
+ "learning_rate": 9.87891844864652e-05,
5135
+ "loss": 1.4662,
5136
+ "step": 729
5137
+ },
5138
+ {
5139
+ "epoch": 0.06159687796645923,
5140
+ "grad_norm": 3.1737897396087646,
5141
+ "learning_rate": 9.856905008245747e-05,
5142
+ "loss": 1.5617,
5143
+ "step": 730
5144
+ },
5145
+ {
5146
+ "epoch": 0.061681257251344795,
5147
+ "grad_norm": 3.4398791790008545,
5148
+ "learning_rate": 9.83489226139223e-05,
5149
+ "loss": 1.6734,
5150
+ "step": 731
5151
+ },
5152
+ {
5153
+ "epoch": 0.06176563653623036,
5154
+ "grad_norm": 3.4238171577453613,
5155
+ "learning_rate": 9.812880314776496e-05,
5156
+ "loss": 1.532,
5157
+ "step": 732
5158
+ },
5159
+ {
5160
+ "epoch": 0.06185001582111591,
5161
+ "grad_norm": 4.550687313079834,
5162
+ "learning_rate": 9.790869275085196e-05,
5163
+ "loss": 1.681,
5164
+ "step": 733
5165
+ },
5166
+ {
5167
+ "epoch": 0.061934395106001475,
5168
+ "grad_norm": 3.855168581008911,
5169
+ "learning_rate": 9.76885924900058e-05,
5170
+ "loss": 1.8827,
5171
+ "step": 734
5172
+ },
5173
+ {
5174
+ "epoch": 0.06201877439088704,
5175
+ "grad_norm": 3.3226592540740967,
5176
+ "learning_rate": 9.746850343199995e-05,
5177
+ "loss": 1.6785,
5178
+ "step": 735
5179
+ },
5180
+ {
5181
+ "epoch": 0.0621031536757726,
5182
+ "grad_norm": 3.230769634246826,
5183
+ "learning_rate": 9.724842664355347e-05,
5184
+ "loss": 1.6788,
5185
+ "step": 736
5186
+ },
5187
+ {
5188
+ "epoch": 0.06218753296065816,
5189
+ "grad_norm": 2.9634227752685547,
5190
+ "learning_rate": 9.702836319132597e-05,
5191
+ "loss": 1.3981,
5192
+ "step": 737
5193
+ },
5194
+ {
5195
+ "epoch": 0.062271912245543716,
5196
+ "grad_norm": 3.766829490661621,
5197
+ "learning_rate": 9.680831414191253e-05,
5198
+ "loss": 1.4034,
5199
+ "step": 738
5200
+ },
5201
+ {
5202
+ "epoch": 0.06235629153042928,
5203
+ "grad_norm": 3.2265536785125732,
5204
+ "learning_rate": 9.658828056183828e-05,
5205
+ "loss": 1.3725,
5206
+ "step": 739
5207
+ },
5208
+ {
5209
+ "epoch": 0.06244067081531484,
5210
+ "grad_norm": 3.632070779800415,
5211
+ "learning_rate": 9.636826351755346e-05,
5212
+ "loss": 1.9203,
5213
+ "step": 740
5214
+ },
5215
+ {
5216
+ "epoch": 0.0625250501002004,
5217
+ "grad_norm": 2.820812463760376,
5218
+ "learning_rate": 9.61482640754282e-05,
5219
+ "loss": 1.1133,
5220
+ "step": 741
5221
+ },
5222
+ {
5223
+ "epoch": 0.06260942938508596,
5224
+ "grad_norm": 3.2152464389801025,
5225
+ "learning_rate": 9.592828330174726e-05,
5226
+ "loss": 1.4804,
5227
+ "step": 742
5228
+ },
5229
+ {
5230
+ "epoch": 0.06269380866997153,
5231
+ "grad_norm": 3.831986904144287,
5232
+ "learning_rate": 9.570832226270482e-05,
5233
+ "loss": 1.6262,
5234
+ "step": 743
5235
+ },
5236
+ {
5237
+ "epoch": 0.06277818795485708,
5238
+ "grad_norm": 3.158581256866455,
5239
+ "learning_rate": 9.54883820243996e-05,
5240
+ "loss": 1.5282,
5241
+ "step": 744
5242
+ },
5243
+ {
5244
+ "epoch": 0.06286256723974264,
5245
+ "grad_norm": 3.6407358646392822,
5246
+ "learning_rate": 9.526846365282937e-05,
5247
+ "loss": 1.5901,
5248
+ "step": 745
5249
+ },
5250
+ {
5251
+ "epoch": 0.0629469465246282,
5252
+ "grad_norm": 3.8346829414367676,
5253
+ "learning_rate": 9.504856821388602e-05,
5254
+ "loss": 1.6533,
5255
+ "step": 746
5256
+ },
5257
+ {
5258
+ "epoch": 0.06303132580951376,
5259
+ "grad_norm": 3.2862420082092285,
5260
+ "learning_rate": 9.482869677335017e-05,
5261
+ "loss": 1.5965,
5262
+ "step": 747
5263
+ },
5264
+ {
5265
+ "epoch": 0.06311570509439933,
5266
+ "grad_norm": 2.801699638366699,
5267
+ "learning_rate": 9.460885039688625e-05,
5268
+ "loss": 1.1895,
5269
+ "step": 748
5270
+ },
5271
+ {
5272
+ "epoch": 0.06320008437928488,
5273
+ "grad_norm": 3.4097049236297607,
5274
+ "learning_rate": 9.438903015003714e-05,
5275
+ "loss": 1.8107,
5276
+ "step": 749
5277
+ },
5278
+ {
5279
+ "epoch": 0.06328446366417044,
5280
+ "grad_norm": 4.033748626708984,
5281
+ "learning_rate": 9.416923709821903e-05,
5282
+ "loss": 1.5959,
5283
+ "step": 750
5284
+ },
5285
+ {
5286
+ "epoch": 0.06336884294905601,
5287
+ "grad_norm": 3.375924825668335,
5288
+ "learning_rate": 9.394947230671638e-05,
5289
+ "loss": 1.2444,
5290
+ "step": 751
5291
+ },
5292
+ {
5293
+ "epoch": 0.06345322223394156,
5294
+ "grad_norm": 3.985337734222412,
5295
+ "learning_rate": 9.372973684067671e-05,
5296
+ "loss": 1.3358,
5297
+ "step": 752
5298
+ },
5299
+ {
5300
+ "epoch": 0.06353760151882713,
5301
+ "grad_norm": 3.5320260524749756,
5302
+ "learning_rate": 9.35100317651053e-05,
5303
+ "loss": 1.6331,
5304
+ "step": 753
5305
+ },
5306
+ {
5307
+ "epoch": 0.06362198080371269,
5308
+ "grad_norm": 4.086630344390869,
5309
+ "learning_rate": 9.329035814486021e-05,
5310
+ "loss": 1.5098,
5311
+ "step": 754
5312
+ },
5313
+ {
5314
+ "epoch": 0.06370636008859824,
5315
+ "grad_norm": 3.4603257179260254,
5316
+ "learning_rate": 9.307071704464701e-05,
5317
+ "loss": 1.317,
5318
+ "step": 755
5319
+ },
5320
+ {
5321
+ "epoch": 0.06379073937348381,
5322
+ "grad_norm": 4.04933500289917,
5323
+ "learning_rate": 9.285110952901369e-05,
5324
+ "loss": 1.8193,
5325
+ "step": 756
5326
+ },
5327
+ {
5328
+ "epoch": 0.06387511865836937,
5329
+ "grad_norm": 3.3762123584747314,
5330
+ "learning_rate": 9.263153666234545e-05,
5331
+ "loss": 1.7771,
5332
+ "step": 757
5333
+ },
5334
+ {
5335
+ "epoch": 0.06395949794325494,
5336
+ "grad_norm": 2.8218278884887695,
5337
+ "learning_rate": 9.241199950885949e-05,
5338
+ "loss": 1.3342,
5339
+ "step": 758
5340
+ },
5341
+ {
5342
+ "epoch": 0.06404387722814049,
5343
+ "grad_norm": 3.081434726715088,
5344
+ "learning_rate": 9.219249913259998e-05,
5345
+ "loss": 1.4174,
5346
+ "step": 759
5347
+ },
5348
+ {
5349
+ "epoch": 0.06412825651302605,
5350
+ "grad_norm": 4.025990962982178,
5351
+ "learning_rate": 9.197303659743286e-05,
5352
+ "loss": 1.7749,
5353
+ "step": 760
5354
+ },
5355
+ {
5356
+ "epoch": 0.06421263579791162,
5357
+ "grad_norm": 3.2301442623138428,
5358
+ "learning_rate": 9.17536129670406e-05,
5359
+ "loss": 1.5955,
5360
+ "step": 761
5361
+ },
5362
+ {
5363
+ "epoch": 0.06429701508279717,
5364
+ "grad_norm": 3.809837818145752,
5365
+ "learning_rate": 9.15342293049172e-05,
5366
+ "loss": 2.047,
5367
+ "step": 762
5368
+ },
5369
+ {
5370
+ "epoch": 0.06438139436768274,
5371
+ "grad_norm": 3.9897491931915283,
5372
+ "learning_rate": 9.131488667436281e-05,
5373
+ "loss": 1.6496,
5374
+ "step": 763
5375
+ },
5376
+ {
5377
+ "epoch": 0.0644657736525683,
5378
+ "grad_norm": 4.438673496246338,
5379
+ "learning_rate": 9.109558613847887e-05,
5380
+ "loss": 1.5308,
5381
+ "step": 764
5382
+ },
5383
+ {
5384
+ "epoch": 0.06455015293745385,
5385
+ "grad_norm": 3.345057249069214,
5386
+ "learning_rate": 9.087632876016264e-05,
5387
+ "loss": 2.0642,
5388
+ "step": 765
5389
+ },
5390
+ {
5391
+ "epoch": 0.06463453222233942,
5392
+ "grad_norm": 3.56162166595459,
5393
+ "learning_rate": 9.065711560210227e-05,
5394
+ "loss": 1.619,
5395
+ "step": 766
5396
+ },
5397
+ {
5398
+ "epoch": 0.06471891150722497,
5399
+ "grad_norm": 3.0354530811309814,
5400
+ "learning_rate": 9.043794772677164e-05,
5401
+ "loss": 1.582,
5402
+ "step": 767
5403
+ },
5404
+ {
5405
+ "epoch": 0.06480329079211054,
5406
+ "grad_norm": 3.2199714183807373,
5407
+ "learning_rate": 9.021882619642507e-05,
5408
+ "loss": 1.4944,
5409
+ "step": 768
5410
+ },
5411
+ {
5412
+ "epoch": 0.0648876700769961,
5413
+ "grad_norm": 3.431900978088379,
5414
+ "learning_rate": 8.999975207309235e-05,
5415
+ "loss": 1.5814,
5416
+ "step": 769
5417
+ },
5418
+ {
5419
+ "epoch": 0.06497204936188165,
5420
+ "grad_norm": 3.4392762184143066,
5421
+ "learning_rate": 8.978072641857336e-05,
5422
+ "loss": 1.549,
5423
+ "step": 770
5424
+ },
5425
+ {
5426
+ "epoch": 0.06505642864676722,
5427
+ "grad_norm": 3.4558968544006348,
5428
+ "learning_rate": 8.956175029443325e-05,
5429
+ "loss": 1.6068,
5430
+ "step": 771
5431
+ },
5432
+ {
5433
+ "epoch": 0.06514080793165278,
5434
+ "grad_norm": 3.6479742527008057,
5435
+ "learning_rate": 8.93428247619969e-05,
5436
+ "loss": 1.5165,
5437
+ "step": 772
5438
+ },
5439
+ {
5440
+ "epoch": 0.06522518721653835,
5441
+ "grad_norm": 3.4587035179138184,
5442
+ "learning_rate": 8.912395088234417e-05,
5443
+ "loss": 1.7611,
5444
+ "step": 773
5445
+ },
5446
+ {
5447
+ "epoch": 0.0653095665014239,
5448
+ "grad_norm": 3.351179838180542,
5449
+ "learning_rate": 8.890512971630442e-05,
5450
+ "loss": 1.8494,
5451
+ "step": 774
5452
+ },
5453
+ {
5454
+ "epoch": 0.06539394578630946,
5455
+ "grad_norm": 4.118631839752197,
5456
+ "learning_rate": 8.868636232445165e-05,
5457
+ "loss": 1.6619,
5458
+ "step": 775
5459
+ },
5460
+ {
5461
+ "epoch": 0.06547832507119503,
5462
+ "grad_norm": 3.9293482303619385,
5463
+ "learning_rate": 8.846764976709914e-05,
5464
+ "loss": 1.511,
5465
+ "step": 776
5466
+ },
5467
+ {
5468
+ "epoch": 0.06556270435608058,
5469
+ "grad_norm": 3.27178692817688,
5470
+ "learning_rate": 8.824899310429445e-05,
5471
+ "loss": 1.933,
5472
+ "step": 777
5473
+ },
5474
+ {
5475
+ "epoch": 0.06564708364096614,
5476
+ "grad_norm": 3.6199560165405273,
5477
+ "learning_rate": 8.803039339581418e-05,
5478
+ "loss": 1.4583,
5479
+ "step": 778
5480
+ },
5481
+ {
5482
+ "epoch": 0.0657314629258517,
5483
+ "grad_norm": 3.488508701324463,
5484
+ "learning_rate": 8.781185170115898e-05,
5485
+ "loss": 1.3298,
5486
+ "step": 779
5487
+ },
5488
+ {
5489
+ "epoch": 0.06581584221073726,
5490
+ "grad_norm": 3.3315086364746094,
5491
+ "learning_rate": 8.75933690795482e-05,
5492
+ "loss": 1.4671,
5493
+ "step": 780
5494
+ },
5495
+ {
5496
+ "epoch": 0.06590022149562283,
5497
+ "grad_norm": 3.379645586013794,
5498
+ "learning_rate": 8.737494658991493e-05,
5499
+ "loss": 1.5694,
5500
+ "step": 781
5501
+ },
5502
+ {
5503
+ "epoch": 0.06598460078050838,
5504
+ "grad_norm": 3.764233112335205,
5505
+ "learning_rate": 8.715658529090083e-05,
5506
+ "loss": 1.722,
5507
+ "step": 782
5508
+ },
5509
+ {
5510
+ "epoch": 0.06606898006539394,
5511
+ "grad_norm": 3.8047001361846924,
5512
+ "learning_rate": 8.693828624085104e-05,
5513
+ "loss": 1.7402,
5514
+ "step": 783
5515
+ },
5516
+ {
5517
+ "epoch": 0.06615335935027951,
5518
+ "grad_norm": 3.627662420272827,
5519
+ "learning_rate": 8.672005049780884e-05,
5520
+ "loss": 1.6401,
5521
+ "step": 784
5522
+ },
5523
+ {
5524
+ "epoch": 0.06623773863516506,
5525
+ "grad_norm": 4.321152687072754,
5526
+ "learning_rate": 8.650187911951082e-05,
5527
+ "loss": 2.2155,
5528
+ "step": 785
5529
+ },
5530
+ {
5531
+ "epoch": 0.06632211792005063,
5532
+ "grad_norm": 3.7158429622650146,
5533
+ "learning_rate": 8.628377316338156e-05,
5534
+ "loss": 1.7856,
5535
+ "step": 786
5536
+ },
5537
+ {
5538
+ "epoch": 0.06640649720493619,
5539
+ "grad_norm": 2.9161453247070312,
5540
+ "learning_rate": 8.606573368652848e-05,
5541
+ "loss": 1.2219,
5542
+ "step": 787
5543
+ },
5544
+ {
5545
+ "epoch": 0.06649087648982174,
5546
+ "grad_norm": 3.9051358699798584,
5547
+ "learning_rate": 8.584776174573692e-05,
5548
+ "loss": 1.808,
5549
+ "step": 788
5550
+ },
5551
+ {
5552
+ "epoch": 0.06657525577470731,
5553
+ "grad_norm": 4.269354343414307,
5554
+ "learning_rate": 8.56298583974648e-05,
5555
+ "loss": 1.9708,
5556
+ "step": 789
5557
+ },
5558
+ {
5559
+ "epoch": 0.06665963505959287,
5560
+ "grad_norm": 4.096782684326172,
5561
+ "learning_rate": 8.541202469783766e-05,
5562
+ "loss": 1.894,
5563
+ "step": 790
5564
+ },
5565
+ {
5566
+ "epoch": 0.06674401434447844,
5567
+ "grad_norm": 3.182770252227783,
5568
+ "learning_rate": 8.519426170264336e-05,
5569
+ "loss": 2.0521,
5570
+ "step": 791
5571
+ },
5572
+ {
5573
+ "epoch": 0.06682839362936399,
5574
+ "grad_norm": 3.3189237117767334,
5575
+ "learning_rate": 8.497657046732718e-05,
5576
+ "loss": 1.6191,
5577
+ "step": 792
5578
+ },
5579
+ {
5580
+ "epoch": 0.06691277291424955,
5581
+ "grad_norm": 2.698390483856201,
5582
+ "learning_rate": 8.475895204698659e-05,
5583
+ "loss": 1.2702,
5584
+ "step": 793
5585
+ },
5586
+ {
5587
+ "epoch": 0.06699715219913512,
5588
+ "grad_norm": 3.1540493965148926,
5589
+ "learning_rate": 8.454140749636605e-05,
5590
+ "loss": 1.4738,
5591
+ "step": 794
5592
+ },
5593
+ {
5594
+ "epoch": 0.06708153148402067,
5595
+ "grad_norm": 3.229556083679199,
5596
+ "learning_rate": 8.432393786985204e-05,
5597
+ "loss": 1.6078,
5598
+ "step": 795
5599
+ },
5600
+ {
5601
+ "epoch": 0.06716591076890624,
5602
+ "grad_norm": 3.086798667907715,
5603
+ "learning_rate": 8.410654422146798e-05,
5604
+ "loss": 1.4351,
5605
+ "step": 796
5606
+ },
5607
+ {
5608
+ "epoch": 0.0672502900537918,
5609
+ "grad_norm": 3.499110698699951,
5610
+ "learning_rate": 8.388922760486891e-05,
5611
+ "loss": 2.0398,
5612
+ "step": 797
5613
+ },
5614
+ {
5615
+ "epoch": 0.06733466933867735,
5616
+ "grad_norm": 4.102422714233398,
5617
+ "learning_rate": 8.36719890733366e-05,
5618
+ "loss": 1.486,
5619
+ "step": 798
5620
+ },
5621
+ {
5622
+ "epoch": 0.06741904862356292,
5623
+ "grad_norm": 4.713635444641113,
5624
+ "learning_rate": 8.345482967977434e-05,
5625
+ "loss": 1.9632,
5626
+ "step": 799
5627
+ },
5628
+ {
5629
+ "epoch": 0.06750342790844847,
5630
+ "grad_norm": 3.019648551940918,
5631
+ "learning_rate": 8.323775047670189e-05,
5632
+ "loss": 1.3464,
5633
+ "step": 800
5634
+ },
5635
+ {
5636
+ "epoch": 0.06758780719333404,
5637
+ "grad_norm": 3.2463009357452393,
5638
+ "learning_rate": 8.302075251625026e-05,
5639
+ "loss": 1.1357,
5640
+ "step": 801
5641
+ },
5642
+ {
5643
+ "epoch": 0.0676721864782196,
5644
+ "grad_norm": 3.1642446517944336,
5645
+ "learning_rate": 8.280383685015673e-05,
5646
+ "loss": 1.746,
5647
+ "step": 802
5648
+ },
5649
+ {
5650
+ "epoch": 0.06775656576310515,
5651
+ "grad_norm": 3.4454307556152344,
5652
+ "learning_rate": 8.258700452975979e-05,
5653
+ "loss": 1.6777,
5654
+ "step": 803
5655
+ },
5656
+ {
5657
+ "epoch": 0.06784094504799072,
5658
+ "grad_norm": 3.307554244995117,
5659
+ "learning_rate": 8.237025660599393e-05,
5660
+ "loss": 1.9145,
5661
+ "step": 804
5662
+ },
5663
+ {
5664
+ "epoch": 0.06792532433287628,
5665
+ "grad_norm": 2.7016055583953857,
5666
+ "learning_rate": 8.215359412938451e-05,
5667
+ "loss": 1.3254,
5668
+ "step": 805
5669
+ },
5670
+ {
5671
+ "epoch": 0.06800970361776185,
5672
+ "grad_norm": 2.5887274742126465,
5673
+ "learning_rate": 8.19370181500429e-05,
5674
+ "loss": 1.1497,
5675
+ "step": 806
5676
+ },
5677
+ {
5678
+ "epoch": 0.0680940829026474,
5679
+ "grad_norm": 3.540260076522827,
5680
+ "learning_rate": 8.172052971766109e-05,
5681
+ "loss": 1.6842,
5682
+ "step": 807
5683
+ },
5684
+ {
5685
+ "epoch": 0.06817846218753296,
5686
+ "grad_norm": 3.2746472358703613,
5687
+ "learning_rate": 8.150412988150689e-05,
5688
+ "loss": 1.7623,
5689
+ "step": 808
5690
+ },
5691
+ {
5692
+ "epoch": 0.06826284147241853,
5693
+ "grad_norm": 3.496894598007202,
5694
+ "learning_rate": 8.128781969041856e-05,
5695
+ "loss": 1.4555,
5696
+ "step": 809
5697
+ },
5698
+ {
5699
+ "epoch": 0.06834722075730408,
5700
+ "grad_norm": 4.125760078430176,
5701
+ "learning_rate": 8.107160019279996e-05,
5702
+ "loss": 1.77,
5703
+ "step": 810
5704
+ },
5705
+ {
5706
+ "epoch": 0.06843160004218964,
5707
+ "grad_norm": 3.6408426761627197,
5708
+ "learning_rate": 8.085547243661537e-05,
5709
+ "loss": 1.511,
5710
+ "step": 811
5711
+ },
5712
+ {
5713
+ "epoch": 0.0685159793270752,
5714
+ "grad_norm": 3.1120951175689697,
5715
+ "learning_rate": 8.063943746938443e-05,
5716
+ "loss": 1.4816,
5717
+ "step": 812
5718
+ },
5719
+ {
5720
+ "epoch": 0.06860035861196076,
5721
+ "grad_norm": 4.043081283569336,
5722
+ "learning_rate": 8.042349633817703e-05,
5723
+ "loss": 1.6875,
5724
+ "step": 813
5725
+ },
5726
+ {
5727
+ "epoch": 0.06868473789684633,
5728
+ "grad_norm": 2.890449047088623,
5729
+ "learning_rate": 8.020765008960828e-05,
5730
+ "loss": 1.3573,
5731
+ "step": 814
5732
+ },
5733
+ {
5734
+ "epoch": 0.06876911718173188,
5735
+ "grad_norm": 3.8338587284088135,
5736
+ "learning_rate": 7.999189976983343e-05,
5737
+ "loss": 1.8795,
5738
+ "step": 815
5739
+ },
5740
+ {
5741
+ "epoch": 0.06885349646661744,
5742
+ "grad_norm": 3.022118330001831,
5743
+ "learning_rate": 7.977624642454268e-05,
5744
+ "loss": 1.4375,
5745
+ "step": 816
5746
+ },
5747
+ {
5748
+ "epoch": 0.06893787575150301,
5749
+ "grad_norm": 3.2548141479492188,
5750
+ "learning_rate": 7.956069109895636e-05,
5751
+ "loss": 1.3097,
5752
+ "step": 817
5753
+ },
5754
+ {
5755
+ "epoch": 0.06902225503638856,
5756
+ "grad_norm": 3.541154623031616,
5757
+ "learning_rate": 7.934523483781963e-05,
5758
+ "loss": 1.5465,
5759
+ "step": 818
5760
+ },
5761
+ {
5762
+ "epoch": 0.06910663432127413,
5763
+ "grad_norm": 3.054385185241699,
5764
+ "learning_rate": 7.912987868539759e-05,
5765
+ "loss": 1.4008,
5766
+ "step": 819
5767
+ },
5768
+ {
5769
+ "epoch": 0.06919101360615969,
5770
+ "grad_norm": 3.5634217262268066,
5771
+ "learning_rate": 7.891462368547003e-05,
5772
+ "loss": 1.8095,
5773
+ "step": 820
5774
+ },
5775
+ {
5776
+ "epoch": 0.06927539289104524,
5777
+ "grad_norm": 3.556551218032837,
5778
+ "learning_rate": 7.869947088132657e-05,
5779
+ "loss": 1.8197,
5780
+ "step": 821
5781
+ },
5782
+ {
5783
+ "epoch": 0.06935977217593081,
5784
+ "grad_norm": 4.121778964996338,
5785
+ "learning_rate": 7.84844213157615e-05,
5786
+ "loss": 1.2268,
5787
+ "step": 822
5788
+ },
5789
+ {
5790
+ "epoch": 0.06944415146081637,
5791
+ "grad_norm": 3.446765661239624,
5792
+ "learning_rate": 7.826947603106864e-05,
5793
+ "loss": 1.1298,
5794
+ "step": 823
5795
+ },
5796
+ {
5797
+ "epoch": 0.06952853074570194,
5798
+ "grad_norm": 3.5260965824127197,
5799
+ "learning_rate": 7.80546360690365e-05,
5800
+ "loss": 1.6826,
5801
+ "step": 824
5802
+ },
5803
+ {
5804
+ "epoch": 0.06961291003058749,
5805
+ "grad_norm": 3.636963129043579,
5806
+ "learning_rate": 7.783990247094308e-05,
5807
+ "loss": 1.8052,
5808
+ "step": 825
5809
+ },
5810
+ {
5811
+ "epoch": 0.06969728931547305,
5812
+ "grad_norm": 3.8106868267059326,
5813
+ "learning_rate": 7.762527627755083e-05,
5814
+ "loss": 1.603,
5815
+ "step": 826
5816
+ },
5817
+ {
5818
+ "epoch": 0.06978166860035862,
5819
+ "grad_norm": 3.557321786880493,
5820
+ "learning_rate": 7.741075852910172e-05,
5821
+ "loss": 1.5966,
5822
+ "step": 827
5823
+ },
5824
+ {
5825
+ "epoch": 0.06986604788524417,
5826
+ "grad_norm": 3.3957102298736572,
5827
+ "learning_rate": 7.719635026531195e-05,
5828
+ "loss": 1.987,
5829
+ "step": 828
5830
+ },
5831
+ {
5832
+ "epoch": 0.06995042717012974,
5833
+ "grad_norm": 3.3128857612609863,
5834
+ "learning_rate": 7.698205252536728e-05,
5835
+ "loss": 1.5101,
5836
+ "step": 829
5837
+ },
5838
+ {
5839
+ "epoch": 0.0700348064550153,
5840
+ "grad_norm": 4.3435797691345215,
5841
+ "learning_rate": 7.676786634791766e-05,
5842
+ "loss": 1.7899,
5843
+ "step": 830
5844
+ },
5845
+ {
5846
+ "epoch": 0.07011918573990085,
5847
+ "grad_norm": 3.399648666381836,
5848
+ "learning_rate": 7.655379277107228e-05,
5849
+ "loss": 1.3155,
5850
+ "step": 831
5851
+ },
5852
+ {
5853
+ "epoch": 0.07020356502478642,
5854
+ "grad_norm": 3.2626960277557373,
5855
+ "learning_rate": 7.633983283239471e-05,
5856
+ "loss": 1.6369,
5857
+ "step": 832
5858
+ },
5859
+ {
5860
+ "epoch": 0.07028794430967197,
5861
+ "grad_norm": 4.113405704498291,
5862
+ "learning_rate": 7.612598756889768e-05,
5863
+ "loss": 1.4886,
5864
+ "step": 833
5865
+ },
5866
+ {
5867
+ "epoch": 0.07037232359455754,
5868
+ "grad_norm": 4.464077949523926,
5869
+ "learning_rate": 7.591225801703809e-05,
5870
+ "loss": 1.475,
5871
+ "step": 834
5872
+ },
5873
+ {
5874
+ "epoch": 0.0704567028794431,
5875
+ "grad_norm": 4.5221686363220215,
5876
+ "learning_rate": 7.569864521271207e-05,
5877
+ "loss": 2.0369,
5878
+ "step": 835
5879
+ },
5880
+ {
5881
+ "epoch": 0.07054108216432865,
5882
+ "grad_norm": 3.127971887588501,
5883
+ "learning_rate": 7.548515019124986e-05,
5884
+ "loss": 1.1989,
5885
+ "step": 836
5886
+ },
5887
+ {
5888
+ "epoch": 0.07062546144921422,
5889
+ "grad_norm": 3.166808605194092,
5890
+ "learning_rate": 7.527177398741088e-05,
5891
+ "loss": 1.573,
5892
+ "step": 837
5893
+ },
5894
+ {
5895
+ "epoch": 0.07070984073409978,
5896
+ "grad_norm": 3.741363286972046,
5897
+ "learning_rate": 7.505851763537861e-05,
5898
+ "loss": 1.544,
5899
+ "step": 838
5900
+ },
5901
+ {
5902
+ "epoch": 0.07079422001898535,
5903
+ "grad_norm": 3.4282264709472656,
5904
+ "learning_rate": 7.484538216875563e-05,
5905
+ "loss": 1.7555,
5906
+ "step": 839
5907
+ },
5908
+ {
5909
+ "epoch": 0.0708785993038709,
5910
+ "grad_norm": 4.068146228790283,
5911
+ "learning_rate": 7.463236862055872e-05,
5912
+ "loss": 1.7943,
5913
+ "step": 840
5914
+ },
5915
+ {
5916
+ "epoch": 0.07096297858875646,
5917
+ "grad_norm": 3.7871479988098145,
5918
+ "learning_rate": 7.441947802321363e-05,
5919
+ "loss": 1.8306,
5920
+ "step": 841
5921
+ },
5922
+ {
5923
+ "epoch": 0.07104735787364203,
5924
+ "grad_norm": 3.1276440620422363,
5925
+ "learning_rate": 7.420671140855026e-05,
5926
+ "loss": 1.4611,
5927
+ "step": 842
5928
+ },
5929
+ {
5930
+ "epoch": 0.07113173715852758,
5931
+ "grad_norm": 3.529446601867676,
5932
+ "learning_rate": 7.399406980779765e-05,
5933
+ "loss": 1.2342,
5934
+ "step": 843
5935
+ },
5936
+ {
5937
+ "epoch": 0.07121611644341314,
5938
+ "grad_norm": 3.3045966625213623,
5939
+ "learning_rate": 7.378155425157883e-05,
5940
+ "loss": 1.4644,
5941
+ "step": 844
5942
+ },
5943
+ {
5944
+ "epoch": 0.0713004957282987,
5945
+ "grad_norm": 3.1722381114959717,
5946
+ "learning_rate": 7.356916576990587e-05,
5947
+ "loss": 1.2117,
5948
+ "step": 845
5949
+ },
5950
+ {
5951
+ "epoch": 0.07138487501318426,
5952
+ "grad_norm": 3.494398355484009,
5953
+ "learning_rate": 7.335690539217513e-05,
5954
+ "loss": 1.7005,
5955
+ "step": 846
5956
+ },
5957
+ {
5958
+ "epoch": 0.07146925429806983,
5959
+ "grad_norm": 4.649952411651611,
5960
+ "learning_rate": 7.314477414716192e-05,
5961
+ "loss": 2.0836,
5962
+ "step": 847
5963
+ },
5964
+ {
5965
+ "epoch": 0.07155363358295538,
5966
+ "grad_norm": 3.2355849742889404,
5967
+ "learning_rate": 7.293277306301575e-05,
5968
+ "loss": 1.8021,
5969
+ "step": 848
5970
+ },
5971
+ {
5972
+ "epoch": 0.07163801286784094,
5973
+ "grad_norm": 3.792217254638672,
5974
+ "learning_rate": 7.272090316725527e-05,
5975
+ "loss": 1.9283,
5976
+ "step": 849
5977
+ },
5978
+ {
5979
+ "epoch": 0.07172239215272651,
5980
+ "grad_norm": 3.2298521995544434,
5981
+ "learning_rate": 7.250916548676323e-05,
5982
+ "loss": 1.3729,
5983
+ "step": 850
5984
+ },
5985
+ {
5986
+ "epoch": 0.07180677143761206,
5987
+ "grad_norm": 3.544177770614624,
5988
+ "learning_rate": 7.229756104778167e-05,
5989
+ "loss": 1.6331,
5990
+ "step": 851
5991
+ },
5992
+ {
5993
+ "epoch": 0.07189115072249763,
5994
+ "grad_norm": 3.6409194469451904,
5995
+ "learning_rate": 7.20860908759067e-05,
5996
+ "loss": 1.8094,
5997
+ "step": 852
5998
+ },
5999
+ {
6000
+ "epoch": 0.07197553000738319,
6001
+ "grad_norm": 2.7580833435058594,
6002
+ "learning_rate": 7.187475599608378e-05,
6003
+ "loss": 1.3586,
6004
+ "step": 853
6005
+ },
6006
+ {
6007
+ "epoch": 0.07205990929226874,
6008
+ "grad_norm": 3.81415057182312,
6009
+ "learning_rate": 7.166355743260265e-05,
6010
+ "loss": 2.0804,
6011
+ "step": 854
6012
+ },
6013
+ {
6014
+ "epoch": 0.07214428857715431,
6015
+ "grad_norm": 2.594660758972168,
6016
+ "learning_rate": 7.145249620909224e-05,
6017
+ "loss": 1.2372,
6018
+ "step": 855
6019
+ },
6020
+ {
6021
+ "epoch": 0.07222866786203987,
6022
+ "grad_norm": 3.071242332458496,
6023
+ "learning_rate": 7.124157334851597e-05,
6024
+ "loss": 1.1069,
6025
+ "step": 856
6026
+ },
6027
+ {
6028
+ "epoch": 0.07231304714692544,
6029
+ "grad_norm": 3.43115234375,
6030
+ "learning_rate": 7.103078987316652e-05,
6031
+ "loss": 1.6771,
6032
+ "step": 857
6033
+ },
6034
+ {
6035
+ "epoch": 0.07239742643181099,
6036
+ "grad_norm": 3.099498987197876,
6037
+ "learning_rate": 7.082014680466112e-05,
6038
+ "loss": 1.4458,
6039
+ "step": 858
6040
+ },
6041
+ {
6042
+ "epoch": 0.07248180571669655,
6043
+ "grad_norm": 3.128213882446289,
6044
+ "learning_rate": 7.060964516393642e-05,
6045
+ "loss": 1.2736,
6046
+ "step": 859
6047
+ },
6048
+ {
6049
+ "epoch": 0.07256618500158211,
6050
+ "grad_norm": 3.516040325164795,
6051
+ "learning_rate": 7.039928597124354e-05,
6052
+ "loss": 1.6611,
6053
+ "step": 860
6054
+ },
6055
+ {
6056
+ "epoch": 0.07265056428646767,
6057
+ "grad_norm": 3.657384157180786,
6058
+ "learning_rate": 7.018907024614334e-05,
6059
+ "loss": 1.5757,
6060
+ "step": 861
6061
+ },
6062
+ {
6063
+ "epoch": 0.07273494357135324,
6064
+ "grad_norm": 3.818807363510132,
6065
+ "learning_rate": 6.997899900750118e-05,
6066
+ "loss": 1.4448,
6067
+ "step": 862
6068
+ },
6069
+ {
6070
+ "epoch": 0.0728193228562388,
6071
+ "grad_norm": 3.4620652198791504,
6072
+ "learning_rate": 6.97690732734822e-05,
6073
+ "loss": 1.7199,
6074
+ "step": 863
6075
+ },
6076
+ {
6077
+ "epoch": 0.07290370214112435,
6078
+ "grad_norm": 4.390957355499268,
6079
+ "learning_rate": 6.955929406154636e-05,
6080
+ "loss": 1.5205,
6081
+ "step": 864
6082
+ },
6083
+ {
6084
+ "epoch": 0.07298808142600992,
6085
+ "grad_norm": 3.043879985809326,
6086
+ "learning_rate": 6.934966238844332e-05,
6087
+ "loss": 1.3107,
6088
+ "step": 865
6089
+ },
6090
+ {
6091
+ "epoch": 0.07307246071089547,
6092
+ "grad_norm": 4.120273113250732,
6093
+ "learning_rate": 6.914017927020786e-05,
6094
+ "loss": 2.0678,
6095
+ "step": 866
6096
+ },
6097
+ {
6098
+ "epoch": 0.07315683999578104,
6099
+ "grad_norm": 2.8248279094696045,
6100
+ "learning_rate": 6.893084572215453e-05,
6101
+ "loss": 1.4521,
6102
+ "step": 867
6103
+ },
6104
+ {
6105
+ "epoch": 0.0732412192806666,
6106
+ "grad_norm": 3.080636739730835,
6107
+ "learning_rate": 6.872166275887306e-05,
6108
+ "loss": 1.769,
6109
+ "step": 868
6110
+ },
6111
+ {
6112
+ "epoch": 0.07332559856555215,
6113
+ "grad_norm": 3.1468093395233154,
6114
+ "learning_rate": 6.851263139422339e-05,
6115
+ "loss": 1.223,
6116
+ "step": 869
6117
+ },
6118
+ {
6119
+ "epoch": 0.07340997785043772,
6120
+ "grad_norm": 3.397599458694458,
6121
+ "learning_rate": 6.830375264133055e-05,
6122
+ "loss": 1.7281,
6123
+ "step": 870
6124
+ },
6125
+ {
6126
+ "epoch": 0.07349435713532328,
6127
+ "grad_norm": 3.566293716430664,
6128
+ "learning_rate": 6.809502751258003e-05,
6129
+ "loss": 1.3899,
6130
+ "step": 871
6131
+ },
6132
+ {
6133
+ "epoch": 0.07357873642020885,
6134
+ "grad_norm": 3.603502035140991,
6135
+ "learning_rate": 6.788645701961267e-05,
6136
+ "loss": 1.7868,
6137
+ "step": 872
6138
+ },
6139
+ {
6140
+ "epoch": 0.0736631157050944,
6141
+ "grad_norm": 2.914247751235962,
6142
+ "learning_rate": 6.767804217331989e-05,
6143
+ "loss": 1.4781,
6144
+ "step": 873
6145
+ },
6146
+ {
6147
+ "epoch": 0.07374749498997996,
6148
+ "grad_norm": 3.851073980331421,
6149
+ "learning_rate": 6.74697839838386e-05,
6150
+ "loss": 1.9343,
6151
+ "step": 874
6152
+ },
6153
+ {
6154
+ "epoch": 0.07383187427486552,
6155
+ "grad_norm": 2.637230396270752,
6156
+ "learning_rate": 6.726168346054657e-05,
6157
+ "loss": 1.2372,
6158
+ "step": 875
6159
+ },
6160
+ {
6161
+ "epoch": 0.07391625355975108,
6162
+ "grad_norm": 3.256101131439209,
6163
+ "learning_rate": 6.705374161205732e-05,
6164
+ "loss": 1.4526,
6165
+ "step": 876
6166
+ },
6167
+ {
6168
+ "epoch": 0.07400063284463664,
6169
+ "grad_norm": 2.6738524436950684,
6170
+ "learning_rate": 6.684595944621536e-05,
6171
+ "loss": 1.2832,
6172
+ "step": 877
6173
+ },
6174
+ {
6175
+ "epoch": 0.0740850121295222,
6176
+ "grad_norm": 2.684112310409546,
6177
+ "learning_rate": 6.663833797009123e-05,
6178
+ "loss": 1.0865,
6179
+ "step": 878
6180
+ },
6181
+ {
6182
+ "epoch": 0.07416939141440776,
6183
+ "grad_norm": 3.5784056186676025,
6184
+ "learning_rate": 6.643087818997663e-05,
6185
+ "loss": 1.3953,
6186
+ "step": 879
6187
+ },
6188
+ {
6189
+ "epoch": 0.07425377069929333,
6190
+ "grad_norm": 2.9961676597595215,
6191
+ "learning_rate": 6.622358111137958e-05,
6192
+ "loss": 1.3251,
6193
+ "step": 880
6194
+ },
6195
+ {
6196
+ "epoch": 0.07433814998417888,
6197
+ "grad_norm": 2.8923776149749756,
6198
+ "learning_rate": 6.601644773901957e-05,
6199
+ "loss": 1.0592,
6200
+ "step": 881
6201
+ },
6202
+ {
6203
+ "epoch": 0.07442252926906444,
6204
+ "grad_norm": 2.8989806175231934,
6205
+ "learning_rate": 6.58094790768225e-05,
6206
+ "loss": 1.7374,
6207
+ "step": 882
6208
+ },
6209
+ {
6210
+ "epoch": 0.07450690855395001,
6211
+ "grad_norm": 3.5653345584869385,
6212
+ "learning_rate": 6.56026761279161e-05,
6213
+ "loss": 1.5435,
6214
+ "step": 883
6215
+ },
6216
+ {
6217
+ "epoch": 0.07459128783883556,
6218
+ "grad_norm": 3.112036943435669,
6219
+ "learning_rate": 6.53960398946249e-05,
6220
+ "loss": 1.2511,
6221
+ "step": 884
6222
+ },
6223
+ {
6224
+ "epoch": 0.07467566712372113,
6225
+ "grad_norm": 2.459752082824707,
6226
+ "learning_rate": 6.518957137846538e-05,
6227
+ "loss": 1.1427,
6228
+ "step": 885
6229
+ },
6230
+ {
6231
+ "epoch": 0.07476004640860669,
6232
+ "grad_norm": 3.9591658115386963,
6233
+ "learning_rate": 6.498327158014108e-05,
6234
+ "loss": 1.984,
6235
+ "step": 886
6236
+ },
6237
+ {
6238
+ "epoch": 0.07484442569349224,
6239
+ "grad_norm": 3.097809076309204,
6240
+ "learning_rate": 6.477714149953795e-05,
6241
+ "loss": 1.2613,
6242
+ "step": 887
6243
+ },
6244
+ {
6245
+ "epoch": 0.07492880497837781,
6246
+ "grad_norm": 2.4523212909698486,
6247
+ "learning_rate": 6.457118213571922e-05,
6248
+ "loss": 1.2974,
6249
+ "step": 888
6250
+ },
6251
+ {
6252
+ "epoch": 0.07501318426326337,
6253
+ "grad_norm": 3.101086378097534,
6254
+ "learning_rate": 6.436539448692073e-05,
6255
+ "loss": 1.6382,
6256
+ "step": 889
6257
+ },
6258
+ {
6259
+ "epoch": 0.07509756354814894,
6260
+ "grad_norm": 3.1861653327941895,
6261
+ "learning_rate": 6.415977955054611e-05,
6262
+ "loss": 1.5635,
6263
+ "step": 890
6264
+ },
6265
+ {
6266
+ "epoch": 0.07518194283303449,
6267
+ "grad_norm": 3.8832900524139404,
6268
+ "learning_rate": 6.395433832316181e-05,
6269
+ "loss": 1.5918,
6270
+ "step": 891
6271
+ },
6272
+ {
6273
+ "epoch": 0.07526632211792005,
6274
+ "grad_norm": 3.0145103931427,
6275
+ "learning_rate": 6.374907180049246e-05,
6276
+ "loss": 1.1065,
6277
+ "step": 892
6278
+ },
6279
+ {
6280
+ "epoch": 0.07535070140280561,
6281
+ "grad_norm": 3.072340726852417,
6282
+ "learning_rate": 6.354398097741585e-05,
6283
+ "loss": 1.5317,
6284
+ "step": 893
6285
+ },
6286
+ {
6287
+ "epoch": 0.07543508068769117,
6288
+ "grad_norm": 4.860788822174072,
6289
+ "learning_rate": 6.333906684795821e-05,
6290
+ "loss": 1.5721,
6291
+ "step": 894
6292
+ },
6293
+ {
6294
+ "epoch": 0.07551945997257674,
6295
+ "grad_norm": 3.3973536491394043,
6296
+ "learning_rate": 6.313433040528947e-05,
6297
+ "loss": 1.7848,
6298
+ "step": 895
6299
+ },
6300
+ {
6301
+ "epoch": 0.0756038392574623,
6302
+ "grad_norm": 3.1489346027374268,
6303
+ "learning_rate": 6.292977264171819e-05,
6304
+ "loss": 1.6759,
6305
+ "step": 896
6306
+ },
6307
+ {
6308
+ "epoch": 0.07568821854234785,
6309
+ "grad_norm": 3.1691362857818604,
6310
+ "learning_rate": 6.272539454868702e-05,
6311
+ "loss": 1.5443,
6312
+ "step": 897
6313
+ },
6314
+ {
6315
+ "epoch": 0.07577259782723342,
6316
+ "grad_norm": 3.704650640487671,
6317
+ "learning_rate": 6.252119711676782e-05,
6318
+ "loss": 1.9884,
6319
+ "step": 898
6320
+ },
6321
+ {
6322
+ "epoch": 0.07585697711211897,
6323
+ "grad_norm": 2.927281141281128,
6324
+ "learning_rate": 6.231718133565674e-05,
6325
+ "loss": 1.3909,
6326
+ "step": 899
6327
+ },
6328
+ {
6329
+ "epoch": 0.07594135639700454,
6330
+ "grad_norm": 3.6570024490356445,
6331
+ "learning_rate": 6.21133481941696e-05,
6332
+ "loss": 1.5397,
6333
+ "step": 900
6334
+ },
6335
+ {
6336
+ "epoch": 0.0760257356818901,
6337
+ "grad_norm": 3.40569806098938,
6338
+ "learning_rate": 6.190969868023691e-05,
6339
+ "loss": 1.5339,
6340
+ "step": 901
6341
+ },
6342
+ {
6343
+ "epoch": 0.07611011496677565,
6344
+ "grad_norm": 2.9963929653167725,
6345
+ "learning_rate": 6.17062337808993e-05,
6346
+ "loss": 1.3681,
6347
+ "step": 902
6348
+ },
6349
+ {
6350
+ "epoch": 0.07619449425166122,
6351
+ "grad_norm": 3.280752420425415,
6352
+ "learning_rate": 6.150295448230248e-05,
6353
+ "loss": 1.6603,
6354
+ "step": 903
6355
+ },
6356
+ {
6357
+ "epoch": 0.07627887353654678,
6358
+ "grad_norm": 3.2442002296447754,
6359
+ "learning_rate": 6.129986176969269e-05,
6360
+ "loss": 1.7117,
6361
+ "step": 904
6362
+ },
6363
+ {
6364
+ "epoch": 0.07636325282143235,
6365
+ "grad_norm": 3.50140380859375,
6366
+ "learning_rate": 6.109695662741183e-05,
6367
+ "loss": 1.8245,
6368
+ "step": 905
6369
+ },
6370
+ {
6371
+ "epoch": 0.0764476321063179,
6372
+ "grad_norm": 3.7245430946350098,
6373
+ "learning_rate": 6.089424003889268e-05,
6374
+ "loss": 1.474,
6375
+ "step": 906
6376
+ },
6377
+ {
6378
+ "epoch": 0.07653201139120346,
6379
+ "grad_norm": 4.147988796234131,
6380
+ "learning_rate": 6.0691712986654124e-05,
6381
+ "loss": 1.7769,
6382
+ "step": 907
6383
+ },
6384
+ {
6385
+ "epoch": 0.07661639067608902,
6386
+ "grad_norm": 3.388179302215576,
6387
+ "learning_rate": 6.048937645229644e-05,
6388
+ "loss": 1.5102,
6389
+ "step": 908
6390
+ },
6391
+ {
6392
+ "epoch": 0.07670076996097458,
6393
+ "grad_norm": 3.4448678493499756,
6394
+ "learning_rate": 6.028723141649646e-05,
6395
+ "loss": 1.8252,
6396
+ "step": 909
6397
+ },
6398
+ {
6399
+ "epoch": 0.07678514924586013,
6400
+ "grad_norm": 3.0707340240478516,
6401
+ "learning_rate": 6.008527885900296e-05,
6402
+ "loss": 1.5494,
6403
+ "step": 910
6404
+ },
6405
+ {
6406
+ "epoch": 0.0768695285307457,
6407
+ "grad_norm": 3.1965088844299316,
6408
+ "learning_rate": 5.988351975863171e-05,
6409
+ "loss": 1.3532,
6410
+ "step": 911
6411
+ },
6412
+ {
6413
+ "epoch": 0.07695390781563126,
6414
+ "grad_norm": 2.9536924362182617,
6415
+ "learning_rate": 5.968195509326089e-05,
6416
+ "loss": 1.5506,
6417
+ "step": 912
6418
+ },
6419
+ {
6420
+ "epoch": 0.07703828710051683,
6421
+ "grad_norm": 2.2717971801757812,
6422
+ "learning_rate": 5.9480585839826343e-05,
6423
+ "loss": 1.0923,
6424
+ "step": 913
6425
+ },
6426
+ {
6427
+ "epoch": 0.07712266638540238,
6428
+ "grad_norm": 3.312793254852295,
6429
+ "learning_rate": 5.927941297431672e-05,
6430
+ "loss": 1.8926,
6431
+ "step": 914
6432
+ },
6433
+ {
6434
+ "epoch": 0.07720704567028794,
6435
+ "grad_norm": 3.4543073177337646,
6436
+ "learning_rate": 5.9078437471768865e-05,
6437
+ "loss": 1.3719,
6438
+ "step": 915
6439
+ },
6440
+ {
6441
+ "epoch": 0.07729142495517351,
6442
+ "grad_norm": 3.4697766304016113,
6443
+ "learning_rate": 5.887766030626308e-05,
6444
+ "loss": 1.97,
6445
+ "step": 916
6446
+ },
6447
+ {
6448
+ "epoch": 0.07737580424005906,
6449
+ "grad_norm": 3.1399221420288086,
6450
+ "learning_rate": 5.8677082450918354e-05,
6451
+ "loss": 1.3203,
6452
+ "step": 917
6453
+ },
6454
+ {
6455
+ "epoch": 0.07746018352494463,
6456
+ "grad_norm": 4.258705139160156,
6457
+ "learning_rate": 5.847670487788758e-05,
6458
+ "loss": 1.798,
6459
+ "step": 918
6460
+ },
6461
+ {
6462
+ "epoch": 0.07754456280983019,
6463
+ "grad_norm": 4.258029460906982,
6464
+ "learning_rate": 5.827652855835308e-05,
6465
+ "loss": 1.7186,
6466
+ "step": 919
6467
+ },
6468
+ {
6469
+ "epoch": 0.07762894209471574,
6470
+ "grad_norm": 3.9962995052337646,
6471
+ "learning_rate": 5.807655446252163e-05,
6472
+ "loss": 1.5903,
6473
+ "step": 920
6474
+ },
6475
+ {
6476
+ "epoch": 0.07771332137960131,
6477
+ "grad_norm": 4.5598626136779785,
6478
+ "learning_rate": 5.787678355961993e-05,
6479
+ "loss": 2.0344,
6480
+ "step": 921
6481
+ },
6482
+ {
6483
+ "epoch": 0.07779770066448687,
6484
+ "grad_norm": 3.61279559135437,
6485
+ "learning_rate": 5.76772168178899e-05,
6486
+ "loss": 2.022,
6487
+ "step": 922
6488
+ },
6489
+ {
6490
+ "epoch": 0.07788207994937243,
6491
+ "grad_norm": 3.357609987258911,
6492
+ "learning_rate": 5.74778552045838e-05,
6493
+ "loss": 1.089,
6494
+ "step": 923
6495
+ },
6496
+ {
6497
+ "epoch": 0.07796645923425799,
6498
+ "grad_norm": 3.9268362522125244,
6499
+ "learning_rate": 5.7278699685959835e-05,
6500
+ "loss": 1.9794,
6501
+ "step": 924
6502
+ },
6503
+ {
6504
+ "epoch": 0.07805083851914354,
6505
+ "grad_norm": 3.3527932167053223,
6506
+ "learning_rate": 5.7079751227277176e-05,
6507
+ "loss": 1.5096,
6508
+ "step": 925
6509
+ },
6510
+ {
6511
+ "epoch": 0.07813521780402911,
6512
+ "grad_norm": 3.296321392059326,
6513
+ "learning_rate": 5.6881010792791546e-05,
6514
+ "loss": 1.3736,
6515
+ "step": 926
6516
+ },
6517
+ {
6518
+ "epoch": 0.07821959708891467,
6519
+ "grad_norm": 3.662139892578125,
6520
+ "learning_rate": 5.668247934575035e-05,
6521
+ "loss": 1.6151,
6522
+ "step": 927
6523
+ },
6524
+ {
6525
+ "epoch": 0.07830397637380024,
6526
+ "grad_norm": 3.816279888153076,
6527
+ "learning_rate": 5.6484157848388165e-05,
6528
+ "loss": 1.7165,
6529
+ "step": 928
6530
+ },
6531
+ {
6532
+ "epoch": 0.0783883556586858,
6533
+ "grad_norm": 3.0304577350616455,
6534
+ "learning_rate": 5.628604726192186e-05,
6535
+ "loss": 1.4309,
6536
+ "step": 929
6537
+ },
6538
+ {
6539
+ "epoch": 0.07847273494357135,
6540
+ "grad_norm": 3.2069170475006104,
6541
+ "learning_rate": 5.6088148546546146e-05,
6542
+ "loss": 1.283,
6543
+ "step": 930
6544
+ },
6545
+ {
6546
+ "epoch": 0.07855711422845692,
6547
+ "grad_norm": 2.918621063232422,
6548
+ "learning_rate": 5.589046266142891e-05,
6549
+ "loss": 1.4255,
6550
+ "step": 931
6551
+ },
6552
+ {
6553
+ "epoch": 0.07864149351334247,
6554
+ "grad_norm": 3.786069869995117,
6555
+ "learning_rate": 5.569299056470635e-05,
6556
+ "loss": 1.5281,
6557
+ "step": 932
6558
+ },
6559
+ {
6560
+ "epoch": 0.07872587279822804,
6561
+ "grad_norm": 3.4659860134124756,
6562
+ "learning_rate": 5.549573321347863e-05,
6563
+ "loss": 1.7832,
6564
+ "step": 933
6565
+ },
6566
+ {
6567
+ "epoch": 0.0788102520831136,
6568
+ "grad_norm": 3.6599302291870117,
6569
+ "learning_rate": 5.529869156380496e-05,
6570
+ "loss": 1.7159,
6571
+ "step": 934
6572
+ },
6573
+ {
6574
+ "epoch": 0.07889463136799915,
6575
+ "grad_norm": 3.3843908309936523,
6576
+ "learning_rate": 5.510186657069921e-05,
6577
+ "loss": 1.226,
6578
+ "step": 935
6579
+ },
6580
+ {
6581
+ "epoch": 0.07897901065288472,
6582
+ "grad_norm": 3.5379812717437744,
6583
+ "learning_rate": 5.490525918812512e-05,
6584
+ "loss": 1.7822,
6585
+ "step": 936
6586
+ },
6587
+ {
6588
+ "epoch": 0.07906338993777028,
6589
+ "grad_norm": 3.178551197052002,
6590
+ "learning_rate": 5.4708870368991715e-05,
6591
+ "loss": 1.6024,
6592
+ "step": 937
6593
+ },
6594
+ {
6595
+ "epoch": 0.07914776922265584,
6596
+ "grad_norm": 3.1955838203430176,
6597
+ "learning_rate": 5.451270106514875e-05,
6598
+ "loss": 2.0264,
6599
+ "step": 938
6600
+ },
6601
+ {
6602
+ "epoch": 0.0792321485075414,
6603
+ "grad_norm": 3.555262565612793,
6604
+ "learning_rate": 5.431675222738197e-05,
6605
+ "loss": 1.5953,
6606
+ "step": 939
6607
+ },
6608
+ {
6609
+ "epoch": 0.07931652779242696,
6610
+ "grad_norm": 3.2316176891326904,
6611
+ "learning_rate": 5.412102480540855e-05,
6612
+ "loss": 1.715,
6613
+ "step": 940
6614
+ },
6615
+ {
6616
+ "epoch": 0.07940090707731252,
6617
+ "grad_norm": 3.2542645931243896,
6618
+ "learning_rate": 5.392551974787261e-05,
6619
+ "loss": 1.701,
6620
+ "step": 941
6621
+ },
6622
+ {
6623
+ "epoch": 0.07948528636219808,
6624
+ "grad_norm": 2.499079942703247,
6625
+ "learning_rate": 5.373023800234048e-05,
6626
+ "loss": 0.9561,
6627
+ "step": 942
6628
+ },
6629
+ {
6630
+ "epoch": 0.07956966564708363,
6631
+ "grad_norm": 3.4604427814483643,
6632
+ "learning_rate": 5.353518051529619e-05,
6633
+ "loss": 1.6331,
6634
+ "step": 943
6635
+ },
6636
+ {
6637
+ "epoch": 0.0796540449319692,
6638
+ "grad_norm": 2.747849464416504,
6639
+ "learning_rate": 5.334034823213673e-05,
6640
+ "loss": 1.4567,
6641
+ "step": 944
6642
+ },
6643
+ {
6644
+ "epoch": 0.07973842421685476,
6645
+ "grad_norm": 3.287957191467285,
6646
+ "learning_rate": 5.314574209716767e-05,
6647
+ "loss": 1.5251,
6648
+ "step": 945
6649
+ },
6650
+ {
6651
+ "epoch": 0.07982280350174033,
6652
+ "grad_norm": 2.9816641807556152,
6653
+ "learning_rate": 5.295136305359856e-05,
6654
+ "loss": 1.5381,
6655
+ "step": 946
6656
+ },
6657
+ {
6658
+ "epoch": 0.07990718278662588,
6659
+ "grad_norm": 3.083892583847046,
6660
+ "learning_rate": 5.275721204353807e-05,
6661
+ "loss": 1.9563,
6662
+ "step": 947
6663
+ },
6664
+ {
6665
+ "epoch": 0.07999156207151144,
6666
+ "grad_norm": 3.9584100246429443,
6667
+ "learning_rate": 5.256329000798988e-05,
6668
+ "loss": 1.6158,
6669
+ "step": 948
6670
+ },
6671
+ {
6672
+ "epoch": 0.080075941356397,
6673
+ "grad_norm": 3.2833170890808105,
6674
+ "learning_rate": 5.23695978868478e-05,
6675
+ "loss": 1.5464,
6676
+ "step": 949
6677
+ },
6678
+ {
6679
+ "epoch": 0.08016032064128256,
6680
+ "grad_norm": 3.2715957164764404,
6681
+ "learning_rate": 5.2176136618891225e-05,
6682
+ "loss": 1.6228,
6683
+ "step": 950
6684
+ },
6685
+ {
6686
+ "epoch": 0.08024469992616813,
6687
+ "grad_norm": 4.0370049476623535,
6688
+ "learning_rate": 5.1982907141780744e-05,
6689
+ "loss": 1.7749,
6690
+ "step": 951
6691
+ },
6692
+ {
6693
+ "epoch": 0.08032907921105369,
6694
+ "grad_norm": 3.634587049484253,
6695
+ "learning_rate": 5.178991039205352e-05,
6696
+ "loss": 1.9981,
6697
+ "step": 952
6698
+ },
6699
+ {
6700
+ "epoch": 0.08041345849593924,
6701
+ "grad_norm": 2.6632728576660156,
6702
+ "learning_rate": 5.159714730511873e-05,
6703
+ "loss": 1.3034,
6704
+ "step": 953
6705
+ },
6706
+ {
6707
+ "epoch": 0.08049783778082481,
6708
+ "grad_norm": 3.3665788173675537,
6709
+ "learning_rate": 5.140461881525299e-05,
6710
+ "loss": 1.716,
6711
+ "step": 954
6712
+ },
6713
+ {
6714
+ "epoch": 0.08058221706571037,
6715
+ "grad_norm": 3.839794874191284,
6716
+ "learning_rate": 5.121232585559589e-05,
6717
+ "loss": 1.8759,
6718
+ "step": 955
6719
+ },
6720
+ {
6721
+ "epoch": 0.08066659635059593,
6722
+ "grad_norm": 3.8704581260681152,
6723
+ "learning_rate": 5.1020269358145525e-05,
6724
+ "loss": 1.9303,
6725
+ "step": 956
6726
+ },
6727
+ {
6728
+ "epoch": 0.08075097563548149,
6729
+ "grad_norm": 3.7815945148468018,
6730
+ "learning_rate": 5.0828450253753866e-05,
6731
+ "loss": 1.5441,
6732
+ "step": 957
6733
+ },
6734
+ {
6735
+ "epoch": 0.08083535492036704,
6736
+ "grad_norm": 3.394934892654419,
6737
+ "learning_rate": 5.0636869472122326e-05,
6738
+ "loss": 1.9486,
6739
+ "step": 958
6740
+ },
6741
+ {
6742
+ "epoch": 0.08091973420525261,
6743
+ "grad_norm": 4.189752578735352,
6744
+ "learning_rate": 5.0445527941797236e-05,
6745
+ "loss": 1.4785,
6746
+ "step": 959
6747
+ },
6748
+ {
6749
+ "epoch": 0.08100411349013817,
6750
+ "grad_norm": 3.6348304748535156,
6751
+ "learning_rate": 5.0254426590165214e-05,
6752
+ "loss": 1.811,
6753
+ "step": 960
6754
+ },
6755
+ {
6756
+ "epoch": 0.08108849277502374,
6757
+ "grad_norm": 3.7563483715057373,
6758
+ "learning_rate": 5.006356634344898e-05,
6759
+ "loss": 1.6477,
6760
+ "step": 961
6761
+ },
6762
+ {
6763
+ "epoch": 0.08117287205990929,
6764
+ "grad_norm": 2.8033125400543213,
6765
+ "learning_rate": 4.987294812670249e-05,
6766
+ "loss": 1.1668,
6767
+ "step": 962
6768
+ },
6769
+ {
6770
+ "epoch": 0.08125725134479485,
6771
+ "grad_norm": 3.1571547985076904,
6772
+ "learning_rate": 4.9682572863806755e-05,
6773
+ "loss": 1.6883,
6774
+ "step": 963
6775
+ },
6776
+ {
6777
+ "epoch": 0.08134163062968042,
6778
+ "grad_norm": 3.429401159286499,
6779
+ "learning_rate": 4.949244147746525e-05,
6780
+ "loss": 1.5639,
6781
+ "step": 964
6782
+ },
6783
+ {
6784
+ "epoch": 0.08142600991456597,
6785
+ "grad_norm": 3.838519811630249,
6786
+ "learning_rate": 4.930255488919934e-05,
6787
+ "loss": 1.6605,
6788
+ "step": 965
6789
+ },
6790
+ {
6791
+ "epoch": 0.08151038919945154,
6792
+ "grad_norm": 3.1025607585906982,
6793
+ "learning_rate": 4.9112914019344003e-05,
6794
+ "loss": 1.8484,
6795
+ "step": 966
6796
+ },
6797
+ {
6798
+ "epoch": 0.0815947684843371,
6799
+ "grad_norm": 2.9810519218444824,
6800
+ "learning_rate": 4.892351978704326e-05,
6801
+ "loss": 1.3605,
6802
+ "step": 967
6803
+ },
6804
+ {
6805
+ "epoch": 0.08167914776922265,
6806
+ "grad_norm": 3.149088144302368,
6807
+ "learning_rate": 4.873437311024577e-05,
6808
+ "loss": 1.5338,
6809
+ "step": 968
6810
+ },
6811
+ {
6812
+ "epoch": 0.08176352705410822,
6813
+ "grad_norm": 3.399979829788208,
6814
+ "learning_rate": 4.854547490570022e-05,
6815
+ "loss": 1.3578,
6816
+ "step": 969
6817
+ },
6818
+ {
6819
+ "epoch": 0.08184790633899378,
6820
+ "grad_norm": 2.430124282836914,
6821
+ "learning_rate": 4.835682608895118e-05,
6822
+ "loss": 1.1392,
6823
+ "step": 970
6824
+ },
6825
+ {
6826
+ "epoch": 0.08193228562387934,
6827
+ "grad_norm": 3.357212781906128,
6828
+ "learning_rate": 4.816842757433436e-05,
6829
+ "loss": 1.248,
6830
+ "step": 971
6831
+ },
6832
+ {
6833
+ "epoch": 0.0820166649087649,
6834
+ "grad_norm": 2.704453945159912,
6835
+ "learning_rate": 4.79802802749724e-05,
6836
+ "loss": 1.3,
6837
+ "step": 972
6838
+ },
6839
+ {
6840
+ "epoch": 0.08210104419365045,
6841
+ "grad_norm": 3.4953999519348145,
6842
+ "learning_rate": 4.7792385102770324e-05,
6843
+ "loss": 1.3193,
6844
+ "step": 973
6845
+ },
6846
+ {
6847
+ "epoch": 0.08218542347853602,
6848
+ "grad_norm": 3.4437851905822754,
6849
+ "learning_rate": 4.760474296841121e-05,
6850
+ "loss": 1.607,
6851
+ "step": 974
6852
+ },
6853
+ {
6854
+ "epoch": 0.08226980276342158,
6855
+ "grad_norm": 3.2445197105407715,
6856
+ "learning_rate": 4.741735478135164e-05,
6857
+ "loss": 2.194,
6858
+ "step": 975
6859
+ },
6860
+ {
6861
+ "epoch": 0.08235418204830713,
6862
+ "grad_norm": 2.820953369140625,
6863
+ "learning_rate": 4.723022144981738e-05,
6864
+ "loss": 1.2643,
6865
+ "step": 976
6866
+ },
6867
+ {
6868
+ "epoch": 0.0824385613331927,
6869
+ "grad_norm": 3.4670326709747314,
6870
+ "learning_rate": 4.704334388079903e-05,
6871
+ "loss": 1.4809,
6872
+ "step": 977
6873
+ },
6874
+ {
6875
+ "epoch": 0.08252294061807826,
6876
+ "grad_norm": 3.0149405002593994,
6877
+ "learning_rate": 4.685672298004754e-05,
6878
+ "loss": 1.3301,
6879
+ "step": 978
6880
+ },
6881
+ {
6882
+ "epoch": 0.08260731990296383,
6883
+ "grad_norm": 2.8329551219940186,
6884
+ "learning_rate": 4.6670359652069863e-05,
6885
+ "loss": 1.6225,
6886
+ "step": 979
6887
+ },
6888
+ {
6889
+ "epoch": 0.08269169918784938,
6890
+ "grad_norm": 2.9316213130950928,
6891
+ "learning_rate": 4.648425480012458e-05,
6892
+ "loss": 1.4515,
6893
+ "step": 980
6894
+ },
6895
+ {
6896
+ "epoch": 0.08277607847273494,
6897
+ "grad_norm": 4.188765525817871,
6898
+ "learning_rate": 4.629840932621741e-05,
6899
+ "loss": 1.7886,
6900
+ "step": 981
6901
+ },
6902
+ {
6903
+ "epoch": 0.0828604577576205,
6904
+ "grad_norm": 3.880164861679077,
6905
+ "learning_rate": 4.611282413109704e-05,
6906
+ "loss": 1.7346,
6907
+ "step": 982
6908
+ },
6909
+ {
6910
+ "epoch": 0.08294483704250606,
6911
+ "grad_norm": 3.7946267127990723,
6912
+ "learning_rate": 4.592750011425053e-05,
6913
+ "loss": 2.0565,
6914
+ "step": 983
6915
+ },
6916
+ {
6917
+ "epoch": 0.08302921632739163,
6918
+ "grad_norm": 3.2721166610717773,
6919
+ "learning_rate": 4.574243817389917e-05,
6920
+ "loss": 1.419,
6921
+ "step": 984
6922
+ },
6923
+ {
6924
+ "epoch": 0.08311359561227719,
6925
+ "grad_norm": 3.628910779953003,
6926
+ "learning_rate": 4.555763920699404e-05,
6927
+ "loss": 1.6117,
6928
+ "step": 985
6929
+ },
6930
+ {
6931
+ "epoch": 0.08319797489716274,
6932
+ "grad_norm": 4.114333152770996,
6933
+ "learning_rate": 4.537310410921153e-05,
6934
+ "loss": 1.8862,
6935
+ "step": 986
6936
+ },
6937
+ {
6938
+ "epoch": 0.08328235418204831,
6939
+ "grad_norm": 3.2277815341949463,
6940
+ "learning_rate": 4.5188833774949224e-05,
6941
+ "loss": 2.1243,
6942
+ "step": 987
6943
+ },
6944
+ {
6945
+ "epoch": 0.08336673346693386,
6946
+ "grad_norm": 3.812563419342041,
6947
+ "learning_rate": 4.500482909732144e-05,
6948
+ "loss": 1.8358,
6949
+ "step": 988
6950
+ },
6951
+ {
6952
+ "epoch": 0.08345111275181943,
6953
+ "grad_norm": 3.6660330295562744,
6954
+ "learning_rate": 4.482109096815491e-05,
6955
+ "loss": 1.5744,
6956
+ "step": 989
6957
+ },
6958
+ {
6959
+ "epoch": 0.08353549203670499,
6960
+ "grad_norm": 3.3940811157226562,
6961
+ "learning_rate": 4.4637620277984506e-05,
6962
+ "loss": 1.8974,
6963
+ "step": 990
6964
+ },
6965
+ {
6966
+ "epoch": 0.08361987132159054,
6967
+ "grad_norm": 3.1708710193634033,
6968
+ "learning_rate": 4.4454417916048804e-05,
6969
+ "loss": 1.565,
6970
+ "step": 991
6971
+ },
6972
+ {
6973
+ "epoch": 0.08370425060647611,
6974
+ "grad_norm": 3.2875232696533203,
6975
+ "learning_rate": 4.427148477028589e-05,
6976
+ "loss": 1.4847,
6977
+ "step": 992
6978
+ },
6979
+ {
6980
+ "epoch": 0.08378862989136167,
6981
+ "grad_norm": 2.535433292388916,
6982
+ "learning_rate": 4.4088821727329067e-05,
6983
+ "loss": 1.3308,
6984
+ "step": 993
6985
+ },
6986
+ {
6987
+ "epoch": 0.08387300917624724,
6988
+ "grad_norm": 3.839012622833252,
6989
+ "learning_rate": 4.390642967250249e-05,
6990
+ "loss": 1.6541,
6991
+ "step": 994
6992
+ },
6993
+ {
6994
+ "epoch": 0.08395738846113279,
6995
+ "grad_norm": 3.5515658855438232,
6996
+ "learning_rate": 4.372430948981693e-05,
6997
+ "loss": 1.8802,
6998
+ "step": 995
6999
+ },
7000
+ {
7001
+ "epoch": 0.08404176774601835,
7002
+ "grad_norm": 4.180967807769775,
7003
+ "learning_rate": 4.354246206196535e-05,
7004
+ "loss": 1.7852,
7005
+ "step": 996
7006
+ },
7007
+ {
7008
+ "epoch": 0.08412614703090392,
7009
+ "grad_norm": 3.247296094894409,
7010
+ "learning_rate": 4.336088827031889e-05,
7011
+ "loss": 1.7732,
7012
+ "step": 997
7013
+ },
7014
+ {
7015
+ "epoch": 0.08421052631578947,
7016
+ "grad_norm": 3.3442742824554443,
7017
+ "learning_rate": 4.3179588994922274e-05,
7018
+ "loss": 1.3819,
7019
+ "step": 998
7020
+ },
7021
+ {
7022
+ "epoch": 0.08429490560067504,
7023
+ "grad_norm": 3.765320062637329,
7024
+ "learning_rate": 4.2998565114489855e-05,
7025
+ "loss": 1.5747,
7026
+ "step": 999
7027
+ },
7028
+ {
7029
+ "epoch": 0.0843792848855606,
7030
+ "grad_norm": 3.264878273010254,
7031
+ "learning_rate": 4.281781750640112e-05,
7032
+ "loss": 1.5075,
7033
+ "step": 1000
7034
+ },
7035
+ {
7036
+ "epoch": 0.08446366417044615,
7037
+ "grad_norm": 3.3386402130126953,
7038
+ "learning_rate": 4.263734704669665e-05,
7039
+ "loss": 1.5605,
7040
+ "step": 1001
7041
+ },
7042
+ {
7043
+ "epoch": 0.08454804345533172,
7044
+ "grad_norm": 2.855348587036133,
7045
+ "learning_rate": 4.245715461007357e-05,
7046
+ "loss": 1.2566,
7047
+ "step": 1002
7048
+ },
7049
+ {
7050
+ "epoch": 0.08463242274021728,
7051
+ "grad_norm": 3.1625888347625732,
7052
+ "learning_rate": 4.2277241069881615e-05,
7053
+ "loss": 1.3671,
7054
+ "step": 1003
7055
+ },
7056
+ {
7057
+ "epoch": 0.08471680202510284,
7058
+ "grad_norm": 3.769261360168457,
7059
+ "learning_rate": 4.209760729811881e-05,
7060
+ "loss": 1.9523,
7061
+ "step": 1004
7062
+ },
7063
+ {
7064
+ "epoch": 0.0848011813099884,
7065
+ "grad_norm": 2.738025426864624,
7066
+ "learning_rate": 4.191825416542708e-05,
7067
+ "loss": 1.2554,
7068
+ "step": 1005
7069
+ },
7070
+ {
7071
+ "epoch": 0.08488556059487395,
7072
+ "grad_norm": 4.013035297393799,
7073
+ "learning_rate": 4.1739182541088305e-05,
7074
+ "loss": 1.7184,
7075
+ "step": 1006
7076
+ },
7077
+ {
7078
+ "epoch": 0.08496993987975952,
7079
+ "grad_norm": 3.0900278091430664,
7080
+ "learning_rate": 4.15603932930198e-05,
7081
+ "loss": 1.7968,
7082
+ "step": 1007
7083
+ },
7084
+ {
7085
+ "epoch": 0.08505431916464508,
7086
+ "grad_norm": 3.4534189701080322,
7087
+ "learning_rate": 4.138188728777041e-05,
7088
+ "loss": 1.9061,
7089
+ "step": 1008
7090
+ },
7091
+ {
7092
+ "epoch": 0.08513869844953063,
7093
+ "grad_norm": 2.792163848876953,
7094
+ "learning_rate": 4.120366539051612e-05,
7095
+ "loss": 1.0116,
7096
+ "step": 1009
7097
+ },
7098
+ {
7099
+ "epoch": 0.0852230777344162,
7100
+ "grad_norm": 2.787792205810547,
7101
+ "learning_rate": 4.102572846505589e-05,
7102
+ "loss": 1.7397,
7103
+ "step": 1010
7104
+ },
7105
+ {
7106
+ "epoch": 0.08530745701930176,
7107
+ "grad_norm": 3.7990641593933105,
7108
+ "learning_rate": 4.0848077373807556e-05,
7109
+ "loss": 1.6142,
7110
+ "step": 1011
7111
+ },
7112
+ {
7113
+ "epoch": 0.08539183630418733,
7114
+ "grad_norm": 3.2461421489715576,
7115
+ "learning_rate": 4.067071297780351e-05,
7116
+ "loss": 1.5828,
7117
+ "step": 1012
7118
+ },
7119
+ {
7120
+ "epoch": 0.08547621558907288,
7121
+ "grad_norm": 3.261294364929199,
7122
+ "learning_rate": 4.0493636136686574e-05,
7123
+ "loss": 1.4872,
7124
+ "step": 1013
7125
+ },
7126
+ {
7127
+ "epoch": 0.08556059487395844,
7128
+ "grad_norm": 3.000673294067383,
7129
+ "learning_rate": 4.0316847708705964e-05,
7130
+ "loss": 1.482,
7131
+ "step": 1014
7132
+ },
7133
+ {
7134
+ "epoch": 0.085644974158844,
7135
+ "grad_norm": 3.1343703269958496,
7136
+ "learning_rate": 4.0140348550712955e-05,
7137
+ "loss": 1.2417,
7138
+ "step": 1015
7139
+ },
7140
+ {
7141
+ "epoch": 0.08572935344372956,
7142
+ "grad_norm": 4.0371880531311035,
7143
+ "learning_rate": 3.996413951815685e-05,
7144
+ "loss": 1.6358,
7145
+ "step": 1016
7146
+ },
7147
+ {
7148
+ "epoch": 0.08581373272861513,
7149
+ "grad_norm": 3.639571189880371,
7150
+ "learning_rate": 3.9788221465080764e-05,
7151
+ "loss": 1.6611,
7152
+ "step": 1017
7153
+ },
7154
+ {
7155
+ "epoch": 0.08589811201350069,
7156
+ "grad_norm": 3.0644125938415527,
7157
+ "learning_rate": 3.9612595244117444e-05,
7158
+ "loss": 1.1822,
7159
+ "step": 1018
7160
+ },
7161
+ {
7162
+ "epoch": 0.08598249129838624,
7163
+ "grad_norm": 3.3109662532806396,
7164
+ "learning_rate": 3.9437261706485295e-05,
7165
+ "loss": 1.6849,
7166
+ "step": 1019
7167
+ },
7168
+ {
7169
+ "epoch": 0.08606687058327181,
7170
+ "grad_norm": 2.721682548522949,
7171
+ "learning_rate": 3.926222170198404e-05,
7172
+ "loss": 1.2948,
7173
+ "step": 1020
7174
+ },
7175
+ {
7176
+ "epoch": 0.08615124986815736,
7177
+ "grad_norm": 3.4836831092834473,
7178
+ "learning_rate": 3.9087476078990826e-05,
7179
+ "loss": 1.7757,
7180
+ "step": 1021
7181
+ },
7182
+ {
7183
+ "epoch": 0.08623562915304293,
7184
+ "grad_norm": 3.04488205909729,
7185
+ "learning_rate": 3.8913025684456005e-05,
7186
+ "loss": 1.7447,
7187
+ "step": 1022
7188
+ },
7189
+ {
7190
+ "epoch": 0.08632000843792849,
7191
+ "grad_norm": 2.8262956142425537,
7192
+ "learning_rate": 3.873887136389889e-05,
7193
+ "loss": 1.2663,
7194
+ "step": 1023
7195
+ },
7196
+ {
7197
+ "epoch": 0.08640438772281404,
7198
+ "grad_norm": 3.794739246368408,
7199
+ "learning_rate": 3.856501396140394e-05,
7200
+ "loss": 1.9884,
7201
+ "step": 1024
7202
+ },
7203
+ {
7204
+ "epoch": 0.08648876700769961,
7205
+ "grad_norm": 3.342715263366699,
7206
+ "learning_rate": 3.839145431961646e-05,
7207
+ "loss": 1.9778,
7208
+ "step": 1025
7209
+ },
7210
+ {
7211
+ "epoch": 0.08657314629258517,
7212
+ "grad_norm": 2.6708970069885254,
7213
+ "learning_rate": 3.821819327973862e-05,
7214
+ "loss": 1.4457,
7215
+ "step": 1026
7216
+ },
7217
+ {
7218
+ "epoch": 0.08665752557747074,
7219
+ "grad_norm": 4.427373886108398,
7220
+ "learning_rate": 3.804523168152526e-05,
7221
+ "loss": 1.85,
7222
+ "step": 1027
7223
+ },
7224
+ {
7225
+ "epoch": 0.08674190486235629,
7226
+ "grad_norm": 3.5284879207611084,
7227
+ "learning_rate": 3.787257036327999e-05,
7228
+ "loss": 1.4974,
7229
+ "step": 1028
7230
+ },
7231
+ {
7232
+ "epoch": 0.08682628414724185,
7233
+ "grad_norm": 3.2620925903320312,
7234
+ "learning_rate": 3.770021016185094e-05,
7235
+ "loss": 1.5186,
7236
+ "step": 1029
7237
+ },
7238
+ {
7239
+ "epoch": 0.08691066343212742,
7240
+ "grad_norm": 3.066788911819458,
7241
+ "learning_rate": 3.7528151912626884e-05,
7242
+ "loss": 1.2812,
7243
+ "step": 1030
7244
+ },
7245
+ {
7246
+ "epoch": 0.08699504271701297,
7247
+ "grad_norm": 3.0070440769195557,
7248
+ "learning_rate": 3.7356396449533046e-05,
7249
+ "loss": 1.5595,
7250
+ "step": 1031
7251
+ },
7252
+ {
7253
+ "epoch": 0.08707942200189854,
7254
+ "grad_norm": 3.7550156116485596,
7255
+ "learning_rate": 3.718494460502721e-05,
7256
+ "loss": 1.6685,
7257
+ "step": 1032
7258
+ },
7259
+ {
7260
+ "epoch": 0.0871638012867841,
7261
+ "grad_norm": 2.7150115966796875,
7262
+ "learning_rate": 3.701379721009547e-05,
7263
+ "loss": 1.4513,
7264
+ "step": 1033
7265
+ },
7266
+ {
7267
+ "epoch": 0.08724818057166965,
7268
+ "grad_norm": 2.8110036849975586,
7269
+ "learning_rate": 3.6842955094248356e-05,
7270
+ "loss": 1.4277,
7271
+ "step": 1034
7272
+ },
7273
+ {
7274
+ "epoch": 0.08733255985655522,
7275
+ "grad_norm": 2.648404359817505,
7276
+ "learning_rate": 3.667241908551683e-05,
7277
+ "loss": 1.2026,
7278
+ "step": 1035
7279
+ },
7280
+ {
7281
+ "epoch": 0.08741693914144077,
7282
+ "grad_norm": 3.5289621353149414,
7283
+ "learning_rate": 3.650219001044822e-05,
7284
+ "loss": 1.9194,
7285
+ "step": 1036
7286
+ },
7287
+ {
7288
+ "epoch": 0.08750131842632633,
7289
+ "grad_norm": 3.684596300125122,
7290
+ "learning_rate": 3.63322686941022e-05,
7291
+ "loss": 1.5032,
7292
+ "step": 1037
7293
+ },
7294
+ {
7295
+ "epoch": 0.0875856977112119,
7296
+ "grad_norm": 3.558779716491699,
7297
+ "learning_rate": 3.616265596004686e-05,
7298
+ "loss": 1.6558,
7299
+ "step": 1038
7300
+ },
7301
+ {
7302
+ "epoch": 0.08767007699609745,
7303
+ "grad_norm": 2.632128953933716,
7304
+ "learning_rate": 3.599335263035453e-05,
7305
+ "loss": 1.3601,
7306
+ "step": 1039
7307
+ },
7308
+ {
7309
+ "epoch": 0.08775445628098302,
7310
+ "grad_norm": 3.0218188762664795,
7311
+ "learning_rate": 3.582435952559806e-05,
7312
+ "loss": 1.6693,
7313
+ "step": 1040
7314
+ },
7315
+ {
7316
+ "epoch": 0.08783883556586858,
7317
+ "grad_norm": 3.2471461296081543,
7318
+ "learning_rate": 3.5655677464846716e-05,
7319
+ "loss": 1.5243,
7320
+ "step": 1041
7321
+ },
7322
+ {
7323
+ "epoch": 0.08792321485075413,
7324
+ "grad_norm": 3.517889976501465,
7325
+ "learning_rate": 3.5487307265662106e-05,
7326
+ "loss": 1.7958,
7327
+ "step": 1042
7328
+ },
7329
+ {
7330
+ "epoch": 0.0880075941356397,
7331
+ "grad_norm": 4.443117618560791,
7332
+ "learning_rate": 3.531924974409445e-05,
7333
+ "loss": 1.5469,
7334
+ "step": 1043
7335
+ },
7336
+ {
7337
+ "epoch": 0.08809197342052526,
7338
+ "grad_norm": 2.9980645179748535,
7339
+ "learning_rate": 3.5151505714678334e-05,
7340
+ "loss": 1.7784,
7341
+ "step": 1044
7342
+ },
7343
+ {
7344
+ "epoch": 0.08817635270541083,
7345
+ "grad_norm": 3.082932472229004,
7346
+ "learning_rate": 3.498407599042908e-05,
7347
+ "loss": 1.2205,
7348
+ "step": 1045
7349
+ },
7350
+ {
7351
+ "epoch": 0.08826073199029638,
7352
+ "grad_norm": 3.174506425857544,
7353
+ "learning_rate": 3.481696138283855e-05,
7354
+ "loss": 1.3015,
7355
+ "step": 1046
7356
+ },
7357
+ {
7358
+ "epoch": 0.08834511127518194,
7359
+ "grad_norm": 2.673461437225342,
7360
+ "learning_rate": 3.4650162701871367e-05,
7361
+ "loss": 1.4825,
7362
+ "step": 1047
7363
+ },
7364
+ {
7365
+ "epoch": 0.0884294905600675,
7366
+ "grad_norm": 3.3988704681396484,
7367
+ "learning_rate": 3.448368075596092e-05,
7368
+ "loss": 1.8758,
7369
+ "step": 1048
7370
+ },
7371
+ {
7372
+ "epoch": 0.08851386984495306,
7373
+ "grad_norm": 3.7007596492767334,
7374
+ "learning_rate": 3.431751635200544e-05,
7375
+ "loss": 1.5928,
7376
+ "step": 1049
7377
+ },
7378
+ {
7379
+ "epoch": 0.08859824912983863,
7380
+ "grad_norm": 3.5111403465270996,
7381
+ "learning_rate": 3.415167029536406e-05,
7382
+ "loss": 1.918,
7383
+ "step": 1050
7384
+ },
7385
+ {
7386
+ "epoch": 0.08868262841472419,
7387
+ "grad_norm": 3.1500866413116455,
7388
+ "learning_rate": 3.3986143389853054e-05,
7389
+ "loss": 1.4275,
7390
+ "step": 1051
7391
+ },
7392
+ {
7393
+ "epoch": 0.08876700769960974,
7394
+ "grad_norm": 2.674935817718506,
7395
+ "learning_rate": 3.3820936437741814e-05,
7396
+ "loss": 1.332,
7397
+ "step": 1052
7398
+ },
7399
+ {
7400
+ "epoch": 0.08885138698449531,
7401
+ "grad_norm": 3.5701823234558105,
7402
+ "learning_rate": 3.3656050239749004e-05,
7403
+ "loss": 1.9382,
7404
+ "step": 1053
7405
+ },
7406
+ {
7407
+ "epoch": 0.08893576626938086,
7408
+ "grad_norm": 3.080343008041382,
7409
+ "learning_rate": 3.349148559503861e-05,
7410
+ "loss": 1.2917,
7411
+ "step": 1054
7412
+ },
7413
+ {
7414
+ "epoch": 0.08902014555426643,
7415
+ "grad_norm": 3.38442063331604,
7416
+ "learning_rate": 3.332724330121622e-05,
7417
+ "loss": 1.7187,
7418
+ "step": 1055
7419
+ },
7420
+ {
7421
+ "epoch": 0.08910452483915199,
7422
+ "grad_norm": 3.537364959716797,
7423
+ "learning_rate": 3.316332415432495e-05,
7424
+ "loss": 1.6425,
7425
+ "step": 1056
7426
+ },
7427
+ {
7428
+ "epoch": 0.08918890412403754,
7429
+ "grad_norm": 3.537048816680908,
7430
+ "learning_rate": 3.29997289488418e-05,
7431
+ "loss": 1.7704,
7432
+ "step": 1057
7433
+ },
7434
+ {
7435
+ "epoch": 0.08927328340892311,
7436
+ "grad_norm": 3.23457407951355,
7437
+ "learning_rate": 3.283645847767366e-05,
7438
+ "loss": 1.4781,
7439
+ "step": 1058
7440
+ },
7441
+ {
7442
+ "epoch": 0.08935766269380867,
7443
+ "grad_norm": 3.4182138442993164,
7444
+ "learning_rate": 3.267351353215355e-05,
7445
+ "loss": 1.5074,
7446
+ "step": 1059
7447
+ },
7448
+ {
7449
+ "epoch": 0.08944204197869424,
7450
+ "grad_norm": 3.326955556869507,
7451
+ "learning_rate": 3.251089490203666e-05,
7452
+ "loss": 1.6414,
7453
+ "step": 1060
7454
+ },
7455
+ {
7456
+ "epoch": 0.08952642126357979,
7457
+ "grad_norm": 3.422151803970337,
7458
+ "learning_rate": 3.234860337549668e-05,
7459
+ "loss": 1.4056,
7460
+ "step": 1061
7461
+ },
7462
+ {
7463
+ "epoch": 0.08961080054846535,
7464
+ "grad_norm": 3.5641722679138184,
7465
+ "learning_rate": 3.218663973912187e-05,
7466
+ "loss": 1.7189,
7467
+ "step": 1062
7468
+ },
7469
+ {
7470
+ "epoch": 0.08969517983335092,
7471
+ "grad_norm": 3.1099095344543457,
7472
+ "learning_rate": 3.202500477791137e-05,
7473
+ "loss": 1.7291,
7474
+ "step": 1063
7475
+ },
7476
+ {
7477
+ "epoch": 0.08977955911823647,
7478
+ "grad_norm": 2.243972063064575,
7479
+ "learning_rate": 3.186369927527119e-05,
7480
+ "loss": 1.101,
7481
+ "step": 1064
7482
+ },
7483
+ {
7484
+ "epoch": 0.08986393840312204,
7485
+ "grad_norm": 3.1082541942596436,
7486
+ "learning_rate": 3.170272401301053e-05,
7487
+ "loss": 1.4632,
7488
+ "step": 1065
7489
+ },
7490
+ {
7491
+ "epoch": 0.0899483176880076,
7492
+ "grad_norm": 3.0708813667297363,
7493
+ "learning_rate": 3.154207977133812e-05,
7494
+ "loss": 1.183,
7495
+ "step": 1066
7496
+ },
7497
+ {
7498
+ "epoch": 0.09003269697289315,
7499
+ "grad_norm": 3.0313644409179688,
7500
+ "learning_rate": 3.138176732885821e-05,
7501
+ "loss": 1.0117,
7502
+ "step": 1067
7503
+ },
7504
+ {
7505
+ "epoch": 0.09011707625777872,
7506
+ "grad_norm": 3.0188441276550293,
7507
+ "learning_rate": 3.122178746256694e-05,
7508
+ "loss": 1.4957,
7509
+ "step": 1068
7510
+ },
7511
+ {
7512
+ "epoch": 0.09020145554266427,
7513
+ "grad_norm": 2.6221067905426025,
7514
+ "learning_rate": 3.106214094784855e-05,
7515
+ "loss": 1.3605,
7516
+ "step": 1069
7517
+ },
7518
+ {
7519
+ "epoch": 0.09028583482754983,
7520
+ "grad_norm": 3.322061061859131,
7521
+ "learning_rate": 3.090282855847155e-05,
7522
+ "loss": 1.5937,
7523
+ "step": 1070
7524
+ },
7525
+ {
7526
+ "epoch": 0.0903702141124354,
7527
+ "grad_norm": 2.7745418548583984,
7528
+ "learning_rate": 3.0743851066585004e-05,
7529
+ "loss": 1.3412,
7530
+ "step": 1071
7531
+ },
7532
+ {
7533
+ "epoch": 0.09045459339732095,
7534
+ "grad_norm": 3.403449296951294,
7535
+ "learning_rate": 3.05852092427149e-05,
7536
+ "loss": 1.3846,
7537
+ "step": 1072
7538
+ },
7539
+ {
7540
+ "epoch": 0.09053897268220652,
7541
+ "grad_norm": 5.336084842681885,
7542
+ "learning_rate": 3.042690385576027e-05,
7543
+ "loss": 2.3124,
7544
+ "step": 1073
7545
+ },
7546
+ {
7547
+ "epoch": 0.09062335196709208,
7548
+ "grad_norm": 3.023393154144287,
7549
+ "learning_rate": 3.026893567298955e-05,
7550
+ "loss": 1.3777,
7551
+ "step": 1074
7552
+ },
7553
+ {
7554
+ "epoch": 0.09070773125197763,
7555
+ "grad_norm": 3.2764523029327393,
7556
+ "learning_rate": 3.0111305460036744e-05,
7557
+ "loss": 1.6167,
7558
+ "step": 1075
7559
+ },
7560
+ {
7561
+ "epoch": 0.0907921105368632,
7562
+ "grad_norm": 3.874765396118164,
7563
+ "learning_rate": 2.995401398089789e-05,
7564
+ "loss": 1.6595,
7565
+ "step": 1076
7566
+ },
7567
+ {
7568
+ "epoch": 0.09087648982174876,
7569
+ "grad_norm": 2.6643738746643066,
7570
+ "learning_rate": 2.9797061997927245e-05,
7571
+ "loss": 0.9284,
7572
+ "step": 1077
7573
+ },
7574
+ {
7575
+ "epoch": 0.09096086910663433,
7576
+ "grad_norm": 3.545632839202881,
7577
+ "learning_rate": 2.9640450271833552e-05,
7578
+ "loss": 1.6928,
7579
+ "step": 1078
7580
+ },
7581
+ {
7582
+ "epoch": 0.09104524839151988,
7583
+ "grad_norm": 3.3833420276641846,
7584
+ "learning_rate": 2.9484179561676462e-05,
7585
+ "loss": 1.6922,
7586
+ "step": 1079
7587
+ },
7588
+ {
7589
+ "epoch": 0.09112962767640544,
7590
+ "grad_norm": 3.4521713256835938,
7591
+ "learning_rate": 2.932825062486283e-05,
7592
+ "loss": 1.8018,
7593
+ "step": 1080
7594
+ },
7595
+ {
7596
+ "epoch": 0.09112962767640544,
7597
+ "eval_loss": 1.5595093965530396,
7598
+ "eval_runtime": 177.3501,
7599
+ "eval_samples_per_second": 28.136,
7600
+ "eval_steps_per_second": 14.068,
7601
+ "step": 1080
7602
  }
7603
  ],
7604
  "logging_steps": 1,
 
7618
  "attributes": {}
7619
  }
7620
  },
7621
+ "total_flos": 2.0873895994195968e+17,
7622
  "train_batch_size": 2,
7623
  "trial_name": null,
7624
  "trial_params": null