ErrorAI commited on
Commit
a9a6c06
·
verified ·
1 Parent(s): 7bfb2d5

Training in progress, step 975, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b7fc78133a99f519b1f7281b42d181d1b8434190acd97bbebfec4e1fcb675984
3
  size 17640136
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2fcb142089042c9fd3481a70a7df0e6f391d749780a0b1522b3c3a7031043996
3
  size 17640136
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:bf9afb3680549510d0bcd94e5e07392f8b4970227bec218f1c4d734f48aabb67
3
  size 9569204
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e149bc8a2d73999c20111adf159a4120f1329cfa81026b882d1ae9bcb18b519e
3
  size 9569204
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:7519d0295315b640340ec7fa7d4e16c1cd2c83154ec912d85d27f09713a8461d
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:aa45536a258cdce6fd2a5fd9b3c167b41832ddeee0d25c2b58a64004e45653ab
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f843972028c794b4f9d7a4b1ec420bfa8898a396ec477d39c9288576289d23ac
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9117aba07e0435be53a45cbfc1aca6d938bf07f10ec7ee995185ddb3faaecea3
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7507692307692307,
5
  "eval_steps": 500,
6
- "global_step": 732,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5131,6 +5131,1707 @@
5131
  "learning_rate": 1.470196091938691e-05,
5132
  "loss": 0.6484,
5133
  "step": 732
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5134
  }
5135
  ],
5136
  "logging_steps": 1,
@@ -5145,12 +6846,12 @@
5145
  "should_evaluate": false,
5146
  "should_log": false,
5147
  "should_save": true,
5148
- "should_training_stop": false
5149
  },
5150
  "attributes": {}
5151
  }
5152
  },
5153
- "total_flos": 2.607037436185805e+16,
5154
  "train_batch_size": 4,
5155
  "trial_name": null,
5156
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0,
5
  "eval_steps": 500,
6
+ "global_step": 975,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5131
  "learning_rate": 1.470196091938691e-05,
5132
  "loss": 0.6484,
5133
  "step": 732
5134
+ },
5135
+ {
5136
+ "epoch": 0.7517948717948718,
5137
+ "grad_norm": 6.877423286437988,
5138
+ "learning_rate": 1.4587453677213348e-05,
5139
+ "loss": 1.0808,
5140
+ "step": 733
5141
+ },
5142
+ {
5143
+ "epoch": 0.7528205128205128,
5144
+ "grad_norm": 4.961154937744141,
5145
+ "learning_rate": 1.4473317895893772e-05,
5146
+ "loss": 0.7292,
5147
+ "step": 734
5148
+ },
5149
+ {
5150
+ "epoch": 0.7538461538461538,
5151
+ "grad_norm": 5.3160810470581055,
5152
+ "learning_rate": 1.4359554772658552e-05,
5153
+ "loss": 0.7776,
5154
+ "step": 735
5155
+ },
5156
+ {
5157
+ "epoch": 0.7548717948717949,
5158
+ "grad_norm": 5.270435333251953,
5159
+ "learning_rate": 1.4246165500828972e-05,
5160
+ "loss": 0.8105,
5161
+ "step": 736
5162
+ },
5163
+ {
5164
+ "epoch": 0.7558974358974359,
5165
+ "grad_norm": 5.729541301727295,
5166
+ "learning_rate": 1.4133151269804873e-05,
5167
+ "loss": 1.291,
5168
+ "step": 737
5169
+ },
5170
+ {
5171
+ "epoch": 0.7569230769230769,
5172
+ "grad_norm": 3.9068515300750732,
5173
+ "learning_rate": 1.402051326505207e-05,
5174
+ "loss": 0.5514,
5175
+ "step": 738
5176
+ },
5177
+ {
5178
+ "epoch": 0.757948717948718,
5179
+ "grad_norm": 4.7010111808776855,
5180
+ "learning_rate": 1.3908252668089899e-05,
5181
+ "loss": 0.5938,
5182
+ "step": 739
5183
+ },
5184
+ {
5185
+ "epoch": 0.7589743589743589,
5186
+ "grad_norm": 6.777288436889648,
5187
+ "learning_rate": 1.3796370656478935e-05,
5188
+ "loss": 1.1077,
5189
+ "step": 740
5190
+ },
5191
+ {
5192
+ "epoch": 0.76,
5193
+ "grad_norm": 5.429808139801025,
5194
+ "learning_rate": 1.368486840380851e-05,
5195
+ "loss": 0.7201,
5196
+ "step": 741
5197
+ },
5198
+ {
5199
+ "epoch": 0.7610256410256411,
5200
+ "grad_norm": 5.458662033081055,
5201
+ "learning_rate": 1.3573747079684518e-05,
5202
+ "loss": 0.7914,
5203
+ "step": 742
5204
+ },
5205
+ {
5206
+ "epoch": 0.762051282051282,
5207
+ "grad_norm": 4.463566303253174,
5208
+ "learning_rate": 1.3463007849717036e-05,
5209
+ "loss": 0.5937,
5210
+ "step": 743
5211
+ },
5212
+ {
5213
+ "epoch": 0.7630769230769231,
5214
+ "grad_norm": 6.832617282867432,
5215
+ "learning_rate": 1.3352651875508204e-05,
5216
+ "loss": 1.0022,
5217
+ "step": 744
5218
+ },
5219
+ {
5220
+ "epoch": 0.764102564102564,
5221
+ "grad_norm": 7.7007293701171875,
5222
+ "learning_rate": 1.3242680314639993e-05,
5223
+ "loss": 1.1953,
5224
+ "step": 745
5225
+ },
5226
+ {
5227
+ "epoch": 0.7651282051282051,
5228
+ "grad_norm": 6.916568756103516,
5229
+ "learning_rate": 1.3133094320661998e-05,
5230
+ "loss": 0.8883,
5231
+ "step": 746
5232
+ },
5233
+ {
5234
+ "epoch": 0.7661538461538462,
5235
+ "grad_norm": 7.466612815856934,
5236
+ "learning_rate": 1.3023895043079476e-05,
5237
+ "loss": 0.9905,
5238
+ "step": 747
5239
+ },
5240
+ {
5241
+ "epoch": 0.7671794871794871,
5242
+ "grad_norm": 8.147319793701172,
5243
+ "learning_rate": 1.2915083627341128e-05,
5244
+ "loss": 1.0014,
5245
+ "step": 748
5246
+ },
5247
+ {
5248
+ "epoch": 0.7682051282051282,
5249
+ "grad_norm": 9.48543643951416,
5250
+ "learning_rate": 1.2806661214827287e-05,
5251
+ "loss": 0.9548,
5252
+ "step": 749
5253
+ },
5254
+ {
5255
+ "epoch": 0.7692307692307693,
5256
+ "grad_norm": 18.878480911254883,
5257
+ "learning_rate": 1.2698628942837699e-05,
5258
+ "loss": 3.1681,
5259
+ "step": 750
5260
+ },
5261
+ {
5262
+ "epoch": 0.7702564102564102,
5263
+ "grad_norm": 3.2501041889190674,
5264
+ "learning_rate": 1.2590987944579807e-05,
5265
+ "loss": 1.0004,
5266
+ "step": 751
5267
+ },
5268
+ {
5269
+ "epoch": 0.7712820512820513,
5270
+ "grad_norm": 3.6627116203308105,
5271
+ "learning_rate": 1.2483739349156726e-05,
5272
+ "loss": 0.9882,
5273
+ "step": 752
5274
+ },
5275
+ {
5276
+ "epoch": 0.7723076923076924,
5277
+ "grad_norm": 3.411827802658081,
5278
+ "learning_rate": 1.2376884281555484e-05,
5279
+ "loss": 0.8563,
5280
+ "step": 753
5281
+ },
5282
+ {
5283
+ "epoch": 0.7733333333333333,
5284
+ "grad_norm": 4.175601482391357,
5285
+ "learning_rate": 1.2270423862635189e-05,
5286
+ "loss": 1.2118,
5287
+ "step": 754
5288
+ },
5289
+ {
5290
+ "epoch": 0.7743589743589744,
5291
+ "grad_norm": 3.686321973800659,
5292
+ "learning_rate": 1.2164359209115234e-05,
5293
+ "loss": 0.7145,
5294
+ "step": 755
5295
+ },
5296
+ {
5297
+ "epoch": 0.7753846153846153,
5298
+ "grad_norm": 3.6827125549316406,
5299
+ "learning_rate": 1.2058691433563674e-05,
5300
+ "loss": 0.741,
5301
+ "step": 756
5302
+ },
5303
+ {
5304
+ "epoch": 0.7764102564102564,
5305
+ "grad_norm": 7.265366554260254,
5306
+ "learning_rate": 1.1953421644385443e-05,
5307
+ "loss": 0.9565,
5308
+ "step": 757
5309
+ },
5310
+ {
5311
+ "epoch": 0.7774358974358975,
5312
+ "grad_norm": 3.1191012859344482,
5313
+ "learning_rate": 1.1848550945810848e-05,
5314
+ "loss": 0.7104,
5315
+ "step": 758
5316
+ },
5317
+ {
5318
+ "epoch": 0.7784615384615384,
5319
+ "grad_norm": 3.883070468902588,
5320
+ "learning_rate": 1.1744080437883859e-05,
5321
+ "loss": 0.911,
5322
+ "step": 759
5323
+ },
5324
+ {
5325
+ "epoch": 0.7794871794871795,
5326
+ "grad_norm": 3.3209662437438965,
5327
+ "learning_rate": 1.1640011216450691e-05,
5328
+ "loss": 0.7606,
5329
+ "step": 760
5330
+ },
5331
+ {
5332
+ "epoch": 0.7805128205128206,
5333
+ "grad_norm": 4.259766578674316,
5334
+ "learning_rate": 1.1536344373148244e-05,
5335
+ "loss": 0.8399,
5336
+ "step": 761
5337
+ },
5338
+ {
5339
+ "epoch": 0.7815384615384615,
5340
+ "grad_norm": 3.5853612422943115,
5341
+ "learning_rate": 1.1433080995392614e-05,
5342
+ "loss": 0.6282,
5343
+ "step": 762
5344
+ },
5345
+ {
5346
+ "epoch": 0.7825641025641026,
5347
+ "grad_norm": 5.121779918670654,
5348
+ "learning_rate": 1.133022216636781e-05,
5349
+ "loss": 0.9597,
5350
+ "step": 763
5351
+ },
5352
+ {
5353
+ "epoch": 0.7835897435897435,
5354
+ "grad_norm": 3.7153100967407227,
5355
+ "learning_rate": 1.1227768965014246e-05,
5356
+ "loss": 0.9798,
5357
+ "step": 764
5358
+ },
5359
+ {
5360
+ "epoch": 0.7846153846153846,
5361
+ "grad_norm": 4.351454734802246,
5362
+ "learning_rate": 1.1125722466017547e-05,
5363
+ "loss": 0.84,
5364
+ "step": 765
5365
+ },
5366
+ {
5367
+ "epoch": 0.7856410256410257,
5368
+ "grad_norm": 4.489700794219971,
5369
+ "learning_rate": 1.102408373979717e-05,
5370
+ "loss": 0.9916,
5371
+ "step": 766
5372
+ },
5373
+ {
5374
+ "epoch": 0.7866666666666666,
5375
+ "grad_norm": 3.369802951812744,
5376
+ "learning_rate": 1.092285385249528e-05,
5377
+ "loss": 0.541,
5378
+ "step": 767
5379
+ },
5380
+ {
5381
+ "epoch": 0.7876923076923077,
5382
+ "grad_norm": 4.338639736175537,
5383
+ "learning_rate": 1.0822033865965503e-05,
5384
+ "loss": 0.8406,
5385
+ "step": 768
5386
+ },
5387
+ {
5388
+ "epoch": 0.7887179487179488,
5389
+ "grad_norm": 3.770918607711792,
5390
+ "learning_rate": 1.0721624837761768e-05,
5391
+ "loss": 0.7247,
5392
+ "step": 769
5393
+ },
5394
+ {
5395
+ "epoch": 0.7897435897435897,
5396
+ "grad_norm": 4.7859039306640625,
5397
+ "learning_rate": 1.0621627821127289e-05,
5398
+ "loss": 0.7578,
5399
+ "step": 770
5400
+ },
5401
+ {
5402
+ "epoch": 0.7907692307692308,
5403
+ "grad_norm": 4.7032623291015625,
5404
+ "learning_rate": 1.0522043864983428e-05,
5405
+ "loss": 0.8842,
5406
+ "step": 771
5407
+ },
5408
+ {
5409
+ "epoch": 0.7917948717948718,
5410
+ "grad_norm": 5.078568458557129,
5411
+ "learning_rate": 1.0422874013918793e-05,
5412
+ "loss": 0.9599,
5413
+ "step": 772
5414
+ },
5415
+ {
5416
+ "epoch": 0.7928205128205128,
5417
+ "grad_norm": 4.564446449279785,
5418
+ "learning_rate": 1.0324119308178166e-05,
5419
+ "loss": 0.9349,
5420
+ "step": 773
5421
+ },
5422
+ {
5423
+ "epoch": 0.7938461538461539,
5424
+ "grad_norm": 4.562546253204346,
5425
+ "learning_rate": 1.022578078365169e-05,
5426
+ "loss": 0.7547,
5427
+ "step": 774
5428
+ },
5429
+ {
5430
+ "epoch": 0.7948717948717948,
5431
+ "grad_norm": 4.574657917022705,
5432
+ "learning_rate": 1.012785947186397e-05,
5433
+ "loss": 0.6049,
5434
+ "step": 775
5435
+ },
5436
+ {
5437
+ "epoch": 0.7958974358974359,
5438
+ "grad_norm": 4.5475053787231445,
5439
+ "learning_rate": 1.0030356399963204e-05,
5440
+ "loss": 0.6777,
5441
+ "step": 776
5442
+ },
5443
+ {
5444
+ "epoch": 0.796923076923077,
5445
+ "grad_norm": 3.587956190109253,
5446
+ "learning_rate": 9.933272590710507e-06,
5447
+ "loss": 0.5728,
5448
+ "step": 777
5449
+ },
5450
+ {
5451
+ "epoch": 0.7979487179487179,
5452
+ "grad_norm": 3.741227388381958,
5453
+ "learning_rate": 9.836609062469066e-06,
5454
+ "loss": 0.5207,
5455
+ "step": 778
5456
+ },
5457
+ {
5458
+ "epoch": 0.798974358974359,
5459
+ "grad_norm": 6.142617702484131,
5460
+ "learning_rate": 9.740366829193587e-06,
5461
+ "loss": 1.1337,
5462
+ "step": 779
5463
+ },
5464
+ {
5465
+ "epoch": 0.8,
5466
+ "grad_norm": 4.094137191772461,
5467
+ "learning_rate": 9.644546900419533e-06,
5468
+ "loss": 0.6916,
5469
+ "step": 780
5470
+ },
5471
+ {
5472
+ "epoch": 0.801025641025641,
5473
+ "grad_norm": 5.459488391876221,
5474
+ "learning_rate": 9.549150281252633e-06,
5475
+ "loss": 0.9617,
5476
+ "step": 781
5477
+ },
5478
+ {
5479
+ "epoch": 0.8020512820512821,
5480
+ "grad_norm": 5.044382095336914,
5481
+ "learning_rate": 9.454177972358259e-06,
5482
+ "loss": 0.9123,
5483
+ "step": 782
5484
+ },
5485
+ {
5486
+ "epoch": 0.803076923076923,
5487
+ "grad_norm": 4.838907718658447,
5488
+ "learning_rate": 9.35963096995101e-06,
5489
+ "loss": 0.8702,
5490
+ "step": 783
5491
+ },
5492
+ {
5493
+ "epoch": 0.8041025641025641,
5494
+ "grad_norm": 5.395598411560059,
5495
+ "learning_rate": 9.265510265784189e-06,
5496
+ "loss": 1.2312,
5497
+ "step": 784
5498
+ },
5499
+ {
5500
+ "epoch": 0.8051282051282052,
5501
+ "grad_norm": 3.8278088569641113,
5502
+ "learning_rate": 9.171816847139448e-06,
5503
+ "loss": 0.5905,
5504
+ "step": 785
5505
+ },
5506
+ {
5507
+ "epoch": 0.8061538461538461,
5508
+ "grad_norm": 4.812705039978027,
5509
+ "learning_rate": 9.078551696816434e-06,
5510
+ "loss": 0.7691,
5511
+ "step": 786
5512
+ },
5513
+ {
5514
+ "epoch": 0.8071794871794872,
5515
+ "grad_norm": 5.471896648406982,
5516
+ "learning_rate": 8.985715793122407e-06,
5517
+ "loss": 0.9679,
5518
+ "step": 787
5519
+ },
5520
+ {
5521
+ "epoch": 0.8082051282051282,
5522
+ "grad_norm": 5.208366394042969,
5523
+ "learning_rate": 8.893310109862102e-06,
5524
+ "loss": 1.0003,
5525
+ "step": 788
5526
+ },
5527
+ {
5528
+ "epoch": 0.8092307692307692,
5529
+ "grad_norm": 5.83384370803833,
5530
+ "learning_rate": 8.801335616327377e-06,
5531
+ "loss": 0.853,
5532
+ "step": 789
5533
+ },
5534
+ {
5535
+ "epoch": 0.8102564102564103,
5536
+ "grad_norm": 4.475183963775635,
5537
+ "learning_rate": 8.70979327728718e-06,
5538
+ "loss": 0.6102,
5539
+ "step": 790
5540
+ },
5541
+ {
5542
+ "epoch": 0.8112820512820513,
5543
+ "grad_norm": 4.50262975692749,
5544
+ "learning_rate": 8.618684052977305e-06,
5545
+ "loss": 0.6673,
5546
+ "step": 791
5547
+ },
5548
+ {
5549
+ "epoch": 0.8123076923076923,
5550
+ "grad_norm": 6.1138691902160645,
5551
+ "learning_rate": 8.528008899090412e-06,
5552
+ "loss": 1.1774,
5553
+ "step": 792
5554
+ },
5555
+ {
5556
+ "epoch": 0.8133333333333334,
5557
+ "grad_norm": 5.287784099578857,
5558
+ "learning_rate": 8.437768766765974e-06,
5559
+ "loss": 0.8959,
5560
+ "step": 793
5561
+ },
5562
+ {
5563
+ "epoch": 0.8143589743589743,
5564
+ "grad_norm": 4.6912994384765625,
5565
+ "learning_rate": 8.347964602580243e-06,
5566
+ "loss": 0.5866,
5567
+ "step": 794
5568
+ },
5569
+ {
5570
+ "epoch": 0.8153846153846154,
5571
+ "grad_norm": 4.410092353820801,
5572
+ "learning_rate": 8.25859734853645e-06,
5573
+ "loss": 0.7006,
5574
+ "step": 795
5575
+ },
5576
+ {
5577
+ "epoch": 0.8164102564102564,
5578
+ "grad_norm": 6.904149532318115,
5579
+ "learning_rate": 8.169667942054759e-06,
5580
+ "loss": 1.2351,
5581
+ "step": 796
5582
+ },
5583
+ {
5584
+ "epoch": 0.8174358974358974,
5585
+ "grad_norm": 6.1469550132751465,
5586
+ "learning_rate": 8.081177315962602e-06,
5587
+ "loss": 0.9114,
5588
+ "step": 797
5589
+ },
5590
+ {
5591
+ "epoch": 0.8184615384615385,
5592
+ "grad_norm": 7.1000895500183105,
5593
+ "learning_rate": 7.99312639848474e-06,
5594
+ "loss": 1.0631,
5595
+ "step": 798
5596
+ },
5597
+ {
5598
+ "epoch": 0.8194871794871795,
5599
+ "grad_norm": 7.745519638061523,
5600
+ "learning_rate": 7.905516113233653e-06,
5601
+ "loss": 0.9995,
5602
+ "step": 799
5603
+ },
5604
+ {
5605
+ "epoch": 0.8205128205128205,
5606
+ "grad_norm": 14.297471046447754,
5607
+ "learning_rate": 7.81834737919978e-06,
5608
+ "loss": 2.0584,
5609
+ "step": 800
5610
+ },
5611
+ {
5612
+ "epoch": 0.8215384615384616,
5613
+ "grad_norm": 3.660001754760742,
5614
+ "learning_rate": 7.731621110741872e-06,
5615
+ "loss": 0.9644,
5616
+ "step": 801
5617
+ },
5618
+ {
5619
+ "epoch": 0.8225641025641026,
5620
+ "grad_norm": 3.4968271255493164,
5621
+ "learning_rate": 7.645338217577475e-06,
5622
+ "loss": 0.9172,
5623
+ "step": 802
5624
+ },
5625
+ {
5626
+ "epoch": 0.8235897435897436,
5627
+ "grad_norm": 3.162583351135254,
5628
+ "learning_rate": 7.559499604773279e-06,
5629
+ "loss": 0.7705,
5630
+ "step": 803
5631
+ },
5632
+ {
5633
+ "epoch": 0.8246153846153846,
5634
+ "grad_norm": 3.755932331085205,
5635
+ "learning_rate": 7.474106172735746e-06,
5636
+ "loss": 0.8697,
5637
+ "step": 804
5638
+ },
5639
+ {
5640
+ "epoch": 0.8256410256410256,
5641
+ "grad_norm": 3.186575412750244,
5642
+ "learning_rate": 7.389158817201542e-06,
5643
+ "loss": 0.903,
5644
+ "step": 805
5645
+ },
5646
+ {
5647
+ "epoch": 0.8266666666666667,
5648
+ "grad_norm": 3.6311652660369873,
5649
+ "learning_rate": 7.304658429228245e-06,
5650
+ "loss": 1.001,
5651
+ "step": 806
5652
+ },
5653
+ {
5654
+ "epoch": 0.8276923076923077,
5655
+ "grad_norm": 3.348775625228882,
5656
+ "learning_rate": 7.220605895184945e-06,
5657
+ "loss": 0.75,
5658
+ "step": 807
5659
+ },
5660
+ {
5661
+ "epoch": 0.8287179487179487,
5662
+ "grad_norm": 3.6370596885681152,
5663
+ "learning_rate": 7.13700209674294e-06,
5664
+ "loss": 0.9634,
5665
+ "step": 808
5666
+ },
5667
+ {
5668
+ "epoch": 0.8297435897435897,
5669
+ "grad_norm": 4.622466564178467,
5670
+ "learning_rate": 7.053847910866513e-06,
5671
+ "loss": 1.2344,
5672
+ "step": 809
5673
+ },
5674
+ {
5675
+ "epoch": 0.8307692307692308,
5676
+ "grad_norm": 3.5539474487304688,
5677
+ "learning_rate": 6.9711442098037375e-06,
5678
+ "loss": 0.8593,
5679
+ "step": 810
5680
+ },
5681
+ {
5682
+ "epoch": 0.8317948717948718,
5683
+ "grad_norm": 3.8597571849823,
5684
+ "learning_rate": 6.888891861077301e-06,
5685
+ "loss": 0.7546,
5686
+ "step": 811
5687
+ },
5688
+ {
5689
+ "epoch": 0.8328205128205128,
5690
+ "grad_norm": 3.2743446826934814,
5691
+ "learning_rate": 6.807091727475412e-06,
5692
+ "loss": 0.6182,
5693
+ "step": 812
5694
+ },
5695
+ {
5696
+ "epoch": 0.8338461538461538,
5697
+ "grad_norm": 5.070436477661133,
5698
+ "learning_rate": 6.725744667042777e-06,
5699
+ "loss": 1.3895,
5700
+ "step": 813
5701
+ },
5702
+ {
5703
+ "epoch": 0.8348717948717949,
5704
+ "grad_norm": 3.76391339302063,
5705
+ "learning_rate": 6.644851533071556e-06,
5706
+ "loss": 0.6863,
5707
+ "step": 814
5708
+ },
5709
+ {
5710
+ "epoch": 0.8358974358974359,
5711
+ "grad_norm": 3.7185099124908447,
5712
+ "learning_rate": 6.564413174092443e-06,
5713
+ "loss": 0.6729,
5714
+ "step": 815
5715
+ },
5716
+ {
5717
+ "epoch": 0.8369230769230769,
5718
+ "grad_norm": 3.9108810424804688,
5719
+ "learning_rate": 6.4844304338657844e-06,
5720
+ "loss": 0.8355,
5721
+ "step": 816
5722
+ },
5723
+ {
5724
+ "epoch": 0.837948717948718,
5725
+ "grad_norm": 4.387764930725098,
5726
+ "learning_rate": 6.4049041513726485e-06,
5727
+ "loss": 0.9891,
5728
+ "step": 817
5729
+ },
5730
+ {
5731
+ "epoch": 0.838974358974359,
5732
+ "grad_norm": 4.212962627410889,
5733
+ "learning_rate": 6.3258351608061315e-06,
5734
+ "loss": 1.0,
5735
+ "step": 818
5736
+ },
5737
+ {
5738
+ "epoch": 0.84,
5739
+ "grad_norm": 3.4375810623168945,
5740
+ "learning_rate": 6.247224291562509e-06,
5741
+ "loss": 0.6408,
5742
+ "step": 819
5743
+ },
5744
+ {
5745
+ "epoch": 0.841025641025641,
5746
+ "grad_norm": 4.018990993499756,
5747
+ "learning_rate": 6.16907236823262e-06,
5748
+ "loss": 0.7336,
5749
+ "step": 820
5750
+ },
5751
+ {
5752
+ "epoch": 0.8420512820512821,
5753
+ "grad_norm": 4.63192892074585,
5754
+ "learning_rate": 6.091380210593145e-06,
5755
+ "loss": 0.9198,
5756
+ "step": 821
5757
+ },
5758
+ {
5759
+ "epoch": 0.8430769230769231,
5760
+ "grad_norm": 3.9990158081054688,
5761
+ "learning_rate": 6.014148633598055e-06,
5762
+ "loss": 0.852,
5763
+ "step": 822
5764
+ },
5765
+ {
5766
+ "epoch": 0.8441025641025641,
5767
+ "grad_norm": 4.2810163497924805,
5768
+ "learning_rate": 5.937378447370067e-06,
5769
+ "loss": 0.7765,
5770
+ "step": 823
5771
+ },
5772
+ {
5773
+ "epoch": 0.8451282051282051,
5774
+ "grad_norm": 4.975213527679443,
5775
+ "learning_rate": 5.86107045719208e-06,
5776
+ "loss": 1.2429,
5777
+ "step": 824
5778
+ },
5779
+ {
5780
+ "epoch": 0.8461538461538461,
5781
+ "grad_norm": 4.42708158493042,
5782
+ "learning_rate": 5.785225463498828e-06,
5783
+ "loss": 0.8026,
5784
+ "step": 825
5785
+ },
5786
+ {
5787
+ "epoch": 0.8471794871794872,
5788
+ "grad_norm": 4.280889987945557,
5789
+ "learning_rate": 5.70984426186838e-06,
5790
+ "loss": 0.7082,
5791
+ "step": 826
5792
+ },
5793
+ {
5794
+ "epoch": 0.8482051282051282,
5795
+ "grad_norm": 6.7891645431518555,
5796
+ "learning_rate": 5.634927643013899e-06,
5797
+ "loss": 0.7442,
5798
+ "step": 827
5799
+ },
5800
+ {
5801
+ "epoch": 0.8492307692307692,
5802
+ "grad_norm": 4.235758304595947,
5803
+ "learning_rate": 5.560476392775238e-06,
5804
+ "loss": 0.8627,
5805
+ "step": 828
5806
+ },
5807
+ {
5808
+ "epoch": 0.8502564102564103,
5809
+ "grad_norm": 4.850736141204834,
5810
+ "learning_rate": 5.486491292110796e-06,
5811
+ "loss": 0.8016,
5812
+ "step": 829
5813
+ },
5814
+ {
5815
+ "epoch": 0.8512820512820513,
5816
+ "grad_norm": 3.9992334842681885,
5817
+ "learning_rate": 5.412973117089287e-06,
5818
+ "loss": 0.7891,
5819
+ "step": 830
5820
+ },
5821
+ {
5822
+ "epoch": 0.8523076923076923,
5823
+ "grad_norm": 4.047679901123047,
5824
+ "learning_rate": 5.339922638881545e-06,
5825
+ "loss": 0.5642,
5826
+ "step": 831
5827
+ },
5828
+ {
5829
+ "epoch": 0.8533333333333334,
5830
+ "grad_norm": 5.204737663269043,
5831
+ "learning_rate": 5.267340623752553e-06,
5832
+ "loss": 1.0036,
5833
+ "step": 832
5834
+ },
5835
+ {
5836
+ "epoch": 0.8543589743589743,
5837
+ "grad_norm": 5.493986129760742,
5838
+ "learning_rate": 5.195227833053274e-06,
5839
+ "loss": 0.9189,
5840
+ "step": 833
5841
+ },
5842
+ {
5843
+ "epoch": 0.8553846153846154,
5844
+ "grad_norm": 6.99483060836792,
5845
+ "learning_rate": 5.123585023212785e-06,
5846
+ "loss": 1.2142,
5847
+ "step": 834
5848
+ },
5849
+ {
5850
+ "epoch": 0.8564102564102564,
5851
+ "grad_norm": 4.1271491050720215,
5852
+ "learning_rate": 5.05241294573024e-06,
5853
+ "loss": 0.5715,
5854
+ "step": 835
5855
+ },
5856
+ {
5857
+ "epoch": 0.8574358974358974,
5858
+ "grad_norm": 5.13178014755249,
5859
+ "learning_rate": 4.981712347167061e-06,
5860
+ "loss": 0.9571,
5861
+ "step": 836
5862
+ },
5863
+ {
5864
+ "epoch": 0.8584615384615385,
5865
+ "grad_norm": 5.234194755554199,
5866
+ "learning_rate": 4.9114839691390854e-06,
5867
+ "loss": 0.9082,
5868
+ "step": 837
5869
+ },
5870
+ {
5871
+ "epoch": 0.8594871794871795,
5872
+ "grad_norm": 5.754642963409424,
5873
+ "learning_rate": 4.841728548308744e-06,
5874
+ "loss": 0.9004,
5875
+ "step": 838
5876
+ },
5877
+ {
5878
+ "epoch": 0.8605128205128205,
5879
+ "grad_norm": 4.62493371963501,
5880
+ "learning_rate": 4.772446816377407e-06,
5881
+ "loss": 0.6618,
5882
+ "step": 839
5883
+ },
5884
+ {
5885
+ "epoch": 0.8615384615384616,
5886
+ "grad_norm": 6.897546768188477,
5887
+ "learning_rate": 4.703639500077656e-06,
5888
+ "loss": 1.1324,
5889
+ "step": 840
5890
+ },
5891
+ {
5892
+ "epoch": 0.8625641025641025,
5893
+ "grad_norm": 4.677278995513916,
5894
+ "learning_rate": 4.635307321165688e-06,
5895
+ "loss": 0.6254,
5896
+ "step": 841
5897
+ },
5898
+ {
5899
+ "epoch": 0.8635897435897436,
5900
+ "grad_norm": 6.221714973449707,
5901
+ "learning_rate": 4.567450996413713e-06,
5902
+ "loss": 1.146,
5903
+ "step": 842
5904
+ },
5905
+ {
5906
+ "epoch": 0.8646153846153846,
5907
+ "grad_norm": 5.52736759185791,
5908
+ "learning_rate": 4.500071237602482e-06,
5909
+ "loss": 0.8631,
5910
+ "step": 843
5911
+ },
5912
+ {
5913
+ "epoch": 0.8656410256410256,
5914
+ "grad_norm": 5.572301387786865,
5915
+ "learning_rate": 4.433168751513761e-06,
5916
+ "loss": 0.8625,
5917
+ "step": 844
5918
+ },
5919
+ {
5920
+ "epoch": 0.8666666666666667,
5921
+ "grad_norm": 6.426190376281738,
5922
+ "learning_rate": 4.366744239922998e-06,
5923
+ "loss": 0.8229,
5924
+ "step": 845
5925
+ },
5926
+ {
5927
+ "epoch": 0.8676923076923077,
5928
+ "grad_norm": 7.4777679443359375,
5929
+ "learning_rate": 4.30079839959186e-06,
5930
+ "loss": 0.9241,
5931
+ "step": 846
5932
+ },
5933
+ {
5934
+ "epoch": 0.8687179487179487,
5935
+ "grad_norm": 6.525635719299316,
5936
+ "learning_rate": 4.235331922261026e-06,
5937
+ "loss": 0.9205,
5938
+ "step": 847
5939
+ },
5940
+ {
5941
+ "epoch": 0.8697435897435898,
5942
+ "grad_norm": 7.924921035766602,
5943
+ "learning_rate": 4.170345494642863e-06,
5944
+ "loss": 1.4281,
5945
+ "step": 848
5946
+ },
5947
+ {
5948
+ "epoch": 0.8707692307692307,
5949
+ "grad_norm": 8.663949966430664,
5950
+ "learning_rate": 4.10583979841424e-06,
5951
+ "loss": 1.4309,
5952
+ "step": 849
5953
+ },
5954
+ {
5955
+ "epoch": 0.8717948717948718,
5956
+ "grad_norm": 14.360984802246094,
5957
+ "learning_rate": 4.041815510209396e-06,
5958
+ "loss": 1.9381,
5959
+ "step": 850
5960
+ },
5961
+ {
5962
+ "epoch": 0.8728205128205129,
5963
+ "grad_norm": 3.2258362770080566,
5964
+ "learning_rate": 3.9782733016128005e-06,
5965
+ "loss": 0.9545,
5966
+ "step": 851
5967
+ },
5968
+ {
5969
+ "epoch": 0.8738461538461538,
5970
+ "grad_norm": 3.155390739440918,
5971
+ "learning_rate": 3.915213839152176e-06,
5972
+ "loss": 1.0386,
5973
+ "step": 852
5974
+ },
5975
+ {
5976
+ "epoch": 0.8748717948717949,
5977
+ "grad_norm": 3.149043560028076,
5978
+ "learning_rate": 3.852637784291424e-06,
5979
+ "loss": 0.9249,
5980
+ "step": 853
5981
+ },
5982
+ {
5983
+ "epoch": 0.8758974358974358,
5984
+ "grad_norm": 3.604149341583252,
5985
+ "learning_rate": 3.790545793423761e-06,
5986
+ "loss": 1.0529,
5987
+ "step": 854
5988
+ },
5989
+ {
5990
+ "epoch": 0.8769230769230769,
5991
+ "grad_norm": 3.0421512126922607,
5992
+ "learning_rate": 3.728938517864794e-06,
5993
+ "loss": 0.7461,
5994
+ "step": 855
5995
+ },
5996
+ {
5997
+ "epoch": 0.877948717948718,
5998
+ "grad_norm": 3.300569534301758,
5999
+ "learning_rate": 3.6678166038456807e-06,
6000
+ "loss": 0.7742,
6001
+ "step": 856
6002
+ },
6003
+ {
6004
+ "epoch": 0.8789743589743589,
6005
+ "grad_norm": 3.0753672122955322,
6006
+ "learning_rate": 3.60718069250639e-06,
6007
+ "loss": 0.6109,
6008
+ "step": 857
6009
+ },
6010
+ {
6011
+ "epoch": 0.88,
6012
+ "grad_norm": 4.064855098724365,
6013
+ "learning_rate": 3.5470314198889185e-06,
6014
+ "loss": 0.9794,
6015
+ "step": 858
6016
+ },
6017
+ {
6018
+ "epoch": 0.8810256410256411,
6019
+ "grad_norm": 3.6606357097625732,
6020
+ "learning_rate": 3.4873694169306913e-06,
6021
+ "loss": 0.7496,
6022
+ "step": 859
6023
+ },
6024
+ {
6025
+ "epoch": 0.882051282051282,
6026
+ "grad_norm": 4.065293788909912,
6027
+ "learning_rate": 3.4281953094578877e-06,
6028
+ "loss": 0.904,
6029
+ "step": 860
6030
+ },
6031
+ {
6032
+ "epoch": 0.8830769230769231,
6033
+ "grad_norm": 3.2183470726013184,
6034
+ "learning_rate": 3.369509718178887e-06,
6035
+ "loss": 0.5392,
6036
+ "step": 861
6037
+ },
6038
+ {
6039
+ "epoch": 0.884102564102564,
6040
+ "grad_norm": 4.25131368637085,
6041
+ "learning_rate": 3.3113132586777784e-06,
6042
+ "loss": 0.6751,
6043
+ "step": 862
6044
+ },
6045
+ {
6046
+ "epoch": 0.8851282051282051,
6047
+ "grad_norm": 4.080262184143066,
6048
+ "learning_rate": 3.253606541407872e-06,
6049
+ "loss": 1.0854,
6050
+ "step": 863
6051
+ },
6052
+ {
6053
+ "epoch": 0.8861538461538462,
6054
+ "grad_norm": 5.6910247802734375,
6055
+ "learning_rate": 3.196390171685343e-06,
6056
+ "loss": 1.1699,
6057
+ "step": 864
6058
+ },
6059
+ {
6060
+ "epoch": 0.8871794871794871,
6061
+ "grad_norm": 3.5453498363494873,
6062
+ "learning_rate": 3.1396647496828247e-06,
6063
+ "loss": 0.8176,
6064
+ "step": 865
6065
+ },
6066
+ {
6067
+ "epoch": 0.8882051282051282,
6068
+ "grad_norm": 4.133404731750488,
6069
+ "learning_rate": 3.0834308704231484e-06,
6070
+ "loss": 0.7646,
6071
+ "step": 866
6072
+ },
6073
+ {
6074
+ "epoch": 0.8892307692307693,
6075
+ "grad_norm": 3.6567392349243164,
6076
+ "learning_rate": 3.027689123773109e-06,
6077
+ "loss": 0.6477,
6078
+ "step": 867
6079
+ },
6080
+ {
6081
+ "epoch": 0.8902564102564102,
6082
+ "grad_norm": 5.468822956085205,
6083
+ "learning_rate": 2.9724400944372398e-06,
6084
+ "loss": 0.8332,
6085
+ "step": 868
6086
+ },
6087
+ {
6088
+ "epoch": 0.8912820512820513,
6089
+ "grad_norm": 4.6036882400512695,
6090
+ "learning_rate": 2.917684361951728e-06,
6091
+ "loss": 0.8671,
6092
+ "step": 869
6093
+ },
6094
+ {
6095
+ "epoch": 0.8923076923076924,
6096
+ "grad_norm": 3.711745500564575,
6097
+ "learning_rate": 2.8634225006782865e-06,
6098
+ "loss": 0.6129,
6099
+ "step": 870
6100
+ },
6101
+ {
6102
+ "epoch": 0.8933333333333333,
6103
+ "grad_norm": 4.098292827606201,
6104
+ "learning_rate": 2.8096550797981792e-06,
6105
+ "loss": 0.625,
6106
+ "step": 871
6107
+ },
6108
+ {
6109
+ "epoch": 0.8943589743589744,
6110
+ "grad_norm": 4.045825958251953,
6111
+ "learning_rate": 2.7563826633061896e-06,
6112
+ "loss": 0.5502,
6113
+ "step": 872
6114
+ },
6115
+ {
6116
+ "epoch": 0.8953846153846153,
6117
+ "grad_norm": 3.8534200191497803,
6118
+ "learning_rate": 2.703605810004772e-06,
6119
+ "loss": 0.7319,
6120
+ "step": 873
6121
+ },
6122
+ {
6123
+ "epoch": 0.8964102564102564,
6124
+ "grad_norm": 3.8560359477996826,
6125
+ "learning_rate": 2.65132507349814e-06,
6126
+ "loss": 0.6883,
6127
+ "step": 874
6128
+ },
6129
+ {
6130
+ "epoch": 0.8974358974358975,
6131
+ "grad_norm": 5.30885124206543,
6132
+ "learning_rate": 2.5995410021864787e-06,
6133
+ "loss": 0.7475,
6134
+ "step": 875
6135
+ },
6136
+ {
6137
+ "epoch": 0.8984615384615384,
6138
+ "grad_norm": 5.563632488250732,
6139
+ "learning_rate": 2.548254139260192e-06,
6140
+ "loss": 1.1936,
6141
+ "step": 876
6142
+ },
6143
+ {
6144
+ "epoch": 0.8994871794871795,
6145
+ "grad_norm": 4.295792102813721,
6146
+ "learning_rate": 2.4974650226942064e-06,
6147
+ "loss": 0.7475,
6148
+ "step": 877
6149
+ },
6150
+ {
6151
+ "epoch": 0.9005128205128206,
6152
+ "grad_norm": 7.171024322509766,
6153
+ "learning_rate": 2.4471741852423237e-06,
6154
+ "loss": 1.4032,
6155
+ "step": 878
6156
+ },
6157
+ {
6158
+ "epoch": 0.9015384615384615,
6159
+ "grad_norm": 5.549228191375732,
6160
+ "learning_rate": 2.397382154431621e-06,
6161
+ "loss": 1.0653,
6162
+ "step": 879
6163
+ },
6164
+ {
6165
+ "epoch": 0.9025641025641026,
6166
+ "grad_norm": 4.5205979347229,
6167
+ "learning_rate": 2.3480894525569562e-06,
6168
+ "loss": 0.7206,
6169
+ "step": 880
6170
+ },
6171
+ {
6172
+ "epoch": 0.9035897435897436,
6173
+ "grad_norm": 5.302089214324951,
6174
+ "learning_rate": 2.2992965966754377e-06,
6175
+ "loss": 0.8298,
6176
+ "step": 881
6177
+ },
6178
+ {
6179
+ "epoch": 0.9046153846153846,
6180
+ "grad_norm": 4.690470218658447,
6181
+ "learning_rate": 2.251004098601034e-06,
6182
+ "loss": 0.653,
6183
+ "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.9056410256410257,
6187
+ "grad_norm": 4.091747760772705,
6188
+ "learning_rate": 2.2032124648992015e-06,
6189
+ "loss": 0.5173,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.9066666666666666,
6194
+ "grad_norm": 4.637690544128418,
6195
+ "learning_rate": 2.1559221968815546e-06,
6196
+ "loss": 0.6316,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.9076923076923077,
6201
+ "grad_norm": 4.933149814605713,
6202
+ "learning_rate": 2.1091337906006482e-06,
6203
+ "loss": 0.991,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.9087179487179488,
6208
+ "grad_norm": 5.4409027099609375,
6209
+ "learning_rate": 2.062847736844703e-06,
6210
+ "loss": 0.9278,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.9097435897435897,
6215
+ "grad_norm": 5.3039398193359375,
6216
+ "learning_rate": 2.017064521132533e-06,
6217
+ "loss": 0.7831,
6218
+ "step": 887
6219
+ },
6220
+ {
6221
+ "epoch": 0.9107692307692308,
6222
+ "grad_norm": 5.107433319091797,
6223
+ "learning_rate": 1.9717846237084005e-06,
6224
+ "loss": 0.8805,
6225
+ "step": 888
6226
+ },
6227
+ {
6228
+ "epoch": 0.9117948717948718,
6229
+ "grad_norm": 5.635267734527588,
6230
+ "learning_rate": 1.9270085195370045e-06,
6231
+ "loss": 0.8542,
6232
+ "step": 889
6233
+ },
6234
+ {
6235
+ "epoch": 0.9128205128205128,
6236
+ "grad_norm": 6.010116100311279,
6237
+ "learning_rate": 1.8827366782984913e-06,
6238
+ "loss": 1.1149,
6239
+ "step": 890
6240
+ },
6241
+ {
6242
+ "epoch": 0.9138461538461539,
6243
+ "grad_norm": 4.707157135009766,
6244
+ "learning_rate": 1.8389695643835247e-06,
6245
+ "loss": 0.6094,
6246
+ "step": 891
6247
+ },
6248
+ {
6249
+ "epoch": 0.9148717948717948,
6250
+ "grad_norm": 5.779000759124756,
6251
+ "learning_rate": 1.7957076368884274e-06,
6252
+ "loss": 0.9566,
6253
+ "step": 892
6254
+ },
6255
+ {
6256
+ "epoch": 0.9158974358974359,
6257
+ "grad_norm": 5.43092679977417,
6258
+ "learning_rate": 1.7529513496103323e-06,
6259
+ "loss": 0.7754,
6260
+ "step": 893
6261
+ },
6262
+ {
6263
+ "epoch": 0.916923076923077,
6264
+ "grad_norm": 6.918627738952637,
6265
+ "learning_rate": 1.7107011510424764e-06,
6266
+ "loss": 1.151,
6267
+ "step": 894
6268
+ },
6269
+ {
6270
+ "epoch": 0.9179487179487179,
6271
+ "grad_norm": 6.21636962890625,
6272
+ "learning_rate": 1.6689574843694433e-06,
6273
+ "loss": 0.7324,
6274
+ "step": 895
6275
+ },
6276
+ {
6277
+ "epoch": 0.918974358974359,
6278
+ "grad_norm": 8.857195854187012,
6279
+ "learning_rate": 1.6277207874625444e-06,
6280
+ "loss": 0.9653,
6281
+ "step": 896
6282
+ },
6283
+ {
6284
+ "epoch": 0.92,
6285
+ "grad_norm": 7.489193916320801,
6286
+ "learning_rate": 1.5869914928752117e-06,
6287
+ "loss": 0.9201,
6288
+ "step": 897
6289
+ },
6290
+ {
6291
+ "epoch": 0.921025641025641,
6292
+ "grad_norm": 6.698476791381836,
6293
+ "learning_rate": 1.546770027838479e-06,
6294
+ "loss": 1.0077,
6295
+ "step": 898
6296
+ },
6297
+ {
6298
+ "epoch": 0.9220512820512821,
6299
+ "grad_norm": 9.213371276855469,
6300
+ "learning_rate": 1.507056814256491e-06,
6301
+ "loss": 1.2657,
6302
+ "step": 899
6303
+ },
6304
+ {
6305
+ "epoch": 0.9230769230769231,
6306
+ "grad_norm": 15.109607696533203,
6307
+ "learning_rate": 1.4678522687020413e-06,
6308
+ "loss": 2.0015,
6309
+ "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.9241025641025641,
6313
+ "grad_norm": 3.072422981262207,
6314
+ "learning_rate": 1.4291568024122848e-06,
6315
+ "loss": 1.0559,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.9251282051282051,
6320
+ "grad_norm": 2.742314577102661,
6321
+ "learning_rate": 1.390970821284343e-06,
6322
+ "loss": 0.7734,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.9261538461538461,
6327
+ "grad_norm": 3.3717610836029053,
6328
+ "learning_rate": 1.3532947258710904e-06,
6329
+ "loss": 0.9725,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.9271794871794872,
6334
+ "grad_norm": 3.4587204456329346,
6335
+ "learning_rate": 1.3161289113769404e-06,
6336
+ "loss": 0.827,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.9282051282051282,
6341
+ "grad_norm": 6.684597969055176,
6342
+ "learning_rate": 1.2794737676536994e-06,
6343
+ "loss": 0.9701,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.9292307692307692,
6348
+ "grad_norm": 3.692589521408081,
6349
+ "learning_rate": 1.2433296791964754e-06,
6350
+ "loss": 0.9335,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.9302564102564103,
6355
+ "grad_norm": 4.69821834564209,
6356
+ "learning_rate": 1.207697025139659e-06,
6357
+ "loss": 0.9612,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.9312820512820513,
6362
+ "grad_norm": 3.526686906814575,
6363
+ "learning_rate": 1.1725761792529377e-06,
6364
+ "loss": 0.6213,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.9323076923076923,
6369
+ "grad_norm": 4.1468939781188965,
6370
+ "learning_rate": 1.1379675099373488e-06,
6371
+ "loss": 0.8209,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.9333333333333333,
6376
+ "grad_norm": 3.930953025817871,
6377
+ "learning_rate": 1.1038713802214717e-06,
6378
+ "loss": 0.9604,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.9343589743589743,
6383
+ "grad_norm": 3.896559000015259,
6384
+ "learning_rate": 1.0702881477575588e-06,
6385
+ "loss": 0.8926,
6386
+ "step": 911
6387
+ },
6388
+ {
6389
+ "epoch": 0.9353846153846154,
6390
+ "grad_norm": 3.752502679824829,
6391
+ "learning_rate": 1.0372181648178436e-06,
6392
+ "loss": 0.9382,
6393
+ "step": 912
6394
+ },
6395
+ {
6396
+ "epoch": 0.9364102564102564,
6397
+ "grad_norm": 3.334625244140625,
6398
+ "learning_rate": 1.004661778290783e-06,
6399
+ "loss": 0.6633,
6400
+ "step": 913
6401
+ },
6402
+ {
6403
+ "epoch": 0.9374358974358974,
6404
+ "grad_norm": 3.897460460662842,
6405
+ "learning_rate": 9.726193296774766e-07,
6406
+ "loss": 0.7738,
6407
+ "step": 914
6408
+ },
6409
+ {
6410
+ "epoch": 0.9384615384615385,
6411
+ "grad_norm": 4.598691940307617,
6412
+ "learning_rate": 9.410911550880475e-07,
6413
+ "loss": 0.8331,
6414
+ "step": 915
6415
+ },
6416
+ {
6417
+ "epoch": 0.9394871794871795,
6418
+ "grad_norm": 4.020224571228027,
6419
+ "learning_rate": 9.100775852381226e-07,
6420
+ "loss": 0.9878,
6421
+ "step": 916
6422
+ },
6423
+ {
6424
+ "epoch": 0.9405128205128205,
6425
+ "grad_norm": 4.421807289123535,
6426
+ "learning_rate": 8.795789454453862e-07,
6427
+ "loss": 1.1013,
6428
+ "step": 917
6429
+ },
6430
+ {
6431
+ "epoch": 0.9415384615384615,
6432
+ "grad_norm": 4.398540019989014,
6433
+ "learning_rate": 8.495955556261204e-07,
6434
+ "loss": 0.8937,
6435
+ "step": 918
6436
+ },
6437
+ {
6438
+ "epoch": 0.9425641025641026,
6439
+ "grad_norm": 6.260739803314209,
6440
+ "learning_rate": 8.201277302919086e-07,
6441
+ "loss": 1.1365,
6442
+ "step": 919
6443
+ },
6444
+ {
6445
+ "epoch": 0.9435897435897436,
6446
+ "grad_norm": 3.387582778930664,
6447
+ "learning_rate": 7.911757785462881e-07,
6448
+ "loss": 0.5612,
6449
+ "step": 920
6450
+ },
6451
+ {
6452
+ "epoch": 0.9446153846153846,
6453
+ "grad_norm": 4.812023162841797,
6454
+ "learning_rate": 7.627400040815413e-07,
6455
+ "loss": 1.0781,
6456
+ "step": 921
6457
+ },
6458
+ {
6459
+ "epoch": 0.9456410256410256,
6460
+ "grad_norm": 4.107918739318848,
6461
+ "learning_rate": 7.348207051754818e-07,
6462
+ "loss": 0.7609,
6463
+ "step": 922
6464
+ },
6465
+ {
6466
+ "epoch": 0.9466666666666667,
6467
+ "grad_norm": 4.248846530914307,
6468
+ "learning_rate": 7.074181746883401e-07,
6469
+ "loss": 0.7369,
6470
+ "step": 923
6471
+ },
6472
+ {
6473
+ "epoch": 0.9476923076923077,
6474
+ "grad_norm": 4.63174295425415,
6475
+ "learning_rate": 6.805327000596995e-07,
6476
+ "loss": 0.6237,
6477
+ "step": 924
6478
+ },
6479
+ {
6480
+ "epoch": 0.9487179487179487,
6481
+ "grad_norm": 3.942258596420288,
6482
+ "learning_rate": 6.54164563305465e-07,
6483
+ "loss": 0.7415,
6484
+ "step": 925
6485
+ },
6486
+ {
6487
+ "epoch": 0.9497435897435897,
6488
+ "grad_norm": 5.168544292449951,
6489
+ "learning_rate": 6.283140410149213e-07,
6490
+ "loss": 1.0296,
6491
+ "step": 926
6492
+ },
6493
+ {
6494
+ "epoch": 0.9507692307692308,
6495
+ "grad_norm": 4.351825714111328,
6496
+ "learning_rate": 6.029814043478022e-07,
6497
+ "loss": 0.9396,
6498
+ "step": 927
6499
+ },
6500
+ {
6501
+ "epoch": 0.9517948717948718,
6502
+ "grad_norm": 5.255843162536621,
6503
+ "learning_rate": 5.781669190314809e-07,
6504
+ "loss": 0.6457,
6505
+ "step": 928
6506
+ },
6507
+ {
6508
+ "epoch": 0.9528205128205128,
6509
+ "grad_norm": 5.010144233703613,
6510
+ "learning_rate": 5.538708453581787e-07,
6511
+ "loss": 0.8027,
6512
+ "step": 929
6513
+ },
6514
+ {
6515
+ "epoch": 0.9538461538461539,
6516
+ "grad_norm": 5.048897743225098,
6517
+ "learning_rate": 5.300934381821998e-07,
6518
+ "loss": 0.7858,
6519
+ "step": 930
6520
+ },
6521
+ {
6522
+ "epoch": 0.9548717948717949,
6523
+ "grad_norm": 5.082890510559082,
6524
+ "learning_rate": 5.068349469173006e-07,
6525
+ "loss": 0.8434,
6526
+ "step": 931
6527
+ },
6528
+ {
6529
+ "epoch": 0.9558974358974359,
6530
+ "grad_norm": 4.683363437652588,
6531
+ "learning_rate": 4.840956155340415e-07,
6532
+ "loss": 0.846,
6533
+ "step": 932
6534
+ },
6535
+ {
6536
+ "epoch": 0.9569230769230769,
6537
+ "grad_norm": 4.555981636047363,
6538
+ "learning_rate": 4.6187568255726124e-07,
6539
+ "loss": 0.7578,
6540
+ "step": 933
6541
+ },
6542
+ {
6543
+ "epoch": 0.9579487179487179,
6544
+ "grad_norm": 4.5115814208984375,
6545
+ "learning_rate": 4.4017538106352894e-07,
6546
+ "loss": 0.654,
6547
+ "step": 934
6548
+ },
6549
+ {
6550
+ "epoch": 0.958974358974359,
6551
+ "grad_norm": 5.074052810668945,
6552
+ "learning_rate": 4.189949386787462e-07,
6553
+ "loss": 1.1065,
6554
+ "step": 935
6555
+ },
6556
+ {
6557
+ "epoch": 0.96,
6558
+ "grad_norm": 5.363509654998779,
6559
+ "learning_rate": 3.9833457757572636e-07,
6560
+ "loss": 0.7843,
6561
+ "step": 936
6562
+ },
6563
+ {
6564
+ "epoch": 0.961025641025641,
6565
+ "grad_norm": 6.79396915435791,
6566
+ "learning_rate": 3.7819451447189126e-07,
6567
+ "loss": 0.7907,
6568
+ "step": 937
6569
+ },
6570
+ {
6571
+ "epoch": 0.9620512820512821,
6572
+ "grad_norm": 4.234402656555176,
6573
+ "learning_rate": 3.5857496062695617e-07,
6574
+ "loss": 0.621,
6575
+ "step": 938
6576
+ },
6577
+ {
6578
+ "epoch": 0.963076923076923,
6579
+ "grad_norm": 4.6178131103515625,
6580
+ "learning_rate": 3.394761218407705e-07,
6581
+ "loss": 0.716,
6582
+ "step": 939
6583
+ },
6584
+ {
6585
+ "epoch": 0.9641025641025641,
6586
+ "grad_norm": 5.502908706665039,
6587
+ "learning_rate": 3.208981984511195e-07,
6588
+ "loss": 1.1312,
6589
+ "step": 940
6590
+ },
6591
+ {
6592
+ "epoch": 0.9651282051282051,
6593
+ "grad_norm": 4.802907943725586,
6594
+ "learning_rate": 3.0284138533160924e-07,
6595
+ "loss": 0.6067,
6596
+ "step": 941
6597
+ },
6598
+ {
6599
+ "epoch": 0.9661538461538461,
6600
+ "grad_norm": 4.86731481552124,
6601
+ "learning_rate": 2.8530587188968504e-07,
6602
+ "loss": 0.4606,
6603
+ "step": 942
6604
+ },
6605
+ {
6606
+ "epoch": 0.9671794871794872,
6607
+ "grad_norm": 6.775837421417236,
6608
+ "learning_rate": 2.682918420645719e-07,
6609
+ "loss": 1.2505,
6610
+ "step": 943
6611
+ },
6612
+ {
6613
+ "epoch": 0.9682051282051282,
6614
+ "grad_norm": 5.894476413726807,
6615
+ "learning_rate": 2.5179947432540376e-07,
6616
+ "loss": 0.7912,
6617
+ "step": 944
6618
+ },
6619
+ {
6620
+ "epoch": 0.9692307692307692,
6621
+ "grad_norm": 5.020647048950195,
6622
+ "learning_rate": 2.3582894166930268e-07,
6623
+ "loss": 0.6911,
6624
+ "step": 945
6625
+ },
6626
+ {
6627
+ "epoch": 0.9702564102564103,
6628
+ "grad_norm": 6.510494232177734,
6629
+ "learning_rate": 2.2038041161960288e-07,
6630
+ "loss": 0.8434,
6631
+ "step": 946
6632
+ },
6633
+ {
6634
+ "epoch": 0.9712820512820513,
6635
+ "grad_norm": 8.360902786254883,
6636
+ "learning_rate": 2.0545404622407393e-07,
6637
+ "loss": 1.4077,
6638
+ "step": 947
6639
+ },
6640
+ {
6641
+ "epoch": 0.9723076923076923,
6642
+ "grad_norm": 8.382393836975098,
6643
+ "learning_rate": 1.91050002053228e-07,
6644
+ "loss": 1.0157,
6645
+ "step": 948
6646
+ },
6647
+ {
6648
+ "epoch": 0.9733333333333334,
6649
+ "grad_norm": 10.754633903503418,
6650
+ "learning_rate": 1.7716843019867646e-07,
6651
+ "loss": 1.6177,
6652
+ "step": 949
6653
+ },
6654
+ {
6655
+ "epoch": 0.9743589743589743,
6656
+ "grad_norm": 16.695589065551758,
6657
+ "learning_rate": 1.6380947627153143e-07,
6658
+ "loss": 2.4161,
6659
+ "step": 950
6660
+ },
6661
+ {
6662
+ "epoch": 0.9753846153846154,
6663
+ "grad_norm": 3.2838544845581055,
6664
+ "learning_rate": 1.509732804009012e-07,
6665
+ "loss": 1.1099,
6666
+ "step": 951
6667
+ },
6668
+ {
6669
+ "epoch": 0.9764102564102564,
6670
+ "grad_norm": 2.8751566410064697,
6671
+ "learning_rate": 1.386599772324082e-07,
6672
+ "loss": 0.8006,
6673
+ "step": 952
6674
+ },
6675
+ {
6676
+ "epoch": 0.9774358974358974,
6677
+ "grad_norm": 3.975473403930664,
6678
+ "learning_rate": 1.268696959267679e-07,
6679
+ "loss": 0.9313,
6680
+ "step": 953
6681
+ },
6682
+ {
6683
+ "epoch": 0.9784615384615385,
6684
+ "grad_norm": 4.9324235916137695,
6685
+ "learning_rate": 1.156025601584676e-07,
6686
+ "loss": 0.8868,
6687
+ "step": 954
6688
+ },
6689
+ {
6690
+ "epoch": 0.9794871794871794,
6691
+ "grad_norm": 3.668186664581299,
6692
+ "learning_rate": 1.0485868811441757e-07,
6693
+ "loss": 0.819,
6694
+ "step": 955
6695
+ },
6696
+ {
6697
+ "epoch": 0.9805128205128205,
6698
+ "grad_norm": 3.585177183151245,
6699
+ "learning_rate": 9.463819249275751e-08,
6700
+ "loss": 0.67,
6701
+ "step": 956
6702
+ },
6703
+ {
6704
+ "epoch": 0.9815384615384616,
6705
+ "grad_norm": 5.605104446411133,
6706
+ "learning_rate": 8.494118050164646e-08,
6707
+ "loss": 1.3032,
6708
+ "step": 957
6709
+ },
6710
+ {
6711
+ "epoch": 0.9825641025641025,
6712
+ "grad_norm": 5.455284118652344,
6713
+ "learning_rate": 7.576775385815249e-08,
6714
+ "loss": 0.7616,
6715
+ "step": 958
6716
+ },
6717
+ {
6718
+ "epoch": 0.9835897435897436,
6719
+ "grad_norm": 4.1384711265563965,
6720
+ "learning_rate": 6.711800878718144e-08,
6721
+ "loss": 0.8938,
6722
+ "step": 959
6723
+ },
6724
+ {
6725
+ "epoch": 0.9846153846153847,
6726
+ "grad_norm": 3.7249691486358643,
6727
+ "learning_rate": 5.899203602046655e-08,
6728
+ "loss": 0.6647,
6729
+ "step": 960
6730
+ },
6731
+ {
6732
+ "epoch": 0.9856410256410256,
6733
+ "grad_norm": 5.5328474044799805,
6734
+ "learning_rate": 5.1389920795613667e-08,
6735
+ "loss": 1.0767,
6736
+ "step": 961
6737
+ },
6738
+ {
6739
+ "epoch": 0.9866666666666667,
6740
+ "grad_norm": 4.143031120300293,
6741
+ "learning_rate": 4.4311742855218664e-08,
6742
+ "loss": 0.7569,
6743
+ "step": 962
6744
+ },
6745
+ {
6746
+ "epoch": 0.9876923076923076,
6747
+ "grad_norm": 5.039745807647705,
6748
+ "learning_rate": 3.775757644601807e-08,
6749
+ "loss": 1.0621,
6750
+ "step": 963
6751
+ },
6752
+ {
6753
+ "epoch": 0.9887179487179487,
6754
+ "grad_norm": 4.493295192718506,
6755
+ "learning_rate": 3.172749031811195e-08,
6756
+ "loss": 1.0456,
6757
+ "step": 964
6758
+ },
6759
+ {
6760
+ "epoch": 0.9897435897435898,
6761
+ "grad_norm": 3.9239814281463623,
6762
+ "learning_rate": 2.6221547724253337e-08,
6763
+ "loss": 0.6195,
6764
+ "step": 965
6765
+ },
6766
+ {
6767
+ "epoch": 0.9907692307692307,
6768
+ "grad_norm": 6.028420448303223,
6769
+ "learning_rate": 2.1239806419176556e-08,
6770
+ "loss": 0.6658,
6771
+ "step": 966
6772
+ },
6773
+ {
6774
+ "epoch": 0.9917948717948718,
6775
+ "grad_norm": 4.432763576507568,
6776
+ "learning_rate": 1.678231865899216e-08,
6777
+ "loss": 0.7334,
6778
+ "step": 967
6779
+ },
6780
+ {
6781
+ "epoch": 0.9928205128205129,
6782
+ "grad_norm": 3.8991336822509766,
6783
+ "learning_rate": 1.2849131200631802e-08,
6784
+ "loss": 0.7016,
6785
+ "step": 968
6786
+ },
6787
+ {
6788
+ "epoch": 0.9938461538461538,
6789
+ "grad_norm": 6.39743185043335,
6790
+ "learning_rate": 9.440285301370865e-09,
6791
+ "loss": 1.026,
6792
+ "step": 969
6793
+ },
6794
+ {
6795
+ "epoch": 0.9948717948717949,
6796
+ "grad_norm": 5.205996513366699,
6797
+ "learning_rate": 6.5558167183898955e-09,
6798
+ "loss": 1.2714,
6799
+ "step": 970
6800
+ },
6801
+ {
6802
+ "epoch": 0.9958974358974358,
6803
+ "grad_norm": 5.89625358581543,
6804
+ "learning_rate": 4.1957557084082445e-09,
6805
+ "loss": 0.9163,
6806
+ "step": 971
6807
+ },
6808
+ {
6809
+ "epoch": 0.9969230769230769,
6810
+ "grad_norm": 6.269636631011963,
6811
+ "learning_rate": 2.360127027339898e-09,
6812
+ "loss": 1.2324,
6813
+ "step": 972
6814
+ },
6815
+ {
6816
+ "epoch": 0.997948717948718,
6817
+ "grad_norm": 5.002432823181152,
6818
+ "learning_rate": 1.0489499300603278e-09,
6819
+ "loss": 0.8293,
6820
+ "step": 973
6821
+ },
6822
+ {
6823
+ "epoch": 0.9989743589743589,
6824
+ "grad_norm": 5.600581169128418,
6825
+ "learning_rate": 2.622381702066523e-10,
6826
+ "loss": 0.6417,
6827
+ "step": 974
6828
+ },
6829
+ {
6830
+ "epoch": 1.0,
6831
+ "grad_norm": 10.595677375793457,
6832
+ "learning_rate": 0.0,
6833
+ "loss": 1.405,
6834
+ "step": 975
6835
  }
6836
  ],
6837
  "logging_steps": 1,
 
6846
  "should_evaluate": false,
6847
  "should_log": false,
6848
  "should_save": true,
6849
+ "should_training_stop": true
6850
  },
6851
  "attributes": {}
6852
  }
6853
  },
6854
+ "total_flos": 3.4722657929527296e+16,
6855
  "train_batch_size": 4,
6856
  "trial_name": null,
6857
  "trial_params": null