kurtpayne commited on
Commit
2ece5e4
·
verified ·
1 Parent(s): 160c4f9

Training in progress, epoch 5, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0645f161d09f364a484b81806fbfd8c98cb1abedbf78171fcf2383def5f6a7e5
3
  size 41326816
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a73a838267ef1240e7d2b13c9bef0777c40e5adbde0b41eaad2e2285a1456e59
3
  size 41326816
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:6679d58ca69986c0994b095ef2e9c3d18b7404a7e3594455761c40673651f750
3
  size 82710219
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a06226d090ebf29a224eceb62d58a1bcfdd7269b35eeb66b422c31de8877b2af
3
  size 82710219
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2186942baaa00dca8910afe090032428897db961d27f72fe1b3cabc38df50729
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a5bf161a9696463c6af6428f0b062cd6b9cd46cff929e12497c27ed75936b3a3
3
  size 14645
last-checkpoint/scaler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d0a658b5c0263ab81acd95754a20f374f9ef6bbd60038e999c404dddeefeb3e7
3
  size 1383
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2d2558af33a573a47dbf1fceaa66f5d678ba05e35463e4567df2befb7aba332f
3
  size 1383
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:88ec12ce7d4fe8aa53a24c41cff1c725ff03732a26e396503f1cd16fe9e0bdcd
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8f30a2df51250c628da6790996d2f11afea3cdcc7e4850ca3d0e75a15719abbb
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": 7641,
3
  "best_metric": 0.2098543792963028,
4
  "best_model_checkpoint": "/tmp/tmpxojw69__/adapter-multilabel/checkpoint-7641",
5
- "epoch": 4.0,
6
  "eval_steps": 500,
7
- "global_step": 10188,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -7166,6 +7166,1799 @@
7166
  "eval_samples_per_second": 199.884,
7167
  "eval_steps_per_second": 24.985,
7168
  "step": 10188
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7169
  }
7170
  ],
7171
  "logging_steps": 10,
@@ -7180,7 +8973,7 @@
7180
  "early_stopping_threshold": 0.0
7181
  },
7182
  "attributes": {
7183
- "early_stopping_patience_counter": 1
7184
  }
7185
  },
7186
  "TrainerControl": {
@@ -7194,7 +8987,7 @@
7194
  "attributes": {}
7195
  }
7196
  },
7197
- "total_flos": 2.276247622263331e+16,
7198
  "train_batch_size": 8,
7199
  "trial_name": null,
7200
  "trial_params": null
 
2
  "best_global_step": 7641,
3
  "best_metric": 0.2098543792963028,
4
  "best_model_checkpoint": "/tmp/tmpxojw69__/adapter-multilabel/checkpoint-7641",
5
+ "epoch": 5.0,
6
  "eval_steps": 500,
7
+ "global_step": 12735,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
7166
  "eval_samples_per_second": 199.884,
7167
  "eval_steps_per_second": 24.985,
7168
  "step": 10188
7169
+ },
7170
+ {
7171
+ "epoch": 4.000785237534354,
7172
+ "grad_norm": 4.72758150100708,
7173
+ "learning_rate": 5.554788046244456e-06,
7174
+ "loss": 0.3055,
7175
+ "step": 10190
7176
+ },
7177
+ {
7178
+ "epoch": 4.004711425206125,
7179
+ "grad_norm": 42.661476135253906,
7180
+ "learning_rate": 5.543881334981459e-06,
7181
+ "loss": 0.1221,
7182
+ "step": 10200
7183
+ },
7184
+ {
7185
+ "epoch": 4.008637612877895,
7186
+ "grad_norm": 1.0124711990356445,
7187
+ "learning_rate": 5.532974623718462e-06,
7188
+ "loss": 0.3166,
7189
+ "step": 10210
7190
+ },
7191
+ {
7192
+ "epoch": 4.012563800549667,
7193
+ "grad_norm": 15.525918006896973,
7194
+ "learning_rate": 5.522067912455464e-06,
7195
+ "loss": 0.3273,
7196
+ "step": 10220
7197
+ },
7198
+ {
7199
+ "epoch": 4.016489988221437,
7200
+ "grad_norm": 2.8698720932006836,
7201
+ "learning_rate": 5.511161201192467e-06,
7202
+ "loss": 0.2252,
7203
+ "step": 10230
7204
+ },
7205
+ {
7206
+ "epoch": 4.0204161758932075,
7207
+ "grad_norm": 3.9793221950531006,
7208
+ "learning_rate": 5.5002544899294705e-06,
7209
+ "loss": 0.224,
7210
+ "step": 10240
7211
+ },
7212
+ {
7213
+ "epoch": 4.024342363564978,
7214
+ "grad_norm": 0.07582563161849976,
7215
+ "learning_rate": 5.489347778666473e-06,
7216
+ "loss": 0.3353,
7217
+ "step": 10250
7218
+ },
7219
+ {
7220
+ "epoch": 4.028268551236749,
7221
+ "grad_norm": 1.6962158679962158,
7222
+ "learning_rate": 5.478441067403476e-06,
7223
+ "loss": 0.142,
7224
+ "step": 10260
7225
+ },
7226
+ {
7227
+ "epoch": 4.03219473890852,
7228
+ "grad_norm": 0.2911127507686615,
7229
+ "learning_rate": 5.467534356140478e-06,
7230
+ "loss": 0.1208,
7231
+ "step": 10270
7232
+ },
7233
+ {
7234
+ "epoch": 4.03612092658029,
7235
+ "grad_norm": 5.8968658447265625,
7236
+ "learning_rate": 5.4566276448774816e-06,
7237
+ "loss": 0.0631,
7238
+ "step": 10280
7239
+ },
7240
+ {
7241
+ "epoch": 4.0400471142520615,
7242
+ "grad_norm": 45.58570098876953,
7243
+ "learning_rate": 5.445720933614484e-06,
7244
+ "loss": 0.2812,
7245
+ "step": 10290
7246
+ },
7247
+ {
7248
+ "epoch": 4.043973301923832,
7249
+ "grad_norm": 0.2898769676685333,
7250
+ "learning_rate": 5.4348142223514875e-06,
7251
+ "loss": 0.1165,
7252
+ "step": 10300
7253
+ },
7254
+ {
7255
+ "epoch": 4.047899489595602,
7256
+ "grad_norm": 0.13387003540992737,
7257
+ "learning_rate": 5.42390751108849e-06,
7258
+ "loss": 0.0753,
7259
+ "step": 10310
7260
+ },
7261
+ {
7262
+ "epoch": 4.051825677267374,
7263
+ "grad_norm": 28.525253295898438,
7264
+ "learning_rate": 5.413000799825493e-06,
7265
+ "loss": 0.1102,
7266
+ "step": 10320
7267
+ },
7268
+ {
7269
+ "epoch": 4.055751864939144,
7270
+ "grad_norm": 0.00212457193993032,
7271
+ "learning_rate": 5.402094088562496e-06,
7272
+ "loss": 0.227,
7273
+ "step": 10330
7274
+ },
7275
+ {
7276
+ "epoch": 4.059678052610915,
7277
+ "grad_norm": 0.427314817905426,
7278
+ "learning_rate": 5.3911873772994986e-06,
7279
+ "loss": 0.0405,
7280
+ "step": 10340
7281
+ },
7282
+ {
7283
+ "epoch": 4.063604240282685,
7284
+ "grad_norm": 0.02465042844414711,
7285
+ "learning_rate": 5.380280666036501e-06,
7286
+ "loss": 0.0293,
7287
+ "step": 10350
7288
+ },
7289
+ {
7290
+ "epoch": 4.067530427954456,
7291
+ "grad_norm": 0.018195634707808495,
7292
+ "learning_rate": 5.369373954773504e-06,
7293
+ "loss": 0.2609,
7294
+ "step": 10360
7295
+ },
7296
+ {
7297
+ "epoch": 4.071456615626227,
7298
+ "grad_norm": 52.01502990722656,
7299
+ "learning_rate": 5.358467243510507e-06,
7300
+ "loss": 0.1419,
7301
+ "step": 10370
7302
+ },
7303
+ {
7304
+ "epoch": 4.075382803297997,
7305
+ "grad_norm": 3.2556183338165283,
7306
+ "learning_rate": 5.3475605322475105e-06,
7307
+ "loss": 0.0903,
7308
+ "step": 10380
7309
+ },
7310
+ {
7311
+ "epoch": 4.079308990969769,
7312
+ "grad_norm": 0.001474915654398501,
7313
+ "learning_rate": 5.336653820984512e-06,
7314
+ "loss": 0.0078,
7315
+ "step": 10390
7316
+ },
7317
+ {
7318
+ "epoch": 4.083235178641539,
7319
+ "grad_norm": 0.06823692470788956,
7320
+ "learning_rate": 5.325747109721516e-06,
7321
+ "loss": 0.089,
7322
+ "step": 10400
7323
+ },
7324
+ {
7325
+ "epoch": 4.0871613663133095,
7326
+ "grad_norm": 86.67157745361328,
7327
+ "learning_rate": 5.314840398458518e-06,
7328
+ "loss": 0.1285,
7329
+ "step": 10410
7330
+ },
7331
+ {
7332
+ "epoch": 4.091087553985081,
7333
+ "grad_norm": 0.5821394324302673,
7334
+ "learning_rate": 5.3039336871955215e-06,
7335
+ "loss": 0.0791,
7336
+ "step": 10420
7337
+ },
7338
+ {
7339
+ "epoch": 4.095013741656851,
7340
+ "grad_norm": 2.8416385650634766,
7341
+ "learning_rate": 5.293026975932524e-06,
7342
+ "loss": 0.0939,
7343
+ "step": 10430
7344
+ },
7345
+ {
7346
+ "epoch": 4.098939929328622,
7347
+ "grad_norm": 0.132125124335289,
7348
+ "learning_rate": 5.282120264669527e-06,
7349
+ "loss": 0.0366,
7350
+ "step": 10440
7351
+ },
7352
+ {
7353
+ "epoch": 4.102866117000393,
7354
+ "grad_norm": 0.49475279450416565,
7355
+ "learning_rate": 5.271213553406529e-06,
7356
+ "loss": 0.3068,
7357
+ "step": 10450
7358
+ },
7359
+ {
7360
+ "epoch": 4.1067923046721635,
7361
+ "grad_norm": 3.153498649597168,
7362
+ "learning_rate": 5.260306842143533e-06,
7363
+ "loss": 0.1402,
7364
+ "step": 10460
7365
+ },
7366
+ {
7367
+ "epoch": 4.110718492343934,
7368
+ "grad_norm": 0.23407785594463348,
7369
+ "learning_rate": 5.249400130880536e-06,
7370
+ "loss": 0.1457,
7371
+ "step": 10470
7372
+ },
7373
+ {
7374
+ "epoch": 4.114644680015704,
7375
+ "grad_norm": 24.08626365661621,
7376
+ "learning_rate": 5.238493419617538e-06,
7377
+ "loss": 0.0136,
7378
+ "step": 10480
7379
+ },
7380
+ {
7381
+ "epoch": 4.118570867687476,
7382
+ "grad_norm": 66.20108795166016,
7383
+ "learning_rate": 5.227586708354541e-06,
7384
+ "loss": 0.4086,
7385
+ "step": 10490
7386
+ },
7387
+ {
7388
+ "epoch": 4.122497055359246,
7389
+ "grad_norm": 82.57372283935547,
7390
+ "learning_rate": 5.216679997091544e-06,
7391
+ "loss": 0.1789,
7392
+ "step": 10500
7393
+ },
7394
+ {
7395
+ "epoch": 4.126423243031017,
7396
+ "grad_norm": 0.5047690272331238,
7397
+ "learning_rate": 5.205773285828547e-06,
7398
+ "loss": 0.0581,
7399
+ "step": 10510
7400
+ },
7401
+ {
7402
+ "epoch": 4.130349430702788,
7403
+ "grad_norm": 0.20100215077400208,
7404
+ "learning_rate": 5.194866574565549e-06,
7405
+ "loss": 0.0655,
7406
+ "step": 10520
7407
+ },
7408
+ {
7409
+ "epoch": 4.134275618374558,
7410
+ "grad_norm": 27.773496627807617,
7411
+ "learning_rate": 5.183959863302552e-06,
7412
+ "loss": 0.175,
7413
+ "step": 10530
7414
+ },
7415
+ {
7416
+ "epoch": 4.138201806046329,
7417
+ "grad_norm": 1.6714520454406738,
7418
+ "learning_rate": 5.1730531520395556e-06,
7419
+ "loss": 0.0886,
7420
+ "step": 10540
7421
+ },
7422
+ {
7423
+ "epoch": 4.1421279937181,
7424
+ "grad_norm": 0.3187445104122162,
7425
+ "learning_rate": 5.162146440776558e-06,
7426
+ "loss": 0.0895,
7427
+ "step": 10550
7428
+ },
7429
+ {
7430
+ "epoch": 4.146054181389871,
7431
+ "grad_norm": 0.07479172945022583,
7432
+ "learning_rate": 5.151239729513561e-06,
7433
+ "loss": 0.264,
7434
+ "step": 10560
7435
+ },
7436
+ {
7437
+ "epoch": 4.149980369061641,
7438
+ "grad_norm": 2.17854380607605,
7439
+ "learning_rate": 5.140333018250563e-06,
7440
+ "loss": 0.1413,
7441
+ "step": 10570
7442
+ },
7443
+ {
7444
+ "epoch": 4.1539065567334115,
7445
+ "grad_norm": 0.028888875618577003,
7446
+ "learning_rate": 5.129426306987567e-06,
7447
+ "loss": 0.092,
7448
+ "step": 10580
7449
+ },
7450
+ {
7451
+ "epoch": 4.157832744405183,
7452
+ "grad_norm": 51.21066665649414,
7453
+ "learning_rate": 5.118519595724569e-06,
7454
+ "loss": 0.1635,
7455
+ "step": 10590
7456
+ },
7457
+ {
7458
+ "epoch": 4.161758932076953,
7459
+ "grad_norm": 1.4566413164138794,
7460
+ "learning_rate": 5.1076128844615726e-06,
7461
+ "loss": 0.1851,
7462
+ "step": 10600
7463
+ },
7464
+ {
7465
+ "epoch": 4.165685119748724,
7466
+ "grad_norm": 1.8751505613327026,
7467
+ "learning_rate": 5.096706173198575e-06,
7468
+ "loss": 0.2284,
7469
+ "step": 10610
7470
+ },
7471
+ {
7472
+ "epoch": 4.169611307420495,
7473
+ "grad_norm": 0.18739718198776245,
7474
+ "learning_rate": 5.085799461935578e-06,
7475
+ "loss": 0.04,
7476
+ "step": 10620
7477
+ },
7478
+ {
7479
+ "epoch": 4.1735374950922655,
7480
+ "grad_norm": 0.0014762517530471087,
7481
+ "learning_rate": 5.074892750672581e-06,
7482
+ "loss": 0.1512,
7483
+ "step": 10630
7484
+ },
7485
+ {
7486
+ "epoch": 4.177463682764036,
7487
+ "grad_norm": 0.01688547432422638,
7488
+ "learning_rate": 5.063986039409584e-06,
7489
+ "loss": 0.0128,
7490
+ "step": 10640
7491
+ },
7492
+ {
7493
+ "epoch": 4.181389870435807,
7494
+ "grad_norm": 0.023669131100177765,
7495
+ "learning_rate": 5.053079328146586e-06,
7496
+ "loss": 0.0094,
7497
+ "step": 10650
7498
+ },
7499
+ {
7500
+ "epoch": 4.185316058107578,
7501
+ "grad_norm": 19.553979873657227,
7502
+ "learning_rate": 5.042172616883589e-06,
7503
+ "loss": 0.2724,
7504
+ "step": 10660
7505
+ },
7506
+ {
7507
+ "epoch": 4.189242245779348,
7508
+ "grad_norm": 0.42429232597351074,
7509
+ "learning_rate": 5.031265905620592e-06,
7510
+ "loss": 0.0408,
7511
+ "step": 10670
7512
+ },
7513
+ {
7514
+ "epoch": 4.193168433451119,
7515
+ "grad_norm": 2.6943955421447754,
7516
+ "learning_rate": 5.0203591943575955e-06,
7517
+ "loss": 0.045,
7518
+ "step": 10680
7519
+ },
7520
+ {
7521
+ "epoch": 4.19709462112289,
7522
+ "grad_norm": 11.510875701904297,
7523
+ "learning_rate": 5.009452483094597e-06,
7524
+ "loss": 0.2272,
7525
+ "step": 10690
7526
+ },
7527
+ {
7528
+ "epoch": 4.20102080879466,
7529
+ "grad_norm": 2.7018489837646484,
7530
+ "learning_rate": 4.998545771831601e-06,
7531
+ "loss": 0.2434,
7532
+ "step": 10700
7533
+ },
7534
+ {
7535
+ "epoch": 4.204946996466431,
7536
+ "grad_norm": 0.007002497091889381,
7537
+ "learning_rate": 4.987639060568603e-06,
7538
+ "loss": 0.0715,
7539
+ "step": 10710
7540
+ },
7541
+ {
7542
+ "epoch": 4.208873184138202,
7543
+ "grad_norm": 2.0818262100219727,
7544
+ "learning_rate": 4.976732349305607e-06,
7545
+ "loss": 0.405,
7546
+ "step": 10720
7547
+ },
7548
+ {
7549
+ "epoch": 4.2127993718099725,
7550
+ "grad_norm": 8.827634811401367,
7551
+ "learning_rate": 4.965825638042608e-06,
7552
+ "loss": 0.2453,
7553
+ "step": 10730
7554
+ },
7555
+ {
7556
+ "epoch": 4.216725559481743,
7557
+ "grad_norm": 0.18476785719394684,
7558
+ "learning_rate": 4.954918926779612e-06,
7559
+ "loss": 0.4407,
7560
+ "step": 10740
7561
+ },
7562
+ {
7563
+ "epoch": 4.220651747153514,
7564
+ "grad_norm": 1.7661538124084473,
7565
+ "learning_rate": 4.944012215516615e-06,
7566
+ "loss": 0.125,
7567
+ "step": 10750
7568
+ },
7569
+ {
7570
+ "epoch": 4.224577934825285,
7571
+ "grad_norm": 53.1771240234375,
7572
+ "learning_rate": 4.933105504253618e-06,
7573
+ "loss": 0.2051,
7574
+ "step": 10760
7575
+ },
7576
+ {
7577
+ "epoch": 4.228504122497055,
7578
+ "grad_norm": 0.028169292956590652,
7579
+ "learning_rate": 4.922198792990621e-06,
7580
+ "loss": 0.1105,
7581
+ "step": 10770
7582
+ },
7583
+ {
7584
+ "epoch": 4.232430310168826,
7585
+ "grad_norm": 0.6586620807647705,
7586
+ "learning_rate": 4.911292081727623e-06,
7587
+ "loss": 0.119,
7588
+ "step": 10780
7589
+ },
7590
+ {
7591
+ "epoch": 4.236356497840597,
7592
+ "grad_norm": 0.02354232594370842,
7593
+ "learning_rate": 4.900385370464626e-06,
7594
+ "loss": 0.1882,
7595
+ "step": 10790
7596
+ },
7597
+ {
7598
+ "epoch": 4.240282685512367,
7599
+ "grad_norm": 0.06873954832553864,
7600
+ "learning_rate": 4.889478659201629e-06,
7601
+ "loss": 0.0729,
7602
+ "step": 10800
7603
+ },
7604
+ {
7605
+ "epoch": 4.244208873184138,
7606
+ "grad_norm": 7.764781475067139,
7607
+ "learning_rate": 4.878571947938632e-06,
7608
+ "loss": 0.1096,
7609
+ "step": 10810
7610
+ },
7611
+ {
7612
+ "epoch": 4.248135060855909,
7613
+ "grad_norm": 3.322394609451294,
7614
+ "learning_rate": 4.867665236675634e-06,
7615
+ "loss": 0.0548,
7616
+ "step": 10820
7617
+ },
7618
+ {
7619
+ "epoch": 4.25206124852768,
7620
+ "grad_norm": 65.10630798339844,
7621
+ "learning_rate": 4.856758525412637e-06,
7622
+ "loss": 0.2111,
7623
+ "step": 10830
7624
+ },
7625
+ {
7626
+ "epoch": 4.25598743619945,
7627
+ "grad_norm": 0.016012806445360184,
7628
+ "learning_rate": 4.845851814149641e-06,
7629
+ "loss": 0.0323,
7630
+ "step": 10840
7631
+ },
7632
+ {
7633
+ "epoch": 4.259913623871221,
7634
+ "grad_norm": 0.5919714570045471,
7635
+ "learning_rate": 4.834945102886643e-06,
7636
+ "loss": 0.1844,
7637
+ "step": 10850
7638
+ },
7639
+ {
7640
+ "epoch": 4.263839811542992,
7641
+ "grad_norm": 2.448751926422119,
7642
+ "learning_rate": 4.824038391623646e-06,
7643
+ "loss": 0.0514,
7644
+ "step": 10860
7645
+ },
7646
+ {
7647
+ "epoch": 4.267765999214762,
7648
+ "grad_norm": 39.942115783691406,
7649
+ "learning_rate": 4.813131680360648e-06,
7650
+ "loss": 0.3232,
7651
+ "step": 10870
7652
+ },
7653
+ {
7654
+ "epoch": 4.271692186886533,
7655
+ "grad_norm": 20.35823631286621,
7656
+ "learning_rate": 4.802224969097652e-06,
7657
+ "loss": 0.1084,
7658
+ "step": 10880
7659
+ },
7660
+ {
7661
+ "epoch": 4.275618374558304,
7662
+ "grad_norm": 0.12875595688819885,
7663
+ "learning_rate": 4.791318257834654e-06,
7664
+ "loss": 0.0305,
7665
+ "step": 10890
7666
+ },
7667
+ {
7668
+ "epoch": 4.2795445622300745,
7669
+ "grad_norm": 2.480520248413086,
7670
+ "learning_rate": 4.780411546571657e-06,
7671
+ "loss": 0.0915,
7672
+ "step": 10900
7673
+ },
7674
+ {
7675
+ "epoch": 4.283470749901845,
7676
+ "grad_norm": 7.228784561157227,
7677
+ "learning_rate": 4.76950483530866e-06,
7678
+ "loss": 0.0576,
7679
+ "step": 10910
7680
+ },
7681
+ {
7682
+ "epoch": 4.287396937573616,
7683
+ "grad_norm": 0.12338505685329437,
7684
+ "learning_rate": 4.758598124045663e-06,
7685
+ "loss": 0.4064,
7686
+ "step": 10920
7687
+ },
7688
+ {
7689
+ "epoch": 4.291323125245387,
7690
+ "grad_norm": 2.6563589572906494,
7691
+ "learning_rate": 4.747691412782666e-06,
7692
+ "loss": 0.0923,
7693
+ "step": 10930
7694
+ },
7695
+ {
7696
+ "epoch": 4.295249312917157,
7697
+ "grad_norm": 0.061495013535022736,
7698
+ "learning_rate": 4.736784701519669e-06,
7699
+ "loss": 0.0799,
7700
+ "step": 10940
7701
+ },
7702
+ {
7703
+ "epoch": 4.2991755005889285,
7704
+ "grad_norm": 7.3375701904296875,
7705
+ "learning_rate": 4.725877990256671e-06,
7706
+ "loss": 0.0586,
7707
+ "step": 10950
7708
+ },
7709
+ {
7710
+ "epoch": 4.303101688260699,
7711
+ "grad_norm": 0.3065297305583954,
7712
+ "learning_rate": 4.714971278993674e-06,
7713
+ "loss": 0.0726,
7714
+ "step": 10960
7715
+ },
7716
+ {
7717
+ "epoch": 4.307027875932469,
7718
+ "grad_norm": 12.599206924438477,
7719
+ "learning_rate": 4.704064567730677e-06,
7720
+ "loss": 0.0323,
7721
+ "step": 10970
7722
+ },
7723
+ {
7724
+ "epoch": 4.310954063604241,
7725
+ "grad_norm": 0.6042287945747375,
7726
+ "learning_rate": 4.693157856467681e-06,
7727
+ "loss": 0.0376,
7728
+ "step": 10980
7729
+ },
7730
+ {
7731
+ "epoch": 4.314880251276011,
7732
+ "grad_norm": 0.06080783158540726,
7733
+ "learning_rate": 4.682251145204682e-06,
7734
+ "loss": 0.0704,
7735
+ "step": 10990
7736
+ },
7737
+ {
7738
+ "epoch": 4.318806438947782,
7739
+ "grad_norm": 1.4414780139923096,
7740
+ "learning_rate": 4.671344433941686e-06,
7741
+ "loss": 0.1538,
7742
+ "step": 11000
7743
+ },
7744
+ {
7745
+ "epoch": 4.322732626619552,
7746
+ "grad_norm": 0.049268707633018494,
7747
+ "learning_rate": 4.660437722678688e-06,
7748
+ "loss": 0.3331,
7749
+ "step": 11010
7750
+ },
7751
+ {
7752
+ "epoch": 4.326658814291323,
7753
+ "grad_norm": 40.58133316040039,
7754
+ "learning_rate": 4.649531011415692e-06,
7755
+ "loss": 0.0652,
7756
+ "step": 11020
7757
+ },
7758
+ {
7759
+ "epoch": 4.330585001963094,
7760
+ "grad_norm": 12.699175834655762,
7761
+ "learning_rate": 4.638624300152693e-06,
7762
+ "loss": 0.0292,
7763
+ "step": 11030
7764
+ },
7765
+ {
7766
+ "epoch": 4.334511189634864,
7767
+ "grad_norm": 14.473196983337402,
7768
+ "learning_rate": 4.627717588889697e-06,
7769
+ "loss": 0.0263,
7770
+ "step": 11040
7771
+ },
7772
+ {
7773
+ "epoch": 4.338437377306636,
7774
+ "grad_norm": 1.4136981964111328,
7775
+ "learning_rate": 4.6168108776267e-06,
7776
+ "loss": 0.1827,
7777
+ "step": 11050
7778
+ },
7779
+ {
7780
+ "epoch": 4.342363564978406,
7781
+ "grad_norm": 1.1253087520599365,
7782
+ "learning_rate": 4.605904166363703e-06,
7783
+ "loss": 0.0109,
7784
+ "step": 11060
7785
+ },
7786
+ {
7787
+ "epoch": 4.3462897526501765,
7788
+ "grad_norm": 1.071156620979309,
7789
+ "learning_rate": 4.594997455100705e-06,
7790
+ "loss": 0.1233,
7791
+ "step": 11070
7792
+ },
7793
+ {
7794
+ "epoch": 4.350215940321948,
7795
+ "grad_norm": 7.563606262207031,
7796
+ "learning_rate": 4.584090743837708e-06,
7797
+ "loss": 0.3269,
7798
+ "step": 11080
7799
+ },
7800
+ {
7801
+ "epoch": 4.354142127993718,
7802
+ "grad_norm": 0.1146276667714119,
7803
+ "learning_rate": 4.573184032574711e-06,
7804
+ "loss": 0.179,
7805
+ "step": 11090
7806
+ },
7807
+ {
7808
+ "epoch": 4.358068315665489,
7809
+ "grad_norm": 4.05152702331543,
7810
+ "learning_rate": 4.562277321311714e-06,
7811
+ "loss": 0.1717,
7812
+ "step": 11100
7813
+ },
7814
+ {
7815
+ "epoch": 4.361994503337259,
7816
+ "grad_norm": 36.816070556640625,
7817
+ "learning_rate": 4.551370610048717e-06,
7818
+ "loss": 0.1393,
7819
+ "step": 11110
7820
+ },
7821
+ {
7822
+ "epoch": 4.3659206910090305,
7823
+ "grad_norm": 0.12716884911060333,
7824
+ "learning_rate": 4.54046389878572e-06,
7825
+ "loss": 0.0999,
7826
+ "step": 11120
7827
+ },
7828
+ {
7829
+ "epoch": 4.369846878680801,
7830
+ "grad_norm": 0.059460218995809555,
7831
+ "learning_rate": 4.529557187522722e-06,
7832
+ "loss": 0.0246,
7833
+ "step": 11130
7834
+ },
7835
+ {
7836
+ "epoch": 4.373773066352571,
7837
+ "grad_norm": 0.6208339333534241,
7838
+ "learning_rate": 4.518650476259726e-06,
7839
+ "loss": 0.1346,
7840
+ "step": 11140
7841
+ },
7842
+ {
7843
+ "epoch": 4.377699254024343,
7844
+ "grad_norm": 1.6381494998931885,
7845
+ "learning_rate": 4.507743764996728e-06,
7846
+ "loss": 0.1458,
7847
+ "step": 11150
7848
+ },
7849
+ {
7850
+ "epoch": 4.381625441696113,
7851
+ "grad_norm": 0.18804025650024414,
7852
+ "learning_rate": 4.496837053733731e-06,
7853
+ "loss": 0.1989,
7854
+ "step": 11160
7855
+ },
7856
+ {
7857
+ "epoch": 4.385551629367884,
7858
+ "grad_norm": 0.010031181387603283,
7859
+ "learning_rate": 4.485930342470733e-06,
7860
+ "loss": 0.101,
7861
+ "step": 11170
7862
+ },
7863
+ {
7864
+ "epoch": 4.389477817039655,
7865
+ "grad_norm": 3.6645188331604004,
7866
+ "learning_rate": 4.475023631207737e-06,
7867
+ "loss": 0.1923,
7868
+ "step": 11180
7869
+ },
7870
+ {
7871
+ "epoch": 4.393404004711425,
7872
+ "grad_norm": 6.274600028991699,
7873
+ "learning_rate": 4.464116919944739e-06,
7874
+ "loss": 0.2215,
7875
+ "step": 11190
7876
+ },
7877
+ {
7878
+ "epoch": 4.397330192383196,
7879
+ "grad_norm": 41.698177337646484,
7880
+ "learning_rate": 4.453210208681742e-06,
7881
+ "loss": 0.2724,
7882
+ "step": 11200
7883
+ },
7884
+ {
7885
+ "epoch": 4.401256380054966,
7886
+ "grad_norm": 23.39414405822754,
7887
+ "learning_rate": 4.442303497418745e-06,
7888
+ "loss": 0.1843,
7889
+ "step": 11210
7890
+ },
7891
+ {
7892
+ "epoch": 4.4051825677267376,
7893
+ "grad_norm": 2.2417080402374268,
7894
+ "learning_rate": 4.431396786155748e-06,
7895
+ "loss": 0.0976,
7896
+ "step": 11220
7897
+ },
7898
+ {
7899
+ "epoch": 4.409108755398508,
7900
+ "grad_norm": 3.22478985786438,
7901
+ "learning_rate": 4.420490074892751e-06,
7902
+ "loss": 0.1035,
7903
+ "step": 11230
7904
+ },
7905
+ {
7906
+ "epoch": 4.413034943070278,
7907
+ "grad_norm": 0.663462221622467,
7908
+ "learning_rate": 4.409583363629754e-06,
7909
+ "loss": 0.0101,
7910
+ "step": 11240
7911
+ },
7912
+ {
7913
+ "epoch": 4.41696113074205,
7914
+ "grad_norm": 0.032868240028619766,
7915
+ "learning_rate": 4.398676652366756e-06,
7916
+ "loss": 0.0843,
7917
+ "step": 11250
7918
+ },
7919
+ {
7920
+ "epoch": 4.42088731841382,
7921
+ "grad_norm": 1.1085513830184937,
7922
+ "learning_rate": 4.387769941103759e-06,
7923
+ "loss": 0.1714,
7924
+ "step": 11260
7925
+ },
7926
+ {
7927
+ "epoch": 4.424813506085591,
7928
+ "grad_norm": 54.420074462890625,
7929
+ "learning_rate": 4.376863229840762e-06,
7930
+ "loss": 0.1933,
7931
+ "step": 11270
7932
+ },
7933
+ {
7934
+ "epoch": 4.428739693757362,
7935
+ "grad_norm": 0.016946880146861076,
7936
+ "learning_rate": 4.365956518577766e-06,
7937
+ "loss": 0.0409,
7938
+ "step": 11280
7939
+ },
7940
+ {
7941
+ "epoch": 4.432665881429132,
7942
+ "grad_norm": 2.104984998703003,
7943
+ "learning_rate": 4.355049807314767e-06,
7944
+ "loss": 0.1561,
7945
+ "step": 11290
7946
+ },
7947
+ {
7948
+ "epoch": 4.436592069100903,
7949
+ "grad_norm": 0.10828897356987,
7950
+ "learning_rate": 4.344143096051771e-06,
7951
+ "loss": 0.1639,
7952
+ "step": 11300
7953
+ },
7954
+ {
7955
+ "epoch": 4.440518256772673,
7956
+ "grad_norm": 4.014338493347168,
7957
+ "learning_rate": 4.333236384788773e-06,
7958
+ "loss": 0.1015,
7959
+ "step": 11310
7960
+ },
7961
+ {
7962
+ "epoch": 4.444444444444445,
7963
+ "grad_norm": 0.569478452205658,
7964
+ "learning_rate": 4.322329673525777e-06,
7965
+ "loss": 0.205,
7966
+ "step": 11320
7967
+ },
7968
+ {
7969
+ "epoch": 4.448370632116215,
7970
+ "grad_norm": 0.4153745770454407,
7971
+ "learning_rate": 4.311422962262778e-06,
7972
+ "loss": 0.075,
7973
+ "step": 11330
7974
+ },
7975
+ {
7976
+ "epoch": 4.4522968197879855,
7977
+ "grad_norm": 0.0014355352614074945,
7978
+ "learning_rate": 4.300516250999782e-06,
7979
+ "loss": 0.0196,
7980
+ "step": 11340
7981
+ },
7982
+ {
7983
+ "epoch": 4.456223007459757,
7984
+ "grad_norm": 2.2291321754455566,
7985
+ "learning_rate": 4.289609539736785e-06,
7986
+ "loss": 0.212,
7987
+ "step": 11350
7988
+ },
7989
+ {
7990
+ "epoch": 4.460149195131527,
7991
+ "grad_norm": 1.008844017982483,
7992
+ "learning_rate": 4.278702828473788e-06,
7993
+ "loss": 0.0704,
7994
+ "step": 11360
7995
+ },
7996
+ {
7997
+ "epoch": 4.464075382803298,
7998
+ "grad_norm": 0.0015276659978553653,
7999
+ "learning_rate": 4.26779611721079e-06,
8000
+ "loss": 0.0694,
8001
+ "step": 11370
8002
+ },
8003
+ {
8004
+ "epoch": 4.468001570475069,
8005
+ "grad_norm": 0.7041998505592346,
8006
+ "learning_rate": 4.256889405947793e-06,
8007
+ "loss": 0.2602,
8008
+ "step": 11380
8009
+ },
8010
+ {
8011
+ "epoch": 4.4719277581468395,
8012
+ "grad_norm": 34.5051383972168,
8013
+ "learning_rate": 4.245982694684796e-06,
8014
+ "loss": 0.1838,
8015
+ "step": 11390
8016
+ },
8017
+ {
8018
+ "epoch": 4.47585394581861,
8019
+ "grad_norm": 3.1204638481140137,
8020
+ "learning_rate": 4.235075983421799e-06,
8021
+ "loss": 0.2798,
8022
+ "step": 11400
8023
+ },
8024
+ {
8025
+ "epoch": 4.479780133490381,
8026
+ "grad_norm": 0.18452374637126923,
8027
+ "learning_rate": 4.224169272158802e-06,
8028
+ "loss": 0.3294,
8029
+ "step": 11410
8030
+ },
8031
+ {
8032
+ "epoch": 4.483706321162152,
8033
+ "grad_norm": 4.408217906951904,
8034
+ "learning_rate": 4.213262560895805e-06,
8035
+ "loss": 0.0673,
8036
+ "step": 11420
8037
+ },
8038
+ {
8039
+ "epoch": 4.487632508833922,
8040
+ "grad_norm": 4.717844009399414,
8041
+ "learning_rate": 4.202355849632807e-06,
8042
+ "loss": 0.1274,
8043
+ "step": 11430
8044
+ },
8045
+ {
8046
+ "epoch": 4.491558696505693,
8047
+ "grad_norm": 2.0726821422576904,
8048
+ "learning_rate": 4.191449138369811e-06,
8049
+ "loss": 0.0654,
8050
+ "step": 11440
8051
+ },
8052
+ {
8053
+ "epoch": 4.495484884177464,
8054
+ "grad_norm": 2.1110270023345947,
8055
+ "learning_rate": 4.180542427106813e-06,
8056
+ "loss": 0.1866,
8057
+ "step": 11450
8058
+ },
8059
+ {
8060
+ "epoch": 4.499411071849234,
8061
+ "grad_norm": 1.1653978824615479,
8062
+ "learning_rate": 4.169635715843816e-06,
8063
+ "loss": 0.2079,
8064
+ "step": 11460
8065
+ },
8066
+ {
8067
+ "epoch": 4.503337259521005,
8068
+ "grad_norm": 2.5535547733306885,
8069
+ "learning_rate": 4.158729004580818e-06,
8070
+ "loss": 0.1445,
8071
+ "step": 11470
8072
+ },
8073
+ {
8074
+ "epoch": 4.507263447192776,
8075
+ "grad_norm": 1.7428903579711914,
8076
+ "learning_rate": 4.147822293317822e-06,
8077
+ "loss": 0.2319,
8078
+ "step": 11480
8079
+ },
8080
+ {
8081
+ "epoch": 4.511189634864547,
8082
+ "grad_norm": 0.03951288014650345,
8083
+ "learning_rate": 4.136915582054825e-06,
8084
+ "loss": 0.1143,
8085
+ "step": 11490
8086
+ },
8087
+ {
8088
+ "epoch": 4.515115822536317,
8089
+ "grad_norm": 0.6620287299156189,
8090
+ "learning_rate": 4.126008870791827e-06,
8091
+ "loss": 0.1651,
8092
+ "step": 11500
8093
+ },
8094
+ {
8095
+ "epoch": 4.5190420102080875,
8096
+ "grad_norm": 3.8671939373016357,
8097
+ "learning_rate": 4.11510215952883e-06,
8098
+ "loss": 0.1291,
8099
+ "step": 11510
8100
+ },
8101
+ {
8102
+ "epoch": 4.522968197879859,
8103
+ "grad_norm": 3.8467342853546143,
8104
+ "learning_rate": 4.104195448265833e-06,
8105
+ "loss": 0.1452,
8106
+ "step": 11520
8107
+ },
8108
+ {
8109
+ "epoch": 4.526894385551629,
8110
+ "grad_norm": 40.31616973876953,
8111
+ "learning_rate": 4.093288737002836e-06,
8112
+ "loss": 0.843,
8113
+ "step": 11530
8114
+ },
8115
+ {
8116
+ "epoch": 4.5308205732234,
8117
+ "grad_norm": 2.706727981567383,
8118
+ "learning_rate": 4.082382025739838e-06,
8119
+ "loss": 0.055,
8120
+ "step": 11540
8121
+ },
8122
+ {
8123
+ "epoch": 4.534746760895171,
8124
+ "grad_norm": 0.4966110587120056,
8125
+ "learning_rate": 4.071475314476841e-06,
8126
+ "loss": 0.1364,
8127
+ "step": 11550
8128
+ },
8129
+ {
8130
+ "epoch": 4.5386729485669415,
8131
+ "grad_norm": 0.6320309638977051,
8132
+ "learning_rate": 4.060568603213845e-06,
8133
+ "loss": 0.0484,
8134
+ "step": 11560
8135
+ },
8136
+ {
8137
+ "epoch": 4.542599136238712,
8138
+ "grad_norm": 31.6278076171875,
8139
+ "learning_rate": 4.049661891950847e-06,
8140
+ "loss": 0.1882,
8141
+ "step": 11570
8142
+ },
8143
+ {
8144
+ "epoch": 4.546525323910483,
8145
+ "grad_norm": 0.01169632188975811,
8146
+ "learning_rate": 4.038755180687851e-06,
8147
+ "loss": 0.255,
8148
+ "step": 11580
8149
+ },
8150
+ {
8151
+ "epoch": 4.550451511582254,
8152
+ "grad_norm": 23.977025985717773,
8153
+ "learning_rate": 4.027848469424852e-06,
8154
+ "loss": 0.115,
8155
+ "step": 11590
8156
+ },
8157
+ {
8158
+ "epoch": 4.554377699254024,
8159
+ "grad_norm": 36.47876739501953,
8160
+ "learning_rate": 4.016941758161856e-06,
8161
+ "loss": 0.1016,
8162
+ "step": 11600
8163
+ },
8164
+ {
8165
+ "epoch": 4.5583038869257955,
8166
+ "grad_norm": 0.1030101552605629,
8167
+ "learning_rate": 4.006035046898858e-06,
8168
+ "loss": 0.1043,
8169
+ "step": 11610
8170
+ },
8171
+ {
8172
+ "epoch": 4.562230074597566,
8173
+ "grad_norm": 0.4287293553352356,
8174
+ "learning_rate": 3.995128335635862e-06,
8175
+ "loss": 0.2744,
8176
+ "step": 11620
8177
+ },
8178
+ {
8179
+ "epoch": 4.566156262269336,
8180
+ "grad_norm": 0.12024598568677902,
8181
+ "learning_rate": 3.9842216243728635e-06,
8182
+ "loss": 0.3529,
8183
+ "step": 11630
8184
+ },
8185
+ {
8186
+ "epoch": 4.570082449941108,
8187
+ "grad_norm": 2.1747756004333496,
8188
+ "learning_rate": 3.973314913109867e-06,
8189
+ "loss": 0.0748,
8190
+ "step": 11640
8191
+ },
8192
+ {
8193
+ "epoch": 4.574008637612878,
8194
+ "grad_norm": 1.6667670011520386,
8195
+ "learning_rate": 3.96240820184687e-06,
8196
+ "loss": 0.0536,
8197
+ "step": 11650
8198
+ },
8199
+ {
8200
+ "epoch": 4.577934825284649,
8201
+ "grad_norm": 0.03187723085284233,
8202
+ "learning_rate": 3.951501490583873e-06,
8203
+ "loss": 0.2944,
8204
+ "step": 11660
8205
+ },
8206
+ {
8207
+ "epoch": 4.581861012956419,
8208
+ "grad_norm": 0.2954811453819275,
8209
+ "learning_rate": 3.940594779320875e-06,
8210
+ "loss": 0.0132,
8211
+ "step": 11670
8212
+ },
8213
+ {
8214
+ "epoch": 4.58578720062819,
8215
+ "grad_norm": 0.10518808662891388,
8216
+ "learning_rate": 3.929688068057878e-06,
8217
+ "loss": 0.0854,
8218
+ "step": 11680
8219
+ },
8220
+ {
8221
+ "epoch": 4.589713388299961,
8222
+ "grad_norm": 0.07845209538936615,
8223
+ "learning_rate": 3.918781356794881e-06,
8224
+ "loss": 0.058,
8225
+ "step": 11690
8226
+ },
8227
+ {
8228
+ "epoch": 4.593639575971731,
8229
+ "grad_norm": 0.20491130650043488,
8230
+ "learning_rate": 3.907874645531884e-06,
8231
+ "loss": 0.0183,
8232
+ "step": 11700
8233
+ },
8234
+ {
8235
+ "epoch": 4.597565763643502,
8236
+ "grad_norm": 2.7827701568603516,
8237
+ "learning_rate": 3.896967934268887e-06,
8238
+ "loss": 0.1852,
8239
+ "step": 11710
8240
+ },
8241
+ {
8242
+ "epoch": 4.601491951315273,
8243
+ "grad_norm": 26.021631240844727,
8244
+ "learning_rate": 3.88606122300589e-06,
8245
+ "loss": 0.0568,
8246
+ "step": 11720
8247
+ },
8248
+ {
8249
+ "epoch": 4.605418138987043,
8250
+ "grad_norm": 0.18552929162979126,
8251
+ "learning_rate": 3.875154511742892e-06,
8252
+ "loss": 0.6275,
8253
+ "step": 11730
8254
+ },
8255
+ {
8256
+ "epoch": 4.609344326658814,
8257
+ "grad_norm": 0.030961547046899796,
8258
+ "learning_rate": 3.864247800479896e-06,
8259
+ "loss": 0.0789,
8260
+ "step": 11740
8261
+ },
8262
+ {
8263
+ "epoch": 4.613270514330585,
8264
+ "grad_norm": 3.035456657409668,
8265
+ "learning_rate": 3.853341089216898e-06,
8266
+ "loss": 0.2695,
8267
+ "step": 11750
8268
+ },
8269
+ {
8270
+ "epoch": 4.617196702002356,
8271
+ "grad_norm": 0.0034062163904309273,
8272
+ "learning_rate": 3.842434377953901e-06,
8273
+ "loss": 0.0262,
8274
+ "step": 11760
8275
+ },
8276
+ {
8277
+ "epoch": 4.621122889674126,
8278
+ "grad_norm": 36.29433059692383,
8279
+ "learning_rate": 3.8315276666909034e-06,
8280
+ "loss": 0.0434,
8281
+ "step": 11770
8282
+ },
8283
+ {
8284
+ "epoch": 4.625049077345897,
8285
+ "grad_norm": 6.816181182861328,
8286
+ "learning_rate": 3.820620955427907e-06,
8287
+ "loss": 0.0161,
8288
+ "step": 11780
8289
+ },
8290
+ {
8291
+ "epoch": 4.628975265017668,
8292
+ "grad_norm": 1.1046137809753418,
8293
+ "learning_rate": 3.80971424416491e-06,
8294
+ "loss": 0.3283,
8295
+ "step": 11790
8296
+ },
8297
+ {
8298
+ "epoch": 4.632901452689438,
8299
+ "grad_norm": 21.311256408691406,
8300
+ "learning_rate": 3.7988075329019124e-06,
8301
+ "loss": 0.0315,
8302
+ "step": 11800
8303
+ },
8304
+ {
8305
+ "epoch": 4.63682764036121,
8306
+ "grad_norm": 0.006463933270424604,
8307
+ "learning_rate": 3.7879008216389154e-06,
8308
+ "loss": 0.0858,
8309
+ "step": 11810
8310
+ },
8311
+ {
8312
+ "epoch": 4.64075382803298,
8313
+ "grad_norm": 0.1009044498205185,
8314
+ "learning_rate": 3.776994110375918e-06,
8315
+ "loss": 0.0652,
8316
+ "step": 11820
8317
+ },
8318
+ {
8319
+ "epoch": 4.6446800157047505,
8320
+ "grad_norm": 38.3448486328125,
8321
+ "learning_rate": 3.766087399112921e-06,
8322
+ "loss": 0.099,
8323
+ "step": 11830
8324
+ },
8325
+ {
8326
+ "epoch": 4.648606203376522,
8327
+ "grad_norm": 0.02030136063694954,
8328
+ "learning_rate": 3.7551806878499234e-06,
8329
+ "loss": 0.0138,
8330
+ "step": 11840
8331
+ },
8332
+ {
8333
+ "epoch": 4.652532391048292,
8334
+ "grad_norm": 0.019319510087370872,
8335
+ "learning_rate": 3.7442739765869264e-06,
8336
+ "loss": 0.4559,
8337
+ "step": 11850
8338
+ },
8339
+ {
8340
+ "epoch": 4.656458578720063,
8341
+ "grad_norm": 1.0910370349884033,
8342
+ "learning_rate": 3.7333672653239294e-06,
8343
+ "loss": 0.1263,
8344
+ "step": 11860
8345
+ },
8346
+ {
8347
+ "epoch": 4.660384766391833,
8348
+ "grad_norm": 1.3958247900009155,
8349
+ "learning_rate": 3.7224605540609324e-06,
8350
+ "loss": 0.0147,
8351
+ "step": 11870
8352
+ },
8353
+ {
8354
+ "epoch": 4.6643109540636045,
8355
+ "grad_norm": 0.4382643401622772,
8356
+ "learning_rate": 3.711553842797935e-06,
8357
+ "loss": 0.0124,
8358
+ "step": 11880
8359
+ },
8360
+ {
8361
+ "epoch": 4.668237141735375,
8362
+ "grad_norm": 7.719198703765869,
8363
+ "learning_rate": 3.700647131534938e-06,
8364
+ "loss": 0.0237,
8365
+ "step": 11890
8366
+ },
8367
+ {
8368
+ "epoch": 4.672163329407145,
8369
+ "grad_norm": 2.4287776947021484,
8370
+ "learning_rate": 3.689740420271941e-06,
8371
+ "loss": 0.0199,
8372
+ "step": 11900
8373
+ },
8374
+ {
8375
+ "epoch": 4.676089517078917,
8376
+ "grad_norm": 1.4360685348510742,
8377
+ "learning_rate": 3.678833709008944e-06,
8378
+ "loss": 0.0848,
8379
+ "step": 11910
8380
+ },
8381
+ {
8382
+ "epoch": 4.680015704750687,
8383
+ "grad_norm": 0.097528375685215,
8384
+ "learning_rate": 3.6679269977459464e-06,
8385
+ "loss": 0.135,
8386
+ "step": 11920
8387
+ },
8388
+ {
8389
+ "epoch": 4.683941892422458,
8390
+ "grad_norm": 2.561962127685547,
8391
+ "learning_rate": 3.6570202864829494e-06,
8392
+ "loss": 0.1596,
8393
+ "step": 11930
8394
+ },
8395
+ {
8396
+ "epoch": 4.687868080094228,
8397
+ "grad_norm": 0.35034361481666565,
8398
+ "learning_rate": 3.646113575219952e-06,
8399
+ "loss": 0.3774,
8400
+ "step": 11940
8401
+ },
8402
+ {
8403
+ "epoch": 4.691794267765999,
8404
+ "grad_norm": 0.6369782090187073,
8405
+ "learning_rate": 3.635206863956955e-06,
8406
+ "loss": 0.4512,
8407
+ "step": 11950
8408
+ },
8409
+ {
8410
+ "epoch": 4.69572045543777,
8411
+ "grad_norm": 0.056739307940006256,
8412
+ "learning_rate": 3.6243001526939575e-06,
8413
+ "loss": 0.1151,
8414
+ "step": 11960
8415
+ },
8416
+ {
8417
+ "epoch": 4.69964664310954,
8418
+ "grad_norm": 0.004181596916168928,
8419
+ "learning_rate": 3.613393441430961e-06,
8420
+ "loss": 0.2318,
8421
+ "step": 11970
8422
+ },
8423
+ {
8424
+ "epoch": 4.703572830781312,
8425
+ "grad_norm": 0.9796065092086792,
8426
+ "learning_rate": 3.6024867301679634e-06,
8427
+ "loss": 0.1016,
8428
+ "step": 11980
8429
+ },
8430
+ {
8431
+ "epoch": 4.707499018453082,
8432
+ "grad_norm": 0.004438054282218218,
8433
+ "learning_rate": 3.5915800189049664e-06,
8434
+ "loss": 0.0201,
8435
+ "step": 11990
8436
+ },
8437
+ {
8438
+ "epoch": 4.7114252061248525,
8439
+ "grad_norm": 0.008101391606032848,
8440
+ "learning_rate": 3.580673307641969e-06,
8441
+ "loss": 0.1238,
8442
+ "step": 12000
8443
+ },
8444
+ {
8445
+ "epoch": 4.715351393796624,
8446
+ "grad_norm": 11.503485679626465,
8447
+ "learning_rate": 3.569766596378972e-06,
8448
+ "loss": 0.0365,
8449
+ "step": 12010
8450
+ },
8451
+ {
8452
+ "epoch": 4.719277581468394,
8453
+ "grad_norm": 1.7578542232513428,
8454
+ "learning_rate": 3.5588598851159745e-06,
8455
+ "loss": 0.0932,
8456
+ "step": 12020
8457
+ },
8458
+ {
8459
+ "epoch": 4.723203769140165,
8460
+ "grad_norm": 0.233550027012825,
8461
+ "learning_rate": 3.5479531738529774e-06,
8462
+ "loss": 0.0404,
8463
+ "step": 12030
8464
+ },
8465
+ {
8466
+ "epoch": 4.727129956811936,
8467
+ "grad_norm": 0.12030208855867386,
8468
+ "learning_rate": 3.537046462589981e-06,
8469
+ "loss": 0.0427,
8470
+ "step": 12040
8471
+ },
8472
+ {
8473
+ "epoch": 4.7310561444837065,
8474
+ "grad_norm": 1.776781439781189,
8475
+ "learning_rate": 3.5261397513269834e-06,
8476
+ "loss": 0.2625,
8477
+ "step": 12050
8478
+ },
8479
+ {
8480
+ "epoch": 4.734982332155477,
8481
+ "grad_norm": 0.045891329646110535,
8482
+ "learning_rate": 3.5152330400639864e-06,
8483
+ "loss": 0.2708,
8484
+ "step": 12060
8485
+ },
8486
+ {
8487
+ "epoch": 4.738908519827247,
8488
+ "grad_norm": 4.770725250244141,
8489
+ "learning_rate": 3.504326328800989e-06,
8490
+ "loss": 0.0247,
8491
+ "step": 12070
8492
+ },
8493
+ {
8494
+ "epoch": 4.742834707499019,
8495
+ "grad_norm": 66.16348266601562,
8496
+ "learning_rate": 3.493419617537992e-06,
8497
+ "loss": 0.2184,
8498
+ "step": 12080
8499
+ },
8500
+ {
8501
+ "epoch": 4.746760895170789,
8502
+ "grad_norm": 12.489692687988281,
8503
+ "learning_rate": 3.4825129062749945e-06,
8504
+ "loss": 0.1866,
8505
+ "step": 12090
8506
+ },
8507
+ {
8508
+ "epoch": 4.75068708284256,
8509
+ "grad_norm": 41.860137939453125,
8510
+ "learning_rate": 3.4716061950119974e-06,
8511
+ "loss": 0.6376,
8512
+ "step": 12100
8513
+ },
8514
+ {
8515
+ "epoch": 4.754613270514331,
8516
+ "grad_norm": 2.836162567138672,
8517
+ "learning_rate": 3.460699483749e-06,
8518
+ "loss": 0.0706,
8519
+ "step": 12110
8520
+ },
8521
+ {
8522
+ "epoch": 4.758539458186101,
8523
+ "grad_norm": 51.33088302612305,
8524
+ "learning_rate": 3.4497927724860034e-06,
8525
+ "loss": 0.1782,
8526
+ "step": 12120
8527
+ },
8528
+ {
8529
+ "epoch": 4.762465645857872,
8530
+ "grad_norm": 0.19952315092086792,
8531
+ "learning_rate": 3.438886061223006e-06,
8532
+ "loss": 0.1664,
8533
+ "step": 12130
8534
+ },
8535
+ {
8536
+ "epoch": 4.766391833529642,
8537
+ "grad_norm": 14.382736206054688,
8538
+ "learning_rate": 3.427979349960009e-06,
8539
+ "loss": 0.1207,
8540
+ "step": 12140
8541
+ },
8542
+ {
8543
+ "epoch": 4.770318021201414,
8544
+ "grad_norm": 51.39863204956055,
8545
+ "learning_rate": 3.4170726386970115e-06,
8546
+ "loss": 0.0656,
8547
+ "step": 12150
8548
+ },
8549
+ {
8550
+ "epoch": 4.774244208873184,
8551
+ "grad_norm": 6.842727184295654,
8552
+ "learning_rate": 3.4061659274340144e-06,
8553
+ "loss": 0.0153,
8554
+ "step": 12160
8555
+ },
8556
+ {
8557
+ "epoch": 4.7781703965449545,
8558
+ "grad_norm": 0.5268575549125671,
8559
+ "learning_rate": 3.395259216171017e-06,
8560
+ "loss": 0.0591,
8561
+ "step": 12170
8562
+ },
8563
+ {
8564
+ "epoch": 4.782096584216726,
8565
+ "grad_norm": 2.5527589321136475,
8566
+ "learning_rate": 3.38435250490802e-06,
8567
+ "loss": 0.0297,
8568
+ "step": 12180
8569
+ },
8570
+ {
8571
+ "epoch": 4.786022771888496,
8572
+ "grad_norm": 0.009672361426055431,
8573
+ "learning_rate": 3.3734457936450234e-06,
8574
+ "loss": 0.0387,
8575
+ "step": 12190
8576
+ },
8577
+ {
8578
+ "epoch": 4.789948959560267,
8579
+ "grad_norm": 0.04015836492180824,
8580
+ "learning_rate": 3.362539082382026e-06,
8581
+ "loss": 0.0727,
8582
+ "step": 12200
8583
+ },
8584
+ {
8585
+ "epoch": 4.793875147232038,
8586
+ "grad_norm": 3.1617887020111084,
8587
+ "learning_rate": 3.351632371119029e-06,
8588
+ "loss": 0.1999,
8589
+ "step": 12210
8590
+ },
8591
+ {
8592
+ "epoch": 4.7978013349038084,
8593
+ "grad_norm": 2.205003499984741,
8594
+ "learning_rate": 3.3407256598560315e-06,
8595
+ "loss": 0.0305,
8596
+ "step": 12220
8597
+ },
8598
+ {
8599
+ "epoch": 4.801727522575579,
8600
+ "grad_norm": 3.2561254501342773,
8601
+ "learning_rate": 3.3298189485930344e-06,
8602
+ "loss": 0.0583,
8603
+ "step": 12230
8604
+ },
8605
+ {
8606
+ "epoch": 4.80565371024735,
8607
+ "grad_norm": 76.9802017211914,
8608
+ "learning_rate": 3.318912237330037e-06,
8609
+ "loss": 0.1491,
8610
+ "step": 12240
8611
+ },
8612
+ {
8613
+ "epoch": 4.809579897919121,
8614
+ "grad_norm": 1.1276025772094727,
8615
+ "learning_rate": 3.30800552606704e-06,
8616
+ "loss": 0.0356,
8617
+ "step": 12250
8618
+ },
8619
+ {
8620
+ "epoch": 4.813506085590891,
8621
+ "grad_norm": 53.68581771850586,
8622
+ "learning_rate": 3.297098814804043e-06,
8623
+ "loss": 0.188,
8624
+ "step": 12260
8625
+ },
8626
+ {
8627
+ "epoch": 4.817432273262662,
8628
+ "grad_norm": 15.075124740600586,
8629
+ "learning_rate": 3.286192103541046e-06,
8630
+ "loss": 0.2307,
8631
+ "step": 12270
8632
+ },
8633
+ {
8634
+ "epoch": 4.821358460934433,
8635
+ "grad_norm": 86.64392852783203,
8636
+ "learning_rate": 3.2752853922780485e-06,
8637
+ "loss": 0.3949,
8638
+ "step": 12280
8639
+ },
8640
+ {
8641
+ "epoch": 4.825284648606203,
8642
+ "grad_norm": 0.27656397223472595,
8643
+ "learning_rate": 3.2643786810150514e-06,
8644
+ "loss": 0.1548,
8645
+ "step": 12290
8646
+ },
8647
+ {
8648
+ "epoch": 4.829210836277974,
8649
+ "grad_norm": 0.37842291593551636,
8650
+ "learning_rate": 3.253471969752054e-06,
8651
+ "loss": 0.1401,
8652
+ "step": 12300
8653
+ },
8654
+ {
8655
+ "epoch": 4.833137023949745,
8656
+ "grad_norm": 0.10434360802173615,
8657
+ "learning_rate": 3.242565258489057e-06,
8658
+ "loss": 0.1165,
8659
+ "step": 12310
8660
+ },
8661
+ {
8662
+ "epoch": 4.8370632116215155,
8663
+ "grad_norm": 27.039905548095703,
8664
+ "learning_rate": 3.2316585472260595e-06,
8665
+ "loss": 0.0504,
8666
+ "step": 12320
8667
+ },
8668
+ {
8669
+ "epoch": 4.840989399293286,
8670
+ "grad_norm": 1.5135078430175781,
8671
+ "learning_rate": 3.2207518359630625e-06,
8672
+ "loss": 0.0124,
8673
+ "step": 12330
8674
+ },
8675
+ {
8676
+ "epoch": 4.844915586965057,
8677
+ "grad_norm": 36.74253463745117,
8678
+ "learning_rate": 3.2098451247000655e-06,
8679
+ "loss": 0.0477,
8680
+ "step": 12340
8681
+ },
8682
+ {
8683
+ "epoch": 4.848841774636828,
8684
+ "grad_norm": 1.7691023349761963,
8685
+ "learning_rate": 3.1989384134370685e-06,
8686
+ "loss": 0.0726,
8687
+ "step": 12350
8688
+ },
8689
+ {
8690
+ "epoch": 4.852767962308598,
8691
+ "grad_norm": 0.14499589800834656,
8692
+ "learning_rate": 3.1880317021740714e-06,
8693
+ "loss": 0.1447,
8694
+ "step": 12360
8695
+ },
8696
+ {
8697
+ "epoch": 4.856694149980369,
8698
+ "grad_norm": 5.988569736480713,
8699
+ "learning_rate": 3.177124990911074e-06,
8700
+ "loss": 0.4896,
8701
+ "step": 12370
8702
+ },
8703
+ {
8704
+ "epoch": 4.86062033765214,
8705
+ "grad_norm": 0.7254354953765869,
8706
+ "learning_rate": 3.166218279648077e-06,
8707
+ "loss": 0.032,
8708
+ "step": 12380
8709
+ },
8710
+ {
8711
+ "epoch": 4.86454652532391,
8712
+ "grad_norm": 72.24739074707031,
8713
+ "learning_rate": 3.1553115683850795e-06,
8714
+ "loss": 0.1767,
8715
+ "step": 12390
8716
+ },
8717
+ {
8718
+ "epoch": 4.868472712995681,
8719
+ "grad_norm": 0.319317102432251,
8720
+ "learning_rate": 3.1444048571220825e-06,
8721
+ "loss": 0.1528,
8722
+ "step": 12400
8723
+ },
8724
+ {
8725
+ "epoch": 4.872398900667452,
8726
+ "grad_norm": 0.17462460696697235,
8727
+ "learning_rate": 3.1334981458590855e-06,
8728
+ "loss": 0.2681,
8729
+ "step": 12410
8730
+ },
8731
+ {
8732
+ "epoch": 4.876325088339223,
8733
+ "grad_norm": 1.3914293050765991,
8734
+ "learning_rate": 3.1225914345960884e-06,
8735
+ "loss": 0.0907,
8736
+ "step": 12420
8737
+ },
8738
+ {
8739
+ "epoch": 4.880251276010993,
8740
+ "grad_norm": 1.5315345525741577,
8741
+ "learning_rate": 3.111684723333091e-06,
8742
+ "loss": 0.2091,
8743
+ "step": 12430
8744
+ },
8745
+ {
8746
+ "epoch": 4.884177463682764,
8747
+ "grad_norm": 1.6275572776794434,
8748
+ "learning_rate": 3.100778012070094e-06,
8749
+ "loss": 0.05,
8750
+ "step": 12440
8751
+ },
8752
+ {
8753
+ "epoch": 4.888103651354535,
8754
+ "grad_norm": 2.896657943725586,
8755
+ "learning_rate": 3.0898713008070965e-06,
8756
+ "loss": 0.0756,
8757
+ "step": 12450
8758
+ },
8759
+ {
8760
+ "epoch": 4.892029839026305,
8761
+ "grad_norm": 2.4801154136657715,
8762
+ "learning_rate": 3.0789645895440995e-06,
8763
+ "loss": 0.0365,
8764
+ "step": 12460
8765
+ },
8766
+ {
8767
+ "epoch": 4.895956026698077,
8768
+ "grad_norm": 0.2393597513437271,
8769
+ "learning_rate": 3.068057878281102e-06,
8770
+ "loss": 0.2035,
8771
+ "step": 12470
8772
+ },
8773
+ {
8774
+ "epoch": 4.899882214369847,
8775
+ "grad_norm": 2.543783187866211,
8776
+ "learning_rate": 3.057151167018105e-06,
8777
+ "loss": 0.106,
8778
+ "step": 12480
8779
+ },
8780
+ {
8781
+ "epoch": 4.9038084020416175,
8782
+ "grad_norm": 0.38256800174713135,
8783
+ "learning_rate": 3.046244455755108e-06,
8784
+ "loss": 0.5448,
8785
+ "step": 12490
8786
+ },
8787
+ {
8788
+ "epoch": 4.907734589713388,
8789
+ "grad_norm": 3.427389621734619,
8790
+ "learning_rate": 3.035337744492111e-06,
8791
+ "loss": 0.0586,
8792
+ "step": 12500
8793
+ },
8794
+ {
8795
+ "epoch": 4.911660777385159,
8796
+ "grad_norm": 42.854122161865234,
8797
+ "learning_rate": 3.024431033229114e-06,
8798
+ "loss": 0.1233,
8799
+ "step": 12510
8800
+ },
8801
+ {
8802
+ "epoch": 4.91558696505693,
8803
+ "grad_norm": 0.0015449525089934468,
8804
+ "learning_rate": 3.0135243219661165e-06,
8805
+ "loss": 0.2163,
8806
+ "step": 12520
8807
+ },
8808
+ {
8809
+ "epoch": 4.9195131527287,
8810
+ "grad_norm": 0.7005975246429443,
8811
+ "learning_rate": 3.0026176107031195e-06,
8812
+ "loss": 0.0893,
8813
+ "step": 12530
8814
+ },
8815
+ {
8816
+ "epoch": 4.9234393404004715,
8817
+ "grad_norm": 0.08260495960712433,
8818
+ "learning_rate": 2.991710899440122e-06,
8819
+ "loss": 0.0866,
8820
+ "step": 12540
8821
+ },
8822
+ {
8823
+ "epoch": 4.927365528072242,
8824
+ "grad_norm": 0.5770761370658875,
8825
+ "learning_rate": 2.980804188177125e-06,
8826
+ "loss": 0.0375,
8827
+ "step": 12550
8828
+ },
8829
+ {
8830
+ "epoch": 4.931291715744012,
8831
+ "grad_norm": 0.4166720509529114,
8832
+ "learning_rate": 2.969897476914128e-06,
8833
+ "loss": 0.0489,
8834
+ "step": 12560
8835
+ },
8836
+ {
8837
+ "epoch": 4.935217903415783,
8838
+ "grad_norm": 2.0105092525482178,
8839
+ "learning_rate": 2.958990765651131e-06,
8840
+ "loss": 0.0272,
8841
+ "step": 12570
8842
+ },
8843
+ {
8844
+ "epoch": 4.939144091087554,
8845
+ "grad_norm": 0.45052534341812134,
8846
+ "learning_rate": 2.9480840543881335e-06,
8847
+ "loss": 0.0322,
8848
+ "step": 12580
8849
+ },
8850
+ {
8851
+ "epoch": 4.943070278759325,
8852
+ "grad_norm": 3.5853307247161865,
8853
+ "learning_rate": 2.9371773431251365e-06,
8854
+ "loss": 0.17,
8855
+ "step": 12590
8856
+ },
8857
+ {
8858
+ "epoch": 4.946996466431095,
8859
+ "grad_norm": 0.05566776543855667,
8860
+ "learning_rate": 2.926270631862139e-06,
8861
+ "loss": 0.0193,
8862
+ "step": 12600
8863
+ },
8864
+ {
8865
+ "epoch": 4.950922654102866,
8866
+ "grad_norm": 79.56151580810547,
8867
+ "learning_rate": 2.915363920599142e-06,
8868
+ "loss": 0.0953,
8869
+ "step": 12610
8870
+ },
8871
+ {
8872
+ "epoch": 4.954848841774637,
8873
+ "grad_norm": 0.6497661471366882,
8874
+ "learning_rate": 2.9044572093361446e-06,
8875
+ "loss": 0.0283,
8876
+ "step": 12620
8877
+ },
8878
+ {
8879
+ "epoch": 4.958775029446407,
8880
+ "grad_norm": 0.005401146598160267,
8881
+ "learning_rate": 2.893550498073148e-06,
8882
+ "loss": 0.2703,
8883
+ "step": 12630
8884
+ },
8885
+ {
8886
+ "epoch": 4.962701217118179,
8887
+ "grad_norm": 0.07611243426799774,
8888
+ "learning_rate": 2.8826437868101505e-06,
8889
+ "loss": 0.2159,
8890
+ "step": 12640
8891
+ },
8892
+ {
8893
+ "epoch": 4.966627404789949,
8894
+ "grad_norm": 58.73968505859375,
8895
+ "learning_rate": 2.8717370755471535e-06,
8896
+ "loss": 0.2112,
8897
+ "step": 12650
8898
+ },
8899
+ {
8900
+ "epoch": 4.9705535924617195,
8901
+ "grad_norm": 0.06285121291875839,
8902
+ "learning_rate": 2.8608303642841565e-06,
8903
+ "loss": 0.2071,
8904
+ "step": 12660
8905
+ },
8906
+ {
8907
+ "epoch": 4.974479780133491,
8908
+ "grad_norm": 0.2181374430656433,
8909
+ "learning_rate": 2.849923653021159e-06,
8910
+ "loss": 0.1791,
8911
+ "step": 12670
8912
+ },
8913
+ {
8914
+ "epoch": 4.978405967805261,
8915
+ "grad_norm": 8.010193824768066,
8916
+ "learning_rate": 2.839016941758162e-06,
8917
+ "loss": 0.0213,
8918
+ "step": 12680
8919
+ },
8920
+ {
8921
+ "epoch": 4.982332155477032,
8922
+ "grad_norm": 36.710697174072266,
8923
+ "learning_rate": 2.8281102304951646e-06,
8924
+ "loss": 0.4201,
8925
+ "step": 12690
8926
+ },
8927
+ {
8928
+ "epoch": 4.986258343148803,
8929
+ "grad_norm": 0.3976873755455017,
8930
+ "learning_rate": 2.8172035192321676e-06,
8931
+ "loss": 0.1036,
8932
+ "step": 12700
8933
+ },
8934
+ {
8935
+ "epoch": 4.9901845308205734,
8936
+ "grad_norm": 0.006654525175690651,
8937
+ "learning_rate": 2.8062968079691705e-06,
8938
+ "loss": 0.0236,
8939
+ "step": 12710
8940
+ },
8941
+ {
8942
+ "epoch": 4.994110718492344,
8943
+ "grad_norm": 1.9231159687042236,
8944
+ "learning_rate": 2.7953900967061735e-06,
8945
+ "loss": 0.4431,
8946
+ "step": 12720
8947
+ },
8948
+ {
8949
+ "epoch": 4.998036906164114,
8950
+ "grad_norm": 0.06560490280389786,
8951
+ "learning_rate": 2.784483385443176e-06,
8952
+ "loss": 0.0113,
8953
+ "step": 12730
8954
+ },
8955
+ {
8956
+ "epoch": 5.0,
8957
+ "eval_loss": 0.21146626770496368,
8958
+ "eval_runtime": 11.3196,
8959
+ "eval_samples_per_second": 200.007,
8960
+ "eval_steps_per_second": 25.001,
8961
+ "step": 12735
8962
  }
8963
  ],
8964
  "logging_steps": 10,
 
8973
  "early_stopping_threshold": 0.0
8974
  },
8975
  "attributes": {
8976
+ "early_stopping_patience_counter": 2
8977
  }
8978
  },
8979
  "TrainerControl": {
 
8987
  "attributes": {}
8988
  }
8989
  },
8990
+ "total_flos": 2.8453099461666144e+16,
8991
  "train_batch_size": 8,
8992
  "trial_name": null,
8993
  "trial_params": null