ErrorAI commited on
Commit
8330ecb
·
verified ·
1 Parent(s): 96892db

Training in progress, step 1176, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ffc3dd1441ea37e14cb2f8b98057672647d0d450df7604b4d635950959f7cbd3
3
  size 36981072
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e82ddad86ac334ffad594328e555eeb2f2611b427d2fb920cf5ac34d9e794974
3
  size 36981072
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:00e23c6e1f9f7af9cefb6e2cc7376f66e881f65cc18fc3ecf2c020204c22cb05
3
  size 19859524
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:95b95ad303046b43abd66b860a905811dbad5ed4b33a144c4296caa2e42f9437
3
  size 19859524
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e6bf72a3087a879dfea44ed557b219ee20e7134a2aabbf9dfb05131aa246a97c
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4dc7943cea8ad7d13591d68000c924b350a90128d02ac6e3163ee8e139add986
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b18e73c121d8038b3ab751d116c71d47e2f4085ee070eaccc6af93f3bb04238b
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f75e367a8f7de08bfa82633d08c68150dc46bb7628dc56e91078e717a9e30144
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7501594726770147,
5
  "eval_steps": 500,
6
- "global_step": 882,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6181,6 +6181,2072 @@
6181
  "learning_rate": 1.4763424932128388e-05,
6182
  "loss": 0.6212,
6183
  "step": 882
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6184
  }
6185
  ],
6186
  "logging_steps": 1,
@@ -6195,12 +8261,12 @@
6195
  "should_evaluate": false,
6196
  "should_log": false,
6197
  "should_save": true,
6198
- "should_training_stop": false
6199
  },
6200
  "attributes": {}
6201
  }
6202
  },
6203
- "total_flos": 1.1450971508126515e+17,
6204
  "train_batch_size": 4,
6205
  "trial_name": null,
6206
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0004252604720392,
5
  "eval_steps": 500,
6
+ "global_step": 1176,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6181
  "learning_rate": 1.4763424932128388e-05,
6182
  "loss": 0.6212,
6183
  "step": 882
6184
+ },
6185
+ {
6186
+ "epoch": 0.7510099936210929,
6187
+ "grad_norm": 0.32501527667045593,
6188
+ "learning_rate": 1.4668381972599649e-05,
6189
+ "loss": 0.6416,
6190
+ "step": 883
6191
+ },
6192
+ {
6193
+ "epoch": 0.7518605145651711,
6194
+ "grad_norm": 0.31923580169677734,
6195
+ "learning_rate": 1.4573593314746293e-05,
6196
+ "loss": 0.6278,
6197
+ "step": 884
6198
+ },
6199
+ {
6200
+ "epoch": 0.7527110355092494,
6201
+ "grad_norm": 0.3235868811607361,
6202
+ "learning_rate": 1.4479059640815962e-05,
6203
+ "loss": 0.6789,
6204
+ "step": 885
6205
+ },
6206
+ {
6207
+ "epoch": 0.7535615564533277,
6208
+ "grad_norm": 0.3378104269504547,
6209
+ "learning_rate": 1.4384781631221112e-05,
6210
+ "loss": 0.6761,
6211
+ "step": 886
6212
+ },
6213
+ {
6214
+ "epoch": 0.7544120773974059,
6215
+ "grad_norm": 0.3208213448524475,
6216
+ "learning_rate": 1.4290759964533962e-05,
6217
+ "loss": 0.6583,
6218
+ "step": 887
6219
+ },
6220
+ {
6221
+ "epoch": 0.7552625983414841,
6222
+ "grad_norm": 0.3205471336841583,
6223
+ "learning_rate": 1.4196995317481748e-05,
6224
+ "loss": 0.6265,
6225
+ "step": 888
6226
+ },
6227
+ {
6228
+ "epoch": 0.7561131192855624,
6229
+ "grad_norm": 0.3536736071109772,
6230
+ "learning_rate": 1.4103488364941776e-05,
6231
+ "loss": 0.6643,
6232
+ "step": 889
6233
+ },
6234
+ {
6235
+ "epoch": 0.7569636402296407,
6236
+ "grad_norm": 0.33717280626296997,
6237
+ "learning_rate": 1.4010239779936535e-05,
6238
+ "loss": 0.6037,
6239
+ "step": 890
6240
+ },
6241
+ {
6242
+ "epoch": 0.7578141611737189,
6243
+ "grad_norm": 0.3463943302631378,
6244
+ "learning_rate": 1.391725023362897e-05,
6245
+ "loss": 0.6694,
6246
+ "step": 891
6247
+ },
6248
+ {
6249
+ "epoch": 0.7586646821177971,
6250
+ "grad_norm": 0.3252984881401062,
6251
+ "learning_rate": 1.3824520395317498e-05,
6252
+ "loss": 0.6439,
6253
+ "step": 892
6254
+ },
6255
+ {
6256
+ "epoch": 0.7595152030618754,
6257
+ "grad_norm": 0.3410145044326782,
6258
+ "learning_rate": 1.3732050932431344e-05,
6259
+ "loss": 0.6065,
6260
+ "step": 893
6261
+ },
6262
+ {
6263
+ "epoch": 0.7603657240059536,
6264
+ "grad_norm": 0.3252216577529907,
6265
+ "learning_rate": 1.3639842510525603e-05,
6266
+ "loss": 0.6637,
6267
+ "step": 894
6268
+ },
6269
+ {
6270
+ "epoch": 0.7612162449500319,
6271
+ "grad_norm": 0.32330164313316345,
6272
+ "learning_rate": 1.3547895793276561e-05,
6273
+ "loss": 0.6251,
6274
+ "step": 895
6275
+ },
6276
+ {
6277
+ "epoch": 0.7620667658941102,
6278
+ "grad_norm": 0.3421441614627838,
6279
+ "learning_rate": 1.3456211442476813e-05,
6280
+ "loss": 0.6146,
6281
+ "step": 896
6282
+ },
6283
+ {
6284
+ "epoch": 0.7629172868381884,
6285
+ "grad_norm": 0.3628736734390259,
6286
+ "learning_rate": 1.3364790118030618e-05,
6287
+ "loss": 0.6169,
6288
+ "step": 897
6289
+ },
6290
+ {
6291
+ "epoch": 0.7637678077822666,
6292
+ "grad_norm": 0.3343038856983185,
6293
+ "learning_rate": 1.3273632477949017e-05,
6294
+ "loss": 0.6101,
6295
+ "step": 898
6296
+ },
6297
+ {
6298
+ "epoch": 0.7646183287263448,
6299
+ "grad_norm": 0.4127245247364044,
6300
+ "learning_rate": 1.3182739178345233e-05,
6301
+ "loss": 0.6604,
6302
+ "step": 899
6303
+ },
6304
+ {
6305
+ "epoch": 0.7654688496704232,
6306
+ "grad_norm": 0.6632758975028992,
6307
+ "learning_rate": 1.309211087342982e-05,
6308
+ "loss": 0.5966,
6309
+ "step": 900
6310
+ },
6311
+ {
6312
+ "epoch": 0.7663193706145014,
6313
+ "grad_norm": 0.24257014691829681,
6314
+ "learning_rate": 1.3001748215506065e-05,
6315
+ "loss": 0.6016,
6316
+ "step": 901
6317
+ },
6318
+ {
6319
+ "epoch": 0.7671698915585796,
6320
+ "grad_norm": 0.2611919939517975,
6321
+ "learning_rate": 1.2911651854965178e-05,
6322
+ "loss": 0.628,
6323
+ "step": 902
6324
+ },
6325
+ {
6326
+ "epoch": 0.7680204125026578,
6327
+ "grad_norm": 0.2762000858783722,
6328
+ "learning_rate": 1.2821822440281783e-05,
6329
+ "loss": 0.6044,
6330
+ "step": 903
6331
+ },
6332
+ {
6333
+ "epoch": 0.7688709334467361,
6334
+ "grad_norm": 0.2796517312526703,
6335
+ "learning_rate": 1.273226061800904e-05,
6336
+ "loss": 0.6305,
6337
+ "step": 904
6338
+ },
6339
+ {
6340
+ "epoch": 0.7697214543908144,
6341
+ "grad_norm": 0.2846098840236664,
6342
+ "learning_rate": 1.2642967032774128e-05,
6343
+ "loss": 0.6548,
6344
+ "step": 905
6345
+ },
6346
+ {
6347
+ "epoch": 0.7705719753348926,
6348
+ "grad_norm": 0.28865575790405273,
6349
+ "learning_rate": 1.2553942327273605e-05,
6350
+ "loss": 0.6322,
6351
+ "step": 906
6352
+ },
6353
+ {
6354
+ "epoch": 0.7714224962789709,
6355
+ "grad_norm": 0.28172197937965393,
6356
+ "learning_rate": 1.2465187142268685e-05,
6357
+ "loss": 0.5971,
6358
+ "step": 907
6359
+ },
6360
+ {
6361
+ "epoch": 0.7722730172230491,
6362
+ "grad_norm": 0.2969709634780884,
6363
+ "learning_rate": 1.2376702116580763e-05,
6364
+ "loss": 0.6288,
6365
+ "step": 908
6366
+ },
6367
+ {
6368
+ "epoch": 0.7731235381671273,
6369
+ "grad_norm": 0.276475191116333,
6370
+ "learning_rate": 1.2288487887086681e-05,
6371
+ "loss": 0.6318,
6372
+ "step": 909
6373
+ },
6374
+ {
6375
+ "epoch": 0.7739740591112056,
6376
+ "grad_norm": 0.29293322563171387,
6377
+ "learning_rate": 1.2200545088714254e-05,
6378
+ "loss": 0.6459,
6379
+ "step": 910
6380
+ },
6381
+ {
6382
+ "epoch": 0.7748245800552839,
6383
+ "grad_norm": 0.291227251291275,
6384
+ "learning_rate": 1.2112874354437614e-05,
6385
+ "loss": 0.6064,
6386
+ "step": 911
6387
+ },
6388
+ {
6389
+ "epoch": 0.7756751009993621,
6390
+ "grad_norm": 0.31140944361686707,
6391
+ "learning_rate": 1.2025476315272744e-05,
6392
+ "loss": 0.6764,
6393
+ "step": 912
6394
+ },
6395
+ {
6396
+ "epoch": 0.7765256219434403,
6397
+ "grad_norm": 0.29568618535995483,
6398
+ "learning_rate": 1.1938351600272817e-05,
6399
+ "loss": 0.6456,
6400
+ "step": 913
6401
+ },
6402
+ {
6403
+ "epoch": 0.7773761428875186,
6404
+ "grad_norm": 0.3133503496646881,
6405
+ "learning_rate": 1.1851500836523816e-05,
6406
+ "loss": 0.6271,
6407
+ "step": 914
6408
+ },
6409
+ {
6410
+ "epoch": 0.7782266638315969,
6411
+ "grad_norm": 0.30188944935798645,
6412
+ "learning_rate": 1.1764924649139858e-05,
6413
+ "loss": 0.6469,
6414
+ "step": 915
6415
+ },
6416
+ {
6417
+ "epoch": 0.7790771847756751,
6418
+ "grad_norm": 0.30510157346725464,
6419
+ "learning_rate": 1.1678623661258864e-05,
6420
+ "loss": 0.6443,
6421
+ "step": 916
6422
+ },
6423
+ {
6424
+ "epoch": 0.7799277057197533,
6425
+ "grad_norm": 0.301517516374588,
6426
+ "learning_rate": 1.1592598494037898e-05,
6427
+ "loss": 0.626,
6428
+ "step": 917
6429
+ },
6430
+ {
6431
+ "epoch": 0.7807782266638316,
6432
+ "grad_norm": 0.31465768814086914,
6433
+ "learning_rate": 1.1506849766648886e-05,
6434
+ "loss": 0.6503,
6435
+ "step": 918
6436
+ },
6437
+ {
6438
+ "epoch": 0.7816287476079098,
6439
+ "grad_norm": 0.3222067952156067,
6440
+ "learning_rate": 1.1421378096273972e-05,
6441
+ "loss": 0.6937,
6442
+ "step": 919
6443
+ },
6444
+ {
6445
+ "epoch": 0.7824792685519881,
6446
+ "grad_norm": 0.30539044737815857,
6447
+ "learning_rate": 1.1336184098101221e-05,
6448
+ "loss": 0.6604,
6449
+ "step": 920
6450
+ },
6451
+ {
6452
+ "epoch": 0.7833297894960664,
6453
+ "grad_norm": 0.3119628429412842,
6454
+ "learning_rate": 1.1251268385320091e-05,
6455
+ "loss": 0.6394,
6456
+ "step": 921
6457
+ },
6458
+ {
6459
+ "epoch": 0.7841803104401446,
6460
+ "grad_norm": 0.306523859500885,
6461
+ "learning_rate": 1.1166631569117115e-05,
6462
+ "loss": 0.637,
6463
+ "step": 922
6464
+ },
6465
+ {
6466
+ "epoch": 0.7850308313842228,
6467
+ "grad_norm": 0.3049357533454895,
6468
+ "learning_rate": 1.1082274258671376e-05,
6469
+ "loss": 0.6671,
6470
+ "step": 923
6471
+ },
6472
+ {
6473
+ "epoch": 0.785881352328301,
6474
+ "grad_norm": 0.3031104803085327,
6475
+ "learning_rate": 1.0998197061150277e-05,
6476
+ "loss": 0.6483,
6477
+ "step": 924
6478
+ },
6479
+ {
6480
+ "epoch": 0.7867318732723794,
6481
+ "grad_norm": 0.3212115466594696,
6482
+ "learning_rate": 1.0914400581705037e-05,
6483
+ "loss": 0.6402,
6484
+ "step": 925
6485
+ },
6486
+ {
6487
+ "epoch": 0.7875823942164576,
6488
+ "grad_norm": 0.31629765033721924,
6489
+ "learning_rate": 1.083088542346638e-05,
6490
+ "loss": 0.653,
6491
+ "step": 926
6492
+ },
6493
+ {
6494
+ "epoch": 0.7884329151605358,
6495
+ "grad_norm": 0.3214990198612213,
6496
+ "learning_rate": 1.0747652187540253e-05,
6497
+ "loss": 0.6705,
6498
+ "step": 927
6499
+ },
6500
+ {
6501
+ "epoch": 0.789283436104614,
6502
+ "grad_norm": 0.3067534565925598,
6503
+ "learning_rate": 1.0664701473003397e-05,
6504
+ "loss": 0.653,
6505
+ "step": 928
6506
+ },
6507
+ {
6508
+ "epoch": 0.7901339570486923,
6509
+ "grad_norm": 0.32290220260620117,
6510
+ "learning_rate": 1.0582033876899127e-05,
6511
+ "loss": 0.6478,
6512
+ "step": 929
6513
+ },
6514
+ {
6515
+ "epoch": 0.7909844779927706,
6516
+ "grad_norm": 0.3029451072216034,
6517
+ "learning_rate": 1.0499649994232958e-05,
6518
+ "loss": 0.6453,
6519
+ "step": 930
6520
+ },
6521
+ {
6522
+ "epoch": 0.7918349989368488,
6523
+ "grad_norm": 0.3304339051246643,
6524
+ "learning_rate": 1.041755041796839e-05,
6525
+ "loss": 0.7113,
6526
+ "step": 931
6527
+ },
6528
+ {
6529
+ "epoch": 0.7926855198809271,
6530
+ "grad_norm": 0.32017937302589417,
6531
+ "learning_rate": 1.0335735739022568e-05,
6532
+ "loss": 0.6078,
6533
+ "step": 932
6534
+ },
6535
+ {
6536
+ "epoch": 0.7935360408250053,
6537
+ "grad_norm": 0.3028521239757538,
6538
+ "learning_rate": 1.0254206546262141e-05,
6539
+ "loss": 0.6831,
6540
+ "step": 933
6541
+ },
6542
+ {
6543
+ "epoch": 0.7943865617690835,
6544
+ "grad_norm": 0.3357234001159668,
6545
+ "learning_rate": 1.0172963426498866e-05,
6546
+ "loss": 0.6582,
6547
+ "step": 934
6548
+ },
6549
+ {
6550
+ "epoch": 0.7952370827131618,
6551
+ "grad_norm": 0.3475031554698944,
6552
+ "learning_rate": 1.009200696448554e-05,
6553
+ "loss": 0.6487,
6554
+ "step": 935
6555
+ },
6556
+ {
6557
+ "epoch": 0.7960876036572401,
6558
+ "grad_norm": 0.3296676278114319,
6559
+ "learning_rate": 1.0011337742911674e-05,
6560
+ "loss": 0.6466,
6561
+ "step": 936
6562
+ },
6563
+ {
6564
+ "epoch": 0.7969381246013183,
6565
+ "grad_norm": 0.3364199101924896,
6566
+ "learning_rate": 9.930956342399384e-06,
6567
+ "loss": 0.6709,
6568
+ "step": 937
6569
+ },
6570
+ {
6571
+ "epoch": 0.7977886455453965,
6572
+ "grad_norm": 0.3327937424182892,
6573
+ "learning_rate": 9.850863341499134e-06,
6574
+ "loss": 0.6581,
6575
+ "step": 938
6576
+ },
6577
+ {
6578
+ "epoch": 0.7986391664894747,
6579
+ "grad_norm": 0.33358824253082275,
6580
+ "learning_rate": 9.771059316685666e-06,
6581
+ "loss": 0.6086,
6582
+ "step": 939
6583
+ },
6584
+ {
6585
+ "epoch": 0.7994896874335531,
6586
+ "grad_norm": 0.33920568227767944,
6587
+ "learning_rate": 9.691544842353728e-06,
6588
+ "loss": 0.6441,
6589
+ "step": 940
6590
+ },
6591
+ {
6592
+ "epoch": 0.8003402083776313,
6593
+ "grad_norm": 0.3285887837409973,
6594
+ "learning_rate": 9.612320490814093e-06,
6595
+ "loss": 0.6728,
6596
+ "step": 941
6597
+ },
6598
+ {
6599
+ "epoch": 0.8011907293217095,
6600
+ "grad_norm": 0.3406343162059784,
6601
+ "learning_rate": 9.533386832289266e-06,
6602
+ "loss": 0.6358,
6603
+ "step": 942
6604
+ },
6605
+ {
6606
+ "epoch": 0.8020412502657878,
6607
+ "grad_norm": 0.33286091685295105,
6608
+ "learning_rate": 9.454744434909551e-06,
6609
+ "loss": 0.6777,
6610
+ "step": 943
6611
+ },
6612
+ {
6613
+ "epoch": 0.802891771209866,
6614
+ "grad_norm": 0.3307068943977356,
6615
+ "learning_rate": 9.37639386470882e-06,
6616
+ "loss": 0.6318,
6617
+ "step": 944
6618
+ },
6619
+ {
6620
+ "epoch": 0.8037422921539443,
6621
+ "grad_norm": 0.34263697266578674,
6622
+ "learning_rate": 9.298335685620546e-06,
6623
+ "loss": 0.607,
6624
+ "step": 945
6625
+ },
6626
+ {
6627
+ "epoch": 0.8045928130980226,
6628
+ "grad_norm": 0.3440447151660919,
6629
+ "learning_rate": 9.22057045947366e-06,
6630
+ "loss": 0.6929,
6631
+ "step": 946
6632
+ },
6633
+ {
6634
+ "epoch": 0.8054433340421008,
6635
+ "grad_norm": 0.384171724319458,
6636
+ "learning_rate": 9.143098745988532e-06,
6637
+ "loss": 0.6745,
6638
+ "step": 947
6639
+ },
6640
+ {
6641
+ "epoch": 0.806293854986179,
6642
+ "grad_norm": 0.34123048186302185,
6643
+ "learning_rate": 9.065921102773045e-06,
6644
+ "loss": 0.6201,
6645
+ "step": 948
6646
+ },
6647
+ {
6648
+ "epoch": 0.8071443759302572,
6649
+ "grad_norm": 0.40928083658218384,
6650
+ "learning_rate": 8.98903808531838e-06,
6651
+ "loss": 0.6848,
6652
+ "step": 949
6653
+ },
6654
+ {
6655
+ "epoch": 0.8079948968743356,
6656
+ "grad_norm": 0.619849681854248,
6657
+ "learning_rate": 8.912450246995214e-06,
6658
+ "loss": 0.6359,
6659
+ "step": 950
6660
+ },
6661
+ {
6662
+ "epoch": 0.8088454178184138,
6663
+ "grad_norm": 0.24706372618675232,
6664
+ "learning_rate": 8.836158139049583e-06,
6665
+ "loss": 0.5911,
6666
+ "step": 951
6667
+ },
6668
+ {
6669
+ "epoch": 0.809695938762492,
6670
+ "grad_norm": 0.2719581425189972,
6671
+ "learning_rate": 8.760162310599046e-06,
6672
+ "loss": 0.5919,
6673
+ "step": 952
6674
+ },
6675
+ {
6676
+ "epoch": 0.8105464597065702,
6677
+ "grad_norm": 0.27172034978866577,
6678
+ "learning_rate": 8.684463308628616e-06,
6679
+ "loss": 0.6026,
6680
+ "step": 953
6681
+ },
6682
+ {
6683
+ "epoch": 0.8113969806506485,
6684
+ "grad_norm": 0.29025357961654663,
6685
+ "learning_rate": 8.60906167798694e-06,
6686
+ "loss": 0.6429,
6687
+ "step": 954
6688
+ },
6689
+ {
6690
+ "epoch": 0.8122475015947268,
6691
+ "grad_norm": 0.2830718159675598,
6692
+ "learning_rate": 8.533957961382238e-06,
6693
+ "loss": 0.6626,
6694
+ "step": 955
6695
+ },
6696
+ {
6697
+ "epoch": 0.813098022538805,
6698
+ "grad_norm": 0.3042718768119812,
6699
+ "learning_rate": 8.45915269937856e-06,
6700
+ "loss": 0.6581,
6701
+ "step": 956
6702
+ },
6703
+ {
6704
+ "epoch": 0.8139485434828833,
6705
+ "grad_norm": 0.2902892529964447,
6706
+ "learning_rate": 8.384646430391718e-06,
6707
+ "loss": 0.6694,
6708
+ "step": 957
6709
+ },
6710
+ {
6711
+ "epoch": 0.8147990644269615,
6712
+ "grad_norm": 0.29462185502052307,
6713
+ "learning_rate": 8.31043969068559e-06,
6714
+ "loss": 0.6201,
6715
+ "step": 958
6716
+ },
6717
+ {
6718
+ "epoch": 0.8156495853710397,
6719
+ "grad_norm": 0.3070443868637085,
6720
+ "learning_rate": 8.236533014368098e-06,
6721
+ "loss": 0.6926,
6722
+ "step": 959
6723
+ },
6724
+ {
6725
+ "epoch": 0.816500106315118,
6726
+ "grad_norm": 0.2813088893890381,
6727
+ "learning_rate": 8.1629269333875e-06,
6728
+ "loss": 0.608,
6729
+ "step": 960
6730
+ },
6731
+ {
6732
+ "epoch": 0.8173506272591963,
6733
+ "grad_norm": 0.28812092542648315,
6734
+ "learning_rate": 8.08962197752844e-06,
6735
+ "loss": 0.5971,
6736
+ "step": 961
6737
+ },
6738
+ {
6739
+ "epoch": 0.8182011482032745,
6740
+ "grad_norm": 0.289363831281662,
6741
+ "learning_rate": 8.016618674408232e-06,
6742
+ "loss": 0.6114,
6743
+ "step": 962
6744
+ },
6745
+ {
6746
+ "epoch": 0.8190516691473527,
6747
+ "grad_norm": 0.31117239594459534,
6748
+ "learning_rate": 7.943917549473034e-06,
6749
+ "loss": 0.6626,
6750
+ "step": 963
6751
+ },
6752
+ {
6753
+ "epoch": 0.819902190091431,
6754
+ "grad_norm": 0.3049095869064331,
6755
+ "learning_rate": 7.871519125994014e-06,
6756
+ "loss": 0.6402,
6757
+ "step": 964
6758
+ },
6759
+ {
6760
+ "epoch": 0.8207527110355093,
6761
+ "grad_norm": 0.31192365288734436,
6762
+ "learning_rate": 7.79942392506367e-06,
6763
+ "loss": 0.6394,
6764
+ "step": 965
6765
+ },
6766
+ {
6767
+ "epoch": 0.8216032319795875,
6768
+ "grad_norm": 0.3218645751476288,
6769
+ "learning_rate": 7.727632465591995e-06,
6770
+ "loss": 0.6883,
6771
+ "step": 966
6772
+ },
6773
+ {
6774
+ "epoch": 0.8224537529236657,
6775
+ "grad_norm": 0.31128594279289246,
6776
+ "learning_rate": 7.656145264302822e-06,
6777
+ "loss": 0.6311,
6778
+ "step": 967
6779
+ },
6780
+ {
6781
+ "epoch": 0.823304273867744,
6782
+ "grad_norm": 0.3170647919178009,
6783
+ "learning_rate": 7.584962835730025e-06,
6784
+ "loss": 0.634,
6785
+ "step": 968
6786
+ },
6787
+ {
6788
+ "epoch": 0.8241547948118222,
6789
+ "grad_norm": 0.3140490651130676,
6790
+ "learning_rate": 7.514085692213907e-06,
6791
+ "loss": 0.6386,
6792
+ "step": 969
6793
+ },
6794
+ {
6795
+ "epoch": 0.8250053157559005,
6796
+ "grad_norm": 0.31740131974220276,
6797
+ "learning_rate": 7.443514343897395e-06,
6798
+ "loss": 0.6564,
6799
+ "step": 970
6800
+ },
6801
+ {
6802
+ "epoch": 0.8258558366999788,
6803
+ "grad_norm": 0.31138667464256287,
6804
+ "learning_rate": 7.373249298722506e-06,
6805
+ "loss": 0.6541,
6806
+ "step": 971
6807
+ },
6808
+ {
6809
+ "epoch": 0.826706357644057,
6810
+ "grad_norm": 0.31116360425949097,
6811
+ "learning_rate": 7.303291062426559e-06,
6812
+ "loss": 0.611,
6813
+ "step": 972
6814
+ },
6815
+ {
6816
+ "epoch": 0.8275568785881352,
6817
+ "grad_norm": 0.3222910165786743,
6818
+ "learning_rate": 7.23364013853865e-06,
6819
+ "loss": 0.6609,
6820
+ "step": 973
6821
+ },
6822
+ {
6823
+ "epoch": 0.8284073995322134,
6824
+ "grad_norm": 0.33877184987068176,
6825
+ "learning_rate": 7.164297028375911e-06,
6826
+ "loss": 0.6892,
6827
+ "step": 974
6828
+ },
6829
+ {
6830
+ "epoch": 0.8292579204762918,
6831
+ "grad_norm": 0.326835960149765,
6832
+ "learning_rate": 7.095262231040029e-06,
6833
+ "loss": 0.5931,
6834
+ "step": 975
6835
+ },
6836
+ {
6837
+ "epoch": 0.83010844142037,
6838
+ "grad_norm": 0.31615501642227173,
6839
+ "learning_rate": 7.02653624341354e-06,
6840
+ "loss": 0.5906,
6841
+ "step": 976
6842
+ },
6843
+ {
6844
+ "epoch": 0.8309589623644482,
6845
+ "grad_norm": 0.3255496323108673,
6846
+ "learning_rate": 6.9581195601563175e-06,
6847
+ "loss": 0.6243,
6848
+ "step": 977
6849
+ },
6850
+ {
6851
+ "epoch": 0.8318094833085264,
6852
+ "grad_norm": 0.3078942894935608,
6853
+ "learning_rate": 6.890012673702028e-06,
6854
+ "loss": 0.6353,
6855
+ "step": 978
6856
+ },
6857
+ {
6858
+ "epoch": 0.8326600042526047,
6859
+ "grad_norm": 0.3214848041534424,
6860
+ "learning_rate": 6.8222160742544895e-06,
6861
+ "loss": 0.6501,
6862
+ "step": 979
6863
+ },
6864
+ {
6865
+ "epoch": 0.833510525196683,
6866
+ "grad_norm": 0.3080413341522217,
6867
+ "learning_rate": 6.754730249784269e-06,
6868
+ "loss": 0.6749,
6869
+ "step": 980
6870
+ },
6871
+ {
6872
+ "epoch": 0.8343610461407612,
6873
+ "grad_norm": 0.3155469298362732,
6874
+ "learning_rate": 6.687555686025071e-06,
6875
+ "loss": 0.6513,
6876
+ "step": 981
6877
+ },
6878
+ {
6879
+ "epoch": 0.8352115670848395,
6880
+ "grad_norm": 0.3147723972797394,
6881
+ "learning_rate": 6.6206928664703076e-06,
6882
+ "loss": 0.6342,
6883
+ "step": 982
6884
+ },
6885
+ {
6886
+ "epoch": 0.8360620880289177,
6887
+ "grad_norm": 0.3308815062046051,
6888
+ "learning_rate": 6.554142272369562e-06,
6889
+ "loss": 0.6499,
6890
+ "step": 983
6891
+ },
6892
+ {
6893
+ "epoch": 0.8369126089729959,
6894
+ "grad_norm": 0.33099743723869324,
6895
+ "learning_rate": 6.487904382725191e-06,
6896
+ "loss": 0.6842,
6897
+ "step": 984
6898
+ },
6899
+ {
6900
+ "epoch": 0.8377631299170742,
6901
+ "grad_norm": 0.3191700875759125,
6902
+ "learning_rate": 6.421979674288797e-06,
6903
+ "loss": 0.6083,
6904
+ "step": 985
6905
+ },
6906
+ {
6907
+ "epoch": 0.8386136508611525,
6908
+ "grad_norm": 0.3238374888896942,
6909
+ "learning_rate": 6.356368621557884e-06,
6910
+ "loss": 0.649,
6911
+ "step": 986
6912
+ },
6913
+ {
6914
+ "epoch": 0.8394641718052307,
6915
+ "grad_norm": 0.33162933588027954,
6916
+ "learning_rate": 6.291071696772361e-06,
6917
+ "loss": 0.6485,
6918
+ "step": 987
6919
+ },
6920
+ {
6921
+ "epoch": 0.8403146927493089,
6922
+ "grad_norm": 0.3484635055065155,
6923
+ "learning_rate": 6.226089369911209e-06,
6924
+ "loss": 0.6364,
6925
+ "step": 988
6926
+ },
6927
+ {
6928
+ "epoch": 0.8411652136933871,
6929
+ "grad_norm": 0.31507810950279236,
6930
+ "learning_rate": 6.161422108689035e-06,
6931
+ "loss": 0.6333,
6932
+ "step": 989
6933
+ },
6934
+ {
6935
+ "epoch": 0.8420157346374655,
6936
+ "grad_norm": 0.34592968225479126,
6937
+ "learning_rate": 6.0970703785527885e-06,
6938
+ "loss": 0.6297,
6939
+ "step": 990
6940
+ },
6941
+ {
6942
+ "epoch": 0.8428662555815437,
6943
+ "grad_norm": 0.34727707505226135,
6944
+ "learning_rate": 6.033034642678298e-06,
6945
+ "loss": 0.643,
6946
+ "step": 991
6947
+ },
6948
+ {
6949
+ "epoch": 0.8437167765256219,
6950
+ "grad_norm": 0.3230702579021454,
6951
+ "learning_rate": 5.969315361967087e-06,
6952
+ "loss": 0.6469,
6953
+ "step": 992
6954
+ },
6955
+ {
6956
+ "epoch": 0.8445672974697002,
6957
+ "grad_norm": 0.326414555311203,
6958
+ "learning_rate": 5.905912995042895e-06,
6959
+ "loss": 0.632,
6960
+ "step": 993
6961
+ },
6962
+ {
6963
+ "epoch": 0.8454178184137784,
6964
+ "grad_norm": 0.35592177510261536,
6965
+ "learning_rate": 5.842827998248496e-06,
6966
+ "loss": 0.6419,
6967
+ "step": 994
6968
+ },
6969
+ {
6970
+ "epoch": 0.8462683393578567,
6971
+ "grad_norm": 0.340466171503067,
6972
+ "learning_rate": 5.780060825642358e-06,
6973
+ "loss": 0.6777,
6974
+ "step": 995
6975
+ },
6976
+ {
6977
+ "epoch": 0.847118860301935,
6978
+ "grad_norm": 0.3180592954158783,
6979
+ "learning_rate": 5.71761192899537e-06,
6980
+ "loss": 0.6048,
6981
+ "step": 996
6982
+ },
6983
+ {
6984
+ "epoch": 0.8479693812460132,
6985
+ "grad_norm": 0.3615611493587494,
6986
+ "learning_rate": 5.655481757787651e-06,
6987
+ "loss": 0.6771,
6988
+ "step": 997
6989
+ },
6990
+ {
6991
+ "epoch": 0.8488199021900914,
6992
+ "grad_norm": 0.3619909882545471,
6993
+ "learning_rate": 5.5936707592052274e-06,
6994
+ "loss": 0.6663,
6995
+ "step": 998
6996
+ },
6997
+ {
6998
+ "epoch": 0.8496704231341696,
6999
+ "grad_norm": 0.3606683909893036,
7000
+ "learning_rate": 5.532179378136904e-06,
7001
+ "loss": 0.6028,
7002
+ "step": 999
7003
+ },
7004
+ {
7005
+ "epoch": 0.850520944078248,
7006
+ "grad_norm": 0.6209678649902344,
7007
+ "learning_rate": 5.471008057170973e-06,
7008
+ "loss": 0.544,
7009
+ "step": 1000
7010
+ },
7011
+ {
7012
+ "epoch": 0.8513714650223262,
7013
+ "grad_norm": 0.23854555189609528,
7014
+ "learning_rate": 5.410157236592111e-06,
7015
+ "loss": 0.562,
7016
+ "step": 1001
7017
+ },
7018
+ {
7019
+ "epoch": 0.8522219859664044,
7020
+ "grad_norm": 0.2729296088218689,
7021
+ "learning_rate": 5.3496273543781396e-06,
7022
+ "loss": 0.6074,
7023
+ "step": 1002
7024
+ },
7025
+ {
7026
+ "epoch": 0.8530725069104826,
7027
+ "grad_norm": 0.27674445509910583,
7028
+ "learning_rate": 5.289418846196931e-06,
7029
+ "loss": 0.6595,
7030
+ "step": 1003
7031
+ },
7032
+ {
7033
+ "epoch": 0.8539230278545609,
7034
+ "grad_norm": 0.2779724597930908,
7035
+ "learning_rate": 5.229532145403226e-06,
7036
+ "loss": 0.6383,
7037
+ "step": 1004
7038
+ },
7039
+ {
7040
+ "epoch": 0.8547735487986392,
7041
+ "grad_norm": 0.2887398600578308,
7042
+ "learning_rate": 5.1699676830355595e-06,
7043
+ "loss": 0.6396,
7044
+ "step": 1005
7045
+ },
7046
+ {
7047
+ "epoch": 0.8556240697427174,
7048
+ "grad_norm": 0.2952885925769806,
7049
+ "learning_rate": 5.110725887813089e-06,
7050
+ "loss": 0.7069,
7051
+ "step": 1006
7052
+ },
7053
+ {
7054
+ "epoch": 0.8564745906867957,
7055
+ "grad_norm": 0.2868542969226837,
7056
+ "learning_rate": 5.051807186132623e-06,
7057
+ "loss": 0.6296,
7058
+ "step": 1007
7059
+ },
7060
+ {
7061
+ "epoch": 0.8573251116308739,
7062
+ "grad_norm": 0.28352710604667664,
7063
+ "learning_rate": 4.993212002065411e-06,
7064
+ "loss": 0.625,
7065
+ "step": 1008
7066
+ },
7067
+ {
7068
+ "epoch": 0.8581756325749521,
7069
+ "grad_norm": 0.30322712659835815,
7070
+ "learning_rate": 4.934940757354223e-06,
7071
+ "loss": 0.6734,
7072
+ "step": 1009
7073
+ },
7074
+ {
7075
+ "epoch": 0.8590261535190304,
7076
+ "grad_norm": 0.3017674386501312,
7077
+ "learning_rate": 4.8769938714102015e-06,
7078
+ "loss": 0.6175,
7079
+ "step": 1010
7080
+ },
7081
+ {
7082
+ "epoch": 0.8598766744631087,
7083
+ "grad_norm": 0.2911052405834198,
7084
+ "learning_rate": 4.819371761309937e-06,
7085
+ "loss": 0.6666,
7086
+ "step": 1011
7087
+ },
7088
+ {
7089
+ "epoch": 0.8607271954071869,
7090
+ "grad_norm": 0.2917759418487549,
7091
+ "learning_rate": 4.762074841792391e-06,
7092
+ "loss": 0.6376,
7093
+ "step": 1012
7094
+ },
7095
+ {
7096
+ "epoch": 0.8615777163512651,
7097
+ "grad_norm": 0.305550217628479,
7098
+ "learning_rate": 4.705103525255983e-06,
7099
+ "loss": 0.6405,
7100
+ "step": 1013
7101
+ },
7102
+ {
7103
+ "epoch": 0.8624282372953433,
7104
+ "grad_norm": 0.28329166769981384,
7105
+ "learning_rate": 4.648458221755531e-06,
7106
+ "loss": 0.5857,
7107
+ "step": 1014
7108
+ },
7109
+ {
7110
+ "epoch": 0.8632787582394217,
7111
+ "grad_norm": 0.3194465935230255,
7112
+ "learning_rate": 4.592139338999413e-06,
7113
+ "loss": 0.6446,
7114
+ "step": 1015
7115
+ },
7116
+ {
7117
+ "epoch": 0.8641292791834999,
7118
+ "grad_norm": 0.3141101002693176,
7119
+ "learning_rate": 4.53614728234652e-06,
7120
+ "loss": 0.6597,
7121
+ "step": 1016
7122
+ },
7123
+ {
7124
+ "epoch": 0.8649798001275781,
7125
+ "grad_norm": 0.2985946238040924,
7126
+ "learning_rate": 4.480482454803409e-06,
7127
+ "loss": 0.6309,
7128
+ "step": 1017
7129
+ },
7130
+ {
7131
+ "epoch": 0.8658303210716564,
7132
+ "grad_norm": 0.3038308918476105,
7133
+ "learning_rate": 4.425145257021407e-06,
7134
+ "loss": 0.6476,
7135
+ "step": 1018
7136
+ },
7137
+ {
7138
+ "epoch": 0.8666808420157346,
7139
+ "grad_norm": 0.3121652603149414,
7140
+ "learning_rate": 4.370136087293658e-06,
7141
+ "loss": 0.6613,
7142
+ "step": 1019
7143
+ },
7144
+ {
7145
+ "epoch": 0.8675313629598129,
7146
+ "grad_norm": 0.31806936860084534,
7147
+ "learning_rate": 4.3154553415523435e-06,
7148
+ "loss": 0.669,
7149
+ "step": 1020
7150
+ },
7151
+ {
7152
+ "epoch": 0.8683818839038911,
7153
+ "grad_norm": 0.3062193989753723,
7154
+ "learning_rate": 4.261103413365758e-06,
7155
+ "loss": 0.6823,
7156
+ "step": 1021
7157
+ },
7158
+ {
7159
+ "epoch": 0.8692324048479694,
7160
+ "grad_norm": 0.2995758056640625,
7161
+ "learning_rate": 4.207080693935556e-06,
7162
+ "loss": 0.5908,
7163
+ "step": 1022
7164
+ },
7165
+ {
7166
+ "epoch": 0.8700829257920476,
7167
+ "grad_norm": 0.31240278482437134,
7168
+ "learning_rate": 4.153387572093836e-06,
7169
+ "loss": 0.6536,
7170
+ "step": 1023
7171
+ },
7172
+ {
7173
+ "epoch": 0.8709334467361258,
7174
+ "grad_norm": 0.29285261034965515,
7175
+ "learning_rate": 4.100024434300437e-06,
7176
+ "loss": 0.5865,
7177
+ "step": 1024
7178
+ },
7179
+ {
7180
+ "epoch": 0.8717839676802042,
7181
+ "grad_norm": 0.30669569969177246,
7182
+ "learning_rate": 4.046991664640081e-06,
7183
+ "loss": 0.657,
7184
+ "step": 1025
7185
+ },
7186
+ {
7187
+ "epoch": 0.8726344886242824,
7188
+ "grad_norm": 0.3080507218837738,
7189
+ "learning_rate": 3.994289644819682e-06,
7190
+ "loss": 0.6843,
7191
+ "step": 1026
7192
+ },
7193
+ {
7194
+ "epoch": 0.8734850095683606,
7195
+ "grad_norm": 0.3329055905342102,
7196
+ "learning_rate": 3.941918754165519e-06,
7197
+ "loss": 0.6768,
7198
+ "step": 1027
7199
+ },
7200
+ {
7201
+ "epoch": 0.8743355305124388,
7202
+ "grad_norm": 0.3102298080921173,
7203
+ "learning_rate": 3.889879369620591e-06,
7204
+ "loss": 0.6481,
7205
+ "step": 1028
7206
+ },
7207
+ {
7208
+ "epoch": 0.8751860514565171,
7209
+ "grad_norm": 0.3252778947353363,
7210
+ "learning_rate": 3.838171865741813e-06,
7211
+ "loss": 0.6475,
7212
+ "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 0.8760365724005954,
7216
+ "grad_norm": 0.3287936747074127,
7217
+ "learning_rate": 3.786796614697413e-06,
7218
+ "loss": 0.6508,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 0.8768870933446736,
7223
+ "grad_norm": 0.3356083631515503,
7224
+ "learning_rate": 3.735753986264162e-06,
7225
+ "loss": 0.6309,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 0.8777376142887519,
7230
+ "grad_norm": 0.32422903180122375,
7231
+ "learning_rate": 3.6850443478247953e-06,
7232
+ "loss": 0.6436,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 0.8785881352328301,
7237
+ "grad_norm": 0.3286559581756592,
7238
+ "learning_rate": 3.634668064365304e-06,
7239
+ "loss": 0.6278,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 0.8794386561769083,
7244
+ "grad_norm": 0.3390061557292938,
7245
+ "learning_rate": 3.5846254984723605e-06,
7246
+ "loss": 0.7267,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 0.8802891771209866,
7251
+ "grad_norm": 0.29817309975624084,
7252
+ "learning_rate": 3.5349170103306515e-06,
7253
+ "loss": 0.5605,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 0.8811396980650649,
7258
+ "grad_norm": 0.334392786026001,
7259
+ "learning_rate": 3.485542957720339e-06,
7260
+ "loss": 0.6439,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 0.8819902190091431,
7265
+ "grad_norm": 0.3293307423591614,
7266
+ "learning_rate": 3.4365036960144647e-06,
7267
+ "loss": 0.5955,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 0.8828407399532213,
7272
+ "grad_norm": 0.33913591504096985,
7273
+ "learning_rate": 3.3877995781763704e-06,
7274
+ "loss": 0.6884,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 0.8836912608972995,
7279
+ "grad_norm": 0.34623920917510986,
7280
+ "learning_rate": 3.3394309547572055e-06,
7281
+ "loss": 0.6698,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 0.8845417818413779,
7286
+ "grad_norm": 0.3281223773956299,
7287
+ "learning_rate": 3.29139817389334e-06,
7288
+ "loss": 0.6039,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 0.8853923027854561,
7293
+ "grad_norm": 0.33946382999420166,
7294
+ "learning_rate": 3.243701581303937e-06,
7295
+ "loss": 0.6989,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 0.8862428237295343,
7300
+ "grad_norm": 0.3334444463253021,
7301
+ "learning_rate": 3.1963415202883817e-06,
7302
+ "loss": 0.6411,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 0.8870933446736126,
7307
+ "grad_norm": 0.33876511454582214,
7308
+ "learning_rate": 3.1493183317238885e-06,
7309
+ "loss": 0.6504,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 0.8879438656176908,
7314
+ "grad_norm": 0.35493630170822144,
7315
+ "learning_rate": 3.1026323540629676e-06,
7316
+ "loss": 0.6613,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 0.8887943865617691,
7321
+ "grad_norm": 0.34328144788742065,
7322
+ "learning_rate": 3.056283923331077e-06,
7323
+ "loss": 0.6736,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 0.8896449075058473,
7328
+ "grad_norm": 0.37152862548828125,
7329
+ "learning_rate": 3.0102733731241116e-06,
7330
+ "loss": 0.6827,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 0.8904954284499256,
7335
+ "grad_norm": 0.359235554933548,
7336
+ "learning_rate": 2.9646010346061013e-06,
7337
+ "loss": 0.5788,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 0.8913459493940038,
7342
+ "grad_norm": 0.3687358498573303,
7343
+ "learning_rate": 2.919267236506723e-06,
7344
+ "loss": 0.6111,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 0.892196470338082,
7349
+ "grad_norm": 0.3757440745830536,
7350
+ "learning_rate": 2.8742723051190246e-06,
7351
+ "loss": 0.6099,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 0.8930469912821604,
7356
+ "grad_norm": 0.5482544898986816,
7357
+ "learning_rate": 2.8296165642970108e-06,
7358
+ "loss": 0.5869,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 0.8938975122262386,
7363
+ "grad_norm": 0.2548101544380188,
7364
+ "learning_rate": 2.7853003354533556e-06,
7365
+ "loss": 0.6081,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 0.8947480331703168,
7370
+ "grad_norm": 0.28014668822288513,
7371
+ "learning_rate": 2.7413239375570832e-06,
7372
+ "loss": 0.5798,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 0.895598554114395,
7377
+ "grad_norm": 0.2735235095024109,
7378
+ "learning_rate": 2.697687687131234e-06,
7379
+ "loss": 0.6342,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 0.8964490750584733,
7384
+ "grad_norm": 0.280996173620224,
7385
+ "learning_rate": 2.65439189825063e-06,
7386
+ "loss": 0.656,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 0.8972995960025516,
7391
+ "grad_norm": 0.28959381580352783,
7392
+ "learning_rate": 2.6114368825395975e-06,
7393
+ "loss": 0.6531,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 0.8981501169466298,
7398
+ "grad_norm": 0.2938001751899719,
7399
+ "learning_rate": 2.5688229491697357e-06,
7400
+ "loss": 0.6901,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 0.899000637890708,
7405
+ "grad_norm": 0.2926790714263916,
7406
+ "learning_rate": 2.5265504048576473e-06,
7407
+ "loss": 0.6705,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 0.8998511588347863,
7412
+ "grad_norm": 0.3077324628829956,
7413
+ "learning_rate": 2.48461955386281e-06,
7414
+ "loss": 0.6255,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 0.9007016797788645,
7419
+ "grad_norm": 0.3055940866470337,
7420
+ "learning_rate": 2.4430306979853047e-06,
7421
+ "loss": 0.643,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 0.9015522007229428,
7426
+ "grad_norm": 0.3011234998703003,
7427
+ "learning_rate": 2.4017841365637005e-06,
7428
+ "loss": 0.6488,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 0.9024027216670211,
7433
+ "grad_norm": 0.2801249027252197,
7434
+ "learning_rate": 2.360880166472862e-06,
7435
+ "loss": 0.6099,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 0.9032532426110993,
7440
+ "grad_norm": 0.28682729601860046,
7441
+ "learning_rate": 2.3203190821218525e-06,
7442
+ "loss": 0.6104,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 0.9041037635551775,
7447
+ "grad_norm": 0.30458736419677734,
7448
+ "learning_rate": 2.280101175451771e-06,
7449
+ "loss": 0.6631,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 0.9049542844992557,
7454
+ "grad_norm": 0.3022899627685547,
7455
+ "learning_rate": 2.2402267359336872e-06,
7456
+ "loss": 0.5977,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 0.9058048054433341,
7461
+ "grad_norm": 0.3096393346786499,
7462
+ "learning_rate": 2.200696050566525e-06,
7463
+ "loss": 0.6303,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.9066553263874123,
7468
+ "grad_norm": 0.3267126977443695,
7469
+ "learning_rate": 2.1615094038750396e-06,
7470
+ "loss": 0.6633,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.9075058473314905,
7475
+ "grad_norm": 0.31724464893341064,
7476
+ "learning_rate": 2.122667077907731e-06,
7477
+ "loss": 0.7064,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 0.9083563682755688,
7482
+ "grad_norm": 0.31232479214668274,
7483
+ "learning_rate": 2.0841693522348218e-06,
7484
+ "loss": 0.6281,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 0.909206889219647,
7489
+ "grad_norm": 0.3088105320930481,
7490
+ "learning_rate": 2.0460165039462686e-06,
7491
+ "loss": 0.6261,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 0.9100574101637253,
7496
+ "grad_norm": 0.32464417815208435,
7497
+ "learning_rate": 2.008208807649725e-06,
7498
+ "loss": 0.6309,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 0.9109079311078035,
7503
+ "grad_norm": 0.31593137979507446,
7504
+ "learning_rate": 1.9707465354686205e-06,
7505
+ "loss": 0.6712,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 0.9117584520518818,
7510
+ "grad_norm": 0.31863364577293396,
7511
+ "learning_rate": 1.9336299570401393e-06,
7512
+ "loss": 0.6461,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 0.91260897299596,
7517
+ "grad_norm": 0.31302958726882935,
7518
+ "learning_rate": 1.8968593395133405e-06,
7519
+ "loss": 0.6243,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 0.9134594939400382,
7524
+ "grad_norm": 0.3122914433479309,
7525
+ "learning_rate": 1.8604349475471905e-06,
7526
+ "loss": 0.6707,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 0.9143100148841166,
7531
+ "grad_norm": 0.329847514629364,
7532
+ "learning_rate": 1.8243570433086831e-06,
7533
+ "loss": 0.7134,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 0.9151605358281948,
7538
+ "grad_norm": 0.3198718726634979,
7539
+ "learning_rate": 1.7886258864709239e-06,
7540
+ "loss": 0.6754,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 0.916011056772273,
7545
+ "grad_norm": 0.33064860105514526,
7546
+ "learning_rate": 1.753241734211314e-06,
7547
+ "loss": 0.6347,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 0.9168615777163512,
7552
+ "grad_norm": 0.322177529335022,
7553
+ "learning_rate": 1.7182048412096307e-06,
7554
+ "loss": 0.6491,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 0.9177120986604295,
7559
+ "grad_norm": 0.3152576982975006,
7560
+ "learning_rate": 1.6835154596462621e-06,
7561
+ "loss": 0.6448,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 0.9185626196045078,
7566
+ "grad_norm": 0.3428654074668884,
7567
+ "learning_rate": 1.6491738392003187e-06,
7568
+ "loss": 0.6187,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 0.919413140548586,
7573
+ "grad_norm": 0.32502835988998413,
7574
+ "learning_rate": 1.6151802270479355e-06,
7575
+ "loss": 0.6161,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 0.9202636614926643,
7580
+ "grad_norm": 0.3320343792438507,
7581
+ "learning_rate": 1.5815348678603792e-06,
7582
+ "loss": 0.667,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 0.9211141824367425,
7587
+ "grad_norm": 0.3216160535812378,
7588
+ "learning_rate": 1.548238003802377e-06,
7589
+ "loss": 0.6874,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 0.9219647033808207,
7594
+ "grad_norm": 0.325003445148468,
7595
+ "learning_rate": 1.5152898745303123e-06,
7596
+ "loss": 0.6607,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 0.922815224324899,
7601
+ "grad_norm": 0.3372570872306824,
7602
+ "learning_rate": 1.4826907171905546e-06,
7603
+ "loss": 0.6605,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 0.9236657452689773,
7608
+ "grad_norm": 0.3317967653274536,
7609
+ "learning_rate": 1.45044076641771e-06,
7610
+ "loss": 0.6208,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.9245162662130555,
7615
+ "grad_norm": 0.33367931842803955,
7616
+ "learning_rate": 1.4185402543329396e-06,
7617
+ "loss": 0.6562,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.9253667871571337,
7622
+ "grad_norm": 0.31913578510284424,
7623
+ "learning_rate": 1.3869894105423109e-06,
7624
+ "loss": 0.6753,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.926217308101212,
7629
+ "grad_norm": 0.3329998552799225,
7630
+ "learning_rate": 1.3557884621351213e-06,
7631
+ "loss": 0.6742,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.9270678290452903,
7636
+ "grad_norm": 0.3438052833080292,
7637
+ "learning_rate": 1.3249376336822883e-06,
7638
+ "loss": 0.6314,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.9279183499893685,
7643
+ "grad_norm": 0.3445602357387543,
7644
+ "learning_rate": 1.2944371472346838e-06,
7645
+ "loss": 0.6325,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.9287688709334467,
7650
+ "grad_norm": 0.3479834794998169,
7651
+ "learning_rate": 1.264287222321614e-06,
7652
+ "loss": 0.6958,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.929619391877525,
7657
+ "grad_norm": 0.34561192989349365,
7658
+ "learning_rate": 1.2344880759491585e-06,
7659
+ "loss": 0.6485,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.9304699128216032,
7664
+ "grad_norm": 0.32325616478919983,
7665
+ "learning_rate": 1.205039922598672e-06,
7666
+ "loss": 0.6593,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.9313204337656815,
7671
+ "grad_norm": 0.37606281042099,
7672
+ "learning_rate": 1.1759429742251749e-06,
7673
+ "loss": 0.6598,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.9321709547097597,
7678
+ "grad_norm": 0.33404406905174255,
7679
+ "learning_rate": 1.147197440255926e-06,
7680
+ "loss": 0.642,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.933021475653838,
7685
+ "grad_norm": 0.3421410322189331,
7686
+ "learning_rate": 1.1188035275887965e-06,
7687
+ "loss": 0.6384,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.9338719965979162,
7692
+ "grad_norm": 0.35476282238960266,
7693
+ "learning_rate": 1.0907614405908816e-06,
7694
+ "loss": 0.6603,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.9347225175419944,
7699
+ "grad_norm": 0.37484419345855713,
7700
+ "learning_rate": 1.063071381096964e-06,
7701
+ "loss": 0.5992,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.9355730384860728,
7706
+ "grad_norm": 0.5027537941932678,
7707
+ "learning_rate": 1.035733548408091e-06,
7708
+ "loss": 0.6615,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.936423559430151,
7713
+ "grad_norm": 0.254710853099823,
7714
+ "learning_rate": 1.0087481392901331e-06,
7715
+ "loss": 0.6408,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.9372740803742292,
7720
+ "grad_norm": 0.27126064896583557,
7721
+ "learning_rate": 9.821153479723788e-07,
7722
+ "loss": 0.606,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.9381246013183074,
7727
+ "grad_norm": 0.2831709086894989,
7728
+ "learning_rate": 9.558353661461072e-07,
7729
+ "loss": 0.634,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.9389751222623857,
7734
+ "grad_norm": 0.30248603224754333,
7735
+ "learning_rate": 9.299083829632516e-07,
7736
+ "loss": 0.7414,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.939825643206464,
7741
+ "grad_norm": 0.2874879539012909,
7742
+ "learning_rate": 9.043345850349939e-07,
7743
+ "loss": 0.6089,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.9406761641505422,
7748
+ "grad_norm": 0.28575336933135986,
7749
+ "learning_rate": 8.791141564304495e-07,
7750
+ "loss": 0.6352,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.9415266850946205,
7755
+ "grad_norm": 0.29282501339912415,
7756
+ "learning_rate": 8.542472786753408e-07,
7757
+ "loss": 0.651,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.9423772060386987,
7762
+ "grad_norm": 0.2857988476753235,
7763
+ "learning_rate": 8.297341307506645e-07,
7764
+ "loss": 0.612,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.9432277269827769,
7769
+ "grad_norm": 0.28160417079925537,
7770
+ "learning_rate": 8.055748890914483e-07,
7771
+ "loss": 0.6208,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.9440782479268552,
7776
+ "grad_norm": 0.27699196338653564,
7777
+ "learning_rate": 7.817697275854296e-07,
7778
+ "loss": 0.5592,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.9449287688709335,
7783
+ "grad_norm": 0.3014472424983978,
7784
+ "learning_rate": 7.583188175718625e-07,
7785
+ "loss": 0.6837,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.9457792898150117,
7790
+ "grad_norm": 0.31287431716918945,
7791
+ "learning_rate": 7.352223278402292e-07,
7792
+ "loss": 0.6498,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.9466298107590899,
7797
+ "grad_norm": 0.30627578496932983,
7798
+ "learning_rate": 7.124804246290473e-07,
7799
+ "loss": 0.6542,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 0.9474803317031681,
7804
+ "grad_norm": 0.29300999641418457,
7805
+ "learning_rate": 6.900932716246866e-07,
7806
+ "loss": 0.6397,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 0.9483308526472465,
7811
+ "grad_norm": 0.29144996404647827,
7812
+ "learning_rate": 6.680610299601708e-07,
7813
+ "loss": 0.6867,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 0.9491813735913247,
7818
+ "grad_norm": 0.3168846666812897,
7819
+ "learning_rate": 6.46383858214028e-07,
7820
+ "loss": 0.6927,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 0.9500318945354029,
7825
+ "grad_norm": 0.31854063272476196,
7826
+ "learning_rate": 6.250619124091473e-07,
7827
+ "loss": 0.6628,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 0.9508824154794812,
7832
+ "grad_norm": 0.30669549107551575,
7833
+ "learning_rate": 6.040953460116516e-07,
7834
+ "loss": 0.6212,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 0.9517329364235594,
7839
+ "grad_norm": 0.308658242225647,
7840
+ "learning_rate": 5.834843099298048e-07,
7841
+ "loss": 0.6451,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 0.9525834573676377,
7846
+ "grad_norm": 0.3079119324684143,
7847
+ "learning_rate": 5.632289525129065e-07,
7848
+ "loss": 0.652,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 0.953433978311716,
7853
+ "grad_norm": 0.2991427779197693,
7854
+ "learning_rate": 5.433294195502481e-07,
7855
+ "loss": 0.6479,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 0.9542844992557942,
7860
+ "grad_norm": 0.31203827261924744,
7861
+ "learning_rate": 5.237858542700425e-07,
7862
+ "loss": 0.6435,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 0.9551350201998724,
7867
+ "grad_norm": 0.3181011378765106,
7868
+ "learning_rate": 5.045983973383961e-07,
7869
+ "loss": 0.6504,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 0.9559855411439506,
7874
+ "grad_norm": 0.3141401708126068,
7875
+ "learning_rate": 4.857671868583158e-07,
7876
+ "loss": 0.6495,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 0.956836062088029,
7881
+ "grad_norm": 0.3229545056819916,
7882
+ "learning_rate": 4.6729235836869277e-07,
7883
+ "loss": 0.64,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 0.9576865830321072,
7888
+ "grad_norm": 0.3335203230381012,
7889
+ "learning_rate": 4.4917404484334237e-07,
7890
+ "loss": 0.6703,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 0.9585371039761854,
7895
+ "grad_norm": 0.311173677444458,
7896
+ "learning_rate": 4.314123766900213e-07,
7897
+ "loss": 0.6414,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 0.9593876249202636,
7902
+ "grad_norm": 0.3213408887386322,
7903
+ "learning_rate": 4.1400748174952877e-07,
7904
+ "loss": 0.6878,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 0.9602381458643419,
7909
+ "grad_norm": 0.32059377431869507,
7910
+ "learning_rate": 3.969594852947511e-07,
7911
+ "loss": 0.6144,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 0.9610886668084202,
7916
+ "grad_norm": 0.32189103960990906,
7917
+ "learning_rate": 3.802685100297798e-07,
7918
+ "loss": 0.6547,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 0.9619391877524984,
7923
+ "grad_norm": 0.3400660455226898,
7924
+ "learning_rate": 3.639346760890283e-07,
7925
+ "loss": 0.6598,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 0.9627897086965767,
7930
+ "grad_norm": 0.3212508261203766,
7931
+ "learning_rate": 3.4795810103634417e-07,
7932
+ "loss": 0.6392,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 0.9636402296406549,
7937
+ "grad_norm": 0.31696587800979614,
7938
+ "learning_rate": 3.3233889986419855e-07,
7939
+ "loss": 0.6333,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 0.9644907505847331,
7944
+ "grad_norm": 0.3382854461669922,
7945
+ "learning_rate": 3.170771849928367e-07,
7946
+ "loss": 0.6498,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 0.9653412715288114,
7951
+ "grad_norm": 0.3380298316478729,
7952
+ "learning_rate": 3.021730662694511e-07,
7953
+ "loss": 0.6686,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 0.9661917924728897,
7958
+ "grad_norm": 0.3369327783584595,
7959
+ "learning_rate": 2.8762665096744854e-07,
7960
+ "loss": 0.643,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 0.9670423134169679,
7965
+ "grad_norm": 0.3265814483165741,
7966
+ "learning_rate": 2.734380437856121e-07,
7967
+ "loss": 0.6238,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 0.9678928343610461,
7972
+ "grad_norm": 0.33164817094802856,
7973
+ "learning_rate": 2.5960734684739584e-07,
7974
+ "loss": 0.6256,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 0.9687433553051243,
7979
+ "grad_norm": 0.3356388807296753,
7980
+ "learning_rate": 2.4613465970015347e-07,
7981
+ "loss": 0.6595,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 0.9695938762492027,
7986
+ "grad_norm": 0.34756919741630554,
7987
+ "learning_rate": 2.3302007931444992e-07,
7988
+ "loss": 0.6228,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 0.9704443971932809,
7993
+ "grad_norm": 0.32481443881988525,
7994
+ "learning_rate": 2.202637000833563e-07,
7995
+ "loss": 0.6224,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 0.9712949181373591,
8000
+ "grad_norm": 0.3473244607448578,
8001
+ "learning_rate": 2.0786561382176163e-07,
8002
+ "loss": 0.6656,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 0.9721454390814374,
8007
+ "grad_norm": 0.36506223678588867,
8008
+ "learning_rate": 1.9582590976571224e-07,
8009
+ "loss": 0.6685,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 0.9729959600255156,
8014
+ "grad_norm": 0.36091652512550354,
8015
+ "learning_rate": 1.841446745717901e-07,
8016
+ "loss": 0.6762,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 0.9738464809695939,
8021
+ "grad_norm": 0.3407830595970154,
8022
+ "learning_rate": 1.7282199231645758e-07,
8023
+ "loss": 0.6402,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 0.9746970019136721,
8028
+ "grad_norm": 0.3659832775592804,
8029
+ "learning_rate": 1.618579444954693e-07,
8030
+ "loss": 0.6457,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 0.9755475228577504,
8035
+ "grad_norm": 0.3384697139263153,
8036
+ "learning_rate": 1.5125261002330026e-07,
8037
+ "loss": 0.6015,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 0.9763980438018286,
8042
+ "grad_norm": 0.3543066680431366,
8043
+ "learning_rate": 1.4100606523255177e-07,
8044
+ "loss": 0.6212,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 0.9772485647459068,
8049
+ "grad_norm": 0.3659920394420624,
8050
+ "learning_rate": 1.3111838387340758e-07,
8051
+ "loss": 0.6027,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 0.9780990856899852,
8056
+ "grad_norm": 0.47490641474723816,
8057
+ "learning_rate": 1.21589637113112e-07,
8058
+ "loss": 0.5485,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 0.9789496066340634,
8063
+ "grad_norm": 0.26568692922592163,
8064
+ "learning_rate": 1.1241989353545923e-07,
8065
+ "loss": 0.6297,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 0.9798001275781416,
8070
+ "grad_norm": 0.2851766347885132,
8071
+ "learning_rate": 1.036092191402882e-07,
8072
+ "loss": 0.6266,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 0.9806506485222198,
8077
+ "grad_norm": 0.2778666913509369,
8078
+ "learning_rate": 9.515767734302184e-08,
8079
+ "loss": 0.621,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 0.9815011694662981,
8084
+ "grad_norm": 0.2930733859539032,
8085
+ "learning_rate": 8.706532897417851e-08,
8086
+ "loss": 0.6171,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 0.9823516904103764,
8091
+ "grad_norm": 0.2878072261810303,
8092
+ "learning_rate": 7.933223227898911e-08,
8093
+ "loss": 0.6623,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 0.9832022113544546,
8098
+ "grad_norm": 0.2896723747253418,
8099
+ "learning_rate": 7.195844291693065e-08,
8100
+ "loss": 0.6461,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 0.9840527322985329,
8105
+ "grad_norm": 0.3108197748661041,
8106
+ "learning_rate": 6.494401396134331e-08,
8107
+ "loss": 0.6485,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 0.9849032532426111,
8112
+ "grad_norm": 0.3045186698436737,
8113
+ "learning_rate": 5.82889958990418e-08,
8114
+ "loss": 0.6488,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.9857537741866893,
8119
+ "grad_norm": 0.32476016879081726,
8120
+ "learning_rate": 5.1993436629965694e-08,
8121
+ "loss": 0.6823,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.9866042951307676,
8126
+ "grad_norm": 0.31088775396347046,
8127
+ "learning_rate": 4.605738146682414e-08,
8128
+ "loss": 0.6667,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.9874548160748459,
8133
+ "grad_norm": 0.30500373244285583,
8134
+ "learning_rate": 4.048087313476279e-08,
8135
+ "loss": 0.6505,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.9883053370189241,
8140
+ "grad_norm": 0.3153252899646759,
8141
+ "learning_rate": 3.526395177108066e-08,
8142
+ "loss": 0.6084,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.9891558579630023,
8147
+ "grad_norm": 0.32147717475891113,
8148
+ "learning_rate": 3.040665492491379e-08,
8149
+ "loss": 0.6466,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.9900063789070805,
8154
+ "grad_norm": 0.3214706778526306,
8155
+ "learning_rate": 2.590901755697983e-08,
8156
+ "loss": 0.6246,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.9908568998511589,
8161
+ "grad_norm": 0.3158264458179474,
8162
+ "learning_rate": 2.1771072039322714e-08,
8163
+ "loss": 0.6216,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.9917074207952371,
8168
+ "grad_norm": 0.32929104566574097,
8169
+ "learning_rate": 1.7992848155079512e-08,
8170
+ "loss": 0.644,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.9925579417393153,
8175
+ "grad_norm": 0.3237769305706024,
8176
+ "learning_rate": 1.4574373098275029e-08,
8177
+ "loss": 0.6019,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.9934084626833936,
8182
+ "grad_norm": 0.3426662087440491,
8183
+ "learning_rate": 1.1515671473599776e-08,
8184
+ "loss": 0.6455,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.9942589836274718,
8189
+ "grad_norm": 0.3314763903617859,
8190
+ "learning_rate": 8.816765296271179e-09,
8191
+ "loss": 0.6551,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.9951095045715501,
8196
+ "grad_norm": 0.33676841855049133,
8197
+ "learning_rate": 6.477673991850397e-09,
8198
+ "loss": 0.6562,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.9959600255156283,
8203
+ "grad_norm": 0.34772470593452454,
8204
+ "learning_rate": 4.498414396092443e-09,
8205
+ "loss": 0.6711,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.9968105464597066,
8210
+ "grad_norm": 0.3249342143535614,
8211
+ "learning_rate": 2.879000754851813e-09,
8212
+ "loss": 0.5821,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.9976610674037848,
8217
+ "grad_norm": 0.3405115008354187,
8218
+ "learning_rate": 1.6194447239714638e-09,
8219
+ "loss": 0.6668,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.998511588347863,
8224
+ "grad_norm": 0.35243573784828186,
8225
+ "learning_rate": 7.197553691939973e-10,
8226
+ "loss": 0.6637,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.9993621092919414,
8231
+ "grad_norm": 0.3634124994277954,
8232
+ "learning_rate": 1.7993916607839113e-10,
8233
+ "loss": 0.5855,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.9993621092919414,
8238
+ "eval_loss": 0.6406263709068298,
8239
+ "eval_runtime": 23.3139,
8240
+ "eval_samples_per_second": 42.464,
8241
+ "eval_steps_per_second": 10.637,
8242
+ "step": 1175
8243
+ },
8244
+ {
8245
+ "epoch": 1.0004252604720392,
8246
+ "grad_norm": 0.9211934804916382,
8247
+ "learning_rate": 0.0,
8248
+ "loss": 0.9193,
8249
+ "step": 1176
8250
  }
8251
  ],
8252
  "logging_steps": 1,
 
8261
  "should_evaluate": false,
8262
  "should_log": false,
8263
  "should_save": true,
8264
+ "should_training_stop": true
8265
  },
8266
  "attributes": {}
8267
  }
8268
  },
8269
+ "total_flos": 1.5271204993420493e+17,
8270
  "train_batch_size": 4,
8271
  "trial_name": null,
8272
  "trial_params": null