ErrorAI commited on
Commit
5684b01
·
verified ·
1 Parent(s): 5346e90

Training in progress, step 1176, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3e74a74f0a63114074a2551eda57c5749bff6a52e447395447fd8e8342faa4ea
3
  size 41581360
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:792dd8331ba155fa58718a797a0e955401aba344f7db2cacbafd6f894f267542
3
  size 41581360
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:82522b67e07423ec0e8c9612fa087bc09304024daf8866950f887f7bcc07e5fa
3
  size 21505924
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:41f13654e3ecf66a4c74558c7bc33c9d0ac82e3f78b6bc43ed18980fbd8542f5
3
  size 21505924
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d162891183304cdb67cfa3c3f15ad15dbe4991e942e7a3bd3d5fde4a217082ea
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:67d53cd9e90f2cc0ae384b6858ceffc79ac5778406d51d73d0107d891cff256e
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:756a4f06b9404bfe6fe163858e84e0338681bfc283853beea8ae022e9807c28a
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:23cd479fc96a8f6e5bac35733fb4e3abbee1661f2eee36828b52baa4b0a5d4fd
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7501594726770147,
5
  "eval_steps": 294,
6
- "global_step": 882,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6213,6 +6213,2072 @@
6213
  "eval_samples_per_second": 28.946,
6214
  "eval_steps_per_second": 14.502,
6215
  "step": 882
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6216
  }
6217
  ],
6218
  "logging_steps": 1,
@@ -6227,12 +8293,12 @@
6227
  "should_evaluate": false,
6228
  "should_log": false,
6229
  "should_save": true,
6230
- "should_training_stop": false
6231
  },
6232
  "attributes": {}
6233
  }
6234
  },
6235
- "total_flos": 5.842387066001818e+16,
6236
  "train_batch_size": 2,
6237
  "trial_name": null,
6238
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0006378907080586,
5
  "eval_steps": 294,
6
+ "global_step": 1176,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6213
  "eval_samples_per_second": 28.946,
6214
  "eval_steps_per_second": 14.502,
6215
  "step": 882
6216
+ },
6217
+ {
6218
+ "epoch": 0.7510099936210929,
6219
+ "grad_norm": 0.0006628399132750928,
6220
+ "learning_rate": 2.9575675791302703e-05,
6221
+ "loss": 0.0,
6222
+ "step": 883
6223
+ },
6224
+ {
6225
+ "epoch": 0.7518605145651711,
6226
+ "grad_norm": 0.01011353824287653,
6227
+ "learning_rate": 2.9384645085584663e-05,
6228
+ "loss": 0.0002,
6229
+ "step": 884
6230
+ },
6231
+ {
6232
+ "epoch": 0.7527110355092494,
6233
+ "grad_norm": 0.14443783462047577,
6234
+ "learning_rate": 2.9194127006927208e-05,
6235
+ "loss": 0.0066,
6236
+ "step": 885
6237
+ },
6238
+ {
6239
+ "epoch": 0.7535615564533277,
6240
+ "grad_norm": 0.02698357030749321,
6241
+ "learning_rate": 2.9004122938382617e-05,
6242
+ "loss": 0.0004,
6243
+ "step": 886
6244
+ },
6245
+ {
6246
+ "epoch": 0.7544120773974059,
6247
+ "grad_norm": 0.0011249154340475798,
6248
+ "learning_rate": 2.881463425927161e-05,
6249
+ "loss": 0.0,
6250
+ "step": 887
6251
+ },
6252
+ {
6253
+ "epoch": 0.7552625983414841,
6254
+ "grad_norm": 0.0007312202942557633,
6255
+ "learning_rate": 2.86256623451736e-05,
6256
+ "loss": 0.0,
6257
+ "step": 888
6258
+ },
6259
+ {
6260
+ "epoch": 0.7561131192855624,
6261
+ "grad_norm": 0.007344177458435297,
6262
+ "learning_rate": 2.8437208567916517e-05,
6263
+ "loss": 0.0001,
6264
+ "step": 889
6265
+ },
6266
+ {
6267
+ "epoch": 0.7569636402296407,
6268
+ "grad_norm": 0.0005439009983092546,
6269
+ "learning_rate": 2.8249274295566864e-05,
6270
+ "loss": 0.0,
6271
+ "step": 890
6272
+ },
6273
+ {
6274
+ "epoch": 0.7578141611737189,
6275
+ "grad_norm": 0.008856657892465591,
6276
+ "learning_rate": 2.8061860892420012e-05,
6277
+ "loss": 0.0001,
6278
+ "step": 891
6279
+ },
6280
+ {
6281
+ "epoch": 0.7586646821177971,
6282
+ "grad_norm": 0.0033546332269906998,
6283
+ "learning_rate": 2.787496971898994e-05,
6284
+ "loss": 0.0,
6285
+ "step": 892
6286
+ },
6287
+ {
6288
+ "epoch": 0.7595152030618754,
6289
+ "grad_norm": 0.2974599599838257,
6290
+ "learning_rate": 2.7688602131999565e-05,
6291
+ "loss": 0.0682,
6292
+ "step": 893
6293
+ },
6294
+ {
6295
+ "epoch": 0.7603657240059536,
6296
+ "grad_norm": 0.3173360824584961,
6297
+ "learning_rate": 2.7502759484370944e-05,
6298
+ "loss": 0.1224,
6299
+ "step": 894
6300
+ },
6301
+ {
6302
+ "epoch": 0.7612162449500319,
6303
+ "grad_norm": 0.3041495084762573,
6304
+ "learning_rate": 2.7317443125215357e-05,
6305
+ "loss": 0.0348,
6306
+ "step": 895
6307
+ },
6308
+ {
6309
+ "epoch": 0.7620667658941102,
6310
+ "grad_norm": 0.0006848531193099916,
6311
+ "learning_rate": 2.7132654399823444e-05,
6312
+ "loss": 0.0,
6313
+ "step": 896
6314
+ },
6315
+ {
6316
+ "epoch": 0.7629172868381884,
6317
+ "grad_norm": 0.11614672839641571,
6318
+ "learning_rate": 2.6948394649655627e-05,
6319
+ "loss": 0.0091,
6320
+ "step": 897
6321
+ },
6322
+ {
6323
+ "epoch": 0.7637678077822666,
6324
+ "grad_norm": 0.0003043474571313709,
6325
+ "learning_rate": 2.6764665212332253e-05,
6326
+ "loss": 0.0,
6327
+ "step": 898
6328
+ },
6329
+ {
6330
+ "epoch": 0.7646183287263448,
6331
+ "grad_norm": 0.0002599300642032176,
6332
+ "learning_rate": 2.658146742162384e-05,
6333
+ "loss": 0.0,
6334
+ "step": 899
6335
+ },
6336
+ {
6337
+ "epoch": 0.7654688496704232,
6338
+ "grad_norm": 0.007694155443459749,
6339
+ "learning_rate": 2.6398802607441507e-05,
6340
+ "loss": 0.0,
6341
+ "step": 900
6342
+ },
6343
+ {
6344
+ "epoch": 0.7663193706145014,
6345
+ "grad_norm": 0.006124464794993401,
6346
+ "learning_rate": 2.6216672095827266e-05,
6347
+ "loss": 0.0001,
6348
+ "step": 901
6349
+ },
6350
+ {
6351
+ "epoch": 0.7671698915585796,
6352
+ "grad_norm": 0.004359639249742031,
6353
+ "learning_rate": 2.6035077208944415e-05,
6354
+ "loss": 0.0001,
6355
+ "step": 902
6356
+ },
6357
+ {
6358
+ "epoch": 0.7680204125026578,
6359
+ "grad_norm": 0.003989862278103828,
6360
+ "learning_rate": 2.5854019265067853e-05,
6361
+ "loss": 0.0001,
6362
+ "step": 903
6363
+ },
6364
+ {
6365
+ "epoch": 0.7688709334467361,
6366
+ "grad_norm": 0.08391033858060837,
6367
+ "learning_rate": 2.5673499578574645e-05,
6368
+ "loss": 0.0007,
6369
+ "step": 904
6370
+ },
6371
+ {
6372
+ "epoch": 0.7697214543908144,
6373
+ "grad_norm": 0.0028473271522670984,
6374
+ "learning_rate": 2.5493519459934423e-05,
6375
+ "loss": 0.0,
6376
+ "step": 905
6377
+ },
6378
+ {
6379
+ "epoch": 0.7705719753348926,
6380
+ "grad_norm": 0.004338242579251528,
6381
+ "learning_rate": 2.531408021569982e-05,
6382
+ "loss": 0.0,
6383
+ "step": 906
6384
+ },
6385
+ {
6386
+ "epoch": 0.7714224962789709,
6387
+ "grad_norm": 0.00031671393662691116,
6388
+ "learning_rate": 2.5135183148496978e-05,
6389
+ "loss": 0.0,
6390
+ "step": 907
6391
+ },
6392
+ {
6393
+ "epoch": 0.7722730172230491,
6394
+ "grad_norm": 0.00664046173915267,
6395
+ "learning_rate": 2.4956829557016338e-05,
6396
+ "loss": 0.0001,
6397
+ "step": 908
6398
+ },
6399
+ {
6400
+ "epoch": 0.7731235381671273,
6401
+ "grad_norm": 0.00026662054006010294,
6402
+ "learning_rate": 2.4779020736002834e-05,
6403
+ "loss": 0.0,
6404
+ "step": 909
6405
+ },
6406
+ {
6407
+ "epoch": 0.7739740591112056,
6408
+ "grad_norm": 0.003937773872166872,
6409
+ "learning_rate": 2.4601757976246686e-05,
6410
+ "loss": 0.0001,
6411
+ "step": 910
6412
+ },
6413
+ {
6414
+ "epoch": 0.7748245800552839,
6415
+ "grad_norm": 0.011349405162036419,
6416
+ "learning_rate": 2.4425042564574184e-05,
6417
+ "loss": 0.0,
6418
+ "step": 911
6419
+ },
6420
+ {
6421
+ "epoch": 0.7756751009993621,
6422
+ "grad_norm": 0.0018178970785811543,
6423
+ "learning_rate": 2.4248875783837987e-05,
6424
+ "loss": 0.0,
6425
+ "step": 912
6426
+ },
6427
+ {
6428
+ "epoch": 0.7765256219434403,
6429
+ "grad_norm": 0.002339699538424611,
6430
+ "learning_rate": 2.407325891290817e-05,
6431
+ "loss": 0.0001,
6432
+ "step": 913
6433
+ },
6434
+ {
6435
+ "epoch": 0.7773761428875186,
6436
+ "grad_norm": 0.0007006304222159088,
6437
+ "learning_rate": 2.3898193226662634e-05,
6438
+ "loss": 0.0,
6439
+ "step": 914
6440
+ },
6441
+ {
6442
+ "epoch": 0.7782266638315969,
6443
+ "grad_norm": 0.0009225118556059897,
6444
+ "learning_rate": 2.3723679995978088e-05,
6445
+ "loss": 0.0,
6446
+ "step": 915
6447
+ },
6448
+ {
6449
+ "epoch": 0.7790771847756751,
6450
+ "grad_norm": 0.2369476854801178,
6451
+ "learning_rate": 2.3549720487720738e-05,
6452
+ "loss": 0.113,
6453
+ "step": 916
6454
+ },
6455
+ {
6456
+ "epoch": 0.7799277057197533,
6457
+ "grad_norm": 0.01921667717397213,
6458
+ "learning_rate": 2.3376315964737004e-05,
6459
+ "loss": 0.0001,
6460
+ "step": 917
6461
+ },
6462
+ {
6463
+ "epoch": 0.7807782266638316,
6464
+ "grad_norm": 0.5731379985809326,
6465
+ "learning_rate": 2.3203467685844494e-05,
6466
+ "loss": 0.0006,
6467
+ "step": 918
6468
+ },
6469
+ {
6470
+ "epoch": 0.7816287476079098,
6471
+ "grad_norm": 0.571125328540802,
6472
+ "learning_rate": 2.3031176905822805e-05,
6473
+ "loss": 0.0102,
6474
+ "step": 919
6475
+ },
6476
+ {
6477
+ "epoch": 0.7824792685519881,
6478
+ "grad_norm": 0.00314392545260489,
6479
+ "learning_rate": 2.2859444875404347e-05,
6480
+ "loss": 0.0001,
6481
+ "step": 920
6482
+ },
6483
+ {
6484
+ "epoch": 0.7833297894960664,
6485
+ "grad_norm": 0.00046135857701301575,
6486
+ "learning_rate": 2.268827284126539e-05,
6487
+ "loss": 0.0,
6488
+ "step": 921
6489
+ },
6490
+ {
6491
+ "epoch": 0.7841803104401446,
6492
+ "grad_norm": 0.0017616184195503592,
6493
+ "learning_rate": 2.2517662046016975e-05,
6494
+ "loss": 0.0,
6495
+ "step": 922
6496
+ },
6497
+ {
6498
+ "epoch": 0.7850308313842228,
6499
+ "grad_norm": 0.0019493420841172338,
6500
+ "learning_rate": 2.234761372819577e-05,
6501
+ "loss": 0.0,
6502
+ "step": 923
6503
+ },
6504
+ {
6505
+ "epoch": 0.785881352328301,
6506
+ "grad_norm": 0.034336406737565994,
6507
+ "learning_rate": 2.2178129122255253e-05,
6508
+ "loss": 0.0003,
6509
+ "step": 924
6510
+ },
6511
+ {
6512
+ "epoch": 0.7867318732723794,
6513
+ "grad_norm": 0.0003119409957434982,
6514
+ "learning_rate": 2.200920945855669e-05,
6515
+ "loss": 0.0,
6516
+ "step": 925
6517
+ },
6518
+ {
6519
+ "epoch": 0.7875823942164576,
6520
+ "grad_norm": 0.0008353603188879788,
6521
+ "learning_rate": 2.184085596336011e-05,
6522
+ "loss": 0.0,
6523
+ "step": 926
6524
+ },
6525
+ {
6526
+ "epoch": 0.7884329151605358,
6527
+ "grad_norm": 0.001767192967236042,
6528
+ "learning_rate": 2.1673069858815554e-05,
6529
+ "loss": 0.0,
6530
+ "step": 927
6531
+ },
6532
+ {
6533
+ "epoch": 0.789283436104614,
6534
+ "grad_norm": 0.003086287761107087,
6535
+ "learning_rate": 2.150585236295415e-05,
6536
+ "loss": 0.0,
6537
+ "step": 928
6538
+ },
6539
+ {
6540
+ "epoch": 0.7901339570486923,
6541
+ "grad_norm": 0.10114600509405136,
6542
+ "learning_rate": 2.133920468967915e-05,
6543
+ "loss": 0.0019,
6544
+ "step": 929
6545
+ },
6546
+ {
6547
+ "epoch": 0.7909844779927706,
6548
+ "grad_norm": 0.0005025778664276004,
6549
+ "learning_rate": 2.1173128048757306e-05,
6550
+ "loss": 0.0,
6551
+ "step": 930
6552
+ },
6553
+ {
6554
+ "epoch": 0.7918349989368488,
6555
+ "grad_norm": 1.0216151475906372,
6556
+ "learning_rate": 2.1007623645810003e-05,
6557
+ "loss": 0.0279,
6558
+ "step": 931
6559
+ },
6560
+ {
6561
+ "epoch": 0.7926855198809271,
6562
+ "grad_norm": 0.00023995933588594198,
6563
+ "learning_rate": 2.0842692682304444e-05,
6564
+ "loss": 0.0,
6565
+ "step": 932
6566
+ },
6567
+ {
6568
+ "epoch": 0.7935360408250053,
6569
+ "grad_norm": 0.016943026334047318,
6570
+ "learning_rate": 2.0678336355545048e-05,
6571
+ "loss": 0.0002,
6572
+ "step": 933
6573
+ },
6574
+ {
6575
+ "epoch": 0.7943865617690835,
6576
+ "grad_norm": 0.0027948138304054737,
6577
+ "learning_rate": 2.0514555858664663e-05,
6578
+ "loss": 0.0,
6579
+ "step": 934
6580
+ },
6581
+ {
6582
+ "epoch": 0.7952370827131618,
6583
+ "grad_norm": 0.15995000302791595,
6584
+ "learning_rate": 2.0351352380616008e-05,
6585
+ "loss": 0.0511,
6586
+ "step": 935
6587
+ },
6588
+ {
6589
+ "epoch": 0.7960876036572401,
6590
+ "grad_norm": 0.012613411992788315,
6591
+ "learning_rate": 2.0188727106162874e-05,
6592
+ "loss": 0.0001,
6593
+ "step": 936
6594
+ },
6595
+ {
6596
+ "epoch": 0.7969381246013183,
6597
+ "grad_norm": 0.04517924040555954,
6598
+ "learning_rate": 2.0026681215871656e-05,
6599
+ "loss": 0.0002,
6600
+ "step": 937
6601
+ },
6602
+ {
6603
+ "epoch": 0.7977886455453965,
6604
+ "grad_norm": 0.0012478888966143131,
6605
+ "learning_rate": 1.986521588610285e-05,
6606
+ "loss": 0.0,
6607
+ "step": 938
6608
+ },
6609
+ {
6610
+ "epoch": 0.7986391664894747,
6611
+ "grad_norm": 0.0003400914429221302,
6612
+ "learning_rate": 1.9704332289002293e-05,
6613
+ "loss": 0.0,
6614
+ "step": 939
6615
+ },
6616
+ {
6617
+ "epoch": 0.7994896874335531,
6618
+ "grad_norm": 0.022015152499079704,
6619
+ "learning_rate": 1.9544031592492763e-05,
6620
+ "loss": 0.0001,
6621
+ "step": 940
6622
+ },
6623
+ {
6624
+ "epoch": 0.8003402083776313,
6625
+ "grad_norm": 0.0006765925791114569,
6626
+ "learning_rate": 1.9384314960265692e-05,
6627
+ "loss": 0.0,
6628
+ "step": 941
6629
+ },
6630
+ {
6631
+ "epoch": 0.8011907293217095,
6632
+ "grad_norm": 0.0022046356461942196,
6633
+ "learning_rate": 1.922518355177232e-05,
6634
+ "loss": 0.0001,
6635
+ "step": 942
6636
+ },
6637
+ {
6638
+ "epoch": 0.8020412502657878,
6639
+ "grad_norm": 0.020620815455913544,
6640
+ "learning_rate": 1.906663852221565e-05,
6641
+ "loss": 0.0002,
6642
+ "step": 943
6643
+ },
6644
+ {
6645
+ "epoch": 0.802891771209866,
6646
+ "grad_norm": 0.00041413033613935113,
6647
+ "learning_rate": 1.890868102254182e-05,
6648
+ "loss": 0.0,
6649
+ "step": 944
6650
+ },
6651
+ {
6652
+ "epoch": 0.8037422921539443,
6653
+ "grad_norm": 0.00043469303636811674,
6654
+ "learning_rate": 1.875131219943187e-05,
6655
+ "loss": 0.0,
6656
+ "step": 945
6657
+ },
6658
+ {
6659
+ "epoch": 0.8045928130980226,
6660
+ "grad_norm": 0.0014998652040958405,
6661
+ "learning_rate": 1.8594533195293427e-05,
6662
+ "loss": 0.0,
6663
+ "step": 946
6664
+ },
6665
+ {
6666
+ "epoch": 0.8054433340421008,
6667
+ "grad_norm": 0.0023898996878415346,
6668
+ "learning_rate": 1.843834514825229e-05,
6669
+ "loss": 0.0,
6670
+ "step": 947
6671
+ },
6672
+ {
6673
+ "epoch": 0.806293854986179,
6674
+ "grad_norm": 0.000984017737209797,
6675
+ "learning_rate": 1.82827491921443e-05,
6676
+ "loss": 0.0,
6677
+ "step": 948
6678
+ },
6679
+ {
6680
+ "epoch": 0.8071443759302572,
6681
+ "grad_norm": 0.007725781761109829,
6682
+ "learning_rate": 1.8127746456507077e-05,
6683
+ "loss": 0.0001,
6684
+ "step": 949
6685
+ },
6686
+ {
6687
+ "epoch": 0.8079948968743356,
6688
+ "grad_norm": 0.017651421949267387,
6689
+ "learning_rate": 1.797333806657171e-05,
6690
+ "loss": 0.0001,
6691
+ "step": 950
6692
+ },
6693
+ {
6694
+ "epoch": 0.8088454178184138,
6695
+ "grad_norm": 0.0007761537563055754,
6696
+ "learning_rate": 1.7819525143254755e-05,
6697
+ "loss": 0.0,
6698
+ "step": 951
6699
+ },
6700
+ {
6701
+ "epoch": 0.809695938762492,
6702
+ "grad_norm": 0.0007202140404842794,
6703
+ "learning_rate": 1.7666308803150043e-05,
6704
+ "loss": 0.0,
6705
+ "step": 952
6706
+ },
6707
+ {
6708
+ "epoch": 0.8105464597065702,
6709
+ "grad_norm": 0.15208382904529572,
6710
+ "learning_rate": 1.751369015852046e-05,
6711
+ "loss": 0.0307,
6712
+ "step": 953
6713
+ },
6714
+ {
6715
+ "epoch": 0.8113969806506485,
6716
+ "grad_norm": 0.4882207214832306,
6717
+ "learning_rate": 1.7361670317290012e-05,
6718
+ "loss": 0.1184,
6719
+ "step": 954
6720
+ },
6721
+ {
6722
+ "epoch": 0.8122475015947268,
6723
+ "grad_norm": 0.012986944988369942,
6724
+ "learning_rate": 1.7210250383035807e-05,
6725
+ "loss": 0.0002,
6726
+ "step": 955
6727
+ },
6728
+ {
6729
+ "epoch": 0.813098022538805,
6730
+ "grad_norm": 0.09700225293636322,
6731
+ "learning_rate": 1.7059431454979824e-05,
6732
+ "loss": 0.0178,
6733
+ "step": 956
6734
+ },
6735
+ {
6736
+ "epoch": 0.8139485434828833,
6737
+ "grad_norm": 0.006796153262257576,
6738
+ "learning_rate": 1.6909214627981197e-05,
6739
+ "loss": 0.0001,
6740
+ "step": 957
6741
+ },
6742
+ {
6743
+ "epoch": 0.8147990644269615,
6744
+ "grad_norm": 0.009519725106656551,
6745
+ "learning_rate": 1.6759600992528147e-05,
6746
+ "loss": 0.0001,
6747
+ "step": 958
6748
+ },
6749
+ {
6750
+ "epoch": 0.8156495853710397,
6751
+ "grad_norm": 0.0033996268175542355,
6752
+ "learning_rate": 1.6610591634729965e-05,
6753
+ "loss": 0.0001,
6754
+ "step": 959
6755
+ },
6756
+ {
6757
+ "epoch": 0.816500106315118,
6758
+ "grad_norm": 0.6859752535820007,
6759
+ "learning_rate": 1.6462187636309345e-05,
6760
+ "loss": 0.1959,
6761
+ "step": 960
6762
+ },
6763
+ {
6764
+ "epoch": 0.8173506272591963,
6765
+ "grad_norm": 0.011346434243023396,
6766
+ "learning_rate": 1.631439007459441e-05,
6767
+ "loss": 0.0003,
6768
+ "step": 961
6769
+ },
6770
+ {
6771
+ "epoch": 0.8182011482032745,
6772
+ "grad_norm": 0.0017211796948686242,
6773
+ "learning_rate": 1.61672000225108e-05,
6774
+ "loss": 0.0,
6775
+ "step": 962
6776
+ },
6777
+ {
6778
+ "epoch": 0.8190516691473527,
6779
+ "grad_norm": 0.24912920594215393,
6780
+ "learning_rate": 1.6020618548574108e-05,
6781
+ "loss": 0.0909,
6782
+ "step": 963
6783
+ },
6784
+ {
6785
+ "epoch": 0.819902190091431,
6786
+ "grad_norm": 0.5254992842674255,
6787
+ "learning_rate": 1.587464671688187e-05,
6788
+ "loss": 0.1244,
6789
+ "step": 964
6790
+ },
6791
+ {
6792
+ "epoch": 0.8207527110355093,
6793
+ "grad_norm": 0.0017611978109925985,
6794
+ "learning_rate": 1.5729285587106136e-05,
6795
+ "loss": 0.0,
6796
+ "step": 965
6797
+ },
6798
+ {
6799
+ "epoch": 0.8216032319795875,
6800
+ "grad_norm": 0.0009172895224764943,
6801
+ "learning_rate": 1.5584536214485457e-05,
6802
+ "loss": 0.0,
6803
+ "step": 966
6804
+ },
6805
+ {
6806
+ "epoch": 0.8224537529236657,
6807
+ "grad_norm": 0.009770330041646957,
6808
+ "learning_rate": 1.5440399649817385e-05,
6809
+ "loss": 0.0001,
6810
+ "step": 967
6811
+ },
6812
+ {
6813
+ "epoch": 0.823304273867744,
6814
+ "grad_norm": 0.008863989263772964,
6815
+ "learning_rate": 1.5296876939450978e-05,
6816
+ "loss": 0.0001,
6817
+ "step": 968
6818
+ },
6819
+ {
6820
+ "epoch": 0.8241547948118222,
6821
+ "grad_norm": 0.0012711243471130729,
6822
+ "learning_rate": 1.5153969125278934e-05,
6823
+ "loss": 0.0,
6824
+ "step": 969
6825
+ },
6826
+ {
6827
+ "epoch": 0.8250053157559005,
6828
+ "grad_norm": 0.015510589815676212,
6829
+ "learning_rate": 1.5011677244730161e-05,
6830
+ "loss": 0.0003,
6831
+ "step": 970
6832
+ },
6833
+ {
6834
+ "epoch": 0.8258558366999788,
6835
+ "grad_norm": 0.03995675966143608,
6836
+ "learning_rate": 1.4870002330762289e-05,
6837
+ "loss": 0.0003,
6838
+ "step": 971
6839
+ },
6840
+ {
6841
+ "epoch": 0.826706357644057,
6842
+ "grad_norm": 0.009436316788196564,
6843
+ "learning_rate": 1.4728945411854133e-05,
6844
+ "loss": 0.0002,
6845
+ "step": 972
6846
+ },
6847
+ {
6848
+ "epoch": 0.8275568785881352,
6849
+ "grad_norm": 0.24138440191745758,
6850
+ "learning_rate": 1.4588507511998162e-05,
6851
+ "loss": 0.0039,
6852
+ "step": 973
6853
+ },
6854
+ {
6855
+ "epoch": 0.8284073995322134,
6856
+ "grad_norm": 0.020015889778733253,
6857
+ "learning_rate": 1.4448689650693147e-05,
6858
+ "loss": 0.0001,
6859
+ "step": 974
6860
+ },
6861
+ {
6862
+ "epoch": 0.8292579204762918,
6863
+ "grad_norm": 0.012752744369208813,
6864
+ "learning_rate": 1.4309492842936768e-05,
6865
+ "loss": 0.0001,
6866
+ "step": 975
6867
+ },
6868
+ {
6869
+ "epoch": 0.83010844142037,
6870
+ "grad_norm": 0.0009915669215843081,
6871
+ "learning_rate": 1.4170918099218166e-05,
6872
+ "loss": 0.0,
6873
+ "step": 976
6874
+ },
6875
+ {
6876
+ "epoch": 0.8309589623644482,
6877
+ "grad_norm": 0.0004458004259504378,
6878
+ "learning_rate": 1.4032966425510663e-05,
6879
+ "loss": 0.0,
6880
+ "step": 977
6881
+ },
6882
+ {
6883
+ "epoch": 0.8318094833085264,
6884
+ "grad_norm": 0.006215102970600128,
6885
+ "learning_rate": 1.3895638823264446e-05,
6886
+ "loss": 0.0001,
6887
+ "step": 978
6888
+ },
6889
+ {
6890
+ "epoch": 0.8326600042526047,
6891
+ "grad_norm": 0.01962810754776001,
6892
+ "learning_rate": 1.3758936289399348e-05,
6893
+ "loss": 0.0003,
6894
+ "step": 979
6895
+ },
6896
+ {
6897
+ "epoch": 0.833510525196683,
6898
+ "grad_norm": 0.1297900378704071,
6899
+ "learning_rate": 1.3622859816297473e-05,
6900
+ "loss": 0.0005,
6901
+ "step": 980
6902
+ },
6903
+ {
6904
+ "epoch": 0.8343610461407612,
6905
+ "grad_norm": 0.0017807490658015013,
6906
+ "learning_rate": 1.3487410391796162e-05,
6907
+ "loss": 0.0,
6908
+ "step": 981
6909
+ },
6910
+ {
6911
+ "epoch": 0.8352115670848395,
6912
+ "grad_norm": 0.009284891188144684,
6913
+ "learning_rate": 1.3352588999180726e-05,
6914
+ "loss": 0.0001,
6915
+ "step": 982
6916
+ },
6917
+ {
6918
+ "epoch": 0.8360620880289177,
6919
+ "grad_norm": 0.018519192934036255,
6920
+ "learning_rate": 1.3218396617177287e-05,
6921
+ "loss": 0.0002,
6922
+ "step": 983
6923
+ },
6924
+ {
6925
+ "epoch": 0.8369126089729959,
6926
+ "grad_norm": 0.0012184007791802287,
6927
+ "learning_rate": 1.308483421994573e-05,
6928
+ "loss": 0.0,
6929
+ "step": 984
6930
+ },
6931
+ {
6932
+ "epoch": 0.8377631299170742,
6933
+ "grad_norm": 0.8836367726325989,
6934
+ "learning_rate": 1.2951902777072655e-05,
6935
+ "loss": 0.0745,
6936
+ "step": 985
6937
+ },
6938
+ {
6939
+ "epoch": 0.8386136508611525,
6940
+ "grad_norm": 0.6448264122009277,
6941
+ "learning_rate": 1.2819603253564205e-05,
6942
+ "loss": 0.192,
6943
+ "step": 986
6944
+ },
6945
+ {
6946
+ "epoch": 0.8394641718052307,
6947
+ "grad_norm": 0.0006182811921462417,
6948
+ "learning_rate": 1.2687936609839235e-05,
6949
+ "loss": 0.0,
6950
+ "step": 987
6951
+ },
6952
+ {
6953
+ "epoch": 0.8403146927493089,
6954
+ "grad_norm": 0.0010500185890123248,
6955
+ "learning_rate": 1.2556903801722219e-05,
6956
+ "loss": 0.0,
6957
+ "step": 988
6958
+ },
6959
+ {
6960
+ "epoch": 0.8411652136933871,
6961
+ "grad_norm": 0.0007223694701679051,
6962
+ "learning_rate": 1.2426505780436326e-05,
6963
+ "loss": 0.0,
6964
+ "step": 989
6965
+ },
6966
+ {
6967
+ "epoch": 0.8420157346374655,
6968
+ "grad_norm": 0.0008733486756682396,
6969
+ "learning_rate": 1.2296743492596586e-05,
6970
+ "loss": 0.0,
6971
+ "step": 990
6972
+ },
6973
+ {
6974
+ "epoch": 0.8428662555815437,
6975
+ "grad_norm": 0.9098036289215088,
6976
+ "learning_rate": 1.2167617880202908e-05,
6977
+ "loss": 0.0056,
6978
+ "step": 991
6979
+ },
6980
+ {
6981
+ "epoch": 0.8437167765256219,
6982
+ "grad_norm": 0.0011365516111254692,
6983
+ "learning_rate": 1.2039129880633349e-05,
6984
+ "loss": 0.0,
6985
+ "step": 992
6986
+ },
6987
+ {
6988
+ "epoch": 0.8445672974697002,
6989
+ "grad_norm": 0.0013979087816551328,
6990
+ "learning_rate": 1.1911280426637273e-05,
6991
+ "loss": 0.0,
6992
+ "step": 993
6993
+ },
6994
+ {
6995
+ "epoch": 0.8454178184137784,
6996
+ "grad_norm": 0.06983187794685364,
6997
+ "learning_rate": 1.1784070446328476e-05,
6998
+ "loss": 0.001,
6999
+ "step": 994
7000
+ },
7001
+ {
7002
+ "epoch": 0.8462683393578567,
7003
+ "grad_norm": 0.002491158666089177,
7004
+ "learning_rate": 1.1657500863178694e-05,
7005
+ "loss": 0.0,
7006
+ "step": 995
7007
+ },
7008
+ {
7009
+ "epoch": 0.847118860301935,
7010
+ "grad_norm": 0.029074521735310555,
7011
+ "learning_rate": 1.153157259601062e-05,
7012
+ "loss": 0.0003,
7013
+ "step": 996
7014
+ },
7015
+ {
7016
+ "epoch": 0.8479693812460132,
7017
+ "grad_norm": 0.020203933119773865,
7018
+ "learning_rate": 1.1406286558991375e-05,
7019
+ "loss": 0.0003,
7020
+ "step": 997
7021
+ },
7022
+ {
7023
+ "epoch": 0.8488199021900914,
7024
+ "grad_norm": 0.00540241040289402,
7025
+ "learning_rate": 1.1281643661625895e-05,
7026
+ "loss": 0.0,
7027
+ "step": 998
7028
+ },
7029
+ {
7030
+ "epoch": 0.8496704231341696,
7031
+ "grad_norm": 0.3100952208042145,
7032
+ "learning_rate": 1.1157644808750312e-05,
7033
+ "loss": 0.0313,
7034
+ "step": 999
7035
+ },
7036
+ {
7037
+ "epoch": 0.850520944078248,
7038
+ "grad_norm": 0.044743262231349945,
7039
+ "learning_rate": 1.103429090052528e-05,
7040
+ "loss": 0.0004,
7041
+ "step": 1000
7042
+ },
7043
+ {
7044
+ "epoch": 0.8513714650223262,
7045
+ "grad_norm": 0.0032381871715188026,
7046
+ "learning_rate": 1.0911582832429589e-05,
7047
+ "loss": 0.0001,
7048
+ "step": 1001
7049
+ },
7050
+ {
7051
+ "epoch": 0.8522219859664044,
7052
+ "grad_norm": 0.0010663603898137808,
7053
+ "learning_rate": 1.0789521495253618e-05,
7054
+ "loss": 0.0,
7055
+ "step": 1002
7056
+ },
7057
+ {
7058
+ "epoch": 0.8530725069104826,
7059
+ "grad_norm": 0.4588802456855774,
7060
+ "learning_rate": 1.0668107775092751e-05,
7061
+ "loss": 0.3305,
7062
+ "step": 1003
7063
+ },
7064
+ {
7065
+ "epoch": 0.8539230278545609,
7066
+ "grad_norm": 0.0009211338474415243,
7067
+ "learning_rate": 1.0547342553341144e-05,
7068
+ "loss": 0.0,
7069
+ "step": 1004
7070
+ },
7071
+ {
7072
+ "epoch": 0.8547735487986392,
7073
+ "grad_norm": 0.1695116013288498,
7074
+ "learning_rate": 1.0427226706685178e-05,
7075
+ "loss": 0.0012,
7076
+ "step": 1005
7077
+ },
7078
+ {
7079
+ "epoch": 0.8556240697427174,
7080
+ "grad_norm": 0.011185300536453724,
7081
+ "learning_rate": 1.030776110709718e-05,
7082
+ "loss": 0.0001,
7083
+ "step": 1006
7084
+ },
7085
+ {
7086
+ "epoch": 0.8564745906867957,
7087
+ "grad_norm": 0.11564269661903381,
7088
+ "learning_rate": 1.0188946621828976e-05,
7089
+ "loss": 0.0009,
7090
+ "step": 1007
7091
+ },
7092
+ {
7093
+ "epoch": 0.8573251116308739,
7094
+ "grad_norm": 0.007635078392922878,
7095
+ "learning_rate": 1.0070784113405763e-05,
7096
+ "loss": 0.0001,
7097
+ "step": 1008
7098
+ },
7099
+ {
7100
+ "epoch": 0.8581756325749521,
7101
+ "grad_norm": 0.0005006557330489159,
7102
+ "learning_rate": 9.953274439619741e-06,
7103
+ "loss": 0.0,
7104
+ "step": 1009
7105
+ },
7106
+ {
7107
+ "epoch": 0.8590261535190304,
7108
+ "grad_norm": 0.0005339895724318922,
7109
+ "learning_rate": 9.836418453523833e-06,
7110
+ "loss": 0.0,
7111
+ "step": 1010
7112
+ },
7113
+ {
7114
+ "epoch": 0.8598766744631087,
7115
+ "grad_norm": 0.00037149203126318753,
7116
+ "learning_rate": 9.720217003425647e-06,
7117
+ "loss": 0.0,
7118
+ "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.8607271954071869,
7122
+ "grad_norm": 0.01688246615231037,
7123
+ "learning_rate": 9.60467093288121e-06,
7124
+ "loss": 0.0002,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.8615777163512651,
7129
+ "grad_norm": 0.23460523784160614,
7130
+ "learning_rate": 9.489781080688865e-06,
7131
+ "loss": 0.0645,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.8624282372953433,
7136
+ "grad_norm": 0.0017291831318289042,
7137
+ "learning_rate": 9.375548280883128e-06,
7138
+ "loss": 0.0001,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.8632787582394217,
7143
+ "grad_norm": 0.10772283375263214,
7144
+ "learning_rate": 9.261973362728827e-06,
7145
+ "loss": 0.0011,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.8641292791834999,
7150
+ "grad_norm": 0.0010779626900330186,
7151
+ "learning_rate": 9.149057150714801e-06,
7152
+ "loss": 0.0,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.8649798001275781,
7157
+ "grad_norm": 0.015797583386301994,
7158
+ "learning_rate": 9.036800464548157e-06,
7159
+ "loss": 0.0002,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.8658303210716564,
7164
+ "grad_norm": 0.14362086355686188,
7165
+ "learning_rate": 8.92520411914819e-06,
7166
+ "loss": 0.0114,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.8666808420157346,
7171
+ "grad_norm": 0.0065677878446877,
7172
+ "learning_rate": 8.814268924640468e-06,
7173
+ "loss": 0.0,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.8675313629598129,
7178
+ "grad_norm": 0.0015798452077433467,
7179
+ "learning_rate": 8.70399568635104e-06,
7180
+ "loss": 0.0,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.8683818839038911,
7185
+ "grad_norm": 0.005220931489020586,
7186
+ "learning_rate": 8.594385204800482e-06,
7187
+ "loss": 0.0001,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.8692324048479694,
7192
+ "grad_norm": 0.02343294955790043,
7193
+ "learning_rate": 8.485438275698154e-06,
7194
+ "loss": 0.0002,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.8700829257920476,
7199
+ "grad_norm": 0.0009698322974145412,
7200
+ "learning_rate": 8.377155689936434e-06,
7201
+ "loss": 0.0,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.8709334467361258,
7206
+ "grad_norm": 0.0017709987005218863,
7207
+ "learning_rate": 8.269538233584883e-06,
7208
+ "loss": 0.0,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.8717839676802042,
7213
+ "grad_norm": 0.006651140749454498,
7214
+ "learning_rate": 8.162586687884654e-06,
7215
+ "loss": 0.0001,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.8726344886242824,
7220
+ "grad_norm": 0.0008187560015358031,
7221
+ "learning_rate": 8.056301829242784e-06,
7222
+ "loss": 0.0,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.8734850095683606,
7227
+ "grad_norm": 0.011495663784444332,
7228
+ "learning_rate": 7.950684429226463e-06,
7229
+ "loss": 0.0001,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.8743355305124388,
7234
+ "grad_norm": 0.027045458555221558,
7235
+ "learning_rate": 7.845735254557606e-06,
7236
+ "loss": 0.0001,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.8751860514565171,
7241
+ "grad_norm": 0.002350402530282736,
7242
+ "learning_rate": 7.741455067107162e-06,
7243
+ "loss": 0.0001,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.8760365724005954,
7248
+ "grad_norm": 0.0006794760120101273,
7249
+ "learning_rate": 7.637844623889556e-06,
7250
+ "loss": 0.0,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.8768870933446736,
7255
+ "grad_norm": 0.0015181039925664663,
7256
+ "learning_rate": 7.534904677057353e-06,
7257
+ "loss": 0.0,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.8777376142887519,
7262
+ "grad_norm": 0.8432652354240417,
7263
+ "learning_rate": 7.4326359738956515e-06,
7264
+ "loss": 0.0097,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.8785881352328301,
7269
+ "grad_norm": 0.0007200916297733784,
7270
+ "learning_rate": 7.331039256816663e-06,
7271
+ "loss": 0.0,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.8794386561769083,
7276
+ "grad_norm": 0.21649956703186035,
7277
+ "learning_rate": 7.230115263354431e-06,
7278
+ "loss": 0.0172,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.8802891771209866,
7283
+ "grad_norm": 0.009013510309159756,
7284
+ "learning_rate": 7.129864726159408e-06,
7285
+ "loss": 0.0001,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.8811396980650649,
7290
+ "grad_norm": 0.011759940534830093,
7291
+ "learning_rate": 7.030288372993066e-06,
7292
+ "loss": 0.0001,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.8819902190091431,
7297
+ "grad_norm": 0.0008131926297210157,
7298
+ "learning_rate": 6.931386926722772e-06,
7299
+ "loss": 0.0,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.8828407399532213,
7304
+ "grad_norm": 0.005074569024145603,
7305
+ "learning_rate": 6.833161105316421e-06,
7306
+ "loss": 0.0001,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.8836912608972995,
7311
+ "grad_norm": 0.0019746299367398024,
7312
+ "learning_rate": 6.7356116218372566e-06,
7313
+ "loss": 0.0,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.8845417818413779,
7318
+ "grad_norm": 0.0007645431905984879,
7319
+ "learning_rate": 6.63873918443868e-06,
7320
+ "loss": 0.0,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.8853923027854561,
7325
+ "grad_norm": 0.0006067325593903661,
7326
+ "learning_rate": 6.542544496359138e-06,
7327
+ "loss": 0.0,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.8862428237295343,
7332
+ "grad_norm": 0.038068246096372604,
7333
+ "learning_rate": 6.447028255917054e-06,
7334
+ "loss": 0.0014,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.8870933446736126,
7339
+ "grad_norm": 0.0016197280492633581,
7340
+ "learning_rate": 6.352191156505627e-06,
7341
+ "loss": 0.0,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.8879438656176908,
7346
+ "grad_norm": 0.0014983288710936904,
7347
+ "learning_rate": 6.258033886587911e-06,
7348
+ "loss": 0.0,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.8887943865617691,
7353
+ "grad_norm": 0.0010780243901535869,
7354
+ "learning_rate": 6.164557129691828e-06,
7355
+ "loss": 0.0,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.8896449075058473,
7360
+ "grad_norm": 0.028386157006025314,
7361
+ "learning_rate": 6.0717615644051206e-06,
7362
+ "loss": 0.0005,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.8904954284499256,
7367
+ "grad_norm": 0.04397013410925865,
7368
+ "learning_rate": 5.979647864370486e-06,
7369
+ "loss": 0.0003,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.8913459493940038,
7374
+ "grad_norm": 0.012656325474381447,
7375
+ "learning_rate": 5.888216698280647e-06,
7376
+ "loss": 0.0001,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.892196470338082,
7381
+ "grad_norm": 0.1734493225812912,
7382
+ "learning_rate": 5.7974687298735454e-06,
7383
+ "loss": 0.0154,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.8930469912821604,
7388
+ "grad_norm": 0.000472019863082096,
7389
+ "learning_rate": 5.7074046179275255e-06,
7390
+ "loss": 0.0,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.8938975122262386,
7395
+ "grad_norm": 0.00034415998379699886,
7396
+ "learning_rate": 5.6180250162564455e-06,
7397
+ "loss": 0.0,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.8947480331703168,
7402
+ "grad_norm": 0.0013606211869046092,
7403
+ "learning_rate": 5.5293305737050825e-06,
7404
+ "loss": 0.0,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.895598554114395,
7409
+ "grad_norm": 0.5288904309272766,
7410
+ "learning_rate": 5.441321934144339e-06,
7411
+ "loss": 0.0518,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.8964490750584733,
7416
+ "grad_norm": 0.7525143623352051,
7417
+ "learning_rate": 5.35399973646653e-06,
7418
+ "loss": 0.4367,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.8972995960025516,
7423
+ "grad_norm": 0.005883703473955393,
7424
+ "learning_rate": 5.267364614580861e-06,
7425
+ "loss": 0.0001,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.8981501169466298,
7430
+ "grad_norm": 0.005223916843533516,
7431
+ "learning_rate": 5.181417197408734e-06,
7432
+ "loss": 0.0001,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.899000637890708,
7437
+ "grad_norm": 0.4108918309211731,
7438
+ "learning_rate": 5.09615810887919e-06,
7439
+ "loss": 0.1626,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.8998511588347863,
7444
+ "grad_norm": 0.0016185216372832656,
7445
+ "learning_rate": 5.011587967924414e-06,
7446
+ "loss": 0.0,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.9007016797788645,
7451
+ "grad_norm": 0.3748146593570709,
7452
+ "learning_rate": 4.927707388475255e-06,
7453
+ "loss": 0.0021,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.9015522007229428,
7458
+ "grad_norm": 0.007718178443610668,
7459
+ "learning_rate": 4.84451697945667e-06,
7460
+ "loss": 0.0001,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.9024027216670211,
7465
+ "grad_norm": 0.012174539268016815,
7466
+ "learning_rate": 4.7620173447834425e-06,
7467
+ "loss": 0.0002,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.9032532426110993,
7472
+ "grad_norm": 0.0006132922135293484,
7473
+ "learning_rate": 4.680209083355713e-06,
7474
+ "loss": 0.0,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.9041037635551775,
7479
+ "grad_norm": 0.002937986981123686,
7480
+ "learning_rate": 4.5990927890545935e-06,
7481
+ "loss": 0.0001,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.9049542844992557,
7486
+ "grad_norm": 0.7824756503105164,
7487
+ "learning_rate": 4.518669050737989e-06,
7488
+ "loss": 0.0904,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.9058048054433341,
7493
+ "grad_norm": 0.0005149356438778341,
7494
+ "learning_rate": 4.438938452236219e-06,
7495
+ "loss": 0.0,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.9066553263874123,
7500
+ "grad_norm": 0.009272913448512554,
7501
+ "learning_rate": 4.359901572347758e-06,
7502
+ "loss": 0.0001,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.9075058473314905,
7507
+ "grad_norm": 0.00028388964710757136,
7508
+ "learning_rate": 4.281558984835143e-06,
7509
+ "loss": 0.0,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.9083563682755688,
7514
+ "grad_norm": 0.0022784206084907055,
7515
+ "learning_rate": 4.203911258420712e-06,
7516
+ "loss": 0.0,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.909206889219647,
7521
+ "grad_norm": 0.05306028574705124,
7522
+ "learning_rate": 4.126958956782545e-06,
7523
+ "loss": 0.0004,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.9100574101637253,
7528
+ "grad_norm": 0.0013846143847331405,
7529
+ "learning_rate": 4.050702638550275e-06,
7530
+ "loss": 0.0,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.9109079311078035,
7535
+ "grad_norm": 0.0024379994720220566,
7536
+ "learning_rate": 3.975142857301117e-06,
7537
+ "loss": 0.0,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.9117584520518818,
7542
+ "grad_norm": 0.0023038743529468775,
7543
+ "learning_rate": 3.900280161555881e-06,
7544
+ "loss": 0.0,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.91260897299596,
7549
+ "grad_norm": 0.004573081620037556,
7550
+ "learning_rate": 3.826115094774863e-06,
7551
+ "loss": 0.0,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.9134594939400382,
7556
+ "grad_norm": 0.3466576635837555,
7557
+ "learning_rate": 3.7526481953539915e-06,
7558
+ "loss": 0.196,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.9143100148841166,
7563
+ "grad_norm": 0.003363919211551547,
7564
+ "learning_rate": 3.6798799966209497e-06,
7565
+ "loss": 0.0001,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.9151605358281948,
7570
+ "grad_norm": 0.018163656815886497,
7571
+ "learning_rate": 3.607811026831176e-06,
7572
+ "loss": 0.0002,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.916011056772273,
7577
+ "grad_norm": 0.20138134062290192,
7578
+ "learning_rate": 3.5364418091641373e-06,
7579
+ "loss": 0.0334,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.9168615777163512,
7584
+ "grad_norm": 0.001808510278351605,
7585
+ "learning_rate": 3.4657728617195295e-06,
7586
+ "loss": 0.0,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.9177120986604295,
7591
+ "grad_norm": 0.0017096162773668766,
7592
+ "learning_rate": 3.3958046975134495e-06,
7593
+ "loss": 0.0,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.9185626196045078,
7598
+ "grad_norm": 0.0005953474901616573,
7599
+ "learning_rate": 3.32653782447474e-06,
7600
+ "loss": 0.0,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.919413140548586,
7605
+ "grad_norm": 0.004298856481909752,
7606
+ "learning_rate": 3.25797274544124e-06,
7607
+ "loss": 0.0001,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.9202636614926643,
7612
+ "grad_norm": 0.002039003884419799,
7613
+ "learning_rate": 3.1901099581561845e-06,
7614
+ "loss": 0.0,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.9211141824367425,
7619
+ "grad_norm": 0.001115692313760519,
7620
+ "learning_rate": 3.122949955264587e-06,
7621
+ "loss": 0.0,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.9219647033808207,
7626
+ "grad_norm": 0.2122720181941986,
7627
+ "learning_rate": 3.0564932243095866e-06,
7628
+ "loss": 0.0247,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.922815224324899,
7633
+ "grad_norm": 0.00124736235011369,
7634
+ "learning_rate": 2.9907402477290514e-06,
7635
+ "loss": 0.0,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.9236657452689773,
7640
+ "grad_norm": 0.0018914814572781324,
7641
+ "learning_rate": 2.9256915028519573e-06,
7642
+ "loss": 0.0,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.9245162662130555,
7647
+ "grad_norm": 0.004694733303040266,
7648
+ "learning_rate": 2.8613474618949366e-06,
7649
+ "loss": 0.0001,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.9253667871571337,
7654
+ "grad_norm": 0.0012700894149020314,
7655
+ "learning_rate": 2.7977085919589254e-06,
7656
+ "loss": 0.0,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.926217308101212,
7661
+ "grad_norm": 0.004338019993156195,
7662
+ "learning_rate": 2.7347753550256872e-06,
7663
+ "loss": 0.0001,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.9270678290452903,
7668
+ "grad_norm": 0.002987890038639307,
7669
+ "learning_rate": 2.672548207954495e-06,
7670
+ "loss": 0.0001,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.9279183499893685,
7675
+ "grad_norm": 0.0015783924609422684,
7676
+ "learning_rate": 2.6110276024788214e-06,
7677
+ "loss": 0.0,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.9287688709334467,
7682
+ "grad_norm": 0.35654622316360474,
7683
+ "learning_rate": 2.550213985203076e-06,
7684
+ "loss": 0.2103,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.929619391877525,
7689
+ "grad_norm": 0.11158006638288498,
7690
+ "learning_rate": 2.4901077975992838e-06,
7691
+ "loss": 0.0006,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.9304699128216032,
7696
+ "grad_norm": 0.010829475708305836,
7697
+ "learning_rate": 2.4307094760039785e-06,
7698
+ "loss": 0.0001,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.9313204337656815,
7703
+ "grad_norm": 0.0030248076654970646,
7704
+ "learning_rate": 2.3720194516149818e-06,
7705
+ "loss": 0.0001,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.9321709547097597,
7710
+ "grad_norm": 0.0014640094013884664,
7711
+ "learning_rate": 2.3140381504882737e-06,
7712
+ "loss": 0.0,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.933021475653838,
7717
+ "grad_norm": 0.0008128189365379512,
7718
+ "learning_rate": 2.2567659935349372e-06,
7719
+ "loss": 0.0,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.9338719965979162,
7724
+ "grad_norm": 0.0035258422140032053,
7725
+ "learning_rate": 2.200203396517997e-06,
7726
+ "loss": 0.0001,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 0.9347225175419944,
7731
+ "grad_norm": 0.0015538453590124846,
7732
+ "learning_rate": 2.144350770049597e-06,
7733
+ "loss": 0.0,
7734
+ "step": 1099
7735
+ },
7736
+ {
7737
+ "epoch": 0.9355730384860728,
7738
+ "grad_norm": 0.015010025352239609,
7739
+ "learning_rate": 2.0892085195878154e-06,
7740
+ "loss": 0.0001,
7741
+ "step": 1100
7742
+ },
7743
+ {
7744
+ "epoch": 0.936423559430151,
7745
+ "grad_norm": 0.0041908458806574345,
7746
+ "learning_rate": 2.034777045433811e-06,
7747
+ "loss": 0.0001,
7748
+ "step": 1101
7749
+ },
7750
+ {
7751
+ "epoch": 0.9372740803742292,
7752
+ "grad_norm": 0.011316432617604733,
7753
+ "learning_rate": 1.9810567427289595e-06,
7754
+ "loss": 0.0003,
7755
+ "step": 1102
7756
+ },
7757
+ {
7758
+ "epoch": 0.9381246013183074,
7759
+ "grad_norm": 0.00042547803604975343,
7760
+ "learning_rate": 1.92804800145191e-06,
7761
+ "loss": 0.0,
7762
+ "step": 1103
7763
+ },
7764
+ {
7765
+ "epoch": 0.9389751222623857,
7766
+ "grad_norm": 0.0004126932180952281,
7767
+ "learning_rate": 1.8757512064157656e-06,
7768
+ "loss": 0.0,
7769
+ "step": 1104
7770
+ },
7771
+ {
7772
+ "epoch": 0.939825643206464,
7773
+ "grad_norm": 0.020872823894023895,
7774
+ "learning_rate": 1.8241667372653316e-06,
7775
+ "loss": 0.0001,
7776
+ "step": 1105
7777
+ },
7778
+ {
7779
+ "epoch": 0.9406761641505422,
7780
+ "grad_norm": 0.001536053721792996,
7781
+ "learning_rate": 1.7732949684743594e-06,
7782
+ "loss": 0.0,
7783
+ "step": 1106
7784
+ },
7785
+ {
7786
+ "epoch": 0.9415266850946205,
7787
+ "grad_norm": 0.0015412551583722234,
7788
+ "learning_rate": 1.7231362693427288e-06,
7789
+ "loss": 0.0,
7790
+ "step": 1107
7791
+ },
7792
+ {
7793
+ "epoch": 0.9423772060386987,
7794
+ "grad_norm": 0.0006857674452476203,
7795
+ "learning_rate": 1.6736910039939157e-06,
7796
+ "loss": 0.0,
7797
+ "step": 1108
7798
+ },
7799
+ {
7800
+ "epoch": 0.9432277269827769,
7801
+ "grad_norm": 0.001812007394619286,
7802
+ "learning_rate": 1.62495953137225e-06,
7803
+ "loss": 0.0,
7804
+ "step": 1109
7805
+ },
7806
+ {
7807
+ "epoch": 0.9440782479268552,
7808
+ "grad_norm": 0.12786272168159485,
7809
+ "learning_rate": 1.576942205240317e-06,
7810
+ "loss": 0.0016,
7811
+ "step": 1110
7812
+ },
7813
+ {
7814
+ "epoch": 0.9449287688709335,
7815
+ "grad_norm": 0.006630559917539358,
7816
+ "learning_rate": 1.5296393741764391e-06,
7817
+ "loss": 0.0,
7818
+ "step": 1111
7819
+ },
7820
+ {
7821
+ "epoch": 0.9457792898150117,
7822
+ "grad_norm": 0.002419151598587632,
7823
+ "learning_rate": 1.4830513815720759e-06,
7824
+ "loss": 0.0,
7825
+ "step": 1112
7826
+ },
7827
+ {
7828
+ "epoch": 0.9466298107590899,
7829
+ "grad_norm": 0.0012673793826252222,
7830
+ "learning_rate": 1.4371785656294046e-06,
7831
+ "loss": 0.0,
7832
+ "step": 1113
7833
+ },
7834
+ {
7835
+ "epoch": 0.9474803317031681,
7836
+ "grad_norm": 0.0014251354150474072,
7837
+ "learning_rate": 1.392021259358811e-06,
7838
+ "loss": 0.0,
7839
+ "step": 1114
7840
+ },
7841
+ {
7842
+ "epoch": 0.9483308526472465,
7843
+ "grad_norm": 0.001352263381704688,
7844
+ "learning_rate": 1.3475797905764809e-06,
7845
+ "loss": 0.0,
7846
+ "step": 1115
7847
+ },
7848
+ {
7849
+ "epoch": 0.9491813735913247,
7850
+ "grad_norm": 0.016607215628027916,
7851
+ "learning_rate": 1.303854481902067e-06,
7852
+ "loss": 0.0002,
7853
+ "step": 1116
7854
+ },
7855
+ {
7856
+ "epoch": 0.9500318945354029,
7857
+ "grad_norm": 0.32031774520874023,
7858
+ "learning_rate": 1.2608456507562705e-06,
7859
+ "loss": 0.1217,
7860
+ "step": 1117
7861
+ },
7862
+ {
7863
+ "epoch": 0.9508824154794812,
7864
+ "grad_norm": 0.0008782391669228673,
7865
+ "learning_rate": 1.2185536093585747e-06,
7866
+ "loss": 0.0,
7867
+ "step": 1118
7868
+ },
7869
+ {
7870
+ "epoch": 0.9517329364235594,
7871
+ "grad_norm": 0.0014548399485647678,
7872
+ "learning_rate": 1.1769786647250147e-06,
7873
+ "loss": 0.0,
7874
+ "step": 1119
7875
+ },
7876
+ {
7877
+ "epoch": 0.9525834573676377,
7878
+ "grad_norm": 0.0013168943114578724,
7879
+ "learning_rate": 1.1361211186658894e-06,
7880
+ "loss": 0.0,
7881
+ "step": 1120
7882
+ },
7883
+ {
7884
+ "epoch": 0.953433978311716,
7885
+ "grad_norm": 0.0004161178949289024,
7886
+ "learning_rate": 1.0959812677835968e-06,
7887
+ "loss": 0.0,
7888
+ "step": 1121
7889
+ },
7890
+ {
7891
+ "epoch": 0.9542844992557942,
7892
+ "grad_norm": 0.07839149981737137,
7893
+ "learning_rate": 1.0565594034704918e-06,
7894
+ "loss": 0.001,
7895
+ "step": 1122
7896
+ },
7897
+ {
7898
+ "epoch": 0.9551350201998724,
7899
+ "grad_norm": 0.0434533953666687,
7900
+ "learning_rate": 1.0178558119067315e-06,
7901
+ "loss": 0.0007,
7902
+ "step": 1123
7903
+ },
7904
+ {
7905
+ "epoch": 0.9559855411439506,
7906
+ "grad_norm": 0.000861300912220031,
7907
+ "learning_rate": 9.798707740582447e-07,
7908
+ "loss": 0.0,
7909
+ "step": 1124
7910
+ },
7911
+ {
7912
+ "epoch": 0.956836062088029,
7913
+ "grad_norm": 0.7212561368942261,
7914
+ "learning_rate": 9.42604565674654e-07,
7915
+ "loss": 0.2757,
7916
+ "step": 1125
7917
+ },
7918
+ {
7919
+ "epoch": 0.9576865830321072,
7920
+ "grad_norm": 0.25423088669776917,
7921
+ "learning_rate": 9.060574572873237e-07,
7922
+ "loss": 0.0784,
7923
+ "step": 1126
7924
+ },
7925
+ {
7926
+ "epoch": 0.9585371039761854,
7927
+ "grad_norm": 0.0014694795245304704,
7928
+ "learning_rate": 8.702297142073379e-07,
7929
+ "loss": 0.0,
7930
+ "step": 1127
7931
+ },
7932
+ {
7933
+ "epoch": 0.9593876249202636,
7934
+ "grad_norm": 0.0009931382955983281,
7935
+ "learning_rate": 8.351215965235915e-07,
7936
+ "loss": 0.0,
7937
+ "step": 1128
7938
+ },
7939
+ {
7940
+ "epoch": 0.9602381458643419,
7941
+ "grad_norm": 0.016378816217184067,
7942
+ "learning_rate": 8.007333591009358e-07,
7943
+ "loss": 0.0002,
7944
+ "step": 1129
7945
+ },
7946
+ {
7947
+ "epoch": 0.9610886668084202,
7948
+ "grad_norm": 0.13470037281513214,
7949
+ "learning_rate": 7.670652515782917e-07,
7950
+ "loss": 0.0005,
7951
+ "step": 1130
7952
+ },
7953
+ {
7954
+ "epoch": 0.9619391877524984,
7955
+ "grad_norm": 0.0013478301698341966,
7956
+ "learning_rate": 7.341175183668503e-07,
7957
+ "loss": 0.0,
7958
+ "step": 1131
7959
+ },
7960
+ {
7961
+ "epoch": 0.9627897086965767,
7962
+ "grad_norm": 0.019255133345723152,
7963
+ "learning_rate": 7.018903986483083e-07,
7964
+ "loss": 0.0001,
7965
+ "step": 1132
7966
+ },
7967
+ {
7968
+ "epoch": 0.9636402296406549,
7969
+ "grad_norm": 0.0006032510427758098,
7970
+ "learning_rate": 6.703841263730914e-07,
7971
+ "loss": 0.0,
7972
+ "step": 1133
7973
+ },
7974
+ {
7975
+ "epoch": 0.9644907505847331,
7976
+ "grad_norm": 0.0024667796678841114,
7977
+ "learning_rate": 6.395989302587113e-07,
7978
+ "loss": 0.0,
7979
+ "step": 1134
7980
+ },
7981
+ {
7982
+ "epoch": 0.9653412715288114,
7983
+ "grad_norm": 0.0005207167123444378,
7984
+ "learning_rate": 6.095350337880667e-07,
7985
+ "loss": 0.0,
7986
+ "step": 1135
7987
+ },
7988
+ {
7989
+ "epoch": 0.9661917924728897,
7990
+ "grad_norm": 0.0024806195870041847,
7991
+ "learning_rate": 5.801926552078563e-07,
7992
+ "loss": 0.0,
7993
+ "step": 1136
7994
+ },
7995
+ {
7996
+ "epoch": 0.9670423134169679,
7997
+ "grad_norm": 0.0017872819444164634,
7998
+ "learning_rate": 5.515720075269348e-07,
7999
+ "loss": 0.0,
8000
+ "step": 1137
8001
+ },
8002
+ {
8003
+ "epoch": 0.9678928343610461,
8004
+ "grad_norm": 0.005148049909621477,
8005
+ "learning_rate": 5.236732985148374e-07,
8006
+ "loss": 0.0,
8007
+ "step": 1138
8008
+ },
8009
+ {
8010
+ "epoch": 0.9687433553051243,
8011
+ "grad_norm": 0.0354243703186512,
8012
+ "learning_rate": 4.964967307002244e-07,
8013
+ "loss": 0.0001,
8014
+ "step": 1139
8015
+ },
8016
+ {
8017
+ "epoch": 0.9695938762492027,
8018
+ "grad_norm": 0.004409493412822485,
8019
+ "learning_rate": 4.7004250136940543e-07,
8020
+ "loss": 0.0001,
8021
+ "step": 1140
8022
+ },
8023
+ {
8024
+ "epoch": 0.9704443971932809,
8025
+ "grad_norm": 0.2903118133544922,
8026
+ "learning_rate": 4.443108025649623e-07,
8027
+ "loss": 0.0886,
8028
+ "step": 1141
8029
+ },
8030
+ {
8031
+ "epoch": 0.9712949181373591,
8032
+ "grad_norm": 0.04813099652528763,
8033
+ "learning_rate": 4.193018210843058e-07,
8034
+ "loss": 0.0005,
8035
+ "step": 1142
8036
+ },
8037
+ {
8038
+ "epoch": 0.9721454390814374,
8039
+ "grad_norm": 0.00046808290062472224,
8040
+ "learning_rate": 3.950157384783104e-07,
8041
+ "loss": 0.0,
8042
+ "step": 1143
8043
+ },
8044
+ {
8045
+ "epoch": 0.9729959600255156,
8046
+ "grad_norm": 0.020501460880041122,
8047
+ "learning_rate": 3.714527310500371e-07,
8048
+ "loss": 0.0003,
8049
+ "step": 1144
8050
+ },
8051
+ {
8052
+ "epoch": 0.9738464809695939,
8053
+ "grad_norm": 0.002293792786076665,
8054
+ "learning_rate": 3.486129698534457e-07,
8055
+ "loss": 0.0,
8056
+ "step": 1145
8057
+ },
8058
+ {
8059
+ "epoch": 0.9746970019136721,
8060
+ "grad_norm": 0.012932348065078259,
8061
+ "learning_rate": 3.264966206921294e-07,
8062
+ "loss": 0.0002,
8063
+ "step": 1146
8064
+ },
8065
+ {
8066
+ "epoch": 0.9755475228577504,
8067
+ "grad_norm": 0.0005131060024723411,
8068
+ "learning_rate": 3.0510384411812644e-07,
8069
+ "loss": 0.0,
8070
+ "step": 1147
8071
+ },
8072
+ {
8073
+ "epoch": 0.9763980438018286,
8074
+ "grad_norm": 0.00155288923997432,
8075
+ "learning_rate": 2.844347954307325e-07,
8076
+ "loss": 0.0,
8077
+ "step": 1148
8078
+ },
8079
+ {
8080
+ "epoch": 0.9772485647459068,
8081
+ "grad_norm": 0.005152186378836632,
8082
+ "learning_rate": 2.644896246754236e-07,
8083
+ "loss": 0.0001,
8084
+ "step": 1149
8085
+ },
8086
+ {
8087
+ "epoch": 0.9780990856899852,
8088
+ "grad_norm": 0.0010022342903539538,
8089
+ "learning_rate": 2.452684766427349e-07,
8090
+ "loss": 0.0,
8091
+ "step": 1150
8092
+ },
8093
+ {
8094
+ "epoch": 0.9789496066340634,
8095
+ "grad_norm": 0.12269195169210434,
8096
+ "learning_rate": 2.2677149086718364e-07,
8097
+ "loss": 0.001,
8098
+ "step": 1151
8099
+ },
8100
+ {
8101
+ "epoch": 0.9798001275781416,
8102
+ "grad_norm": 0.003010947024449706,
8103
+ "learning_rate": 2.0899880162630336e-07,
8104
+ "loss": 0.0001,
8105
+ "step": 1152
8106
+ },
8107
+ {
8108
+ "epoch": 0.9806506485222198,
8109
+ "grad_norm": 0.0014030187157914042,
8110
+ "learning_rate": 1.9195053793964468e-07,
8111
+ "loss": 0.0,
8112
+ "step": 1153
8113
+ },
8114
+ {
8115
+ "epoch": 0.9815011694662981,
8116
+ "grad_norm": 0.001980735221877694,
8117
+ "learning_rate": 1.7562682356786487e-07,
8118
+ "loss": 0.0,
8119
+ "step": 1154
8120
+ },
8121
+ {
8122
+ "epoch": 0.9823516904103764,
8123
+ "grad_norm": 0.0009545221109874547,
8124
+ "learning_rate": 1.6002777701175086e-07,
8125
+ "loss": 0.0,
8126
+ "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.9832022113544546,
8130
+ "grad_norm": 0.0007374730193987489,
8131
+ "learning_rate": 1.451535115114866e-07,
8132
+ "loss": 0.0,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.9840527322985329,
8137
+ "grad_norm": 0.0327923409640789,
8138
+ "learning_rate": 1.310041350457092e-07,
8139
+ "loss": 0.0005,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.9849032532426111,
8144
+ "grad_norm": 0.016245972365140915,
8145
+ "learning_rate": 1.1757975033078739e-07,
8146
+ "loss": 0.0001,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.9857537741866893,
8151
+ "grad_norm": 0.0017915664939209819,
8152
+ "learning_rate": 1.0488045482008879e-07,
8153
+ "loss": 0.0,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.9866042951307676,
8158
+ "grad_norm": 0.3703106641769409,
8159
+ "learning_rate": 9.29063407032249e-08,
8160
+ "loss": 0.0019,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.9874548160748459,
8165
+ "grad_norm": 0.007957980036735535,
8166
+ "learning_rate": 8.16574949054072e-08,
8167
+ "loss": 0.0001,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.9883053370189241,
8172
+ "grad_norm": 0.01023927889764309,
8173
+ "learning_rate": 7.113399908681429e-08,
8174
+ "loss": 0.0002,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.9891558579630023,
8179
+ "grad_norm": 0.000899231992661953,
8180
+ "learning_rate": 6.133592964201463e-08,
8181
+ "loss": 0.0,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.9900063789070805,
8186
+ "grad_norm": 0.002500977599993348,
8187
+ "learning_rate": 5.226335769936697e-08,
8188
+ "loss": 0.0001,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.9908568998511589,
8193
+ "grad_norm": 0.0023706620559096336,
8194
+ "learning_rate": 4.391634912056519e-08,
8195
+ "loss": 0.0,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.9917074207952371,
8200
+ "grad_norm": 0.5007714033126831,
8201
+ "learning_rate": 3.629496450011649e-08,
8202
+ "loss": 0.1143,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.9925579417393153,
8207
+ "grad_norm": 0.021982787176966667,
8208
+ "learning_rate": 2.9399259164897274e-08,
8209
+ "loss": 0.0002,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.9934084626833936,
8214
+ "grad_norm": 0.05717799812555313,
8215
+ "learning_rate": 2.322928317378681e-08,
8216
+ "loss": 0.0003,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.9942589836274718,
8221
+ "grad_norm": 0.008610503748059273,
8222
+ "learning_rate": 1.778508131728973e-08,
8223
+ "loss": 0.0001,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.9951095045715501,
8228
+ "grad_norm": 0.34911465644836426,
8229
+ "learning_rate": 1.3066693117191886e-08,
8230
+ "loss": 0.116,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.9959600255156283,
8235
+ "grad_norm": 0.0007158018415793777,
8236
+ "learning_rate": 9.074152826271665e-09,
8237
+ "loss": 0.0,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.9968105464597066,
8242
+ "grad_norm": 0.0011602974263951182,
8243
+ "learning_rate": 5.807489428111268e-09,
8244
+ "loss": 0.0,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.9976610674037848,
8249
+ "grad_norm": 0.006792049389332533,
8250
+ "learning_rate": 3.2667266368080484e-09,
8251
+ "loss": 0.0001,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.998511588347863,
8256
+ "grad_norm": 0.37066981196403503,
8257
+ "learning_rate": 1.4518828968523857e-09,
8258
+ "loss": 0.1895,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.9993621092919414,
8263
+ "grad_norm": 0.0018858679104596376,
8264
+ "learning_rate": 3.629713829500503e-10,
8265
+ "loss": 0.0,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 1.0006378907080586,
8270
+ "grad_norm": 0.002138101030141115,
8271
+ "learning_rate": 0.0,
8272
+ "loss": 0.0,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 1.0006378907080586,
8277
+ "eval_loss": 0.006957483943551779,
8278
+ "eval_runtime": 17.0056,
8279
+ "eval_samples_per_second": 29.108,
8280
+ "eval_steps_per_second": 14.583,
8281
+ "step": 1176
8282
  }
8283
  ],
8284
  "logging_steps": 1,
 
8293
  "should_evaluate": false,
8294
  "should_log": false,
8295
  "should_save": true,
8296
+ "should_training_stop": true
8297
  },
8298
  "attributes": {}
8299
  }
8300
  },
8301
+ "total_flos": 7.83402468554834e+16,
8302
  "train_batch_size": 2,
8303
  "trial_name": null,
8304
  "trial_params": null