ErrorAI commited on
Commit
516db25
·
verified ·
1 Parent(s): 2affb7b

Training in progress, step 1203, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:619ea3fd1697b3ee2bbc46a1f847eea111db679dc3440d71bd3707db1a562cc3
3
  size 100059752
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f5766c9076aa65820bd20114ead0fddc573d82a8d44c1c7266ebce7fed9751ce
3
  size 100059752
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c63b7d6725b640679383e5ee4783999ae131909724d0299cfb97433fdfcb21f5
3
  size 51244404
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:79c1191b1d61fd2fc498d2424137ea0f51d2cfa6d721e5df1fc14f2eee9e6403
3
  size 51244404
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d0972dd53969fe33a492376a10e686a7977f2f704de99b5c58add0857002267b
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8cdc455725f19e73c6431fdb94cdc19a0e5e952d9bce5b35d5315287d5e0ef7e
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9ebcbeb8e1bb93293e84e7b165de7e366ad76e2ea152f7f829e38adda2fb2775
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9b4f7b1adcf3f1039fcdf81d8121c4a3574bf90804ee42c6615ea449229e14ac
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7510917030567685,
5
  "eval_steps": 301,
6
- "global_step": 903,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6360,6 +6360,2106 @@
6360
  "eval_samples_per_second": 15.319,
6361
  "eval_steps_per_second": 7.674,
6362
  "step": 903
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6363
  }
6364
  ],
6365
  "logging_steps": 1,
@@ -6374,12 +8474,12 @@
6374
  "should_evaluate": false,
6375
  "should_log": false,
6376
  "should_save": true,
6377
- "should_training_stop": false
6378
  },
6379
  "attributes": {}
6380
  }
6381
  },
6382
- "total_flos": 3.451431097781453e+17,
6383
  "train_batch_size": 2,
6384
  "trial_name": null,
6385
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.0006238303181534,
5
  "eval_steps": 301,
6
+ "global_step": 1203,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6360
  "eval_samples_per_second": 15.319,
6361
  "eval_steps_per_second": 7.674,
6362
  "step": 903
6363
+ },
6364
+ {
6365
+ "epoch": 0.7519234768143065,
6366
+ "grad_norm": 0.45154818892478943,
6367
+ "learning_rate": 2.942911444520342e-05,
6368
+ "loss": 0.4398,
6369
+ "step": 904
6370
+ },
6371
+ {
6372
+ "epoch": 0.7527552505718444,
6373
+ "grad_norm": 0.4417174160480499,
6374
+ "learning_rate": 2.9242785626565138e-05,
6375
+ "loss": 0.4324,
6376
+ "step": 905
6377
+ },
6378
+ {
6379
+ "epoch": 0.7535870243293824,
6380
+ "grad_norm": 0.48358669877052307,
6381
+ "learning_rate": 2.90569474777329e-05,
6382
+ "loss": 0.4895,
6383
+ "step": 906
6384
+ },
6385
+ {
6386
+ "epoch": 0.7544187980869204,
6387
+ "grad_norm": 0.4476510286331177,
6388
+ "learning_rate": 2.887160128741163e-05,
6389
+ "loss": 0.4196,
6390
+ "step": 907
6391
+ },
6392
+ {
6393
+ "epoch": 0.7552505718444583,
6394
+ "grad_norm": 0.46220117807388306,
6395
+ "learning_rate": 2.868674834089474e-05,
6396
+ "loss": 0.4528,
6397
+ "step": 908
6398
+ },
6399
+ {
6400
+ "epoch": 0.7560823456019963,
6401
+ "grad_norm": 0.4371815323829651,
6402
+ "learning_rate": 2.850238992005514e-05,
6403
+ "loss": 0.4295,
6404
+ "step": 909
6405
+ },
6406
+ {
6407
+ "epoch": 0.7569141193595342,
6408
+ "grad_norm": 0.4548187255859375,
6409
+ "learning_rate": 2.831852730333646e-05,
6410
+ "loss": 0.4048,
6411
+ "step": 910
6412
+ },
6413
+ {
6414
+ "epoch": 0.7577458931170722,
6415
+ "grad_norm": 0.4508820176124573,
6416
+ "learning_rate": 2.81351617657442e-05,
6417
+ "loss": 0.4449,
6418
+ "step": 911
6419
+ },
6420
+ {
6421
+ "epoch": 0.7585776668746101,
6422
+ "grad_norm": 0.45161473751068115,
6423
+ "learning_rate": 2.795229457883678e-05,
6424
+ "loss": 0.4065,
6425
+ "step": 912
6426
+ },
6427
+ {
6428
+ "epoch": 0.7594094406321481,
6429
+ "grad_norm": 0.46211326122283936,
6430
+ "learning_rate": 2.776992701071681e-05,
6431
+ "loss": 0.4616,
6432
+ "step": 913
6433
+ },
6434
+ {
6435
+ "epoch": 0.7602412143896861,
6436
+ "grad_norm": 0.4814813435077667,
6437
+ "learning_rate": 2.7588060326022204e-05,
6438
+ "loss": 0.4786,
6439
+ "step": 914
6440
+ },
6441
+ {
6442
+ "epoch": 0.7610729881472239,
6443
+ "grad_norm": 0.4523828327655792,
6444
+ "learning_rate": 2.7406695785917548e-05,
6445
+ "loss": 0.4583,
6446
+ "step": 915
6447
+ },
6448
+ {
6449
+ "epoch": 0.7619047619047619,
6450
+ "grad_norm": 0.4711090624332428,
6451
+ "learning_rate": 2.722583464808528e-05,
6452
+ "loss": 0.4626,
6453
+ "step": 916
6454
+ },
6455
+ {
6456
+ "epoch": 0.7627365356622998,
6457
+ "grad_norm": 0.4674610197544098,
6458
+ "learning_rate": 2.7045478166716843e-05,
6459
+ "loss": 0.4564,
6460
+ "step": 917
6461
+ },
6462
+ {
6463
+ "epoch": 0.7635683094198378,
6464
+ "grad_norm": 0.4593535363674164,
6465
+ "learning_rate": 2.6865627592504293e-05,
6466
+ "loss": 0.4415,
6467
+ "step": 918
6468
+ },
6469
+ {
6470
+ "epoch": 0.7644000831773757,
6471
+ "grad_norm": 0.48565688729286194,
6472
+ "learning_rate": 2.668628417263137e-05,
6473
+ "loss": 0.4568,
6474
+ "step": 919
6475
+ },
6476
+ {
6477
+ "epoch": 0.7652318569349137,
6478
+ "grad_norm": 0.45922335982322693,
6479
+ "learning_rate": 2.650744915076485e-05,
6480
+ "loss": 0.4595,
6481
+ "step": 920
6482
+ },
6483
+ {
6484
+ "epoch": 0.7660636306924516,
6485
+ "grad_norm": 0.4446061849594116,
6486
+ "learning_rate": 2.6329123767046072e-05,
6487
+ "loss": 0.4567,
6488
+ "step": 921
6489
+ },
6490
+ {
6491
+ "epoch": 0.7668954044499896,
6492
+ "grad_norm": 0.4568280279636383,
6493
+ "learning_rate": 2.615130925808228e-05,
6494
+ "loss": 0.4301,
6495
+ "step": 922
6496
+ },
6497
+ {
6498
+ "epoch": 0.7677271782075276,
6499
+ "grad_norm": 0.437994122505188,
6500
+ "learning_rate": 2.597400685693795e-05,
6501
+ "loss": 0.4077,
6502
+ "step": 923
6503
+ },
6504
+ {
6505
+ "epoch": 0.7685589519650655,
6506
+ "grad_norm": 0.47482725977897644,
6507
+ "learning_rate": 2.5797217793126372e-05,
6508
+ "loss": 0.4414,
6509
+ "step": 924
6510
+ },
6511
+ {
6512
+ "epoch": 0.7693907257226035,
6513
+ "grad_norm": 0.4981728196144104,
6514
+ "learning_rate": 2.5620943292601075e-05,
6515
+ "loss": 0.5072,
6516
+ "step": 925
6517
+ },
6518
+ {
6519
+ "epoch": 0.7702224994801414,
6520
+ "grad_norm": 0.4595918357372284,
6521
+ "learning_rate": 2.5445184577747307e-05,
6522
+ "loss": 0.4303,
6523
+ "step": 926
6524
+ },
6525
+ {
6526
+ "epoch": 0.7710542732376794,
6527
+ "grad_norm": 0.4366806447505951,
6528
+ "learning_rate": 2.5269942867373598e-05,
6529
+ "loss": 0.4047,
6530
+ "step": 927
6531
+ },
6532
+ {
6533
+ "epoch": 0.7718860469952173,
6534
+ "grad_norm": 0.42185187339782715,
6535
+ "learning_rate": 2.5095219376703184e-05,
6536
+ "loss": 0.394,
6537
+ "step": 928
6538
+ },
6539
+ {
6540
+ "epoch": 0.7727178207527553,
6541
+ "grad_norm": 0.42919063568115234,
6542
+ "learning_rate": 2.492101531736579e-05,
6543
+ "loss": 0.3702,
6544
+ "step": 929
6545
+ },
6546
+ {
6547
+ "epoch": 0.7735495945102931,
6548
+ "grad_norm": 0.4393722414970398,
6549
+ "learning_rate": 2.4747331897389104e-05,
6550
+ "loss": 0.4539,
6551
+ "step": 930
6552
+ },
6553
+ {
6554
+ "epoch": 0.7743813682678311,
6555
+ "grad_norm": 0.4793844521045685,
6556
+ "learning_rate": 2.4574170321190303e-05,
6557
+ "loss": 0.4688,
6558
+ "step": 931
6559
+ },
6560
+ {
6561
+ "epoch": 0.7752131420253691,
6562
+ "grad_norm": 0.4290564954280853,
6563
+ "learning_rate": 2.4401531789567977e-05,
6564
+ "loss": 0.4374,
6565
+ "step": 932
6566
+ },
6567
+ {
6568
+ "epoch": 0.776044915782907,
6569
+ "grad_norm": 0.4846777617931366,
6570
+ "learning_rate": 2.4229417499693496e-05,
6571
+ "loss": 0.4552,
6572
+ "step": 933
6573
+ },
6574
+ {
6575
+ "epoch": 0.776876689540445,
6576
+ "grad_norm": 0.43358123302459717,
6577
+ "learning_rate": 2.4057828645102897e-05,
6578
+ "loss": 0.4127,
6579
+ "step": 934
6580
+ },
6581
+ {
6582
+ "epoch": 0.7777084632979829,
6583
+ "grad_norm": 0.43994030356407166,
6584
+ "learning_rate": 2.38867664156886e-05,
6585
+ "loss": 0.3671,
6586
+ "step": 935
6587
+ },
6588
+ {
6589
+ "epoch": 0.7785402370555209,
6590
+ "grad_norm": 0.49586546421051025,
6591
+ "learning_rate": 2.3716231997691008e-05,
6592
+ "loss": 0.4594,
6593
+ "step": 936
6594
+ },
6595
+ {
6596
+ "epoch": 0.7793720108130588,
6597
+ "grad_norm": 0.4775140583515167,
6598
+ "learning_rate": 2.3546226573690444e-05,
6599
+ "loss": 0.4929,
6600
+ "step": 937
6601
+ },
6602
+ {
6603
+ "epoch": 0.7802037845705968,
6604
+ "grad_norm": 0.451071560382843,
6605
+ "learning_rate": 2.3376751322599e-05,
6606
+ "loss": 0.432,
6607
+ "step": 938
6608
+ },
6609
+ {
6610
+ "epoch": 0.7810355583281348,
6611
+ "grad_norm": 0.4588756859302521,
6612
+ "learning_rate": 2.3207807419652063e-05,
6613
+ "loss": 0.4233,
6614
+ "step": 939
6615
+ },
6616
+ {
6617
+ "epoch": 0.7818673320856727,
6618
+ "grad_norm": 0.4052916169166565,
6619
+ "learning_rate": 2.3039396036400462e-05,
6620
+ "loss": 0.3442,
6621
+ "step": 940
6622
+ },
6623
+ {
6624
+ "epoch": 0.7826991058432107,
6625
+ "grad_norm": 0.4676628112792969,
6626
+ "learning_rate": 2.2871518340702258e-05,
6627
+ "loss": 0.4591,
6628
+ "step": 941
6629
+ },
6630
+ {
6631
+ "epoch": 0.7835308796007486,
6632
+ "grad_norm": 0.45338648557662964,
6633
+ "learning_rate": 2.2704175496714554e-05,
6634
+ "loss": 0.4201,
6635
+ "step": 942
6636
+ },
6637
+ {
6638
+ "epoch": 0.7843626533582866,
6639
+ "grad_norm": 0.49033913016319275,
6640
+ "learning_rate": 2.2537368664885527e-05,
6641
+ "loss": 0.4297,
6642
+ "step": 943
6643
+ },
6644
+ {
6645
+ "epoch": 0.7851944271158245,
6646
+ "grad_norm": 0.5046612620353699,
6647
+ "learning_rate": 2.2371099001946384e-05,
6648
+ "loss": 0.4662,
6649
+ "step": 944
6650
+ },
6651
+ {
6652
+ "epoch": 0.7860262008733624,
6653
+ "grad_norm": 0.4667772650718689,
6654
+ "learning_rate": 2.2205367660903263e-05,
6655
+ "loss": 0.4556,
6656
+ "step": 945
6657
+ },
6658
+ {
6659
+ "epoch": 0.7868579746309003,
6660
+ "grad_norm": 0.4427892863750458,
6661
+ "learning_rate": 2.2040175791029305e-05,
6662
+ "loss": 0.4268,
6663
+ "step": 946
6664
+ },
6665
+ {
6666
+ "epoch": 0.7876897483884383,
6667
+ "grad_norm": 0.4500638246536255,
6668
+ "learning_rate": 2.1875524537856618e-05,
6669
+ "loss": 0.4634,
6670
+ "step": 947
6671
+ },
6672
+ {
6673
+ "epoch": 0.7885215221459763,
6674
+ "grad_norm": 0.4674094021320343,
6675
+ "learning_rate": 2.171141504316839e-05,
6676
+ "loss": 0.4786,
6677
+ "step": 948
6678
+ },
6679
+ {
6680
+ "epoch": 0.7893532959035142,
6681
+ "grad_norm": 0.44143038988113403,
6682
+ "learning_rate": 2.1547848444991024e-05,
6683
+ "loss": 0.4095,
6684
+ "step": 949
6685
+ },
6686
+ {
6687
+ "epoch": 0.7901850696610522,
6688
+ "grad_norm": 0.4612862765789032,
6689
+ "learning_rate": 2.1384825877586046e-05,
6690
+ "loss": 0.4616,
6691
+ "step": 950
6692
+ },
6693
+ {
6694
+ "epoch": 0.7910168434185901,
6695
+ "grad_norm": 0.4669111669063568,
6696
+ "learning_rate": 2.122234847144248e-05,
6697
+ "loss": 0.4714,
6698
+ "step": 951
6699
+ },
6700
+ {
6701
+ "epoch": 0.7918486171761281,
6702
+ "grad_norm": 0.4334806203842163,
6703
+ "learning_rate": 2.1060417353268845e-05,
6704
+ "loss": 0.4137,
6705
+ "step": 952
6706
+ },
6707
+ {
6708
+ "epoch": 0.792680390933666,
6709
+ "grad_norm": 0.4584311246871948,
6710
+ "learning_rate": 2.0899033645985423e-05,
6711
+ "loss": 0.4528,
6712
+ "step": 953
6713
+ },
6714
+ {
6715
+ "epoch": 0.793512164691204,
6716
+ "grad_norm": 0.4858227074146271,
6717
+ "learning_rate": 2.0738198468716464e-05,
6718
+ "loss": 0.4774,
6719
+ "step": 954
6720
+ },
6721
+ {
6722
+ "epoch": 0.794343938448742,
6723
+ "grad_norm": 0.45899567008018494,
6724
+ "learning_rate": 2.0577912936782317e-05,
6725
+ "loss": 0.4579,
6726
+ "step": 955
6727
+ },
6728
+ {
6729
+ "epoch": 0.7951757122062799,
6730
+ "grad_norm": 0.4413417875766754,
6731
+ "learning_rate": 2.041817816169187e-05,
6732
+ "loss": 0.3861,
6733
+ "step": 956
6734
+ },
6735
+ {
6736
+ "epoch": 0.7960074859638179,
6737
+ "grad_norm": 0.4700511395931244,
6738
+ "learning_rate": 2.025899525113474e-05,
6739
+ "loss": 0.4471,
6740
+ "step": 957
6741
+ },
6742
+ {
6743
+ "epoch": 0.7968392597213558,
6744
+ "grad_norm": 0.4677594304084778,
6745
+ "learning_rate": 2.010036530897359e-05,
6746
+ "loss": 0.4574,
6747
+ "step": 958
6748
+ },
6749
+ {
6750
+ "epoch": 0.7976710334788938,
6751
+ "grad_norm": 0.4514382779598236,
6752
+ "learning_rate": 1.9942289435236506e-05,
6753
+ "loss": 0.4355,
6754
+ "step": 959
6755
+ },
6756
+ {
6757
+ "epoch": 0.7985028072364317,
6758
+ "grad_norm": 0.45568642020225525,
6759
+ "learning_rate": 1.9784768726109392e-05,
6760
+ "loss": 0.4268,
6761
+ "step": 960
6762
+ },
6763
+ {
6764
+ "epoch": 0.7993345809939696,
6765
+ "grad_norm": 0.47598856687545776,
6766
+ "learning_rate": 1.962780427392823e-05,
6767
+ "loss": 0.4575,
6768
+ "step": 961
6769
+ },
6770
+ {
6771
+ "epoch": 0.8001663547515075,
6772
+ "grad_norm": 0.4754261076450348,
6773
+ "learning_rate": 1.9471397167171713e-05,
6774
+ "loss": 0.4829,
6775
+ "step": 962
6776
+ },
6777
+ {
6778
+ "epoch": 0.8009981285090455,
6779
+ "grad_norm": 0.4439312219619751,
6780
+ "learning_rate": 1.931554849045355e-05,
6781
+ "loss": 0.4202,
6782
+ "step": 963
6783
+ },
6784
+ {
6785
+ "epoch": 0.8018299022665835,
6786
+ "grad_norm": 0.443600594997406,
6787
+ "learning_rate": 1.916025932451493e-05,
6788
+ "loss": 0.3892,
6789
+ "step": 964
6790
+ },
6791
+ {
6792
+ "epoch": 0.8026616760241214,
6793
+ "grad_norm": 0.4861088693141937,
6794
+ "learning_rate": 1.9005530746217238e-05,
6795
+ "loss": 0.4411,
6796
+ "step": 965
6797
+ },
6798
+ {
6799
+ "epoch": 0.8034934497816594,
6800
+ "grad_norm": 0.42934009432792664,
6801
+ "learning_rate": 1.8851363828534252e-05,
6802
+ "loss": 0.3886,
6803
+ "step": 966
6804
+ },
6805
+ {
6806
+ "epoch": 0.8043252235391973,
6807
+ "grad_norm": 0.4442944824695587,
6808
+ "learning_rate": 1.869775964054501e-05,
6809
+ "loss": 0.4428,
6810
+ "step": 967
6811
+ },
6812
+ {
6813
+ "epoch": 0.8051569972967353,
6814
+ "grad_norm": 0.49083849787712097,
6815
+ "learning_rate": 1.8544719247426222e-05,
6816
+ "loss": 0.4401,
6817
+ "step": 968
6818
+ },
6819
+ {
6820
+ "epoch": 0.8059887710542732,
6821
+ "grad_norm": 0.48380911350250244,
6822
+ "learning_rate": 1.839224371044491e-05,
6823
+ "loss": 0.4609,
6824
+ "step": 969
6825
+ },
6826
+ {
6827
+ "epoch": 0.8068205448118112,
6828
+ "grad_norm": 0.47577401995658875,
6829
+ "learning_rate": 1.8240334086951115e-05,
6830
+ "loss": 0.4557,
6831
+ "step": 970
6832
+ },
6833
+ {
6834
+ "epoch": 0.8076523185693492,
6835
+ "grad_norm": 0.4672863781452179,
6836
+ "learning_rate": 1.8088991430370506e-05,
6837
+ "loss": 0.456,
6838
+ "step": 971
6839
+ },
6840
+ {
6841
+ "epoch": 0.8084840923268871,
6842
+ "grad_norm": 0.46177253127098083,
6843
+ "learning_rate": 1.793821679019707e-05,
6844
+ "loss": 0.4676,
6845
+ "step": 972
6846
+ },
6847
+ {
6848
+ "epoch": 0.8093158660844251,
6849
+ "grad_norm": 0.4453592896461487,
6850
+ "learning_rate": 1.77880112119859e-05,
6851
+ "loss": 0.4122,
6852
+ "step": 973
6853
+ },
6854
+ {
6855
+ "epoch": 0.810147639841963,
6856
+ "grad_norm": 0.46347111463546753,
6857
+ "learning_rate": 1.76383757373458e-05,
6858
+ "loss": 0.4048,
6859
+ "step": 974
6860
+ },
6861
+ {
6862
+ "epoch": 0.810979413599501,
6863
+ "grad_norm": 0.4728952944278717,
6864
+ "learning_rate": 1.7489311403932274e-05,
6865
+ "loss": 0.4938,
6866
+ "step": 975
6867
+ },
6868
+ {
6869
+ "epoch": 0.8118111873570388,
6870
+ "grad_norm": 0.44490066170692444,
6871
+ "learning_rate": 1.7340819245440167e-05,
6872
+ "loss": 0.4376,
6873
+ "step": 976
6874
+ },
6875
+ {
6876
+ "epoch": 0.8126429611145768,
6877
+ "grad_norm": 0.42778635025024414,
6878
+ "learning_rate": 1.7192900291596492e-05,
6879
+ "loss": 0.3666,
6880
+ "step": 977
6881
+ },
6882
+ {
6883
+ "epoch": 0.8134747348721147,
6884
+ "grad_norm": 0.46628859639167786,
6885
+ "learning_rate": 1.7045555568153416e-05,
6886
+ "loss": 0.4607,
6887
+ "step": 978
6888
+ },
6889
+ {
6890
+ "epoch": 0.8143065086296527,
6891
+ "grad_norm": 0.48081284761428833,
6892
+ "learning_rate": 1.6898786096881104e-05,
6893
+ "loss": 0.4264,
6894
+ "step": 979
6895
+ },
6896
+ {
6897
+ "epoch": 0.8151382823871907,
6898
+ "grad_norm": 0.4593854546546936,
6899
+ "learning_rate": 1.6752592895560492e-05,
6900
+ "loss": 0.426,
6901
+ "step": 980
6902
+ },
6903
+ {
6904
+ "epoch": 0.8159700561447286,
6905
+ "grad_norm": 0.462982714176178,
6906
+ "learning_rate": 1.6606976977976407e-05,
6907
+ "loss": 0.409,
6908
+ "step": 981
6909
+ },
6910
+ {
6911
+ "epoch": 0.8168018299022666,
6912
+ "grad_norm": 0.48566728830337524,
6913
+ "learning_rate": 1.6461939353910493e-05,
6914
+ "loss": 0.4496,
6915
+ "step": 982
6916
+ },
6917
+ {
6918
+ "epoch": 0.8176336036598045,
6919
+ "grad_norm": 0.4559323489665985,
6920
+ "learning_rate": 1.6317481029134117e-05,
6921
+ "loss": 0.4085,
6922
+ "step": 983
6923
+ },
6924
+ {
6925
+ "epoch": 0.8184653774173425,
6926
+ "grad_norm": 0.4498133957386017,
6927
+ "learning_rate": 1.6173603005401504e-05,
6928
+ "loss": 0.396,
6929
+ "step": 984
6930
+ },
6931
+ {
6932
+ "epoch": 0.8192971511748804,
6933
+ "grad_norm": 0.46261173486709595,
6934
+ "learning_rate": 1.6030306280442764e-05,
6935
+ "loss": 0.4115,
6936
+ "step": 985
6937
+ },
6938
+ {
6939
+ "epoch": 0.8201289249324184,
6940
+ "grad_norm": 0.5084740519523621,
6941
+ "learning_rate": 1.588759184795694e-05,
6942
+ "loss": 0.5119,
6943
+ "step": 986
6944
+ },
6945
+ {
6946
+ "epoch": 0.8209606986899564,
6947
+ "grad_norm": 0.48162010312080383,
6948
+ "learning_rate": 1.5745460697605142e-05,
6949
+ "loss": 0.4707,
6950
+ "step": 987
6951
+ },
6952
+ {
6953
+ "epoch": 0.8217924724474943,
6954
+ "grad_norm": 0.40404409170150757,
6955
+ "learning_rate": 1.5603913815003633e-05,
6956
+ "loss": 0.3163,
6957
+ "step": 988
6958
+ },
6959
+ {
6960
+ "epoch": 0.8226242462050323,
6961
+ "grad_norm": 0.43817463517189026,
6962
+ "learning_rate": 1.5462952181717115e-05,
6963
+ "loss": 0.3779,
6964
+ "step": 989
6965
+ },
6966
+ {
6967
+ "epoch": 0.8234560199625702,
6968
+ "grad_norm": 0.44949933886528015,
6969
+ "learning_rate": 1.532257677525183e-05,
6970
+ "loss": 0.4216,
6971
+ "step": 990
6972
+ },
6973
+ {
6974
+ "epoch": 0.8242877937201081,
6975
+ "grad_norm": 0.4588971734046936,
6976
+ "learning_rate": 1.518278856904869e-05,
6977
+ "loss": 0.4182,
6978
+ "step": 991
6979
+ },
6980
+ {
6981
+ "epoch": 0.825119567477646,
6982
+ "grad_norm": 0.46600207686424255,
6983
+ "learning_rate": 1.5043588532476827e-05,
6984
+ "loss": 0.3981,
6985
+ "step": 992
6986
+ },
6987
+ {
6988
+ "epoch": 0.825951341235184,
6989
+ "grad_norm": 0.4738927185535431,
6990
+ "learning_rate": 1.4904977630826499e-05,
6991
+ "loss": 0.4327,
6992
+ "step": 993
6993
+ },
6994
+ {
6995
+ "epoch": 0.826783114992722,
6996
+ "grad_norm": 0.45611268281936646,
6997
+ "learning_rate": 1.476695682530268e-05,
6998
+ "loss": 0.4133,
6999
+ "step": 994
7000
+ },
7001
+ {
7002
+ "epoch": 0.8276148887502599,
7003
+ "grad_norm": 0.4523008465766907,
7004
+ "learning_rate": 1.4629527073018267e-05,
7005
+ "loss": 0.4163,
7006
+ "step": 995
7007
+ },
7008
+ {
7009
+ "epoch": 0.8284466625077979,
7010
+ "grad_norm": 0.4965008795261383,
7011
+ "learning_rate": 1.449268932698743e-05,
7012
+ "loss": 0.4769,
7013
+ "step": 996
7014
+ },
7015
+ {
7016
+ "epoch": 0.8292784362653358,
7017
+ "grad_norm": 0.4614514112472534,
7018
+ "learning_rate": 1.4356444536119084e-05,
7019
+ "loss": 0.4124,
7020
+ "step": 997
7021
+ },
7022
+ {
7023
+ "epoch": 0.8301102100228738,
7024
+ "grad_norm": 0.4713315963745117,
7025
+ "learning_rate": 1.422079364521024e-05,
7026
+ "loss": 0.4393,
7027
+ "step": 998
7028
+ },
7029
+ {
7030
+ "epoch": 0.8309419837804117,
7031
+ "grad_norm": 0.4365687668323517,
7032
+ "learning_rate": 1.4085737594939497e-05,
7033
+ "loss": 0.3662,
7034
+ "step": 999
7035
+ },
7036
+ {
7037
+ "epoch": 0.8317737575379497,
7038
+ "grad_norm": 0.44617828726768494,
7039
+ "learning_rate": 1.3951277321860467e-05,
7040
+ "loss": 0.391,
7041
+ "step": 1000
7042
+ },
7043
+ {
7044
+ "epoch": 0.8326055312954876,
7045
+ "grad_norm": 0.4467557966709137,
7046
+ "learning_rate": 1.381741375839537e-05,
7047
+ "loss": 0.3977,
7048
+ "step": 1001
7049
+ },
7050
+ {
7051
+ "epoch": 0.8334373050530256,
7052
+ "grad_norm": 0.4606059789657593,
7053
+ "learning_rate": 1.3684147832828408e-05,
7054
+ "loss": 0.4407,
7055
+ "step": 1002
7056
+ },
7057
+ {
7058
+ "epoch": 0.8342690788105636,
7059
+ "grad_norm": 0.47593462467193604,
7060
+ "learning_rate": 1.355148046929956e-05,
7061
+ "loss": 0.4656,
7062
+ "step": 1003
7063
+ },
7064
+ {
7065
+ "epoch": 0.8351008525681015,
7066
+ "grad_norm": 0.42734506726264954,
7067
+ "learning_rate": 1.3419412587797907e-05,
7068
+ "loss": 0.3723,
7069
+ "step": 1004
7070
+ },
7071
+ {
7072
+ "epoch": 0.8359326263256395,
7073
+ "grad_norm": 0.4908114969730377,
7074
+ "learning_rate": 1.3287945104155486e-05,
7075
+ "loss": 0.4673,
7076
+ "step": 1005
7077
+ },
7078
+ {
7079
+ "epoch": 0.8367644000831774,
7080
+ "grad_norm": 0.4308733642101288,
7081
+ "learning_rate": 1.3157078930040856e-05,
7082
+ "loss": 0.4019,
7083
+ "step": 1006
7084
+ },
7085
+ {
7086
+ "epoch": 0.8375961738407153,
7087
+ "grad_norm": 0.4562091529369354,
7088
+ "learning_rate": 1.3026814972952672e-05,
7089
+ "loss": 0.3943,
7090
+ "step": 1007
7091
+ },
7092
+ {
7093
+ "epoch": 0.8384279475982532,
7094
+ "grad_norm": 0.43687310814857483,
7095
+ "learning_rate": 1.289715413621354e-05,
7096
+ "loss": 0.4678,
7097
+ "step": 1008
7098
+ },
7099
+ {
7100
+ "epoch": 0.8392597213557912,
7101
+ "grad_norm": 0.430271178483963,
7102
+ "learning_rate": 1.2768097318963701e-05,
7103
+ "loss": 0.3959,
7104
+ "step": 1009
7105
+ },
7106
+ {
7107
+ "epoch": 0.8400914951133291,
7108
+ "grad_norm": 0.46327558159828186,
7109
+ "learning_rate": 1.2639645416154744e-05,
7110
+ "loss": 0.4285,
7111
+ "step": 1010
7112
+ },
7113
+ {
7114
+ "epoch": 0.8409232688708671,
7115
+ "grad_norm": 0.4796364903450012,
7116
+ "learning_rate": 1.2511799318543494e-05,
7117
+ "loss": 0.4121,
7118
+ "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.8417550426284051,
7122
+ "grad_norm": 0.4678579866886139,
7123
+ "learning_rate": 1.2384559912685767e-05,
7124
+ "loss": 0.4179,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.842586816385943,
7129
+ "grad_norm": 0.4598294794559479,
7130
+ "learning_rate": 1.2257928080930237e-05,
7131
+ "loss": 0.4069,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.843418590143481,
7136
+ "grad_norm": 0.46210917830467224,
7137
+ "learning_rate": 1.2131904701412345e-05,
7138
+ "loss": 0.4178,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.8442503639010189,
7143
+ "grad_norm": 0.4848369061946869,
7144
+ "learning_rate": 1.2006490648048118e-05,
7145
+ "loss": 0.4427,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.8450821376585569,
7150
+ "grad_norm": 0.47031518816947937,
7151
+ "learning_rate": 1.1881686790528279e-05,
7152
+ "loss": 0.4483,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.8459139114160948,
7157
+ "grad_norm": 0.4915429949760437,
7158
+ "learning_rate": 1.1757493994312053e-05,
7159
+ "loss": 0.4175,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.8467456851736328,
7164
+ "grad_norm": 0.507524311542511,
7165
+ "learning_rate": 1.1633913120621188e-05,
7166
+ "loss": 0.4322,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.8475774589311708,
7171
+ "grad_norm": 0.5011469125747681,
7172
+ "learning_rate": 1.151094502643414e-05,
7173
+ "loss": 0.4903,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.8484092326887087,
7178
+ "grad_norm": 0.49545034766197205,
7179
+ "learning_rate": 1.1388590564479896e-05,
7180
+ "loss": 0.4745,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.8492410064462467,
7185
+ "grad_norm": 0.43036097288131714,
7186
+ "learning_rate": 1.1266850583232224e-05,
7187
+ "loss": 0.3641,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.8500727802037845,
7192
+ "grad_norm": 0.48114851117134094,
7193
+ "learning_rate": 1.1145725926903772e-05,
7194
+ "loss": 0.4766,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.8509045539613225,
7199
+ "grad_norm": 0.4713135063648224,
7200
+ "learning_rate": 1.1025217435440116e-05,
7201
+ "loss": 0.467,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.8517363277188604,
7206
+ "grad_norm": 0.4947219789028168,
7207
+ "learning_rate": 1.0905325944514033e-05,
7208
+ "loss": 0.4558,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.8525681014763984,
7213
+ "grad_norm": 0.5086840987205505,
7214
+ "learning_rate": 1.078605228551971e-05,
7215
+ "loss": 0.4464,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.8533998752339363,
7220
+ "grad_norm": 0.46704235672950745,
7221
+ "learning_rate": 1.0667397285566893e-05,
7222
+ "loss": 0.4556,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.8542316489914743,
7227
+ "grad_norm": 0.4636327624320984,
7228
+ "learning_rate": 1.0549361767475241e-05,
7229
+ "loss": 0.4259,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.8550634227490123,
7234
+ "grad_norm": 0.44666600227355957,
7235
+ "learning_rate": 1.0431946549768567e-05,
7236
+ "loss": 0.4069,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.8558951965065502,
7241
+ "grad_norm": 0.4543648660182953,
7242
+ "learning_rate": 1.0315152446669141e-05,
7243
+ "loss": 0.4679,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.8567269702640882,
7248
+ "grad_norm": 0.48564526438713074,
7249
+ "learning_rate": 1.019898026809214e-05,
7250
+ "loss": 0.4505,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.8575587440216261,
7255
+ "grad_norm": 0.44043809175491333,
7256
+ "learning_rate": 1.008343081963996e-05,
7257
+ "loss": 0.3891,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.8583905177791641,
7262
+ "grad_norm": 0.467408686876297,
7263
+ "learning_rate": 9.968504902596564e-06,
7264
+ "loss": 0.4349,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.859222291536702,
7269
+ "grad_norm": 0.45551759004592896,
7270
+ "learning_rate": 9.85420331392214e-06,
7271
+ "loss": 0.4104,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.86005406529424,
7276
+ "grad_norm": 0.45863786339759827,
7277
+ "learning_rate": 9.740526846247311e-06,
7278
+ "loss": 0.4216,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.860885839051778,
7283
+ "grad_norm": 0.4453166127204895,
7284
+ "learning_rate": 9.62747628786782e-06,
7285
+ "loss": 0.3981,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.8617176128093159,
7290
+ "grad_norm": 0.47664642333984375,
7291
+ "learning_rate": 9.515052422739035e-06,
7292
+ "loss": 0.4761,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.8625493865668539,
7297
+ "grad_norm": 0.4840780794620514,
7298
+ "learning_rate": 9.403256030470387e-06,
7299
+ "loss": 0.4519,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.8633811603243917,
7304
+ "grad_norm": 0.5594334006309509,
7305
+ "learning_rate": 9.292087886320166e-06,
7306
+ "loss": 0.4863,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.8642129340819297,
7311
+ "grad_norm": 0.47458481788635254,
7312
+ "learning_rate": 9.181548761189995e-06,
7313
+ "loss": 0.4448,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.8650447078394676,
7318
+ "grad_norm": 0.4778815507888794,
7319
+ "learning_rate": 9.071639421619526e-06,
7320
+ "loss": 0.4443,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.8658764815970056,
7325
+ "grad_norm": 0.47068047523498535,
7326
+ "learning_rate": 8.962360629781163e-06,
7327
+ "loss": 0.4098,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.8667082553545435,
7332
+ "grad_norm": 0.46489661931991577,
7333
+ "learning_rate": 8.853713143474684e-06,
7334
+ "loss": 0.4351,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.8675400291120815,
7339
+ "grad_norm": 0.4436318278312683,
7340
+ "learning_rate": 8.745697716122081e-06,
7341
+ "loss": 0.4292,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.8683718028696195,
7346
+ "grad_norm": 0.4547750949859619,
7347
+ "learning_rate": 8.638315096762317e-06,
7348
+ "loss": 0.4378,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.8692035766271574,
7353
+ "grad_norm": 0.44218558073043823,
7354
+ "learning_rate": 8.531566030046034e-06,
7355
+ "loss": 0.4036,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.8700353503846954,
7360
+ "grad_norm": 0.4511972665786743,
7361
+ "learning_rate": 8.425451256230587e-06,
7362
+ "loss": 0.411,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.8708671241422333,
7367
+ "grad_norm": 0.45339876413345337,
7368
+ "learning_rate": 8.319971511174718e-06,
7369
+ "loss": 0.4316,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.8716988978997713,
7374
+ "grad_norm": 0.45976632833480835,
7375
+ "learning_rate": 8.2151275263335e-06,
7376
+ "loss": 0.4238,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.8725306716573092,
7381
+ "grad_norm": 0.47895899415016174,
7382
+ "learning_rate": 8.110920028753355e-06,
7383
+ "loss": 0.4596,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.8733624454148472,
7388
+ "grad_norm": 0.452475368976593,
7389
+ "learning_rate": 8.007349741066938e-06,
7390
+ "loss": 0.4124,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.8741942191723852,
7395
+ "grad_norm": 0.46902817487716675,
7396
+ "learning_rate": 7.904417381488083e-06,
7397
+ "loss": 0.4208,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.8750259929299231,
7402
+ "grad_norm": 0.48741471767425537,
7403
+ "learning_rate": 7.802123663806938e-06,
7404
+ "loss": 0.4514,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.875857766687461,
7409
+ "grad_norm": 0.4875292479991913,
7410
+ "learning_rate": 7.700469297384927e-06,
7411
+ "loss": 0.4575,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.8766895404449989,
7416
+ "grad_norm": 0.46032848954200745,
7417
+ "learning_rate": 7.599454987149867e-06,
7418
+ "loss": 0.4457,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.8775213142025369,
7423
+ "grad_norm": 0.4430507719516754,
7424
+ "learning_rate": 7.499081433591071e-06,
7425
+ "loss": 0.3952,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.8783530879600748,
7430
+ "grad_norm": 0.4799799919128418,
7431
+ "learning_rate": 7.399349332754458e-06,
7432
+ "loss": 0.4549,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.8791848617176128,
7437
+ "grad_norm": 0.4532495439052582,
7438
+ "learning_rate": 7.300259376237795e-06,
7439
+ "loss": 0.4187,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.8800166354751507,
7444
+ "grad_norm": 0.45743227005004883,
7445
+ "learning_rate": 7.2018122511858686e-06,
7446
+ "loss": 0.4541,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.8808484092326887,
7451
+ "grad_norm": 0.4854099452495575,
7452
+ "learning_rate": 7.1040086402856425e-06,
7453
+ "loss": 0.4634,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.8816801829902267,
7458
+ "grad_norm": 0.445450097322464,
7459
+ "learning_rate": 7.006849221761735e-06,
7460
+ "loss": 0.4417,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.8825119567477646,
7465
+ "grad_norm": 0.47935259342193604,
7466
+ "learning_rate": 6.9103346693714324e-06,
7467
+ "loss": 0.4476,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.8833437305053026,
7472
+ "grad_norm": 0.4244360625743866,
7473
+ "learning_rate": 6.814465652400237e-06,
7474
+ "loss": 0.3806,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.8841755042628405,
7479
+ "grad_norm": 0.47703632712364197,
7480
+ "learning_rate": 6.719242835657147e-06,
7481
+ "loss": 0.4705,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.8850072780203785,
7486
+ "grad_norm": 0.49910375475883484,
7487
+ "learning_rate": 6.624666879470009e-06,
7488
+ "loss": 0.4734,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.8858390517779164,
7493
+ "grad_norm": 0.47923290729522705,
7494
+ "learning_rate": 6.530738439681016e-06,
7495
+ "loss": 0.4531,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.8866708255354544,
7500
+ "grad_norm": 0.47322043776512146,
7501
+ "learning_rate": 6.437458167642163e-06,
7502
+ "loss": 0.4317,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.8875025992929924,
7507
+ "grad_norm": 0.4898202419281006,
7508
+ "learning_rate": 6.344826710210583e-06,
7509
+ "loss": 0.4535,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.8883343730505302,
7514
+ "grad_norm": 0.46324723958969116,
7515
+ "learning_rate": 6.252844709744255e-06,
7516
+ "loss": 0.4363,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.8891661468080682,
7521
+ "grad_norm": 0.4827021360397339,
7522
+ "learning_rate": 6.1615128040974355e-06,
7523
+ "loss": 0.5059,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.8899979205656061,
7528
+ "grad_norm": 0.4697610139846802,
7529
+ "learning_rate": 6.070831626616236e-06,
7530
+ "loss": 0.4423,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.8908296943231441,
7535
+ "grad_norm": 0.46442911028862,
7536
+ "learning_rate": 5.980801806134318e-06,
7537
+ "loss": 0.4639,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.891661468080682,
7542
+ "grad_norm": 0.46676331758499146,
7543
+ "learning_rate": 5.891423966968413e-06,
7544
+ "loss": 0.4359,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.89249324183822,
7549
+ "grad_norm": 0.4345012903213501,
7550
+ "learning_rate": 5.80269872891408e-06,
7551
+ "loss": 0.3871,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.8933250155957579,
7556
+ "grad_norm": 0.4475749731063843,
7557
+ "learning_rate": 5.71462670724141e-06,
7558
+ "loss": 0.4113,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.8941567893532959,
7563
+ "grad_norm": 0.4608396589756012,
7564
+ "learning_rate": 5.627208512690641e-06,
7565
+ "loss": 0.4331,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.8949885631108339,
7570
+ "grad_norm": 0.4600012004375458,
7571
+ "learning_rate": 5.540444751468099e-06,
7572
+ "loss": 0.4451,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.8958203368683718,
7577
+ "grad_norm": 0.4469583332538605,
7578
+ "learning_rate": 5.45433602524188e-06,
7579
+ "loss": 0.4097,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.8966521106259098,
7584
+ "grad_norm": 0.4726197123527527,
7585
+ "learning_rate": 5.3688829311376754e-06,
7586
+ "loss": 0.4048,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.8974838843834477,
7591
+ "grad_norm": 0.48056867718696594,
7592
+ "learning_rate": 5.2840860617346724e-06,
7593
+ "loss": 0.4246,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.8983156581409857,
7598
+ "grad_norm": 0.4238966405391693,
7599
+ "learning_rate": 5.199946005061462e-06,
7600
+ "loss": 0.3802,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.8991474318985236,
7605
+ "grad_norm": 0.4405467212200165,
7606
+ "learning_rate": 5.116463344591893e-06,
7607
+ "loss": 0.4105,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.8999792056560616,
7612
+ "grad_norm": 0.4323815405368805,
7613
+ "learning_rate": 5.033638659241102e-06,
7614
+ "loss": 0.4078,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.9008109794135996,
7619
+ "grad_norm": 0.4602968394756317,
7620
+ "learning_rate": 4.9514725233614005e-06,
7621
+ "loss": 0.4464,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.9016427531711374,
7626
+ "grad_norm": 0.5263029932975769,
7627
+ "learning_rate": 4.869965506738416e-06,
7628
+ "loss": 0.4628,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.9024745269286754,
7633
+ "grad_norm": 0.48673149943351746,
7634
+ "learning_rate": 4.789118174587071e-06,
7635
+ "loss": 0.4498,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.9033063006862133,
7640
+ "grad_norm": 0.48753026127815247,
7641
+ "learning_rate": 4.708931087547585e-06,
7642
+ "loss": 0.4805,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.9041380744437513,
7647
+ "grad_norm": 0.47595274448394775,
7648
+ "learning_rate": 4.629404801681791e-06,
7649
+ "loss": 0.4401,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.9049698482012892,
7654
+ "grad_norm": 0.4522855877876282,
7655
+ "learning_rate": 4.5505398684691056e-06,
7656
+ "loss": 0.3991,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.9058016219588272,
7661
+ "grad_norm": 0.43736204504966736,
7662
+ "learning_rate": 4.472336834802737e-06,
7663
+ "loss": 0.4245,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.9066333957163651,
7668
+ "grad_norm": 0.4781038761138916,
7669
+ "learning_rate": 4.394796242985932e-06,
7670
+ "loss": 0.4392,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.9074651694739031,
7675
+ "grad_norm": 0.48694223165512085,
7676
+ "learning_rate": 4.317918630728235e-06,
7677
+ "loss": 0.4516,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.9082969432314411,
7682
+ "grad_norm": 0.4531137943267822,
7683
+ "learning_rate": 4.241704531141632e-06,
7684
+ "loss": 0.4547,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.909128716988979,
7689
+ "grad_norm": 0.4477342367172241,
7690
+ "learning_rate": 4.16615447273706e-06,
7691
+ "loss": 0.4185,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.909960490746517,
7696
+ "grad_norm": 0.41774898767471313,
7697
+ "learning_rate": 4.091268979420537e-06,
7698
+ "loss": 0.3805,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.9107922645040549,
7703
+ "grad_norm": 0.458509236574173,
7704
+ "learning_rate": 4.017048570489646e-06,
7705
+ "loss": 0.4202,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.9116240382615929,
7710
+ "grad_norm": 0.46096915006637573,
7711
+ "learning_rate": 3.943493760629924e-06,
7712
+ "loss": 0.4468,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.9124558120191308,
7717
+ "grad_norm": 0.42885664105415344,
7718
+ "learning_rate": 3.870605059911237e-06,
7719
+ "loss": 0.3855,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.9132875857766688,
7724
+ "grad_norm": 0.4437970519065857,
7725
+ "learning_rate": 3.798382973784298e-06,
7726
+ "loss": 0.4203,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 0.9141193595342066,
7731
+ "grad_norm": 0.4737008213996887,
7732
+ "learning_rate": 3.7268280030771652e-06,
7733
+ "loss": 0.4431,
7734
+ "step": 1099
7735
+ },
7736
+ {
7737
+ "epoch": 0.9149511332917446,
7738
+ "grad_norm": 0.43085286021232605,
7739
+ "learning_rate": 3.6559406439917178e-06,
7740
+ "loss": 0.4002,
7741
+ "step": 1100
7742
+ },
7743
+ {
7744
+ "epoch": 0.9157829070492826,
7745
+ "grad_norm": 0.4739695191383362,
7746
+ "learning_rate": 3.5857213881002827e-06,
7747
+ "loss": 0.4255,
7748
+ "step": 1101
7749
+ },
7750
+ {
7751
+ "epoch": 0.9166146808068205,
7752
+ "grad_norm": 0.458615243434906,
7753
+ "learning_rate": 3.516170722342127e-06,
7754
+ "loss": 0.4576,
7755
+ "step": 1102
7756
+ },
7757
+ {
7758
+ "epoch": 0.9174464545643585,
7759
+ "grad_norm": 0.4438440203666687,
7760
+ "learning_rate": 3.4472891290201927e-06,
7761
+ "loss": 0.4244,
7762
+ "step": 1103
7763
+ },
7764
+ {
7765
+ "epoch": 0.9182782283218964,
7766
+ "grad_norm": 0.4436255395412445,
7767
+ "learning_rate": 3.3790770857976994e-06,
7768
+ "loss": 0.4183,
7769
+ "step": 1104
7770
+ },
7771
+ {
7772
+ "epoch": 0.9191100020794344,
7773
+ "grad_norm": 0.45590856671333313,
7774
+ "learning_rate": 3.311535065694804e-06,
7775
+ "loss": 0.424,
7776
+ "step": 1105
7777
+ },
7778
+ {
7779
+ "epoch": 0.9199417758369723,
7780
+ "grad_norm": 0.458316445350647,
7781
+ "learning_rate": 3.2446635370853684e-06,
7782
+ "loss": 0.4382,
7783
+ "step": 1106
7784
+ },
7785
+ {
7786
+ "epoch": 0.9207735495945103,
7787
+ "grad_norm": 0.4662122130393982,
7788
+ "learning_rate": 3.17846296369374e-06,
7789
+ "loss": 0.475,
7790
+ "step": 1107
7791
+ },
7792
+ {
7793
+ "epoch": 0.9216053233520483,
7794
+ "grad_norm": 0.44484686851501465,
7795
+ "learning_rate": 3.1129338045914e-06,
7796
+ "loss": 0.4014,
7797
+ "step": 1108
7798
+ },
7799
+ {
7800
+ "epoch": 0.9224370971095862,
7801
+ "grad_norm": 0.46727603673934937,
7802
+ "learning_rate": 3.0480765141939314e-06,
7803
+ "loss": 0.4509,
7804
+ "step": 1109
7805
+ },
7806
+ {
7807
+ "epoch": 0.9232688708671242,
7808
+ "grad_norm": 0.49041593074798584,
7809
+ "learning_rate": 2.9838915422577995e-06,
7810
+ "loss": 0.4275,
7811
+ "step": 1110
7812
+ },
7813
+ {
7814
+ "epoch": 0.9241006446246621,
7815
+ "grad_norm": 0.4922788739204407,
7816
+ "learning_rate": 2.920379333877221e-06,
7817
+ "loss": 0.425,
7818
+ "step": 1111
7819
+ },
7820
+ {
7821
+ "epoch": 0.9249324183822001,
7822
+ "grad_norm": 0.44843536615371704,
7823
+ "learning_rate": 2.857540329481112e-06,
7824
+ "loss": 0.4224,
7825
+ "step": 1112
7826
+ },
7827
+ {
7828
+ "epoch": 0.925764192139738,
7829
+ "grad_norm": 0.4896073341369629,
7830
+ "learning_rate": 2.795374964830022e-06,
7831
+ "loss": 0.4124,
7832
+ "step": 1113
7833
+ },
7834
+ {
7835
+ "epoch": 0.9265959658972759,
7836
+ "grad_norm": 0.4726916253566742,
7837
+ "learning_rate": 2.7338836710130824e-06,
7838
+ "loss": 0.4593,
7839
+ "step": 1114
7840
+ },
7841
+ {
7842
+ "epoch": 0.9274277396548138,
7843
+ "grad_norm": 0.4574068784713745,
7844
+ "learning_rate": 2.673066874445096e-06,
7845
+ "loss": 0.4232,
7846
+ "step": 1115
7847
+ },
7848
+ {
7849
+ "epoch": 0.9282595134123518,
7850
+ "grad_norm": 0.4518861174583435,
7851
+ "learning_rate": 2.6129249968634527e-06,
7852
+ "loss": 0.4438,
7853
+ "step": 1116
7854
+ },
7855
+ {
7856
+ "epoch": 0.9290912871698898,
7857
+ "grad_norm": 0.4974750876426697,
7858
+ "learning_rate": 2.5534584553253525e-06,
7859
+ "loss": 0.4648,
7860
+ "step": 1117
7861
+ },
7862
+ {
7863
+ "epoch": 0.9299230609274277,
7864
+ "grad_norm": 0.4564787745475769,
7865
+ "learning_rate": 2.494667662204797e-06,
7866
+ "loss": 0.4413,
7867
+ "step": 1118
7868
+ },
7869
+ {
7870
+ "epoch": 0.9307548346849657,
7871
+ "grad_norm": 0.4412038028240204,
7872
+ "learning_rate": 2.4365530251897585e-06,
7873
+ "loss": 0.406,
7874
+ "step": 1119
7875
+ },
7876
+ {
7877
+ "epoch": 0.9315866084425036,
7878
+ "grad_norm": 0.4330199658870697,
7879
+ "learning_rate": 2.3791149472794374e-06,
7880
+ "loss": 0.3749,
7881
+ "step": 1120
7882
+ },
7883
+ {
7884
+ "epoch": 0.9324183822000416,
7885
+ "grad_norm": 0.4556577503681183,
7886
+ "learning_rate": 2.3223538267813316e-06,
7887
+ "loss": 0.4138,
7888
+ "step": 1121
7889
+ },
7890
+ {
7891
+ "epoch": 0.9332501559575795,
7892
+ "grad_norm": 0.4702088236808777,
7893
+ "learning_rate": 2.2662700573085503e-06,
7894
+ "loss": 0.4574,
7895
+ "step": 1122
7896
+ },
7897
+ {
7898
+ "epoch": 0.9340819297151175,
7899
+ "grad_norm": 0.47332215309143066,
7900
+ "learning_rate": 2.2108640277771154e-06,
7901
+ "loss": 0.4662,
7902
+ "step": 1123
7903
+ },
7904
+ {
7905
+ "epoch": 0.9349137034726555,
7906
+ "grad_norm": 0.4619726538658142,
7907
+ "learning_rate": 2.156136122403174e-06,
7908
+ "loss": 0.4262,
7909
+ "step": 1124
7910
+ },
7911
+ {
7912
+ "epoch": 0.9357454772301934,
7913
+ "grad_norm": 0.4245651662349701,
7914
+ "learning_rate": 2.1020867207004025e-06,
7915
+ "loss": 0.3824,
7916
+ "step": 1125
7917
+ },
7918
+ {
7919
+ "epoch": 0.9365772509877314,
7920
+ "grad_norm": 0.43925681710243225,
7921
+ "learning_rate": 2.048716197477374e-06,
7922
+ "loss": 0.4017,
7923
+ "step": 1126
7924
+ },
7925
+ {
7926
+ "epoch": 0.9374090247452693,
7927
+ "grad_norm": 0.4655887484550476,
7928
+ "learning_rate": 1.9960249228349047e-06,
7929
+ "loss": 0.4691,
7930
+ "step": 1127
7931
+ },
7932
+ {
7933
+ "epoch": 0.9382407985028073,
7934
+ "grad_norm": 0.4686010777950287,
7935
+ "learning_rate": 1.944013262163569e-06,
7936
+ "loss": 0.4289,
7937
+ "step": 1128
7938
+ },
7939
+ {
7940
+ "epoch": 0.9390725722603452,
7941
+ "grad_norm": 0.4429991543292999,
7942
+ "learning_rate": 1.8926815761410864e-06,
7943
+ "loss": 0.3923,
7944
+ "step": 1129
7945
+ },
7946
+ {
7947
+ "epoch": 0.9399043460178831,
7948
+ "grad_norm": 0.4607723653316498,
7949
+ "learning_rate": 1.8420302207298623e-06,
7950
+ "loss": 0.4203,
7951
+ "step": 1130
7952
+ },
7953
+ {
7954
+ "epoch": 0.940736119775421,
7955
+ "grad_norm": 0.4541813135147095,
7956
+ "learning_rate": 1.7920595471745073e-06,
7957
+ "loss": 0.4336,
7958
+ "step": 1131
7959
+ },
7960
+ {
7961
+ "epoch": 0.941567893532959,
7962
+ "grad_norm": 0.4974818825721741,
7963
+ "learning_rate": 1.7427699019994415e-06,
7964
+ "loss": 0.4327,
7965
+ "step": 1132
7966
+ },
7967
+ {
7968
+ "epoch": 0.942399667290497,
7969
+ "grad_norm": 0.46558845043182373,
7970
+ "learning_rate": 1.6941616270063854e-06,
7971
+ "loss": 0.4299,
7972
+ "step": 1133
7973
+ },
7974
+ {
7975
+ "epoch": 0.9432314410480349,
7976
+ "grad_norm": 0.47151467204093933,
7977
+ "learning_rate": 1.6462350592721498e-06,
7978
+ "loss": 0.4253,
7979
+ "step": 1134
7980
+ },
7981
+ {
7982
+ "epoch": 0.9440632148055729,
7983
+ "grad_norm": 0.4254817068576813,
7984
+ "learning_rate": 1.5989905311461273e-06,
7985
+ "loss": 0.3865,
7986
+ "step": 1135
7987
+ },
7988
+ {
7989
+ "epoch": 0.9448949885631108,
7990
+ "grad_norm": 0.43250134587287903,
7991
+ "learning_rate": 1.5524283702481158e-06,
7992
+ "loss": 0.3956,
7993
+ "step": 1136
7994
+ },
7995
+ {
7996
+ "epoch": 0.9457267623206488,
7997
+ "grad_norm": 0.477190226316452,
7998
+ "learning_rate": 1.5065488994659983e-06,
7999
+ "loss": 0.4346,
8000
+ "step": 1137
8001
+ },
8002
+ {
8003
+ "epoch": 0.9465585360781867,
8004
+ "grad_norm": 0.45829352736473083,
8005
+ "learning_rate": 1.461352436953478e-06,
8006
+ "loss": 0.4406,
8007
+ "step": 1138
8008
+ },
8009
+ {
8010
+ "epoch": 0.9473903098357247,
8011
+ "grad_norm": 0.47035565972328186,
8012
+ "learning_rate": 1.4168392961279252e-06,
8013
+ "loss": 0.4279,
8014
+ "step": 1139
8015
+ },
8016
+ {
8017
+ "epoch": 0.9482220835932627,
8018
+ "grad_norm": 0.4768435060977936,
8019
+ "learning_rate": 1.3730097856681667e-06,
8020
+ "loss": 0.4548,
8021
+ "step": 1140
8022
+ },
8023
+ {
8024
+ "epoch": 0.9490538573508006,
8025
+ "grad_norm": 0.45586657524108887,
8026
+ "learning_rate": 1.329864209512377e-06,
8027
+ "loss": 0.4571,
8028
+ "step": 1141
8029
+ },
8030
+ {
8031
+ "epoch": 0.9498856311083386,
8032
+ "grad_norm": 0.475225031375885,
8033
+ "learning_rate": 1.2874028668559246e-06,
8034
+ "loss": 0.4173,
8035
+ "step": 1142
8036
+ },
8037
+ {
8038
+ "epoch": 0.9507174048658765,
8039
+ "grad_norm": 0.4526824355125427,
8040
+ "learning_rate": 1.245626052149318e-06,
8041
+ "loss": 0.403,
8042
+ "step": 1143
8043
+ },
8044
+ {
8045
+ "epoch": 0.9515491786234145,
8046
+ "grad_norm": 0.47225192189216614,
8047
+ "learning_rate": 1.2045340550961959e-06,
8048
+ "loss": 0.4694,
8049
+ "step": 1144
8050
+ },
8051
+ {
8052
+ "epoch": 0.9523809523809523,
8053
+ "grad_norm": 0.4445044696331024,
8054
+ "learning_rate": 1.164127160651285e-06,
8055
+ "loss": 0.4257,
8056
+ "step": 1145
8057
+ },
8058
+ {
8059
+ "epoch": 0.9532127261384903,
8060
+ "grad_norm": 0.4514501690864563,
8061
+ "learning_rate": 1.1244056490184008e-06,
8062
+ "loss": 0.4636,
8063
+ "step": 1146
8064
+ },
8065
+ {
8066
+ "epoch": 0.9540444998960282,
8067
+ "grad_norm": 0.4854033887386322,
8068
+ "learning_rate": 1.0853697956485941e-06,
8069
+ "loss": 0.4298,
8070
+ "step": 1147
8071
+ },
8072
+ {
8073
+ "epoch": 0.9548762736535662,
8074
+ "grad_norm": 0.494552880525589,
8075
+ "learning_rate": 1.0470198712381084e-06,
8076
+ "loss": 0.4852,
8077
+ "step": 1148
8078
+ },
8079
+ {
8080
+ "epoch": 0.9557080474111042,
8081
+ "grad_norm": 0.4838801622390747,
8082
+ "learning_rate": 1.009356141726614e-06,
8083
+ "loss": 0.431,
8084
+ "step": 1149
8085
+ },
8086
+ {
8087
+ "epoch": 0.9565398211686421,
8088
+ "grad_norm": 0.4265715479850769,
8089
+ "learning_rate": 9.723788682953538e-07,
8090
+ "loss": 0.3796,
8091
+ "step": 1150
8092
+ },
8093
+ {
8094
+ "epoch": 0.9573715949261801,
8095
+ "grad_norm": 0.45620259642601013,
8096
+ "learning_rate": 9.360883073652238e-07,
8097
+ "loss": 0.4008,
8098
+ "step": 1151
8099
+ },
8100
+ {
8101
+ "epoch": 0.958203368683718,
8102
+ "grad_norm": 0.4679751992225647,
8103
+ "learning_rate": 9.004847105951509e-07,
8104
+ "loss": 0.4653,
8105
+ "step": 1152
8106
+ },
8107
+ {
8108
+ "epoch": 0.959035142441256,
8109
+ "grad_norm": 0.4542837142944336,
8110
+ "learning_rate": 8.655683248802282e-07,
8111
+ "loss": 0.4187,
8112
+ "step": 1153
8113
+ },
8114
+ {
8115
+ "epoch": 0.9598669161987939,
8116
+ "grad_norm": 0.46689337491989136,
8117
+ "learning_rate": 8.313393923500612e-07,
8118
+ "loss": 0.4679,
8119
+ "step": 1154
8120
+ },
8121
+ {
8122
+ "epoch": 0.9606986899563319,
8123
+ "grad_norm": 0.45560774207115173,
8124
+ "learning_rate": 7.977981503670795e-07,
8125
+ "loss": 0.4445,
8126
+ "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.9615304637138699,
8130
+ "grad_norm": 0.4644782543182373,
8131
+ "learning_rate": 7.64944831524872e-07,
8132
+ "loss": 0.4626,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.9623622374714078,
8137
+ "grad_norm": 0.4683065116405487,
8138
+ "learning_rate": 7.327796636465767e-07,
8139
+ "loss": 0.4704,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.9631940112289458,
8144
+ "grad_norm": 0.4686606228351593,
8145
+ "learning_rate": 7.01302869783338e-07,
8146
+ "loss": 0.4245,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.9640257849864837,
8151
+ "grad_norm": 0.47688302397727966,
8152
+ "learning_rate": 6.705146682127184e-07,
8153
+ "loss": 0.4646,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.9648575587440216,
8158
+ "grad_norm": 0.4900341033935547,
8159
+ "learning_rate": 6.404152724371892e-07,
8160
+ "loss": 0.4657,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.9656893325015595,
8165
+ "grad_norm": 0.4813731014728546,
8166
+ "learning_rate": 6.110048911826871e-07,
8167
+ "loss": 0.4603,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.9665211062590975,
8172
+ "grad_norm": 0.43915826082229614,
8173
+ "learning_rate": 5.82283728397115e-07,
8174
+ "loss": 0.3793,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.9673528800166354,
8179
+ "grad_norm": 0.4620192050933838,
8180
+ "learning_rate": 5.542519832489545e-07,
8181
+ "loss": 0.4506,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.9681846537741734,
8186
+ "grad_norm": 0.4768211543560028,
8187
+ "learning_rate": 5.269098501259007e-07,
8188
+ "loss": 0.4329,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.9690164275317114,
8193
+ "grad_norm": 0.5138925909996033,
8194
+ "learning_rate": 5.002575186334734e-07,
8195
+ "loss": 0.4742,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.9698482012892493,
8200
+ "grad_norm": 0.4895179569721222,
8201
+ "learning_rate": 4.7429517359374174e-07,
8202
+ "loss": 0.4397,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.9706799750467873,
8207
+ "grad_norm": 0.46533793210983276,
8208
+ "learning_rate": 4.490229950440239e-07,
8209
+ "loss": 0.4477,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.9715117488043252,
8214
+ "grad_norm": 0.4750311076641083,
8215
+ "learning_rate": 4.2444115823562225e-07,
8216
+ "loss": 0.4647,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.9723435225618632,
8221
+ "grad_norm": 0.48082664608955383,
8222
+ "learning_rate": 4.005498336326463e-07,
8223
+ "loss": 0.4107,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.9731752963194011,
8228
+ "grad_norm": 0.46984878182411194,
8229
+ "learning_rate": 3.7734918691081367e-07,
8230
+ "loss": 0.4366,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.9740070700769391,
8235
+ "grad_norm": 0.49155181646347046,
8236
+ "learning_rate": 3.548393789562732e-07,
8237
+ "loss": 0.4726,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.974838843834477,
8242
+ "grad_norm": 0.48586782813072205,
8243
+ "learning_rate": 3.330205658645391e-07,
8244
+ "loss": 0.4504,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.975670617592015,
8249
+ "grad_norm": 0.43636637926101685,
8250
+ "learning_rate": 3.118928989393699e-07,
8251
+ "loss": 0.414,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.976502391349553,
8256
+ "grad_norm": 0.4744214713573456,
8257
+ "learning_rate": 2.9145652469174664e-07,
8258
+ "loss": 0.4395,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.9773341651070909,
8263
+ "grad_norm": 0.4799196422100067,
8264
+ "learning_rate": 2.717115848388296e-07,
8265
+ "loss": 0.3952,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 0.9781659388646288,
8270
+ "grad_norm": 0.4748809039592743,
8271
+ "learning_rate": 2.526582163029811e-07,
8272
+ "loss": 0.4411,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 0.9789977126221667,
8277
+ "grad_norm": 0.4506809711456299,
8278
+ "learning_rate": 2.3429655121085526e-07,
8279
+ "loss": 0.4154,
8280
+ "step": 1177
8281
+ },
8282
+ {
8283
+ "epoch": 0.9798294863797047,
8284
+ "grad_norm": 0.46106207370758057,
8285
+ "learning_rate": 2.1662671689242076e-07,
8286
+ "loss": 0.4242,
8287
+ "step": 1178
8288
+ },
8289
+ {
8290
+ "epoch": 0.9806612601372426,
8291
+ "grad_norm": 0.46232593059539795,
8292
+ "learning_rate": 1.996488358801174e-07,
8293
+ "loss": 0.4076,
8294
+ "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.9814930338947806,
8298
+ "grad_norm": 0.4545399844646454,
8299
+ "learning_rate": 1.8336302590798992e-07,
8300
+ "loss": 0.4014,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.9823248076523186,
8305
+ "grad_norm": 0.4233172833919525,
8306
+ "learning_rate": 1.677693999109109e-07,
8307
+ "loss": 0.3912,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.9831565814098565,
8312
+ "grad_norm": 0.4664671719074249,
8313
+ "learning_rate": 1.5286806602372583e-07,
8314
+ "loss": 0.4249,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.9839883551673945,
8319
+ "grad_norm": 0.511982262134552,
8320
+ "learning_rate": 1.3865912758054268e-07,
8321
+ "loss": 0.5448,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.9848201289249324,
8326
+ "grad_norm": 0.4627574682235718,
8327
+ "learning_rate": 1.2514268311405453e-07,
8328
+ "loss": 0.4176,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.9856519026824704,
8333
+ "grad_norm": 0.47234347462654114,
8334
+ "learning_rate": 1.1231882635477364e-07,
8335
+ "loss": 0.4579,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.9864836764400083,
8340
+ "grad_norm": 0.4667273163795471,
8341
+ "learning_rate": 1.0018764623045406e-07,
8342
+ "loss": 0.4705,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.9873154501975463,
8347
+ "grad_norm": 0.44828054308891296,
8348
+ "learning_rate": 8.874922686541443e-08,
8349
+ "loss": 0.401,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.9881472239550843,
8354
+ "grad_norm": 0.5001073479652405,
8355
+ "learning_rate": 7.80036475800272e-08,
8356
+ "loss": 0.4742,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.9889789977126222,
8361
+ "grad_norm": 0.5340840816497803,
8362
+ "learning_rate": 6.795098289008595e-08,
8363
+ "loss": 0.4985,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.9898107714701602,
8368
+ "grad_norm": 0.45380574464797974,
8369
+ "learning_rate": 5.8591302506361135e-08,
8370
+ "loss": 0.4504,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.990642545227698,
8375
+ "grad_norm": 0.4703597128391266,
8376
+ "learning_rate": 4.992467133406731e-08,
8377
+ "loss": 0.4435,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.991474318985236,
8382
+ "grad_norm": 0.46635764837265015,
8383
+ "learning_rate": 4.1951149472441164e-08,
8384
+ "loss": 0.4138,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.9923060927427739,
8389
+ "grad_norm": 0.43708378076553345,
8390
+ "learning_rate": 3.4670792214297476e-08,
8391
+ "loss": 0.3964,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.9931378665003119,
8396
+ "grad_norm": 0.45950600504875183,
8397
+ "learning_rate": 2.808365004569602e-08,
8398
+ "loss": 0.4067,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.9939696402578498,
8403
+ "grad_norm": 0.43873485922813416,
8404
+ "learning_rate": 2.2189768645519694e-08,
8405
+ "loss": 0.4141,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.9948014140153878,
8410
+ "grad_norm": 0.46396079659461975,
8411
+ "learning_rate": 1.6989188885219166e-08,
8412
+ "loss": 0.3859,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.9956331877729258,
8417
+ "grad_norm": 0.4713720977306366,
8418
+ "learning_rate": 1.2481946828502012e-08,
8419
+ "loss": 0.4257,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.9964649615304637,
8424
+ "grad_norm": 0.5061950087547302,
8425
+ "learning_rate": 8.668073731088466e-09,
8426
+ "loss": 0.4706,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.9972967352880017,
8431
+ "grad_norm": 0.4641589820384979,
8432
+ "learning_rate": 5.547596040489378e-09,
8433
+ "loss": 0.4415,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.9981285090455396,
8438
+ "grad_norm": 0.45247629284858704,
8439
+ "learning_rate": 3.1205353958285723e-09,
8440
+ "loss": 0.3908,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.9989602828030776,
8445
+ "grad_norm": 0.4349338114261627,
8446
+ "learning_rate": 1.3869086276985244e-09,
8447
+ "loss": 0.4466,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.9997920565606155,
8452
+ "grad_norm": 0.4767285883426666,
8453
+ "learning_rate": 3.467277580271322e-10,
8454
+ "loss": 0.475,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 1.0006238303181534,
8459
+ "grad_norm": 1.3944224119186401,
8460
+ "learning_rate": 0.0,
8461
+ "loss": 0.6621,
8462
+ "step": 1203
8463
  }
8464
  ],
8465
  "logging_steps": 1,
 
8474
  "should_evaluate": false,
8475
  "should_log": false,
8476
  "should_save": true,
8477
+ "should_training_stop": true
8478
  },
8479
  "attributes": {}
8480
  }
8481
  },
8482
+ "total_flos": 4.5976081746886656e+17,
8483
  "train_batch_size": 2,
8484
  "trial_name": null,
8485
  "trial_params": null