ErrorAI commited on
Commit
4fc4795
·
verified ·
1 Parent(s): b863dc5

Training in progress, step 1140, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:607bd7af2cf4a451ec5ece489f817015a329fd7db9b61e4f85defb8359ef4ae8
3
  size 80792096
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:94341634f8a6afeb1417aef19e2dc8200584cdd3b7697243a52ef6a5a8499b76
3
  size 80792096
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:ad6b16b0e2114edafe85d86a4039b4d806b21cb04133074c2c4bc1d6b7d6a411
3
  size 41460084
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:40a3cb1571d7f507071d4bcdd907987f10dbfc1a03fcaba90d96eb78f0972ba5
3
  size 41460084
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:dcaf534ba86af79814e3bc36f71695714d3045bfed9a8baaba77c82c49485758
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:71b5e22ff90c1903aaf724f48655dfadec626926b6c93dacb875ca649a4a2040
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:4ef5fe3e3aa1edb8970b2564aa3de4feb6edb6a69984cedcb27859e341188699
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7580f3e3fea1333d62db7e78a941076f3d266b318c0579b5be4bec002280435a
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.05519044333902182,
5
  "eval_steps": 380,
6
- "global_step": 760,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5351,6 +5351,2674 @@
5351
  "eval_samples_per_second": 32.248,
5352
  "eval_steps_per_second": 16.127,
5353
  "step": 760
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5354
  }
5355
  ],
5356
  "logging_steps": 1,
@@ -5370,7 +8038,7 @@
5370
  "attributes": {}
5371
  }
5372
  },
5373
- "total_flos": 1.4433383051742413e+17,
5374
  "train_batch_size": 2,
5375
  "trial_name": null,
5376
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.08278566500853274,
5
  "eval_steps": 380,
6
+ "global_step": 1140,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5351
  "eval_samples_per_second": 32.248,
5352
  "eval_steps_per_second": 16.127,
5353
  "step": 760
5354
+ },
5355
+ {
5356
+ "epoch": 0.05526306234341527,
5357
+ "grad_norm": 1.1962695121765137,
5358
+ "learning_rate": 0.00010052116430522514,
5359
+ "loss": 0.7833,
5360
+ "step": 761
5361
+ },
5362
+ {
5363
+ "epoch": 0.055335681347808724,
5364
+ "grad_norm": 1.4395370483398438,
5365
+ "learning_rate": 0.00010031269948909516,
5366
+ "loss": 0.2363,
5367
+ "step": 762
5368
+ },
5369
+ {
5370
+ "epoch": 0.05540830035220217,
5371
+ "grad_norm": 1.3636575937271118,
5372
+ "learning_rate": 0.00010010423331402527,
5373
+ "loss": 0.343,
5374
+ "step": 763
5375
+ },
5376
+ {
5377
+ "epoch": 0.05548091935659562,
5378
+ "grad_norm": 2.326564073562622,
5379
+ "learning_rate": 9.989576668597476e-05,
5380
+ "loss": 0.2894,
5381
+ "step": 764
5382
+ },
5383
+ {
5384
+ "epoch": 0.05555353836098907,
5385
+ "grad_norm": 0.910338819026947,
5386
+ "learning_rate": 9.968730051090485e-05,
5387
+ "loss": 0.6565,
5388
+ "step": 765
5389
+ },
5390
+ {
5391
+ "epoch": 0.05562615736538252,
5392
+ "grad_norm": 1.8644438982009888,
5393
+ "learning_rate": 9.947883569477488e-05,
5394
+ "loss": 0.5779,
5395
+ "step": 766
5396
+ },
5397
+ {
5398
+ "epoch": 0.05569877636977597,
5399
+ "grad_norm": 1.2688733339309692,
5400
+ "learning_rate": 9.927037314353821e-05,
5401
+ "loss": 0.7624,
5402
+ "step": 767
5403
+ },
5404
+ {
5405
+ "epoch": 0.05577139537416942,
5406
+ "grad_norm": 1.6676098108291626,
5407
+ "learning_rate": 9.906191376313836e-05,
5408
+ "loss": 1.169,
5409
+ "step": 768
5410
+ },
5411
+ {
5412
+ "epoch": 0.05584401437856287,
5413
+ "grad_norm": 0.8322520852088928,
5414
+ "learning_rate": 9.88534584595051e-05,
5415
+ "loss": 0.9831,
5416
+ "step": 769
5417
+ },
5418
+ {
5419
+ "epoch": 0.05591663338295632,
5420
+ "grad_norm": 1.1143416166305542,
5421
+ "learning_rate": 9.86450081385505e-05,
5422
+ "loss": 0.447,
5423
+ "step": 770
5424
+ },
5425
+ {
5426
+ "epoch": 0.05598925238734977,
5427
+ "grad_norm": 2.037198543548584,
5428
+ "learning_rate": 9.84365637061649e-05,
5429
+ "loss": 1.061,
5430
+ "step": 771
5431
+ },
5432
+ {
5433
+ "epoch": 0.05606187139174322,
5434
+ "grad_norm": 0.8915815949440002,
5435
+ "learning_rate": 9.822812606821316e-05,
5436
+ "loss": 0.2336,
5437
+ "step": 772
5438
+ },
5439
+ {
5440
+ "epoch": 0.05613449039613667,
5441
+ "grad_norm": 0.7484176158905029,
5442
+ "learning_rate": 9.801969613053047e-05,
5443
+ "loss": 0.3113,
5444
+ "step": 773
5445
+ },
5446
+ {
5447
+ "epoch": 0.05620710940053012,
5448
+ "grad_norm": 0.8235967755317688,
5449
+ "learning_rate": 9.781127479891872e-05,
5450
+ "loss": 0.1354,
5451
+ "step": 774
5452
+ },
5453
+ {
5454
+ "epoch": 0.05627972840492357,
5455
+ "grad_norm": 2.569800853729248,
5456
+ "learning_rate": 9.760286297914223e-05,
5457
+ "loss": 0.9149,
5458
+ "step": 775
5459
+ },
5460
+ {
5461
+ "epoch": 0.056352347409317015,
5462
+ "grad_norm": 0.986344039440155,
5463
+ "learning_rate": 9.739446157692415e-05,
5464
+ "loss": 0.0597,
5465
+ "step": 776
5466
+ },
5467
+ {
5468
+ "epoch": 0.05642496641371047,
5469
+ "grad_norm": 1.5366631746292114,
5470
+ "learning_rate": 9.71860714979422e-05,
5471
+ "loss": 0.26,
5472
+ "step": 777
5473
+ },
5474
+ {
5475
+ "epoch": 0.056497585418103916,
5476
+ "grad_norm": 1.1993207931518555,
5477
+ "learning_rate": 9.697769364782501e-05,
5478
+ "loss": 0.9964,
5479
+ "step": 778
5480
+ },
5481
+ {
5482
+ "epoch": 0.05657020442249737,
5483
+ "grad_norm": 0.4609467685222626,
5484
+ "learning_rate": 9.676932893214805e-05,
5485
+ "loss": 0.1857,
5486
+ "step": 779
5487
+ },
5488
+ {
5489
+ "epoch": 0.056642823426890816,
5490
+ "grad_norm": 2.9757611751556396,
5491
+ "learning_rate": 9.656097825642961e-05,
5492
+ "loss": 0.5071,
5493
+ "step": 780
5494
+ },
5495
+ {
5496
+ "epoch": 0.05671544243128427,
5497
+ "grad_norm": 0.9907705187797546,
5498
+ "learning_rate": 9.635264252612711e-05,
5499
+ "loss": 1.1982,
5500
+ "step": 781
5501
+ },
5502
+ {
5503
+ "epoch": 0.05678806143567772,
5504
+ "grad_norm": 0.6433952450752258,
5505
+ "learning_rate": 9.614432264663287e-05,
5506
+ "loss": 0.6687,
5507
+ "step": 782
5508
+ },
5509
+ {
5510
+ "epoch": 0.056860680440071164,
5511
+ "grad_norm": 1.5051597356796265,
5512
+ "learning_rate": 9.593601952327048e-05,
5513
+ "loss": 0.7077,
5514
+ "step": 783
5515
+ },
5516
+ {
5517
+ "epoch": 0.05693329944446462,
5518
+ "grad_norm": 1.4717247486114502,
5519
+ "learning_rate": 9.572773406129057e-05,
5520
+ "loss": 0.7229,
5521
+ "step": 784
5522
+ },
5523
+ {
5524
+ "epoch": 0.057005918448858064,
5525
+ "grad_norm": 1.4327820539474487,
5526
+ "learning_rate": 9.551946716586713e-05,
5527
+ "loss": 1.2878,
5528
+ "step": 785
5529
+ },
5530
+ {
5531
+ "epoch": 0.05707853745325152,
5532
+ "grad_norm": 3.108001708984375,
5533
+ "learning_rate": 9.531121974209333e-05,
5534
+ "loss": 0.8526,
5535
+ "step": 786
5536
+ },
5537
+ {
5538
+ "epoch": 0.057151156457644965,
5539
+ "grad_norm": 2.0628154277801514,
5540
+ "learning_rate": 9.510299269497791e-05,
5541
+ "loss": 1.0106,
5542
+ "step": 787
5543
+ },
5544
+ {
5545
+ "epoch": 0.05722377546203841,
5546
+ "grad_norm": 0.8770999908447266,
5547
+ "learning_rate": 9.489478692944087e-05,
5548
+ "loss": 0.9365,
5549
+ "step": 788
5550
+ },
5551
+ {
5552
+ "epoch": 0.057296394466431866,
5553
+ "grad_norm": 1.6717029809951782,
5554
+ "learning_rate": 9.46866033503098e-05,
5555
+ "loss": 0.4152,
5556
+ "step": 789
5557
+ },
5558
+ {
5559
+ "epoch": 0.05736901347082531,
5560
+ "grad_norm": 0.6597108244895935,
5561
+ "learning_rate": 9.447844286231594e-05,
5562
+ "loss": 0.6531,
5563
+ "step": 790
5564
+ },
5565
+ {
5566
+ "epoch": 0.057441632475218767,
5567
+ "grad_norm": 1.3612674474716187,
5568
+ "learning_rate": 9.427030637009003e-05,
5569
+ "loss": 0.4148,
5570
+ "step": 791
5571
+ },
5572
+ {
5573
+ "epoch": 0.05751425147961221,
5574
+ "grad_norm": 0.5453882217407227,
5575
+ "learning_rate": 9.406219477815867e-05,
5576
+ "loss": 0.426,
5577
+ "step": 792
5578
+ },
5579
+ {
5580
+ "epoch": 0.05758687048400567,
5581
+ "grad_norm": 0.8962843418121338,
5582
+ "learning_rate": 9.385410899094013e-05,
5583
+ "loss": 0.341,
5584
+ "step": 793
5585
+ },
5586
+ {
5587
+ "epoch": 0.057659489488399114,
5588
+ "grad_norm": 0.7332125306129456,
5589
+ "learning_rate": 9.364604991274068e-05,
5590
+ "loss": 0.1671,
5591
+ "step": 794
5592
+ },
5593
+ {
5594
+ "epoch": 0.05773210849279256,
5595
+ "grad_norm": 1.698838233947754,
5596
+ "learning_rate": 9.343801844775034e-05,
5597
+ "loss": 0.2474,
5598
+ "step": 795
5599
+ },
5600
+ {
5601
+ "epoch": 0.057804727497186015,
5602
+ "grad_norm": 1.134534239768982,
5603
+ "learning_rate": 9.323001550003931e-05,
5604
+ "loss": 1.1692,
5605
+ "step": 796
5606
+ },
5607
+ {
5608
+ "epoch": 0.05787734650157946,
5609
+ "grad_norm": 0.7837601900100708,
5610
+ "learning_rate": 9.302204197355368e-05,
5611
+ "loss": 0.664,
5612
+ "step": 797
5613
+ },
5614
+ {
5615
+ "epoch": 0.057949965505972915,
5616
+ "grad_norm": 2.5851547718048096,
5617
+ "learning_rate": 9.28140987721118e-05,
5618
+ "loss": 0.7487,
5619
+ "step": 798
5620
+ },
5621
+ {
5622
+ "epoch": 0.05802258451036636,
5623
+ "grad_norm": 0.5738522410392761,
5624
+ "learning_rate": 9.260618679940025e-05,
5625
+ "loss": 0.4756,
5626
+ "step": 799
5627
+ },
5628
+ {
5629
+ "epoch": 0.05809520351475981,
5630
+ "grad_norm": 1.0114805698394775,
5631
+ "learning_rate": 9.239830695896978e-05,
5632
+ "loss": 0.3665,
5633
+ "step": 800
5634
+ },
5635
+ {
5636
+ "epoch": 0.05816782251915326,
5637
+ "grad_norm": 1.4201353788375854,
5638
+ "learning_rate": 9.219046015423162e-05,
5639
+ "loss": 1.0616,
5640
+ "step": 801
5641
+ },
5642
+ {
5643
+ "epoch": 0.05824044152354671,
5644
+ "grad_norm": 0.5711639523506165,
5645
+ "learning_rate": 9.198264728845332e-05,
5646
+ "loss": 0.2396,
5647
+ "step": 802
5648
+ },
5649
+ {
5650
+ "epoch": 0.058313060527940164,
5651
+ "grad_norm": 1.1684767007827759,
5652
+ "learning_rate": 9.177486926475507e-05,
5653
+ "loss": 0.3521,
5654
+ "step": 803
5655
+ },
5656
+ {
5657
+ "epoch": 0.05838567953233361,
5658
+ "grad_norm": 1.4156098365783691,
5659
+ "learning_rate": 9.156712698610547e-05,
5660
+ "loss": 0.9906,
5661
+ "step": 804
5662
+ },
5663
+ {
5664
+ "epoch": 0.058458298536727064,
5665
+ "grad_norm": 0.6224841475486755,
5666
+ "learning_rate": 9.135942135531796e-05,
5667
+ "loss": 0.4158,
5668
+ "step": 805
5669
+ },
5670
+ {
5671
+ "epoch": 0.05853091754112051,
5672
+ "grad_norm": 1.1172404289245605,
5673
+ "learning_rate": 9.115175327504655e-05,
5674
+ "loss": 0.4146,
5675
+ "step": 806
5676
+ },
5677
+ {
5678
+ "epoch": 0.05860353654551396,
5679
+ "grad_norm": 0.8851704001426697,
5680
+ "learning_rate": 9.094412364778221e-05,
5681
+ "loss": 0.5798,
5682
+ "step": 807
5683
+ },
5684
+ {
5685
+ "epoch": 0.05867615554990741,
5686
+ "grad_norm": 1.035550594329834,
5687
+ "learning_rate": 9.07365333758487e-05,
5688
+ "loss": 0.7614,
5689
+ "step": 808
5690
+ },
5691
+ {
5692
+ "epoch": 0.05874877455430086,
5693
+ "grad_norm": 0.9061303734779358,
5694
+ "learning_rate": 9.05289833613988e-05,
5695
+ "loss": 0.576,
5696
+ "step": 809
5697
+ },
5698
+ {
5699
+ "epoch": 0.05882139355869431,
5700
+ "grad_norm": 0.9312248229980469,
5701
+ "learning_rate": 9.032147450641028e-05,
5702
+ "loss": 0.2855,
5703
+ "step": 810
5704
+ },
5705
+ {
5706
+ "epoch": 0.05889401256308776,
5707
+ "grad_norm": 1.2476495504379272,
5708
+ "learning_rate": 9.01140077126821e-05,
5709
+ "loss": 0.7157,
5710
+ "step": 811
5711
+ },
5712
+ {
5713
+ "epoch": 0.058966631567481206,
5714
+ "grad_norm": 0.660798966884613,
5715
+ "learning_rate": 8.990658388183038e-05,
5716
+ "loss": 0.2476,
5717
+ "step": 812
5718
+ },
5719
+ {
5720
+ "epoch": 0.05903925057187466,
5721
+ "grad_norm": 1.4954866170883179,
5722
+ "learning_rate": 8.969920391528458e-05,
5723
+ "loss": 0.5552,
5724
+ "step": 813
5725
+ },
5726
+ {
5727
+ "epoch": 0.05911186957626811,
5728
+ "grad_norm": 0.8855932950973511,
5729
+ "learning_rate": 8.949186871428348e-05,
5730
+ "loss": 0.65,
5731
+ "step": 814
5732
+ },
5733
+ {
5734
+ "epoch": 0.05918448858066156,
5735
+ "grad_norm": 2.629485607147217,
5736
+ "learning_rate": 8.928457917987136e-05,
5737
+ "loss": 0.4325,
5738
+ "step": 815
5739
+ },
5740
+ {
5741
+ "epoch": 0.05925710758505501,
5742
+ "grad_norm": 0.5645459294319153,
5743
+ "learning_rate": 8.9077336212894e-05,
5744
+ "loss": 0.2746,
5745
+ "step": 816
5746
+ },
5747
+ {
5748
+ "epoch": 0.05932972658944846,
5749
+ "grad_norm": 1.0492244958877563,
5750
+ "learning_rate": 8.887014071399488e-05,
5751
+ "loss": 0.5085,
5752
+ "step": 817
5753
+ },
5754
+ {
5755
+ "epoch": 0.05940234559384191,
5756
+ "grad_norm": 0.8126876354217529,
5757
+ "learning_rate": 8.866299358361108e-05,
5758
+ "loss": 0.901,
5759
+ "step": 818
5760
+ },
5761
+ {
5762
+ "epoch": 0.059474964598235355,
5763
+ "grad_norm": 0.7482452392578125,
5764
+ "learning_rate": 8.845589572196961e-05,
5765
+ "loss": 0.3572,
5766
+ "step": 819
5767
+ },
5768
+ {
5769
+ "epoch": 0.05954758360262881,
5770
+ "grad_norm": 2.5570991039276123,
5771
+ "learning_rate": 8.82488480290832e-05,
5772
+ "loss": 1.3839,
5773
+ "step": 820
5774
+ },
5775
+ {
5776
+ "epoch": 0.059620202607022256,
5777
+ "grad_norm": 0.7802184224128723,
5778
+ "learning_rate": 8.804185140474675e-05,
5779
+ "loss": 0.4388,
5780
+ "step": 821
5781
+ },
5782
+ {
5783
+ "epoch": 0.05969282161141571,
5784
+ "grad_norm": 1.984308123588562,
5785
+ "learning_rate": 8.783490674853302e-05,
5786
+ "loss": 0.571,
5787
+ "step": 822
5788
+ },
5789
+ {
5790
+ "epoch": 0.05976544061580916,
5791
+ "grad_norm": 1.1061800718307495,
5792
+ "learning_rate": 8.762801495978914e-05,
5793
+ "loss": 0.3899,
5794
+ "step": 823
5795
+ },
5796
+ {
5797
+ "epoch": 0.05983805962020261,
5798
+ "grad_norm": 0.7607733011245728,
5799
+ "learning_rate": 8.742117693763227e-05,
5800
+ "loss": 0.6425,
5801
+ "step": 824
5802
+ },
5803
+ {
5804
+ "epoch": 0.05991067862459606,
5805
+ "grad_norm": 0.7867072224617004,
5806
+ "learning_rate": 8.721439358094612e-05,
5807
+ "loss": 0.3864,
5808
+ "step": 825
5809
+ },
5810
+ {
5811
+ "epoch": 0.059983297628989504,
5812
+ "grad_norm": 2.6383373737335205,
5813
+ "learning_rate": 8.700766578837664e-05,
5814
+ "loss": 0.6902,
5815
+ "step": 826
5816
+ },
5817
+ {
5818
+ "epoch": 0.06005591663338296,
5819
+ "grad_norm": 0.5204357504844666,
5820
+ "learning_rate": 8.680099445832842e-05,
5821
+ "loss": 0.1247,
5822
+ "step": 827
5823
+ },
5824
+ {
5825
+ "epoch": 0.060128535637776405,
5826
+ "grad_norm": 1.4301972389221191,
5827
+ "learning_rate": 8.659438048896071e-05,
5828
+ "loss": 1.4639,
5829
+ "step": 828
5830
+ },
5831
+ {
5832
+ "epoch": 0.06020115464216986,
5833
+ "grad_norm": 0.41357865929603577,
5834
+ "learning_rate": 8.638782477818334e-05,
5835
+ "loss": 0.1834,
5836
+ "step": 829
5837
+ },
5838
+ {
5839
+ "epoch": 0.060273773646563306,
5840
+ "grad_norm": 0.8870722651481628,
5841
+ "learning_rate": 8.618132822365311e-05,
5842
+ "loss": 0.4457,
5843
+ "step": 830
5844
+ },
5845
+ {
5846
+ "epoch": 0.06034639265095675,
5847
+ "grad_norm": 0.7810840606689453,
5848
+ "learning_rate": 8.597489172276957e-05,
5849
+ "loss": 0.3177,
5850
+ "step": 831
5851
+ },
5852
+ {
5853
+ "epoch": 0.060419011655350206,
5854
+ "grad_norm": 0.6351898312568665,
5855
+ "learning_rate": 8.57685161726715e-05,
5856
+ "loss": 0.3488,
5857
+ "step": 832
5858
+ },
5859
+ {
5860
+ "epoch": 0.06049163065974365,
5861
+ "grad_norm": 0.6372057795524597,
5862
+ "learning_rate": 8.556220247023256e-05,
5863
+ "loss": 0.767,
5864
+ "step": 833
5865
+ },
5866
+ {
5867
+ "epoch": 0.06056424966413711,
5868
+ "grad_norm": 1.307631015777588,
5869
+ "learning_rate": 8.535595151205786e-05,
5870
+ "loss": 0.8996,
5871
+ "step": 834
5872
+ },
5873
+ {
5874
+ "epoch": 0.060636868668530554,
5875
+ "grad_norm": 1.5109087228775024,
5876
+ "learning_rate": 8.514976419447964e-05,
5877
+ "loss": 0.7699,
5878
+ "step": 835
5879
+ },
5880
+ {
5881
+ "epoch": 0.06070948767292401,
5882
+ "grad_norm": 1.5807245969772339,
5883
+ "learning_rate": 8.494364141355368e-05,
5884
+ "loss": 0.9269,
5885
+ "step": 836
5886
+ },
5887
+ {
5888
+ "epoch": 0.060782106677317455,
5889
+ "grad_norm": 1.7503530979156494,
5890
+ "learning_rate": 8.47375840650553e-05,
5891
+ "loss": 0.825,
5892
+ "step": 837
5893
+ },
5894
+ {
5895
+ "epoch": 0.0608547256817109,
5896
+ "grad_norm": 0.9314043521881104,
5897
+ "learning_rate": 8.453159304447534e-05,
5898
+ "loss": 0.1621,
5899
+ "step": 838
5900
+ },
5901
+ {
5902
+ "epoch": 0.060927344686104355,
5903
+ "grad_norm": 1.5196501016616821,
5904
+ "learning_rate": 8.432566924701659e-05,
5905
+ "loss": 1.0021,
5906
+ "step": 839
5907
+ },
5908
+ {
5909
+ "epoch": 0.0609999636904978,
5910
+ "grad_norm": 0.8872591853141785,
5911
+ "learning_rate": 8.41198135675895e-05,
5912
+ "loss": 0.3018,
5913
+ "step": 840
5914
+ },
5915
+ {
5916
+ "epoch": 0.061072582694891256,
5917
+ "grad_norm": 0.8934780955314636,
5918
+ "learning_rate": 8.391402690080864e-05,
5919
+ "loss": 0.6862,
5920
+ "step": 841
5921
+ },
5922
+ {
5923
+ "epoch": 0.0611452016992847,
5924
+ "grad_norm": 0.7138051390647888,
5925
+ "learning_rate": 8.370831014098854e-05,
5926
+ "loss": 0.2865,
5927
+ "step": 842
5928
+ },
5929
+ {
5930
+ "epoch": 0.06121782070367815,
5931
+ "grad_norm": 0.8391185402870178,
5932
+ "learning_rate": 8.350266418214006e-05,
5933
+ "loss": 0.4947,
5934
+ "step": 843
5935
+ },
5936
+ {
5937
+ "epoch": 0.0612904397080716,
5938
+ "grad_norm": 0.9233042597770691,
5939
+ "learning_rate": 8.329708991796619e-05,
5940
+ "loss": 0.6456,
5941
+ "step": 844
5942
+ },
5943
+ {
5944
+ "epoch": 0.06136305871246505,
5945
+ "grad_norm": 1.451659917831421,
5946
+ "learning_rate": 8.309158824185854e-05,
5947
+ "loss": 1.4678,
5948
+ "step": 845
5949
+ },
5950
+ {
5951
+ "epoch": 0.061435677716858504,
5952
+ "grad_norm": 1.0687843561172485,
5953
+ "learning_rate": 8.28861600468932e-05,
5954
+ "loss": 1.3211,
5955
+ "step": 846
5956
+ },
5957
+ {
5958
+ "epoch": 0.06150829672125195,
5959
+ "grad_norm": 0.9472249150276184,
5960
+ "learning_rate": 8.268080622582682e-05,
5961
+ "loss": 1.1012,
5962
+ "step": 847
5963
+ },
5964
+ {
5965
+ "epoch": 0.061580915725645405,
5966
+ "grad_norm": 1.0834053754806519,
5967
+ "learning_rate": 8.2475527671093e-05,
5968
+ "loss": 0.3143,
5969
+ "step": 848
5970
+ },
5971
+ {
5972
+ "epoch": 0.06165353473003885,
5973
+ "grad_norm": 0.7939391136169434,
5974
+ "learning_rate": 8.227032527479806e-05,
5975
+ "loss": 0.3322,
5976
+ "step": 849
5977
+ },
5978
+ {
5979
+ "epoch": 0.0617261537344323,
5980
+ "grad_norm": 1.2913670539855957,
5981
+ "learning_rate": 8.206519992871756e-05,
5982
+ "loss": 1.1112,
5983
+ "step": 850
5984
+ },
5985
+ {
5986
+ "epoch": 0.06179877273882575,
5987
+ "grad_norm": 0.7568597197532654,
5988
+ "learning_rate": 8.1860152524292e-05,
5989
+ "loss": 0.5025,
5990
+ "step": 851
5991
+ },
5992
+ {
5993
+ "epoch": 0.0618713917432192,
5994
+ "grad_norm": 0.7415629029273987,
5995
+ "learning_rate": 8.165518395262335e-05,
5996
+ "loss": 0.7002,
5997
+ "step": 852
5998
+ },
5999
+ {
6000
+ "epoch": 0.06194401074761265,
6001
+ "grad_norm": 1.0701147317886353,
6002
+ "learning_rate": 8.14502951044708e-05,
6003
+ "loss": 0.3526,
6004
+ "step": 853
6005
+ },
6006
+ {
6007
+ "epoch": 0.0620166297520061,
6008
+ "grad_norm": 0.8759703636169434,
6009
+ "learning_rate": 8.124548687024723e-05,
6010
+ "loss": 1.0995,
6011
+ "step": 854
6012
+ },
6013
+ {
6014
+ "epoch": 0.06208924875639955,
6015
+ "grad_norm": 0.9400107860565186,
6016
+ "learning_rate": 8.104076014001514e-05,
6017
+ "loss": 0.3314,
6018
+ "step": 855
6019
+ },
6020
+ {
6021
+ "epoch": 0.062161867760793,
6022
+ "grad_norm": 1.0083138942718506,
6023
+ "learning_rate": 8.083611580348277e-05,
6024
+ "loss": 0.3453,
6025
+ "step": 856
6026
+ },
6027
+ {
6028
+ "epoch": 0.06223448676518645,
6029
+ "grad_norm": 0.9074184894561768,
6030
+ "learning_rate": 8.063155475000037e-05,
6031
+ "loss": 0.4892,
6032
+ "step": 857
6033
+ },
6034
+ {
6035
+ "epoch": 0.0623071057695799,
6036
+ "grad_norm": 1.6481777429580688,
6037
+ "learning_rate": 8.042707786855617e-05,
6038
+ "loss": 0.7171,
6039
+ "step": 858
6040
+ },
6041
+ {
6042
+ "epoch": 0.06237972477397335,
6043
+ "grad_norm": 1.227709174156189,
6044
+ "learning_rate": 8.022268604777271e-05,
6045
+ "loss": 0.7768,
6046
+ "step": 859
6047
+ },
6048
+ {
6049
+ "epoch": 0.0624523437783668,
6050
+ "grad_norm": 0.6494023203849792,
6051
+ "learning_rate": 8.001838017590277e-05,
6052
+ "loss": 0.2314,
6053
+ "step": 860
6054
+ },
6055
+ {
6056
+ "epoch": 0.06252496278276025,
6057
+ "grad_norm": 1.3288606405258179,
6058
+ "learning_rate": 7.981416114082568e-05,
6059
+ "loss": 0.4127,
6060
+ "step": 861
6061
+ },
6062
+ {
6063
+ "epoch": 0.0625975817871537,
6064
+ "grad_norm": 0.9424789547920227,
6065
+ "learning_rate": 7.961002983004335e-05,
6066
+ "loss": 0.7112,
6067
+ "step": 862
6068
+ },
6069
+ {
6070
+ "epoch": 0.06267020079154714,
6071
+ "grad_norm": 1.2619773149490356,
6072
+ "learning_rate": 7.940598713067646e-05,
6073
+ "loss": 1.2998,
6074
+ "step": 863
6075
+ },
6076
+ {
6077
+ "epoch": 0.0627428197959406,
6078
+ "grad_norm": 1.4239133596420288,
6079
+ "learning_rate": 7.920203392946065e-05,
6080
+ "loss": 1.1869,
6081
+ "step": 864
6082
+ },
6083
+ {
6084
+ "epoch": 0.06281543880033405,
6085
+ "grad_norm": 1.0152820348739624,
6086
+ "learning_rate": 7.899817111274248e-05,
6087
+ "loss": 0.3258,
6088
+ "step": 865
6089
+ },
6090
+ {
6091
+ "epoch": 0.0628880578047275,
6092
+ "grad_norm": 1.1045777797698975,
6093
+ "learning_rate": 7.879439956647594e-05,
6094
+ "loss": 0.244,
6095
+ "step": 866
6096
+ },
6097
+ {
6098
+ "epoch": 0.06296067680912094,
6099
+ "grad_norm": 1.7886762619018555,
6100
+ "learning_rate": 7.859072017621812e-05,
6101
+ "loss": 0.9382,
6102
+ "step": 867
6103
+ },
6104
+ {
6105
+ "epoch": 0.0630332958135144,
6106
+ "grad_norm": 1.1358466148376465,
6107
+ "learning_rate": 7.838713382712583e-05,
6108
+ "loss": 0.2925,
6109
+ "step": 868
6110
+ },
6111
+ {
6112
+ "epoch": 0.06310591481790785,
6113
+ "grad_norm": 1.4714925289154053,
6114
+ "learning_rate": 7.818364140395137e-05,
6115
+ "loss": 0.1758,
6116
+ "step": 869
6117
+ },
6118
+ {
6119
+ "epoch": 0.06317853382230129,
6120
+ "grad_norm": 1.0500401258468628,
6121
+ "learning_rate": 7.798024379103903e-05,
6122
+ "loss": 0.1407,
6123
+ "step": 870
6124
+ },
6125
+ {
6126
+ "epoch": 0.06325115282669475,
6127
+ "grad_norm": 0.9449998736381531,
6128
+ "learning_rate": 7.777694187232085e-05,
6129
+ "loss": 0.3281,
6130
+ "step": 871
6131
+ },
6132
+ {
6133
+ "epoch": 0.0633237718310882,
6134
+ "grad_norm": 1.001770257949829,
6135
+ "learning_rate": 7.757373653131322e-05,
6136
+ "loss": 0.6883,
6137
+ "step": 872
6138
+ },
6139
+ {
6140
+ "epoch": 0.06339639083548164,
6141
+ "grad_norm": 1.5930564403533936,
6142
+ "learning_rate": 7.737062865111264e-05,
6143
+ "loss": 1.0698,
6144
+ "step": 873
6145
+ },
6146
+ {
6147
+ "epoch": 0.06346900983987509,
6148
+ "grad_norm": 1.1424990892410278,
6149
+ "learning_rate": 7.716761911439216e-05,
6150
+ "loss": 0.5009,
6151
+ "step": 874
6152
+ },
6153
+ {
6154
+ "epoch": 0.06354162884426855,
6155
+ "grad_norm": 2.4575681686401367,
6156
+ "learning_rate": 7.69647088033975e-05,
6157
+ "loss": 1.098,
6158
+ "step": 875
6159
+ },
6160
+ {
6161
+ "epoch": 0.063614247848662,
6162
+ "grad_norm": 1.0910656452178955,
6163
+ "learning_rate": 7.676189859994298e-05,
6164
+ "loss": 0.7186,
6165
+ "step": 876
6166
+ },
6167
+ {
6168
+ "epoch": 0.06368686685305544,
6169
+ "grad_norm": 0.5516690611839294,
6170
+ "learning_rate": 7.655918938540808e-05,
6171
+ "loss": 0.3268,
6172
+ "step": 877
6173
+ },
6174
+ {
6175
+ "epoch": 0.0637594858574489,
6176
+ "grad_norm": 0.6600070595741272,
6177
+ "learning_rate": 7.63565820407332e-05,
6178
+ "loss": 0.2945,
6179
+ "step": 878
6180
+ },
6181
+ {
6182
+ "epoch": 0.06383210486184235,
6183
+ "grad_norm": 1.2723064422607422,
6184
+ "learning_rate": 7.615407744641619e-05,
6185
+ "loss": 0.9468,
6186
+ "step": 879
6187
+ },
6188
+ {
6189
+ "epoch": 0.06390472386623579,
6190
+ "grad_norm": 0.9849138259887695,
6191
+ "learning_rate": 7.595167648250825e-05,
6192
+ "loss": 0.8803,
6193
+ "step": 880
6194
+ },
6195
+ {
6196
+ "epoch": 0.06397734287062924,
6197
+ "grad_norm": 1.043287992477417,
6198
+ "learning_rate": 7.574938002861033e-05,
6199
+ "loss": 1.0998,
6200
+ "step": 881
6201
+ },
6202
+ {
6203
+ "epoch": 0.0640499618750227,
6204
+ "grad_norm": 1.1217182874679565,
6205
+ "learning_rate": 7.554718896386906e-05,
6206
+ "loss": 0.4497,
6207
+ "step": 882
6208
+ },
6209
+ {
6210
+ "epoch": 0.06412258087941615,
6211
+ "grad_norm": 1.0717918872833252,
6212
+ "learning_rate": 7.534510416697322e-05,
6213
+ "loss": 0.7797,
6214
+ "step": 883
6215
+ },
6216
+ {
6217
+ "epoch": 0.06419519988380959,
6218
+ "grad_norm": 2.1684038639068604,
6219
+ "learning_rate": 7.514312651614964e-05,
6220
+ "loss": 1.4668,
6221
+ "step": 884
6222
+ },
6223
+ {
6224
+ "epoch": 0.06426781888820304,
6225
+ "grad_norm": 0.8061167597770691,
6226
+ "learning_rate": 7.494125688915959e-05,
6227
+ "loss": 0.6487,
6228
+ "step": 885
6229
+ },
6230
+ {
6231
+ "epoch": 0.0643404378925965,
6232
+ "grad_norm": 1.2220314741134644,
6233
+ "learning_rate": 7.473949616329487e-05,
6234
+ "loss": 0.9514,
6235
+ "step": 886
6236
+ },
6237
+ {
6238
+ "epoch": 0.06441305689698994,
6239
+ "grad_norm": 1.135111927986145,
6240
+ "learning_rate": 7.453784521537392e-05,
6241
+ "loss": 1.068,
6242
+ "step": 887
6243
+ },
6244
+ {
6245
+ "epoch": 0.06448567590138339,
6246
+ "grad_norm": 0.7935314774513245,
6247
+ "learning_rate": 7.43363049217383e-05,
6248
+ "loss": 0.4185,
6249
+ "step": 888
6250
+ },
6251
+ {
6252
+ "epoch": 0.06455829490577684,
6253
+ "grad_norm": 1.032720923423767,
6254
+ "learning_rate": 7.413487615824847e-05,
6255
+ "loss": 0.7423,
6256
+ "step": 889
6257
+ },
6258
+ {
6259
+ "epoch": 0.0646309139101703,
6260
+ "grad_norm": 0.8119061589241028,
6261
+ "learning_rate": 7.393355980028039e-05,
6262
+ "loss": 0.5868,
6263
+ "step": 890
6264
+ },
6265
+ {
6266
+ "epoch": 0.06470353291456374,
6267
+ "grad_norm": 0.6888155937194824,
6268
+ "learning_rate": 7.373235672272131e-05,
6269
+ "loss": 0.8889,
6270
+ "step": 891
6271
+ },
6272
+ {
6273
+ "epoch": 0.06477615191895719,
6274
+ "grad_norm": 1.440739393234253,
6275
+ "learning_rate": 7.353126779996639e-05,
6276
+ "loss": 0.5643,
6277
+ "step": 892
6278
+ },
6279
+ {
6280
+ "epoch": 0.06484877092335065,
6281
+ "grad_norm": 0.3748563230037689,
6282
+ "learning_rate": 7.333029390591467e-05,
6283
+ "loss": 0.1296,
6284
+ "step": 893
6285
+ },
6286
+ {
6287
+ "epoch": 0.06492138992774409,
6288
+ "grad_norm": 0.951309323310852,
6289
+ "learning_rate": 7.312943591396508e-05,
6290
+ "loss": 0.3688,
6291
+ "step": 894
6292
+ },
6293
+ {
6294
+ "epoch": 0.06499400893213754,
6295
+ "grad_norm": 1.4929016828536987,
6296
+ "learning_rate": 7.292869469701315e-05,
6297
+ "loss": 0.1517,
6298
+ "step": 895
6299
+ },
6300
+ {
6301
+ "epoch": 0.065066627936531,
6302
+ "grad_norm": 0.5714091658592224,
6303
+ "learning_rate": 7.272807112744666e-05,
6304
+ "loss": 0.3717,
6305
+ "step": 896
6306
+ },
6307
+ {
6308
+ "epoch": 0.06513924694092443,
6309
+ "grad_norm": 1.1853396892547607,
6310
+ "learning_rate": 7.252756607714237e-05,
6311
+ "loss": 0.8886,
6312
+ "step": 897
6313
+ },
6314
+ {
6315
+ "epoch": 0.06521186594531789,
6316
+ "grad_norm": 0.8971914052963257,
6317
+ "learning_rate": 7.232718041746172e-05,
6318
+ "loss": 0.3482,
6319
+ "step": 898
6320
+ },
6321
+ {
6322
+ "epoch": 0.06528448494971134,
6323
+ "grad_norm": 0.9511501789093018,
6324
+ "learning_rate": 7.212691501924753e-05,
6325
+ "loss": 0.5241,
6326
+ "step": 899
6327
+ },
6328
+ {
6329
+ "epoch": 0.0653571039541048,
6330
+ "grad_norm": 1.5566978454589844,
6331
+ "learning_rate": 7.192677075281978e-05,
6332
+ "loss": 0.8287,
6333
+ "step": 900
6334
+ },
6335
+ {
6336
+ "epoch": 0.06542972295849823,
6337
+ "grad_norm": 3.092409133911133,
6338
+ "learning_rate": 7.172674848797219e-05,
6339
+ "loss": 0.7043,
6340
+ "step": 901
6341
+ },
6342
+ {
6343
+ "epoch": 0.06550234196289169,
6344
+ "grad_norm": 0.41825735569000244,
6345
+ "learning_rate": 7.152684909396822e-05,
6346
+ "loss": 0.1668,
6347
+ "step": 902
6348
+ },
6349
+ {
6350
+ "epoch": 0.06557496096728514,
6351
+ "grad_norm": 0.7303375005722046,
6352
+ "learning_rate": 7.132707343953732e-05,
6353
+ "loss": 0.3666,
6354
+ "step": 903
6355
+ },
6356
+ {
6357
+ "epoch": 0.06564757997167858,
6358
+ "grad_norm": 0.9642083048820496,
6359
+ "learning_rate": 7.112742239287126e-05,
6360
+ "loss": 0.8572,
6361
+ "step": 904
6362
+ },
6363
+ {
6364
+ "epoch": 0.06572019897607204,
6365
+ "grad_norm": 0.8542434573173523,
6366
+ "learning_rate": 7.092789682162024e-05,
6367
+ "loss": 0.399,
6368
+ "step": 905
6369
+ },
6370
+ {
6371
+ "epoch": 0.06579281798046549,
6372
+ "grad_norm": 0.8454334139823914,
6373
+ "learning_rate": 7.072849759288912e-05,
6374
+ "loss": 0.4181,
6375
+ "step": 906
6376
+ },
6377
+ {
6378
+ "epoch": 0.06586543698485894,
6379
+ "grad_norm": 0.9029088020324707,
6380
+ "learning_rate": 7.052922557323383e-05,
6381
+ "loss": 0.4566,
6382
+ "step": 907
6383
+ },
6384
+ {
6385
+ "epoch": 0.06593805598925238,
6386
+ "grad_norm": 0.9722921252250671,
6387
+ "learning_rate": 7.033008162865732e-05,
6388
+ "loss": 0.3817,
6389
+ "step": 908
6390
+ },
6391
+ {
6392
+ "epoch": 0.06601067499364584,
6393
+ "grad_norm": 0.9663965106010437,
6394
+ "learning_rate": 7.013106662460604e-05,
6395
+ "loss": 0.2543,
6396
+ "step": 909
6397
+ },
6398
+ {
6399
+ "epoch": 0.06608329399803929,
6400
+ "grad_norm": 0.8726044297218323,
6401
+ "learning_rate": 6.993218142596608e-05,
6402
+ "loss": 0.2746,
6403
+ "step": 910
6404
+ },
6405
+ {
6406
+ "epoch": 0.06615591300243273,
6407
+ "grad_norm": 1.117026925086975,
6408
+ "learning_rate": 6.973342689705937e-05,
6409
+ "loss": 0.814,
6410
+ "step": 911
6411
+ },
6412
+ {
6413
+ "epoch": 0.06622853200682619,
6414
+ "grad_norm": 0.27998337149620056,
6415
+ "learning_rate": 6.953480390164e-05,
6416
+ "loss": 0.0982,
6417
+ "step": 912
6418
+ },
6419
+ {
6420
+ "epoch": 0.06630115101121964,
6421
+ "grad_norm": 1.1643705368041992,
6422
+ "learning_rate": 6.93363133028905e-05,
6423
+ "loss": 0.874,
6424
+ "step": 913
6425
+ },
6426
+ {
6427
+ "epoch": 0.06637377001561309,
6428
+ "grad_norm": 1.0442330837249756,
6429
+ "learning_rate": 6.913795596341785e-05,
6430
+ "loss": 0.3492,
6431
+ "step": 914
6432
+ },
6433
+ {
6434
+ "epoch": 0.06644638902000653,
6435
+ "grad_norm": 0.45305201411247253,
6436
+ "learning_rate": 6.893973274525014e-05,
6437
+ "loss": 0.2096,
6438
+ "step": 915
6439
+ },
6440
+ {
6441
+ "epoch": 0.06651900802439999,
6442
+ "grad_norm": 1.278076171875,
6443
+ "learning_rate": 6.874164450983238e-05,
6444
+ "loss": 0.3226,
6445
+ "step": 916
6446
+ },
6447
+ {
6448
+ "epoch": 0.06659162702879344,
6449
+ "grad_norm": 1.0749460458755493,
6450
+ "learning_rate": 6.854369211802314e-05,
6451
+ "loss": 0.6293,
6452
+ "step": 917
6453
+ },
6454
+ {
6455
+ "epoch": 0.06666424603318688,
6456
+ "grad_norm": 1.6141176223754883,
6457
+ "learning_rate": 6.834587643009047e-05,
6458
+ "loss": 0.8815,
6459
+ "step": 918
6460
+ },
6461
+ {
6462
+ "epoch": 0.06673686503758033,
6463
+ "grad_norm": 0.4306516647338867,
6464
+ "learning_rate": 6.81481983057085e-05,
6465
+ "loss": 0.285,
6466
+ "step": 919
6467
+ },
6468
+ {
6469
+ "epoch": 0.06680948404197379,
6470
+ "grad_norm": 0.957610547542572,
6471
+ "learning_rate": 6.795065860395335e-05,
6472
+ "loss": 0.3719,
6473
+ "step": 920
6474
+ },
6475
+ {
6476
+ "epoch": 0.06688210304636723,
6477
+ "grad_norm": 0.8341255784034729,
6478
+ "learning_rate": 6.775325818329974e-05,
6479
+ "loss": 0.3517,
6480
+ "step": 921
6481
+ },
6482
+ {
6483
+ "epoch": 0.06695472205076068,
6484
+ "grad_norm": 0.8621962070465088,
6485
+ "learning_rate": 6.755599790161707e-05,
6486
+ "loss": 0.6972,
6487
+ "step": 922
6488
+ },
6489
+ {
6490
+ "epoch": 0.06702734105515414,
6491
+ "grad_norm": 0.983747124671936,
6492
+ "learning_rate": 6.735887861616556e-05,
6493
+ "loss": 0.5894,
6494
+ "step": 923
6495
+ },
6496
+ {
6497
+ "epoch": 0.06709996005954759,
6498
+ "grad_norm": 1.1814996004104614,
6499
+ "learning_rate": 6.716190118359292e-05,
6500
+ "loss": 0.501,
6501
+ "step": 924
6502
+ },
6503
+ {
6504
+ "epoch": 0.06717257906394103,
6505
+ "grad_norm": 1.239450454711914,
6506
+ "learning_rate": 6.696506645993019e-05,
6507
+ "loss": 1.1688,
6508
+ "step": 925
6509
+ },
6510
+ {
6511
+ "epoch": 0.06724519806833448,
6512
+ "grad_norm": 0.5906079411506653,
6513
+ "learning_rate": 6.67683753005884e-05,
6514
+ "loss": 0.3475,
6515
+ "step": 926
6516
+ },
6517
+ {
6518
+ "epoch": 0.06731781707272794,
6519
+ "grad_norm": 0.8814708590507507,
6520
+ "learning_rate": 6.657182856035447e-05,
6521
+ "loss": 1.0399,
6522
+ "step": 927
6523
+ },
6524
+ {
6525
+ "epoch": 0.06739043607712138,
6526
+ "grad_norm": 0.8364510536193848,
6527
+ "learning_rate": 6.637542709338789e-05,
6528
+ "loss": 0.3515,
6529
+ "step": 928
6530
+ },
6531
+ {
6532
+ "epoch": 0.06746305508151483,
6533
+ "grad_norm": 0.63116854429245,
6534
+ "learning_rate": 6.617917175321669e-05,
6535
+ "loss": 0.3783,
6536
+ "step": 929
6537
+ },
6538
+ {
6539
+ "epoch": 0.06753567408590828,
6540
+ "grad_norm": 0.7996227741241455,
6541
+ "learning_rate": 6.598306339273393e-05,
6542
+ "loss": 0.8184,
6543
+ "step": 930
6544
+ },
6545
+ {
6546
+ "epoch": 0.06760829309030174,
6547
+ "grad_norm": 0.5852695107460022,
6548
+ "learning_rate": 6.578710286419387e-05,
6549
+ "loss": 0.1764,
6550
+ "step": 931
6551
+ },
6552
+ {
6553
+ "epoch": 0.06768091209469518,
6554
+ "grad_norm": 1.080872893333435,
6555
+ "learning_rate": 6.559129101920835e-05,
6556
+ "loss": 1.0413,
6557
+ "step": 932
6558
+ },
6559
+ {
6560
+ "epoch": 0.06775353109908863,
6561
+ "grad_norm": 1.5430817604064941,
6562
+ "learning_rate": 6.53956287087431e-05,
6563
+ "loss": 1.04,
6564
+ "step": 933
6565
+ },
6566
+ {
6567
+ "epoch": 0.06782615010348209,
6568
+ "grad_norm": 0.8056606650352478,
6569
+ "learning_rate": 6.520011678311382e-05,
6570
+ "loss": 0.4264,
6571
+ "step": 934
6572
+ },
6573
+ {
6574
+ "epoch": 0.06789876910787553,
6575
+ "grad_norm": 0.8869556188583374,
6576
+ "learning_rate": 6.50047560919829e-05,
6577
+ "loss": 0.6154,
6578
+ "step": 935
6579
+ },
6580
+ {
6581
+ "epoch": 0.06797138811226898,
6582
+ "grad_norm": 1.0641229152679443,
6583
+ "learning_rate": 6.48095474843553e-05,
6584
+ "loss": 0.3356,
6585
+ "step": 936
6586
+ },
6587
+ {
6588
+ "epoch": 0.06804400711666243,
6589
+ "grad_norm": 0.6757221221923828,
6590
+ "learning_rate": 6.461449180857522e-05,
6591
+ "loss": 0.7945,
6592
+ "step": 937
6593
+ },
6594
+ {
6595
+ "epoch": 0.06811662612105589,
6596
+ "grad_norm": 1.6167094707489014,
6597
+ "learning_rate": 6.441958991232202e-05,
6598
+ "loss": 1.0524,
6599
+ "step": 938
6600
+ },
6601
+ {
6602
+ "epoch": 0.06818924512544933,
6603
+ "grad_norm": 0.6140128374099731,
6604
+ "learning_rate": 6.422484264260698e-05,
6605
+ "loss": 0.2873,
6606
+ "step": 939
6607
+ },
6608
+ {
6609
+ "epoch": 0.06826186412984278,
6610
+ "grad_norm": 1.1318567991256714,
6611
+ "learning_rate": 6.403025084576932e-05,
6612
+ "loss": 0.9774,
6613
+ "step": 940
6614
+ },
6615
+ {
6616
+ "epoch": 0.06833448313423623,
6617
+ "grad_norm": 1.5785590410232544,
6618
+ "learning_rate": 6.383581536747252e-05,
6619
+ "loss": 0.9335,
6620
+ "step": 941
6621
+ },
6622
+ {
6623
+ "epoch": 0.06840710213862967,
6624
+ "grad_norm": 1.1314034461975098,
6625
+ "learning_rate": 6.364153705270088e-05,
6626
+ "loss": 0.6233,
6627
+ "step": 942
6628
+ },
6629
+ {
6630
+ "epoch": 0.06847972114302313,
6631
+ "grad_norm": 1.5190768241882324,
6632
+ "learning_rate": 6.344741674575553e-05,
6633
+ "loss": 0.3765,
6634
+ "step": 943
6635
+ },
6636
+ {
6637
+ "epoch": 0.06855234014741658,
6638
+ "grad_norm": 1.107803225517273,
6639
+ "learning_rate": 6.325345529025106e-05,
6640
+ "loss": 0.548,
6641
+ "step": 944
6642
+ },
6643
+ {
6644
+ "epoch": 0.06862495915181002,
6645
+ "grad_norm": 0.8528901934623718,
6646
+ "learning_rate": 6.305965352911161e-05,
6647
+ "loss": 0.3526,
6648
+ "step": 945
6649
+ },
6650
+ {
6651
+ "epoch": 0.06869757815620348,
6652
+ "grad_norm": 1.8871947526931763,
6653
+ "learning_rate": 6.286601230456743e-05,
6654
+ "loss": 0.6336,
6655
+ "step": 946
6656
+ },
6657
+ {
6658
+ "epoch": 0.06877019716059693,
6659
+ "grad_norm": 0.7002166509628296,
6660
+ "learning_rate": 6.267253245815097e-05,
6661
+ "loss": 0.3596,
6662
+ "step": 947
6663
+ },
6664
+ {
6665
+ "epoch": 0.06884281616499038,
6666
+ "grad_norm": 2.7516982555389404,
6667
+ "learning_rate": 6.247921483069351e-05,
6668
+ "loss": 1.1462,
6669
+ "step": 948
6670
+ },
6671
+ {
6672
+ "epoch": 0.06891543516938382,
6673
+ "grad_norm": 1.5767769813537598,
6674
+ "learning_rate": 6.228606026232118e-05,
6675
+ "loss": 0.3461,
6676
+ "step": 949
6677
+ },
6678
+ {
6679
+ "epoch": 0.06898805417377728,
6680
+ "grad_norm": 2.7577474117279053,
6681
+ "learning_rate": 6.209306959245161e-05,
6682
+ "loss": 0.3272,
6683
+ "step": 950
6684
+ },
6685
+ {
6686
+ "epoch": 0.06906067317817073,
6687
+ "grad_norm": 1.220229983329773,
6688
+ "learning_rate": 6.190024365979017e-05,
6689
+ "loss": 0.8371,
6690
+ "step": 951
6691
+ },
6692
+ {
6693
+ "epoch": 0.06913329218256417,
6694
+ "grad_norm": 1.1744657754898071,
6695
+ "learning_rate": 6.170758330232621e-05,
6696
+ "loss": 0.6767,
6697
+ "step": 952
6698
+ },
6699
+ {
6700
+ "epoch": 0.06920591118695762,
6701
+ "grad_norm": 1.7130528688430786,
6702
+ "learning_rate": 6.151508935732956e-05,
6703
+ "loss": 0.4092,
6704
+ "step": 953
6705
+ },
6706
+ {
6707
+ "epoch": 0.06927853019135108,
6708
+ "grad_norm": 1.0144054889678955,
6709
+ "learning_rate": 6.132276266134687e-05,
6710
+ "loss": 0.939,
6711
+ "step": 954
6712
+ },
6713
+ {
6714
+ "epoch": 0.06935114919574453,
6715
+ "grad_norm": 0.8083431124687195,
6716
+ "learning_rate": 6.113060405019794e-05,
6717
+ "loss": 0.2313,
6718
+ "step": 955
6719
+ },
6720
+ {
6721
+ "epoch": 0.06942376820013797,
6722
+ "grad_norm": 1.4344497919082642,
6723
+ "learning_rate": 6.093861435897208e-05,
6724
+ "loss": 0.9125,
6725
+ "step": 956
6726
+ },
6727
+ {
6728
+ "epoch": 0.06949638720453143,
6729
+ "grad_norm": 0.576572835445404,
6730
+ "learning_rate": 6.074679442202455e-05,
6731
+ "loss": 0.4151,
6732
+ "step": 957
6733
+ },
6734
+ {
6735
+ "epoch": 0.06956900620892488,
6736
+ "grad_norm": 1.4292668104171753,
6737
+ "learning_rate": 6.055514507297284e-05,
6738
+ "loss": 0.4717,
6739
+ "step": 958
6740
+ },
6741
+ {
6742
+ "epoch": 0.06964162521331832,
6743
+ "grad_norm": 1.5132579803466797,
6744
+ "learning_rate": 6.0363667144693105e-05,
6745
+ "loss": 1.099,
6746
+ "step": 959
6747
+ },
6748
+ {
6749
+ "epoch": 0.06971424421771177,
6750
+ "grad_norm": 1.458929419517517,
6751
+ "learning_rate": 6.017236146931658e-05,
6752
+ "loss": 0.2586,
6753
+ "step": 960
6754
+ },
6755
+ {
6756
+ "epoch": 0.06978686322210523,
6757
+ "grad_norm": 0.528302013874054,
6758
+ "learning_rate": 5.998122887822583e-05,
6759
+ "loss": 0.1097,
6760
+ "step": 961
6761
+ },
6762
+ {
6763
+ "epoch": 0.06985948222649868,
6764
+ "grad_norm": 0.48788735270500183,
6765
+ "learning_rate": 5.9790270202051314e-05,
6766
+ "loss": 0.2783,
6767
+ "step": 962
6768
+ },
6769
+ {
6770
+ "epoch": 0.06993210123089212,
6771
+ "grad_norm": 1.215254783630371,
6772
+ "learning_rate": 5.9599486270667595e-05,
6773
+ "loss": 0.9113,
6774
+ "step": 963
6775
+ },
6776
+ {
6777
+ "epoch": 0.07000472023528558,
6778
+ "grad_norm": 0.9500570297241211,
6779
+ "learning_rate": 5.940887791318993e-05,
6780
+ "loss": 0.2876,
6781
+ "step": 964
6782
+ },
6783
+ {
6784
+ "epoch": 0.07007733923967903,
6785
+ "grad_norm": 1.8602180480957031,
6786
+ "learning_rate": 5.9218445957970436e-05,
6787
+ "loss": 0.8635,
6788
+ "step": 965
6789
+ },
6790
+ {
6791
+ "epoch": 0.07014995824407247,
6792
+ "grad_norm": 0.45447951555252075,
6793
+ "learning_rate": 5.9028191232594773e-05,
6794
+ "loss": 0.1845,
6795
+ "step": 966
6796
+ },
6797
+ {
6798
+ "epoch": 0.07022257724846592,
6799
+ "grad_norm": 1.5029722452163696,
6800
+ "learning_rate": 5.883811456387821e-05,
6801
+ "loss": 1.2559,
6802
+ "step": 967
6803
+ },
6804
+ {
6805
+ "epoch": 0.07029519625285938,
6806
+ "grad_norm": 1.3167767524719238,
6807
+ "learning_rate": 5.864821677786234e-05,
6808
+ "loss": 0.863,
6809
+ "step": 968
6810
+ },
6811
+ {
6812
+ "epoch": 0.07036781525725282,
6813
+ "grad_norm": 0.9414563775062561,
6814
+ "learning_rate": 5.845849869981137e-05,
6815
+ "loss": 0.3077,
6816
+ "step": 969
6817
+ },
6818
+ {
6819
+ "epoch": 0.07044043426164627,
6820
+ "grad_norm": 1.9273661375045776,
6821
+ "learning_rate": 5.826896115420839e-05,
6822
+ "loss": 0.4813,
6823
+ "step": 970
6824
+ },
6825
+ {
6826
+ "epoch": 0.07051305326603972,
6827
+ "grad_norm": 1.7446480989456177,
6828
+ "learning_rate": 5.807960496475212e-05,
6829
+ "loss": 0.9185,
6830
+ "step": 971
6831
+ },
6832
+ {
6833
+ "epoch": 0.07058567227043318,
6834
+ "grad_norm": 0.8334340453147888,
6835
+ "learning_rate": 5.7890430954352895e-05,
6836
+ "loss": 0.2089,
6837
+ "step": 972
6838
+ },
6839
+ {
6840
+ "epoch": 0.07065829127482662,
6841
+ "grad_norm": 0.8565029501914978,
6842
+ "learning_rate": 5.770143994512962e-05,
6843
+ "loss": 1.5406,
6844
+ "step": 973
6845
+ },
6846
+ {
6847
+ "epoch": 0.07073091027922007,
6848
+ "grad_norm": 0.8658803105354309,
6849
+ "learning_rate": 5.7512632758405616e-05,
6850
+ "loss": 0.8221,
6851
+ "step": 974
6852
+ },
6853
+ {
6854
+ "epoch": 0.07080352928361353,
6855
+ "grad_norm": 1.8876001834869385,
6856
+ "learning_rate": 5.73240102147056e-05,
6857
+ "loss": 0.8373,
6858
+ "step": 975
6859
+ },
6860
+ {
6861
+ "epoch": 0.07087614828800697,
6862
+ "grad_norm": 0.8740954399108887,
6863
+ "learning_rate": 5.713557313375162e-05,
6864
+ "loss": 0.3552,
6865
+ "step": 976
6866
+ },
6867
+ {
6868
+ "epoch": 0.07094876729240042,
6869
+ "grad_norm": 0.6312585473060608,
6870
+ "learning_rate": 5.694732233445996e-05,
6871
+ "loss": 0.1054,
6872
+ "step": 977
6873
+ },
6874
+ {
6875
+ "epoch": 0.07102138629679387,
6876
+ "grad_norm": 0.9607315063476562,
6877
+ "learning_rate": 5.675925863493721e-05,
6878
+ "loss": 0.7761,
6879
+ "step": 978
6880
+ },
6881
+ {
6882
+ "epoch": 0.07109400530118733,
6883
+ "grad_norm": 0.9000673294067383,
6884
+ "learning_rate": 5.657138285247687e-05,
6885
+ "loss": 0.4288,
6886
+ "step": 979
6887
+ },
6888
+ {
6889
+ "epoch": 0.07116662430558077,
6890
+ "grad_norm": 1.3778090476989746,
6891
+ "learning_rate": 5.638369580355587e-05,
6892
+ "loss": 0.9409,
6893
+ "step": 980
6894
+ },
6895
+ {
6896
+ "epoch": 0.07123924330997422,
6897
+ "grad_norm": 0.6998331546783447,
6898
+ "learning_rate": 5.619619830383083e-05,
6899
+ "loss": 0.8496,
6900
+ "step": 981
6901
+ },
6902
+ {
6903
+ "epoch": 0.07131186231436767,
6904
+ "grad_norm": 2.990966558456421,
6905
+ "learning_rate": 5.600889116813466e-05,
6906
+ "loss": 1.8518,
6907
+ "step": 982
6908
+ },
6909
+ {
6910
+ "epoch": 0.07138448131876111,
6911
+ "grad_norm": 1.4547016620635986,
6912
+ "learning_rate": 5.5821775210473016e-05,
6913
+ "loss": 0.621,
6914
+ "step": 983
6915
+ },
6916
+ {
6917
+ "epoch": 0.07145710032315457,
6918
+ "grad_norm": 1.0768303871154785,
6919
+ "learning_rate": 5.563485124402068e-05,
6920
+ "loss": 1.4578,
6921
+ "step": 984
6922
+ },
6923
+ {
6924
+ "epoch": 0.07152971932754802,
6925
+ "grad_norm": 1.0334311723709106,
6926
+ "learning_rate": 5.5448120081118085e-05,
6927
+ "loss": 0.1995,
6928
+ "step": 985
6929
+ },
6930
+ {
6931
+ "epoch": 0.07160233833194148,
6932
+ "grad_norm": 0.7292360663414001,
6933
+ "learning_rate": 5.526158253326776e-05,
6934
+ "loss": 0.1821,
6935
+ "step": 986
6936
+ },
6937
+ {
6938
+ "epoch": 0.07167495733633492,
6939
+ "grad_norm": 0.5135112404823303,
6940
+ "learning_rate": 5.5075239411130864e-05,
6941
+ "loss": 0.2844,
6942
+ "step": 987
6943
+ },
6944
+ {
6945
+ "epoch": 0.07174757634072837,
6946
+ "grad_norm": 1.301938772201538,
6947
+ "learning_rate": 5.488909152452357e-05,
6948
+ "loss": 0.3329,
6949
+ "step": 988
6950
+ },
6951
+ {
6952
+ "epoch": 0.07182019534512182,
6953
+ "grad_norm": 0.8821846842765808,
6954
+ "learning_rate": 5.4703139682413586e-05,
6955
+ "loss": 0.5103,
6956
+ "step": 989
6957
+ },
6958
+ {
6959
+ "epoch": 0.07189281434951526,
6960
+ "grad_norm": 1.6066642999649048,
6961
+ "learning_rate": 5.451738469291666e-05,
6962
+ "loss": 0.6446,
6963
+ "step": 990
6964
+ },
6965
+ {
6966
+ "epoch": 0.07196543335390872,
6967
+ "grad_norm": 0.9525912404060364,
6968
+ "learning_rate": 5.4331827363293055e-05,
6969
+ "loss": 0.175,
6970
+ "step": 991
6971
+ },
6972
+ {
6973
+ "epoch": 0.07203805235830217,
6974
+ "grad_norm": 0.9844843149185181,
6975
+ "learning_rate": 5.4146468499944026e-05,
6976
+ "loss": 0.9584,
6977
+ "step": 992
6978
+ },
6979
+ {
6980
+ "epoch": 0.07211067136269561,
6981
+ "grad_norm": 0.49875086545944214,
6982
+ "learning_rate": 5.3961308908408334e-05,
6983
+ "loss": 0.2495,
6984
+ "step": 993
6985
+ },
6986
+ {
6987
+ "epoch": 0.07218329036708906,
6988
+ "grad_norm": 1.9807820320129395,
6989
+ "learning_rate": 5.3776349393358736e-05,
6990
+ "loss": 0.5241,
6991
+ "step": 994
6992
+ },
6993
+ {
6994
+ "epoch": 0.07225590937148252,
6995
+ "grad_norm": 2.6492059230804443,
6996
+ "learning_rate": 5.3591590758598475e-05,
6997
+ "loss": 1.044,
6998
+ "step": 995
6999
+ },
7000
+ {
7001
+ "epoch": 0.07232852837587597,
7002
+ "grad_norm": 1.0260138511657715,
7003
+ "learning_rate": 5.3407033807057846e-05,
7004
+ "loss": 0.8203,
7005
+ "step": 996
7006
+ },
7007
+ {
7008
+ "epoch": 0.07240114738026941,
7009
+ "grad_norm": 3.9065654277801514,
7010
+ "learning_rate": 5.322267934079056e-05,
7011
+ "loss": 1.112,
7012
+ "step": 997
7013
+ },
7014
+ {
7015
+ "epoch": 0.07247376638466287,
7016
+ "grad_norm": 0.5905523300170898,
7017
+ "learning_rate": 5.303852816097057e-05,
7018
+ "loss": 0.269,
7019
+ "step": 998
7020
+ },
7021
+ {
7022
+ "epoch": 0.07254638538905632,
7023
+ "grad_norm": 1.3066952228546143,
7024
+ "learning_rate": 5.285458106788807e-05,
7025
+ "loss": 0.8614,
7026
+ "step": 999
7027
+ },
7028
+ {
7029
+ "epoch": 0.07261900439344976,
7030
+ "grad_norm": 1.337264895439148,
7031
+ "learning_rate": 5.267083886094668e-05,
7032
+ "loss": 0.6845,
7033
+ "step": 1000
7034
+ },
7035
+ {
7036
+ "epoch": 0.07269162339784321,
7037
+ "grad_norm": 1.4708069562911987,
7038
+ "learning_rate": 5.248730233865926e-05,
7039
+ "loss": 0.7446,
7040
+ "step": 1001
7041
+ },
7042
+ {
7043
+ "epoch": 0.07276424240223667,
7044
+ "grad_norm": 1.1049293279647827,
7045
+ "learning_rate": 5.2303972298645145e-05,
7046
+ "loss": 0.7114,
7047
+ "step": 1002
7048
+ },
7049
+ {
7050
+ "epoch": 0.07283686140663012,
7051
+ "grad_norm": 1.8978995084762573,
7052
+ "learning_rate": 5.212084953762599e-05,
7053
+ "loss": 0.9777,
7054
+ "step": 1003
7055
+ },
7056
+ {
7057
+ "epoch": 0.07290948041102356,
7058
+ "grad_norm": 1.2287487983703613,
7059
+ "learning_rate": 5.1937934851423006e-05,
7060
+ "loss": 0.7173,
7061
+ "step": 1004
7062
+ },
7063
+ {
7064
+ "epoch": 0.07298209941541701,
7065
+ "grad_norm": 0.7756360173225403,
7066
+ "learning_rate": 5.17552290349528e-05,
7067
+ "loss": 0.2439,
7068
+ "step": 1005
7069
+ },
7070
+ {
7071
+ "epoch": 0.07305471841981047,
7072
+ "grad_norm": 1.0052796602249146,
7073
+ "learning_rate": 5.157273288222455e-05,
7074
+ "loss": 0.9972,
7075
+ "step": 1006
7076
+ },
7077
+ {
7078
+ "epoch": 0.07312733742420391,
7079
+ "grad_norm": 0.9000952243804932,
7080
+ "learning_rate": 5.1390447186336085e-05,
7081
+ "loss": 0.1626,
7082
+ "step": 1007
7083
+ },
7084
+ {
7085
+ "epoch": 0.07319995642859736,
7086
+ "grad_norm": 1.6128787994384766,
7087
+ "learning_rate": 5.120837273947072e-05,
7088
+ "loss": 0.6554,
7089
+ "step": 1008
7090
+ },
7091
+ {
7092
+ "epoch": 0.07327257543299082,
7093
+ "grad_norm": 0.9931581616401672,
7094
+ "learning_rate": 5.10265103328937e-05,
7095
+ "loss": 0.4106,
7096
+ "step": 1009
7097
+ },
7098
+ {
7099
+ "epoch": 0.07334519443738427,
7100
+ "grad_norm": 2.278157949447632,
7101
+ "learning_rate": 5.084486075694871e-05,
7102
+ "loss": 0.5078,
7103
+ "step": 1010
7104
+ },
7105
+ {
7106
+ "epoch": 0.07341781344177771,
7107
+ "grad_norm": 0.5036839246749878,
7108
+ "learning_rate": 5.0663424801054595e-05,
7109
+ "loss": 0.3505,
7110
+ "step": 1011
7111
+ },
7112
+ {
7113
+ "epoch": 0.07349043244617116,
7114
+ "grad_norm": 0.7192487120628357,
7115
+ "learning_rate": 5.048220325370181e-05,
7116
+ "loss": 0.6513,
7117
+ "step": 1012
7118
+ },
7119
+ {
7120
+ "epoch": 0.07356305145056462,
7121
+ "grad_norm": 0.8298673629760742,
7122
+ "learning_rate": 5.0301196902449035e-05,
7123
+ "loss": 0.2502,
7124
+ "step": 1013
7125
+ },
7126
+ {
7127
+ "epoch": 0.07363567045495806,
7128
+ "grad_norm": 1.4358340501785278,
7129
+ "learning_rate": 5.0120406533919715e-05,
7130
+ "loss": 0.4269,
7131
+ "step": 1014
7132
+ },
7133
+ {
7134
+ "epoch": 0.07370828945935151,
7135
+ "grad_norm": 0.6739174127578735,
7136
+ "learning_rate": 4.99398329337987e-05,
7137
+ "loss": 0.464,
7138
+ "step": 1015
7139
+ },
7140
+ {
7141
+ "epoch": 0.07378090846374497,
7142
+ "grad_norm": 1.07339346408844,
7143
+ "learning_rate": 4.97594768868288e-05,
7144
+ "loss": 0.5514,
7145
+ "step": 1016
7146
+ },
7147
+ {
7148
+ "epoch": 0.0738535274681384,
7149
+ "grad_norm": 1.038041591644287,
7150
+ "learning_rate": 4.957933917680735e-05,
7151
+ "loss": 0.7342,
7152
+ "step": 1017
7153
+ },
7154
+ {
7155
+ "epoch": 0.07392614647253186,
7156
+ "grad_norm": 1.2801992893218994,
7157
+ "learning_rate": 4.9399420586582854e-05,
7158
+ "loss": 1.245,
7159
+ "step": 1018
7160
+ },
7161
+ {
7162
+ "epoch": 0.07399876547692531,
7163
+ "grad_norm": 1.4319050312042236,
7164
+ "learning_rate": 4.921972189805154e-05,
7165
+ "loss": 0.3972,
7166
+ "step": 1019
7167
+ },
7168
+ {
7169
+ "epoch": 0.07407138448131877,
7170
+ "grad_norm": 0.797933042049408,
7171
+ "learning_rate": 4.9040243892154e-05,
7172
+ "loss": 0.5278,
7173
+ "step": 1020
7174
+ },
7175
+ {
7176
+ "epoch": 0.0741440034857122,
7177
+ "grad_norm": 0.8828997015953064,
7178
+ "learning_rate": 4.8860987348871766e-05,
7179
+ "loss": 0.295,
7180
+ "step": 1021
7181
+ },
7182
+ {
7183
+ "epoch": 0.07421662249010566,
7184
+ "grad_norm": 0.9507952928543091,
7185
+ "learning_rate": 4.8681953047223914e-05,
7186
+ "loss": 0.9955,
7187
+ "step": 1022
7188
+ },
7189
+ {
7190
+ "epoch": 0.07428924149449911,
7191
+ "grad_norm": 1.0915498733520508,
7192
+ "learning_rate": 4.8503141765263726e-05,
7193
+ "loss": 0.257,
7194
+ "step": 1023
7195
+ },
7196
+ {
7197
+ "epoch": 0.07436186049889255,
7198
+ "grad_norm": 0.893052339553833,
7199
+ "learning_rate": 4.8324554280075255e-05,
7200
+ "loss": 0.8009,
7201
+ "step": 1024
7202
+ },
7203
+ {
7204
+ "epoch": 0.07443447950328601,
7205
+ "grad_norm": 0.890261173248291,
7206
+ "learning_rate": 4.8146191367769975e-05,
7207
+ "loss": 0.2356,
7208
+ "step": 1025
7209
+ },
7210
+ {
7211
+ "epoch": 0.07450709850767946,
7212
+ "grad_norm": 1.923423171043396,
7213
+ "learning_rate": 4.796805380348336e-05,
7214
+ "loss": 0.6498,
7215
+ "step": 1026
7216
+ },
7217
+ {
7218
+ "epoch": 0.07457971751207292,
7219
+ "grad_norm": 3.203328847885132,
7220
+ "learning_rate": 4.7790142361371736e-05,
7221
+ "loss": 0.7113,
7222
+ "step": 1027
7223
+ },
7224
+ {
7225
+ "epoch": 0.07465233651646636,
7226
+ "grad_norm": 0.9971923232078552,
7227
+ "learning_rate": 4.761245781460846e-05,
7228
+ "loss": 0.6342,
7229
+ "step": 1028
7230
+ },
7231
+ {
7232
+ "epoch": 0.07472495552085981,
7233
+ "grad_norm": 1.0747997760772705,
7234
+ "learning_rate": 4.7435000935381115e-05,
7235
+ "loss": 1.0257,
7236
+ "step": 1029
7237
+ },
7238
+ {
7239
+ "epoch": 0.07479757452525326,
7240
+ "grad_norm": 0.48684489727020264,
7241
+ "learning_rate": 4.725777249488761e-05,
7242
+ "loss": 0.1168,
7243
+ "step": 1030
7244
+ },
7245
+ {
7246
+ "epoch": 0.0748701935296467,
7247
+ "grad_norm": 3.6183338165283203,
7248
+ "learning_rate": 4.70807732633334e-05,
7249
+ "loss": 1.1131,
7250
+ "step": 1031
7251
+ },
7252
+ {
7253
+ "epoch": 0.07494281253404016,
7254
+ "grad_norm": 0.9645475149154663,
7255
+ "learning_rate": 4.690400400992752e-05,
7256
+ "loss": 0.7626,
7257
+ "step": 1032
7258
+ },
7259
+ {
7260
+ "epoch": 0.07501543153843361,
7261
+ "grad_norm": 0.8078812956809998,
7262
+ "learning_rate": 4.672746550287985e-05,
7263
+ "loss": 0.9775,
7264
+ "step": 1033
7265
+ },
7266
+ {
7267
+ "epoch": 0.07508805054282706,
7268
+ "grad_norm": 3.4486353397369385,
7269
+ "learning_rate": 4.655115850939722e-05,
7270
+ "loss": 0.7326,
7271
+ "step": 1034
7272
+ },
7273
+ {
7274
+ "epoch": 0.0751606695472205,
7275
+ "grad_norm": 0.9302204847335815,
7276
+ "learning_rate": 4.637508379568056e-05,
7277
+ "loss": 0.3621,
7278
+ "step": 1035
7279
+ },
7280
+ {
7281
+ "epoch": 0.07523328855161396,
7282
+ "grad_norm": 2.4916927814483643,
7283
+ "learning_rate": 4.619924212692125e-05,
7284
+ "loss": 0.5182,
7285
+ "step": 1036
7286
+ },
7287
+ {
7288
+ "epoch": 0.07530590755600741,
7289
+ "grad_norm": 0.9201470017433167,
7290
+ "learning_rate": 4.602363426729788e-05,
7291
+ "loss": 0.5608,
7292
+ "step": 1037
7293
+ },
7294
+ {
7295
+ "epoch": 0.07537852656040085,
7296
+ "grad_norm": 1.4069328308105469,
7297
+ "learning_rate": 4.584826097997297e-05,
7298
+ "loss": 0.3654,
7299
+ "step": 1038
7300
+ },
7301
+ {
7302
+ "epoch": 0.0754511455647943,
7303
+ "grad_norm": 1.4150211811065674,
7304
+ "learning_rate": 4.567312302708965e-05,
7305
+ "loss": 0.6301,
7306
+ "step": 1039
7307
+ },
7308
+ {
7309
+ "epoch": 0.07552376456918776,
7310
+ "grad_norm": 2.3295063972473145,
7311
+ "learning_rate": 4.5498221169768274e-05,
7312
+ "loss": 0.8831,
7313
+ "step": 1040
7314
+ },
7315
+ {
7316
+ "epoch": 0.0755963835735812,
7317
+ "grad_norm": 1.32217538356781,
7318
+ "learning_rate": 4.532355616810321e-05,
7319
+ "loss": 0.4149,
7320
+ "step": 1041
7321
+ },
7322
+ {
7323
+ "epoch": 0.07566900257797465,
7324
+ "grad_norm": 2.148969888687134,
7325
+ "learning_rate": 4.514912878115948e-05,
7326
+ "loss": 0.2224,
7327
+ "step": 1042
7328
+ },
7329
+ {
7330
+ "epoch": 0.07574162158236811,
7331
+ "grad_norm": 1.2118699550628662,
7332
+ "learning_rate": 4.497493976696945e-05,
7333
+ "loss": 0.9739,
7334
+ "step": 1043
7335
+ },
7336
+ {
7337
+ "epoch": 0.07581424058676156,
7338
+ "grad_norm": 7.353305339813232,
7339
+ "learning_rate": 4.4800989882529574e-05,
7340
+ "loss": 1.2647,
7341
+ "step": 1044
7342
+ },
7343
+ {
7344
+ "epoch": 0.075886859591155,
7345
+ "grad_norm": 1.8749953508377075,
7346
+ "learning_rate": 4.462727988379709e-05,
7347
+ "loss": 0.5645,
7348
+ "step": 1045
7349
+ },
7350
+ {
7351
+ "epoch": 0.07595947859554845,
7352
+ "grad_norm": 0.9001838564872742,
7353
+ "learning_rate": 4.4453810525686745e-05,
7354
+ "loss": 0.3672,
7355
+ "step": 1046
7356
+ },
7357
+ {
7358
+ "epoch": 0.07603209759994191,
7359
+ "grad_norm": 1.2034047842025757,
7360
+ "learning_rate": 4.4280582562067464e-05,
7361
+ "loss": 0.9263,
7362
+ "step": 1047
7363
+ },
7364
+ {
7365
+ "epoch": 0.07610471660433535,
7366
+ "grad_norm": 1.200669288635254,
7367
+ "learning_rate": 4.410759674575915e-05,
7368
+ "loss": 0.526,
7369
+ "step": 1048
7370
+ },
7371
+ {
7372
+ "epoch": 0.0761773356087288,
7373
+ "grad_norm": 1.4563775062561035,
7374
+ "learning_rate": 4.393485382852935e-05,
7375
+ "loss": 1.0811,
7376
+ "step": 1049
7377
+ },
7378
+ {
7379
+ "epoch": 0.07624995461312226,
7380
+ "grad_norm": 1.1171209812164307,
7381
+ "learning_rate": 4.3762354561090034e-05,
7382
+ "loss": 0.637,
7383
+ "step": 1050
7384
+ },
7385
+ {
7386
+ "epoch": 0.07632257361751571,
7387
+ "grad_norm": 1.1942858695983887,
7388
+ "learning_rate": 4.359009969309429e-05,
7389
+ "loss": 0.4594,
7390
+ "step": 1051
7391
+ },
7392
+ {
7393
+ "epoch": 0.07639519262190915,
7394
+ "grad_norm": 0.8663083910942078,
7395
+ "learning_rate": 4.341808997313308e-05,
7396
+ "loss": 0.288,
7397
+ "step": 1052
7398
+ },
7399
+ {
7400
+ "epoch": 0.0764678116263026,
7401
+ "grad_norm": 1.356735110282898,
7402
+ "learning_rate": 4.324632614873198e-05,
7403
+ "loss": 0.1273,
7404
+ "step": 1053
7405
+ },
7406
+ {
7407
+ "epoch": 0.07654043063069606,
7408
+ "grad_norm": 2.5246779918670654,
7409
+ "learning_rate": 4.30748089663481e-05,
7410
+ "loss": 0.777,
7411
+ "step": 1054
7412
+ },
7413
+ {
7414
+ "epoch": 0.0766130496350895,
7415
+ "grad_norm": 0.7004944086074829,
7416
+ "learning_rate": 4.2903539171366393e-05,
7417
+ "loss": 0.3555,
7418
+ "step": 1055
7419
+ },
7420
+ {
7421
+ "epoch": 0.07668566863948295,
7422
+ "grad_norm": 0.8813367486000061,
7423
+ "learning_rate": 4.2732517508097014e-05,
7424
+ "loss": 0.3604,
7425
+ "step": 1056
7426
+ },
7427
+ {
7428
+ "epoch": 0.0767582876438764,
7429
+ "grad_norm": 0.7513467073440552,
7430
+ "learning_rate": 4.25617447197715e-05,
7431
+ "loss": 0.4416,
7432
+ "step": 1057
7433
+ },
7434
+ {
7435
+ "epoch": 0.07683090664826986,
7436
+ "grad_norm": 0.5018694400787354,
7437
+ "learning_rate": 4.2391221548540094e-05,
7438
+ "loss": 0.1337,
7439
+ "step": 1058
7440
+ },
7441
+ {
7442
+ "epoch": 0.0769035256526633,
7443
+ "grad_norm": 0.914337158203125,
7444
+ "learning_rate": 4.2220948735467967e-05,
7445
+ "loss": 0.4022,
7446
+ "step": 1059
7447
+ },
7448
+ {
7449
+ "epoch": 0.07697614465705675,
7450
+ "grad_norm": 0.682499349117279,
7451
+ "learning_rate": 4.205092702053257e-05,
7452
+ "loss": 0.2247,
7453
+ "step": 1060
7454
+ },
7455
+ {
7456
+ "epoch": 0.0770487636614502,
7457
+ "grad_norm": 0.7339251041412354,
7458
+ "learning_rate": 4.18811571426198e-05,
7459
+ "loss": 0.1844,
7460
+ "step": 1061
7461
+ },
7462
+ {
7463
+ "epoch": 0.07712138266584365,
7464
+ "grad_norm": 1.9329663515090942,
7465
+ "learning_rate": 4.171163983952144e-05,
7466
+ "loss": 0.843,
7467
+ "step": 1062
7468
+ },
7469
+ {
7470
+ "epoch": 0.0771940016702371,
7471
+ "grad_norm": 1.3280580043792725,
7472
+ "learning_rate": 4.154237584793131e-05,
7473
+ "loss": 0.4244,
7474
+ "step": 1063
7475
+ },
7476
+ {
7477
+ "epoch": 0.07726662067463055,
7478
+ "grad_norm": 0.7914282083511353,
7479
+ "learning_rate": 4.137336590344266e-05,
7480
+ "loss": 0.7056,
7481
+ "step": 1064
7482
+ },
7483
+ {
7484
+ "epoch": 0.077339239679024,
7485
+ "grad_norm": 0.7150092720985413,
7486
+ "learning_rate": 4.1204610740544544e-05,
7487
+ "loss": 0.4983,
7488
+ "step": 1065
7489
+ },
7490
+ {
7491
+ "epoch": 0.07741185868341745,
7492
+ "grad_norm": 0.6459518671035767,
7493
+ "learning_rate": 4.1036111092618725e-05,
7494
+ "loss": 0.3573,
7495
+ "step": 1066
7496
+ },
7497
+ {
7498
+ "epoch": 0.0774844776878109,
7499
+ "grad_norm": 1.4271303415298462,
7500
+ "learning_rate": 4.0867867691936734e-05,
7501
+ "loss": 0.8561,
7502
+ "step": 1067
7503
+ },
7504
+ {
7505
+ "epoch": 0.07755709669220436,
7506
+ "grad_norm": 1.0434831380844116,
7507
+ "learning_rate": 4.069988126965625e-05,
7508
+ "loss": 0.2345,
7509
+ "step": 1068
7510
+ },
7511
+ {
7512
+ "epoch": 0.0776297156965978,
7513
+ "grad_norm": 1.7802876234054565,
7514
+ "learning_rate": 4.053215255581844e-05,
7515
+ "loss": 1.5387,
7516
+ "step": 1069
7517
+ },
7518
+ {
7519
+ "epoch": 0.07770233470099125,
7520
+ "grad_norm": 1.121539831161499,
7521
+ "learning_rate": 4.03646822793442e-05,
7522
+ "loss": 0.1665,
7523
+ "step": 1070
7524
+ },
7525
+ {
7526
+ "epoch": 0.0777749537053847,
7527
+ "grad_norm": 1.464437484741211,
7528
+ "learning_rate": 4.019747116803164e-05,
7529
+ "loss": 0.8184,
7530
+ "step": 1071
7531
+ },
7532
+ {
7533
+ "epoch": 0.07784757270977814,
7534
+ "grad_norm": 1.0533359050750732,
7535
+ "learning_rate": 4.003051994855226e-05,
7536
+ "loss": 0.6048,
7537
+ "step": 1072
7538
+ },
7539
+ {
7540
+ "epoch": 0.0779201917141716,
7541
+ "grad_norm": 0.6131143569946289,
7542
+ "learning_rate": 3.9863829346448356e-05,
7543
+ "loss": 0.2938,
7544
+ "step": 1073
7545
+ },
7546
+ {
7547
+ "epoch": 0.07799281071856505,
7548
+ "grad_norm": 0.9979797601699829,
7549
+ "learning_rate": 3.969740008612951e-05,
7550
+ "loss": 0.3266,
7551
+ "step": 1074
7552
+ },
7553
+ {
7554
+ "epoch": 0.0780654297229585,
7555
+ "grad_norm": 1.3746004104614258,
7556
+ "learning_rate": 3.953123289086957e-05,
7557
+ "loss": 1.1542,
7558
+ "step": 1075
7559
+ },
7560
+ {
7561
+ "epoch": 0.07813804872735194,
7562
+ "grad_norm": 0.7711180448532104,
7563
+ "learning_rate": 3.936532848280351e-05,
7564
+ "loss": 0.2947,
7565
+ "step": 1076
7566
+ },
7567
+ {
7568
+ "epoch": 0.0782106677317454,
7569
+ "grad_norm": 1.2094429731369019,
7570
+ "learning_rate": 3.919968758292425e-05,
7571
+ "loss": 0.2627,
7572
+ "step": 1077
7573
+ },
7574
+ {
7575
+ "epoch": 0.07828328673613885,
7576
+ "grad_norm": 1.353338360786438,
7577
+ "learning_rate": 3.903431091107956e-05,
7578
+ "loss": 1.3794,
7579
+ "step": 1078
7580
+ },
7581
+ {
7582
+ "epoch": 0.07835590574053229,
7583
+ "grad_norm": 1.0499879121780396,
7584
+ "learning_rate": 3.886919918596894e-05,
7585
+ "loss": 0.3597,
7586
+ "step": 1079
7587
+ },
7588
+ {
7589
+ "epoch": 0.07842852474492575,
7590
+ "grad_norm": 2.888306140899658,
7591
+ "learning_rate": 3.870435312514044e-05,
7592
+ "loss": 1.266,
7593
+ "step": 1080
7594
+ },
7595
+ {
7596
+ "epoch": 0.0785011437493192,
7597
+ "grad_norm": 0.808671772480011,
7598
+ "learning_rate": 3.8539773444987606e-05,
7599
+ "loss": 0.2154,
7600
+ "step": 1081
7601
+ },
7602
+ {
7603
+ "epoch": 0.07857376275371265,
7604
+ "grad_norm": 0.9751576781272888,
7605
+ "learning_rate": 3.8375460860746305e-05,
7606
+ "loss": 0.3425,
7607
+ "step": 1082
7608
+ },
7609
+ {
7610
+ "epoch": 0.0786463817581061,
7611
+ "grad_norm": 0.6964498162269592,
7612
+ "learning_rate": 3.821141608649169e-05,
7613
+ "loss": 0.5062,
7614
+ "step": 1083
7615
+ },
7616
+ {
7617
+ "epoch": 0.07871900076249955,
7618
+ "grad_norm": 1.0127582550048828,
7619
+ "learning_rate": 3.804763983513503e-05,
7620
+ "loss": 0.48,
7621
+ "step": 1084
7622
+ },
7623
+ {
7624
+ "epoch": 0.078791619766893,
7625
+ "grad_norm": 0.6307262182235718,
7626
+ "learning_rate": 3.788413281842065e-05,
7627
+ "loss": 0.6219,
7628
+ "step": 1085
7629
+ },
7630
+ {
7631
+ "epoch": 0.07886423877128644,
7632
+ "grad_norm": 1.0961401462554932,
7633
+ "learning_rate": 3.7720895746922814e-05,
7634
+ "loss": 0.6244,
7635
+ "step": 1086
7636
+ },
7637
+ {
7638
+ "epoch": 0.0789368577756799,
7639
+ "grad_norm": 1.224797248840332,
7640
+ "learning_rate": 3.755792933004265e-05,
7641
+ "loss": 0.7283,
7642
+ "step": 1087
7643
+ },
7644
+ {
7645
+ "epoch": 0.07900947678007335,
7646
+ "grad_norm": 0.8783885836601257,
7647
+ "learning_rate": 3.7395234276005087e-05,
7648
+ "loss": 0.367,
7649
+ "step": 1088
7650
+ },
7651
+ {
7652
+ "epoch": 0.07908209578446679,
7653
+ "grad_norm": 2.5618433952331543,
7654
+ "learning_rate": 3.723281129185574e-05,
7655
+ "loss": 0.5892,
7656
+ "step": 1089
7657
+ },
7658
+ {
7659
+ "epoch": 0.07915471478886024,
7660
+ "grad_norm": 1.455002784729004,
7661
+ "learning_rate": 3.7070661083457835e-05,
7662
+ "loss": 0.3932,
7663
+ "step": 1090
7664
+ },
7665
+ {
7666
+ "epoch": 0.0792273337932537,
7667
+ "grad_norm": 0.6232052445411682,
7668
+ "learning_rate": 3.690878435548917e-05,
7669
+ "loss": 0.7407,
7670
+ "step": 1091
7671
+ },
7672
+ {
7673
+ "epoch": 0.07929995279764715,
7674
+ "grad_norm": 0.6516185998916626,
7675
+ "learning_rate": 3.6747181811439146e-05,
7676
+ "loss": 0.2049,
7677
+ "step": 1092
7678
+ },
7679
+ {
7680
+ "epoch": 0.07937257180204059,
7681
+ "grad_norm": 0.46252021193504333,
7682
+ "learning_rate": 3.658585415360537e-05,
7683
+ "loss": 0.0476,
7684
+ "step": 1093
7685
+ },
7686
+ {
7687
+ "epoch": 0.07944519080643404,
7688
+ "grad_norm": 1.0539500713348389,
7689
+ "learning_rate": 3.642480208309112e-05,
7690
+ "loss": 0.7159,
7691
+ "step": 1094
7692
+ },
7693
+ {
7694
+ "epoch": 0.0795178098108275,
7695
+ "grad_norm": 0.7707275748252869,
7696
+ "learning_rate": 3.626402629980176e-05,
7697
+ "loss": 0.5077,
7698
+ "step": 1095
7699
+ },
7700
+ {
7701
+ "epoch": 0.07959042881522094,
7702
+ "grad_norm": 1.3060404062271118,
7703
+ "learning_rate": 3.610352750244218e-05,
7704
+ "loss": 0.6736,
7705
+ "step": 1096
7706
+ },
7707
+ {
7708
+ "epoch": 0.07966304781961439,
7709
+ "grad_norm": 1.0668853521347046,
7710
+ "learning_rate": 3.5943306388513333e-05,
7711
+ "loss": 0.2969,
7712
+ "step": 1097
7713
+ },
7714
+ {
7715
+ "epoch": 0.07973566682400784,
7716
+ "grad_norm": 1.3536769151687622,
7717
+ "learning_rate": 3.57833636543096e-05,
7718
+ "loss": 0.2062,
7719
+ "step": 1098
7720
+ },
7721
+ {
7722
+ "epoch": 0.0798082858284013,
7723
+ "grad_norm": 1.3943530321121216,
7724
+ "learning_rate": 3.562369999491536e-05,
7725
+ "loss": 0.6374,
7726
+ "step": 1099
7727
+ },
7728
+ {
7729
+ "epoch": 0.07988090483279474,
7730
+ "grad_norm": 0.9321604371070862,
7731
+ "learning_rate": 3.54643161042024e-05,
7732
+ "loss": 0.2545,
7733
+ "step": 1100
7734
+ },
7735
+ {
7736
+ "epoch": 0.07995352383718819,
7737
+ "grad_norm": 2.3198392391204834,
7738
+ "learning_rate": 3.530521267482653e-05,
7739
+ "loss": 1.1751,
7740
+ "step": 1101
7741
+ },
7742
+ {
7743
+ "epoch": 0.08002614284158165,
7744
+ "grad_norm": 1.0625810623168945,
7745
+ "learning_rate": 3.5146390398224746e-05,
7746
+ "loss": 0.3397,
7747
+ "step": 1102
7748
+ },
7749
+ {
7750
+ "epoch": 0.08009876184597509,
7751
+ "grad_norm": 1.262967824935913,
7752
+ "learning_rate": 3.498784996461225e-05,
7753
+ "loss": 0.387,
7754
+ "step": 1103
7755
+ },
7756
+ {
7757
+ "epoch": 0.08017138085036854,
7758
+ "grad_norm": 0.7193602323532104,
7759
+ "learning_rate": 3.4829592062979353e-05,
7760
+ "loss": 0.3205,
7761
+ "step": 1104
7762
+ },
7763
+ {
7764
+ "epoch": 0.080243999854762,
7765
+ "grad_norm": 1.541988730430603,
7766
+ "learning_rate": 3.467161738108855e-05,
7767
+ "loss": 0.8581,
7768
+ "step": 1105
7769
+ },
7770
+ {
7771
+ "epoch": 0.08031661885915545,
7772
+ "grad_norm": 2.6073052883148193,
7773
+ "learning_rate": 3.45139266054715e-05,
7774
+ "loss": 0.3846,
7775
+ "step": 1106
7776
+ },
7777
+ {
7778
+ "epoch": 0.08038923786354889,
7779
+ "grad_norm": 0.7341157793998718,
7780
+ "learning_rate": 3.435652042142606e-05,
7781
+ "loss": 0.4452,
7782
+ "step": 1107
7783
+ },
7784
+ {
7785
+ "epoch": 0.08046185686794234,
7786
+ "grad_norm": 0.8992398381233215,
7787
+ "learning_rate": 3.41993995130133e-05,
7788
+ "loss": 0.1214,
7789
+ "step": 1108
7790
+ },
7791
+ {
7792
+ "epoch": 0.0805344758723358,
7793
+ "grad_norm": 1.3411012887954712,
7794
+ "learning_rate": 3.4042564563054526e-05,
7795
+ "loss": 0.4329,
7796
+ "step": 1109
7797
+ },
7798
+ {
7799
+ "epoch": 0.08060709487672924,
7800
+ "grad_norm": 1.4646313190460205,
7801
+ "learning_rate": 3.3886016253128326e-05,
7802
+ "loss": 0.4565,
7803
+ "step": 1110
7804
+ },
7805
+ {
7806
+ "epoch": 0.08067971388112269,
7807
+ "grad_norm": 2.635862112045288,
7808
+ "learning_rate": 3.372975526356758e-05,
7809
+ "loss": 0.5001,
7810
+ "step": 1111
7811
+ },
7812
+ {
7813
+ "epoch": 0.08075233288551614,
7814
+ "grad_norm": 0.49482840299606323,
7815
+ "learning_rate": 3.357378227345652e-05,
7816
+ "loss": 0.4972,
7817
+ "step": 1112
7818
+ },
7819
+ {
7820
+ "epoch": 0.08082495188990958,
7821
+ "grad_norm": 1.237926959991455,
7822
+ "learning_rate": 3.341809796062783e-05,
7823
+ "loss": 0.6342,
7824
+ "step": 1113
7825
+ },
7826
+ {
7827
+ "epoch": 0.08089757089430304,
7828
+ "grad_norm": 0.6633093953132629,
7829
+ "learning_rate": 3.3262703001659565e-05,
7830
+ "loss": 0.2835,
7831
+ "step": 1114
7832
+ },
7833
+ {
7834
+ "epoch": 0.08097018989869649,
7835
+ "grad_norm": 0.7244913578033447,
7836
+ "learning_rate": 3.310759807187238e-05,
7837
+ "loss": 0.1479,
7838
+ "step": 1115
7839
+ },
7840
+ {
7841
+ "epoch": 0.08104280890308994,
7842
+ "grad_norm": 3.9820868968963623,
7843
+ "learning_rate": 3.295278384532646e-05,
7844
+ "loss": 0.9035,
7845
+ "step": 1116
7846
+ },
7847
+ {
7848
+ "epoch": 0.08111542790748338,
7849
+ "grad_norm": 1.3241500854492188,
7850
+ "learning_rate": 3.2798260994818666e-05,
7851
+ "loss": 0.7306,
7852
+ "step": 1117
7853
+ },
7854
+ {
7855
+ "epoch": 0.08118804691187684,
7856
+ "grad_norm": 1.0171231031417847,
7857
+ "learning_rate": 3.264403019187956e-05,
7858
+ "loss": 0.9498,
7859
+ "step": 1118
7860
+ },
7861
+ {
7862
+ "epoch": 0.08126066591627029,
7863
+ "grad_norm": 0.8324412107467651,
7864
+ "learning_rate": 3.249009210677054e-05,
7865
+ "loss": 0.2284,
7866
+ "step": 1119
7867
+ },
7868
+ {
7869
+ "epoch": 0.08133328492066373,
7870
+ "grad_norm": 1.500178575515747,
7871
+ "learning_rate": 3.233644740848087e-05,
7872
+ "loss": 1.1016,
7873
+ "step": 1120
7874
+ },
7875
+ {
7876
+ "epoch": 0.08140590392505719,
7877
+ "grad_norm": 1.238517165184021,
7878
+ "learning_rate": 3.2183096764724915e-05,
7879
+ "loss": 0.4627,
7880
+ "step": 1121
7881
+ },
7882
+ {
7883
+ "epoch": 0.08147852292945064,
7884
+ "grad_norm": 2.279787302017212,
7885
+ "learning_rate": 3.2030040841938924e-05,
7886
+ "loss": 0.7241,
7887
+ "step": 1122
7888
+ },
7889
+ {
7890
+ "epoch": 0.08155114193384409,
7891
+ "grad_norm": 0.5174742341041565,
7892
+ "learning_rate": 3.187728030527857e-05,
7893
+ "loss": 0.1982,
7894
+ "step": 1123
7895
+ },
7896
+ {
7897
+ "epoch": 0.08162376093823753,
7898
+ "grad_norm": 1.431541085243225,
7899
+ "learning_rate": 3.172481581861558e-05,
7900
+ "loss": 0.5524,
7901
+ "step": 1124
7902
+ },
7903
+ {
7904
+ "epoch": 0.08169637994263099,
7905
+ "grad_norm": 2.0064144134521484,
7906
+ "learning_rate": 3.157264804453537e-05,
7907
+ "loss": 1.0134,
7908
+ "step": 1125
7909
+ },
7910
+ {
7911
+ "epoch": 0.08176899894702444,
7912
+ "grad_norm": 0.7923216223716736,
7913
+ "learning_rate": 3.142077764433361e-05,
7914
+ "loss": 0.3506,
7915
+ "step": 1126
7916
+ },
7917
+ {
7918
+ "epoch": 0.08184161795141788,
7919
+ "grad_norm": 0.8654752373695374,
7920
+ "learning_rate": 3.12692052780139e-05,
7921
+ "loss": 0.3383,
7922
+ "step": 1127
7923
+ },
7924
+ {
7925
+ "epoch": 0.08191423695581133,
7926
+ "grad_norm": 3.1774401664733887,
7927
+ "learning_rate": 3.111793160428439e-05,
7928
+ "loss": 1.1845,
7929
+ "step": 1128
7930
+ },
7931
+ {
7932
+ "epoch": 0.08198685596020479,
7933
+ "grad_norm": 1.475877285003662,
7934
+ "learning_rate": 3.096695728055536e-05,
7935
+ "loss": 1.1822,
7936
+ "step": 1129
7937
+ },
7938
+ {
7939
+ "epoch": 0.08205947496459824,
7940
+ "grad_norm": 1.2860140800476074,
7941
+ "learning_rate": 3.081628296293608e-05,
7942
+ "loss": 0.4395,
7943
+ "step": 1130
7944
+ },
7945
+ {
7946
+ "epoch": 0.08213209396899168,
7947
+ "grad_norm": 1.0822505950927734,
7948
+ "learning_rate": 3.066590930623202e-05,
7949
+ "loss": 0.5476,
7950
+ "step": 1131
7951
+ },
7952
+ {
7953
+ "epoch": 0.08220471297338514,
7954
+ "grad_norm": 0.7372075319290161,
7955
+ "learning_rate": 3.0515836963942056e-05,
7956
+ "loss": 0.3629,
7957
+ "step": 1132
7958
+ },
7959
+ {
7960
+ "epoch": 0.08227733197777859,
7961
+ "grad_norm": 2.525468587875366,
7962
+ "learning_rate": 3.0366066588255614e-05,
7963
+ "loss": 2.0739,
7964
+ "step": 1133
7965
+ },
7966
+ {
7967
+ "epoch": 0.08234995098217203,
7968
+ "grad_norm": 1.0062713623046875,
7969
+ "learning_rate": 3.0216598830049804e-05,
7970
+ "loss": 0.3062,
7971
+ "step": 1134
7972
+ },
7973
+ {
7974
+ "epoch": 0.08242256998656548,
7975
+ "grad_norm": 0.4824628233909607,
7976
+ "learning_rate": 3.0067434338886623e-05,
7977
+ "loss": 0.3863,
7978
+ "step": 1135
7979
+ },
7980
+ {
7981
+ "epoch": 0.08249518899095894,
7982
+ "grad_norm": 0.7347169518470764,
7983
+ "learning_rate": 2.9918573763010106e-05,
7984
+ "loss": 0.6829,
7985
+ "step": 1136
7986
+ },
7987
+ {
7988
+ "epoch": 0.08256780799535238,
7989
+ "grad_norm": 0.7603349089622498,
7990
+ "learning_rate": 2.9770017749343527e-05,
7991
+ "loss": 0.6584,
7992
+ "step": 1137
7993
+ },
7994
+ {
7995
+ "epoch": 0.08264042699974583,
7996
+ "grad_norm": 1.750891923904419,
7997
+ "learning_rate": 2.9621766943486597e-05,
7998
+ "loss": 0.9981,
7999
+ "step": 1138
8000
+ },
8001
+ {
8002
+ "epoch": 0.08271304600413928,
8003
+ "grad_norm": 0.9961756467819214,
8004
+ "learning_rate": 2.9473821989712625e-05,
8005
+ "loss": 0.5043,
8006
+ "step": 1139
8007
+ },
8008
+ {
8009
+ "epoch": 0.08278566500853274,
8010
+ "grad_norm": 0.6989356875419617,
8011
+ "learning_rate": 2.9326183530965755e-05,
8012
+ "loss": 0.4037,
8013
+ "step": 1140
8014
+ },
8015
+ {
8016
+ "epoch": 0.08278566500853274,
8017
+ "eval_loss": 0.5331657528877258,
8018
+ "eval_runtime": 179.6619,
8019
+ "eval_samples_per_second": 32.277,
8020
+ "eval_steps_per_second": 16.141,
8021
+ "step": 1140
8022
  }
8023
  ],
8024
  "logging_steps": 1,
 
8038
  "attributes": {}
8039
  }
8040
  },
8041
+ "total_flos": 2.1630469922095104e+17,
8042
  "train_batch_size": 2,
8043
  "trial_name": null,
8044
  "trial_params": null