ErrorAI commited on
Commit
5dbd97d
·
verified ·
1 Parent(s): d36dcf3

Training in progress, step 1191, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:37e943b72e5c02fb6e1f0039767e07b35970c82fbed7456a5240fe1de6e1aa2e
3
  size 125040
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4bedb0111ed18bc25163bbb8e8a61ae926892e8dba7a9674d7fd998082f99bbf
3
  size 125040
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:16a894f211433be6817cfa90f8b256d3b13e9235fdab2ca390b4321fb504da89
3
  size 162868
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8cd50ae86362ef7e08351632f4862c08016e8a82522d1baabfc21db012381cae
3
  size 162868
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:af7d557f5e25313a10504e434b94bc26953f13d94a2749b32ee5ac523ddd5242
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8e4811efa6b667c9df043dc56d9d4b0af46926d1f1888ffc35e091c15f5c56d6
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a426b7f6ae1abe9e22fbcd29ff66f66ff4eebcbf3e8e9c841da738b5bfb19939
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:4dfb2490db991f40bc8a28ece8171c1b460ff28d33e0f3d99d0a22dae8c82b0a
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.07875421543344574,
5
  "eval_steps": 397,
6
- "global_step": 794,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5589,6 +5589,2793 @@
5589
  "eval_samples_per_second": 369.403,
5590
  "eval_steps_per_second": 184.745,
5591
  "step": 794
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5592
  }
5593
  ],
5594
  "logging_steps": 1,
@@ -5608,7 +8395,7 @@
5608
  "attributes": {}
5609
  }
5610
  },
5611
- "total_flos": 7715841638400.0,
5612
  "train_batch_size": 2,
5613
  "trial_name": null,
5614
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.11813132315016862,
5
  "eval_steps": 397,
6
+ "global_step": 1191,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5589
  "eval_samples_per_second": 369.403,
5590
  "eval_steps_per_second": 184.745,
5591
  "step": 794
5592
+ },
5593
+ {
5594
+ "epoch": 0.07885340210275739,
5595
+ "grad_norm": 1.8805289268493652,
5596
+ "learning_rate": 0.00010049866343387581,
5597
+ "loss": 43.2374,
5598
+ "step": 795
5599
+ },
5600
+ {
5601
+ "epoch": 0.07895258877206904,
5602
+ "grad_norm": 1.8383066654205322,
5603
+ "learning_rate": 0.00010029919885393563,
5604
+ "loss": 42.98,
5605
+ "step": 796
5606
+ },
5607
+ {
5608
+ "epoch": 0.07905177544138067,
5609
+ "grad_norm": 1.9478559494018555,
5610
+ "learning_rate": 0.0001000997330835804,
5611
+ "loss": 43.2858,
5612
+ "step": 797
5613
+ },
5614
+ {
5615
+ "epoch": 0.07915096211069232,
5616
+ "grad_norm": 2.4916789531707764,
5617
+ "learning_rate": 9.990026691641963e-05,
5618
+ "loss": 43.3788,
5619
+ "step": 798
5620
+ },
5621
+ {
5622
+ "epoch": 0.07925014878000397,
5623
+ "grad_norm": 1.8996487855911255,
5624
+ "learning_rate": 9.970080114606439e-05,
5625
+ "loss": 43.4716,
5626
+ "step": 799
5627
+ },
5628
+ {
5629
+ "epoch": 0.0793493354493156,
5630
+ "grad_norm": 2.1742310523986816,
5631
+ "learning_rate": 9.950133656612421e-05,
5632
+ "loss": 43.3278,
5633
+ "step": 800
5634
+ },
5635
+ {
5636
+ "epoch": 0.07944852211862725,
5637
+ "grad_norm": 2.1892952919006348,
5638
+ "learning_rate": 9.930187397020386e-05,
5639
+ "loss": 43.3183,
5640
+ "step": 801
5641
+ },
5642
+ {
5643
+ "epoch": 0.0795477087879389,
5644
+ "grad_norm": 1.887717366218567,
5645
+ "learning_rate": 9.910241415190021e-05,
5646
+ "loss": 43.376,
5647
+ "step": 802
5648
+ },
5649
+ {
5650
+ "epoch": 0.07964689545725055,
5651
+ "grad_norm": 2.2955996990203857,
5652
+ "learning_rate": 9.890295790479911e-05,
5653
+ "loss": 42.9281,
5654
+ "step": 803
5655
+ },
5656
+ {
5657
+ "epoch": 0.07974608212656219,
5658
+ "grad_norm": 1.925470232963562,
5659
+ "learning_rate": 9.870350602247218e-05,
5660
+ "loss": 43.444,
5661
+ "step": 804
5662
+ },
5663
+ {
5664
+ "epoch": 0.07984526879587384,
5665
+ "grad_norm": 1.6774808168411255,
5666
+ "learning_rate": 9.850405929847366e-05,
5667
+ "loss": 43.3017,
5668
+ "step": 805
5669
+ },
5670
+ {
5671
+ "epoch": 0.07994445546518548,
5672
+ "grad_norm": 1.67777419090271,
5673
+ "learning_rate": 9.830461852633727e-05,
5674
+ "loss": 43.4312,
5675
+ "step": 806
5676
+ },
5677
+ {
5678
+ "epoch": 0.08004364213449712,
5679
+ "grad_norm": 1.737864375114441,
5680
+ "learning_rate": 9.810518449957309e-05,
5681
+ "loss": 43.4589,
5682
+ "step": 807
5683
+ },
5684
+ {
5685
+ "epoch": 0.08014282880380877,
5686
+ "grad_norm": 2.016724109649658,
5687
+ "learning_rate": 9.790575801166432e-05,
5688
+ "loss": 43.5872,
5689
+ "step": 808
5690
+ },
5691
+ {
5692
+ "epoch": 0.08024201547312042,
5693
+ "grad_norm": 1.742182731628418,
5694
+ "learning_rate": 9.770633985606419e-05,
5695
+ "loss": 43.2205,
5696
+ "step": 809
5697
+ },
5698
+ {
5699
+ "epoch": 0.08034120214243205,
5700
+ "grad_norm": 1.6217352151870728,
5701
+ "learning_rate": 9.750693082619273e-05,
5702
+ "loss": 43.1472,
5703
+ "step": 810
5704
+ },
5705
+ {
5706
+ "epoch": 0.0804403888117437,
5707
+ "grad_norm": 1.8912020921707153,
5708
+ "learning_rate": 9.730753171543374e-05,
5709
+ "loss": 43.5462,
5710
+ "step": 811
5711
+ },
5712
+ {
5713
+ "epoch": 0.08053957548105535,
5714
+ "grad_norm": 2.008028984069824,
5715
+ "learning_rate": 9.71081433171315e-05,
5716
+ "loss": 43.5617,
5717
+ "step": 812
5718
+ },
5719
+ {
5720
+ "epoch": 0.08063876215036699,
5721
+ "grad_norm": 1.7227747440338135,
5722
+ "learning_rate": 9.690876642458764e-05,
5723
+ "loss": 43.4189,
5724
+ "step": 813
5725
+ },
5726
+ {
5727
+ "epoch": 0.08073794881967863,
5728
+ "grad_norm": 1.9663054943084717,
5729
+ "learning_rate": 9.670940183105812e-05,
5730
+ "loss": 43.4703,
5731
+ "step": 814
5732
+ },
5733
+ {
5734
+ "epoch": 0.08083713548899028,
5735
+ "grad_norm": 2.0552761554718018,
5736
+ "learning_rate": 9.651005032974994e-05,
5737
+ "loss": 43.2265,
5738
+ "step": 815
5739
+ },
5740
+ {
5741
+ "epoch": 0.08093632215830192,
5742
+ "grad_norm": 1.7139379978179932,
5743
+ "learning_rate": 9.631071271381785e-05,
5744
+ "loss": 43.575,
5745
+ "step": 816
5746
+ },
5747
+ {
5748
+ "epoch": 0.08103550882761357,
5749
+ "grad_norm": 1.73064386844635,
5750
+ "learning_rate": 9.611138977636153e-05,
5751
+ "loss": 43.5118,
5752
+ "step": 817
5753
+ },
5754
+ {
5755
+ "epoch": 0.08113469549692522,
5756
+ "grad_norm": 1.8253397941589355,
5757
+ "learning_rate": 9.591208231042218e-05,
5758
+ "loss": 43.1822,
5759
+ "step": 818
5760
+ },
5761
+ {
5762
+ "epoch": 0.08123388216623685,
5763
+ "grad_norm": 1.912844181060791,
5764
+ "learning_rate": 9.571279110897952e-05,
5765
+ "loss": 43.384,
5766
+ "step": 819
5767
+ },
5768
+ {
5769
+ "epoch": 0.0813330688355485,
5770
+ "grad_norm": 2.275552749633789,
5771
+ "learning_rate": 9.551351696494854e-05,
5772
+ "loss": 43.3521,
5773
+ "step": 820
5774
+ },
5775
+ {
5776
+ "epoch": 0.08143225550486015,
5777
+ "grad_norm": 2.37941312789917,
5778
+ "learning_rate": 9.531426067117623e-05,
5779
+ "loss": 43.3171,
5780
+ "step": 821
5781
+ },
5782
+ {
5783
+ "epoch": 0.0815314421741718,
5784
+ "grad_norm": 1.811157464981079,
5785
+ "learning_rate": 9.511502302043868e-05,
5786
+ "loss": 43.2281,
5787
+ "step": 822
5788
+ },
5789
+ {
5790
+ "epoch": 0.08163062884348343,
5791
+ "grad_norm": 2.058664083480835,
5792
+ "learning_rate": 9.491580480543784e-05,
5793
+ "loss": 43.1878,
5794
+ "step": 823
5795
+ },
5796
+ {
5797
+ "epoch": 0.08172981551279508,
5798
+ "grad_norm": 1.7571479082107544,
5799
+ "learning_rate": 9.471660681879825e-05,
5800
+ "loss": 43.5305,
5801
+ "step": 824
5802
+ },
5803
+ {
5804
+ "epoch": 0.08182900218210673,
5805
+ "grad_norm": 2.2421343326568604,
5806
+ "learning_rate": 9.451742985306398e-05,
5807
+ "loss": 43.1806,
5808
+ "step": 825
5809
+ },
5810
+ {
5811
+ "epoch": 0.08192818885141837,
5812
+ "grad_norm": 2.145615339279175,
5813
+ "learning_rate": 9.431827470069558e-05,
5814
+ "loss": 42.9589,
5815
+ "step": 826
5816
+ },
5817
+ {
5818
+ "epoch": 0.08202737552073001,
5819
+ "grad_norm": 1.8979140520095825,
5820
+ "learning_rate": 9.411914215406654e-05,
5821
+ "loss": 43.2689,
5822
+ "step": 827
5823
+ },
5824
+ {
5825
+ "epoch": 0.08212656219004166,
5826
+ "grad_norm": 1.7577365636825562,
5827
+ "learning_rate": 9.39200330054607e-05,
5828
+ "loss": 43.523,
5829
+ "step": 828
5830
+ },
5831
+ {
5832
+ "epoch": 0.0822257488593533,
5833
+ "grad_norm": 1.659989356994629,
5834
+ "learning_rate": 9.372094804706867e-05,
5835
+ "loss": 43.6545,
5836
+ "step": 829
5837
+ },
5838
+ {
5839
+ "epoch": 0.08232493552866495,
5840
+ "grad_norm": 2.152495861053467,
5841
+ "learning_rate": 9.352188807098481e-05,
5842
+ "loss": 43.4871,
5843
+ "step": 830
5844
+ },
5845
+ {
5846
+ "epoch": 0.0824241221979766,
5847
+ "grad_norm": 1.8303964138031006,
5848
+ "learning_rate": 9.332285386920416e-05,
5849
+ "loss": 43.4556,
5850
+ "step": 831
5851
+ },
5852
+ {
5853
+ "epoch": 0.08252330886728823,
5854
+ "grad_norm": 1.996830701828003,
5855
+ "learning_rate": 9.312384623361909e-05,
5856
+ "loss": 43.0785,
5857
+ "step": 832
5858
+ },
5859
+ {
5860
+ "epoch": 0.08262249553659988,
5861
+ "grad_norm": 1.5665048360824585,
5862
+ "learning_rate": 9.292486595601637e-05,
5863
+ "loss": 43.5144,
5864
+ "step": 833
5865
+ },
5866
+ {
5867
+ "epoch": 0.08272168220591153,
5868
+ "grad_norm": 2.127319097518921,
5869
+ "learning_rate": 9.272591382807391e-05,
5870
+ "loss": 43.462,
5871
+ "step": 834
5872
+ },
5873
+ {
5874
+ "epoch": 0.08282086887522316,
5875
+ "grad_norm": 2.1389379501342773,
5876
+ "learning_rate": 9.252699064135758e-05,
5877
+ "loss": 43.3599,
5878
+ "step": 835
5879
+ },
5880
+ {
5881
+ "epoch": 0.08292005554453481,
5882
+ "grad_norm": 2.174877643585205,
5883
+ "learning_rate": 9.232809718731814e-05,
5884
+ "loss": 43.3102,
5885
+ "step": 836
5886
+ },
5887
+ {
5888
+ "epoch": 0.08301924221384646,
5889
+ "grad_norm": 1.9296512603759766,
5890
+ "learning_rate": 9.212923425728806e-05,
5891
+ "loss": 43.4743,
5892
+ "step": 837
5893
+ },
5894
+ {
5895
+ "epoch": 0.08311842888315811,
5896
+ "grad_norm": 1.6677355766296387,
5897
+ "learning_rate": 9.193040264247829e-05,
5898
+ "loss": 43.4941,
5899
+ "step": 838
5900
+ },
5901
+ {
5902
+ "epoch": 0.08321761555246975,
5903
+ "grad_norm": 1.9605714082717896,
5904
+ "learning_rate": 9.173160313397528e-05,
5905
+ "loss": 43.3157,
5906
+ "step": 839
5907
+ },
5908
+ {
5909
+ "epoch": 0.0833168022217814,
5910
+ "grad_norm": 1.9276679754257202,
5911
+ "learning_rate": 9.153283652273768e-05,
5912
+ "loss": 43.3372,
5913
+ "step": 840
5914
+ },
5915
+ {
5916
+ "epoch": 0.08341598889109304,
5917
+ "grad_norm": 1.7903660535812378,
5918
+ "learning_rate": 9.13341035995933e-05,
5919
+ "loss": 43.3393,
5920
+ "step": 841
5921
+ },
5922
+ {
5923
+ "epoch": 0.08351517556040468,
5924
+ "grad_norm": 2.195932388305664,
5925
+ "learning_rate": 9.113540515523587e-05,
5926
+ "loss": 43.3919,
5927
+ "step": 842
5928
+ },
5929
+ {
5930
+ "epoch": 0.08361436222971633,
5931
+ "grad_norm": 1.932118535041809,
5932
+ "learning_rate": 9.093674198022201e-05,
5933
+ "loss": 43.6243,
5934
+ "step": 843
5935
+ },
5936
+ {
5937
+ "epoch": 0.08371354889902798,
5938
+ "grad_norm": 1.9004766941070557,
5939
+ "learning_rate": 9.073811486496788e-05,
5940
+ "loss": 43.429,
5941
+ "step": 844
5942
+ },
5943
+ {
5944
+ "epoch": 0.08381273556833961,
5945
+ "grad_norm": 2.0523078441619873,
5946
+ "learning_rate": 9.05395245997463e-05,
5947
+ "loss": 43.3915,
5948
+ "step": 845
5949
+ },
5950
+ {
5951
+ "epoch": 0.08391192223765126,
5952
+ "grad_norm": 1.7547565698623657,
5953
+ "learning_rate": 9.034097197468342e-05,
5954
+ "loss": 43.6595,
5955
+ "step": 846
5956
+ },
5957
+ {
5958
+ "epoch": 0.08401110890696291,
5959
+ "grad_norm": 2.1675822734832764,
5960
+ "learning_rate": 9.014245777975565e-05,
5961
+ "loss": 43.3933,
5962
+ "step": 847
5963
+ },
5964
+ {
5965
+ "epoch": 0.08411029557627454,
5966
+ "grad_norm": 1.886845350265503,
5967
+ "learning_rate": 8.994398280478652e-05,
5968
+ "loss": 43.4644,
5969
+ "step": 848
5970
+ },
5971
+ {
5972
+ "epoch": 0.08420948224558619,
5973
+ "grad_norm": 1.8034923076629639,
5974
+ "learning_rate": 8.974554783944342e-05,
5975
+ "loss": 43.1188,
5976
+ "step": 849
5977
+ },
5978
+ {
5979
+ "epoch": 0.08430866891489784,
5980
+ "grad_norm": 1.7743672132492065,
5981
+ "learning_rate": 8.954715367323468e-05,
5982
+ "loss": 43.4643,
5983
+ "step": 850
5984
+ },
5985
+ {
5986
+ "epoch": 0.08440785558420948,
5987
+ "grad_norm": 1.9661450386047363,
5988
+ "learning_rate": 8.93488010955062e-05,
5989
+ "loss": 43.5252,
5990
+ "step": 851
5991
+ },
5992
+ {
5993
+ "epoch": 0.08450704225352113,
5994
+ "grad_norm": 1.9290202856063843,
5995
+ "learning_rate": 8.91504908954385e-05,
5996
+ "loss": 43.4773,
5997
+ "step": 852
5998
+ },
5999
+ {
6000
+ "epoch": 0.08460622892283277,
6001
+ "grad_norm": 1.6719213724136353,
6002
+ "learning_rate": 8.89522238620434e-05,
6003
+ "loss": 43.3466,
6004
+ "step": 853
6005
+ },
6006
+ {
6007
+ "epoch": 0.08470541559214441,
6008
+ "grad_norm": 2.064358949661255,
6009
+ "learning_rate": 8.875400078416113e-05,
6010
+ "loss": 43.3472,
6011
+ "step": 854
6012
+ },
6013
+ {
6014
+ "epoch": 0.08480460226145606,
6015
+ "grad_norm": 2.1467957496643066,
6016
+ "learning_rate": 8.855582245045683e-05,
6017
+ "loss": 43.0823,
6018
+ "step": 855
6019
+ },
6020
+ {
6021
+ "epoch": 0.0849037889307677,
6022
+ "grad_norm": 1.9114947319030762,
6023
+ "learning_rate": 8.835768964941773e-05,
6024
+ "loss": 43.2485,
6025
+ "step": 856
6026
+ },
6027
+ {
6028
+ "epoch": 0.08500297560007936,
6029
+ "grad_norm": 1.9376516342163086,
6030
+ "learning_rate": 8.81596031693499e-05,
6031
+ "loss": 43.4138,
6032
+ "step": 857
6033
+ },
6034
+ {
6035
+ "epoch": 0.08510216226939099,
6036
+ "grad_norm": 1.9953455924987793,
6037
+ "learning_rate": 8.796156379837513e-05,
6038
+ "loss": 42.9396,
6039
+ "step": 858
6040
+ },
6041
+ {
6042
+ "epoch": 0.08520134893870264,
6043
+ "grad_norm": 2.0541064739227295,
6044
+ "learning_rate": 8.776357232442778e-05,
6045
+ "loss": 43.2261,
6046
+ "step": 859
6047
+ },
6048
+ {
6049
+ "epoch": 0.08530053560801429,
6050
+ "grad_norm": 2.20963716506958,
6051
+ "learning_rate": 8.756562953525152e-05,
6052
+ "loss": 43.3041,
6053
+ "step": 860
6054
+ },
6055
+ {
6056
+ "epoch": 0.08539972227732592,
6057
+ "grad_norm": 1.735040307044983,
6058
+ "learning_rate": 8.736773621839645e-05,
6059
+ "loss": 43.1483,
6060
+ "step": 861
6061
+ },
6062
+ {
6063
+ "epoch": 0.08549890894663757,
6064
+ "grad_norm": 1.861799955368042,
6065
+ "learning_rate": 8.716989316121578e-05,
6066
+ "loss": 43.4874,
6067
+ "step": 862
6068
+ },
6069
+ {
6070
+ "epoch": 0.08559809561594922,
6071
+ "grad_norm": 1.737962007522583,
6072
+ "learning_rate": 8.697210115086284e-05,
6073
+ "loss": 43.541,
6074
+ "step": 863
6075
+ },
6076
+ {
6077
+ "epoch": 0.08569728228526086,
6078
+ "grad_norm": 2.2596657276153564,
6079
+ "learning_rate": 8.677436097428775e-05,
6080
+ "loss": 43.1737,
6081
+ "step": 864
6082
+ },
6083
+ {
6084
+ "epoch": 0.0857964689545725,
6085
+ "grad_norm": 1.6303043365478516,
6086
+ "learning_rate": 8.657667341823448e-05,
6087
+ "loss": 43.3128,
6088
+ "step": 865
6089
+ },
6090
+ {
6091
+ "epoch": 0.08589565562388415,
6092
+ "grad_norm": 2.3954904079437256,
6093
+ "learning_rate": 8.637903926923751e-05,
6094
+ "loss": 43.2482,
6095
+ "step": 866
6096
+ },
6097
+ {
6098
+ "epoch": 0.08599484229319579,
6099
+ "grad_norm": 1.8219658136367798,
6100
+ "learning_rate": 8.618145931361902e-05,
6101
+ "loss": 43.2866,
6102
+ "step": 867
6103
+ },
6104
+ {
6105
+ "epoch": 0.08609402896250744,
6106
+ "grad_norm": 2.017775535583496,
6107
+ "learning_rate": 8.598393433748541e-05,
6108
+ "loss": 43.3168,
6109
+ "step": 868
6110
+ },
6111
+ {
6112
+ "epoch": 0.08619321563181909,
6113
+ "grad_norm": 2.4712929725646973,
6114
+ "learning_rate": 8.578646512672446e-05,
6115
+ "loss": 43.2597,
6116
+ "step": 869
6117
+ },
6118
+ {
6119
+ "epoch": 0.08629240230113072,
6120
+ "grad_norm": 2.1750926971435547,
6121
+ "learning_rate": 8.558905246700201e-05,
6122
+ "loss": 43.5202,
6123
+ "step": 870
6124
+ },
6125
+ {
6126
+ "epoch": 0.08639158897044237,
6127
+ "grad_norm": 2.4658377170562744,
6128
+ "learning_rate": 8.539169714375885e-05,
6129
+ "loss": 43.1393,
6130
+ "step": 871
6131
+ },
6132
+ {
6133
+ "epoch": 0.08649077563975402,
6134
+ "grad_norm": 2.1692118644714355,
6135
+ "learning_rate": 8.519439994220775e-05,
6136
+ "loss": 43.0212,
6137
+ "step": 872
6138
+ },
6139
+ {
6140
+ "epoch": 0.08658996230906567,
6141
+ "grad_norm": 2.0546863079071045,
6142
+ "learning_rate": 8.49971616473302e-05,
6143
+ "loss": 43.3599,
6144
+ "step": 873
6145
+ },
6146
+ {
6147
+ "epoch": 0.0866891489783773,
6148
+ "grad_norm": 2.119807720184326,
6149
+ "learning_rate": 8.479998304387329e-05,
6150
+ "loss": 43.2814,
6151
+ "step": 874
6152
+ },
6153
+ {
6154
+ "epoch": 0.08678833564768895,
6155
+ "grad_norm": 1.5778454542160034,
6156
+ "learning_rate": 8.460286491634663e-05,
6157
+ "loss": 43.3305,
6158
+ "step": 875
6159
+ },
6160
+ {
6161
+ "epoch": 0.0868875223170006,
6162
+ "grad_norm": 1.8098981380462646,
6163
+ "learning_rate": 8.440580804901927e-05,
6164
+ "loss": 43.4353,
6165
+ "step": 876
6166
+ },
6167
+ {
6168
+ "epoch": 0.08698670898631224,
6169
+ "grad_norm": 1.7996573448181152,
6170
+ "learning_rate": 8.420881322591642e-05,
6171
+ "loss": 43.1245,
6172
+ "step": 877
6173
+ },
6174
+ {
6175
+ "epoch": 0.08708589565562389,
6176
+ "grad_norm": 1.94331693649292,
6177
+ "learning_rate": 8.401188123081653e-05,
6178
+ "loss": 43.387,
6179
+ "step": 878
6180
+ },
6181
+ {
6182
+ "epoch": 0.08718508232493553,
6183
+ "grad_norm": 1.9635634422302246,
6184
+ "learning_rate": 8.381501284724801e-05,
6185
+ "loss": 43.2979,
6186
+ "step": 879
6187
+ },
6188
+ {
6189
+ "epoch": 0.08728426899424717,
6190
+ "grad_norm": 1.813352108001709,
6191
+ "learning_rate": 8.361820885848624e-05,
6192
+ "loss": 43.1953,
6193
+ "step": 880
6194
+ },
6195
+ {
6196
+ "epoch": 0.08738345566355882,
6197
+ "grad_norm": 1.7070103883743286,
6198
+ "learning_rate": 8.342147004755036e-05,
6199
+ "loss": 43.3006,
6200
+ "step": 881
6201
+ },
6202
+ {
6203
+ "epoch": 0.08748264233287047,
6204
+ "grad_norm": 1.6127233505249023,
6205
+ "learning_rate": 8.32247971972002e-05,
6206
+ "loss": 43.3668,
6207
+ "step": 882
6208
+ },
6209
+ {
6210
+ "epoch": 0.0875818290021821,
6211
+ "grad_norm": 1.8241714239120483,
6212
+ "learning_rate": 8.302819108993312e-05,
6213
+ "loss": 43.39,
6214
+ "step": 883
6215
+ },
6216
+ {
6217
+ "epoch": 0.08768101567149375,
6218
+ "grad_norm": 2.063602924346924,
6219
+ "learning_rate": 8.283165250798099e-05,
6220
+ "loss": 43.2349,
6221
+ "step": 884
6222
+ },
6223
+ {
6224
+ "epoch": 0.0877802023408054,
6225
+ "grad_norm": 1.9642107486724854,
6226
+ "learning_rate": 8.263518223330697e-05,
6227
+ "loss": 43.2532,
6228
+ "step": 885
6229
+ },
6230
+ {
6231
+ "epoch": 0.08787938901011703,
6232
+ "grad_norm": 1.7925834655761719,
6233
+ "learning_rate": 8.243878104760249e-05,
6234
+ "loss": 43.2591,
6235
+ "step": 886
6236
+ },
6237
+ {
6238
+ "epoch": 0.08797857567942868,
6239
+ "grad_norm": 2.3461196422576904,
6240
+ "learning_rate": 8.224244973228408e-05,
6241
+ "loss": 43.2511,
6242
+ "step": 887
6243
+ },
6244
+ {
6245
+ "epoch": 0.08807776234874033,
6246
+ "grad_norm": 1.7713696956634521,
6247
+ "learning_rate": 8.204618906849021e-05,
6248
+ "loss": 43.084,
6249
+ "step": 888
6250
+ },
6251
+ {
6252
+ "epoch": 0.08817694901805197,
6253
+ "grad_norm": 2.40630841255188,
6254
+ "learning_rate": 8.184999983707837e-05,
6255
+ "loss": 43.1874,
6256
+ "step": 889
6257
+ },
6258
+ {
6259
+ "epoch": 0.08827613568736362,
6260
+ "grad_norm": 1.782840371131897,
6261
+ "learning_rate": 8.165388281862178e-05,
6262
+ "loss": 43.4851,
6263
+ "step": 890
6264
+ },
6265
+ {
6266
+ "epoch": 0.08837532235667526,
6267
+ "grad_norm": 1.8510971069335938,
6268
+ "learning_rate": 8.145783879340634e-05,
6269
+ "loss": 43.2571,
6270
+ "step": 891
6271
+ },
6272
+ {
6273
+ "epoch": 0.08847450902598691,
6274
+ "grad_norm": 1.772338628768921,
6275
+ "learning_rate": 8.126186854142752e-05,
6276
+ "loss": 43.5884,
6277
+ "step": 892
6278
+ },
6279
+ {
6280
+ "epoch": 0.08857369569529855,
6281
+ "grad_norm": 2.018734931945801,
6282
+ "learning_rate": 8.10659728423874e-05,
6283
+ "loss": 42.9666,
6284
+ "step": 893
6285
+ },
6286
+ {
6287
+ "epoch": 0.0886728823646102,
6288
+ "grad_norm": 2.0410776138305664,
6289
+ "learning_rate": 8.087015247569124e-05,
6290
+ "loss": 43.2727,
6291
+ "step": 894
6292
+ },
6293
+ {
6294
+ "epoch": 0.08877206903392185,
6295
+ "grad_norm": 1.8451515436172485,
6296
+ "learning_rate": 8.067440822044469e-05,
6297
+ "loss": 43.2777,
6298
+ "step": 895
6299
+ },
6300
+ {
6301
+ "epoch": 0.08887125570323348,
6302
+ "grad_norm": 1.7834467887878418,
6303
+ "learning_rate": 8.047874085545058e-05,
6304
+ "loss": 42.9418,
6305
+ "step": 896
6306
+ },
6307
+ {
6308
+ "epoch": 0.08897044237254513,
6309
+ "grad_norm": 2.3698744773864746,
6310
+ "learning_rate": 8.028315115920576e-05,
6311
+ "loss": 43.3835,
6312
+ "step": 897
6313
+ },
6314
+ {
6315
+ "epoch": 0.08906962904185678,
6316
+ "grad_norm": 2.0287153720855713,
6317
+ "learning_rate": 8.00876399098982e-05,
6318
+ "loss": 43.3926,
6319
+ "step": 898
6320
+ },
6321
+ {
6322
+ "epoch": 0.08916881571116841,
6323
+ "grad_norm": 1.825823426246643,
6324
+ "learning_rate": 7.989220788540355e-05,
6325
+ "loss": 43.1946,
6326
+ "step": 899
6327
+ },
6328
+ {
6329
+ "epoch": 0.08926800238048006,
6330
+ "grad_norm": 1.9353700876235962,
6331
+ "learning_rate": 7.96968558632824e-05,
6332
+ "loss": 43.1476,
6333
+ "step": 900
6334
+ },
6335
+ {
6336
+ "epoch": 0.08936718904979171,
6337
+ "grad_norm": 1.78703773021698,
6338
+ "learning_rate": 7.950158462077697e-05,
6339
+ "loss": 43.2263,
6340
+ "step": 901
6341
+ },
6342
+ {
6343
+ "epoch": 0.08946637571910335,
6344
+ "grad_norm": 1.9925075769424438,
6345
+ "learning_rate": 7.930639493480814e-05,
6346
+ "loss": 43.3162,
6347
+ "step": 902
6348
+ },
6349
+ {
6350
+ "epoch": 0.089565562388415,
6351
+ "grad_norm": 1.8245471715927124,
6352
+ "learning_rate": 7.911128758197224e-05,
6353
+ "loss": 43.4107,
6354
+ "step": 903
6355
+ },
6356
+ {
6357
+ "epoch": 0.08966474905772664,
6358
+ "grad_norm": 1.942383885383606,
6359
+ "learning_rate": 7.891626333853812e-05,
6360
+ "loss": 43.3753,
6361
+ "step": 904
6362
+ },
6363
+ {
6364
+ "epoch": 0.08976393572703828,
6365
+ "grad_norm": 1.8528326749801636,
6366
+ "learning_rate": 7.872132298044382e-05,
6367
+ "loss": 43.3682,
6368
+ "step": 905
6369
+ },
6370
+ {
6371
+ "epoch": 0.08986312239634993,
6372
+ "grad_norm": 2.216946840286255,
6373
+ "learning_rate": 7.852646728329368e-05,
6374
+ "loss": 43.195,
6375
+ "step": 906
6376
+ },
6377
+ {
6378
+ "epoch": 0.08996230906566158,
6379
+ "grad_norm": 1.8748693466186523,
6380
+ "learning_rate": 7.833169702235531e-05,
6381
+ "loss": 43.4997,
6382
+ "step": 907
6383
+ },
6384
+ {
6385
+ "epoch": 0.09006149573497323,
6386
+ "grad_norm": 1.8855562210083008,
6387
+ "learning_rate": 7.813701297255628e-05,
6388
+ "loss": 43.4364,
6389
+ "step": 908
6390
+ },
6391
+ {
6392
+ "epoch": 0.09016068240428486,
6393
+ "grad_norm": 1.8406039476394653,
6394
+ "learning_rate": 7.794241590848123e-05,
6395
+ "loss": 43.2181,
6396
+ "step": 909
6397
+ },
6398
+ {
6399
+ "epoch": 0.09025986907359651,
6400
+ "grad_norm": 2.068734645843506,
6401
+ "learning_rate": 7.774790660436858e-05,
6402
+ "loss": 43.4028,
6403
+ "step": 910
6404
+ },
6405
+ {
6406
+ "epoch": 0.09035905574290816,
6407
+ "grad_norm": 2.1496853828430176,
6408
+ "learning_rate": 7.755348583410772e-05,
6409
+ "loss": 43.3901,
6410
+ "step": 911
6411
+ },
6412
+ {
6413
+ "epoch": 0.0904582424122198,
6414
+ "grad_norm": 1.993266224861145,
6415
+ "learning_rate": 7.735915437123574e-05,
6416
+ "loss": 43.3823,
6417
+ "step": 912
6418
+ },
6419
+ {
6420
+ "epoch": 0.09055742908153144,
6421
+ "grad_norm": 1.862154245376587,
6422
+ "learning_rate": 7.716491298893442e-05,
6423
+ "loss": 43.0743,
6424
+ "step": 913
6425
+ },
6426
+ {
6427
+ "epoch": 0.09065661575084309,
6428
+ "grad_norm": 2.08268141746521,
6429
+ "learning_rate": 7.697076246002713e-05,
6430
+ "loss": 43.413,
6431
+ "step": 914
6432
+ },
6433
+ {
6434
+ "epoch": 0.09075580242015473,
6435
+ "grad_norm": 1.8610597848892212,
6436
+ "learning_rate": 7.677670355697577e-05,
6437
+ "loss": 43.3784,
6438
+ "step": 915
6439
+ },
6440
+ {
6441
+ "epoch": 0.09085498908946638,
6442
+ "grad_norm": 1.7491427659988403,
6443
+ "learning_rate": 7.658273705187761e-05,
6444
+ "loss": 43.4197,
6445
+ "step": 916
6446
+ },
6447
+ {
6448
+ "epoch": 0.09095417575877802,
6449
+ "grad_norm": 1.8177448511123657,
6450
+ "learning_rate": 7.638886371646246e-05,
6451
+ "loss": 43.4021,
6452
+ "step": 917
6453
+ },
6454
+ {
6455
+ "epoch": 0.09105336242808966,
6456
+ "grad_norm": 1.9328161478042603,
6457
+ "learning_rate": 7.619508432208931e-05,
6458
+ "loss": 43.1076,
6459
+ "step": 918
6460
+ },
6461
+ {
6462
+ "epoch": 0.09115254909740131,
6463
+ "grad_norm": 1.773515224456787,
6464
+ "learning_rate": 7.600139963974341e-05,
6465
+ "loss": 43.2534,
6466
+ "step": 919
6467
+ },
6468
+ {
6469
+ "epoch": 0.09125173576671296,
6470
+ "grad_norm": 1.7070053815841675,
6471
+ "learning_rate": 7.580781044003324e-05,
6472
+ "loss": 43.316,
6473
+ "step": 920
6474
+ },
6475
+ {
6476
+ "epoch": 0.09135092243602459,
6477
+ "grad_norm": 1.9303302764892578,
6478
+ "learning_rate": 7.561431749318731e-05,
6479
+ "loss": 42.9603,
6480
+ "step": 921
6481
+ },
6482
+ {
6483
+ "epoch": 0.09145010910533624,
6484
+ "grad_norm": 1.822993516921997,
6485
+ "learning_rate": 7.542092156905123e-05,
6486
+ "loss": 43.3826,
6487
+ "step": 922
6488
+ },
6489
+ {
6490
+ "epoch": 0.09154929577464789,
6491
+ "grad_norm": 1.8518813848495483,
6492
+ "learning_rate": 7.522762343708454e-05,
6493
+ "loss": 43.4774,
6494
+ "step": 923
6495
+ },
6496
+ {
6497
+ "epoch": 0.09164848244395953,
6498
+ "grad_norm": 1.886132836341858,
6499
+ "learning_rate": 7.503442386635774e-05,
6500
+ "loss": 43.3404,
6501
+ "step": 924
6502
+ },
6503
+ {
6504
+ "epoch": 0.09174766911327117,
6505
+ "grad_norm": 2.080753803253174,
6506
+ "learning_rate": 7.484132362554915e-05,
6507
+ "loss": 43.3287,
6508
+ "step": 925
6509
+ },
6510
+ {
6511
+ "epoch": 0.09184685578258282,
6512
+ "grad_norm": 1.8040423393249512,
6513
+ "learning_rate": 7.464832348294195e-05,
6514
+ "loss": 43.3848,
6515
+ "step": 926
6516
+ },
6517
+ {
6518
+ "epoch": 0.09194604245189447,
6519
+ "grad_norm": 1.7399113178253174,
6520
+ "learning_rate": 7.445542420642097e-05,
6521
+ "loss": 43.41,
6522
+ "step": 927
6523
+ },
6524
+ {
6525
+ "epoch": 0.0920452291212061,
6526
+ "grad_norm": 1.636152982711792,
6527
+ "learning_rate": 7.426262656346978e-05,
6528
+ "loss": 43.4037,
6529
+ "step": 928
6530
+ },
6531
+ {
6532
+ "epoch": 0.09214441579051776,
6533
+ "grad_norm": 1.8403246402740479,
6534
+ "learning_rate": 7.406993132116759e-05,
6535
+ "loss": 43.3664,
6536
+ "step": 929
6537
+ },
6538
+ {
6539
+ "epoch": 0.0922436024598294,
6540
+ "grad_norm": 1.7476787567138672,
6541
+ "learning_rate": 7.387733924618617e-05,
6542
+ "loss": 43.4288,
6543
+ "step": 930
6544
+ },
6545
+ {
6546
+ "epoch": 0.09234278912914104,
6547
+ "grad_norm": 1.964263916015625,
6548
+ "learning_rate": 7.368485110478685e-05,
6549
+ "loss": 43.2634,
6550
+ "step": 931
6551
+ },
6552
+ {
6553
+ "epoch": 0.09244197579845269,
6554
+ "grad_norm": 2.1043291091918945,
6555
+ "learning_rate": 7.349246766281741e-05,
6556
+ "loss": 43.4181,
6557
+ "step": 932
6558
+ },
6559
+ {
6560
+ "epoch": 0.09254116246776434,
6561
+ "grad_norm": 2.108569860458374,
6562
+ "learning_rate": 7.330018968570907e-05,
6563
+ "loss": 43.3852,
6564
+ "step": 933
6565
+ },
6566
+ {
6567
+ "epoch": 0.09264034913707597,
6568
+ "grad_norm": 2.0387933254241943,
6569
+ "learning_rate": 7.310801793847344e-05,
6570
+ "loss": 43.065,
6571
+ "step": 934
6572
+ },
6573
+ {
6574
+ "epoch": 0.09273953580638762,
6575
+ "grad_norm": 1.9925363063812256,
6576
+ "learning_rate": 7.291595318569951e-05,
6577
+ "loss": 43.3083,
6578
+ "step": 935
6579
+ },
6580
+ {
6581
+ "epoch": 0.09283872247569927,
6582
+ "grad_norm": 1.754214882850647,
6583
+ "learning_rate": 7.272399619155048e-05,
6584
+ "loss": 43.5388,
6585
+ "step": 936
6586
+ },
6587
+ {
6588
+ "epoch": 0.0929379091450109,
6589
+ "grad_norm": 1.985870361328125,
6590
+ "learning_rate": 7.2532147719761e-05,
6591
+ "loss": 43.2456,
6592
+ "step": 937
6593
+ },
6594
+ {
6595
+ "epoch": 0.09303709581432255,
6596
+ "grad_norm": 2.0967764854431152,
6597
+ "learning_rate": 7.234040853363371e-05,
6598
+ "loss": 43.2949,
6599
+ "step": 938
6600
+ },
6601
+ {
6602
+ "epoch": 0.0931362824836342,
6603
+ "grad_norm": 2.0468029975891113,
6604
+ "learning_rate": 7.214877939603659e-05,
6605
+ "loss": 43.4696,
6606
+ "step": 939
6607
+ },
6608
+ {
6609
+ "epoch": 0.09323546915294584,
6610
+ "grad_norm": 1.9126473665237427,
6611
+ "learning_rate": 7.195726106939974e-05,
6612
+ "loss": 43.5634,
6613
+ "step": 940
6614
+ },
6615
+ {
6616
+ "epoch": 0.09333465582225749,
6617
+ "grad_norm": 2.130176544189453,
6618
+ "learning_rate": 7.176585431571235e-05,
6619
+ "loss": 43.058,
6620
+ "step": 941
6621
+ },
6622
+ {
6623
+ "epoch": 0.09343384249156914,
6624
+ "grad_norm": 2.085319995880127,
6625
+ "learning_rate": 7.157455989651976e-05,
6626
+ "loss": 43.3287,
6627
+ "step": 942
6628
+ },
6629
+ {
6630
+ "epoch": 0.09353302916088078,
6631
+ "grad_norm": 1.8544113636016846,
6632
+ "learning_rate": 7.138337857292034e-05,
6633
+ "loss": 43.3071,
6634
+ "step": 943
6635
+ },
6636
+ {
6637
+ "epoch": 0.09363221583019242,
6638
+ "grad_norm": 1.7780606746673584,
6639
+ "learning_rate": 7.119231110556242e-05,
6640
+ "loss": 43.4521,
6641
+ "step": 944
6642
+ },
6643
+ {
6644
+ "epoch": 0.09373140249950407,
6645
+ "grad_norm": 1.8853678703308105,
6646
+ "learning_rate": 7.100135825464139e-05,
6647
+ "loss": 43.394,
6648
+ "step": 945
6649
+ },
6650
+ {
6651
+ "epoch": 0.09383058916881572,
6652
+ "grad_norm": 2.073620557785034,
6653
+ "learning_rate": 7.081052077989667e-05,
6654
+ "loss": 42.9639,
6655
+ "step": 946
6656
+ },
6657
+ {
6658
+ "epoch": 0.09392977583812735,
6659
+ "grad_norm": 2.062309980392456,
6660
+ "learning_rate": 7.061979944060856e-05,
6661
+ "loss": 43.4094,
6662
+ "step": 947
6663
+ },
6664
+ {
6665
+ "epoch": 0.094028962507439,
6666
+ "grad_norm": 2.0947256088256836,
6667
+ "learning_rate": 7.042919499559537e-05,
6668
+ "loss": 43.3735,
6669
+ "step": 948
6670
+ },
6671
+ {
6672
+ "epoch": 0.09412814917675065,
6673
+ "grad_norm": 2.1636717319488525,
6674
+ "learning_rate": 7.023870820321017e-05,
6675
+ "loss": 43.5101,
6676
+ "step": 949
6677
+ },
6678
+ {
6679
+ "epoch": 0.09422733584606229,
6680
+ "grad_norm": 1.8934404850006104,
6681
+ "learning_rate": 7.004833982133808e-05,
6682
+ "loss": 43.4439,
6683
+ "step": 950
6684
+ },
6685
+ {
6686
+ "epoch": 0.09432652251537393,
6687
+ "grad_norm": 1.883296012878418,
6688
+ "learning_rate": 6.98580906073931e-05,
6689
+ "loss": 43.1449,
6690
+ "step": 951
6691
+ },
6692
+ {
6693
+ "epoch": 0.09442570918468558,
6694
+ "grad_norm": 2.0616371631622314,
6695
+ "learning_rate": 6.966796131831501e-05,
6696
+ "loss": 43.2397,
6697
+ "step": 952
6698
+ },
6699
+ {
6700
+ "epoch": 0.09452489585399722,
6701
+ "grad_norm": 2.622436046600342,
6702
+ "learning_rate": 6.947795271056651e-05,
6703
+ "loss": 43.0966,
6704
+ "step": 953
6705
+ },
6706
+ {
6707
+ "epoch": 0.09462408252330887,
6708
+ "grad_norm": 2.2651469707489014,
6709
+ "learning_rate": 6.928806554013016e-05,
6710
+ "loss": 42.9688,
6711
+ "step": 954
6712
+ },
6713
+ {
6714
+ "epoch": 0.09472326919262052,
6715
+ "grad_norm": 1.7404958009719849,
6716
+ "learning_rate": 6.909830056250527e-05,
6717
+ "loss": 43.4282,
6718
+ "step": 955
6719
+ },
6720
+ {
6721
+ "epoch": 0.09482245586193215,
6722
+ "grad_norm": 1.9390512704849243,
6723
+ "learning_rate": 6.890865853270509e-05,
6724
+ "loss": 43.2355,
6725
+ "step": 956
6726
+ },
6727
+ {
6728
+ "epoch": 0.0949216425312438,
6729
+ "grad_norm": 1.7587411403656006,
6730
+ "learning_rate": 6.871914020525363e-05,
6731
+ "loss": 43.5188,
6732
+ "step": 957
6733
+ },
6734
+ {
6735
+ "epoch": 0.09502082920055545,
6736
+ "grad_norm": 1.802949070930481,
6737
+ "learning_rate": 6.85297463341828e-05,
6738
+ "loss": 43.4377,
6739
+ "step": 958
6740
+ },
6741
+ {
6742
+ "epoch": 0.09512001586986708,
6743
+ "grad_norm": 2.380028486251831,
6744
+ "learning_rate": 6.834047767302929e-05,
6745
+ "loss": 43.4229,
6746
+ "step": 959
6747
+ },
6748
+ {
6749
+ "epoch": 0.09521920253917873,
6750
+ "grad_norm": 2.1051738262176514,
6751
+ "learning_rate": 6.815133497483157e-05,
6752
+ "loss": 43.2247,
6753
+ "step": 960
6754
+ },
6755
+ {
6756
+ "epoch": 0.09531838920849038,
6757
+ "grad_norm": 2.068763017654419,
6758
+ "learning_rate": 6.796231899212704e-05,
6759
+ "loss": 43.0241,
6760
+ "step": 961
6761
+ },
6762
+ {
6763
+ "epoch": 0.09541757587780203,
6764
+ "grad_norm": 1.9503624439239502,
6765
+ "learning_rate": 6.77734304769489e-05,
6766
+ "loss": 43.1053,
6767
+ "step": 962
6768
+ },
6769
+ {
6770
+ "epoch": 0.09551676254711366,
6771
+ "grad_norm": 2.1576602458953857,
6772
+ "learning_rate": 6.75846701808232e-05,
6773
+ "loss": 43.2077,
6774
+ "step": 963
6775
+ },
6776
+ {
6777
+ "epoch": 0.09561594921642531,
6778
+ "grad_norm": 2.2297677993774414,
6779
+ "learning_rate": 6.739603885476582e-05,
6780
+ "loss": 43.4295,
6781
+ "step": 964
6782
+ },
6783
+ {
6784
+ "epoch": 0.09571513588573696,
6785
+ "grad_norm": 1.9149441719055176,
6786
+ "learning_rate": 6.720753724927958e-05,
6787
+ "loss": 43.3554,
6788
+ "step": 965
6789
+ },
6790
+ {
6791
+ "epoch": 0.0958143225550486,
6792
+ "grad_norm": 1.9192272424697876,
6793
+ "learning_rate": 6.701916611435109e-05,
6794
+ "loss": 43.2641,
6795
+ "step": 966
6796
+ },
6797
+ {
6798
+ "epoch": 0.09591350922436025,
6799
+ "grad_norm": 1.752898097038269,
6800
+ "learning_rate": 6.683092619944796e-05,
6801
+ "loss": 43.2443,
6802
+ "step": 967
6803
+ },
6804
+ {
6805
+ "epoch": 0.0960126958936719,
6806
+ "grad_norm": 1.7976934909820557,
6807
+ "learning_rate": 6.664281825351562e-05,
6808
+ "loss": 43.1963,
6809
+ "step": 968
6810
+ },
6811
+ {
6812
+ "epoch": 0.09611188256298353,
6813
+ "grad_norm": 1.8018180131912231,
6814
+ "learning_rate": 6.64548430249745e-05,
6815
+ "loss": 43.321,
6816
+ "step": 969
6817
+ },
6818
+ {
6819
+ "epoch": 0.09621106923229518,
6820
+ "grad_norm": 2.098780870437622,
6821
+ "learning_rate": 6.626700126171702e-05,
6822
+ "loss": 43.426,
6823
+ "step": 970
6824
+ },
6825
+ {
6826
+ "epoch": 0.09631025590160683,
6827
+ "grad_norm": 1.8992630243301392,
6828
+ "learning_rate": 6.607929371110448e-05,
6829
+ "loss": 42.978,
6830
+ "step": 971
6831
+ },
6832
+ {
6833
+ "epoch": 0.09640944257091846,
6834
+ "grad_norm": 1.8057256937026978,
6835
+ "learning_rate": 6.58917211199643e-05,
6836
+ "loss": 43.2817,
6837
+ "step": 972
6838
+ },
6839
+ {
6840
+ "epoch": 0.09650862924023011,
6841
+ "grad_norm": 1.7181857824325562,
6842
+ "learning_rate": 6.570428423458687e-05,
6843
+ "loss": 43.4864,
6844
+ "step": 973
6845
+ },
6846
+ {
6847
+ "epoch": 0.09660781590954176,
6848
+ "grad_norm": 1.844660758972168,
6849
+ "learning_rate": 6.551698380072266e-05,
6850
+ "loss": 43.1988,
6851
+ "step": 974
6852
+ },
6853
+ {
6854
+ "epoch": 0.0967070025788534,
6855
+ "grad_norm": 1.6959925889968872,
6856
+ "learning_rate": 6.532982056357928e-05,
6857
+ "loss": 43.2842,
6858
+ "step": 975
6859
+ },
6860
+ {
6861
+ "epoch": 0.09680618924816504,
6862
+ "grad_norm": 2.1474428176879883,
6863
+ "learning_rate": 6.51427952678185e-05,
6864
+ "loss": 42.8695,
6865
+ "step": 976
6866
+ },
6867
+ {
6868
+ "epoch": 0.0969053759174767,
6869
+ "grad_norm": 1.9975131750106812,
6870
+ "learning_rate": 6.495590865755315e-05,
6871
+ "loss": 43.0511,
6872
+ "step": 977
6873
+ },
6874
+ {
6875
+ "epoch": 0.09700456258678833,
6876
+ "grad_norm": 2.1720874309539795,
6877
+ "learning_rate": 6.476916147634437e-05,
6878
+ "loss": 42.9337,
6879
+ "step": 978
6880
+ },
6881
+ {
6882
+ "epoch": 0.09710374925609998,
6883
+ "grad_norm": 1.5775563716888428,
6884
+ "learning_rate": 6.458255446719854e-05,
6885
+ "loss": 43.4077,
6886
+ "step": 979
6887
+ },
6888
+ {
6889
+ "epoch": 0.09720293592541163,
6890
+ "grad_norm": 1.7421826124191284,
6891
+ "learning_rate": 6.439608837256432e-05,
6892
+ "loss": 43.3882,
6893
+ "step": 980
6894
+ },
6895
+ {
6896
+ "epoch": 0.09730212259472328,
6897
+ "grad_norm": 1.8827160596847534,
6898
+ "learning_rate": 6.420976393432977e-05,
6899
+ "loss": 43.192,
6900
+ "step": 981
6901
+ },
6902
+ {
6903
+ "epoch": 0.09740130926403491,
6904
+ "grad_norm": 2.0593631267547607,
6905
+ "learning_rate": 6.402358189381934e-05,
6906
+ "loss": 43.2,
6907
+ "step": 982
6908
+ },
6909
+ {
6910
+ "epoch": 0.09750049593334656,
6911
+ "grad_norm": 2.002188205718994,
6912
+ "learning_rate": 6.383754299179079e-05,
6913
+ "loss": 43.2412,
6914
+ "step": 983
6915
+ },
6916
+ {
6917
+ "epoch": 0.09759968260265821,
6918
+ "grad_norm": 1.59535551071167,
6919
+ "learning_rate": 6.365164796843252e-05,
6920
+ "loss": 43.5838,
6921
+ "step": 984
6922
+ },
6923
+ {
6924
+ "epoch": 0.09769886927196984,
6925
+ "grad_norm": 2.0612454414367676,
6926
+ "learning_rate": 6.34658975633605e-05,
6927
+ "loss": 42.9227,
6928
+ "step": 985
6929
+ },
6930
+ {
6931
+ "epoch": 0.09779805594128149,
6932
+ "grad_norm": 1.842847466468811,
6933
+ "learning_rate": 6.328029251561521e-05,
6934
+ "loss": 43.4525,
6935
+ "step": 986
6936
+ },
6937
+ {
6938
+ "epoch": 0.09789724261059314,
6939
+ "grad_norm": 1.7609597444534302,
6940
+ "learning_rate": 6.30948335636589e-05,
6941
+ "loss": 43.1777,
6942
+ "step": 987
6943
+ },
6944
+ {
6945
+ "epoch": 0.09799642927990478,
6946
+ "grad_norm": 2.0873639583587646,
6947
+ "learning_rate": 6.290952144537241e-05,
6948
+ "loss": 43.4048,
6949
+ "step": 988
6950
+ },
6951
+ {
6952
+ "epoch": 0.09809561594921642,
6953
+ "grad_norm": 2.211897134780884,
6954
+ "learning_rate": 6.27243568980525e-05,
6955
+ "loss": 43.2654,
6956
+ "step": 989
6957
+ },
6958
+ {
6959
+ "epoch": 0.09819480261852807,
6960
+ "grad_norm": 1.9050241708755493,
6961
+ "learning_rate": 6.25393406584088e-05,
6962
+ "loss": 43.2461,
6963
+ "step": 990
6964
+ },
6965
+ {
6966
+ "epoch": 0.09829398928783971,
6967
+ "grad_norm": 1.964715838432312,
6968
+ "learning_rate": 6.23544734625608e-05,
6969
+ "loss": 43.3799,
6970
+ "step": 991
6971
+ },
6972
+ {
6973
+ "epoch": 0.09839317595715136,
6974
+ "grad_norm": 2.0911576747894287,
6975
+ "learning_rate": 6.216975604603503e-05,
6976
+ "loss": 42.9,
6977
+ "step": 992
6978
+ },
6979
+ {
6980
+ "epoch": 0.098492362626463,
6981
+ "grad_norm": 2.2503297328948975,
6982
+ "learning_rate": 6.198518914376212e-05,
6983
+ "loss": 43.4324,
6984
+ "step": 993
6985
+ },
6986
+ {
6987
+ "epoch": 0.09859154929577464,
6988
+ "grad_norm": 1.845924735069275,
6989
+ "learning_rate": 6.180077349007376e-05,
6990
+ "loss": 43.5936,
6991
+ "step": 994
6992
+ },
6993
+ {
6994
+ "epoch": 0.09869073596508629,
6995
+ "grad_norm": 2.30470609664917,
6996
+ "learning_rate": 6.161650981869998e-05,
6997
+ "loss": 43.4711,
6998
+ "step": 995
6999
+ },
7000
+ {
7001
+ "epoch": 0.09878992263439794,
7002
+ "grad_norm": 2.0436346530914307,
7003
+ "learning_rate": 6.143239886276606e-05,
7004
+ "loss": 43.1616,
7005
+ "step": 996
7006
+ },
7007
+ {
7008
+ "epoch": 0.09888910930370959,
7009
+ "grad_norm": 2.165714979171753,
7010
+ "learning_rate": 6.12484413547897e-05,
7011
+ "loss": 43.3748,
7012
+ "step": 997
7013
+ },
7014
+ {
7015
+ "epoch": 0.09898829597302122,
7016
+ "grad_norm": 1.9041638374328613,
7017
+ "learning_rate": 6.10646380266781e-05,
7018
+ "loss": 43.108,
7019
+ "step": 998
7020
+ },
7021
+ {
7022
+ "epoch": 0.09908748264233287,
7023
+ "grad_norm": 2.148827075958252,
7024
+ "learning_rate": 6.0880989609724936e-05,
7025
+ "loss": 43.2891,
7026
+ "step": 999
7027
+ },
7028
+ {
7029
+ "epoch": 0.09918666931164452,
7030
+ "grad_norm": 2.6612515449523926,
7031
+ "learning_rate": 6.069749683460765e-05,
7032
+ "loss": 43.5092,
7033
+ "step": 1000
7034
+ },
7035
+ {
7036
+ "epoch": 0.09928585598095616,
7037
+ "grad_norm": 1.887052059173584,
7038
+ "learning_rate": 6.051416043138438e-05,
7039
+ "loss": 43.315,
7040
+ "step": 1001
7041
+ },
7042
+ {
7043
+ "epoch": 0.0993850426502678,
7044
+ "grad_norm": 1.5838396549224854,
7045
+ "learning_rate": 6.0330981129491134e-05,
7046
+ "loss": 43.4339,
7047
+ "step": 1002
7048
+ },
7049
+ {
7050
+ "epoch": 0.09948422931957945,
7051
+ "grad_norm": 1.859200119972229,
7052
+ "learning_rate": 6.014795965773884e-05,
7053
+ "loss": 43.3558,
7054
+ "step": 1003
7055
+ },
7056
+ {
7057
+ "epoch": 0.09958341598889109,
7058
+ "grad_norm": 1.7264127731323242,
7059
+ "learning_rate": 5.9965096744310526e-05,
7060
+ "loss": 43.4768,
7061
+ "step": 1004
7062
+ },
7063
+ {
7064
+ "epoch": 0.09968260265820274,
7065
+ "grad_norm": 1.9149467945098877,
7066
+ "learning_rate": 5.978239311675826e-05,
7067
+ "loss": 43.5295,
7068
+ "step": 1005
7069
+ },
7070
+ {
7071
+ "epoch": 0.09978178932751439,
7072
+ "grad_norm": 1.9356281757354736,
7073
+ "learning_rate": 5.9599849502000485e-05,
7074
+ "loss": 43.241,
7075
+ "step": 1006
7076
+ },
7077
+ {
7078
+ "epoch": 0.09988097599682602,
7079
+ "grad_norm": 1.800052523612976,
7080
+ "learning_rate": 5.941746662631893e-05,
7081
+ "loss": 43.4511,
7082
+ "step": 1007
7083
+ },
7084
+ {
7085
+ "epoch": 0.09998016266613767,
7086
+ "grad_norm": 1.773478627204895,
7087
+ "learning_rate": 5.923524521535582e-05,
7088
+ "loss": 43.336,
7089
+ "step": 1008
7090
+ },
7091
+ {
7092
+ "epoch": 0.10007934933544932,
7093
+ "grad_norm": 2.0657424926757812,
7094
+ "learning_rate": 5.9053185994110974e-05,
7095
+ "loss": 43.2339,
7096
+ "step": 1009
7097
+ },
7098
+ {
7099
+ "epoch": 0.10017853600476095,
7100
+ "grad_norm": 2.2843918800354004,
7101
+ "learning_rate": 5.887128968693887e-05,
7102
+ "loss": 43.5656,
7103
+ "step": 1010
7104
+ },
7105
+ {
7106
+ "epoch": 0.1002777226740726,
7107
+ "grad_norm": 2.3814151287078857,
7108
+ "learning_rate": 5.868955701754584e-05,
7109
+ "loss": 43.1899,
7110
+ "step": 1011
7111
+ },
7112
+ {
7113
+ "epoch": 0.10037690934338425,
7114
+ "grad_norm": 2.003471612930298,
7115
+ "learning_rate": 5.8507988708987146e-05,
7116
+ "loss": 43.2224,
7117
+ "step": 1012
7118
+ },
7119
+ {
7120
+ "epoch": 0.10047609601269589,
7121
+ "grad_norm": 1.667802095413208,
7122
+ "learning_rate": 5.832658548366412e-05,
7123
+ "loss": 43.3213,
7124
+ "step": 1013
7125
+ },
7126
+ {
7127
+ "epoch": 0.10057528268200754,
7128
+ "grad_norm": 2.0781381130218506,
7129
+ "learning_rate": 5.8145348063321295e-05,
7130
+ "loss": 43.2473,
7131
+ "step": 1014
7132
+ },
7133
+ {
7134
+ "epoch": 0.10067446935131918,
7135
+ "grad_norm": 1.962714433670044,
7136
+ "learning_rate": 5.796427716904347e-05,
7137
+ "loss": 43.3516,
7138
+ "step": 1015
7139
+ },
7140
+ {
7141
+ "epoch": 0.10077365602063083,
7142
+ "grad_norm": 1.6675232648849487,
7143
+ "learning_rate": 5.7783373521252894e-05,
7144
+ "loss": 43.2493,
7145
+ "step": 1016
7146
+ },
7147
+ {
7148
+ "epoch": 0.10087284268994247,
7149
+ "grad_norm": 1.6517949104309082,
7150
+ "learning_rate": 5.7602637839706476e-05,
7151
+ "loss": 43.4813,
7152
+ "step": 1017
7153
+ },
7154
+ {
7155
+ "epoch": 0.10097202935925412,
7156
+ "grad_norm": 1.887805700302124,
7157
+ "learning_rate": 5.7422070843492734e-05,
7158
+ "loss": 43.0628,
7159
+ "step": 1018
7160
+ },
7161
+ {
7162
+ "epoch": 0.10107121602856577,
7163
+ "grad_norm": 2.185135841369629,
7164
+ "learning_rate": 5.724167325102915e-05,
7165
+ "loss": 42.8941,
7166
+ "step": 1019
7167
+ },
7168
+ {
7169
+ "epoch": 0.1011704026978774,
7170
+ "grad_norm": 1.701960802078247,
7171
+ "learning_rate": 5.7061445780059074e-05,
7172
+ "loss": 43.4726,
7173
+ "step": 1020
7174
+ },
7175
+ {
7176
+ "epoch": 0.10126958936718905,
7177
+ "grad_norm": 1.8178409337997437,
7178
+ "learning_rate": 5.6881389147649176e-05,
7179
+ "loss": 43.1844,
7180
+ "step": 1021
7181
+ },
7182
+ {
7183
+ "epoch": 0.1013687760365007,
7184
+ "grad_norm": 2.3397371768951416,
7185
+ "learning_rate": 5.670150407018624e-05,
7186
+ "loss": 43.4218,
7187
+ "step": 1022
7188
+ },
7189
+ {
7190
+ "epoch": 0.10146796270581233,
7191
+ "grad_norm": 1.9263267517089844,
7192
+ "learning_rate": 5.6521791263374534e-05,
7193
+ "loss": 43.5893,
7194
+ "step": 1023
7195
+ },
7196
+ {
7197
+ "epoch": 0.10156714937512398,
7198
+ "grad_norm": 2.1690573692321777,
7199
+ "learning_rate": 5.634225144223302e-05,
7200
+ "loss": 42.8077,
7201
+ "step": 1024
7202
+ },
7203
+ {
7204
+ "epoch": 0.10166633604443563,
7205
+ "grad_norm": 1.6065139770507812,
7206
+ "learning_rate": 5.616288532109225e-05,
7207
+ "loss": 43.3785,
7208
+ "step": 1025
7209
+ },
7210
+ {
7211
+ "epoch": 0.10176552271374727,
7212
+ "grad_norm": 2.0147528648376465,
7213
+ "learning_rate": 5.598369361359184e-05,
7214
+ "loss": 43.3484,
7215
+ "step": 1026
7216
+ },
7217
+ {
7218
+ "epoch": 0.10186470938305892,
7219
+ "grad_norm": 2.2999625205993652,
7220
+ "learning_rate": 5.5804677032677354e-05,
7221
+ "loss": 43.3572,
7222
+ "step": 1027
7223
+ },
7224
+ {
7225
+ "epoch": 0.10196389605237056,
7226
+ "grad_norm": 1.7449270486831665,
7227
+ "learning_rate": 5.562583629059757e-05,
7228
+ "loss": 43.4006,
7229
+ "step": 1028
7230
+ },
7231
+ {
7232
+ "epoch": 0.1020630827216822,
7233
+ "grad_norm": 1.7739657163619995,
7234
+ "learning_rate": 5.54471720989018e-05,
7235
+ "loss": 43.3843,
7236
+ "step": 1029
7237
+ },
7238
+ {
7239
+ "epoch": 0.10216226939099385,
7240
+ "grad_norm": 1.581351399421692,
7241
+ "learning_rate": 5.526868516843673e-05,
7242
+ "loss": 43.4641,
7243
+ "step": 1030
7244
+ },
7245
+ {
7246
+ "epoch": 0.1022614560603055,
7247
+ "grad_norm": 1.8967163562774658,
7248
+ "learning_rate": 5.509037620934399e-05,
7249
+ "loss": 43.3712,
7250
+ "step": 1031
7251
+ },
7252
+ {
7253
+ "epoch": 0.10236064272961715,
7254
+ "grad_norm": 1.862441897392273,
7255
+ "learning_rate": 5.491224593105695e-05,
7256
+ "loss": 43.4708,
7257
+ "step": 1032
7258
+ },
7259
+ {
7260
+ "epoch": 0.10245982939892878,
7261
+ "grad_norm": 2.014580011367798,
7262
+ "learning_rate": 5.47342950422981e-05,
7263
+ "loss": 43.2605,
7264
+ "step": 1033
7265
+ },
7266
+ {
7267
+ "epoch": 0.10255901606824043,
7268
+ "grad_norm": 2.7726058959960938,
7269
+ "learning_rate": 5.4556524251076304e-05,
7270
+ "loss": 43.2066,
7271
+ "step": 1034
7272
+ },
7273
+ {
7274
+ "epoch": 0.10265820273755208,
7275
+ "grad_norm": 1.7870392799377441,
7276
+ "learning_rate": 5.43789342646837e-05,
7277
+ "loss": 43.245,
7278
+ "step": 1035
7279
+ },
7280
+ {
7281
+ "epoch": 0.10275738940686371,
7282
+ "grad_norm": 1.6118180751800537,
7283
+ "learning_rate": 5.420152578969326e-05,
7284
+ "loss": 43.3048,
7285
+ "step": 1036
7286
+ },
7287
+ {
7288
+ "epoch": 0.10285657607617536,
7289
+ "grad_norm": 1.8771209716796875,
7290
+ "learning_rate": 5.4024299531955645e-05,
7291
+ "loss": 43.3119,
7292
+ "step": 1037
7293
+ },
7294
+ {
7295
+ "epoch": 0.10295576274548701,
7296
+ "grad_norm": 1.8395864963531494,
7297
+ "learning_rate": 5.38472561965965e-05,
7298
+ "loss": 43.2732,
7299
+ "step": 1038
7300
+ },
7301
+ {
7302
+ "epoch": 0.10305494941479865,
7303
+ "grad_norm": 1.6536940336227417,
7304
+ "learning_rate": 5.3670396488013854e-05,
7305
+ "loss": 43.0749,
7306
+ "step": 1039
7307
+ },
7308
+ {
7309
+ "epoch": 0.1031541360841103,
7310
+ "grad_norm": 2.0966672897338867,
7311
+ "learning_rate": 5.349372110987496e-05,
7312
+ "loss": 43.0109,
7313
+ "step": 1040
7314
+ },
7315
+ {
7316
+ "epoch": 0.10325332275342194,
7317
+ "grad_norm": 1.9550343751907349,
7318
+ "learning_rate": 5.331723076511379e-05,
7319
+ "loss": 43.3826,
7320
+ "step": 1041
7321
+ },
7322
+ {
7323
+ "epoch": 0.10335250942273358,
7324
+ "grad_norm": 2.0896692276000977,
7325
+ "learning_rate": 5.3140926155928136e-05,
7326
+ "loss": 43.2346,
7327
+ "step": 1042
7328
+ },
7329
+ {
7330
+ "epoch": 0.10345169609204523,
7331
+ "grad_norm": 1.7114324569702148,
7332
+ "learning_rate": 5.2964807983776744e-05,
7333
+ "loss": 43.1971,
7334
+ "step": 1043
7335
+ },
7336
+ {
7337
+ "epoch": 0.10355088276135688,
7338
+ "grad_norm": 1.8694396018981934,
7339
+ "learning_rate": 5.278887694937662e-05,
7340
+ "loss": 43.2731,
7341
+ "step": 1044
7342
+ },
7343
+ {
7344
+ "epoch": 0.10365006943066851,
7345
+ "grad_norm": 1.9449472427368164,
7346
+ "learning_rate": 5.261313375270014e-05,
7347
+ "loss": 43.2565,
7348
+ "step": 1045
7349
+ },
7350
+ {
7351
+ "epoch": 0.10374925609998016,
7352
+ "grad_norm": 2.180279493331909,
7353
+ "learning_rate": 5.243757909297247e-05,
7354
+ "loss": 43.3411,
7355
+ "step": 1046
7356
+ },
7357
+ {
7358
+ "epoch": 0.10384844276929181,
7359
+ "grad_norm": 2.0333480834960938,
7360
+ "learning_rate": 5.226221366866859e-05,
7361
+ "loss": 43.0145,
7362
+ "step": 1047
7363
+ },
7364
+ {
7365
+ "epoch": 0.10394762943860344,
7366
+ "grad_norm": 2.140620708465576,
7367
+ "learning_rate": 5.208703817751053e-05,
7368
+ "loss": 42.9723,
7369
+ "step": 1048
7370
+ },
7371
+ {
7372
+ "epoch": 0.1040468161079151,
7373
+ "grad_norm": 1.8201910257339478,
7374
+ "learning_rate": 5.1912053316464694e-05,
7375
+ "loss": 43.3619,
7376
+ "step": 1049
7377
+ },
7378
+ {
7379
+ "epoch": 0.10414600277722674,
7380
+ "grad_norm": 1.8055152893066406,
7381
+ "learning_rate": 5.1737259781738936e-05,
7382
+ "loss": 43.4053,
7383
+ "step": 1050
7384
+ },
7385
+ {
7386
+ "epoch": 0.10424518944653839,
7387
+ "grad_norm": 2.1512773036956787,
7388
+ "learning_rate": 5.156265826877999e-05,
7389
+ "loss": 42.7926,
7390
+ "step": 1051
7391
+ },
7392
+ {
7393
+ "epoch": 0.10434437611585003,
7394
+ "grad_norm": 1.7757370471954346,
7395
+ "learning_rate": 5.138824947227063e-05,
7396
+ "loss": 43.2739,
7397
+ "step": 1052
7398
+ },
7399
+ {
7400
+ "epoch": 0.10444356278516168,
7401
+ "grad_norm": 1.9325311183929443,
7402
+ "learning_rate": 5.121403408612672e-05,
7403
+ "loss": 43.719,
7404
+ "step": 1053
7405
+ },
7406
+ {
7407
+ "epoch": 0.10454274945447332,
7408
+ "grad_norm": 1.8399518728256226,
7409
+ "learning_rate": 5.1040012803494795e-05,
7410
+ "loss": 43.3349,
7411
+ "step": 1054
7412
+ },
7413
+ {
7414
+ "epoch": 0.10464193612378496,
7415
+ "grad_norm": 1.9976588487625122,
7416
+ "learning_rate": 5.086618631674888e-05,
7417
+ "loss": 43.2846,
7418
+ "step": 1055
7419
+ },
7420
+ {
7421
+ "epoch": 0.10474112279309661,
7422
+ "grad_norm": 2.160475730895996,
7423
+ "learning_rate": 5.069255531748817e-05,
7424
+ "loss": 43.3701,
7425
+ "step": 1056
7426
+ },
7427
+ {
7428
+ "epoch": 0.10484030946240826,
7429
+ "grad_norm": 1.8825490474700928,
7430
+ "learning_rate": 5.0519120496534044e-05,
7431
+ "loss": 43.1186,
7432
+ "step": 1057
7433
+ },
7434
+ {
7435
+ "epoch": 0.10493949613171989,
7436
+ "grad_norm": 1.802302360534668,
7437
+ "learning_rate": 5.034588254392725e-05,
7438
+ "loss": 43.2876,
7439
+ "step": 1058
7440
+ },
7441
+ {
7442
+ "epoch": 0.10503868280103154,
7443
+ "grad_norm": 1.9771673679351807,
7444
+ "learning_rate": 5.017284214892542e-05,
7445
+ "loss": 43.0377,
7446
+ "step": 1059
7447
+ },
7448
+ {
7449
+ "epoch": 0.10513786947034319,
7450
+ "grad_norm": 1.850211262702942,
7451
+ "learning_rate": 5.000000000000002e-05,
7452
+ "loss": 43.2103,
7453
+ "step": 1060
7454
+ },
7455
+ {
7456
+ "epoch": 0.10523705613965482,
7457
+ "grad_norm": 2.223870277404785,
7458
+ "learning_rate": 4.98273567848338e-05,
7459
+ "loss": 43.4367,
7460
+ "step": 1061
7461
+ },
7462
+ {
7463
+ "epoch": 0.10533624280896647,
7464
+ "grad_norm": 2.4837911128997803,
7465
+ "learning_rate": 4.96549131903181e-05,
7466
+ "loss": 43.1383,
7467
+ "step": 1062
7468
+ },
7469
+ {
7470
+ "epoch": 0.10543542947827812,
7471
+ "grad_norm": 2.060779333114624,
7472
+ "learning_rate": 4.9482669902549894e-05,
7473
+ "loss": 43.4964,
7474
+ "step": 1063
7475
+ },
7476
+ {
7477
+ "epoch": 0.10553461614758976,
7478
+ "grad_norm": 1.7346091270446777,
7479
+ "learning_rate": 4.9310627606829354e-05,
7480
+ "loss": 43.3321,
7481
+ "step": 1064
7482
+ },
7483
+ {
7484
+ "epoch": 0.1056338028169014,
7485
+ "grad_norm": 2.1066203117370605,
7486
+ "learning_rate": 4.913878698765686e-05,
7487
+ "loss": 43.3465,
7488
+ "step": 1065
7489
+ },
7490
+ {
7491
+ "epoch": 0.10573298948621306,
7492
+ "grad_norm": 1.863369345664978,
7493
+ "learning_rate": 4.896714872873038e-05,
7494
+ "loss": 43.3925,
7495
+ "step": 1066
7496
+ },
7497
+ {
7498
+ "epoch": 0.1058321761555247,
7499
+ "grad_norm": 1.7801071405410767,
7500
+ "learning_rate": 4.8795713512942865e-05,
7501
+ "loss": 43.3664,
7502
+ "step": 1067
7503
+ },
7504
+ {
7505
+ "epoch": 0.10593136282483634,
7506
+ "grad_norm": 1.668254017829895,
7507
+ "learning_rate": 4.862448202237928e-05,
7508
+ "loss": 43.3477,
7509
+ "step": 1068
7510
+ },
7511
+ {
7512
+ "epoch": 0.10603054949414799,
7513
+ "grad_norm": 1.7274221181869507,
7514
+ "learning_rate": 4.845345493831419e-05,
7515
+ "loss": 43.2328,
7516
+ "step": 1069
7517
+ },
7518
+ {
7519
+ "epoch": 0.10612973616345964,
7520
+ "grad_norm": 1.7936841249465942,
7521
+ "learning_rate": 4.8282632941208725e-05,
7522
+ "loss": 43.4864,
7523
+ "step": 1070
7524
+ },
7525
+ {
7526
+ "epoch": 0.10622892283277127,
7527
+ "grad_norm": 1.9316316843032837,
7528
+ "learning_rate": 4.811201671070822e-05,
7529
+ "loss": 43.3535,
7530
+ "step": 1071
7531
+ },
7532
+ {
7533
+ "epoch": 0.10632810950208292,
7534
+ "grad_norm": 2.2845723628997803,
7535
+ "learning_rate": 4.794160692563917e-05,
7536
+ "loss": 43.3578,
7537
+ "step": 1072
7538
+ },
7539
+ {
7540
+ "epoch": 0.10642729617139457,
7541
+ "grad_norm": 2.1877341270446777,
7542
+ "learning_rate": 4.777140426400674e-05,
7543
+ "loss": 43.105,
7544
+ "step": 1073
7545
+ },
7546
+ {
7547
+ "epoch": 0.1065264828407062,
7548
+ "grad_norm": 2.0506670475006104,
7549
+ "learning_rate": 4.7601409402992106e-05,
7550
+ "loss": 43.7111,
7551
+ "step": 1074
7552
+ },
7553
+ {
7554
+ "epoch": 0.10662566951001785,
7555
+ "grad_norm": 1.8831859827041626,
7556
+ "learning_rate": 4.743162301894952e-05,
7557
+ "loss": 43.3874,
7558
+ "step": 1075
7559
+ },
7560
+ {
7561
+ "epoch": 0.1067248561793295,
7562
+ "grad_norm": 1.7879894971847534,
7563
+ "learning_rate": 4.7262045787403954e-05,
7564
+ "loss": 43.307,
7565
+ "step": 1076
7566
+ },
7567
+ {
7568
+ "epoch": 0.10682404284864114,
7569
+ "grad_norm": 2.1504244804382324,
7570
+ "learning_rate": 4.709267838304807e-05,
7571
+ "loss": 43.4333,
7572
+ "step": 1077
7573
+ },
7574
+ {
7575
+ "epoch": 0.10692322951795279,
7576
+ "grad_norm": 2.150182008743286,
7577
+ "learning_rate": 4.692352147973973e-05,
7578
+ "loss": 43.1122,
7579
+ "step": 1078
7580
+ },
7581
+ {
7582
+ "epoch": 0.10702241618726444,
7583
+ "grad_norm": 1.8888157606124878,
7584
+ "learning_rate": 4.675457575049939e-05,
7585
+ "loss": 43.4367,
7586
+ "step": 1079
7587
+ },
7588
+ {
7589
+ "epoch": 0.10712160285657607,
7590
+ "grad_norm": 1.8539072275161743,
7591
+ "learning_rate": 4.658584186750713e-05,
7592
+ "loss": 43.4915,
7593
+ "step": 1080
7594
+ },
7595
+ {
7596
+ "epoch": 0.10722078952588772,
7597
+ "grad_norm": 2.0341169834136963,
7598
+ "learning_rate": 4.6417320502100316e-05,
7599
+ "loss": 43.3262,
7600
+ "step": 1081
7601
+ },
7602
+ {
7603
+ "epoch": 0.10731997619519937,
7604
+ "grad_norm": 2.1516928672790527,
7605
+ "learning_rate": 4.62490123247708e-05,
7606
+ "loss": 43.4068,
7607
+ "step": 1082
7608
+ },
7609
+ {
7610
+ "epoch": 0.107419162864511,
7611
+ "grad_norm": 1.8792285919189453,
7612
+ "learning_rate": 4.6080918005162e-05,
7613
+ "loss": 43.2522,
7614
+ "step": 1083
7615
+ },
7616
+ {
7617
+ "epoch": 0.10751834953382265,
7618
+ "grad_norm": 2.136021614074707,
7619
+ "learning_rate": 4.591303821206673e-05,
7620
+ "loss": 43.4792,
7621
+ "step": 1084
7622
+ },
7623
+ {
7624
+ "epoch": 0.1076175362031343,
7625
+ "grad_norm": 2.0001168251037598,
7626
+ "learning_rate": 4.574537361342407e-05,
7627
+ "loss": 43.1491,
7628
+ "step": 1085
7629
+ },
7630
+ {
7631
+ "epoch": 0.10771672287244595,
7632
+ "grad_norm": 2.2928881645202637,
7633
+ "learning_rate": 4.557792487631703e-05,
7634
+ "loss": 43.3719,
7635
+ "step": 1086
7636
+ },
7637
+ {
7638
+ "epoch": 0.10781590954175758,
7639
+ "grad_norm": 1.7387434244155884,
7640
+ "learning_rate": 4.541069266696984e-05,
7641
+ "loss": 43.6456,
7642
+ "step": 1087
7643
+ },
7644
+ {
7645
+ "epoch": 0.10791509621106923,
7646
+ "grad_norm": 2.0293469429016113,
7647
+ "learning_rate": 4.524367765074499e-05,
7648
+ "loss": 43.3561,
7649
+ "step": 1088
7650
+ },
7651
+ {
7652
+ "epoch": 0.10801428288038088,
7653
+ "grad_norm": 1.9844273328781128,
7654
+ "learning_rate": 4.5076880492141085e-05,
7655
+ "loss": 42.8144,
7656
+ "step": 1089
7657
+ },
7658
+ {
7659
+ "epoch": 0.10811346954969252,
7660
+ "grad_norm": 2.1764378547668457,
7661
+ "learning_rate": 4.491030185478976e-05,
7662
+ "loss": 43.4372,
7663
+ "step": 1090
7664
+ },
7665
+ {
7666
+ "epoch": 0.10821265621900417,
7667
+ "grad_norm": 1.9110809564590454,
7668
+ "learning_rate": 4.4743942401453344e-05,
7669
+ "loss": 43.4611,
7670
+ "step": 1091
7671
+ },
7672
+ {
7673
+ "epoch": 0.10831184288831582,
7674
+ "grad_norm": 2.146286964416504,
7675
+ "learning_rate": 4.457780279402212e-05,
7676
+ "loss": 43.29,
7677
+ "step": 1092
7678
+ },
7679
+ {
7680
+ "epoch": 0.10841102955762745,
7681
+ "grad_norm": 1.9756395816802979,
7682
+ "learning_rate": 4.441188369351157e-05,
7683
+ "loss": 43.3144,
7684
+ "step": 1093
7685
+ },
7686
+ {
7687
+ "epoch": 0.1085102162269391,
7688
+ "grad_norm": 1.7883363962173462,
7689
+ "learning_rate": 4.424618576005986e-05,
7690
+ "loss": 43.301,
7691
+ "step": 1094
7692
+ },
7693
+ {
7694
+ "epoch": 0.10860940289625075,
7695
+ "grad_norm": 2.0152227878570557,
7696
+ "learning_rate": 4.4080709652925336e-05,
7697
+ "loss": 43.241,
7698
+ "step": 1095
7699
+ },
7700
+ {
7701
+ "epoch": 0.10870858956556238,
7702
+ "grad_norm": 1.8434028625488281,
7703
+ "learning_rate": 4.391545603048358e-05,
7704
+ "loss": 43.2776,
7705
+ "step": 1096
7706
+ },
7707
+ {
7708
+ "epoch": 0.10880777623487403,
7709
+ "grad_norm": 2.1915762424468994,
7710
+ "learning_rate": 4.3750425550225185e-05,
7711
+ "loss": 43.4547,
7712
+ "step": 1097
7713
+ },
7714
+ {
7715
+ "epoch": 0.10890696290418568,
7716
+ "grad_norm": 1.9623425006866455,
7717
+ "learning_rate": 4.358561886875273e-05,
7718
+ "loss": 43.1283,
7719
+ "step": 1098
7720
+ },
7721
+ {
7722
+ "epoch": 0.10900614957349732,
7723
+ "grad_norm": 1.6339510679244995,
7724
+ "learning_rate": 4.3421036641778556e-05,
7725
+ "loss": 43.2629,
7726
+ "step": 1099
7727
+ },
7728
+ {
7729
+ "epoch": 0.10910533624280896,
7730
+ "grad_norm": 2.0017924308776855,
7731
+ "learning_rate": 4.3256679524121834e-05,
7732
+ "loss": 43.2816,
7733
+ "step": 1100
7734
+ },
7735
+ {
7736
+ "epoch": 0.10920452291212061,
7737
+ "grad_norm": 1.7236039638519287,
7738
+ "learning_rate": 4.3092548169706127e-05,
7739
+ "loss": 43.5544,
7740
+ "step": 1101
7741
+ },
7742
+ {
7743
+ "epoch": 0.10930370958143226,
7744
+ "grad_norm": 1.7514629364013672,
7745
+ "learning_rate": 4.2928643231556844e-05,
7746
+ "loss": 43.4454,
7747
+ "step": 1102
7748
+ },
7749
+ {
7750
+ "epoch": 0.1094028962507439,
7751
+ "grad_norm": 2.013662576675415,
7752
+ "learning_rate": 4.2764965361798427e-05,
7753
+ "loss": 43.4465,
7754
+ "step": 1103
7755
+ },
7756
+ {
7757
+ "epoch": 0.10950208292005555,
7758
+ "grad_norm": 2.235226631164551,
7759
+ "learning_rate": 4.2601515211652035e-05,
7760
+ "loss": 43.5502,
7761
+ "step": 1104
7762
+ },
7763
+ {
7764
+ "epoch": 0.1096012695893672,
7765
+ "grad_norm": 1.858008623123169,
7766
+ "learning_rate": 4.2438293431432665e-05,
7767
+ "loss": 43.1428,
7768
+ "step": 1105
7769
+ },
7770
+ {
7771
+ "epoch": 0.10970045625867883,
7772
+ "grad_norm": 2.1349453926086426,
7773
+ "learning_rate": 4.227530067054676e-05,
7774
+ "loss": 43.5154,
7775
+ "step": 1106
7776
+ },
7777
+ {
7778
+ "epoch": 0.10979964292799048,
7779
+ "grad_norm": 2.008498191833496,
7780
+ "learning_rate": 4.211253757748961e-05,
7781
+ "loss": 43.4369,
7782
+ "step": 1107
7783
+ },
7784
+ {
7785
+ "epoch": 0.10989882959730213,
7786
+ "grad_norm": 2.134763240814209,
7787
+ "learning_rate": 4.195000479984265e-05,
7788
+ "loss": 43.1325,
7789
+ "step": 1108
7790
+ },
7791
+ {
7792
+ "epoch": 0.10999801626661376,
7793
+ "grad_norm": 1.965054988861084,
7794
+ "learning_rate": 4.1787702984271074e-05,
7795
+ "loss": 43.3593,
7796
+ "step": 1109
7797
+ },
7798
+ {
7799
+ "epoch": 0.11009720293592541,
7800
+ "grad_norm": 1.7480825185775757,
7801
+ "learning_rate": 4.1625632776521037e-05,
7802
+ "loss": 43.1167,
7803
+ "step": 1110
7804
+ },
7805
+ {
7806
+ "epoch": 0.11019638960523706,
7807
+ "grad_norm": 1.6889071464538574,
7808
+ "learning_rate": 4.146379482141723e-05,
7809
+ "loss": 43.574,
7810
+ "step": 1111
7811
+ },
7812
+ {
7813
+ "epoch": 0.1102955762745487,
7814
+ "grad_norm": 2.013655662536621,
7815
+ "learning_rate": 4.1302189762860385e-05,
7816
+ "loss": 43.1924,
7817
+ "step": 1112
7818
+ },
7819
+ {
7820
+ "epoch": 0.11039476294386034,
7821
+ "grad_norm": 1.8140257596969604,
7822
+ "learning_rate": 4.1140818243824465e-05,
7823
+ "loss": 43.4124,
7824
+ "step": 1113
7825
+ },
7826
+ {
7827
+ "epoch": 0.110493949613172,
7828
+ "grad_norm": 1.9268773794174194,
7829
+ "learning_rate": 4.097968090635439e-05,
7830
+ "loss": 43.236,
7831
+ "step": 1114
7832
+ },
7833
+ {
7834
+ "epoch": 0.11059313628248363,
7835
+ "grad_norm": 1.7209376096725464,
7836
+ "learning_rate": 4.081877839156325e-05,
7837
+ "loss": 43.2984,
7838
+ "step": 1115
7839
+ },
7840
+ {
7841
+ "epoch": 0.11069232295179528,
7842
+ "grad_norm": 2.013707399368286,
7843
+ "learning_rate": 4.065811133962987e-05,
7844
+ "loss": 43.0707,
7845
+ "step": 1116
7846
+ },
7847
+ {
7848
+ "epoch": 0.11079150962110693,
7849
+ "grad_norm": 2.080244302749634,
7850
+ "learning_rate": 4.049768038979631e-05,
7851
+ "loss": 43.2184,
7852
+ "step": 1117
7853
+ },
7854
+ {
7855
+ "epoch": 0.11089069629041856,
7856
+ "grad_norm": 1.7076959609985352,
7857
+ "learning_rate": 4.033748618036515e-05,
7858
+ "loss": 43.2103,
7859
+ "step": 1118
7860
+ },
7861
+ {
7862
+ "epoch": 0.11098988295973021,
7863
+ "grad_norm": 2.194852828979492,
7864
+ "learning_rate": 4.0177529348697185e-05,
7865
+ "loss": 43.0531,
7866
+ "step": 1119
7867
+ },
7868
+ {
7869
+ "epoch": 0.11108906962904186,
7870
+ "grad_norm": 1.9565582275390625,
7871
+ "learning_rate": 4.001781053120863e-05,
7872
+ "loss": 43.1544,
7873
+ "step": 1120
7874
+ },
7875
+ {
7876
+ "epoch": 0.11118825629835351,
7877
+ "grad_norm": 1.8571580648422241,
7878
+ "learning_rate": 3.985833036336883e-05,
7879
+ "loss": 43.1887,
7880
+ "step": 1121
7881
+ },
7882
+ {
7883
+ "epoch": 0.11128744296766514,
7884
+ "grad_norm": 1.8049238920211792,
7885
+ "learning_rate": 3.969908947969756e-05,
7886
+ "loss": 43.2068,
7887
+ "step": 1122
7888
+ },
7889
+ {
7890
+ "epoch": 0.11138662963697679,
7891
+ "grad_norm": 1.9766581058502197,
7892
+ "learning_rate": 3.954008851376252e-05,
7893
+ "loss": 43.5265,
7894
+ "step": 1123
7895
+ },
7896
+ {
7897
+ "epoch": 0.11148581630628844,
7898
+ "grad_norm": 2.094628095626831,
7899
+ "learning_rate": 3.9381328098176985e-05,
7900
+ "loss": 43.0592,
7901
+ "step": 1124
7902
+ },
7903
+ {
7904
+ "epoch": 0.11158500297560008,
7905
+ "grad_norm": 2.1410720348358154,
7906
+ "learning_rate": 3.9222808864597004e-05,
7907
+ "loss": 42.795,
7908
+ "step": 1125
7909
+ },
7910
+ {
7911
+ "epoch": 0.11168418964491172,
7912
+ "grad_norm": 2.1086578369140625,
7913
+ "learning_rate": 3.90645314437192e-05,
7914
+ "loss": 43.2222,
7915
+ "step": 1126
7916
+ },
7917
+ {
7918
+ "epoch": 0.11178337631422337,
7919
+ "grad_norm": 2.397113561630249,
7920
+ "learning_rate": 3.8906496465277976e-05,
7921
+ "loss": 42.9432,
7922
+ "step": 1127
7923
+ },
7924
+ {
7925
+ "epoch": 0.11188256298353501,
7926
+ "grad_norm": 1.9690929651260376,
7927
+ "learning_rate": 3.8748704558043135e-05,
7928
+ "loss": 43.4933,
7929
+ "step": 1128
7930
+ },
7931
+ {
7932
+ "epoch": 0.11198174965284666,
7933
+ "grad_norm": 2.4064979553222656,
7934
+ "learning_rate": 3.859115634981748e-05,
7935
+ "loss": 43.374,
7936
+ "step": 1129
7937
+ },
7938
+ {
7939
+ "epoch": 0.1120809363221583,
7940
+ "grad_norm": 2.03690242767334,
7941
+ "learning_rate": 3.843385246743417e-05,
7942
+ "loss": 43.3578,
7943
+ "step": 1130
7944
+ },
7945
+ {
7946
+ "epoch": 0.11218012299146994,
7947
+ "grad_norm": 1.9198079109191895,
7948
+ "learning_rate": 3.827679353675421e-05,
7949
+ "loss": 43.3936,
7950
+ "step": 1131
7951
+ },
7952
+ {
7953
+ "epoch": 0.11227930966078159,
7954
+ "grad_norm": 1.8240329027175903,
7955
+ "learning_rate": 3.811998018266416e-05,
7956
+ "loss": 43.3825,
7957
+ "step": 1132
7958
+ },
7959
+ {
7960
+ "epoch": 0.11237849633009324,
7961
+ "grad_norm": 1.9616767168045044,
7962
+ "learning_rate": 3.796341302907328e-05,
7963
+ "loss": 42.9891,
7964
+ "step": 1133
7965
+ },
7966
+ {
7967
+ "epoch": 0.11247768299940487,
7968
+ "grad_norm": 1.9595699310302734,
7969
+ "learning_rate": 3.7807092698911494e-05,
7970
+ "loss": 42.9743,
7971
+ "step": 1134
7972
+ },
7973
+ {
7974
+ "epoch": 0.11257686966871652,
7975
+ "grad_norm": 1.847184658050537,
7976
+ "learning_rate": 3.7651019814126654e-05,
7977
+ "loss": 43.2845,
7978
+ "step": 1135
7979
+ },
7980
+ {
7981
+ "epoch": 0.11267605633802817,
7982
+ "grad_norm": 2.2341554164886475,
7983
+ "learning_rate": 3.7495194995682e-05,
7984
+ "loss": 42.8106,
7985
+ "step": 1136
7986
+ },
7987
+ {
7988
+ "epoch": 0.11277524300733982,
7989
+ "grad_norm": 2.246288299560547,
7990
+ "learning_rate": 3.733961886355398e-05,
7991
+ "loss": 43.5755,
7992
+ "step": 1137
7993
+ },
7994
+ {
7995
+ "epoch": 0.11287442967665146,
7996
+ "grad_norm": 2.117567300796509,
7997
+ "learning_rate": 3.718429203672936e-05,
7998
+ "loss": 43.3262,
7999
+ "step": 1138
8000
+ },
8001
+ {
8002
+ "epoch": 0.1129736163459631,
8003
+ "grad_norm": 1.8588794469833374,
8004
+ "learning_rate": 3.702921513320318e-05,
8005
+ "loss": 43.42,
8006
+ "step": 1139
8007
+ },
8008
+ {
8009
+ "epoch": 0.11307280301527475,
8010
+ "grad_norm": 2.050076723098755,
8011
+ "learning_rate": 3.687438876997612e-05,
8012
+ "loss": 43.5885,
8013
+ "step": 1140
8014
+ },
8015
+ {
8016
+ "epoch": 0.11317198968458639,
8017
+ "grad_norm": 1.8713175058364868,
8018
+ "learning_rate": 3.671981356305191e-05,
8019
+ "loss": 43.1833,
8020
+ "step": 1141
8021
+ },
8022
+ {
8023
+ "epoch": 0.11327117635389804,
8024
+ "grad_norm": 1.745923638343811,
8025
+ "learning_rate": 3.656549012743515e-05,
8026
+ "loss": 43.3071,
8027
+ "step": 1142
8028
+ },
8029
+ {
8030
+ "epoch": 0.11337036302320969,
8031
+ "grad_norm": 2.048849105834961,
8032
+ "learning_rate": 3.641141907712865e-05,
8033
+ "loss": 43.2482,
8034
+ "step": 1143
8035
+ },
8036
+ {
8037
+ "epoch": 0.11346954969252132,
8038
+ "grad_norm": 2.088815450668335,
8039
+ "learning_rate": 3.6257601025131026e-05,
8040
+ "loss": 43.5718,
8041
+ "step": 1144
8042
+ },
8043
+ {
8044
+ "epoch": 0.11356873636183297,
8045
+ "grad_norm": 1.8028887510299683,
8046
+ "learning_rate": 3.610403658343443e-05,
8047
+ "loss": 43.3762,
8048
+ "step": 1145
8049
+ },
8050
+ {
8051
+ "epoch": 0.11366792303114462,
8052
+ "grad_norm": 2.095184803009033,
8053
+ "learning_rate": 3.59507263630218e-05,
8054
+ "loss": 43.4513,
8055
+ "step": 1146
8056
+ },
8057
+ {
8058
+ "epoch": 0.11376710970045625,
8059
+ "grad_norm": 2.1411571502685547,
8060
+ "learning_rate": 3.57976709738648e-05,
8061
+ "loss": 43.4294,
8062
+ "step": 1147
8063
+ },
8064
+ {
8065
+ "epoch": 0.1138662963697679,
8066
+ "grad_norm": 1.7514969110488892,
8067
+ "learning_rate": 3.564487102492102e-05,
8068
+ "loss": 43.4317,
8069
+ "step": 1148
8070
+ },
8071
+ {
8072
+ "epoch": 0.11396548303907955,
8073
+ "grad_norm": 1.6412819623947144,
8074
+ "learning_rate": 3.5492327124131905e-05,
8075
+ "loss": 43.4319,
8076
+ "step": 1149
8077
+ },
8078
+ {
8079
+ "epoch": 0.11406466970839119,
8080
+ "grad_norm": 2.071122407913208,
8081
+ "learning_rate": 3.534003987842005e-05,
8082
+ "loss": 42.9175,
8083
+ "step": 1150
8084
+ },
8085
+ {
8086
+ "epoch": 0.11416385637770284,
8087
+ "grad_norm": 2.3104162216186523,
8088
+ "learning_rate": 3.518800989368691e-05,
8089
+ "loss": 43.5465,
8090
+ "step": 1151
8091
+ },
8092
+ {
8093
+ "epoch": 0.11426304304701448,
8094
+ "grad_norm": 1.548854112625122,
8095
+ "learning_rate": 3.5036237774810476e-05,
8096
+ "loss": 43.4463,
8097
+ "step": 1152
8098
+ },
8099
+ {
8100
+ "epoch": 0.11436222971632612,
8101
+ "grad_norm": 2.01901912689209,
8102
+ "learning_rate": 3.488472412564264e-05,
8103
+ "loss": 43.2515,
8104
+ "step": 1153
8105
+ },
8106
+ {
8107
+ "epoch": 0.11446141638563777,
8108
+ "grad_norm": 2.0464985370635986,
8109
+ "learning_rate": 3.473346954900708e-05,
8110
+ "loss": 43.451,
8111
+ "step": 1154
8112
+ },
8113
+ {
8114
+ "epoch": 0.11456060305494942,
8115
+ "grad_norm": 2.401381254196167,
8116
+ "learning_rate": 3.458247464669657e-05,
8117
+ "loss": 43.2622,
8118
+ "step": 1155
8119
+ },
8120
+ {
8121
+ "epoch": 0.11465978972426107,
8122
+ "grad_norm": 1.8948826789855957,
8123
+ "learning_rate": 3.4431740019470774e-05,
8124
+ "loss": 43.2473,
8125
+ "step": 1156
8126
+ },
8127
+ {
8128
+ "epoch": 0.1147589763935727,
8129
+ "grad_norm": 1.8047832250595093,
8130
+ "learning_rate": 3.4281266267053856e-05,
8131
+ "loss": 43.1144,
8132
+ "step": 1157
8133
+ },
8134
+ {
8135
+ "epoch": 0.11485816306288435,
8136
+ "grad_norm": 1.9705872535705566,
8137
+ "learning_rate": 3.413105398813195e-05,
8138
+ "loss": 43.2361,
8139
+ "step": 1158
8140
+ },
8141
+ {
8142
+ "epoch": 0.114957349732196,
8143
+ "grad_norm": 2.247692584991455,
8144
+ "learning_rate": 3.398110378035098e-05,
8145
+ "loss": 43.4239,
8146
+ "step": 1159
8147
+ },
8148
+ {
8149
+ "epoch": 0.11505653640150763,
8150
+ "grad_norm": 2.4155638217926025,
8151
+ "learning_rate": 3.383141624031408e-05,
8152
+ "loss": 43.2816,
8153
+ "step": 1160
8154
+ },
8155
+ {
8156
+ "epoch": 0.11515572307081928,
8157
+ "grad_norm": 2.051988124847412,
8158
+ "learning_rate": 3.368199196357934e-05,
8159
+ "loss": 43.6693,
8160
+ "step": 1161
8161
+ },
8162
+ {
8163
+ "epoch": 0.11525490974013093,
8164
+ "grad_norm": 2.1297595500946045,
8165
+ "learning_rate": 3.353283154465746e-05,
8166
+ "loss": 42.9023,
8167
+ "step": 1162
8168
+ },
8169
+ {
8170
+ "epoch": 0.11535409640944257,
8171
+ "grad_norm": 2.1139824390411377,
8172
+ "learning_rate": 3.338393557700924e-05,
8173
+ "loss": 43.5984,
8174
+ "step": 1163
8175
+ },
8176
+ {
8177
+ "epoch": 0.11545328307875422,
8178
+ "grad_norm": 1.9533110857009888,
8179
+ "learning_rate": 3.323530465304341e-05,
8180
+ "loss": 43.2917,
8181
+ "step": 1164
8182
+ },
8183
+ {
8184
+ "epoch": 0.11555246974806586,
8185
+ "grad_norm": 1.7646098136901855,
8186
+ "learning_rate": 3.308693936411421e-05,
8187
+ "loss": 43.2659,
8188
+ "step": 1165
8189
+ },
8190
+ {
8191
+ "epoch": 0.1156516564173775,
8192
+ "grad_norm": 1.7004350423812866,
8193
+ "learning_rate": 3.293884030051879e-05,
8194
+ "loss": 43.4244,
8195
+ "step": 1166
8196
+ },
8197
+ {
8198
+ "epoch": 0.11575084308668915,
8199
+ "grad_norm": 2.168750524520874,
8200
+ "learning_rate": 3.279100805149532e-05,
8201
+ "loss": 43.419,
8202
+ "step": 1167
8203
+ },
8204
+ {
8205
+ "epoch": 0.1158500297560008,
8206
+ "grad_norm": 1.7945916652679443,
8207
+ "learning_rate": 3.264344320522024e-05,
8208
+ "loss": 43.3498,
8209
+ "step": 1168
8210
+ },
8211
+ {
8212
+ "epoch": 0.11594921642531243,
8213
+ "grad_norm": 2.001431465148926,
8214
+ "learning_rate": 3.249614634880617e-05,
8215
+ "loss": 43.1847,
8216
+ "step": 1169
8217
+ },
8218
+ {
8219
+ "epoch": 0.11604840309462408,
8220
+ "grad_norm": 1.8130570650100708,
8221
+ "learning_rate": 3.234911806829948e-05,
8222
+ "loss": 43.0508,
8223
+ "step": 1170
8224
+ },
8225
+ {
8226
+ "epoch": 0.11614758976393573,
8227
+ "grad_norm": 1.989986777305603,
8228
+ "learning_rate": 3.220235894867794e-05,
8229
+ "loss": 43.2058,
8230
+ "step": 1171
8231
+ },
8232
+ {
8233
+ "epoch": 0.11624677643324736,
8234
+ "grad_norm": 1.729008674621582,
8235
+ "learning_rate": 3.205586957384838e-05,
8236
+ "loss": 43.4374,
8237
+ "step": 1172
8238
+ },
8239
+ {
8240
+ "epoch": 0.11634596310255901,
8241
+ "grad_norm": 1.8263639211654663,
8242
+ "learning_rate": 3.190965052664443e-05,
8243
+ "loss": 43.0842,
8244
+ "step": 1173
8245
+ },
8246
+ {
8247
+ "epoch": 0.11644514977187066,
8248
+ "grad_norm": 2.0595879554748535,
8249
+ "learning_rate": 3.1763702388824214e-05,
8250
+ "loss": 43.0447,
8251
+ "step": 1174
8252
+ },
8253
+ {
8254
+ "epoch": 0.11654433644118231,
8255
+ "grad_norm": 2.060483455657959,
8256
+ "learning_rate": 3.161802574106799e-05,
8257
+ "loss": 43.0739,
8258
+ "step": 1175
8259
+ },
8260
+ {
8261
+ "epoch": 0.11664352311049395,
8262
+ "grad_norm": 2.0084433555603027,
8263
+ "learning_rate": 3.14726211629758e-05,
8264
+ "loss": 43.5443,
8265
+ "step": 1176
8266
+ },
8267
+ {
8268
+ "epoch": 0.1167427097798056,
8269
+ "grad_norm": 1.6945682764053345,
8270
+ "learning_rate": 3.132748923306522e-05,
8271
+ "loss": 43.4913,
8272
+ "step": 1177
8273
+ },
8274
+ {
8275
+ "epoch": 0.11684189644911724,
8276
+ "grad_norm": 2.0036113262176514,
8277
+ "learning_rate": 3.118263052876904e-05,
8278
+ "loss": 43.3576,
8279
+ "step": 1178
8280
+ },
8281
+ {
8282
+ "epoch": 0.11694108311842888,
8283
+ "grad_norm": 1.7544937133789062,
8284
+ "learning_rate": 3.103804562643302e-05,
8285
+ "loss": 43.5293,
8286
+ "step": 1179
8287
+ },
8288
+ {
8289
+ "epoch": 0.11704026978774053,
8290
+ "grad_norm": 1.9170342683792114,
8291
+ "learning_rate": 3.089373510131354e-05,
8292
+ "loss": 43.0252,
8293
+ "step": 1180
8294
+ },
8295
+ {
8296
+ "epoch": 0.11713945645705218,
8297
+ "grad_norm": 2.420809030532837,
8298
+ "learning_rate": 3.074969952757526e-05,
8299
+ "loss": 42.728,
8300
+ "step": 1181
8301
+ },
8302
+ {
8303
+ "epoch": 0.11723864312636381,
8304
+ "grad_norm": 1.7426315546035767,
8305
+ "learning_rate": 3.060593947828899e-05,
8306
+ "loss": 43.1784,
8307
+ "step": 1182
8308
+ },
8309
+ {
8310
+ "epoch": 0.11733782979567546,
8311
+ "grad_norm": 2.063729763031006,
8312
+ "learning_rate": 3.0462455525429257e-05,
8313
+ "loss": 43.3167,
8314
+ "step": 1183
8315
+ },
8316
+ {
8317
+ "epoch": 0.11743701646498711,
8318
+ "grad_norm": 2.194005250930786,
8319
+ "learning_rate": 3.0319248239872057e-05,
8320
+ "loss": 43.0883,
8321
+ "step": 1184
8322
+ },
8323
+ {
8324
+ "epoch": 0.11753620313429874,
8325
+ "grad_norm": 1.9286993741989136,
8326
+ "learning_rate": 3.0176318191392726e-05,
8327
+ "loss": 43.4406,
8328
+ "step": 1185
8329
+ },
8330
+ {
8331
+ "epoch": 0.1176353898036104,
8332
+ "grad_norm": 1.8343324661254883,
8333
+ "learning_rate": 3.0033665948663448e-05,
8334
+ "loss": 43.4349,
8335
+ "step": 1186
8336
+ },
8337
+ {
8338
+ "epoch": 0.11773457647292204,
8339
+ "grad_norm": 1.93137526512146,
8340
+ "learning_rate": 2.989129207925122e-05,
8341
+ "loss": 43.3723,
8342
+ "step": 1187
8343
+ },
8344
+ {
8345
+ "epoch": 0.11783376314223368,
8346
+ "grad_norm": 2.171217679977417,
8347
+ "learning_rate": 2.9749197149615392e-05,
8348
+ "loss": 43.1872,
8349
+ "step": 1188
8350
+ },
8351
+ {
8352
+ "epoch": 0.11793294981154533,
8353
+ "grad_norm": 2.2938199043273926,
8354
+ "learning_rate": 2.960738172510551e-05,
8355
+ "loss": 43.0836,
8356
+ "step": 1189
8357
+ },
8358
+ {
8359
+ "epoch": 0.11803213648085698,
8360
+ "grad_norm": 1.7842198610305786,
8361
+ "learning_rate": 2.9465846369959127e-05,
8362
+ "loss": 43.1941,
8363
+ "step": 1190
8364
+ },
8365
+ {
8366
+ "epoch": 0.11813132315016862,
8367
+ "grad_norm": 2.3533241748809814,
8368
+ "learning_rate": 2.9324591647299403e-05,
8369
+ "loss": 43.2269,
8370
+ "step": 1191
8371
+ },
8372
+ {
8373
+ "epoch": 0.11813132315016862,
8374
+ "eval_loss": 10.822596549987793,
8375
+ "eval_runtime": 11.1927,
8376
+ "eval_samples_per_second": 379.265,
8377
+ "eval_steps_per_second": 189.677,
8378
+ "step": 1191
8379
  }
8380
  ],
8381
  "logging_steps": 1,
 
8395
  "attributes": {}
8396
  }
8397
  },
8398
+ "total_flos": 11566528856064.0,
8399
  "train_batch_size": 2,
8400
  "trial_name": null,
8401
  "trial_params": null