Charlie81 commited on
Commit
cc70445
Β·
1 Parent(s): 53278e0

Checkpoint at step 12000

Browse files
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/config.json RENAMED
File without changes
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/generation_config.json RENAMED
File without changes
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/model-00001-of-00003.safetensors RENAMED
File without changes
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/model-00002-of-00003.safetensors RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:34fda73e604b6a3e4d95808e10e4b45c9b36092267720305d80615e8e1711ed1
3
  size 4999439616
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a2e2d96888c8e1d6ff514f2505944786e1330bd3f8558ab8f5885fa9f858dcaa
3
  size 4999439616
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/model-00003-of-00003.safetensors RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:69244d329dd65cdef65df37ec01b5efae0838f9eaf69a2fc12ee3f52115acda6
3
  size 3892418912
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:beb7990e0ef0b1e2d7c8250221d310950dcaa366cb128d342e802233594cc78b
3
  size 3892418912
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/model.safetensors.index.json RENAMED
File without changes
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/optimizer.pt RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d19adba90b99b3736bf361b6e9326c02dacf79ac6793615f7bc02358079c0509
3
  size 101356346
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:fac14ccb2cde6e72781c03322ad642a3d47451f3c22ab7414b8a4a496f4f5fc3
3
  size 101356346
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/rng_state.pth RENAMED
File without changes
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/scheduler.pt RENAMED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9ea1ba503d5eff7ed48f5dc697efce12235a7384291350bfcaefa762dfd88713
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:826efb50edce9db96af40792ceaf98c59834be42e3929c03f2e95d52a6df7f64
3
  size 1064
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/trainer_state.json RENAMED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.39245264506950706,
6
  "eval_steps": 500,
7
- "global_step": 8000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -5608,6 +5608,2806 @@
5608
  "learning_rate": 9.971147649346211e-05,
5609
  "loss": 9.1089,
5610
  "step": 8000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5611
  }
5612
  ],
5613
  "logging_steps": 10,
@@ -5627,7 +8427,7 @@
5627
  "attributes": {}
5628
  }
5629
  },
5630
- "total_flos": 2.152129728872448e+19,
5631
  "train_batch_size": 2,
5632
  "trial_name": null,
5633
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.5886789676042605,
6
  "eval_steps": 500,
7
+ "global_step": 12000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
5608
  "learning_rate": 9.971147649346211e-05,
5609
  "loss": 9.1089,
5610
  "step": 8000
5611
+ },
5612
+ {
5613
+ "epoch": 0.39294321087584394,
5614
+ "grad_norm": 1.0078125,
5615
+ "learning_rate": 9.970840683733853e-05,
5616
+ "loss": 9.3147,
5617
+ "step": 8010
5618
+ },
5619
+ {
5620
+ "epoch": 0.3934337766821808,
5621
+ "grad_norm": 1.2421875,
5622
+ "learning_rate": 9.970532098593317e-05,
5623
+ "loss": 9.3678,
5624
+ "step": 8020
5625
+ },
5626
+ {
5627
+ "epoch": 0.3939243424885177,
5628
+ "grad_norm": 1.453125,
5629
+ "learning_rate": 9.970221894025143e-05,
5630
+ "loss": 8.9748,
5631
+ "step": 8030
5632
+ },
5633
+ {
5634
+ "epoch": 0.3944149082948546,
5635
+ "grad_norm": 0.92578125,
5636
+ "learning_rate": 9.969910070130395e-05,
5637
+ "loss": 9.4,
5638
+ "step": 8040
5639
+ },
5640
+ {
5641
+ "epoch": 0.3949054741011915,
5642
+ "grad_norm": 0.76171875,
5643
+ "learning_rate": 9.969596627010671e-05,
5644
+ "loss": 9.2384,
5645
+ "step": 8050
5646
+ },
5647
+ {
5648
+ "epoch": 0.39539603990752836,
5649
+ "grad_norm": 1.53125,
5650
+ "learning_rate": 9.969281564768089e-05,
5651
+ "loss": 9.7778,
5652
+ "step": 8060
5653
+ },
5654
+ {
5655
+ "epoch": 0.39588660571386525,
5656
+ "grad_norm": 1.0234375,
5657
+ "learning_rate": 9.9689648835053e-05,
5658
+ "loss": 9.2588,
5659
+ "step": 8070
5660
+ },
5661
+ {
5662
+ "epoch": 0.39637717152020213,
5663
+ "grad_norm": 1.5078125,
5664
+ "learning_rate": 9.96864658332548e-05,
5665
+ "loss": 9.7844,
5666
+ "step": 8080
5667
+ },
5668
+ {
5669
+ "epoch": 0.396867737326539,
5670
+ "grad_norm": 1.09375,
5671
+ "learning_rate": 9.968326664332333e-05,
5672
+ "loss": 8.7478,
5673
+ "step": 8090
5674
+ },
5675
+ {
5676
+ "epoch": 0.3973583031328759,
5677
+ "grad_norm": 2.40625,
5678
+ "learning_rate": 9.96800512663009e-05,
5679
+ "loss": 10.1442,
5680
+ "step": 8100
5681
+ },
5682
+ {
5683
+ "epoch": 0.3978488689392128,
5684
+ "grad_norm": 1.40625,
5685
+ "learning_rate": 9.967681970323512e-05,
5686
+ "loss": 9.3243,
5687
+ "step": 8110
5688
+ },
5689
+ {
5690
+ "epoch": 0.39833943474554967,
5691
+ "grad_norm": 1.3359375,
5692
+ "learning_rate": 9.967357195517881e-05,
5693
+ "loss": 9.4967,
5694
+ "step": 8120
5695
+ },
5696
+ {
5697
+ "epoch": 0.39883000055188655,
5698
+ "grad_norm": 1.453125,
5699
+ "learning_rate": 9.967030802319015e-05,
5700
+ "loss": 9.3689,
5701
+ "step": 8130
5702
+ },
5703
+ {
5704
+ "epoch": 0.39932056635822344,
5705
+ "grad_norm": 1.2578125,
5706
+ "learning_rate": 9.966702790833253e-05,
5707
+ "loss": 9.0353,
5708
+ "step": 8140
5709
+ },
5710
+ {
5711
+ "epoch": 0.3998111321645603,
5712
+ "grad_norm": 0.76171875,
5713
+ "learning_rate": 9.96637316116746e-05,
5714
+ "loss": 9.3215,
5715
+ "step": 8150
5716
+ },
5717
+ {
5718
+ "epoch": 0.4003016979708972,
5719
+ "grad_norm": 1.15625,
5720
+ "learning_rate": 9.966041913429036e-05,
5721
+ "loss": 10.0265,
5722
+ "step": 8160
5723
+ },
5724
+ {
5725
+ "epoch": 0.4007922637772341,
5726
+ "grad_norm": 1.1640625,
5727
+ "learning_rate": 9.965709047725901e-05,
5728
+ "loss": 8.743,
5729
+ "step": 8170
5730
+ },
5731
+ {
5732
+ "epoch": 0.401282829583571,
5733
+ "grad_norm": 0.82421875,
5734
+ "learning_rate": 9.965374564166505e-05,
5735
+ "loss": 8.9593,
5736
+ "step": 8180
5737
+ },
5738
+ {
5739
+ "epoch": 0.40177339538990786,
5740
+ "grad_norm": 1.0390625,
5741
+ "learning_rate": 9.965038462859824e-05,
5742
+ "loss": 8.961,
5743
+ "step": 8190
5744
+ },
5745
+ {
5746
+ "epoch": 0.40226396119624475,
5747
+ "grad_norm": 1.2890625,
5748
+ "learning_rate": 9.964700743915361e-05,
5749
+ "loss": 9.808,
5750
+ "step": 8200
5751
+ },
5752
+ {
5753
+ "epoch": 0.4027545270025816,
5754
+ "grad_norm": 8.375,
5755
+ "learning_rate": 9.96436140744315e-05,
5756
+ "loss": 9.4756,
5757
+ "step": 8210
5758
+ },
5759
+ {
5760
+ "epoch": 0.40324509280891846,
5761
+ "grad_norm": 0.99609375,
5762
+ "learning_rate": 9.964020453553746e-05,
5763
+ "loss": 9.3352,
5764
+ "step": 8220
5765
+ },
5766
+ {
5767
+ "epoch": 0.40373565861525534,
5768
+ "grad_norm": 1.7421875,
5769
+ "learning_rate": 9.963677882358233e-05,
5770
+ "loss": 9.3511,
5771
+ "step": 8230
5772
+ },
5773
+ {
5774
+ "epoch": 0.40422622442159223,
5775
+ "grad_norm": 1.203125,
5776
+ "learning_rate": 9.963333693968226e-05,
5777
+ "loss": 9.5166,
5778
+ "step": 8240
5779
+ },
5780
+ {
5781
+ "epoch": 0.4047167902279291,
5782
+ "grad_norm": 1.53125,
5783
+ "learning_rate": 9.962987888495862e-05,
5784
+ "loss": 9.3433,
5785
+ "step": 8250
5786
+ },
5787
+ {
5788
+ "epoch": 0.405207356034266,
5789
+ "grad_norm": 2.59375,
5790
+ "learning_rate": 9.962640466053804e-05,
5791
+ "loss": 9.9907,
5792
+ "step": 8260
5793
+ },
5794
+ {
5795
+ "epoch": 0.4056979218406029,
5796
+ "grad_norm": 1.625,
5797
+ "learning_rate": 9.962291426755248e-05,
5798
+ "loss": 9.5791,
5799
+ "step": 8270
5800
+ },
5801
+ {
5802
+ "epoch": 0.40618848764693977,
5803
+ "grad_norm": 1.125,
5804
+ "learning_rate": 9.96194077071391e-05,
5805
+ "loss": 9.2634,
5806
+ "step": 8280
5807
+ },
5808
+ {
5809
+ "epoch": 0.40667905345327665,
5810
+ "grad_norm": 1.1484375,
5811
+ "learning_rate": 9.961588498044037e-05,
5812
+ "loss": 9.2259,
5813
+ "step": 8290
5814
+ },
5815
+ {
5816
+ "epoch": 0.40716961925961354,
5817
+ "grad_norm": 1.6875,
5818
+ "learning_rate": 9.961234608860402e-05,
5819
+ "loss": 9.1666,
5820
+ "step": 8300
5821
+ },
5822
+ {
5823
+ "epoch": 0.4076601850659504,
5824
+ "grad_norm": 1.3359375,
5825
+ "learning_rate": 9.960879103278303e-05,
5826
+ "loss": 9.4266,
5827
+ "step": 8310
5828
+ },
5829
+ {
5830
+ "epoch": 0.4081507508722873,
5831
+ "grad_norm": 1.0703125,
5832
+ "learning_rate": 9.960521981413566e-05,
5833
+ "loss": 9.2596,
5834
+ "step": 8320
5835
+ },
5836
+ {
5837
+ "epoch": 0.4086413166786242,
5838
+ "grad_norm": 1.9296875,
5839
+ "learning_rate": 9.960163243382545e-05,
5840
+ "loss": 8.4992,
5841
+ "step": 8330
5842
+ },
5843
+ {
5844
+ "epoch": 0.4091318824849611,
5845
+ "grad_norm": 1.5234375,
5846
+ "learning_rate": 9.959802889302117e-05,
5847
+ "loss": 9.1112,
5848
+ "step": 8340
5849
+ },
5850
+ {
5851
+ "epoch": 0.40962244829129796,
5852
+ "grad_norm": 1.421875,
5853
+ "learning_rate": 9.959440919289686e-05,
5854
+ "loss": 9.6092,
5855
+ "step": 8350
5856
+ },
5857
+ {
5858
+ "epoch": 0.41011301409763484,
5859
+ "grad_norm": 2.09375,
5860
+ "learning_rate": 9.959077333463187e-05,
5861
+ "loss": 9.1144,
5862
+ "step": 8360
5863
+ },
5864
+ {
5865
+ "epoch": 0.4106035799039717,
5866
+ "grad_norm": 1.265625,
5867
+ "learning_rate": 9.958712131941077e-05,
5868
+ "loss": 9.007,
5869
+ "step": 8370
5870
+ },
5871
+ {
5872
+ "epoch": 0.4110941457103086,
5873
+ "grad_norm": 1.1328125,
5874
+ "learning_rate": 9.95834531484234e-05,
5875
+ "loss": 9.4561,
5876
+ "step": 8380
5877
+ },
5878
+ {
5879
+ "epoch": 0.4115847115166455,
5880
+ "grad_norm": 1.6484375,
5881
+ "learning_rate": 9.95797688228649e-05,
5882
+ "loss": 9.0578,
5883
+ "step": 8390
5884
+ },
5885
+ {
5886
+ "epoch": 0.4120752773229824,
5887
+ "grad_norm": 1.5703125,
5888
+ "learning_rate": 9.957606834393561e-05,
5889
+ "loss": 9.0047,
5890
+ "step": 8400
5891
+ },
5892
+ {
5893
+ "epoch": 0.41256584312931927,
5894
+ "grad_norm": 1.1328125,
5895
+ "learning_rate": 9.957235171284118e-05,
5896
+ "loss": 9.0116,
5897
+ "step": 8410
5898
+ },
5899
+ {
5900
+ "epoch": 0.41305640893565615,
5901
+ "grad_norm": 1.09375,
5902
+ "learning_rate": 9.956861893079253e-05,
5903
+ "loss": 9.5539,
5904
+ "step": 8420
5905
+ },
5906
+ {
5907
+ "epoch": 0.41354697474199303,
5908
+ "grad_norm": 2.375,
5909
+ "learning_rate": 9.956486999900578e-05,
5910
+ "loss": 9.4898,
5911
+ "step": 8430
5912
+ },
5913
+ {
5914
+ "epoch": 0.4140375405483299,
5915
+ "grad_norm": 1.0703125,
5916
+ "learning_rate": 9.956110491870237e-05,
5917
+ "loss": 9.4607,
5918
+ "step": 8440
5919
+ },
5920
+ {
5921
+ "epoch": 0.4145281063546668,
5922
+ "grad_norm": 0.9765625,
5923
+ "learning_rate": 9.9557323691109e-05,
5924
+ "loss": 9.0116,
5925
+ "step": 8450
5926
+ },
5927
+ {
5928
+ "epoch": 0.4150186721610037,
5929
+ "grad_norm": 1.0625,
5930
+ "learning_rate": 9.955352631745761e-05,
5931
+ "loss": 8.9376,
5932
+ "step": 8460
5933
+ },
5934
+ {
5935
+ "epoch": 0.4155092379673406,
5936
+ "grad_norm": 0.84375,
5937
+ "learning_rate": 9.954971279898538e-05,
5938
+ "loss": 9.4654,
5939
+ "step": 8470
5940
+ },
5941
+ {
5942
+ "epoch": 0.41599980377367746,
5943
+ "grad_norm": 1.65625,
5944
+ "learning_rate": 9.954588313693482e-05,
5945
+ "loss": 9.6625,
5946
+ "step": 8480
5947
+ },
5948
+ {
5949
+ "epoch": 0.41649036958001434,
5950
+ "grad_norm": 1.84375,
5951
+ "learning_rate": 9.954203733255362e-05,
5952
+ "loss": 9.5381,
5953
+ "step": 8490
5954
+ },
5955
+ {
5956
+ "epoch": 0.4169809353863512,
5957
+ "grad_norm": 5.375,
5958
+ "learning_rate": 9.953817538709478e-05,
5959
+ "loss": 9.4922,
5960
+ "step": 8500
5961
+ },
5962
+ {
5963
+ "epoch": 0.4174715011926881,
5964
+ "grad_norm": 0.9921875,
5965
+ "learning_rate": 9.953429730181653e-05,
5966
+ "loss": 9.4195,
5967
+ "step": 8510
5968
+ },
5969
+ {
5970
+ "epoch": 0.417962066999025,
5971
+ "grad_norm": 1.71875,
5972
+ "learning_rate": 9.95304030779824e-05,
5973
+ "loss": 9.0456,
5974
+ "step": 8520
5975
+ },
5976
+ {
5977
+ "epoch": 0.4184526328053619,
5978
+ "grad_norm": 1.3671875,
5979
+ "learning_rate": 9.952649271686114e-05,
5980
+ "loss": 9.5672,
5981
+ "step": 8530
5982
+ },
5983
+ {
5984
+ "epoch": 0.41894319861169876,
5985
+ "grad_norm": 0.83203125,
5986
+ "learning_rate": 9.952256621972676e-05,
5987
+ "loss": 8.7467,
5988
+ "step": 8540
5989
+ },
5990
+ {
5991
+ "epoch": 0.41943376441803565,
5992
+ "grad_norm": 1.515625,
5993
+ "learning_rate": 9.951862358785852e-05,
5994
+ "loss": 9.6638,
5995
+ "step": 8550
5996
+ },
5997
+ {
5998
+ "epoch": 0.41992433022437253,
5999
+ "grad_norm": 1.28125,
6000
+ "learning_rate": 9.951466482254097e-05,
6001
+ "loss": 9.5221,
6002
+ "step": 8560
6003
+ },
6004
+ {
6005
+ "epoch": 0.4204148960307094,
6006
+ "grad_norm": 1.6015625,
6007
+ "learning_rate": 9.951068992506391e-05,
6008
+ "loss": 9.3728,
6009
+ "step": 8570
6010
+ },
6011
+ {
6012
+ "epoch": 0.4209054618370463,
6013
+ "grad_norm": 1.6640625,
6014
+ "learning_rate": 9.950669889672238e-05,
6015
+ "loss": 9.0309,
6016
+ "step": 8580
6017
+ },
6018
+ {
6019
+ "epoch": 0.4213960276433832,
6020
+ "grad_norm": 0.77734375,
6021
+ "learning_rate": 9.950269173881663e-05,
6022
+ "loss": 9.546,
6023
+ "step": 8590
6024
+ },
6025
+ {
6026
+ "epoch": 0.42188659344972007,
6027
+ "grad_norm": 1.390625,
6028
+ "learning_rate": 9.94986684526523e-05,
6029
+ "loss": 9.3854,
6030
+ "step": 8600
6031
+ },
6032
+ {
6033
+ "epoch": 0.42237715925605696,
6034
+ "grad_norm": 1.734375,
6035
+ "learning_rate": 9.949462903954014e-05,
6036
+ "loss": 10.0409,
6037
+ "step": 8610
6038
+ },
6039
+ {
6040
+ "epoch": 0.42286772506239384,
6041
+ "grad_norm": 1.1875,
6042
+ "learning_rate": 9.949057350079622e-05,
6043
+ "loss": 10.0401,
6044
+ "step": 8620
6045
+ },
6046
+ {
6047
+ "epoch": 0.4233582908687307,
6048
+ "grad_norm": 1.171875,
6049
+ "learning_rate": 9.948650183774187e-05,
6050
+ "loss": 9.3531,
6051
+ "step": 8630
6052
+ },
6053
+ {
6054
+ "epoch": 0.4238488566750676,
6055
+ "grad_norm": 1.046875,
6056
+ "learning_rate": 9.948241405170367e-05,
6057
+ "loss": 9.6503,
6058
+ "step": 8640
6059
+ },
6060
+ {
6061
+ "epoch": 0.4243394224814045,
6062
+ "grad_norm": 1.03125,
6063
+ "learning_rate": 9.947831014401342e-05,
6064
+ "loss": 10.1025,
6065
+ "step": 8650
6066
+ },
6067
+ {
6068
+ "epoch": 0.4248299882877414,
6069
+ "grad_norm": 1.8515625,
6070
+ "learning_rate": 9.94741901160082e-05,
6071
+ "loss": 9.1217,
6072
+ "step": 8660
6073
+ },
6074
+ {
6075
+ "epoch": 0.42532055409407826,
6076
+ "grad_norm": 1.296875,
6077
+ "learning_rate": 9.947005396903036e-05,
6078
+ "loss": 9.4203,
6079
+ "step": 8670
6080
+ },
6081
+ {
6082
+ "epoch": 0.42581111990041515,
6083
+ "grad_norm": 1.3046875,
6084
+ "learning_rate": 9.946590170442747e-05,
6085
+ "loss": 8.9508,
6086
+ "step": 8680
6087
+ },
6088
+ {
6089
+ "epoch": 0.42630168570675203,
6090
+ "grad_norm": 1.78125,
6091
+ "learning_rate": 9.946173332355236e-05,
6092
+ "loss": 9.3826,
6093
+ "step": 8690
6094
+ },
6095
+ {
6096
+ "epoch": 0.4267922515130889,
6097
+ "grad_norm": 1.1796875,
6098
+ "learning_rate": 9.945754882776311e-05,
6099
+ "loss": 9.6903,
6100
+ "step": 8700
6101
+ },
6102
+ {
6103
+ "epoch": 0.4272828173194258,
6104
+ "grad_norm": 0.984375,
6105
+ "learning_rate": 9.945334821842303e-05,
6106
+ "loss": 9.1157,
6107
+ "step": 8710
6108
+ },
6109
+ {
6110
+ "epoch": 0.4277733831257627,
6111
+ "grad_norm": 3.171875,
6112
+ "learning_rate": 9.944913149690075e-05,
6113
+ "loss": 9.7155,
6114
+ "step": 8720
6115
+ },
6116
+ {
6117
+ "epoch": 0.42826394893209957,
6118
+ "grad_norm": 1.421875,
6119
+ "learning_rate": 9.944489866457008e-05,
6120
+ "loss": 9.4667,
6121
+ "step": 8730
6122
+ },
6123
+ {
6124
+ "epoch": 0.42875451473843645,
6125
+ "grad_norm": 1.53125,
6126
+ "learning_rate": 9.944064972281007e-05,
6127
+ "loss": 9.5808,
6128
+ "step": 8740
6129
+ },
6130
+ {
6131
+ "epoch": 0.42924508054477334,
6132
+ "grad_norm": 1.1328125,
6133
+ "learning_rate": 9.943638467300511e-05,
6134
+ "loss": 9.3587,
6135
+ "step": 8750
6136
+ },
6137
+ {
6138
+ "epoch": 0.4297356463511102,
6139
+ "grad_norm": 2.921875,
6140
+ "learning_rate": 9.943210351654473e-05,
6141
+ "loss": 9.6425,
6142
+ "step": 8760
6143
+ },
6144
+ {
6145
+ "epoch": 0.4302262121574471,
6146
+ "grad_norm": 1.40625,
6147
+ "learning_rate": 9.942780625482376e-05,
6148
+ "loss": 9.6145,
6149
+ "step": 8770
6150
+ },
6151
+ {
6152
+ "epoch": 0.430716777963784,
6153
+ "grad_norm": 1.703125,
6154
+ "learning_rate": 9.942349288924229e-05,
6155
+ "loss": 9.6646,
6156
+ "step": 8780
6157
+ },
6158
+ {
6159
+ "epoch": 0.4312073437701209,
6160
+ "grad_norm": 1.546875,
6161
+ "learning_rate": 9.941916342120564e-05,
6162
+ "loss": 9.7029,
6163
+ "step": 8790
6164
+ },
6165
+ {
6166
+ "epoch": 0.43169790957645776,
6167
+ "grad_norm": 1.71875,
6168
+ "learning_rate": 9.941481785212437e-05,
6169
+ "loss": 9.1658,
6170
+ "step": 8800
6171
+ },
6172
+ {
6173
+ "epoch": 0.43218847538279465,
6174
+ "grad_norm": 1.09375,
6175
+ "learning_rate": 9.941045618341427e-05,
6176
+ "loss": 9.9594,
6177
+ "step": 8810
6178
+ },
6179
+ {
6180
+ "epoch": 0.43267904118913153,
6181
+ "grad_norm": 1.0390625,
6182
+ "learning_rate": 9.940607841649643e-05,
6183
+ "loss": 9.3896,
6184
+ "step": 8820
6185
+ },
6186
+ {
6187
+ "epoch": 0.4331696069954684,
6188
+ "grad_norm": 1.4375,
6189
+ "learning_rate": 9.940168455279713e-05,
6190
+ "loss": 8.9524,
6191
+ "step": 8830
6192
+ },
6193
+ {
6194
+ "epoch": 0.4336601728018053,
6195
+ "grad_norm": 1.203125,
6196
+ "learning_rate": 9.939727459374792e-05,
6197
+ "loss": 9.8094,
6198
+ "step": 8840
6199
+ },
6200
+ {
6201
+ "epoch": 0.4341507386081422,
6202
+ "grad_norm": 2.734375,
6203
+ "learning_rate": 9.93928485407856e-05,
6204
+ "loss": 9.6122,
6205
+ "step": 8850
6206
+ },
6207
+ {
6208
+ "epoch": 0.43464130441447907,
6209
+ "grad_norm": 0.88671875,
6210
+ "learning_rate": 9.938840639535219e-05,
6211
+ "loss": 9.5027,
6212
+ "step": 8860
6213
+ },
6214
+ {
6215
+ "epoch": 0.43513187022081595,
6216
+ "grad_norm": 1.1015625,
6217
+ "learning_rate": 9.938394815889497e-05,
6218
+ "loss": 8.9665,
6219
+ "step": 8870
6220
+ },
6221
+ {
6222
+ "epoch": 0.43562243602715284,
6223
+ "grad_norm": 0.96484375,
6224
+ "learning_rate": 9.937947383286646e-05,
6225
+ "loss": 9.6251,
6226
+ "step": 8880
6227
+ },
6228
+ {
6229
+ "epoch": 0.4361130018334897,
6230
+ "grad_norm": 1.7265625,
6231
+ "learning_rate": 9.937498341872443e-05,
6232
+ "loss": 10.0964,
6233
+ "step": 8890
6234
+ },
6235
+ {
6236
+ "epoch": 0.4366035676398266,
6237
+ "grad_norm": 0.91796875,
6238
+ "learning_rate": 9.937047691793186e-05,
6239
+ "loss": 9.6408,
6240
+ "step": 8900
6241
+ },
6242
+ {
6243
+ "epoch": 0.4370941334461635,
6244
+ "grad_norm": 121.5,
6245
+ "learning_rate": 9.936595433195701e-05,
6246
+ "loss": 9.911,
6247
+ "step": 8910
6248
+ },
6249
+ {
6250
+ "epoch": 0.4375846992525004,
6251
+ "grad_norm": 1.328125,
6252
+ "learning_rate": 9.936141566227335e-05,
6253
+ "loss": 9.3583,
6254
+ "step": 8920
6255
+ },
6256
+ {
6257
+ "epoch": 0.43807526505883726,
6258
+ "grad_norm": 1.1171875,
6259
+ "learning_rate": 9.935686091035963e-05,
6260
+ "loss": 9.074,
6261
+ "step": 8930
6262
+ },
6263
+ {
6264
+ "epoch": 0.43856583086517414,
6265
+ "grad_norm": 1.4765625,
6266
+ "learning_rate": 9.93522900776998e-05,
6267
+ "loss": 9.409,
6268
+ "step": 8940
6269
+ },
6270
+ {
6271
+ "epoch": 0.43905639667151103,
6272
+ "grad_norm": 1.3515625,
6273
+ "learning_rate": 9.934770316578306e-05,
6274
+ "loss": 9.5203,
6275
+ "step": 8950
6276
+ },
6277
+ {
6278
+ "epoch": 0.4395469624778479,
6279
+ "grad_norm": 1.2421875,
6280
+ "learning_rate": 9.934310017610385e-05,
6281
+ "loss": 9.6801,
6282
+ "step": 8960
6283
+ },
6284
+ {
6285
+ "epoch": 0.4400375282841848,
6286
+ "grad_norm": 1.1015625,
6287
+ "learning_rate": 9.933848111016186e-05,
6288
+ "loss": 9.5165,
6289
+ "step": 8970
6290
+ },
6291
+ {
6292
+ "epoch": 0.4405280940905217,
6293
+ "grad_norm": 1.5234375,
6294
+ "learning_rate": 9.933384596946201e-05,
6295
+ "loss": 9.6044,
6296
+ "step": 8980
6297
+ },
6298
+ {
6299
+ "epoch": 0.44101865989685857,
6300
+ "grad_norm": 1.1875,
6301
+ "learning_rate": 9.932919475551443e-05,
6302
+ "loss": 9.2709,
6303
+ "step": 8990
6304
+ },
6305
+ {
6306
+ "epoch": 0.4415092257031954,
6307
+ "grad_norm": 1.234375,
6308
+ "learning_rate": 9.932452746983455e-05,
6309
+ "loss": 9.0887,
6310
+ "step": 9000
6311
+ },
6312
+ {
6313
+ "epoch": 0.4419997915095323,
6314
+ "grad_norm": 0.94140625,
6315
+ "learning_rate": 9.931984411394297e-05,
6316
+ "loss": 8.9249,
6317
+ "step": 9010
6318
+ },
6319
+ {
6320
+ "epoch": 0.44249035731586916,
6321
+ "grad_norm": 1.234375,
6322
+ "learning_rate": 9.931514468936556e-05,
6323
+ "loss": 9.3311,
6324
+ "step": 9020
6325
+ },
6326
+ {
6327
+ "epoch": 0.44298092312220605,
6328
+ "grad_norm": 1.5625,
6329
+ "learning_rate": 9.931042919763343e-05,
6330
+ "loss": 9.1204,
6331
+ "step": 9030
6332
+ },
6333
+ {
6334
+ "epoch": 0.44347148892854293,
6335
+ "grad_norm": 1.0078125,
6336
+ "learning_rate": 9.930569764028289e-05,
6337
+ "loss": 8.936,
6338
+ "step": 9040
6339
+ },
6340
+ {
6341
+ "epoch": 0.4439620547348798,
6342
+ "grad_norm": 1.5078125,
6343
+ "learning_rate": 9.930095001885554e-05,
6344
+ "loss": 9.8463,
6345
+ "step": 9050
6346
+ },
6347
+ {
6348
+ "epoch": 0.4444526205412167,
6349
+ "grad_norm": 1.3125,
6350
+ "learning_rate": 9.929618633489815e-05,
6351
+ "loss": 9.4598,
6352
+ "step": 9060
6353
+ },
6354
+ {
6355
+ "epoch": 0.4449431863475536,
6356
+ "grad_norm": 1.390625,
6357
+ "learning_rate": 9.929140658996278e-05,
6358
+ "loss": 9.1565,
6359
+ "step": 9070
6360
+ },
6361
+ {
6362
+ "epoch": 0.44543375215389047,
6363
+ "grad_norm": 1.0625,
6364
+ "learning_rate": 9.928661078560669e-05,
6365
+ "loss": 9.5713,
6366
+ "step": 9080
6367
+ },
6368
+ {
6369
+ "epoch": 0.44592431796022736,
6370
+ "grad_norm": 1.265625,
6371
+ "learning_rate": 9.928179892339238e-05,
6372
+ "loss": 9.5154,
6373
+ "step": 9090
6374
+ },
6375
+ {
6376
+ "epoch": 0.44641488376656424,
6377
+ "grad_norm": 2.671875,
6378
+ "learning_rate": 9.927697100488757e-05,
6379
+ "loss": 9.8792,
6380
+ "step": 9100
6381
+ },
6382
+ {
6383
+ "epoch": 0.4469054495729011,
6384
+ "grad_norm": 1.1640625,
6385
+ "learning_rate": 9.927212703166526e-05,
6386
+ "loss": 8.8977,
6387
+ "step": 9110
6388
+ },
6389
+ {
6390
+ "epoch": 0.447396015379238,
6391
+ "grad_norm": 1.2109375,
6392
+ "learning_rate": 9.92672670053036e-05,
6393
+ "loss": 9.3305,
6394
+ "step": 9120
6395
+ },
6396
+ {
6397
+ "epoch": 0.4478865811855749,
6398
+ "grad_norm": 1.5390625,
6399
+ "learning_rate": 9.926239092738606e-05,
6400
+ "loss": 9.4327,
6401
+ "step": 9130
6402
+ },
6403
+ {
6404
+ "epoch": 0.4483771469919118,
6405
+ "grad_norm": 1.0859375,
6406
+ "learning_rate": 9.925749879950123e-05,
6407
+ "loss": 9.3707,
6408
+ "step": 9140
6409
+ },
6410
+ {
6411
+ "epoch": 0.44886771279824866,
6412
+ "grad_norm": 3.578125,
6413
+ "learning_rate": 9.925259062324305e-05,
6414
+ "loss": 9.2381,
6415
+ "step": 9150
6416
+ },
6417
+ {
6418
+ "epoch": 0.44935827860458555,
6419
+ "grad_norm": 6.03125,
6420
+ "learning_rate": 9.924766640021061e-05,
6421
+ "loss": 8.6538,
6422
+ "step": 9160
6423
+ },
6424
+ {
6425
+ "epoch": 0.44984884441092243,
6426
+ "grad_norm": 2.25,
6427
+ "learning_rate": 9.924272613200825e-05,
6428
+ "loss": 9.581,
6429
+ "step": 9170
6430
+ },
6431
+ {
6432
+ "epoch": 0.4503394102172593,
6433
+ "grad_norm": 1.9921875,
6434
+ "learning_rate": 9.923776982024554e-05,
6435
+ "loss": 9.4617,
6436
+ "step": 9180
6437
+ },
6438
+ {
6439
+ "epoch": 0.4508299760235962,
6440
+ "grad_norm": 1.59375,
6441
+ "learning_rate": 9.923279746653728e-05,
6442
+ "loss": 9.5088,
6443
+ "step": 9190
6444
+ },
6445
+ {
6446
+ "epoch": 0.4513205418299331,
6447
+ "grad_norm": 1.3125,
6448
+ "learning_rate": 9.922780907250348e-05,
6449
+ "loss": 8.9247,
6450
+ "step": 9200
6451
+ },
6452
+ {
6453
+ "epoch": 0.45181110763626997,
6454
+ "grad_norm": 1.4921875,
6455
+ "learning_rate": 9.922280463976938e-05,
6456
+ "loss": 9.1817,
6457
+ "step": 9210
6458
+ },
6459
+ {
6460
+ "epoch": 0.45230167344260686,
6461
+ "grad_norm": 1.6953125,
6462
+ "learning_rate": 9.921778416996549e-05,
6463
+ "loss": 9.3479,
6464
+ "step": 9220
6465
+ },
6466
+ {
6467
+ "epoch": 0.45279223924894374,
6468
+ "grad_norm": 1.3125,
6469
+ "learning_rate": 9.921274766472748e-05,
6470
+ "loss": 10.0808,
6471
+ "step": 9230
6472
+ },
6473
+ {
6474
+ "epoch": 0.4532828050552806,
6475
+ "grad_norm": 1.2421875,
6476
+ "learning_rate": 9.920769512569625e-05,
6477
+ "loss": 9.1088,
6478
+ "step": 9240
6479
+ },
6480
+ {
6481
+ "epoch": 0.4537733708616175,
6482
+ "grad_norm": 1.171875,
6483
+ "learning_rate": 9.9202626554518e-05,
6484
+ "loss": 10.0015,
6485
+ "step": 9250
6486
+ },
6487
+ {
6488
+ "epoch": 0.4542639366679544,
6489
+ "grad_norm": 1.8046875,
6490
+ "learning_rate": 9.919754195284406e-05,
6491
+ "loss": 10.0798,
6492
+ "step": 9260
6493
+ },
6494
+ {
6495
+ "epoch": 0.4547545024742913,
6496
+ "grad_norm": 1.09375,
6497
+ "learning_rate": 9.919244132233104e-05,
6498
+ "loss": 9.0094,
6499
+ "step": 9270
6500
+ },
6501
+ {
6502
+ "epoch": 0.45524506828062816,
6503
+ "grad_norm": 2.640625,
6504
+ "learning_rate": 9.918732466464072e-05,
6505
+ "loss": 9.6669,
6506
+ "step": 9280
6507
+ },
6508
+ {
6509
+ "epoch": 0.45573563408696505,
6510
+ "grad_norm": 1.484375,
6511
+ "learning_rate": 9.918219198144019e-05,
6512
+ "loss": 9.5382,
6513
+ "step": 9290
6514
+ },
6515
+ {
6516
+ "epoch": 0.45622619989330193,
6517
+ "grad_norm": 1.421875,
6518
+ "learning_rate": 9.917704327440166e-05,
6519
+ "loss": 9.4784,
6520
+ "step": 9300
6521
+ },
6522
+ {
6523
+ "epoch": 0.4567167656996388,
6524
+ "grad_norm": 1.1484375,
6525
+ "learning_rate": 9.917187854520264e-05,
6526
+ "loss": 10.2777,
6527
+ "step": 9310
6528
+ },
6529
+ {
6530
+ "epoch": 0.4572073315059757,
6531
+ "grad_norm": 1.1953125,
6532
+ "learning_rate": 9.916669779552581e-05,
6533
+ "loss": 9.0473,
6534
+ "step": 9320
6535
+ },
6536
+ {
6537
+ "epoch": 0.4576978973123126,
6538
+ "grad_norm": 1.46875,
6539
+ "learning_rate": 9.91615010270591e-05,
6540
+ "loss": 9.1827,
6541
+ "step": 9330
6542
+ },
6543
+ {
6544
+ "epoch": 0.45818846311864947,
6545
+ "grad_norm": 1.8828125,
6546
+ "learning_rate": 9.915628824149564e-05,
6547
+ "loss": 9.3418,
6548
+ "step": 9340
6549
+ },
6550
+ {
6551
+ "epoch": 0.45867902892498635,
6552
+ "grad_norm": 1.0546875,
6553
+ "learning_rate": 9.91510594405338e-05,
6554
+ "loss": 9.5231,
6555
+ "step": 9350
6556
+ },
6557
+ {
6558
+ "epoch": 0.45916959473132324,
6559
+ "grad_norm": 0.93359375,
6560
+ "learning_rate": 9.914581462587712e-05,
6561
+ "loss": 9.2647,
6562
+ "step": 9360
6563
+ },
6564
+ {
6565
+ "epoch": 0.4596601605376601,
6566
+ "grad_norm": 1.1484375,
6567
+ "learning_rate": 9.914055379923442e-05,
6568
+ "loss": 9.6544,
6569
+ "step": 9370
6570
+ },
6571
+ {
6572
+ "epoch": 0.460150726343997,
6573
+ "grad_norm": 2.015625,
6574
+ "learning_rate": 9.913527696231969e-05,
6575
+ "loss": 9.1867,
6576
+ "step": 9380
6577
+ },
6578
+ {
6579
+ "epoch": 0.4606412921503339,
6580
+ "grad_norm": 1.125,
6581
+ "learning_rate": 9.912998411685216e-05,
6582
+ "loss": 9.5706,
6583
+ "step": 9390
6584
+ },
6585
+ {
6586
+ "epoch": 0.4611318579566708,
6587
+ "grad_norm": 0.9375,
6588
+ "learning_rate": 9.912467526455626e-05,
6589
+ "loss": 9.2712,
6590
+ "step": 9400
6591
+ },
6592
+ {
6593
+ "epoch": 0.46162242376300766,
6594
+ "grad_norm": 1.15625,
6595
+ "learning_rate": 9.911935040716169e-05,
6596
+ "loss": 9.6751,
6597
+ "step": 9410
6598
+ },
6599
+ {
6600
+ "epoch": 0.46211298956934455,
6601
+ "grad_norm": 1.265625,
6602
+ "learning_rate": 9.911400954640325e-05,
6603
+ "loss": 9.2709,
6604
+ "step": 9420
6605
+ },
6606
+ {
6607
+ "epoch": 0.46260355537568143,
6608
+ "grad_norm": 1.6953125,
6609
+ "learning_rate": 9.910865268402106e-05,
6610
+ "loss": 9.6717,
6611
+ "step": 9430
6612
+ },
6613
+ {
6614
+ "epoch": 0.4630941211820183,
6615
+ "grad_norm": 1.0625,
6616
+ "learning_rate": 9.910327982176042e-05,
6617
+ "loss": 8.833,
6618
+ "step": 9440
6619
+ },
6620
+ {
6621
+ "epoch": 0.4635846869883552,
6622
+ "grad_norm": 1.3125,
6623
+ "learning_rate": 9.909789096137184e-05,
6624
+ "loss": 9.7037,
6625
+ "step": 9450
6626
+ },
6627
+ {
6628
+ "epoch": 0.4640752527946921,
6629
+ "grad_norm": 1.21875,
6630
+ "learning_rate": 9.909248610461101e-05,
6631
+ "loss": 9.3282,
6632
+ "step": 9460
6633
+ },
6634
+ {
6635
+ "epoch": 0.46456581860102897,
6636
+ "grad_norm": 1.4921875,
6637
+ "learning_rate": 9.90870652532389e-05,
6638
+ "loss": 9.7322,
6639
+ "step": 9470
6640
+ },
6641
+ {
6642
+ "epoch": 0.46505638440736585,
6643
+ "grad_norm": 2.609375,
6644
+ "learning_rate": 9.908162840902163e-05,
6645
+ "loss": 9.5577,
6646
+ "step": 9480
6647
+ },
6648
+ {
6649
+ "epoch": 0.46554695021370274,
6650
+ "grad_norm": 1.3671875,
6651
+ "learning_rate": 9.907617557373057e-05,
6652
+ "loss": 9.5126,
6653
+ "step": 9490
6654
+ },
6655
+ {
6656
+ "epoch": 0.4660375160200396,
6657
+ "grad_norm": 1.5546875,
6658
+ "learning_rate": 9.907070674914228e-05,
6659
+ "loss": 9.4535,
6660
+ "step": 9500
6661
+ },
6662
+ {
6663
+ "epoch": 0.4665280818263765,
6664
+ "grad_norm": 1.0390625,
6665
+ "learning_rate": 9.906522193703853e-05,
6666
+ "loss": 9.1627,
6667
+ "step": 9510
6668
+ },
6669
+ {
6670
+ "epoch": 0.4670186476327134,
6671
+ "grad_norm": 1.15625,
6672
+ "learning_rate": 9.905972113920632e-05,
6673
+ "loss": 8.9282,
6674
+ "step": 9520
6675
+ },
6676
+ {
6677
+ "epoch": 0.4675092134390503,
6678
+ "grad_norm": 1.8828125,
6679
+ "learning_rate": 9.905420435743782e-05,
6680
+ "loss": 9.3116,
6681
+ "step": 9530
6682
+ },
6683
+ {
6684
+ "epoch": 0.46799977924538716,
6685
+ "grad_norm": 1.1875,
6686
+ "learning_rate": 9.904867159353041e-05,
6687
+ "loss": 9.3445,
6688
+ "step": 9540
6689
+ },
6690
+ {
6691
+ "epoch": 0.46849034505172404,
6692
+ "grad_norm": 1.3984375,
6693
+ "learning_rate": 9.904312284928677e-05,
6694
+ "loss": 8.8062,
6695
+ "step": 9550
6696
+ },
6697
+ {
6698
+ "epoch": 0.46898091085806093,
6699
+ "grad_norm": 1.7109375,
6700
+ "learning_rate": 9.903755812651463e-05,
6701
+ "loss": 9.8019,
6702
+ "step": 9560
6703
+ },
6704
+ {
6705
+ "epoch": 0.4694714766643978,
6706
+ "grad_norm": 1.4140625,
6707
+ "learning_rate": 9.903197742702706e-05,
6708
+ "loss": 9.7276,
6709
+ "step": 9570
6710
+ },
6711
+ {
6712
+ "epoch": 0.4699620424707347,
6713
+ "grad_norm": 1.4140625,
6714
+ "learning_rate": 9.902638075264226e-05,
6715
+ "loss": 8.9828,
6716
+ "step": 9580
6717
+ },
6718
+ {
6719
+ "epoch": 0.4704526082770716,
6720
+ "grad_norm": 1.0234375,
6721
+ "learning_rate": 9.902076810518366e-05,
6722
+ "loss": 9.4312,
6723
+ "step": 9590
6724
+ },
6725
+ {
6726
+ "epoch": 0.47094317408340847,
6727
+ "grad_norm": 1.6875,
6728
+ "learning_rate": 9.90151394864799e-05,
6729
+ "loss": 9.4076,
6730
+ "step": 9600
6731
+ },
6732
+ {
6733
+ "epoch": 0.47143373988974535,
6734
+ "grad_norm": 1.265625,
6735
+ "learning_rate": 9.900949489836482e-05,
6736
+ "loss": 9.443,
6737
+ "step": 9610
6738
+ },
6739
+ {
6740
+ "epoch": 0.47192430569608224,
6741
+ "grad_norm": 0.9765625,
6742
+ "learning_rate": 9.900383434267745e-05,
6743
+ "loss": 9.1485,
6744
+ "step": 9620
6745
+ },
6746
+ {
6747
+ "epoch": 0.4724148715024191,
6748
+ "grad_norm": 1.390625,
6749
+ "learning_rate": 9.899815782126203e-05,
6750
+ "loss": 9.0047,
6751
+ "step": 9630
6752
+ },
6753
+ {
6754
+ "epoch": 0.472905437308756,
6755
+ "grad_norm": 1.2421875,
6756
+ "learning_rate": 9.8992465335968e-05,
6757
+ "loss": 9.5106,
6758
+ "step": 9640
6759
+ },
6760
+ {
6761
+ "epoch": 0.4733960031150929,
6762
+ "grad_norm": 1.2734375,
6763
+ "learning_rate": 9.898675688865004e-05,
6764
+ "loss": 8.8625,
6765
+ "step": 9650
6766
+ },
6767
+ {
6768
+ "epoch": 0.4738865689214298,
6769
+ "grad_norm": 1.578125,
6770
+ "learning_rate": 9.898103248116795e-05,
6771
+ "loss": 9.7804,
6772
+ "step": 9660
6773
+ },
6774
+ {
6775
+ "epoch": 0.47437713472776666,
6776
+ "grad_norm": 1.3203125,
6777
+ "learning_rate": 9.897529211538678e-05,
6778
+ "loss": 9.1752,
6779
+ "step": 9670
6780
+ },
6781
+ {
6782
+ "epoch": 0.47486770053410354,
6783
+ "grad_norm": 1.6015625,
6784
+ "learning_rate": 9.896953579317679e-05,
6785
+ "loss": 9.4863,
6786
+ "step": 9680
6787
+ },
6788
+ {
6789
+ "epoch": 0.4753582663404404,
6790
+ "grad_norm": 0.9296875,
6791
+ "learning_rate": 9.89637635164134e-05,
6792
+ "loss": 9.5613,
6793
+ "step": 9690
6794
+ },
6795
+ {
6796
+ "epoch": 0.4758488321467773,
6797
+ "grad_norm": 1.6796875,
6798
+ "learning_rate": 9.89579752869773e-05,
6799
+ "loss": 9.3063,
6800
+ "step": 9700
6801
+ },
6802
+ {
6803
+ "epoch": 0.4763393979531142,
6804
+ "grad_norm": 1.28125,
6805
+ "learning_rate": 9.895217110675428e-05,
6806
+ "loss": 9.356,
6807
+ "step": 9710
6808
+ },
6809
+ {
6810
+ "epoch": 0.4768299637594511,
6811
+ "grad_norm": 1.4609375,
6812
+ "learning_rate": 9.894635097763538e-05,
6813
+ "loss": 9.4519,
6814
+ "step": 9720
6815
+ },
6816
+ {
6817
+ "epoch": 0.47732052956578797,
6818
+ "grad_norm": 1.1484375,
6819
+ "learning_rate": 9.894051490151686e-05,
6820
+ "loss": 9.8951,
6821
+ "step": 9730
6822
+ },
6823
+ {
6824
+ "epoch": 0.47781109537212485,
6825
+ "grad_norm": 1.703125,
6826
+ "learning_rate": 9.893466288030011e-05,
6827
+ "loss": 9.0165,
6828
+ "step": 9740
6829
+ },
6830
+ {
6831
+ "epoch": 0.47830166117846173,
6832
+ "grad_norm": 1.625,
6833
+ "learning_rate": 9.892879491589179e-05,
6834
+ "loss": 9.2397,
6835
+ "step": 9750
6836
+ },
6837
+ {
6838
+ "epoch": 0.4787922269847986,
6839
+ "grad_norm": 1.875,
6840
+ "learning_rate": 9.892291101020368e-05,
6841
+ "loss": 9.1272,
6842
+ "step": 9760
6843
+ },
6844
+ {
6845
+ "epoch": 0.4792827927911355,
6846
+ "grad_norm": 1.1796875,
6847
+ "learning_rate": 9.891701116515282e-05,
6848
+ "loss": 9.2885,
6849
+ "step": 9770
6850
+ },
6851
+ {
6852
+ "epoch": 0.47977335859747233,
6853
+ "grad_norm": 1.5390625,
6854
+ "learning_rate": 9.89110953826614e-05,
6855
+ "loss": 10.1661,
6856
+ "step": 9780
6857
+ },
6858
+ {
6859
+ "epoch": 0.4802639244038092,
6860
+ "grad_norm": 0.8515625,
6861
+ "learning_rate": 9.890516366465678e-05,
6862
+ "loss": 9.3322,
6863
+ "step": 9790
6864
+ },
6865
+ {
6866
+ "epoch": 0.4807544902101461,
6867
+ "grad_norm": 1.28125,
6868
+ "learning_rate": 9.889921601307161e-05,
6869
+ "loss": 9.2185,
6870
+ "step": 9800
6871
+ },
6872
+ {
6873
+ "epoch": 0.481245056016483,
6874
+ "grad_norm": 1.046875,
6875
+ "learning_rate": 9.889325242984365e-05,
6876
+ "loss": 9.7809,
6877
+ "step": 9810
6878
+ },
6879
+ {
6880
+ "epoch": 0.48173562182281987,
6881
+ "grad_norm": 0.9765625,
6882
+ "learning_rate": 9.888727291691584e-05,
6883
+ "loss": 9.2243,
6884
+ "step": 9820
6885
+ },
6886
+ {
6887
+ "epoch": 0.48222618762915676,
6888
+ "grad_norm": 1.6875,
6889
+ "learning_rate": 9.888127747623637e-05,
6890
+ "loss": 9.6819,
6891
+ "step": 9830
6892
+ },
6893
+ {
6894
+ "epoch": 0.48271675343549364,
6895
+ "grad_norm": 1.7578125,
6896
+ "learning_rate": 9.887526610975857e-05,
6897
+ "loss": 9.172,
6898
+ "step": 9840
6899
+ },
6900
+ {
6901
+ "epoch": 0.4832073192418305,
6902
+ "grad_norm": 1.1171875,
6903
+ "learning_rate": 9.8869238819441e-05,
6904
+ "loss": 9.2786,
6905
+ "step": 9850
6906
+ },
6907
+ {
6908
+ "epoch": 0.4836978850481674,
6909
+ "grad_norm": 1.9296875,
6910
+ "learning_rate": 9.886319560724735e-05,
6911
+ "loss": 9.4504,
6912
+ "step": 9860
6913
+ },
6914
+ {
6915
+ "epoch": 0.4841884508545043,
6916
+ "grad_norm": 1.6640625,
6917
+ "learning_rate": 9.885713647514658e-05,
6918
+ "loss": 10.0407,
6919
+ "step": 9870
6920
+ },
6921
+ {
6922
+ "epoch": 0.4846790166608412,
6923
+ "grad_norm": 0.9765625,
6924
+ "learning_rate": 9.885106142511275e-05,
6925
+ "loss": 8.9902,
6926
+ "step": 9880
6927
+ },
6928
+ {
6929
+ "epoch": 0.48516958246717806,
6930
+ "grad_norm": 1.0234375,
6931
+ "learning_rate": 9.884497045912515e-05,
6932
+ "loss": 8.8224,
6933
+ "step": 9890
6934
+ },
6935
+ {
6936
+ "epoch": 0.48566014827351495,
6937
+ "grad_norm": 1.4453125,
6938
+ "learning_rate": 9.883886357916828e-05,
6939
+ "loss": 9.893,
6940
+ "step": 9900
6941
+ },
6942
+ {
6943
+ "epoch": 0.48615071407985183,
6944
+ "grad_norm": 1.2890625,
6945
+ "learning_rate": 9.883274078723177e-05,
6946
+ "loss": 9.0176,
6947
+ "step": 9910
6948
+ },
6949
+ {
6950
+ "epoch": 0.4866412798861887,
6951
+ "grad_norm": 3.359375,
6952
+ "learning_rate": 9.882660208531046e-05,
6953
+ "loss": 9.8512,
6954
+ "step": 9920
6955
+ },
6956
+ {
6957
+ "epoch": 0.4871318456925256,
6958
+ "grad_norm": 1.1640625,
6959
+ "learning_rate": 9.882044747540439e-05,
6960
+ "loss": 9.3034,
6961
+ "step": 9930
6962
+ },
6963
+ {
6964
+ "epoch": 0.4876224114988625,
6965
+ "grad_norm": 1.265625,
6966
+ "learning_rate": 9.881427695951875e-05,
6967
+ "loss": 9.5191,
6968
+ "step": 9940
6969
+ },
6970
+ {
6971
+ "epoch": 0.48811297730519937,
6972
+ "grad_norm": 1.1796875,
6973
+ "learning_rate": 9.880809053966395e-05,
6974
+ "loss": 9.4207,
6975
+ "step": 9950
6976
+ },
6977
+ {
6978
+ "epoch": 0.48860354311153625,
6979
+ "grad_norm": 1.3828125,
6980
+ "learning_rate": 9.880188821785554e-05,
6981
+ "loss": 9.2694,
6982
+ "step": 9960
6983
+ },
6984
+ {
6985
+ "epoch": 0.48909410891787314,
6986
+ "grad_norm": 1.609375,
6987
+ "learning_rate": 9.879566999611429e-05,
6988
+ "loss": 9.7303,
6989
+ "step": 9970
6990
+ },
6991
+ {
6992
+ "epoch": 0.48958467472421,
6993
+ "grad_norm": 1.3515625,
6994
+ "learning_rate": 9.878943587646611e-05,
6995
+ "loss": 9.449,
6996
+ "step": 9980
6997
+ },
6998
+ {
6999
+ "epoch": 0.4900752405305469,
7000
+ "grad_norm": 1.6484375,
7001
+ "learning_rate": 9.878318586094213e-05,
7002
+ "loss": 9.3069,
7003
+ "step": 9990
7004
+ },
7005
+ {
7006
+ "epoch": 0.4905658063368838,
7007
+ "grad_norm": 1.2734375,
7008
+ "learning_rate": 9.877691995157862e-05,
7009
+ "loss": 9.0935,
7010
+ "step": 10000
7011
+ },
7012
+ {
7013
+ "epoch": 0.4910563721432207,
7014
+ "grad_norm": 1.640625,
7015
+ "learning_rate": 9.877063815041709e-05,
7016
+ "loss": 9.6356,
7017
+ "step": 10010
7018
+ },
7019
+ {
7020
+ "epoch": 0.49154693794955756,
7021
+ "grad_norm": 1.25,
7022
+ "learning_rate": 9.876434045950414e-05,
7023
+ "loss": 9.878,
7024
+ "step": 10020
7025
+ },
7026
+ {
7027
+ "epoch": 0.49203750375589445,
7028
+ "grad_norm": 1.5390625,
7029
+ "learning_rate": 9.875802688089163e-05,
7030
+ "loss": 9.4215,
7031
+ "step": 10030
7032
+ },
7033
+ {
7034
+ "epoch": 0.49252806956223133,
7035
+ "grad_norm": 1.25,
7036
+ "learning_rate": 9.875169741663653e-05,
7037
+ "loss": 9.108,
7038
+ "step": 10040
7039
+ },
7040
+ {
7041
+ "epoch": 0.4930186353685682,
7042
+ "grad_norm": 1.2734375,
7043
+ "learning_rate": 9.874535206880105e-05,
7044
+ "loss": 9.5489,
7045
+ "step": 10050
7046
+ },
7047
+ {
7048
+ "epoch": 0.4935092011749051,
7049
+ "grad_norm": 1.203125,
7050
+ "learning_rate": 9.873899083945248e-05,
7051
+ "loss": 9.9763,
7052
+ "step": 10060
7053
+ },
7054
+ {
7055
+ "epoch": 0.493999766981242,
7056
+ "grad_norm": 1.234375,
7057
+ "learning_rate": 9.873261373066342e-05,
7058
+ "loss": 9.0065,
7059
+ "step": 10070
7060
+ },
7061
+ {
7062
+ "epoch": 0.49449033278757887,
7063
+ "grad_norm": 1.4609375,
7064
+ "learning_rate": 9.872622074451153e-05,
7065
+ "loss": 9.4474,
7066
+ "step": 10080
7067
+ },
7068
+ {
7069
+ "epoch": 0.49498089859391575,
7070
+ "grad_norm": 1.359375,
7071
+ "learning_rate": 9.871981188307966e-05,
7072
+ "loss": 9.4922,
7073
+ "step": 10090
7074
+ },
7075
+ {
7076
+ "epoch": 0.49547146440025264,
7077
+ "grad_norm": 1.09375,
7078
+ "learning_rate": 9.871338714845589e-05,
7079
+ "loss": 9.3891,
7080
+ "step": 10100
7081
+ },
7082
+ {
7083
+ "epoch": 0.4959620302065895,
7084
+ "grad_norm": 0.98828125,
7085
+ "learning_rate": 9.870694654273342e-05,
7086
+ "loss": 9.0705,
7087
+ "step": 10110
7088
+ },
7089
+ {
7090
+ "epoch": 0.4964525960129264,
7091
+ "grad_norm": 1.1015625,
7092
+ "learning_rate": 9.870049006801065e-05,
7093
+ "loss": 9.4599,
7094
+ "step": 10120
7095
+ },
7096
+ {
7097
+ "epoch": 0.4969431618192633,
7098
+ "grad_norm": 1.234375,
7099
+ "learning_rate": 9.86940177263911e-05,
7100
+ "loss": 9.3144,
7101
+ "step": 10130
7102
+ },
7103
+ {
7104
+ "epoch": 0.4974337276256002,
7105
+ "grad_norm": 1.421875,
7106
+ "learning_rate": 9.868752951998355e-05,
7107
+ "loss": 9.1926,
7108
+ "step": 10140
7109
+ },
7110
+ {
7111
+ "epoch": 0.49792429343193706,
7112
+ "grad_norm": 1.0546875,
7113
+ "learning_rate": 9.868102545090186e-05,
7114
+ "loss": 9.8184,
7115
+ "step": 10150
7116
+ },
7117
+ {
7118
+ "epoch": 0.49841485923827394,
7119
+ "grad_norm": 1.3984375,
7120
+ "learning_rate": 9.867450552126506e-05,
7121
+ "loss": 9.8685,
7122
+ "step": 10160
7123
+ },
7124
+ {
7125
+ "epoch": 0.49890542504461083,
7126
+ "grad_norm": 0.84375,
7127
+ "learning_rate": 9.866796973319747e-05,
7128
+ "loss": 9.5477,
7129
+ "step": 10170
7130
+ },
7131
+ {
7132
+ "epoch": 0.4993959908509477,
7133
+ "grad_norm": 1.4140625,
7134
+ "learning_rate": 9.86614180888284e-05,
7135
+ "loss": 9.5079,
7136
+ "step": 10180
7137
+ },
7138
+ {
7139
+ "epoch": 0.4998865566572846,
7140
+ "grad_norm": 1.21875,
7141
+ "learning_rate": 9.865485059029246e-05,
7142
+ "loss": 9.8399,
7143
+ "step": 10190
7144
+ },
7145
+ {
7146
+ "epoch": 0.5003771224636214,
7147
+ "grad_norm": 1.015625,
7148
+ "learning_rate": 9.864826723972938e-05,
7149
+ "loss": 9.1246,
7150
+ "step": 10200
7151
+ },
7152
+ {
7153
+ "epoch": 0.5008676882699583,
7154
+ "grad_norm": 1.21875,
7155
+ "learning_rate": 9.864166803928401e-05,
7156
+ "loss": 8.9986,
7157
+ "step": 10210
7158
+ },
7159
+ {
7160
+ "epoch": 0.5013582540762952,
7161
+ "grad_norm": 1.390625,
7162
+ "learning_rate": 9.863505299110645e-05,
7163
+ "loss": 8.951,
7164
+ "step": 10220
7165
+ },
7166
+ {
7167
+ "epoch": 0.5018488198826321,
7168
+ "grad_norm": 1.296875,
7169
+ "learning_rate": 9.862842209735191e-05,
7170
+ "loss": 9.4867,
7171
+ "step": 10230
7172
+ },
7173
+ {
7174
+ "epoch": 0.502339385688969,
7175
+ "grad_norm": 1.0234375,
7176
+ "learning_rate": 9.862177536018075e-05,
7177
+ "loss": 9.658,
7178
+ "step": 10240
7179
+ },
7180
+ {
7181
+ "epoch": 0.5028299514953058,
7182
+ "grad_norm": 1.0625,
7183
+ "learning_rate": 9.861511278175857e-05,
7184
+ "loss": 9.2603,
7185
+ "step": 10250
7186
+ },
7187
+ {
7188
+ "epoch": 0.5033205173016427,
7189
+ "grad_norm": 0.8359375,
7190
+ "learning_rate": 9.8608434364256e-05,
7191
+ "loss": 9.1361,
7192
+ "step": 10260
7193
+ },
7194
+ {
7195
+ "epoch": 0.5038110831079796,
7196
+ "grad_norm": 1.1640625,
7197
+ "learning_rate": 9.860174010984898e-05,
7198
+ "loss": 9.3492,
7199
+ "step": 10270
7200
+ },
7201
+ {
7202
+ "epoch": 0.5043016489143165,
7203
+ "grad_norm": 1.140625,
7204
+ "learning_rate": 9.859503002071848e-05,
7205
+ "loss": 9.3052,
7206
+ "step": 10280
7207
+ },
7208
+ {
7209
+ "epoch": 0.5047922147206534,
7210
+ "grad_norm": 1.984375,
7211
+ "learning_rate": 9.858830409905072e-05,
7212
+ "loss": 9.3797,
7213
+ "step": 10290
7214
+ },
7215
+ {
7216
+ "epoch": 0.5052827805269903,
7217
+ "grad_norm": 1.28125,
7218
+ "learning_rate": 9.858156234703704e-05,
7219
+ "loss": 9.5779,
7220
+ "step": 10300
7221
+ },
7222
+ {
7223
+ "epoch": 0.5057733463333272,
7224
+ "grad_norm": 0.70703125,
7225
+ "learning_rate": 9.85748047668739e-05,
7226
+ "loss": 8.8646,
7227
+ "step": 10310
7228
+ },
7229
+ {
7230
+ "epoch": 0.506263912139664,
7231
+ "grad_norm": 1.546875,
7232
+ "learning_rate": 9.856803136076302e-05,
7233
+ "loss": 9.3479,
7234
+ "step": 10320
7235
+ },
7236
+ {
7237
+ "epoch": 0.5067544779460009,
7238
+ "grad_norm": 0.9609375,
7239
+ "learning_rate": 9.856124213091118e-05,
7240
+ "loss": 9.5916,
7241
+ "step": 10330
7242
+ },
7243
+ {
7244
+ "epoch": 0.5072450437523378,
7245
+ "grad_norm": 1.5859375,
7246
+ "learning_rate": 9.855443707953034e-05,
7247
+ "loss": 10.0713,
7248
+ "step": 10340
7249
+ },
7250
+ {
7251
+ "epoch": 0.5077356095586747,
7252
+ "grad_norm": 1.1875,
7253
+ "learning_rate": 9.854761620883766e-05,
7254
+ "loss": 9.7502,
7255
+ "step": 10350
7256
+ },
7257
+ {
7258
+ "epoch": 0.5082261753650116,
7259
+ "grad_norm": 1.078125,
7260
+ "learning_rate": 9.854077952105539e-05,
7261
+ "loss": 9.5492,
7262
+ "step": 10360
7263
+ },
7264
+ {
7265
+ "epoch": 0.5087167411713485,
7266
+ "grad_norm": 1.3671875,
7267
+ "learning_rate": 9.853392701841097e-05,
7268
+ "loss": 9.0267,
7269
+ "step": 10370
7270
+ },
7271
+ {
7272
+ "epoch": 0.5092073069776853,
7273
+ "grad_norm": 1.4375,
7274
+ "learning_rate": 9.852705870313697e-05,
7275
+ "loss": 9.5468,
7276
+ "step": 10380
7277
+ },
7278
+ {
7279
+ "epoch": 0.5096978727840222,
7280
+ "grad_norm": 1.0390625,
7281
+ "learning_rate": 9.852017457747116e-05,
7282
+ "loss": 9.4679,
7283
+ "step": 10390
7284
+ },
7285
+ {
7286
+ "epoch": 0.5101884385903591,
7287
+ "grad_norm": 1.375,
7288
+ "learning_rate": 9.851327464365639e-05,
7289
+ "loss": 9.2376,
7290
+ "step": 10400
7291
+ },
7292
+ {
7293
+ "epoch": 0.510679004396696,
7294
+ "grad_norm": 1.5546875,
7295
+ "learning_rate": 9.850635890394073e-05,
7296
+ "loss": 8.5749,
7297
+ "step": 10410
7298
+ },
7299
+ {
7300
+ "epoch": 0.5111695702030329,
7301
+ "grad_norm": 1.0625,
7302
+ "learning_rate": 9.849942736057734e-05,
7303
+ "loss": 8.9378,
7304
+ "step": 10420
7305
+ },
7306
+ {
7307
+ "epoch": 0.5116601360093698,
7308
+ "grad_norm": 1.484375,
7309
+ "learning_rate": 9.849248001582458e-05,
7310
+ "loss": 9.6109,
7311
+ "step": 10430
7312
+ },
7313
+ {
7314
+ "epoch": 0.5121507018157067,
7315
+ "grad_norm": 1.2890625,
7316
+ "learning_rate": 9.848551687194591e-05,
7317
+ "loss": 9.7468,
7318
+ "step": 10440
7319
+ },
7320
+ {
7321
+ "epoch": 0.5126412676220435,
7322
+ "grad_norm": 1.0390625,
7323
+ "learning_rate": 9.847853793121e-05,
7324
+ "loss": 9.2302,
7325
+ "step": 10450
7326
+ },
7327
+ {
7328
+ "epoch": 0.5131318334283804,
7329
+ "grad_norm": 0.87109375,
7330
+ "learning_rate": 9.847154319589058e-05,
7331
+ "loss": 9.3679,
7332
+ "step": 10460
7333
+ },
7334
+ {
7335
+ "epoch": 0.5136223992347173,
7336
+ "grad_norm": 1.59375,
7337
+ "learning_rate": 9.846453266826659e-05,
7338
+ "loss": 9.499,
7339
+ "step": 10470
7340
+ },
7341
+ {
7342
+ "epoch": 0.5141129650410542,
7343
+ "grad_norm": 1.5234375,
7344
+ "learning_rate": 9.845750635062213e-05,
7345
+ "loss": 9.6534,
7346
+ "step": 10480
7347
+ },
7348
+ {
7349
+ "epoch": 0.5146035308473911,
7350
+ "grad_norm": 1.53125,
7351
+ "learning_rate": 9.845046424524638e-05,
7352
+ "loss": 9.8588,
7353
+ "step": 10490
7354
+ },
7355
+ {
7356
+ "epoch": 0.515094096653728,
7357
+ "grad_norm": 1.4609375,
7358
+ "learning_rate": 9.844340635443372e-05,
7359
+ "loss": 10.2558,
7360
+ "step": 10500
7361
+ },
7362
+ {
7363
+ "epoch": 0.5155846624600648,
7364
+ "grad_norm": 2.40625,
7365
+ "learning_rate": 9.843633268048363e-05,
7366
+ "loss": 9.9006,
7367
+ "step": 10510
7368
+ },
7369
+ {
7370
+ "epoch": 0.5160752282664017,
7371
+ "grad_norm": 1.390625,
7372
+ "learning_rate": 9.842924322570077e-05,
7373
+ "loss": 9.0815,
7374
+ "step": 10520
7375
+ },
7376
+ {
7377
+ "epoch": 0.5165657940727386,
7378
+ "grad_norm": 1.28125,
7379
+ "learning_rate": 9.842213799239492e-05,
7380
+ "loss": 10.4063,
7381
+ "step": 10530
7382
+ },
7383
+ {
7384
+ "epoch": 0.5170563598790755,
7385
+ "grad_norm": 1.328125,
7386
+ "learning_rate": 9.8415016982881e-05,
7387
+ "loss": 8.8923,
7388
+ "step": 10540
7389
+ },
7390
+ {
7391
+ "epoch": 0.5175469256854124,
7392
+ "grad_norm": 1.8359375,
7393
+ "learning_rate": 9.840788019947908e-05,
7394
+ "loss": 9.8298,
7395
+ "step": 10550
7396
+ },
7397
+ {
7398
+ "epoch": 0.5180374914917493,
7399
+ "grad_norm": 1.2421875,
7400
+ "learning_rate": 9.840072764451438e-05,
7401
+ "loss": 8.764,
7402
+ "step": 10560
7403
+ },
7404
+ {
7405
+ "epoch": 0.5185280572980862,
7406
+ "grad_norm": 1.765625,
7407
+ "learning_rate": 9.839355932031721e-05,
7408
+ "loss": 9.384,
7409
+ "step": 10570
7410
+ },
7411
+ {
7412
+ "epoch": 0.519018623104423,
7413
+ "grad_norm": 1.6015625,
7414
+ "learning_rate": 9.838637522922308e-05,
7415
+ "loss": 9.458,
7416
+ "step": 10580
7417
+ },
7418
+ {
7419
+ "epoch": 0.5195091889107599,
7420
+ "grad_norm": 1.265625,
7421
+ "learning_rate": 9.837917537357257e-05,
7422
+ "loss": 9.5669,
7423
+ "step": 10590
7424
+ },
7425
+ {
7426
+ "epoch": 0.5199997547170968,
7427
+ "grad_norm": 1.3203125,
7428
+ "learning_rate": 9.83719597557115e-05,
7429
+ "loss": 9.0019,
7430
+ "step": 10600
7431
+ },
7432
+ {
7433
+ "epoch": 0.5204903205234337,
7434
+ "grad_norm": 1.484375,
7435
+ "learning_rate": 9.836472837799069e-05,
7436
+ "loss": 9.708,
7437
+ "step": 10610
7438
+ },
7439
+ {
7440
+ "epoch": 0.5209808863297706,
7441
+ "grad_norm": 1.46875,
7442
+ "learning_rate": 9.83574812427662e-05,
7443
+ "loss": 9.3858,
7444
+ "step": 10620
7445
+ },
7446
+ {
7447
+ "epoch": 0.5214714521361075,
7448
+ "grad_norm": 1.8984375,
7449
+ "learning_rate": 9.835021835239918e-05,
7450
+ "loss": 8.7211,
7451
+ "step": 10630
7452
+ },
7453
+ {
7454
+ "epoch": 0.5219620179424443,
7455
+ "grad_norm": 1.09375,
7456
+ "learning_rate": 9.834293970925593e-05,
7457
+ "loss": 9.141,
7458
+ "step": 10640
7459
+ },
7460
+ {
7461
+ "epoch": 0.5224525837487812,
7462
+ "grad_norm": 1.640625,
7463
+ "learning_rate": 9.833564531570785e-05,
7464
+ "loss": 9.6482,
7465
+ "step": 10650
7466
+ },
7467
+ {
7468
+ "epoch": 0.5229431495551181,
7469
+ "grad_norm": 1.5078125,
7470
+ "learning_rate": 9.832833517413153e-05,
7471
+ "loss": 8.9195,
7472
+ "step": 10660
7473
+ },
7474
+ {
7475
+ "epoch": 0.523433715361455,
7476
+ "grad_norm": 1.125,
7477
+ "learning_rate": 9.832100928690864e-05,
7478
+ "loss": 9.2983,
7479
+ "step": 10670
7480
+ },
7481
+ {
7482
+ "epoch": 0.5239242811677919,
7483
+ "grad_norm": 1.140625,
7484
+ "learning_rate": 9.831366765642597e-05,
7485
+ "loss": 9.4973,
7486
+ "step": 10680
7487
+ },
7488
+ {
7489
+ "epoch": 0.5244148469741288,
7490
+ "grad_norm": 1.4375,
7491
+ "learning_rate": 9.830631028507551e-05,
7492
+ "loss": 10.2198,
7493
+ "step": 10690
7494
+ },
7495
+ {
7496
+ "epoch": 0.5249054127804657,
7497
+ "grad_norm": 1.4609375,
7498
+ "learning_rate": 9.829893717525428e-05,
7499
+ "loss": 8.9836,
7500
+ "step": 10700
7501
+ },
7502
+ {
7503
+ "epoch": 0.5253959785868025,
7504
+ "grad_norm": 1.0078125,
7505
+ "learning_rate": 9.829154832936454e-05,
7506
+ "loss": 9.1102,
7507
+ "step": 10710
7508
+ },
7509
+ {
7510
+ "epoch": 0.5258865443931394,
7511
+ "grad_norm": 1.65625,
7512
+ "learning_rate": 9.828414374981359e-05,
7513
+ "loss": 9.444,
7514
+ "step": 10720
7515
+ },
7516
+ {
7517
+ "epoch": 0.5263771101994763,
7518
+ "grad_norm": 1.3515625,
7519
+ "learning_rate": 9.827672343901386e-05,
7520
+ "loss": 8.9337,
7521
+ "step": 10730
7522
+ },
7523
+ {
7524
+ "epoch": 0.5268676760058132,
7525
+ "grad_norm": 1.2578125,
7526
+ "learning_rate": 9.826928739938297e-05,
7527
+ "loss": 9.6987,
7528
+ "step": 10740
7529
+ },
7530
+ {
7531
+ "epoch": 0.5273582418121501,
7532
+ "grad_norm": 1.2890625,
7533
+ "learning_rate": 9.826183563334361e-05,
7534
+ "loss": 9.2521,
7535
+ "step": 10750
7536
+ },
7537
+ {
7538
+ "epoch": 0.527848807618487,
7539
+ "grad_norm": 0.984375,
7540
+ "learning_rate": 9.825436814332359e-05,
7541
+ "loss": 9.3628,
7542
+ "step": 10760
7543
+ },
7544
+ {
7545
+ "epoch": 0.5283393734248238,
7546
+ "grad_norm": 0.7421875,
7547
+ "learning_rate": 9.824688493175589e-05,
7548
+ "loss": 9.5574,
7549
+ "step": 10770
7550
+ },
7551
+ {
7552
+ "epoch": 0.5288299392311607,
7553
+ "grad_norm": 1.265625,
7554
+ "learning_rate": 9.823938600107856e-05,
7555
+ "loss": 8.8906,
7556
+ "step": 10780
7557
+ },
7558
+ {
7559
+ "epoch": 0.5293205050374976,
7560
+ "grad_norm": 0.9296875,
7561
+ "learning_rate": 9.823187135373481e-05,
7562
+ "loss": 9.2323,
7563
+ "step": 10790
7564
+ },
7565
+ {
7566
+ "epoch": 0.5298110708438345,
7567
+ "grad_norm": 1.109375,
7568
+ "learning_rate": 9.822434099217295e-05,
7569
+ "loss": 9.0068,
7570
+ "step": 10800
7571
+ },
7572
+ {
7573
+ "epoch": 0.5303016366501714,
7574
+ "grad_norm": 1.0234375,
7575
+ "learning_rate": 9.821679491884641e-05,
7576
+ "loss": 9.5788,
7577
+ "step": 10810
7578
+ },
7579
+ {
7580
+ "epoch": 0.5307922024565083,
7581
+ "grad_norm": 1.1171875,
7582
+ "learning_rate": 9.820923313621374e-05,
7583
+ "loss": 9.619,
7584
+ "step": 10820
7585
+ },
7586
+ {
7587
+ "epoch": 0.5312827682628452,
7588
+ "grad_norm": 1.046875,
7589
+ "learning_rate": 9.820165564673862e-05,
7590
+ "loss": 9.9449,
7591
+ "step": 10830
7592
+ },
7593
+ {
7594
+ "epoch": 0.531773334069182,
7595
+ "grad_norm": 1.2734375,
7596
+ "learning_rate": 9.819406245288984e-05,
7597
+ "loss": 9.6994,
7598
+ "step": 10840
7599
+ },
7600
+ {
7601
+ "epoch": 0.5322638998755189,
7602
+ "grad_norm": 1.1953125,
7603
+ "learning_rate": 9.81864535571413e-05,
7604
+ "loss": 9.9071,
7605
+ "step": 10850
7606
+ },
7607
+ {
7608
+ "epoch": 0.5327544656818558,
7609
+ "grad_norm": 1.3984375,
7610
+ "learning_rate": 9.817882896197203e-05,
7611
+ "loss": 9.1392,
7612
+ "step": 10860
7613
+ },
7614
+ {
7615
+ "epoch": 0.5332450314881927,
7616
+ "grad_norm": 1.140625,
7617
+ "learning_rate": 9.817118866986615e-05,
7618
+ "loss": 9.3059,
7619
+ "step": 10870
7620
+ },
7621
+ {
7622
+ "epoch": 0.5337355972945296,
7623
+ "grad_norm": 1.2109375,
7624
+ "learning_rate": 9.816353268331293e-05,
7625
+ "loss": 9.3637,
7626
+ "step": 10880
7627
+ },
7628
+ {
7629
+ "epoch": 0.5342261631008665,
7630
+ "grad_norm": 1.140625,
7631
+ "learning_rate": 9.815586100480674e-05,
7632
+ "loss": 8.9703,
7633
+ "step": 10890
7634
+ },
7635
+ {
7636
+ "epoch": 0.5347167289072033,
7637
+ "grad_norm": 1.5703125,
7638
+ "learning_rate": 9.8148173636847e-05,
7639
+ "loss": 10.3108,
7640
+ "step": 10900
7641
+ },
7642
+ {
7643
+ "epoch": 0.5352072947135402,
7644
+ "grad_norm": 1.2578125,
7645
+ "learning_rate": 9.814047058193839e-05,
7646
+ "loss": 9.5247,
7647
+ "step": 10910
7648
+ },
7649
+ {
7650
+ "epoch": 0.5356978605198771,
7651
+ "grad_norm": 1.15625,
7652
+ "learning_rate": 9.813275184259052e-05,
7653
+ "loss": 9.4193,
7654
+ "step": 10920
7655
+ },
7656
+ {
7657
+ "epoch": 0.536188426326214,
7658
+ "grad_norm": 0.94921875,
7659
+ "learning_rate": 9.812501742131825e-05,
7660
+ "loss": 9.0993,
7661
+ "step": 10930
7662
+ },
7663
+ {
7664
+ "epoch": 0.5366789921325509,
7665
+ "grad_norm": 1.234375,
7666
+ "learning_rate": 9.81172673206415e-05,
7667
+ "loss": 9.294,
7668
+ "step": 10940
7669
+ },
7670
+ {
7671
+ "epoch": 0.5371695579388878,
7672
+ "grad_norm": 14.8125,
7673
+ "learning_rate": 9.810950154308528e-05,
7674
+ "loss": 9.8395,
7675
+ "step": 10950
7676
+ },
7677
+ {
7678
+ "epoch": 0.5376601237452246,
7679
+ "grad_norm": 1.5234375,
7680
+ "learning_rate": 9.810172009117973e-05,
7681
+ "loss": 10.1739,
7682
+ "step": 10960
7683
+ },
7684
+ {
7685
+ "epoch": 0.5381506895515615,
7686
+ "grad_norm": 1.1953125,
7687
+ "learning_rate": 9.809392296746007e-05,
7688
+ "loss": 8.8649,
7689
+ "step": 10970
7690
+ },
7691
+ {
7692
+ "epoch": 0.5386412553578984,
7693
+ "grad_norm": 1.0703125,
7694
+ "learning_rate": 9.80861101744667e-05,
7695
+ "loss": 9.1894,
7696
+ "step": 10980
7697
+ },
7698
+ {
7699
+ "epoch": 0.5391318211642353,
7700
+ "grad_norm": 1.03125,
7701
+ "learning_rate": 9.807828171474502e-05,
7702
+ "loss": 9.866,
7703
+ "step": 10990
7704
+ },
7705
+ {
7706
+ "epoch": 0.5396223869705722,
7707
+ "grad_norm": 1.8984375,
7708
+ "learning_rate": 9.80704375908456e-05,
7709
+ "loss": 9.6843,
7710
+ "step": 11000
7711
+ },
7712
+ {
7713
+ "epoch": 0.5401129527769091,
7714
+ "grad_norm": 1.53125,
7715
+ "learning_rate": 9.80625778053241e-05,
7716
+ "loss": 9.3401,
7717
+ "step": 11010
7718
+ },
7719
+ {
7720
+ "epoch": 0.540603518583246,
7721
+ "grad_norm": 1.0546875,
7722
+ "learning_rate": 9.805470236074131e-05,
7723
+ "loss": 9.4714,
7724
+ "step": 11020
7725
+ },
7726
+ {
7727
+ "epoch": 0.5410940843895828,
7728
+ "grad_norm": 1.6171875,
7729
+ "learning_rate": 9.804681125966306e-05,
7730
+ "loss": 9.2955,
7731
+ "step": 11030
7732
+ },
7733
+ {
7734
+ "epoch": 0.5415846501959197,
7735
+ "grad_norm": 1.3671875,
7736
+ "learning_rate": 9.803890450466035e-05,
7737
+ "loss": 9.4521,
7738
+ "step": 11040
7739
+ },
7740
+ {
7741
+ "epoch": 0.5420752160022566,
7742
+ "grad_norm": 1.546875,
7743
+ "learning_rate": 9.80309820983092e-05,
7744
+ "loss": 10.1109,
7745
+ "step": 11050
7746
+ },
7747
+ {
7748
+ "epoch": 0.5425657818085935,
7749
+ "grad_norm": 1.53125,
7750
+ "learning_rate": 9.802304404319081e-05,
7751
+ "loss": 9.9055,
7752
+ "step": 11060
7753
+ },
7754
+ {
7755
+ "epoch": 0.5430563476149304,
7756
+ "grad_norm": 1.234375,
7757
+ "learning_rate": 9.801509034189144e-05,
7758
+ "loss": 9.3527,
7759
+ "step": 11070
7760
+ },
7761
+ {
7762
+ "epoch": 0.5435469134212673,
7763
+ "grad_norm": 0.87890625,
7764
+ "learning_rate": 9.800712099700244e-05,
7765
+ "loss": 9.4049,
7766
+ "step": 11080
7767
+ },
7768
+ {
7769
+ "epoch": 0.5440374792276041,
7770
+ "grad_norm": 1.25,
7771
+ "learning_rate": 9.799913601112028e-05,
7772
+ "loss": 9.8058,
7773
+ "step": 11090
7774
+ },
7775
+ {
7776
+ "epoch": 0.544528045033941,
7777
+ "grad_norm": 1.25,
7778
+ "learning_rate": 9.79911353868465e-05,
7779
+ "loss": 9.1666,
7780
+ "step": 11100
7781
+ },
7782
+ {
7783
+ "epoch": 0.5450186108402779,
7784
+ "grad_norm": 1.21875,
7785
+ "learning_rate": 9.798311912678775e-05,
7786
+ "loss": 9.0768,
7787
+ "step": 11110
7788
+ },
7789
+ {
7790
+ "epoch": 0.5455091766466148,
7791
+ "grad_norm": 0.91796875,
7792
+ "learning_rate": 9.797508723355578e-05,
7793
+ "loss": 8.8543,
7794
+ "step": 11120
7795
+ },
7796
+ {
7797
+ "epoch": 0.5459997424529517,
7798
+ "grad_norm": 1.9609375,
7799
+ "learning_rate": 9.796703970976744e-05,
7800
+ "loss": 9.5889,
7801
+ "step": 11130
7802
+ },
7803
+ {
7804
+ "epoch": 0.5464903082592886,
7805
+ "grad_norm": 1.546875,
7806
+ "learning_rate": 9.795897655804462e-05,
7807
+ "loss": 9.3185,
7808
+ "step": 11140
7809
+ },
7810
+ {
7811
+ "epoch": 0.5469808740656255,
7812
+ "grad_norm": 1.125,
7813
+ "learning_rate": 9.795089778101439e-05,
7814
+ "loss": 9.3281,
7815
+ "step": 11150
7816
+ },
7817
+ {
7818
+ "epoch": 0.5474714398719623,
7819
+ "grad_norm": 1.046875,
7820
+ "learning_rate": 9.794280338130882e-05,
7821
+ "loss": 9.5044,
7822
+ "step": 11160
7823
+ },
7824
+ {
7825
+ "epoch": 0.5479620056782992,
7826
+ "grad_norm": 0.828125,
7827
+ "learning_rate": 9.793469336156513e-05,
7828
+ "loss": 9.1314,
7829
+ "step": 11170
7830
+ },
7831
+ {
7832
+ "epoch": 0.5484525714846361,
7833
+ "grad_norm": 0.984375,
7834
+ "learning_rate": 9.792656772442561e-05,
7835
+ "loss": 9.2528,
7836
+ "step": 11180
7837
+ },
7838
+ {
7839
+ "epoch": 0.548943137290973,
7840
+ "grad_norm": 1.4765625,
7841
+ "learning_rate": 9.791842647253764e-05,
7842
+ "loss": 9.0135,
7843
+ "step": 11190
7844
+ },
7845
+ {
7846
+ "epoch": 0.5494337030973099,
7847
+ "grad_norm": 1.4609375,
7848
+ "learning_rate": 9.791026960855369e-05,
7849
+ "loss": 8.8728,
7850
+ "step": 11200
7851
+ },
7852
+ {
7853
+ "epoch": 0.5499242689036468,
7854
+ "grad_norm": 0.90625,
7855
+ "learning_rate": 9.79020971351313e-05,
7856
+ "loss": 9.2327,
7857
+ "step": 11210
7858
+ },
7859
+ {
7860
+ "epoch": 0.5504148347099836,
7861
+ "grad_norm": 1.3671875,
7862
+ "learning_rate": 9.789390905493311e-05,
7863
+ "loss": 9.3236,
7864
+ "step": 11220
7865
+ },
7866
+ {
7867
+ "epoch": 0.5509054005163205,
7868
+ "grad_norm": 1.3046875,
7869
+ "learning_rate": 9.788570537062685e-05,
7870
+ "loss": 9.4911,
7871
+ "step": 11230
7872
+ },
7873
+ {
7874
+ "epoch": 0.5513959663226574,
7875
+ "grad_norm": 1.203125,
7876
+ "learning_rate": 9.787748608488533e-05,
7877
+ "loss": 8.5407,
7878
+ "step": 11240
7879
+ },
7880
+ {
7881
+ "epoch": 0.5518865321289943,
7882
+ "grad_norm": 1.125,
7883
+ "learning_rate": 9.786925120038644e-05,
7884
+ "loss": 9.4687,
7885
+ "step": 11250
7886
+ },
7887
+ {
7888
+ "epoch": 0.5523770979353312,
7889
+ "grad_norm": 0.9921875,
7890
+ "learning_rate": 9.786100071981313e-05,
7891
+ "loss": 9.7501,
7892
+ "step": 11260
7893
+ },
7894
+ {
7895
+ "epoch": 0.5528676637416681,
7896
+ "grad_norm": 1.3046875,
7897
+ "learning_rate": 9.785273464585347e-05,
7898
+ "loss": 9.2585,
7899
+ "step": 11270
7900
+ },
7901
+ {
7902
+ "epoch": 0.553358229548005,
7903
+ "grad_norm": 1.5078125,
7904
+ "learning_rate": 9.784445298120063e-05,
7905
+ "loss": 9.5025,
7906
+ "step": 11280
7907
+ },
7908
+ {
7909
+ "epoch": 0.5538487953543418,
7910
+ "grad_norm": 1.765625,
7911
+ "learning_rate": 9.783615572855274e-05,
7912
+ "loss": 10.4089,
7913
+ "step": 11290
7914
+ },
7915
+ {
7916
+ "epoch": 0.5543393611606787,
7917
+ "grad_norm": 1.09375,
7918
+ "learning_rate": 9.782784289061317e-05,
7919
+ "loss": 9.3678,
7920
+ "step": 11300
7921
+ },
7922
+ {
7923
+ "epoch": 0.5548299269670156,
7924
+ "grad_norm": 1.4453125,
7925
+ "learning_rate": 9.781951447009025e-05,
7926
+ "loss": 9.685,
7927
+ "step": 11310
7928
+ },
7929
+ {
7930
+ "epoch": 0.5553204927733525,
7931
+ "grad_norm": 1.5234375,
7932
+ "learning_rate": 9.781117046969743e-05,
7933
+ "loss": 9.4025,
7934
+ "step": 11320
7935
+ },
7936
+ {
7937
+ "epoch": 0.5558110585796894,
7938
+ "grad_norm": 1.5546875,
7939
+ "learning_rate": 9.780281089215325e-05,
7940
+ "loss": 9.1134,
7941
+ "step": 11330
7942
+ },
7943
+ {
7944
+ "epoch": 0.5563016243860263,
7945
+ "grad_norm": 1.3125,
7946
+ "learning_rate": 9.77944357401813e-05,
7947
+ "loss": 9.4538,
7948
+ "step": 11340
7949
+ },
7950
+ {
7951
+ "epoch": 0.5567921901923631,
7952
+ "grad_norm": 1.359375,
7953
+ "learning_rate": 9.778604501651024e-05,
7954
+ "loss": 9.0207,
7955
+ "step": 11350
7956
+ },
7957
+ {
7958
+ "epoch": 0.5572827559987,
7959
+ "grad_norm": 1.2109375,
7960
+ "learning_rate": 9.777763872387384e-05,
7961
+ "loss": 9.7341,
7962
+ "step": 11360
7963
+ },
7964
+ {
7965
+ "epoch": 0.5577733218050369,
7966
+ "grad_norm": 2.46875,
7967
+ "learning_rate": 9.776921686501089e-05,
7968
+ "loss": 9.9912,
7969
+ "step": 11370
7970
+ },
7971
+ {
7972
+ "epoch": 0.5582638876113738,
7973
+ "grad_norm": 1.21875,
7974
+ "learning_rate": 9.776077944266529e-05,
7975
+ "loss": 8.8371,
7976
+ "step": 11380
7977
+ },
7978
+ {
7979
+ "epoch": 0.5587544534177107,
7980
+ "grad_norm": 0.98828125,
7981
+ "learning_rate": 9.7752326459586e-05,
7982
+ "loss": 9.3957,
7983
+ "step": 11390
7984
+ },
7985
+ {
7986
+ "epoch": 0.5592450192240476,
7987
+ "grad_norm": 1.0859375,
7988
+ "learning_rate": 9.774385791852708e-05,
7989
+ "loss": 9.0049,
7990
+ "step": 11400
7991
+ },
7992
+ {
7993
+ "epoch": 0.5597355850303845,
7994
+ "grad_norm": 1.84375,
7995
+ "learning_rate": 9.773537382224758e-05,
7996
+ "loss": 9.448,
7997
+ "step": 11410
7998
+ },
7999
+ {
8000
+ "epoch": 0.5602261508367213,
8001
+ "grad_norm": 1.9140625,
8002
+ "learning_rate": 9.772687417351169e-05,
8003
+ "loss": 9.2995,
8004
+ "step": 11420
8005
+ },
8006
+ {
8007
+ "epoch": 0.5607167166430582,
8008
+ "grad_norm": 1.015625,
8009
+ "learning_rate": 9.771835897508864e-05,
8010
+ "loss": 8.856,
8011
+ "step": 11430
8012
+ },
8013
+ {
8014
+ "epoch": 0.5612072824493951,
8015
+ "grad_norm": 1.4375,
8016
+ "learning_rate": 9.770982822975275e-05,
8017
+ "loss": 9.4798,
8018
+ "step": 11440
8019
+ },
8020
+ {
8021
+ "epoch": 0.561697848255732,
8022
+ "grad_norm": 1.4296875,
8023
+ "learning_rate": 9.770128194028334e-05,
8024
+ "loss": 10.1526,
8025
+ "step": 11450
8026
+ },
8027
+ {
8028
+ "epoch": 0.5621884140620689,
8029
+ "grad_norm": 1.8203125,
8030
+ "learning_rate": 9.769272010946488e-05,
8031
+ "loss": 9.4594,
8032
+ "step": 11460
8033
+ },
8034
+ {
8035
+ "epoch": 0.5626789798684058,
8036
+ "grad_norm": 1.109375,
8037
+ "learning_rate": 9.768414274008686e-05,
8038
+ "loss": 8.7307,
8039
+ "step": 11470
8040
+ },
8041
+ {
8042
+ "epoch": 0.5631695456747426,
8043
+ "grad_norm": 0.921875,
8044
+ "learning_rate": 9.767554983494383e-05,
8045
+ "loss": 9.1459,
8046
+ "step": 11480
8047
+ },
8048
+ {
8049
+ "epoch": 0.5636601114810795,
8050
+ "grad_norm": 2.390625,
8051
+ "learning_rate": 9.766694139683539e-05,
8052
+ "loss": 9.6059,
8053
+ "step": 11490
8054
+ },
8055
+ {
8056
+ "epoch": 0.5641506772874164,
8057
+ "grad_norm": 1.5703125,
8058
+ "learning_rate": 9.765831742856624e-05,
8059
+ "loss": 9.5779,
8060
+ "step": 11500
8061
+ },
8062
+ {
8063
+ "epoch": 0.5646412430937533,
8064
+ "grad_norm": 1.40625,
8065
+ "learning_rate": 9.764967793294611e-05,
8066
+ "loss": 10.1103,
8067
+ "step": 11510
8068
+ },
8069
+ {
8070
+ "epoch": 0.5651318089000902,
8071
+ "grad_norm": 1.3359375,
8072
+ "learning_rate": 9.764102291278978e-05,
8073
+ "loss": 9.0898,
8074
+ "step": 11520
8075
+ },
8076
+ {
8077
+ "epoch": 0.5656223747064271,
8078
+ "grad_norm": 1.515625,
8079
+ "learning_rate": 9.763235237091714e-05,
8080
+ "loss": 9.6021,
8081
+ "step": 11530
8082
+ },
8083
+ {
8084
+ "epoch": 0.566112940512764,
8085
+ "grad_norm": 1.3125,
8086
+ "learning_rate": 9.762366631015307e-05,
8087
+ "loss": 9.3611,
8088
+ "step": 11540
8089
+ },
8090
+ {
8091
+ "epoch": 0.5666035063191008,
8092
+ "grad_norm": 1.1640625,
8093
+ "learning_rate": 9.761496473332756e-05,
8094
+ "loss": 8.6628,
8095
+ "step": 11550
8096
+ },
8097
+ {
8098
+ "epoch": 0.5670940721254377,
8099
+ "grad_norm": 2.765625,
8100
+ "learning_rate": 9.760624764327564e-05,
8101
+ "loss": 9.3294,
8102
+ "step": 11560
8103
+ },
8104
+ {
8105
+ "epoch": 0.5675846379317746,
8106
+ "grad_norm": 1.2421875,
8107
+ "learning_rate": 9.759751504283735e-05,
8108
+ "loss": 9.7098,
8109
+ "step": 11570
8110
+ },
8111
+ {
8112
+ "epoch": 0.5680752037381115,
8113
+ "grad_norm": 1.1484375,
8114
+ "learning_rate": 9.758876693485785e-05,
8115
+ "loss": 9.3732,
8116
+ "step": 11580
8117
+ },
8118
+ {
8119
+ "epoch": 0.5685657695444484,
8120
+ "grad_norm": 1.0234375,
8121
+ "learning_rate": 9.758000332218732e-05,
8122
+ "loss": 9.2857,
8123
+ "step": 11590
8124
+ },
8125
+ {
8126
+ "epoch": 0.5690563353507853,
8127
+ "grad_norm": 1.171875,
8128
+ "learning_rate": 9.757122420768099e-05,
8129
+ "loss": 8.9375,
8130
+ "step": 11600
8131
+ },
8132
+ {
8133
+ "epoch": 0.5695469011571221,
8134
+ "grad_norm": 1.765625,
8135
+ "learning_rate": 9.756242959419915e-05,
8136
+ "loss": 9.5477,
8137
+ "step": 11610
8138
+ },
8139
+ {
8140
+ "epoch": 0.570037466963459,
8141
+ "grad_norm": 1.3125,
8142
+ "learning_rate": 9.755361948460713e-05,
8143
+ "loss": 9.0618,
8144
+ "step": 11620
8145
+ },
8146
+ {
8147
+ "epoch": 0.5705280327697959,
8148
+ "grad_norm": 2.09375,
8149
+ "learning_rate": 9.754479388177531e-05,
8150
+ "loss": 9.4139,
8151
+ "step": 11630
8152
+ },
8153
+ {
8154
+ "epoch": 0.5710185985761328,
8155
+ "grad_norm": 1.2265625,
8156
+ "learning_rate": 9.753595278857912e-05,
8157
+ "loss": 9.6154,
8158
+ "step": 11640
8159
+ },
8160
+ {
8161
+ "epoch": 0.5715091643824697,
8162
+ "grad_norm": 1.0078125,
8163
+ "learning_rate": 9.752709620789906e-05,
8164
+ "loss": 8.8043,
8165
+ "step": 11650
8166
+ },
8167
+ {
8168
+ "epoch": 0.5719997301888066,
8169
+ "grad_norm": 1.265625,
8170
+ "learning_rate": 9.751822414262064e-05,
8171
+ "loss": 9.5509,
8172
+ "step": 11660
8173
+ },
8174
+ {
8175
+ "epoch": 0.5724902959951435,
8176
+ "grad_norm": 1.6875,
8177
+ "learning_rate": 9.750933659563444e-05,
8178
+ "loss": 9.223,
8179
+ "step": 11670
8180
+ },
8181
+ {
8182
+ "epoch": 0.5729808618014803,
8183
+ "grad_norm": 1.7890625,
8184
+ "learning_rate": 9.750043356983605e-05,
8185
+ "loss": 9.4112,
8186
+ "step": 11680
8187
+ },
8188
+ {
8189
+ "epoch": 0.5734714276078172,
8190
+ "grad_norm": 1.3515625,
8191
+ "learning_rate": 9.749151506812612e-05,
8192
+ "loss": 8.8999,
8193
+ "step": 11690
8194
+ },
8195
+ {
8196
+ "epoch": 0.5739619934141541,
8197
+ "grad_norm": 1.2265625,
8198
+ "learning_rate": 9.74825810934104e-05,
8199
+ "loss": 9.2815,
8200
+ "step": 11700
8201
+ },
8202
+ {
8203
+ "epoch": 0.574452559220491,
8204
+ "grad_norm": 1.0,
8205
+ "learning_rate": 9.747363164859959e-05,
8206
+ "loss": 9.3178,
8207
+ "step": 11710
8208
+ },
8209
+ {
8210
+ "epoch": 0.5749431250268279,
8211
+ "grad_norm": 1.1015625,
8212
+ "learning_rate": 9.746466673660947e-05,
8213
+ "loss": 9.0209,
8214
+ "step": 11720
8215
+ },
8216
+ {
8217
+ "epoch": 0.5754336908331646,
8218
+ "grad_norm": 2.0625,
8219
+ "learning_rate": 9.745568636036087e-05,
8220
+ "loss": 9.3736,
8221
+ "step": 11730
8222
+ },
8223
+ {
8224
+ "epoch": 0.5759242566395015,
8225
+ "grad_norm": 1.140625,
8226
+ "learning_rate": 9.744669052277966e-05,
8227
+ "loss": 9.5949,
8228
+ "step": 11740
8229
+ },
8230
+ {
8231
+ "epoch": 0.5764148224458384,
8232
+ "grad_norm": 0.91796875,
8233
+ "learning_rate": 9.74376792267967e-05,
8234
+ "loss": 9.2923,
8235
+ "step": 11750
8236
+ },
8237
+ {
8238
+ "epoch": 0.5769053882521753,
8239
+ "grad_norm": 1.09375,
8240
+ "learning_rate": 9.742865247534795e-05,
8241
+ "loss": 9.1704,
8242
+ "step": 11760
8243
+ },
8244
+ {
8245
+ "epoch": 0.5773959540585122,
8246
+ "grad_norm": 1.7734375,
8247
+ "learning_rate": 9.741961027137437e-05,
8248
+ "loss": 9.6,
8249
+ "step": 11770
8250
+ },
8251
+ {
8252
+ "epoch": 0.5778865198648491,
8253
+ "grad_norm": 0.9375,
8254
+ "learning_rate": 9.741055261782195e-05,
8255
+ "loss": 9.1026,
8256
+ "step": 11780
8257
+ },
8258
+ {
8259
+ "epoch": 0.578377085671186,
8260
+ "grad_norm": 1.2109375,
8261
+ "learning_rate": 9.740147951764175e-05,
8262
+ "loss": 9.5726,
8263
+ "step": 11790
8264
+ },
8265
+ {
8266
+ "epoch": 0.5788676514775228,
8267
+ "grad_norm": 1.1953125,
8268
+ "learning_rate": 9.739239097378981e-05,
8269
+ "loss": 8.7005,
8270
+ "step": 11800
8271
+ },
8272
+ {
8273
+ "epoch": 0.5793582172838597,
8274
+ "grad_norm": 1.1953125,
8275
+ "learning_rate": 9.738328698922725e-05,
8276
+ "loss": 9.0097,
8277
+ "step": 11810
8278
+ },
8279
+ {
8280
+ "epoch": 0.5798487830901966,
8281
+ "grad_norm": 1.515625,
8282
+ "learning_rate": 9.73741675669202e-05,
8283
+ "loss": 9.0148,
8284
+ "step": 11820
8285
+ },
8286
+ {
8287
+ "epoch": 0.5803393488965335,
8288
+ "grad_norm": 1.3359375,
8289
+ "learning_rate": 9.736503270983979e-05,
8290
+ "loss": 9.1574,
8291
+ "step": 11830
8292
+ },
8293
+ {
8294
+ "epoch": 0.5808299147028704,
8295
+ "grad_norm": 1.109375,
8296
+ "learning_rate": 9.735588242096225e-05,
8297
+ "loss": 9.2741,
8298
+ "step": 11840
8299
+ },
8300
+ {
8301
+ "epoch": 0.5813204805092073,
8302
+ "grad_norm": 1.625,
8303
+ "learning_rate": 9.734671670326875e-05,
8304
+ "loss": 9.3417,
8305
+ "step": 11850
8306
+ },
8307
+ {
8308
+ "epoch": 0.5818110463155441,
8309
+ "grad_norm": 1.3203125,
8310
+ "learning_rate": 9.733753555974558e-05,
8311
+ "loss": 9.5609,
8312
+ "step": 11860
8313
+ },
8314
+ {
8315
+ "epoch": 0.582301612121881,
8316
+ "grad_norm": 1.3515625,
8317
+ "learning_rate": 9.732833899338398e-05,
8318
+ "loss": 9.3026,
8319
+ "step": 11870
8320
+ },
8321
+ {
8322
+ "epoch": 0.5827921779282179,
8323
+ "grad_norm": 1.1953125,
8324
+ "learning_rate": 9.731912700718027e-05,
8325
+ "loss": 9.1469,
8326
+ "step": 11880
8327
+ },
8328
+ {
8329
+ "epoch": 0.5832827437345548,
8330
+ "grad_norm": 1.140625,
8331
+ "learning_rate": 9.730989960413572e-05,
8332
+ "loss": 9.0359,
8333
+ "step": 11890
8334
+ },
8335
+ {
8336
+ "epoch": 0.5837733095408917,
8337
+ "grad_norm": 1.515625,
8338
+ "learning_rate": 9.730065678725672e-05,
8339
+ "loss": 9.7309,
8340
+ "step": 11900
8341
+ },
8342
+ {
8343
+ "epoch": 0.5842638753472286,
8344
+ "grad_norm": 1.9140625,
8345
+ "learning_rate": 9.729139855955461e-05,
8346
+ "loss": 9.5244,
8347
+ "step": 11910
8348
+ },
8349
+ {
8350
+ "epoch": 0.5847544411535655,
8351
+ "grad_norm": 1.171875,
8352
+ "learning_rate": 9.728212492404578e-05,
8353
+ "loss": 8.8631,
8354
+ "step": 11920
8355
+ },
8356
+ {
8357
+ "epoch": 0.5852450069599023,
8358
+ "grad_norm": 0.78125,
8359
+ "learning_rate": 9.727283588375162e-05,
8360
+ "loss": 9.0954,
8361
+ "step": 11930
8362
+ },
8363
+ {
8364
+ "epoch": 0.5857355727662392,
8365
+ "grad_norm": 1.09375,
8366
+ "learning_rate": 9.726353144169856e-05,
8367
+ "loss": 9.5136,
8368
+ "step": 11940
8369
+ },
8370
+ {
8371
+ "epoch": 0.5862261385725761,
8372
+ "grad_norm": 1.7265625,
8373
+ "learning_rate": 9.725421160091805e-05,
8374
+ "loss": 9.4926,
8375
+ "step": 11950
8376
+ },
8377
+ {
8378
+ "epoch": 0.586716704378913,
8379
+ "grad_norm": 0.9375,
8380
+ "learning_rate": 9.724487636444653e-05,
8381
+ "loss": 8.8427,
8382
+ "step": 11960
8383
+ },
8384
+ {
8385
+ "epoch": 0.5872072701852499,
8386
+ "grad_norm": 1.53125,
8387
+ "learning_rate": 9.723552573532549e-05,
8388
+ "loss": 9.2992,
8389
+ "step": 11970
8390
+ },
8391
+ {
8392
+ "epoch": 0.5876978359915868,
8393
+ "grad_norm": 1.4609375,
8394
+ "learning_rate": 9.722615971660139e-05,
8395
+ "loss": 8.8732,
8396
+ "step": 11980
8397
+ },
8398
+ {
8399
+ "epoch": 0.5881884017979236,
8400
+ "grad_norm": 1.390625,
8401
+ "learning_rate": 9.721677831132576e-05,
8402
+ "loss": 9.6405,
8403
+ "step": 11990
8404
+ },
8405
+ {
8406
+ "epoch": 0.5886789676042605,
8407
+ "grad_norm": 1.328125,
8408
+ "learning_rate": 9.72073815225551e-05,
8409
+ "loss": 9.0488,
8410
+ "step": 12000
8411
  }
8412
  ],
8413
  "logging_steps": 10,
 
8427
  "attributes": {}
8428
  }
8429
  },
8430
+ "total_flos": 3.228194593308672e+19,
8431
  "train_batch_size": 2,
8432
  "trial_name": null,
8433
  "trial_params": null
checkpoints/{checkpoint-8000 β†’ checkpoint-12000}/training_args.bin RENAMED
File without changes
logs/events.out.tfevents.1752541902.c28835c37b83.8174.0 ADDED
@@ -0,0 +1,3 @@
 
 
 
 
1
+ version https://git-lfs.github.com/spec/v1
2
+ oid sha256:71ae173ee4aec44b839460a33e432e3a735e5f987d28c32455535ba3b815df66
3
+ size 47495
myolmoe/__pycache__/__init__.cpython-311.pyc CHANGED
Binary files a/myolmoe/__pycache__/__init__.cpython-311.pyc and b/myolmoe/__pycache__/__init__.cpython-311.pyc differ
 
myolmoe/__pycache__/modeling_myolmoe.cpython-311.pyc CHANGED
Binary files a/myolmoe/__pycache__/modeling_myolmoe.cpython-311.pyc and b/myolmoe/__pycache__/modeling_myolmoe.cpython-311.pyc differ
 
scripts/__pycache__/train.cpython-311.pyc CHANGED
Binary files a/scripts/__pycache__/train.cpython-311.pyc and b/scripts/__pycache__/train.cpython-311.pyc differ