error577 commited on
Commit
7b07e6c
·
verified ·
1 Parent(s): 19242ed

Training in progress, step 2000, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:31ff004b8b55eb38e17187c7822c0e80a791c8881388438ec2edf7e34a0163ec
3
  size 131146352
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7d7aaa685261b3afe296744967871ae170b00f3a12fbca41b116d59523c6ad48
3
  size 131146352
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c4ef132ddd2fcf02138d3d475e1f6f13ee38ab4bfdcf74835ccb39f664f51ace
3
  size 100504276
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f9d98228fdd2721a1d868f0bee377ff826261ed0349666236f8d469b541b3b77
3
  size 100504276
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2c06b893ba57aca6374e037b519f13259d2f63d1654d82b4d093cfc43a6490af
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:bd5de1611ebbbf2fd1502f49c159d3a2a4dc14405577cf1d7ce009832b365a1e
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d8e1e886ba269f608335b2a2a84983b4f136968a26a27413a91ebbba4d3699d3
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:caddfe2510bb3fb51f92842ebda09fb971c0438d83b17244ee91b48e1ac1dfa4
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.04605964198708534,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-1000",
4
- "epoch": 0.19097130125722772,
5
  "eval_steps": 200,
6
- "global_step": 1800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -12687,6 +12687,1414 @@
12687
  "eval_samples_per_second": 3.099,
12688
  "eval_steps_per_second": 1.55,
12689
  "step": 1800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
12690
  }
12691
  ],
12692
  "logging_steps": 1,
@@ -12701,7 +14109,7 @@
12701
  "early_stopping_threshold": 0.0
12702
  },
12703
  "attributes": {
12704
- "early_stopping_patience_counter": 4
12705
  }
12706
  },
12707
  "TrainerControl": {
@@ -12710,12 +14118,12 @@
12710
  "should_evaluate": false,
12711
  "should_log": false,
12712
  "should_save": true,
12713
- "should_training_stop": false
12714
  },
12715
  "attributes": {}
12716
  }
12717
  },
12718
- "total_flos": 5.528632410243072e+17,
12719
  "train_batch_size": 2,
12720
  "trial_name": null,
12721
  "trial_params": null
 
1
  {
2
  "best_metric": 0.04605964198708534,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-1000",
4
+ "epoch": 0.21219033473025303,
5
  "eval_steps": 200,
6
+ "global_step": 2000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
12687
  "eval_samples_per_second": 3.099,
12688
  "eval_steps_per_second": 1.55,
12689
  "step": 1800
12690
+ },
12691
+ {
12692
+ "epoch": 0.19107739642459287,
12693
+ "grad_norm": 11.973516464233398,
12694
+ "learning_rate": 0.0002,
12695
+ "loss": 0.5195,
12696
+ "step": 1801
12697
+ },
12698
+ {
12699
+ "epoch": 0.191183491591958,
12700
+ "grad_norm": 13.648773193359375,
12701
+ "learning_rate": 0.0002,
12702
+ "loss": 0.4407,
12703
+ "step": 1802
12704
+ },
12705
+ {
12706
+ "epoch": 0.19128958675932312,
12707
+ "grad_norm": 14.053433418273926,
12708
+ "learning_rate": 0.0002,
12709
+ "loss": 0.4218,
12710
+ "step": 1803
12711
+ },
12712
+ {
12713
+ "epoch": 0.19139568192668824,
12714
+ "grad_norm": 8.898798942565918,
12715
+ "learning_rate": 0.0002,
12716
+ "loss": 0.2504,
12717
+ "step": 1804
12718
+ },
12719
+ {
12720
+ "epoch": 0.19150177709405336,
12721
+ "grad_norm": 11.541996002197266,
12722
+ "learning_rate": 0.0002,
12723
+ "loss": 0.412,
12724
+ "step": 1805
12725
+ },
12726
+ {
12727
+ "epoch": 0.19160787226141848,
12728
+ "grad_norm": 12.278501510620117,
12729
+ "learning_rate": 0.0002,
12730
+ "loss": 0.2878,
12731
+ "step": 1806
12732
+ },
12733
+ {
12734
+ "epoch": 0.19171396742878363,
12735
+ "grad_norm": 11.775163650512695,
12736
+ "learning_rate": 0.0002,
12737
+ "loss": 0.3137,
12738
+ "step": 1807
12739
+ },
12740
+ {
12741
+ "epoch": 0.19182006259614875,
12742
+ "grad_norm": 25.81998062133789,
12743
+ "learning_rate": 0.0002,
12744
+ "loss": 0.9673,
12745
+ "step": 1808
12746
+ },
12747
+ {
12748
+ "epoch": 0.19192615776351388,
12749
+ "grad_norm": 11.692366600036621,
12750
+ "learning_rate": 0.0002,
12751
+ "loss": 0.3589,
12752
+ "step": 1809
12753
+ },
12754
+ {
12755
+ "epoch": 0.192032252930879,
12756
+ "grad_norm": 14.256837844848633,
12757
+ "learning_rate": 0.0002,
12758
+ "loss": 0.6104,
12759
+ "step": 1810
12760
+ },
12761
+ {
12762
+ "epoch": 0.19213834809824412,
12763
+ "grad_norm": 11.998114585876465,
12764
+ "learning_rate": 0.0002,
12765
+ "loss": 0.562,
12766
+ "step": 1811
12767
+ },
12768
+ {
12769
+ "epoch": 0.19224444326560924,
12770
+ "grad_norm": 32.41331481933594,
12771
+ "learning_rate": 0.0002,
12772
+ "loss": 0.8253,
12773
+ "step": 1812
12774
+ },
12775
+ {
12776
+ "epoch": 0.19235053843297437,
12777
+ "grad_norm": 12.255899429321289,
12778
+ "learning_rate": 0.0002,
12779
+ "loss": 0.4575,
12780
+ "step": 1813
12781
+ },
12782
+ {
12783
+ "epoch": 0.19245663360033952,
12784
+ "grad_norm": 11.854296684265137,
12785
+ "learning_rate": 0.0002,
12786
+ "loss": 0.3011,
12787
+ "step": 1814
12788
+ },
12789
+ {
12790
+ "epoch": 0.19256272876770464,
12791
+ "grad_norm": 10.283979415893555,
12792
+ "learning_rate": 0.0002,
12793
+ "loss": 0.317,
12794
+ "step": 1815
12795
+ },
12796
+ {
12797
+ "epoch": 0.19266882393506976,
12798
+ "grad_norm": 11.655998229980469,
12799
+ "learning_rate": 0.0002,
12800
+ "loss": 0.2525,
12801
+ "step": 1816
12802
+ },
12803
+ {
12804
+ "epoch": 0.19277491910243488,
12805
+ "grad_norm": 15.008488655090332,
12806
+ "learning_rate": 0.0002,
12807
+ "loss": 0.4122,
12808
+ "step": 1817
12809
+ },
12810
+ {
12811
+ "epoch": 0.1928810142698,
12812
+ "grad_norm": 24.866716384887695,
12813
+ "learning_rate": 0.0002,
12814
+ "loss": 0.6445,
12815
+ "step": 1818
12816
+ },
12817
+ {
12818
+ "epoch": 0.19298710943716513,
12819
+ "grad_norm": 15.7054443359375,
12820
+ "learning_rate": 0.0002,
12821
+ "loss": 0.4773,
12822
+ "step": 1819
12823
+ },
12824
+ {
12825
+ "epoch": 0.19309320460453028,
12826
+ "grad_norm": 14.796554565429688,
12827
+ "learning_rate": 0.0002,
12828
+ "loss": 0.4028,
12829
+ "step": 1820
12830
+ },
12831
+ {
12832
+ "epoch": 0.1931992997718954,
12833
+ "grad_norm": 8.425761222839355,
12834
+ "learning_rate": 0.0002,
12835
+ "loss": 0.2304,
12836
+ "step": 1821
12837
+ },
12838
+ {
12839
+ "epoch": 0.19330539493926052,
12840
+ "grad_norm": 9.347795486450195,
12841
+ "learning_rate": 0.0002,
12842
+ "loss": 0.1648,
12843
+ "step": 1822
12844
+ },
12845
+ {
12846
+ "epoch": 0.19341149010662564,
12847
+ "grad_norm": 19.97274398803711,
12848
+ "learning_rate": 0.0002,
12849
+ "loss": 0.4444,
12850
+ "step": 1823
12851
+ },
12852
+ {
12853
+ "epoch": 0.19351758527399077,
12854
+ "grad_norm": 17.487125396728516,
12855
+ "learning_rate": 0.0002,
12856
+ "loss": 0.6775,
12857
+ "step": 1824
12858
+ },
12859
+ {
12860
+ "epoch": 0.1936236804413559,
12861
+ "grad_norm": 14.758285522460938,
12862
+ "learning_rate": 0.0002,
12863
+ "loss": 0.6895,
12864
+ "step": 1825
12865
+ },
12866
+ {
12867
+ "epoch": 0.193729775608721,
12868
+ "grad_norm": 12.200145721435547,
12869
+ "learning_rate": 0.0002,
12870
+ "loss": 0.3426,
12871
+ "step": 1826
12872
+ },
12873
+ {
12874
+ "epoch": 0.19383587077608616,
12875
+ "grad_norm": 9.568778038024902,
12876
+ "learning_rate": 0.0002,
12877
+ "loss": 0.2708,
12878
+ "step": 1827
12879
+ },
12880
+ {
12881
+ "epoch": 0.19394196594345128,
12882
+ "grad_norm": 9.887347221374512,
12883
+ "learning_rate": 0.0002,
12884
+ "loss": 0.3934,
12885
+ "step": 1828
12886
+ },
12887
+ {
12888
+ "epoch": 0.1940480611108164,
12889
+ "grad_norm": 8.589701652526855,
12890
+ "learning_rate": 0.0002,
12891
+ "loss": 0.2078,
12892
+ "step": 1829
12893
+ },
12894
+ {
12895
+ "epoch": 0.19415415627818153,
12896
+ "grad_norm": 14.782073020935059,
12897
+ "learning_rate": 0.0002,
12898
+ "loss": 0.6231,
12899
+ "step": 1830
12900
+ },
12901
+ {
12902
+ "epoch": 0.19426025144554665,
12903
+ "grad_norm": 12.22297191619873,
12904
+ "learning_rate": 0.0002,
12905
+ "loss": 0.3707,
12906
+ "step": 1831
12907
+ },
12908
+ {
12909
+ "epoch": 0.19436634661291177,
12910
+ "grad_norm": 16.9269962310791,
12911
+ "learning_rate": 0.0002,
12912
+ "loss": 0.4052,
12913
+ "step": 1832
12914
+ },
12915
+ {
12916
+ "epoch": 0.1944724417802769,
12917
+ "grad_norm": 8.047760009765625,
12918
+ "learning_rate": 0.0002,
12919
+ "loss": 0.162,
12920
+ "step": 1833
12921
+ },
12922
+ {
12923
+ "epoch": 0.19457853694764204,
12924
+ "grad_norm": 21.03431510925293,
12925
+ "learning_rate": 0.0002,
12926
+ "loss": 0.5198,
12927
+ "step": 1834
12928
+ },
12929
+ {
12930
+ "epoch": 0.19468463211500717,
12931
+ "grad_norm": 15.277742385864258,
12932
+ "learning_rate": 0.0002,
12933
+ "loss": 0.5419,
12934
+ "step": 1835
12935
+ },
12936
+ {
12937
+ "epoch": 0.1947907272823723,
12938
+ "grad_norm": 11.20261001586914,
12939
+ "learning_rate": 0.0002,
12940
+ "loss": 0.3225,
12941
+ "step": 1836
12942
+ },
12943
+ {
12944
+ "epoch": 0.1948968224497374,
12945
+ "grad_norm": 11.161260604858398,
12946
+ "learning_rate": 0.0002,
12947
+ "loss": 0.3504,
12948
+ "step": 1837
12949
+ },
12950
+ {
12951
+ "epoch": 0.19500291761710253,
12952
+ "grad_norm": 10.465251922607422,
12953
+ "learning_rate": 0.0002,
12954
+ "loss": 0.291,
12955
+ "step": 1838
12956
+ },
12957
+ {
12958
+ "epoch": 0.19510901278446766,
12959
+ "grad_norm": 13.156329154968262,
12960
+ "learning_rate": 0.0002,
12961
+ "loss": 0.274,
12962
+ "step": 1839
12963
+ },
12964
+ {
12965
+ "epoch": 0.1952151079518328,
12966
+ "grad_norm": 12.088260650634766,
12967
+ "learning_rate": 0.0002,
12968
+ "loss": 0.3832,
12969
+ "step": 1840
12970
+ },
12971
+ {
12972
+ "epoch": 0.19532120311919793,
12973
+ "grad_norm": 10.063664436340332,
12974
+ "learning_rate": 0.0002,
12975
+ "loss": 0.2655,
12976
+ "step": 1841
12977
+ },
12978
+ {
12979
+ "epoch": 0.19542729828656305,
12980
+ "grad_norm": 20.324556350708008,
12981
+ "learning_rate": 0.0002,
12982
+ "loss": 0.6767,
12983
+ "step": 1842
12984
+ },
12985
+ {
12986
+ "epoch": 0.19553339345392817,
12987
+ "grad_norm": 15.555030822753906,
12988
+ "learning_rate": 0.0002,
12989
+ "loss": 0.4542,
12990
+ "step": 1843
12991
+ },
12992
+ {
12993
+ "epoch": 0.1956394886212933,
12994
+ "grad_norm": 11.756216049194336,
12995
+ "learning_rate": 0.0002,
12996
+ "loss": 0.2903,
12997
+ "step": 1844
12998
+ },
12999
+ {
13000
+ "epoch": 0.19574558378865842,
13001
+ "grad_norm": 12.901598930358887,
13002
+ "learning_rate": 0.0002,
13003
+ "loss": 0.2461,
13004
+ "step": 1845
13005
+ },
13006
+ {
13007
+ "epoch": 0.19585167895602354,
13008
+ "grad_norm": 12.909900665283203,
13009
+ "learning_rate": 0.0002,
13010
+ "loss": 0.2036,
13011
+ "step": 1846
13012
+ },
13013
+ {
13014
+ "epoch": 0.1959577741233887,
13015
+ "grad_norm": 29.316614151000977,
13016
+ "learning_rate": 0.0002,
13017
+ "loss": 0.7306,
13018
+ "step": 1847
13019
+ },
13020
+ {
13021
+ "epoch": 0.1960638692907538,
13022
+ "grad_norm": 15.195932388305664,
13023
+ "learning_rate": 0.0002,
13024
+ "loss": 0.3376,
13025
+ "step": 1848
13026
+ },
13027
+ {
13028
+ "epoch": 0.19616996445811893,
13029
+ "grad_norm": 26.223342895507812,
13030
+ "learning_rate": 0.0002,
13031
+ "loss": 0.6249,
13032
+ "step": 1849
13033
+ },
13034
+ {
13035
+ "epoch": 0.19627605962548406,
13036
+ "grad_norm": 54.965476989746094,
13037
+ "learning_rate": 0.0002,
13038
+ "loss": 1.2955,
13039
+ "step": 1850
13040
+ },
13041
+ {
13042
+ "epoch": 0.19638215479284918,
13043
+ "grad_norm": 11.079299926757812,
13044
+ "learning_rate": 0.0002,
13045
+ "loss": 0.3579,
13046
+ "step": 1851
13047
+ },
13048
+ {
13049
+ "epoch": 0.1964882499602143,
13050
+ "grad_norm": 16.85772705078125,
13051
+ "learning_rate": 0.0002,
13052
+ "loss": 0.5197,
13053
+ "step": 1852
13054
+ },
13055
+ {
13056
+ "epoch": 0.19659434512757945,
13057
+ "grad_norm": 8.756264686584473,
13058
+ "learning_rate": 0.0002,
13059
+ "loss": 0.315,
13060
+ "step": 1853
13061
+ },
13062
+ {
13063
+ "epoch": 0.19670044029494457,
13064
+ "grad_norm": 11.708443641662598,
13065
+ "learning_rate": 0.0002,
13066
+ "loss": 0.4476,
13067
+ "step": 1854
13068
+ },
13069
+ {
13070
+ "epoch": 0.1968065354623097,
13071
+ "grad_norm": 8.348597526550293,
13072
+ "learning_rate": 0.0002,
13073
+ "loss": 0.2428,
13074
+ "step": 1855
13075
+ },
13076
+ {
13077
+ "epoch": 0.19691263062967482,
13078
+ "grad_norm": 11.08547306060791,
13079
+ "learning_rate": 0.0002,
13080
+ "loss": 0.3423,
13081
+ "step": 1856
13082
+ },
13083
+ {
13084
+ "epoch": 0.19701872579703994,
13085
+ "grad_norm": 12.654924392700195,
13086
+ "learning_rate": 0.0002,
13087
+ "loss": 0.2776,
13088
+ "step": 1857
13089
+ },
13090
+ {
13091
+ "epoch": 0.19712482096440506,
13092
+ "grad_norm": 10.462535858154297,
13093
+ "learning_rate": 0.0002,
13094
+ "loss": 0.3146,
13095
+ "step": 1858
13096
+ },
13097
+ {
13098
+ "epoch": 0.19723091613177018,
13099
+ "grad_norm": 12.572681427001953,
13100
+ "learning_rate": 0.0002,
13101
+ "loss": 0.3515,
13102
+ "step": 1859
13103
+ },
13104
+ {
13105
+ "epoch": 0.19733701129913533,
13106
+ "grad_norm": 24.782554626464844,
13107
+ "learning_rate": 0.0002,
13108
+ "loss": 1.2541,
13109
+ "step": 1860
13110
+ },
13111
+ {
13112
+ "epoch": 0.19744310646650046,
13113
+ "grad_norm": 18.930397033691406,
13114
+ "learning_rate": 0.0002,
13115
+ "loss": 1.0464,
13116
+ "step": 1861
13117
+ },
13118
+ {
13119
+ "epoch": 0.19754920163386558,
13120
+ "grad_norm": 17.272188186645508,
13121
+ "learning_rate": 0.0002,
13122
+ "loss": 0.6867,
13123
+ "step": 1862
13124
+ },
13125
+ {
13126
+ "epoch": 0.1976552968012307,
13127
+ "grad_norm": 8.97216510772705,
13128
+ "learning_rate": 0.0002,
13129
+ "loss": 0.2629,
13130
+ "step": 1863
13131
+ },
13132
+ {
13133
+ "epoch": 0.19776139196859582,
13134
+ "grad_norm": 14.530451774597168,
13135
+ "learning_rate": 0.0002,
13136
+ "loss": 0.4877,
13137
+ "step": 1864
13138
+ },
13139
+ {
13140
+ "epoch": 0.19786748713596095,
13141
+ "grad_norm": 27.645219802856445,
13142
+ "learning_rate": 0.0002,
13143
+ "loss": 1.0175,
13144
+ "step": 1865
13145
+ },
13146
+ {
13147
+ "epoch": 0.1979735823033261,
13148
+ "grad_norm": 36.620418548583984,
13149
+ "learning_rate": 0.0002,
13150
+ "loss": 0.3694,
13151
+ "step": 1866
13152
+ },
13153
+ {
13154
+ "epoch": 0.19807967747069122,
13155
+ "grad_norm": 9.33489990234375,
13156
+ "learning_rate": 0.0002,
13157
+ "loss": 0.3426,
13158
+ "step": 1867
13159
+ },
13160
+ {
13161
+ "epoch": 0.19818577263805634,
13162
+ "grad_norm": 14.539624214172363,
13163
+ "learning_rate": 0.0002,
13164
+ "loss": 0.4171,
13165
+ "step": 1868
13166
+ },
13167
+ {
13168
+ "epoch": 0.19829186780542146,
13169
+ "grad_norm": 35.03657150268555,
13170
+ "learning_rate": 0.0002,
13171
+ "loss": 0.5745,
13172
+ "step": 1869
13173
+ },
13174
+ {
13175
+ "epoch": 0.19839796297278658,
13176
+ "grad_norm": 13.36026668548584,
13177
+ "learning_rate": 0.0002,
13178
+ "loss": 0.4808,
13179
+ "step": 1870
13180
+ },
13181
+ {
13182
+ "epoch": 0.1985040581401517,
13183
+ "grad_norm": 18.056222915649414,
13184
+ "learning_rate": 0.0002,
13185
+ "loss": 0.6919,
13186
+ "step": 1871
13187
+ },
13188
+ {
13189
+ "epoch": 0.19861015330751683,
13190
+ "grad_norm": 14.416003227233887,
13191
+ "learning_rate": 0.0002,
13192
+ "loss": 0.388,
13193
+ "step": 1872
13194
+ },
13195
+ {
13196
+ "epoch": 0.19871624847488198,
13197
+ "grad_norm": 10.51855182647705,
13198
+ "learning_rate": 0.0002,
13199
+ "loss": 0.23,
13200
+ "step": 1873
13201
+ },
13202
+ {
13203
+ "epoch": 0.1988223436422471,
13204
+ "grad_norm": 7.608283042907715,
13205
+ "learning_rate": 0.0002,
13206
+ "loss": 0.2525,
13207
+ "step": 1874
13208
+ },
13209
+ {
13210
+ "epoch": 0.19892843880961222,
13211
+ "grad_norm": 9.749930381774902,
13212
+ "learning_rate": 0.0002,
13213
+ "loss": 0.2905,
13214
+ "step": 1875
13215
+ },
13216
+ {
13217
+ "epoch": 0.19903453397697735,
13218
+ "grad_norm": 11.786905288696289,
13219
+ "learning_rate": 0.0002,
13220
+ "loss": 0.3856,
13221
+ "step": 1876
13222
+ },
13223
+ {
13224
+ "epoch": 0.19914062914434247,
13225
+ "grad_norm": 10.049060821533203,
13226
+ "learning_rate": 0.0002,
13227
+ "loss": 0.2378,
13228
+ "step": 1877
13229
+ },
13230
+ {
13231
+ "epoch": 0.1992467243117076,
13232
+ "grad_norm": 13.473280906677246,
13233
+ "learning_rate": 0.0002,
13234
+ "loss": 0.4349,
13235
+ "step": 1878
13236
+ },
13237
+ {
13238
+ "epoch": 0.19935281947907274,
13239
+ "grad_norm": 12.198131561279297,
13240
+ "learning_rate": 0.0002,
13241
+ "loss": 0.288,
13242
+ "step": 1879
13243
+ },
13244
+ {
13245
+ "epoch": 0.19945891464643786,
13246
+ "grad_norm": 9.339247703552246,
13247
+ "learning_rate": 0.0002,
13248
+ "loss": 0.2361,
13249
+ "step": 1880
13250
+ },
13251
+ {
13252
+ "epoch": 0.19956500981380298,
13253
+ "grad_norm": 9.391952514648438,
13254
+ "learning_rate": 0.0002,
13255
+ "loss": 0.2137,
13256
+ "step": 1881
13257
+ },
13258
+ {
13259
+ "epoch": 0.1996711049811681,
13260
+ "grad_norm": 12.258066177368164,
13261
+ "learning_rate": 0.0002,
13262
+ "loss": 0.4481,
13263
+ "step": 1882
13264
+ },
13265
+ {
13266
+ "epoch": 0.19977720014853323,
13267
+ "grad_norm": 16.392196655273438,
13268
+ "learning_rate": 0.0002,
13269
+ "loss": 0.3329,
13270
+ "step": 1883
13271
+ },
13272
+ {
13273
+ "epoch": 0.19988329531589835,
13274
+ "grad_norm": 12.977359771728516,
13275
+ "learning_rate": 0.0002,
13276
+ "loss": 0.2842,
13277
+ "step": 1884
13278
+ },
13279
+ {
13280
+ "epoch": 0.19998939048326347,
13281
+ "grad_norm": 19.84929847717285,
13282
+ "learning_rate": 0.0002,
13283
+ "loss": 0.6797,
13284
+ "step": 1885
13285
+ },
13286
+ {
13287
+ "epoch": 0.20009548565062862,
13288
+ "grad_norm": 48.05202102661133,
13289
+ "learning_rate": 0.0002,
13290
+ "loss": 1.786,
13291
+ "step": 1886
13292
+ },
13293
+ {
13294
+ "epoch": 0.20020158081799375,
13295
+ "grad_norm": 12.765398979187012,
13296
+ "learning_rate": 0.0002,
13297
+ "loss": 0.3423,
13298
+ "step": 1887
13299
+ },
13300
+ {
13301
+ "epoch": 0.20030767598535887,
13302
+ "grad_norm": 19.887285232543945,
13303
+ "learning_rate": 0.0002,
13304
+ "loss": 0.4916,
13305
+ "step": 1888
13306
+ },
13307
+ {
13308
+ "epoch": 0.200413771152724,
13309
+ "grad_norm": 13.6176176071167,
13310
+ "learning_rate": 0.0002,
13311
+ "loss": 0.3471,
13312
+ "step": 1889
13313
+ },
13314
+ {
13315
+ "epoch": 0.2005198663200891,
13316
+ "grad_norm": 13.934061050415039,
13317
+ "learning_rate": 0.0002,
13318
+ "loss": 0.1911,
13319
+ "step": 1890
13320
+ },
13321
+ {
13322
+ "epoch": 0.20062596148745424,
13323
+ "grad_norm": 23.99123764038086,
13324
+ "learning_rate": 0.0002,
13325
+ "loss": 0.7122,
13326
+ "step": 1891
13327
+ },
13328
+ {
13329
+ "epoch": 0.20073205665481939,
13330
+ "grad_norm": 15.125777244567871,
13331
+ "learning_rate": 0.0002,
13332
+ "loss": 0.3353,
13333
+ "step": 1892
13334
+ },
13335
+ {
13336
+ "epoch": 0.2008381518221845,
13337
+ "grad_norm": 20.685012817382812,
13338
+ "learning_rate": 0.0002,
13339
+ "loss": 0.3356,
13340
+ "step": 1893
13341
+ },
13342
+ {
13343
+ "epoch": 0.20094424698954963,
13344
+ "grad_norm": 29.08856201171875,
13345
+ "learning_rate": 0.0002,
13346
+ "loss": 0.766,
13347
+ "step": 1894
13348
+ },
13349
+ {
13350
+ "epoch": 0.20105034215691475,
13351
+ "grad_norm": 15.402732849121094,
13352
+ "learning_rate": 0.0002,
13353
+ "loss": 0.2714,
13354
+ "step": 1895
13355
+ },
13356
+ {
13357
+ "epoch": 0.20115643732427987,
13358
+ "grad_norm": 17.05105972290039,
13359
+ "learning_rate": 0.0002,
13360
+ "loss": 0.222,
13361
+ "step": 1896
13362
+ },
13363
+ {
13364
+ "epoch": 0.201262532491645,
13365
+ "grad_norm": 20.897106170654297,
13366
+ "learning_rate": 0.0002,
13367
+ "loss": 0.347,
13368
+ "step": 1897
13369
+ },
13370
+ {
13371
+ "epoch": 0.20136862765901012,
13372
+ "grad_norm": 21.797945022583008,
13373
+ "learning_rate": 0.0002,
13374
+ "loss": 0.2689,
13375
+ "step": 1898
13376
+ },
13377
+ {
13378
+ "epoch": 0.20147472282637527,
13379
+ "grad_norm": 46.205474853515625,
13380
+ "learning_rate": 0.0002,
13381
+ "loss": 1.1047,
13382
+ "step": 1899
13383
+ },
13384
+ {
13385
+ "epoch": 0.2015808179937404,
13386
+ "grad_norm": 65.57044219970703,
13387
+ "learning_rate": 0.0002,
13388
+ "loss": 0.6946,
13389
+ "step": 1900
13390
+ },
13391
+ {
13392
+ "epoch": 0.2016869131611055,
13393
+ "grad_norm": 16.566082000732422,
13394
+ "learning_rate": 0.0002,
13395
+ "loss": 0.4787,
13396
+ "step": 1901
13397
+ },
13398
+ {
13399
+ "epoch": 0.20179300832847064,
13400
+ "grad_norm": 12.95843505859375,
13401
+ "learning_rate": 0.0002,
13402
+ "loss": 0.401,
13403
+ "step": 1902
13404
+ },
13405
+ {
13406
+ "epoch": 0.20189910349583576,
13407
+ "grad_norm": 17.400684356689453,
13408
+ "learning_rate": 0.0002,
13409
+ "loss": 0.8859,
13410
+ "step": 1903
13411
+ },
13412
+ {
13413
+ "epoch": 0.20200519866320088,
13414
+ "grad_norm": 28.6886043548584,
13415
+ "learning_rate": 0.0002,
13416
+ "loss": 0.6788,
13417
+ "step": 1904
13418
+ },
13419
+ {
13420
+ "epoch": 0.20211129383056603,
13421
+ "grad_norm": 10.269400596618652,
13422
+ "learning_rate": 0.0002,
13423
+ "loss": 0.1948,
13424
+ "step": 1905
13425
+ },
13426
+ {
13427
+ "epoch": 0.20221738899793115,
13428
+ "grad_norm": 11.603761672973633,
13429
+ "learning_rate": 0.0002,
13430
+ "loss": 0.4795,
13431
+ "step": 1906
13432
+ },
13433
+ {
13434
+ "epoch": 0.20232348416529627,
13435
+ "grad_norm": 6.843310832977295,
13436
+ "learning_rate": 0.0002,
13437
+ "loss": 0.1584,
13438
+ "step": 1907
13439
+ },
13440
+ {
13441
+ "epoch": 0.2024295793326614,
13442
+ "grad_norm": 13.871763229370117,
13443
+ "learning_rate": 0.0002,
13444
+ "loss": 0.5931,
13445
+ "step": 1908
13446
+ },
13447
+ {
13448
+ "epoch": 0.20253567450002652,
13449
+ "grad_norm": 8.748895645141602,
13450
+ "learning_rate": 0.0002,
13451
+ "loss": 0.2146,
13452
+ "step": 1909
13453
+ },
13454
+ {
13455
+ "epoch": 0.20264176966739164,
13456
+ "grad_norm": 14.856563568115234,
13457
+ "learning_rate": 0.0002,
13458
+ "loss": 0.5295,
13459
+ "step": 1910
13460
+ },
13461
+ {
13462
+ "epoch": 0.20274786483475676,
13463
+ "grad_norm": 17.709304809570312,
13464
+ "learning_rate": 0.0002,
13465
+ "loss": 0.7204,
13466
+ "step": 1911
13467
+ },
13468
+ {
13469
+ "epoch": 0.2028539600021219,
13470
+ "grad_norm": 11.735471725463867,
13471
+ "learning_rate": 0.0002,
13472
+ "loss": 0.6156,
13473
+ "step": 1912
13474
+ },
13475
+ {
13476
+ "epoch": 0.20296005516948704,
13477
+ "grad_norm": 14.17144775390625,
13478
+ "learning_rate": 0.0002,
13479
+ "loss": 0.3229,
13480
+ "step": 1913
13481
+ },
13482
+ {
13483
+ "epoch": 0.20306615033685216,
13484
+ "grad_norm": 10.109726905822754,
13485
+ "learning_rate": 0.0002,
13486
+ "loss": 0.3227,
13487
+ "step": 1914
13488
+ },
13489
+ {
13490
+ "epoch": 0.20317224550421728,
13491
+ "grad_norm": 9.504593849182129,
13492
+ "learning_rate": 0.0002,
13493
+ "loss": 0.2763,
13494
+ "step": 1915
13495
+ },
13496
+ {
13497
+ "epoch": 0.2032783406715824,
13498
+ "grad_norm": 7.491418838500977,
13499
+ "learning_rate": 0.0002,
13500
+ "loss": 0.2206,
13501
+ "step": 1916
13502
+ },
13503
+ {
13504
+ "epoch": 0.20338443583894752,
13505
+ "grad_norm": 22.111404418945312,
13506
+ "learning_rate": 0.0002,
13507
+ "loss": 0.8397,
13508
+ "step": 1917
13509
+ },
13510
+ {
13511
+ "epoch": 0.20349053100631267,
13512
+ "grad_norm": 8.938793182373047,
13513
+ "learning_rate": 0.0002,
13514
+ "loss": 0.187,
13515
+ "step": 1918
13516
+ },
13517
+ {
13518
+ "epoch": 0.2035966261736778,
13519
+ "grad_norm": 26.22866439819336,
13520
+ "learning_rate": 0.0002,
13521
+ "loss": 0.8912,
13522
+ "step": 1919
13523
+ },
13524
+ {
13525
+ "epoch": 0.20370272134104292,
13526
+ "grad_norm": 12.978878021240234,
13527
+ "learning_rate": 0.0002,
13528
+ "loss": 0.3688,
13529
+ "step": 1920
13530
+ },
13531
+ {
13532
+ "epoch": 0.20380881650840804,
13533
+ "grad_norm": 9.686880111694336,
13534
+ "learning_rate": 0.0002,
13535
+ "loss": 0.279,
13536
+ "step": 1921
13537
+ },
13538
+ {
13539
+ "epoch": 0.20391491167577316,
13540
+ "grad_norm": 16.341140747070312,
13541
+ "learning_rate": 0.0002,
13542
+ "loss": 0.4399,
13543
+ "step": 1922
13544
+ },
13545
+ {
13546
+ "epoch": 0.2040210068431383,
13547
+ "grad_norm": 17.958215713500977,
13548
+ "learning_rate": 0.0002,
13549
+ "loss": 0.4676,
13550
+ "step": 1923
13551
+ },
13552
+ {
13553
+ "epoch": 0.2041271020105034,
13554
+ "grad_norm": 11.114178657531738,
13555
+ "learning_rate": 0.0002,
13556
+ "loss": 0.2161,
13557
+ "step": 1924
13558
+ },
13559
+ {
13560
+ "epoch": 0.20423319717786856,
13561
+ "grad_norm": 11.498400688171387,
13562
+ "learning_rate": 0.0002,
13563
+ "loss": 0.3151,
13564
+ "step": 1925
13565
+ },
13566
+ {
13567
+ "epoch": 0.20433929234523368,
13568
+ "grad_norm": 14.76335620880127,
13569
+ "learning_rate": 0.0002,
13570
+ "loss": 0.4503,
13571
+ "step": 1926
13572
+ },
13573
+ {
13574
+ "epoch": 0.2044453875125988,
13575
+ "grad_norm": 10.639660835266113,
13576
+ "learning_rate": 0.0002,
13577
+ "loss": 0.2708,
13578
+ "step": 1927
13579
+ },
13580
+ {
13581
+ "epoch": 0.20455148267996393,
13582
+ "grad_norm": 11.618061065673828,
13583
+ "learning_rate": 0.0002,
13584
+ "loss": 0.402,
13585
+ "step": 1928
13586
+ },
13587
+ {
13588
+ "epoch": 0.20465757784732905,
13589
+ "grad_norm": 14.436708450317383,
13590
+ "learning_rate": 0.0002,
13591
+ "loss": 0.5225,
13592
+ "step": 1929
13593
+ },
13594
+ {
13595
+ "epoch": 0.20476367301469417,
13596
+ "grad_norm": 18.683574676513672,
13597
+ "learning_rate": 0.0002,
13598
+ "loss": 0.4819,
13599
+ "step": 1930
13600
+ },
13601
+ {
13602
+ "epoch": 0.20486976818205932,
13603
+ "grad_norm": 32.19053649902344,
13604
+ "learning_rate": 0.0002,
13605
+ "loss": 0.5127,
13606
+ "step": 1931
13607
+ },
13608
+ {
13609
+ "epoch": 0.20497586334942444,
13610
+ "grad_norm": 13.27175235748291,
13611
+ "learning_rate": 0.0002,
13612
+ "loss": 0.2638,
13613
+ "step": 1932
13614
+ },
13615
+ {
13616
+ "epoch": 0.20508195851678956,
13617
+ "grad_norm": 20.893634796142578,
13618
+ "learning_rate": 0.0002,
13619
+ "loss": 0.4454,
13620
+ "step": 1933
13621
+ },
13622
+ {
13623
+ "epoch": 0.2051880536841547,
13624
+ "grad_norm": 13.223441123962402,
13625
+ "learning_rate": 0.0002,
13626
+ "loss": 0.3081,
13627
+ "step": 1934
13628
+ },
13629
+ {
13630
+ "epoch": 0.2052941488515198,
13631
+ "grad_norm": 11.571022033691406,
13632
+ "learning_rate": 0.0002,
13633
+ "loss": 0.3212,
13634
+ "step": 1935
13635
+ },
13636
+ {
13637
+ "epoch": 0.20540024401888493,
13638
+ "grad_norm": 17.662548065185547,
13639
+ "learning_rate": 0.0002,
13640
+ "loss": 0.6539,
13641
+ "step": 1936
13642
+ },
13643
+ {
13644
+ "epoch": 0.20550633918625005,
13645
+ "grad_norm": 22.080196380615234,
13646
+ "learning_rate": 0.0002,
13647
+ "loss": 0.6157,
13648
+ "step": 1937
13649
+ },
13650
+ {
13651
+ "epoch": 0.2056124343536152,
13652
+ "grad_norm": 16.76143455505371,
13653
+ "learning_rate": 0.0002,
13654
+ "loss": 0.5841,
13655
+ "step": 1938
13656
+ },
13657
+ {
13658
+ "epoch": 0.20571852952098033,
13659
+ "grad_norm": 20.195690155029297,
13660
+ "learning_rate": 0.0002,
13661
+ "loss": 0.4238,
13662
+ "step": 1939
13663
+ },
13664
+ {
13665
+ "epoch": 0.20582462468834545,
13666
+ "grad_norm": 19.79781723022461,
13667
+ "learning_rate": 0.0002,
13668
+ "loss": 0.6571,
13669
+ "step": 1940
13670
+ },
13671
+ {
13672
+ "epoch": 0.20593071985571057,
13673
+ "grad_norm": 15.7777099609375,
13674
+ "learning_rate": 0.0002,
13675
+ "loss": 0.4269,
13676
+ "step": 1941
13677
+ },
13678
+ {
13679
+ "epoch": 0.2060368150230757,
13680
+ "grad_norm": 22.474760055541992,
13681
+ "learning_rate": 0.0002,
13682
+ "loss": 0.5399,
13683
+ "step": 1942
13684
+ },
13685
+ {
13686
+ "epoch": 0.20614291019044081,
13687
+ "grad_norm": 22.55069923400879,
13688
+ "learning_rate": 0.0002,
13689
+ "loss": 1.1576,
13690
+ "step": 1943
13691
+ },
13692
+ {
13693
+ "epoch": 0.20624900535780596,
13694
+ "grad_norm": 12.833492279052734,
13695
+ "learning_rate": 0.0002,
13696
+ "loss": 0.3301,
13697
+ "step": 1944
13698
+ },
13699
+ {
13700
+ "epoch": 0.2063551005251711,
13701
+ "grad_norm": 14.667129516601562,
13702
+ "learning_rate": 0.0002,
13703
+ "loss": 0.3889,
13704
+ "step": 1945
13705
+ },
13706
+ {
13707
+ "epoch": 0.2064611956925362,
13708
+ "grad_norm": 26.030546188354492,
13709
+ "learning_rate": 0.0002,
13710
+ "loss": 0.6745,
13711
+ "step": 1946
13712
+ },
13713
+ {
13714
+ "epoch": 0.20656729085990133,
13715
+ "grad_norm": 17.632896423339844,
13716
+ "learning_rate": 0.0002,
13717
+ "loss": 0.5758,
13718
+ "step": 1947
13719
+ },
13720
+ {
13721
+ "epoch": 0.20667338602726645,
13722
+ "grad_norm": 15.331464767456055,
13723
+ "learning_rate": 0.0002,
13724
+ "loss": 0.2922,
13725
+ "step": 1948
13726
+ },
13727
+ {
13728
+ "epoch": 0.20677948119463158,
13729
+ "grad_norm": 30.614484786987305,
13730
+ "learning_rate": 0.0002,
13731
+ "loss": 0.6173,
13732
+ "step": 1949
13733
+ },
13734
+ {
13735
+ "epoch": 0.2068855763619967,
13736
+ "grad_norm": 18.843469619750977,
13737
+ "learning_rate": 0.0002,
13738
+ "loss": 0.5531,
13739
+ "step": 1950
13740
+ },
13741
+ {
13742
+ "epoch": 0.20699167152936185,
13743
+ "grad_norm": 13.638596534729004,
13744
+ "learning_rate": 0.0002,
13745
+ "loss": 0.5131,
13746
+ "step": 1951
13747
+ },
13748
+ {
13749
+ "epoch": 0.20709776669672697,
13750
+ "grad_norm": 18.01232147216797,
13751
+ "learning_rate": 0.0002,
13752
+ "loss": 0.4824,
13753
+ "step": 1952
13754
+ },
13755
+ {
13756
+ "epoch": 0.2072038618640921,
13757
+ "grad_norm": 14.411051750183105,
13758
+ "learning_rate": 0.0002,
13759
+ "loss": 0.3947,
13760
+ "step": 1953
13761
+ },
13762
+ {
13763
+ "epoch": 0.20730995703145721,
13764
+ "grad_norm": 56.948123931884766,
13765
+ "learning_rate": 0.0002,
13766
+ "loss": 0.8264,
13767
+ "step": 1954
13768
+ },
13769
+ {
13770
+ "epoch": 0.20741605219882234,
13771
+ "grad_norm": 9.361339569091797,
13772
+ "learning_rate": 0.0002,
13773
+ "loss": 0.2743,
13774
+ "step": 1955
13775
+ },
13776
+ {
13777
+ "epoch": 0.20752214736618746,
13778
+ "grad_norm": 18.013376235961914,
13779
+ "learning_rate": 0.0002,
13780
+ "loss": 1.0803,
13781
+ "step": 1956
13782
+ },
13783
+ {
13784
+ "epoch": 0.2076282425335526,
13785
+ "grad_norm": 16.929119110107422,
13786
+ "learning_rate": 0.0002,
13787
+ "loss": 0.56,
13788
+ "step": 1957
13789
+ },
13790
+ {
13791
+ "epoch": 0.20773433770091773,
13792
+ "grad_norm": 13.532958030700684,
13793
+ "learning_rate": 0.0002,
13794
+ "loss": 0.3513,
13795
+ "step": 1958
13796
+ },
13797
+ {
13798
+ "epoch": 0.20784043286828285,
13799
+ "grad_norm": 13.431892395019531,
13800
+ "learning_rate": 0.0002,
13801
+ "loss": 0.416,
13802
+ "step": 1959
13803
+ },
13804
+ {
13805
+ "epoch": 0.20794652803564798,
13806
+ "grad_norm": 12.031621932983398,
13807
+ "learning_rate": 0.0002,
13808
+ "loss": 0.3493,
13809
+ "step": 1960
13810
+ },
13811
+ {
13812
+ "epoch": 0.2080526232030131,
13813
+ "grad_norm": 11.680612564086914,
13814
+ "learning_rate": 0.0002,
13815
+ "loss": 0.4699,
13816
+ "step": 1961
13817
+ },
13818
+ {
13819
+ "epoch": 0.20815871837037822,
13820
+ "grad_norm": 24.689884185791016,
13821
+ "learning_rate": 0.0002,
13822
+ "loss": 1.0239,
13823
+ "step": 1962
13824
+ },
13825
+ {
13826
+ "epoch": 0.20826481353774334,
13827
+ "grad_norm": 11.299417495727539,
13828
+ "learning_rate": 0.0002,
13829
+ "loss": 0.4199,
13830
+ "step": 1963
13831
+ },
13832
+ {
13833
+ "epoch": 0.2083709087051085,
13834
+ "grad_norm": 11.36111831665039,
13835
+ "learning_rate": 0.0002,
13836
+ "loss": 0.6039,
13837
+ "step": 1964
13838
+ },
13839
+ {
13840
+ "epoch": 0.20847700387247362,
13841
+ "grad_norm": 19.245813369750977,
13842
+ "learning_rate": 0.0002,
13843
+ "loss": 0.7365,
13844
+ "step": 1965
13845
+ },
13846
+ {
13847
+ "epoch": 0.20858309903983874,
13848
+ "grad_norm": 15.199286460876465,
13849
+ "learning_rate": 0.0002,
13850
+ "loss": 0.4632,
13851
+ "step": 1966
13852
+ },
13853
+ {
13854
+ "epoch": 0.20868919420720386,
13855
+ "grad_norm": 17.348649978637695,
13856
+ "learning_rate": 0.0002,
13857
+ "loss": 0.2754,
13858
+ "step": 1967
13859
+ },
13860
+ {
13861
+ "epoch": 0.20879528937456898,
13862
+ "grad_norm": 14.033141136169434,
13863
+ "learning_rate": 0.0002,
13864
+ "loss": 0.3631,
13865
+ "step": 1968
13866
+ },
13867
+ {
13868
+ "epoch": 0.2089013845419341,
13869
+ "grad_norm": 16.857852935791016,
13870
+ "learning_rate": 0.0002,
13871
+ "loss": 0.623,
13872
+ "step": 1969
13873
+ },
13874
+ {
13875
+ "epoch": 0.20900747970929925,
13876
+ "grad_norm": 19.852231979370117,
13877
+ "learning_rate": 0.0002,
13878
+ "loss": 0.4979,
13879
+ "step": 1970
13880
+ },
13881
+ {
13882
+ "epoch": 0.20911357487666438,
13883
+ "grad_norm": 11.969423294067383,
13884
+ "learning_rate": 0.0002,
13885
+ "loss": 0.3727,
13886
+ "step": 1971
13887
+ },
13888
+ {
13889
+ "epoch": 0.2092196700440295,
13890
+ "grad_norm": 18.254356384277344,
13891
+ "learning_rate": 0.0002,
13892
+ "loss": 0.4952,
13893
+ "step": 1972
13894
+ },
13895
+ {
13896
+ "epoch": 0.20932576521139462,
13897
+ "grad_norm": 19.8131046295166,
13898
+ "learning_rate": 0.0002,
13899
+ "loss": 0.683,
13900
+ "step": 1973
13901
+ },
13902
+ {
13903
+ "epoch": 0.20943186037875974,
13904
+ "grad_norm": 15.52879524230957,
13905
+ "learning_rate": 0.0002,
13906
+ "loss": 1.0511,
13907
+ "step": 1974
13908
+ },
13909
+ {
13910
+ "epoch": 0.20953795554612487,
13911
+ "grad_norm": 12.385345458984375,
13912
+ "learning_rate": 0.0002,
13913
+ "loss": 0.3495,
13914
+ "step": 1975
13915
+ },
13916
+ {
13917
+ "epoch": 0.20964405071349,
13918
+ "grad_norm": 24.171588897705078,
13919
+ "learning_rate": 0.0002,
13920
+ "loss": 0.6436,
13921
+ "step": 1976
13922
+ },
13923
+ {
13924
+ "epoch": 0.20975014588085514,
13925
+ "grad_norm": 30.720613479614258,
13926
+ "learning_rate": 0.0002,
13927
+ "loss": 1.2399,
13928
+ "step": 1977
13929
+ },
13930
+ {
13931
+ "epoch": 0.20985624104822026,
13932
+ "grad_norm": 14.657501220703125,
13933
+ "learning_rate": 0.0002,
13934
+ "loss": 0.5093,
13935
+ "step": 1978
13936
+ },
13937
+ {
13938
+ "epoch": 0.20996233621558538,
13939
+ "grad_norm": 13.196930885314941,
13940
+ "learning_rate": 0.0002,
13941
+ "loss": 0.3801,
13942
+ "step": 1979
13943
+ },
13944
+ {
13945
+ "epoch": 0.2100684313829505,
13946
+ "grad_norm": 11.085748672485352,
13947
+ "learning_rate": 0.0002,
13948
+ "loss": 0.3381,
13949
+ "step": 1980
13950
+ },
13951
+ {
13952
+ "epoch": 0.21017452655031563,
13953
+ "grad_norm": 20.955997467041016,
13954
+ "learning_rate": 0.0002,
13955
+ "loss": 0.8629,
13956
+ "step": 1981
13957
+ },
13958
+ {
13959
+ "epoch": 0.21028062171768075,
13960
+ "grad_norm": 18.200176239013672,
13961
+ "learning_rate": 0.0002,
13962
+ "loss": 0.4389,
13963
+ "step": 1982
13964
+ },
13965
+ {
13966
+ "epoch": 0.2103867168850459,
13967
+ "grad_norm": 28.15599250793457,
13968
+ "learning_rate": 0.0002,
13969
+ "loss": 0.785,
13970
+ "step": 1983
13971
+ },
13972
+ {
13973
+ "epoch": 0.21049281205241102,
13974
+ "grad_norm": 12.319548606872559,
13975
+ "learning_rate": 0.0002,
13976
+ "loss": 0.4221,
13977
+ "step": 1984
13978
+ },
13979
+ {
13980
+ "epoch": 0.21059890721977614,
13981
+ "grad_norm": 12.04208755493164,
13982
+ "learning_rate": 0.0002,
13983
+ "loss": 0.3438,
13984
+ "step": 1985
13985
+ },
13986
+ {
13987
+ "epoch": 0.21070500238714127,
13988
+ "grad_norm": 7.328030109405518,
13989
+ "learning_rate": 0.0002,
13990
+ "loss": 0.1424,
13991
+ "step": 1986
13992
+ },
13993
+ {
13994
+ "epoch": 0.2108110975545064,
13995
+ "grad_norm": 69.33638763427734,
13996
+ "learning_rate": 0.0002,
13997
+ "loss": 1.72,
13998
+ "step": 1987
13999
+ },
14000
+ {
14001
+ "epoch": 0.2109171927218715,
14002
+ "grad_norm": 11.672674179077148,
14003
+ "learning_rate": 0.0002,
14004
+ "loss": 0.2386,
14005
+ "step": 1988
14006
+ },
14007
+ {
14008
+ "epoch": 0.21102328788923663,
14009
+ "grad_norm": 7.545011520385742,
14010
+ "learning_rate": 0.0002,
14011
+ "loss": 0.2485,
14012
+ "step": 1989
14013
+ },
14014
+ {
14015
+ "epoch": 0.21112938305660178,
14016
+ "grad_norm": 12.490107536315918,
14017
+ "learning_rate": 0.0002,
14018
+ "loss": 0.2805,
14019
+ "step": 1990
14020
+ },
14021
+ {
14022
+ "epoch": 0.2112354782239669,
14023
+ "grad_norm": 20.779247283935547,
14024
+ "learning_rate": 0.0002,
14025
+ "loss": 0.8199,
14026
+ "step": 1991
14027
+ },
14028
+ {
14029
+ "epoch": 0.21134157339133203,
14030
+ "grad_norm": 14.835947036743164,
14031
+ "learning_rate": 0.0002,
14032
+ "loss": 0.3522,
14033
+ "step": 1992
14034
+ },
14035
+ {
14036
+ "epoch": 0.21144766855869715,
14037
+ "grad_norm": 13.06779956817627,
14038
+ "learning_rate": 0.0002,
14039
+ "loss": 0.3361,
14040
+ "step": 1993
14041
+ },
14042
+ {
14043
+ "epoch": 0.21155376372606227,
14044
+ "grad_norm": 33.76557922363281,
14045
+ "learning_rate": 0.0002,
14046
+ "loss": 1.3297,
14047
+ "step": 1994
14048
+ },
14049
+ {
14050
+ "epoch": 0.2116598588934274,
14051
+ "grad_norm": 13.209569931030273,
14052
+ "learning_rate": 0.0002,
14053
+ "loss": 0.2758,
14054
+ "step": 1995
14055
+ },
14056
+ {
14057
+ "epoch": 0.21176595406079254,
14058
+ "grad_norm": 62.10099411010742,
14059
+ "learning_rate": 0.0002,
14060
+ "loss": 1.0189,
14061
+ "step": 1996
14062
+ },
14063
+ {
14064
+ "epoch": 0.21187204922815767,
14065
+ "grad_norm": 35.020599365234375,
14066
+ "learning_rate": 0.0002,
14067
+ "loss": 1.4046,
14068
+ "step": 1997
14069
+ },
14070
+ {
14071
+ "epoch": 0.2119781443955228,
14072
+ "grad_norm": 12.95151424407959,
14073
+ "learning_rate": 0.0002,
14074
+ "loss": 0.219,
14075
+ "step": 1998
14076
+ },
14077
+ {
14078
+ "epoch": 0.2120842395628879,
14079
+ "grad_norm": 28.071975708007812,
14080
+ "learning_rate": 0.0002,
14081
+ "loss": 0.5943,
14082
+ "step": 1999
14083
+ },
14084
+ {
14085
+ "epoch": 0.21219033473025303,
14086
+ "grad_norm": 33.58123016357422,
14087
+ "learning_rate": 0.0002,
14088
+ "loss": 0.777,
14089
+ "step": 2000
14090
+ },
14091
+ {
14092
+ "epoch": 0.21219033473025303,
14093
+ "eval_loss": 0.0603964701294899,
14094
+ "eval_runtime": 48.7859,
14095
+ "eval_samples_per_second": 3.116,
14096
+ "eval_steps_per_second": 1.558,
14097
+ "step": 2000
14098
  }
14099
  ],
14100
  "logging_steps": 1,
 
14109
  "early_stopping_threshold": 0.0
14110
  },
14111
  "attributes": {
14112
+ "early_stopping_patience_counter": 5
14113
  }
14114
  },
14115
  "TrainerControl": {
 
14118
  "should_evaluate": false,
14119
  "should_log": false,
14120
  "should_save": true,
14121
+ "should_training_stop": true
14122
  },
14123
  "attributes": {}
14124
  }
14125
  },
14126
+ "total_flos": 6.139101503029248e+17,
14127
  "train_batch_size": 2,
14128
  "trial_name": null,
14129
  "trial_params": null