Fanucci commited on
Commit
086fc1e
·
verified ·
1 Parent(s): fa39a10

Training in progress, step 1000, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:356d90ca6784d8ad896343b590031a4d760212691309e5fa44e94d9bd333476d
3
  size 671149168
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d14fa1c6cd0a8c1098c2de693eacd3e9fd9509d70fdc5893f7c7bc6fa28a5515
3
  size 671149168
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:07f70391f1d92cd7a39e5c59693cbf6577b5fec9bf7ca1b7d90b99c64d2fd956
3
  size 1342555602
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d145b6c083f2e7222313302dd9978b6bc171ff03d6651b2280de2698f84eda21
3
  size 1342555602
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8b69db2d3e137bfc4fdab5a7f1d0c0af3e74fe5a5f426e92a44235c4a4bbad81
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:5f5a61412c4341dc129410787ef47b348a882a43e4433910d7fa909787ab3112
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:30632263e1c1835085a75879d50f43d028777df4547e51105124fa5b76c67ad2
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e56f8bb31e77104b8ecd639f65cf9bb955635271d71868e7ef99f855e32f8bbf
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 3.1351470947265625,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
- "epoch": 0.2559590465525516,
5
  "eval_steps": 200,
6
- "global_step": 800,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5647,6 +5647,1414 @@
5647
  "eval_samples_per_second": 5.635,
5648
  "eval_steps_per_second": 1.409,
5649
  "step": 800
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5650
  }
5651
  ],
5652
  "logging_steps": 1,
@@ -5661,7 +7069,7 @@
5661
  "early_stopping_threshold": 0.0
5662
  },
5663
  "attributes": {
5664
- "early_stopping_patience_counter": 1
5665
  }
5666
  },
5667
  "TrainerControl": {
@@ -5675,7 +7083,7 @@
5675
  "attributes": {}
5676
  }
5677
  },
5678
- "total_flos": 7.391104716421202e+17,
5679
  "train_batch_size": 4,
5680
  "trial_name": null,
5681
  "trial_params": null
 
1
  {
2
  "best_metric": 3.1351470947265625,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
+ "epoch": 0.3199488081906895,
5
  "eval_steps": 200,
6
+ "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5647
  "eval_samples_per_second": 5.635,
5648
  "eval_steps_per_second": 1.409,
5649
  "step": 800
5650
+ },
5651
+ {
5652
+ "epoch": 0.2562789953607423,
5653
+ "grad_norm": 472340.75,
5654
+ "learning_rate": 0.0003403490006745532,
5655
+ "loss": 18.063,
5656
+ "step": 801
5657
+ },
5658
+ {
5659
+ "epoch": 0.256598944168933,
5660
+ "grad_norm": 32471.482421875,
5661
+ "learning_rate": 0.00034020654447263155,
5662
+ "loss": 26.347,
5663
+ "step": 802
5664
+ },
5665
+ {
5666
+ "epoch": 0.25691889297712367,
5667
+ "grad_norm": 151727.5,
5668
+ "learning_rate": 0.00034006395012645086,
5669
+ "loss": 24.9178,
5670
+ "step": 803
5671
+ },
5672
+ {
5673
+ "epoch": 0.25723884178531436,
5674
+ "grad_norm": 43865.3671875,
5675
+ "learning_rate": 0.00033992121778729826,
5676
+ "loss": 24.8413,
5677
+ "step": 804
5678
+ },
5679
+ {
5680
+ "epoch": 0.25755879059350506,
5681
+ "grad_norm": 47757.33984375,
5682
+ "learning_rate": 0.00033977834760660745,
5683
+ "loss": 25.444,
5684
+ "step": 805
5685
+ },
5686
+ {
5687
+ "epoch": 0.25787873940169576,
5688
+ "grad_norm": 14128.7724609375,
5689
+ "learning_rate": 0.00033963533973595825,
5690
+ "loss": 25.3313,
5691
+ "step": 806
5692
+ },
5693
+ {
5694
+ "epoch": 0.2581986882098864,
5695
+ "grad_norm": 1130996.625,
5696
+ "learning_rate": 0.00033949219432707667,
5697
+ "loss": 26.6114,
5698
+ "step": 807
5699
+ },
5700
+ {
5701
+ "epoch": 0.2585186370180771,
5702
+ "grad_norm": 4760.6435546875,
5703
+ "learning_rate": 0.0003393489115318347,
5704
+ "loss": 25.624,
5705
+ "step": 808
5706
+ },
5707
+ {
5708
+ "epoch": 0.2588385858262678,
5709
+ "grad_norm": 365082.65625,
5710
+ "learning_rate": 0.00033920549150225,
5711
+ "loss": 26.4853,
5712
+ "step": 809
5713
+ },
5714
+ {
5715
+ "epoch": 0.2591585346344585,
5716
+ "grad_norm": 972.4833374023438,
5717
+ "learning_rate": 0.0003390619343904857,
5718
+ "loss": 26.3925,
5719
+ "step": 810
5720
+ },
5721
+ {
5722
+ "epoch": 0.2594784834426492,
5723
+ "grad_norm": 56389.19140625,
5724
+ "learning_rate": 0.0003389182403488507,
5725
+ "loss": 25.6556,
5726
+ "step": 811
5727
+ },
5728
+ {
5729
+ "epoch": 0.2597984322508399,
5730
+ "grad_norm": 21225.556640625,
5731
+ "learning_rate": 0.0003387744095297988,
5732
+ "loss": 24.6976,
5733
+ "step": 812
5734
+ },
5735
+ {
5736
+ "epoch": 0.26011838105903057,
5737
+ "grad_norm": 1668.451416015625,
5738
+ "learning_rate": 0.00033863044208592925,
5739
+ "loss": 22.8956,
5740
+ "step": 813
5741
+ },
5742
+ {
5743
+ "epoch": 0.26043832986722126,
5744
+ "grad_norm": 19362.66015625,
5745
+ "learning_rate": 0.00033848633816998603,
5746
+ "loss": 24.3001,
5747
+ "step": 814
5748
+ },
5749
+ {
5750
+ "epoch": 0.26075827867541196,
5751
+ "grad_norm": 32938.8125,
5752
+ "learning_rate": 0.000338342097934858,
5753
+ "loss": 23.744,
5754
+ "step": 815
5755
+ },
5756
+ {
5757
+ "epoch": 0.2610782274836026,
5758
+ "grad_norm": 2615.0556640625,
5759
+ "learning_rate": 0.00033819772153357875,
5760
+ "loss": 23.1489,
5761
+ "step": 816
5762
+ },
5763
+ {
5764
+ "epoch": 0.2613981762917933,
5765
+ "grad_norm": 2801.425048828125,
5766
+ "learning_rate": 0.00033805320911932597,
5767
+ "loss": 21.2644,
5768
+ "step": 817
5769
+ },
5770
+ {
5771
+ "epoch": 0.261718125099984,
5772
+ "grad_norm": 26318.5703125,
5773
+ "learning_rate": 0.00033790856084542223,
5774
+ "loss": 20.3282,
5775
+ "step": 818
5776
+ },
5777
+ {
5778
+ "epoch": 0.2620380739081747,
5779
+ "grad_norm": 16279.3955078125,
5780
+ "learning_rate": 0.0003377637768653337,
5781
+ "loss": 17.2759,
5782
+ "step": 819
5783
+ },
5784
+ {
5785
+ "epoch": 0.2623580227163654,
5786
+ "grad_norm": 13162.205078125,
5787
+ "learning_rate": 0.0003376188573326708,
5788
+ "loss": 16.7004,
5789
+ "step": 820
5790
+ },
5791
+ {
5792
+ "epoch": 0.2626779715245561,
5793
+ "grad_norm": 42018.765625,
5794
+ "learning_rate": 0.00033747380240118773,
5795
+ "loss": 16.1286,
5796
+ "step": 821
5797
+ },
5798
+ {
5799
+ "epoch": 0.26299792033274677,
5800
+ "grad_norm": 2374.1533203125,
5801
+ "learning_rate": 0.0003373286122247823,
5802
+ "loss": 17.0077,
5803
+ "step": 822
5804
+ },
5805
+ {
5806
+ "epoch": 0.26331786914093747,
5807
+ "grad_norm": 2869.451904296875,
5808
+ "learning_rate": 0.000337183286957496,
5809
+ "loss": 16.8362,
5810
+ "step": 823
5811
+ },
5812
+ {
5813
+ "epoch": 0.26363781794912816,
5814
+ "grad_norm": 169.99826049804688,
5815
+ "learning_rate": 0.0003370378267535132,
5816
+ "loss": 16.7969,
5817
+ "step": 824
5818
+ },
5819
+ {
5820
+ "epoch": 0.2639577667573188,
5821
+ "grad_norm": 118.742919921875,
5822
+ "learning_rate": 0.00033689223176716187,
5823
+ "loss": 13.8806,
5824
+ "step": 825
5825
+ },
5826
+ {
5827
+ "epoch": 0.2642777155655095,
5828
+ "grad_norm": 21638.884765625,
5829
+ "learning_rate": 0.00033674650215291296,
5830
+ "loss": 12.1067,
5831
+ "step": 826
5832
+ },
5833
+ {
5834
+ "epoch": 0.2645976643737002,
5835
+ "grad_norm": 2294.127197265625,
5836
+ "learning_rate": 0.00033660063806537993,
5837
+ "loss": 12.1123,
5838
+ "step": 827
5839
+ },
5840
+ {
5841
+ "epoch": 0.2649176131818909,
5842
+ "grad_norm": 34425.94921875,
5843
+ "learning_rate": 0.0003364546396593192,
5844
+ "loss": 13.1807,
5845
+ "step": 828
5846
+ },
5847
+ {
5848
+ "epoch": 0.2652375619900816,
5849
+ "grad_norm": 600.3480224609375,
5850
+ "learning_rate": 0.00033630850708962957,
5851
+ "loss": 12.5817,
5852
+ "step": 829
5853
+ },
5854
+ {
5855
+ "epoch": 0.2655575107982723,
5856
+ "grad_norm": 82.4616928100586,
5857
+ "learning_rate": 0.00033616224051135225,
5858
+ "loss": 12.0756,
5859
+ "step": 830
5860
+ },
5861
+ {
5862
+ "epoch": 0.265877459606463,
5863
+ "grad_norm": 69.83650207519531,
5864
+ "learning_rate": 0.0003360158400796705,
5865
+ "loss": 10.1748,
5866
+ "step": 831
5867
+ },
5868
+ {
5869
+ "epoch": 0.26619740841465367,
5870
+ "grad_norm": 150.00209045410156,
5871
+ "learning_rate": 0.0003358693059499098,
5872
+ "loss": 8.8591,
5873
+ "step": 832
5874
+ },
5875
+ {
5876
+ "epoch": 0.26651735722284436,
5877
+ "grad_norm": 30079.291015625,
5878
+ "learning_rate": 0.0003357226382775373,
5879
+ "loss": 8.8002,
5880
+ "step": 833
5881
+ },
5882
+ {
5883
+ "epoch": 0.26683730603103506,
5884
+ "grad_norm": 18880.88671875,
5885
+ "learning_rate": 0.00033557583721816194,
5886
+ "loss": 10.3358,
5887
+ "step": 834
5888
+ },
5889
+ {
5890
+ "epoch": 0.2671572548392257,
5891
+ "grad_norm": 7514.67333984375,
5892
+ "learning_rate": 0.00033542890292753404,
5893
+ "loss": 12.7088,
5894
+ "step": 835
5895
+ },
5896
+ {
5897
+ "epoch": 0.2674772036474164,
5898
+ "grad_norm": 165107.78125,
5899
+ "learning_rate": 0.0003352818355615455,
5900
+ "loss": 15.0574,
5901
+ "step": 836
5902
+ },
5903
+ {
5904
+ "epoch": 0.2677971524556071,
5905
+ "grad_norm": 10771.0146484375,
5906
+ "learning_rate": 0.0003351346352762292,
5907
+ "loss": 16.6562,
5908
+ "step": 837
5909
+ },
5910
+ {
5911
+ "epoch": 0.2681171012637978,
5912
+ "grad_norm": 32579.517578125,
5913
+ "learning_rate": 0.00033498730222775917,
5914
+ "loss": 16.5778,
5915
+ "step": 838
5916
+ },
5917
+ {
5918
+ "epoch": 0.2684370500719885,
5919
+ "grad_norm": 737471.125,
5920
+ "learning_rate": 0.00033483983657245017,
5921
+ "loss": 17.4677,
5922
+ "step": 839
5923
+ },
5924
+ {
5925
+ "epoch": 0.2687569988801792,
5926
+ "grad_norm": 1129485.5,
5927
+ "learning_rate": 0.00033469223846675783,
5928
+ "loss": 16.0327,
5929
+ "step": 840
5930
+ },
5931
+ {
5932
+ "epoch": 0.26907694768836987,
5933
+ "grad_norm": 21750792.0,
5934
+ "learning_rate": 0.0003345445080672781,
5935
+ "loss": 16.6764,
5936
+ "step": 841
5937
+ },
5938
+ {
5939
+ "epoch": 0.26939689649656057,
5940
+ "grad_norm": 626546.5625,
5941
+ "learning_rate": 0.0003343966455307474,
5942
+ "loss": 18.6074,
5943
+ "step": 842
5944
+ },
5945
+ {
5946
+ "epoch": 0.26971684530475126,
5947
+ "grad_norm": 1119687.125,
5948
+ "learning_rate": 0.0003342486510140424,
5949
+ "loss": 19.7998,
5950
+ "step": 843
5951
+ },
5952
+ {
5953
+ "epoch": 0.2700367941129419,
5954
+ "grad_norm": 4357446.0,
5955
+ "learning_rate": 0.00033410052467417985,
5956
+ "loss": 17.5433,
5957
+ "step": 844
5958
+ },
5959
+ {
5960
+ "epoch": 0.2703567429211326,
5961
+ "grad_norm": 617141.25,
5962
+ "learning_rate": 0.0003339522666683159,
5963
+ "loss": 19.1042,
5964
+ "step": 845
5965
+ },
5966
+ {
5967
+ "epoch": 0.2706766917293233,
5968
+ "grad_norm": 355878.9375,
5969
+ "learning_rate": 0.000333803877153747,
5970
+ "loss": 20.8072,
5971
+ "step": 846
5972
+ },
5973
+ {
5974
+ "epoch": 0.270996640537514,
5975
+ "grad_norm": 624676.4375,
5976
+ "learning_rate": 0.0003336553562879088,
5977
+ "loss": 14.6778,
5978
+ "step": 847
5979
+ },
5980
+ {
5981
+ "epoch": 0.2713165893457047,
5982
+ "grad_norm": 330477.0625,
5983
+ "learning_rate": 0.00033350670422837637,
5984
+ "loss": 19.176,
5985
+ "step": 848
5986
+ },
5987
+ {
5988
+ "epoch": 0.2716365381538954,
5989
+ "grad_norm": 941151.25,
5990
+ "learning_rate": 0.0003333579211328639,
5991
+ "loss": 21.5224,
5992
+ "step": 849
5993
+ },
5994
+ {
5995
+ "epoch": 0.2719564869620861,
5996
+ "grad_norm": 3218129.5,
5997
+ "learning_rate": 0.00033320900715922477,
5998
+ "loss": 23.2502,
5999
+ "step": 850
6000
+ },
6001
+ {
6002
+ "epoch": 0.27227643577027677,
6003
+ "grad_norm": 1361448.25,
6004
+ "learning_rate": 0.00033305996246545106,
6005
+ "loss": 23.624,
6006
+ "step": 851
6007
+ },
6008
+ {
6009
+ "epoch": 0.27259638457846747,
6010
+ "grad_norm": 282881.1875,
6011
+ "learning_rate": 0.00033291078720967365,
6012
+ "loss": 24.8605,
6013
+ "step": 852
6014
+ },
6015
+ {
6016
+ "epoch": 0.27291633338665816,
6017
+ "grad_norm": 652137.875,
6018
+ "learning_rate": 0.0003327614815501618,
6019
+ "loss": 25.1488,
6020
+ "step": 853
6021
+ },
6022
+ {
6023
+ "epoch": 0.2732362821948488,
6024
+ "grad_norm": 11083729.0,
6025
+ "learning_rate": 0.0003326120456453232,
6026
+ "loss": 26.0858,
6027
+ "step": 854
6028
+ },
6029
+ {
6030
+ "epoch": 0.2735562310030395,
6031
+ "grad_norm": 3168683.75,
6032
+ "learning_rate": 0.0003324624796537039,
6033
+ "loss": 26.6461,
6034
+ "step": 855
6035
+ },
6036
+ {
6037
+ "epoch": 0.2738761798112302,
6038
+ "grad_norm": 3187546.0,
6039
+ "learning_rate": 0.00033231278373398773,
6040
+ "loss": 25.3838,
6041
+ "step": 856
6042
+ },
6043
+ {
6044
+ "epoch": 0.2741961286194209,
6045
+ "grad_norm": 396312.03125,
6046
+ "learning_rate": 0.00033216295804499636,
6047
+ "loss": 25.4869,
6048
+ "step": 857
6049
+ },
6050
+ {
6051
+ "epoch": 0.2745160774276116,
6052
+ "grad_norm": 1157155.25,
6053
+ "learning_rate": 0.00033201300274568934,
6054
+ "loss": 26.773,
6055
+ "step": 858
6056
+ },
6057
+ {
6058
+ "epoch": 0.2748360262358023,
6059
+ "grad_norm": 1152320.75,
6060
+ "learning_rate": 0.00033186291799516354,
6061
+ "loss": 26.3161,
6062
+ "step": 859
6063
+ },
6064
+ {
6065
+ "epoch": 0.275155975043993,
6066
+ "grad_norm": 3598519.75,
6067
+ "learning_rate": 0.00033171270395265334,
6068
+ "loss": 24.7172,
6069
+ "step": 860
6070
+ },
6071
+ {
6072
+ "epoch": 0.27547592385218367,
6073
+ "grad_norm": 4380961.0,
6074
+ "learning_rate": 0.00033156236077753006,
6075
+ "loss": 25.4326,
6076
+ "step": 861
6077
+ },
6078
+ {
6079
+ "epoch": 0.27579587266037436,
6080
+ "grad_norm": 219964.46875,
6081
+ "learning_rate": 0.00033141188862930235,
6082
+ "loss": 25.278,
6083
+ "step": 862
6084
+ },
6085
+ {
6086
+ "epoch": 0.276115821468565,
6087
+ "grad_norm": 9706468.0,
6088
+ "learning_rate": 0.0003312612876676153,
6089
+ "loss": 24.5966,
6090
+ "step": 863
6091
+ },
6092
+ {
6093
+ "epoch": 0.2764357702767557,
6094
+ "grad_norm": 398041.8125,
6095
+ "learning_rate": 0.0003311105580522511,
6096
+ "loss": 23.8814,
6097
+ "step": 864
6098
+ },
6099
+ {
6100
+ "epoch": 0.2767557190849464,
6101
+ "grad_norm": 520553.59375,
6102
+ "learning_rate": 0.00033095969994312806,
6103
+ "loss": 22.963,
6104
+ "step": 865
6105
+ },
6106
+ {
6107
+ "epoch": 0.2770756678931371,
6108
+ "grad_norm": 210379.578125,
6109
+ "learning_rate": 0.00033080871350030103,
6110
+ "loss": 25.1315,
6111
+ "step": 866
6112
+ },
6113
+ {
6114
+ "epoch": 0.2773956167013278,
6115
+ "grad_norm": 1593170.0,
6116
+ "learning_rate": 0.00033065759888396097,
6117
+ "loss": 25.1688,
6118
+ "step": 867
6119
+ },
6120
+ {
6121
+ "epoch": 0.2777155655095185,
6122
+ "grad_norm": 714547.0625,
6123
+ "learning_rate": 0.0003305063562544348,
6124
+ "loss": 24.1757,
6125
+ "step": 868
6126
+ },
6127
+ {
6128
+ "epoch": 0.2780355143177092,
6129
+ "grad_norm": 1169557.25,
6130
+ "learning_rate": 0.00033035498577218533,
6131
+ "loss": 24.4053,
6132
+ "step": 869
6133
+ },
6134
+ {
6135
+ "epoch": 0.27835546312589987,
6136
+ "grad_norm": 957691.8125,
6137
+ "learning_rate": 0.0003302034875978109,
6138
+ "loss": 22.7094,
6139
+ "step": 870
6140
+ },
6141
+ {
6142
+ "epoch": 0.27867541193409057,
6143
+ "grad_norm": 261482.71875,
6144
+ "learning_rate": 0.0003300518618920454,
6145
+ "loss": 22.1931,
6146
+ "step": 871
6147
+ },
6148
+ {
6149
+ "epoch": 0.27899536074228126,
6150
+ "grad_norm": 193108.375,
6151
+ "learning_rate": 0.00032990010881575805,
6152
+ "loss": 23.5923,
6153
+ "step": 872
6154
+ },
6155
+ {
6156
+ "epoch": 0.2793153095504719,
6157
+ "grad_norm": 75381.0078125,
6158
+ "learning_rate": 0.00032974822852995314,
6159
+ "loss": 22.1936,
6160
+ "step": 873
6161
+ },
6162
+ {
6163
+ "epoch": 0.2796352583586626,
6164
+ "grad_norm": 101304.7265625,
6165
+ "learning_rate": 0.00032959622119576996,
6166
+ "loss": 23.972,
6167
+ "step": 874
6168
+ },
6169
+ {
6170
+ "epoch": 0.2799552071668533,
6171
+ "grad_norm": 797569.8125,
6172
+ "learning_rate": 0.00032944408697448255,
6173
+ "loss": 23.1834,
6174
+ "step": 875
6175
+ },
6176
+ {
6177
+ "epoch": 0.280275155975044,
6178
+ "grad_norm": 54563.6953125,
6179
+ "learning_rate": 0.0003292918260274997,
6180
+ "loss": 19.8762,
6181
+ "step": 876
6182
+ },
6183
+ {
6184
+ "epoch": 0.2805951047832347,
6185
+ "grad_norm": 765206.625,
6186
+ "learning_rate": 0.0003291394385163645,
6187
+ "loss": 17.3695,
6188
+ "step": 877
6189
+ },
6190
+ {
6191
+ "epoch": 0.2809150535914254,
6192
+ "grad_norm": 145896.859375,
6193
+ "learning_rate": 0.00032898692460275446,
6194
+ "loss": 14.1639,
6195
+ "step": 878
6196
+ },
6197
+ {
6198
+ "epoch": 0.2812350023996161,
6199
+ "grad_norm": 78758.6640625,
6200
+ "learning_rate": 0.000328834284448481,
6201
+ "loss": 18.8681,
6202
+ "step": 879
6203
+ },
6204
+ {
6205
+ "epoch": 0.28155495120780677,
6206
+ "grad_norm": 878149.4375,
6207
+ "learning_rate": 0.00032868151821548966,
6208
+ "loss": 25.91,
6209
+ "step": 880
6210
+ },
6211
+ {
6212
+ "epoch": 0.28187490001599746,
6213
+ "grad_norm": 2420195.5,
6214
+ "learning_rate": 0.00032852862606585966,
6215
+ "loss": 30.7789,
6216
+ "step": 881
6217
+ },
6218
+ {
6219
+ "epoch": 0.2821948488241881,
6220
+ "grad_norm": 305033.84375,
6221
+ "learning_rate": 0.0003283756081618039,
6222
+ "loss": 32.8377,
6223
+ "step": 882
6224
+ },
6225
+ {
6226
+ "epoch": 0.2825147976323788,
6227
+ "grad_norm": 422428.90625,
6228
+ "learning_rate": 0.00032822246466566855,
6229
+ "loss": 32.3465,
6230
+ "step": 883
6231
+ },
6232
+ {
6233
+ "epoch": 0.2828347464405695,
6234
+ "grad_norm": 78632.2578125,
6235
+ "learning_rate": 0.0003280691957399332,
6236
+ "loss": 32.9845,
6237
+ "step": 884
6238
+ },
6239
+ {
6240
+ "epoch": 0.2831546952487602,
6241
+ "grad_norm": 286373.71875,
6242
+ "learning_rate": 0.00032791580154721035,
6243
+ "loss": 34.3491,
6244
+ "step": 885
6245
+ },
6246
+ {
6247
+ "epoch": 0.2834746440569509,
6248
+ "grad_norm": 12756404.0,
6249
+ "learning_rate": 0.0003277622822502455,
6250
+ "loss": 32.8115,
6251
+ "step": 886
6252
+ },
6253
+ {
6254
+ "epoch": 0.2837945928651416,
6255
+ "grad_norm": 259764.84375,
6256
+ "learning_rate": 0.00032760863801191696,
6257
+ "loss": 33.0063,
6258
+ "step": 887
6259
+ },
6260
+ {
6261
+ "epoch": 0.2841145416733323,
6262
+ "grad_norm": 1352647.25,
6263
+ "learning_rate": 0.0003274548689952354,
6264
+ "loss": 33.3023,
6265
+ "step": 888
6266
+ },
6267
+ {
6268
+ "epoch": 0.284434490481523,
6269
+ "grad_norm": 2583883.25,
6270
+ "learning_rate": 0.000327300975363344,
6271
+ "loss": 34.0707,
6272
+ "step": 889
6273
+ },
6274
+ {
6275
+ "epoch": 0.28475443928971367,
6276
+ "grad_norm": 768095.625,
6277
+ "learning_rate": 0.0003271469572795181,
6278
+ "loss": 33.3534,
6279
+ "step": 890
6280
+ },
6281
+ {
6282
+ "epoch": 0.2850743880979043,
6283
+ "grad_norm": 38086.27734375,
6284
+ "learning_rate": 0.0003269928149071652,
6285
+ "loss": 35.1093,
6286
+ "step": 891
6287
+ },
6288
+ {
6289
+ "epoch": 0.285394336906095,
6290
+ "grad_norm": 11101828.0,
6291
+ "learning_rate": 0.00032683854840982453,
6292
+ "loss": 36.15,
6293
+ "step": 892
6294
+ },
6295
+ {
6296
+ "epoch": 0.2857142857142857,
6297
+ "grad_norm": 936936.6875,
6298
+ "learning_rate": 0.000326684157951167,
6299
+ "loss": 35.3095,
6300
+ "step": 893
6301
+ },
6302
+ {
6303
+ "epoch": 0.2860342345224764,
6304
+ "grad_norm": 1324180.875,
6305
+ "learning_rate": 0.0003265296436949952,
6306
+ "loss": 34.8645,
6307
+ "step": 894
6308
+ },
6309
+ {
6310
+ "epoch": 0.2863541833306671,
6311
+ "grad_norm": 108139.625,
6312
+ "learning_rate": 0.00032637500580524285,
6313
+ "loss": 34.3561,
6314
+ "step": 895
6315
+ },
6316
+ {
6317
+ "epoch": 0.2866741321388578,
6318
+ "grad_norm": 200987.484375,
6319
+ "learning_rate": 0.00032622024444597497,
6320
+ "loss": 36.2547,
6321
+ "step": 896
6322
+ },
6323
+ {
6324
+ "epoch": 0.2869940809470485,
6325
+ "grad_norm": 147518.8125,
6326
+ "learning_rate": 0.00032606535978138763,
6327
+ "loss": 34.7164,
6328
+ "step": 897
6329
+ },
6330
+ {
6331
+ "epoch": 0.2873140297552392,
6332
+ "grad_norm": 1045666.5625,
6333
+ "learning_rate": 0.0003259103519758076,
6334
+ "loss": 34.6775,
6335
+ "step": 898
6336
+ },
6337
+ {
6338
+ "epoch": 0.28763397856342987,
6339
+ "grad_norm": 728341.4375,
6340
+ "learning_rate": 0.0003257552211936924,
6341
+ "loss": 34.3695,
6342
+ "step": 899
6343
+ },
6344
+ {
6345
+ "epoch": 0.28795392737162057,
6346
+ "grad_norm": 47716.6015625,
6347
+ "learning_rate": 0.00032559996759962985,
6348
+ "loss": 34.6398,
6349
+ "step": 900
6350
+ },
6351
+ {
6352
+ "epoch": 0.2882738761798112,
6353
+ "grad_norm": 2483745.0,
6354
+ "learning_rate": 0.0003254445913583383,
6355
+ "loss": 34.867,
6356
+ "step": 901
6357
+ },
6358
+ {
6359
+ "epoch": 0.2885938249880019,
6360
+ "grad_norm": 4208087.5,
6361
+ "learning_rate": 0.00032528909263466614,
6362
+ "loss": 33.2978,
6363
+ "step": 902
6364
+ },
6365
+ {
6366
+ "epoch": 0.2889137737961926,
6367
+ "grad_norm": 668148.4375,
6368
+ "learning_rate": 0.0003251334715935915,
6369
+ "loss": 32.0358,
6370
+ "step": 903
6371
+ },
6372
+ {
6373
+ "epoch": 0.2892337226043833,
6374
+ "grad_norm": 382070.53125,
6375
+ "learning_rate": 0.0003249777284002227,
6376
+ "loss": 34.4869,
6377
+ "step": 904
6378
+ },
6379
+ {
6380
+ "epoch": 0.289553671412574,
6381
+ "grad_norm": 2095629.125,
6382
+ "learning_rate": 0.00032482186321979717,
6383
+ "loss": 32.9963,
6384
+ "step": 905
6385
+ },
6386
+ {
6387
+ "epoch": 0.2898736202207647,
6388
+ "grad_norm": 721848.8125,
6389
+ "learning_rate": 0.00032466587621768226,
6390
+ "loss": 36.1113,
6391
+ "step": 906
6392
+ },
6393
+ {
6394
+ "epoch": 0.2901935690289554,
6395
+ "grad_norm": 826675.1875,
6396
+ "learning_rate": 0.0003245097675593743,
6397
+ "loss": 33.8295,
6398
+ "step": 907
6399
+ },
6400
+ {
6401
+ "epoch": 0.2905135178371461,
6402
+ "grad_norm": 1047299.1875,
6403
+ "learning_rate": 0.0003243535374104985,
6404
+ "loss": 33.8889,
6405
+ "step": 908
6406
+ },
6407
+ {
6408
+ "epoch": 0.29083346664533677,
6409
+ "grad_norm": 83939.1484375,
6410
+ "learning_rate": 0.00032419718593680943,
6411
+ "loss": 34.5913,
6412
+ "step": 909
6413
+ },
6414
+ {
6415
+ "epoch": 0.2911534154535274,
6416
+ "grad_norm": 69454.4609375,
6417
+ "learning_rate": 0.00032404071330419,
6418
+ "loss": 34.2654,
6419
+ "step": 910
6420
+ },
6421
+ {
6422
+ "epoch": 0.2914733642617181,
6423
+ "grad_norm": 22721304.0,
6424
+ "learning_rate": 0.00032388411967865184,
6425
+ "loss": 33.8081,
6426
+ "step": 911
6427
+ },
6428
+ {
6429
+ "epoch": 0.2917933130699088,
6430
+ "grad_norm": 357308.65625,
6431
+ "learning_rate": 0.0003237274052263349,
6432
+ "loss": 32.9188,
6433
+ "step": 912
6434
+ },
6435
+ {
6436
+ "epoch": 0.2921132618780995,
6437
+ "grad_norm": 278778.5,
6438
+ "learning_rate": 0.0003235705701135074,
6439
+ "loss": 32.0302,
6440
+ "step": 913
6441
+ },
6442
+ {
6443
+ "epoch": 0.2924332106862902,
6444
+ "grad_norm": 4960189.5,
6445
+ "learning_rate": 0.0003234136145065655,
6446
+ "loss": 32.5315,
6447
+ "step": 914
6448
+ },
6449
+ {
6450
+ "epoch": 0.2927531594944809,
6451
+ "grad_norm": 55529.8125,
6452
+ "learning_rate": 0.0003232565385720331,
6453
+ "loss": 32.6047,
6454
+ "step": 915
6455
+ },
6456
+ {
6457
+ "epoch": 0.2930731083026716,
6458
+ "grad_norm": 1051795.0,
6459
+ "learning_rate": 0.000323099342476562,
6460
+ "loss": 32.6275,
6461
+ "step": 916
6462
+ },
6463
+ {
6464
+ "epoch": 0.2933930571108623,
6465
+ "grad_norm": 1545867.0,
6466
+ "learning_rate": 0.0003229420263869313,
6467
+ "loss": 34.8654,
6468
+ "step": 917
6469
+ },
6470
+ {
6471
+ "epoch": 0.29371300591905297,
6472
+ "grad_norm": 58457.1015625,
6473
+ "learning_rate": 0.0003227845904700475,
6474
+ "loss": 30.3776,
6475
+ "step": 918
6476
+ },
6477
+ {
6478
+ "epoch": 0.29403295472724367,
6479
+ "grad_norm": 1061561.125,
6480
+ "learning_rate": 0.00032262703489294414,
6481
+ "loss": 31.8167,
6482
+ "step": 919
6483
+ },
6484
+ {
6485
+ "epoch": 0.2943529035354343,
6486
+ "grad_norm": 1284448.125,
6487
+ "learning_rate": 0.00032246935982278185,
6488
+ "loss": 31.0466,
6489
+ "step": 920
6490
+ },
6491
+ {
6492
+ "epoch": 0.294672852343625,
6493
+ "grad_norm": 319359.875,
6494
+ "learning_rate": 0.0003223115654268479,
6495
+ "loss": 29.9253,
6496
+ "step": 921
6497
+ },
6498
+ {
6499
+ "epoch": 0.2949928011518157,
6500
+ "grad_norm": 1560787.0,
6501
+ "learning_rate": 0.0003221536518725563,
6502
+ "loss": 30.4316,
6503
+ "step": 922
6504
+ },
6505
+ {
6506
+ "epoch": 0.2953127499600064,
6507
+ "grad_norm": 2599579.75,
6508
+ "learning_rate": 0.00032199561932744734,
6509
+ "loss": 29.6555,
6510
+ "step": 923
6511
+ },
6512
+ {
6513
+ "epoch": 0.2956326987681971,
6514
+ "grad_norm": 76841.046875,
6515
+ "learning_rate": 0.0003218374679591877,
6516
+ "loss": 29.959,
6517
+ "step": 924
6518
+ },
6519
+ {
6520
+ "epoch": 0.2959526475763878,
6521
+ "grad_norm": 34526.2109375,
6522
+ "learning_rate": 0.0003216791979355699,
6523
+ "loss": 29.0153,
6524
+ "step": 925
6525
+ },
6526
+ {
6527
+ "epoch": 0.2962725963845785,
6528
+ "grad_norm": 8784803.0,
6529
+ "learning_rate": 0.0003215208094245127,
6530
+ "loss": 30.9955,
6531
+ "step": 926
6532
+ },
6533
+ {
6534
+ "epoch": 0.2965925451927692,
6535
+ "grad_norm": 39772.76171875,
6536
+ "learning_rate": 0.00032136230259406016,
6537
+ "loss": 31.03,
6538
+ "step": 927
6539
+ },
6540
+ {
6541
+ "epoch": 0.29691249400095987,
6542
+ "grad_norm": 44792.16796875,
6543
+ "learning_rate": 0.00032120367761238227,
6544
+ "loss": 31.4258,
6545
+ "step": 928
6546
+ },
6547
+ {
6548
+ "epoch": 0.2972324428091505,
6549
+ "grad_norm": 399403.78125,
6550
+ "learning_rate": 0.00032104493464777404,
6551
+ "loss": 33.6536,
6552
+ "step": 929
6553
+ },
6554
+ {
6555
+ "epoch": 0.2975523916173412,
6556
+ "grad_norm": 869917.6875,
6557
+ "learning_rate": 0.0003208860738686558,
6558
+ "loss": 32.0902,
6559
+ "step": 930
6560
+ },
6561
+ {
6562
+ "epoch": 0.2978723404255319,
6563
+ "grad_norm": 78028.140625,
6564
+ "learning_rate": 0.00032072709544357306,
6565
+ "loss": 32.4948,
6566
+ "step": 931
6567
+ },
6568
+ {
6569
+ "epoch": 0.2981922892337226,
6570
+ "grad_norm": 3609.693603515625,
6571
+ "learning_rate": 0.0003205679995411958,
6572
+ "loss": 32.1421,
6573
+ "step": 932
6574
+ },
6575
+ {
6576
+ "epoch": 0.2985122380419133,
6577
+ "grad_norm": 36646.99609375,
6578
+ "learning_rate": 0.00032040878633031884,
6579
+ "loss": 25.8291,
6580
+ "step": 933
6581
+ },
6582
+ {
6583
+ "epoch": 0.298832186850104,
6584
+ "grad_norm": 6927.86328125,
6585
+ "learning_rate": 0.0003202494559798614,
6586
+ "loss": 26.697,
6587
+ "step": 934
6588
+ },
6589
+ {
6590
+ "epoch": 0.2991521356582947,
6591
+ "grad_norm": 745786.875,
6592
+ "learning_rate": 0.0003200900086588671,
6593
+ "loss": 22.2229,
6594
+ "step": 935
6595
+ },
6596
+ {
6597
+ "epoch": 0.2994720844664854,
6598
+ "grad_norm": 208755.265625,
6599
+ "learning_rate": 0.0003199304445365035,
6600
+ "loss": 18.1356,
6601
+ "step": 936
6602
+ },
6603
+ {
6604
+ "epoch": 0.2997920332746761,
6605
+ "grad_norm": 7917.80859375,
6606
+ "learning_rate": 0.0003197707637820621,
6607
+ "loss": 16.6657,
6608
+ "step": 937
6609
+ },
6610
+ {
6611
+ "epoch": 0.30011198208286677,
6612
+ "grad_norm": 498.3856506347656,
6613
+ "learning_rate": 0.00031961096656495824,
6614
+ "loss": 15.2576,
6615
+ "step": 938
6616
+ },
6617
+ {
6618
+ "epoch": 0.3004319308910574,
6619
+ "grad_norm": 245.81466674804688,
6620
+ "learning_rate": 0.00031945105305473075,
6621
+ "loss": 10.8893,
6622
+ "step": 939
6623
+ },
6624
+ {
6625
+ "epoch": 0.3007518796992481,
6626
+ "grad_norm": 946.4498291015625,
6627
+ "learning_rate": 0.000319291023421042,
6628
+ "loss": 7.6083,
6629
+ "step": 940
6630
+ },
6631
+ {
6632
+ "epoch": 0.3010718285074388,
6633
+ "grad_norm": 136.80340576171875,
6634
+ "learning_rate": 0.0003191308778336772,
6635
+ "loss": 7.4698,
6636
+ "step": 941
6637
+ },
6638
+ {
6639
+ "epoch": 0.3013917773156295,
6640
+ "grad_norm": 423.9597473144531,
6641
+ "learning_rate": 0.000318970616462545,
6642
+ "loss": 8.2354,
6643
+ "step": 942
6644
+ },
6645
+ {
6646
+ "epoch": 0.3017117261238202,
6647
+ "grad_norm": 12609.2431640625,
6648
+ "learning_rate": 0.00031881023947767656,
6649
+ "loss": 8.5875,
6650
+ "step": 943
6651
+ },
6652
+ {
6653
+ "epoch": 0.3020316749320109,
6654
+ "grad_norm": 63.26814651489258,
6655
+ "learning_rate": 0.000318649747049226,
6656
+ "loss": 9.1278,
6657
+ "step": 944
6658
+ },
6659
+ {
6660
+ "epoch": 0.3023516237402016,
6661
+ "grad_norm": 1825.032470703125,
6662
+ "learning_rate": 0.0003184891393474696,
6663
+ "loss": 9.1317,
6664
+ "step": 945
6665
+ },
6666
+ {
6667
+ "epoch": 0.3026715725483923,
6668
+ "grad_norm": 76.4158706665039,
6669
+ "learning_rate": 0.0003183284165428061,
6670
+ "loss": 8.2171,
6671
+ "step": 946
6672
+ },
6673
+ {
6674
+ "epoch": 0.30299152135658297,
6675
+ "grad_norm": 14688.9970703125,
6676
+ "learning_rate": 0.00031816757880575664,
6677
+ "loss": 7.872,
6678
+ "step": 947
6679
+ },
6680
+ {
6681
+ "epoch": 0.3033114701647736,
6682
+ "grad_norm": 21862.908203125,
6683
+ "learning_rate": 0.0003180066263069637,
6684
+ "loss": 7.8133,
6685
+ "step": 948
6686
+ },
6687
+ {
6688
+ "epoch": 0.3036314189729643,
6689
+ "grad_norm": 132.2907257080078,
6690
+ "learning_rate": 0.000317845559217192,
6691
+ "loss": 7.9487,
6692
+ "step": 949
6693
+ },
6694
+ {
6695
+ "epoch": 0.303951367781155,
6696
+ "grad_norm": 125.90247344970703,
6697
+ "learning_rate": 0.00031768437770732775,
6698
+ "loss": 7.259,
6699
+ "step": 950
6700
+ },
6701
+ {
6702
+ "epoch": 0.3042713165893457,
6703
+ "grad_norm": 71.32536315917969,
6704
+ "learning_rate": 0.0003175230819483784,
6705
+ "loss": 6.9182,
6706
+ "step": 951
6707
+ },
6708
+ {
6709
+ "epoch": 0.3045912653975364,
6710
+ "grad_norm": 315.1258239746094,
6711
+ "learning_rate": 0.0003173616721114726,
6712
+ "loss": 6.9307,
6713
+ "step": 952
6714
+ },
6715
+ {
6716
+ "epoch": 0.3049112142057271,
6717
+ "grad_norm": 13234.1328125,
6718
+ "learning_rate": 0.0003172001483678603,
6719
+ "loss": 6.8386,
6720
+ "step": 953
6721
+ },
6722
+ {
6723
+ "epoch": 0.3052311630139178,
6724
+ "grad_norm": 37406.86328125,
6725
+ "learning_rate": 0.00031703851088891197,
6726
+ "loss": 7.2485,
6727
+ "step": 954
6728
+ },
6729
+ {
6730
+ "epoch": 0.3055511118221085,
6731
+ "grad_norm": 352988.6875,
6732
+ "learning_rate": 0.0003168767598461191,
6733
+ "loss": 6.8438,
6734
+ "step": 955
6735
+ },
6736
+ {
6737
+ "epoch": 0.3058710606302992,
6738
+ "grad_norm": 262.562744140625,
6739
+ "learning_rate": 0.00031671489541109326,
6740
+ "loss": 8.3405,
6741
+ "step": 956
6742
+ },
6743
+ {
6744
+ "epoch": 0.3061910094384898,
6745
+ "grad_norm": 1149.9610595703125,
6746
+ "learning_rate": 0.0003165529177555668,
6747
+ "loss": 8.3142,
6748
+ "step": 957
6749
+ },
6750
+ {
6751
+ "epoch": 0.3065109582466805,
6752
+ "grad_norm": 331.04718017578125,
6753
+ "learning_rate": 0.0003163908270513917,
6754
+ "loss": 8.1344,
6755
+ "step": 958
6756
+ },
6757
+ {
6758
+ "epoch": 0.3068309070548712,
6759
+ "grad_norm": 112.65670013427734,
6760
+ "learning_rate": 0.0003162286234705403,
6761
+ "loss": 7.2487,
6762
+ "step": 959
6763
+ },
6764
+ {
6765
+ "epoch": 0.3071508558630619,
6766
+ "grad_norm": 115.52394104003906,
6767
+ "learning_rate": 0.00031606630718510433,
6768
+ "loss": 7.4428,
6769
+ "step": 960
6770
+ },
6771
+ {
6772
+ "epoch": 0.3074708046712526,
6773
+ "grad_norm": 409.6588134765625,
6774
+ "learning_rate": 0.00031590387836729543,
6775
+ "loss": 6.6182,
6776
+ "step": 961
6777
+ },
6778
+ {
6779
+ "epoch": 0.3077907534794433,
6780
+ "grad_norm": 140.50241088867188,
6781
+ "learning_rate": 0.0003157413371894444,
6782
+ "loss": 7.4124,
6783
+ "step": 962
6784
+ },
6785
+ {
6786
+ "epoch": 0.308110702287634,
6787
+ "grad_norm": 126.857666015625,
6788
+ "learning_rate": 0.0003155786838240014,
6789
+ "loss": 6.8525,
6790
+ "step": 963
6791
+ },
6792
+ {
6793
+ "epoch": 0.3084306510958247,
6794
+ "grad_norm": 4386.052734375,
6795
+ "learning_rate": 0.0003154159184435355,
6796
+ "loss": 7.0282,
6797
+ "step": 964
6798
+ },
6799
+ {
6800
+ "epoch": 0.3087505999040154,
6801
+ "grad_norm": 79.79589080810547,
6802
+ "learning_rate": 0.00031525304122073476,
6803
+ "loss": 7.3552,
6804
+ "step": 965
6805
+ },
6806
+ {
6807
+ "epoch": 0.3090705487122061,
6808
+ "grad_norm": 207.43475341796875,
6809
+ "learning_rate": 0.0003150900523284056,
6810
+ "loss": 6.9154,
6811
+ "step": 966
6812
+ },
6813
+ {
6814
+ "epoch": 0.3093904975203967,
6815
+ "grad_norm": 44.77931594848633,
6816
+ "learning_rate": 0.00031492695193947325,
6817
+ "loss": 6.9198,
6818
+ "step": 967
6819
+ },
6820
+ {
6821
+ "epoch": 0.3097104463285874,
6822
+ "grad_norm": 103.20629119873047,
6823
+ "learning_rate": 0.0003147637402269812,
6824
+ "loss": 7.0039,
6825
+ "step": 968
6826
+ },
6827
+ {
6828
+ "epoch": 0.3100303951367781,
6829
+ "grad_norm": 31.550006866455078,
6830
+ "learning_rate": 0.0003146004173640908,
6831
+ "loss": 6.7761,
6832
+ "step": 969
6833
+ },
6834
+ {
6835
+ "epoch": 0.3103503439449688,
6836
+ "grad_norm": 14.499809265136719,
6837
+ "learning_rate": 0.0003144369835240815,
6838
+ "loss": 6.6403,
6839
+ "step": 970
6840
+ },
6841
+ {
6842
+ "epoch": 0.3106702927531595,
6843
+ "grad_norm": 47.8282470703125,
6844
+ "learning_rate": 0.00031427343888035047,
6845
+ "loss": 6.626,
6846
+ "step": 971
6847
+ },
6848
+ {
6849
+ "epoch": 0.3109902415613502,
6850
+ "grad_norm": 15.349066734313965,
6851
+ "learning_rate": 0.00031410978360641253,
6852
+ "loss": 7.1983,
6853
+ "step": 972
6854
+ },
6855
+ {
6856
+ "epoch": 0.3113101903695409,
6857
+ "grad_norm": 12.059926986694336,
6858
+ "learning_rate": 0.0003139460178758997,
6859
+ "loss": 6.6756,
6860
+ "step": 973
6861
+ },
6862
+ {
6863
+ "epoch": 0.3116301391777316,
6864
+ "grad_norm": 42.02625274658203,
6865
+ "learning_rate": 0.0003137821418625613,
6866
+ "loss": 6.7595,
6867
+ "step": 974
6868
+ },
6869
+ {
6870
+ "epoch": 0.3119500879859223,
6871
+ "grad_norm": 18.728851318359375,
6872
+ "learning_rate": 0.0003136181557402637,
6873
+ "loss": 6.7694,
6874
+ "step": 975
6875
+ },
6876
+ {
6877
+ "epoch": 0.3122700367941129,
6878
+ "grad_norm": 17.670698165893555,
6879
+ "learning_rate": 0.00031345405968298995,
6880
+ "loss": 6.9929,
6881
+ "step": 976
6882
+ },
6883
+ {
6884
+ "epoch": 0.3125899856023036,
6885
+ "grad_norm": 12.548014640808105,
6886
+ "learning_rate": 0.00031328985386483974,
6887
+ "loss": 6.7901,
6888
+ "step": 977
6889
+ },
6890
+ {
6891
+ "epoch": 0.3129099344104943,
6892
+ "grad_norm": 15.494758605957031,
6893
+ "learning_rate": 0.0003131255384600294,
6894
+ "loss": 6.6275,
6895
+ "step": 978
6896
+ },
6897
+ {
6898
+ "epoch": 0.313229883218685,
6899
+ "grad_norm": 22.92428207397461,
6900
+ "learning_rate": 0.00031296111364289143,
6901
+ "loss": 6.7544,
6902
+ "step": 979
6903
+ },
6904
+ {
6905
+ "epoch": 0.3135498320268757,
6906
+ "grad_norm": 8.640791893005371,
6907
+ "learning_rate": 0.00031279657958787434,
6908
+ "loss": 6.6713,
6909
+ "step": 980
6910
+ },
6911
+ {
6912
+ "epoch": 0.3138697808350664,
6913
+ "grad_norm": 11.602739334106445,
6914
+ "learning_rate": 0.00031263193646954255,
6915
+ "loss": 6.8735,
6916
+ "step": 981
6917
+ },
6918
+ {
6919
+ "epoch": 0.3141897296432571,
6920
+ "grad_norm": 7.338200569152832,
6921
+ "learning_rate": 0.0003124671844625763,
6922
+ "loss": 6.8,
6923
+ "step": 982
6924
+ },
6925
+ {
6926
+ "epoch": 0.3145096784514478,
6927
+ "grad_norm": 8.646294593811035,
6928
+ "learning_rate": 0.00031230232374177127,
6929
+ "loss": 6.4102,
6930
+ "step": 983
6931
+ },
6932
+ {
6933
+ "epoch": 0.3148296272596385,
6934
+ "grad_norm": 8.402074813842773,
6935
+ "learning_rate": 0.0003121373544820385,
6936
+ "loss": 6.7865,
6937
+ "step": 984
6938
+ },
6939
+ {
6940
+ "epoch": 0.3151495760678292,
6941
+ "grad_norm": 9.351253509521484,
6942
+ "learning_rate": 0.00031197227685840414,
6943
+ "loss": 6.6593,
6944
+ "step": 985
6945
+ },
6946
+ {
6947
+ "epoch": 0.3154695248760198,
6948
+ "grad_norm": 13.015589714050293,
6949
+ "learning_rate": 0.0003118070910460094,
6950
+ "loss": 6.7232,
6951
+ "step": 986
6952
+ },
6953
+ {
6954
+ "epoch": 0.3157894736842105,
6955
+ "grad_norm": 10.829553604125977,
6956
+ "learning_rate": 0.0003116417972201102,
6957
+ "loss": 6.6565,
6958
+ "step": 987
6959
+ },
6960
+ {
6961
+ "epoch": 0.3161094224924012,
6962
+ "grad_norm": 8.133262634277344,
6963
+ "learning_rate": 0.00031147639555607713,
6964
+ "loss": 6.8315,
6965
+ "step": 988
6966
+ },
6967
+ {
6968
+ "epoch": 0.3164293713005919,
6969
+ "grad_norm": 5.855452537536621,
6970
+ "learning_rate": 0.0003113108862293952,
6971
+ "loss": 6.7788,
6972
+ "step": 989
6973
+ },
6974
+ {
6975
+ "epoch": 0.3167493201087826,
6976
+ "grad_norm": 8.390470504760742,
6977
+ "learning_rate": 0.0003111452694156634,
6978
+ "loss": 6.6702,
6979
+ "step": 990
6980
+ },
6981
+ {
6982
+ "epoch": 0.3170692689169733,
6983
+ "grad_norm": 7.9397969245910645,
6984
+ "learning_rate": 0.0003109795452905952,
6985
+ "loss": 6.8752,
6986
+ "step": 991
6987
+ },
6988
+ {
6989
+ "epoch": 0.317389217725164,
6990
+ "grad_norm": 9.200600624084473,
6991
+ "learning_rate": 0.0003108137140300175,
6992
+ "loss": 6.7201,
6993
+ "step": 992
6994
+ },
6995
+ {
6996
+ "epoch": 0.3177091665333547,
6997
+ "grad_norm": 6.002403259277344,
6998
+ "learning_rate": 0.0003106477758098712,
6999
+ "loss": 6.5127,
7000
+ "step": 993
7001
+ },
7002
+ {
7003
+ "epoch": 0.3180291153415454,
7004
+ "grad_norm": 7.685515880584717,
7005
+ "learning_rate": 0.00031048173080621034,
7006
+ "loss": 6.6819,
7007
+ "step": 994
7008
+ },
7009
+ {
7010
+ "epoch": 0.318349064149736,
7011
+ "grad_norm": 6.026432037353516,
7012
+ "learning_rate": 0.0003103155791952026,
7013
+ "loss": 6.6265,
7014
+ "step": 995
7015
+ },
7016
+ {
7017
+ "epoch": 0.3186690129579267,
7018
+ "grad_norm": 7.417787551879883,
7019
+ "learning_rate": 0.0003101493211531285,
7020
+ "loss": 6.6986,
7021
+ "step": 996
7022
+ },
7023
+ {
7024
+ "epoch": 0.3189889617661174,
7025
+ "grad_norm": 12.300549507141113,
7026
+ "learning_rate": 0.00030998295685638166,
7027
+ "loss": 6.87,
7028
+ "step": 997
7029
+ },
7030
+ {
7031
+ "epoch": 0.3193089105743081,
7032
+ "grad_norm": 7.922842025756836,
7033
+ "learning_rate": 0.00030981648648146837,
7034
+ "loss": 6.8495,
7035
+ "step": 998
7036
+ },
7037
+ {
7038
+ "epoch": 0.3196288593824988,
7039
+ "grad_norm": 18.15106201171875,
7040
+ "learning_rate": 0.00030964991020500745,
7041
+ "loss": 6.6748,
7042
+ "step": 999
7043
+ },
7044
+ {
7045
+ "epoch": 0.3199488081906895,
7046
+ "grad_norm": 7.818212985992432,
7047
+ "learning_rate": 0.0003094832282037299,
7048
+ "loss": 6.6174,
7049
+ "step": 1000
7050
+ },
7051
+ {
7052
+ "epoch": 0.3199488081906895,
7053
+ "eval_loss": 3.358996868133545,
7054
+ "eval_runtime": 233.9815,
7055
+ "eval_samples_per_second": 5.624,
7056
+ "eval_steps_per_second": 1.406,
7057
+ "step": 1000
7058
  }
7059
  ],
7060
  "logging_steps": 1,
 
7069
  "early_stopping_threshold": 0.0
7070
  },
7071
  "attributes": {
7072
+ "early_stopping_patience_counter": 2
7073
  }
7074
  },
7075
  "TrainerControl": {
 
7083
  "attributes": {}
7084
  }
7085
  },
7086
+ "total_flos": 9.201317197790577e+17,
7087
  "train_batch_size": 4,
7088
  "trial_name": null,
7089
  "trial_params": null