ErrorAI commited on
Commit
e37b0e0
·
verified ·
1 Parent(s): 0b2cc71

Training in progress, step 1108, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c1dbd19107319c058bd00055bb44a8c7f5eb208b888d6b52575bd7776291612d
3
  size 25271744
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a69873baae6a9074b90daede1e89017f756e3658b21ab46e0a09b1325800b7d3
3
  size 25271744
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:70faa927d2d54c8ea7e7448c78084d6e6bba62b12460f6e68ddb25a4eda68fbd
3
  size 13685836
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:68d04871cc72386fe427ab7d1d1d39532b5862b52bd77d7f55bd35220007c172
3
  size 13685836
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2738afd85fa000763436a2d636f7e58177e0ad5cf69c1697cda8d874f4897ae9
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9215b276ed498008f4b759f0ba01593d45ec470b6d10151dac9834a71408101d
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:896d4cf2739e2a4f3e21a7eda08b38acf92ea653e52c8f1d68438ebfb7a26d99
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:3f13f55d1060c3c72ae6451af25abaa85fccc47c713075848b9ef644f620ac13
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.7503386004514673,
5
  "eval_steps": 277,
6
- "global_step": 831,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -5856,6 +5856,1953 @@
5856
  "eval_samples_per_second": 56.135,
5857
  "eval_steps_per_second": 28.127,
5858
  "step": 831
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
5859
  }
5860
  ],
5861
  "logging_steps": 1,
@@ -5870,12 +7817,12 @@
5870
  "should_evaluate": false,
5871
  "should_log": false,
5872
  "should_save": true,
5873
- "should_training_stop": false
5874
  },
5875
  "attributes": {}
5876
  }
5877
  },
5878
- "total_flos": 2.1256313392594944e+16,
5879
  "train_batch_size": 2,
5880
  "trial_name": null,
5881
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.000451467268623,
5
  "eval_steps": 277,
6
+ "global_step": 1108,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
5856
  "eval_samples_per_second": 56.135,
5857
  "eval_steps_per_second": 28.127,
5858
  "step": 831
5859
+ },
5860
+ {
5861
+ "epoch": 0.7512415349887133,
5862
+ "grad_norm": 2.1794707775115967,
5863
+ "learning_rate": 2.9593447786519425e-05,
5864
+ "loss": 1.3264,
5865
+ "step": 832
5866
+ },
5867
+ {
5868
+ "epoch": 0.7521444695259594,
5869
+ "grad_norm": 1.6141659021377563,
5870
+ "learning_rate": 2.939055274225837e-05,
5871
+ "loss": 1.0558,
5872
+ "step": 833
5873
+ },
5874
+ {
5875
+ "epoch": 0.7530474040632055,
5876
+ "grad_norm": 1.9301906824111938,
5877
+ "learning_rate": 2.9188235737582415e-05,
5878
+ "loss": 1.5294,
5879
+ "step": 834
5880
+ },
5881
+ {
5882
+ "epoch": 0.7539503386004515,
5883
+ "grad_norm": 1.5749702453613281,
5884
+ "learning_rate": 2.8986498428746444e-05,
5885
+ "loss": 0.9791,
5886
+ "step": 835
5887
+ },
5888
+ {
5889
+ "epoch": 0.7548532731376976,
5890
+ "grad_norm": 1.8780022859573364,
5891
+ "learning_rate": 2.8785342467259568e-05,
5892
+ "loss": 1.0155,
5893
+ "step": 836
5894
+ },
5895
+ {
5896
+ "epoch": 0.7557562076749436,
5897
+ "grad_norm": 1.6968313455581665,
5898
+ "learning_rate": 2.8584769499871855e-05,
5899
+ "loss": 1.0465,
5900
+ "step": 837
5901
+ },
5902
+ {
5903
+ "epoch": 0.7566591422121897,
5904
+ "grad_norm": 1.3689275979995728,
5905
+ "learning_rate": 2.8384781168560693e-05,
5906
+ "loss": 1.0468,
5907
+ "step": 838
5908
+ },
5909
+ {
5910
+ "epoch": 0.7575620767494357,
5911
+ "grad_norm": 1.6762698888778687,
5912
+ "learning_rate": 2.8185379110517297e-05,
5913
+ "loss": 1.0407,
5914
+ "step": 839
5915
+ },
5916
+ {
5917
+ "epoch": 0.7584650112866818,
5918
+ "grad_norm": 1.3322452306747437,
5919
+ "learning_rate": 2.7986564958133565e-05,
5920
+ "loss": 0.9764,
5921
+ "step": 840
5922
+ },
5923
+ {
5924
+ "epoch": 0.7593679458239277,
5925
+ "grad_norm": 1.8644042015075684,
5926
+ "learning_rate": 2.7788340338988385e-05,
5927
+ "loss": 1.273,
5928
+ "step": 841
5929
+ },
5930
+ {
5931
+ "epoch": 0.7602708803611739,
5932
+ "grad_norm": 1.4388748407363892,
5933
+ "learning_rate": 2.759070687583456e-05,
5934
+ "loss": 0.8267,
5935
+ "step": 842
5936
+ },
5937
+ {
5938
+ "epoch": 0.7611738148984198,
5939
+ "grad_norm": 1.474744200706482,
5940
+ "learning_rate": 2.739366618658542e-05,
5941
+ "loss": 0.7948,
5942
+ "step": 843
5943
+ },
5944
+ {
5945
+ "epoch": 0.762076749435666,
5946
+ "grad_norm": 1.5191571712493896,
5947
+ "learning_rate": 2.719721988430153e-05,
5948
+ "loss": 0.7101,
5949
+ "step": 844
5950
+ },
5951
+ {
5952
+ "epoch": 0.7629796839729119,
5953
+ "grad_norm": 1.4666507244110107,
5954
+ "learning_rate": 2.7001369577177626e-05,
5955
+ "loss": 0.765,
5956
+ "step": 845
5957
+ },
5958
+ {
5959
+ "epoch": 0.763882618510158,
5960
+ "grad_norm": 1.5151119232177734,
5961
+ "learning_rate": 2.6806116868529364e-05,
5962
+ "loss": 0.9452,
5963
+ "step": 846
5964
+ },
5965
+ {
5966
+ "epoch": 0.764785553047404,
5967
+ "grad_norm": 1.1114673614501953,
5968
+ "learning_rate": 2.6611463356780096e-05,
5969
+ "loss": 0.5131,
5970
+ "step": 847
5971
+ },
5972
+ {
5973
+ "epoch": 0.7656884875846501,
5974
+ "grad_norm": 1.5805968046188354,
5975
+ "learning_rate": 2.6417410635448013e-05,
5976
+ "loss": 0.9875,
5977
+ "step": 848
5978
+ },
5979
+ {
5980
+ "epoch": 0.7665914221218961,
5981
+ "grad_norm": 1.464408278465271,
5982
+ "learning_rate": 2.622396029313293e-05,
5983
+ "loss": 1.0605,
5984
+ "step": 849
5985
+ },
5986
+ {
5987
+ "epoch": 0.7674943566591422,
5988
+ "grad_norm": 1.7082327604293823,
5989
+ "learning_rate": 2.6031113913503337e-05,
5990
+ "loss": 1.1644,
5991
+ "step": 850
5992
+ },
5993
+ {
5994
+ "epoch": 0.7683972911963882,
5995
+ "grad_norm": 1.4891247749328613,
5996
+ "learning_rate": 2.5838873075283343e-05,
5997
+ "loss": 0.934,
5998
+ "step": 851
5999
+ },
6000
+ {
6001
+ "epoch": 0.7693002257336343,
6002
+ "grad_norm": 1.7040550708770752,
6003
+ "learning_rate": 2.564723935223995e-05,
6004
+ "loss": 1.1936,
6005
+ "step": 852
6006
+ },
6007
+ {
6008
+ "epoch": 0.7702031602708803,
6009
+ "grad_norm": 1.9601792097091675,
6010
+ "learning_rate": 2.5456214313170002e-05,
6011
+ "loss": 1.5839,
6012
+ "step": 853
6013
+ },
6014
+ {
6015
+ "epoch": 0.7711060948081264,
6016
+ "grad_norm": 1.7376189231872559,
6017
+ "learning_rate": 2.5265799521887345e-05,
6018
+ "loss": 1.4663,
6019
+ "step": 854
6020
+ },
6021
+ {
6022
+ "epoch": 0.7720090293453724,
6023
+ "grad_norm": 1.6315890550613403,
6024
+ "learning_rate": 2.5075996537210133e-05,
6025
+ "loss": 1.2038,
6026
+ "step": 855
6027
+ },
6028
+ {
6029
+ "epoch": 0.7729119638826185,
6030
+ "grad_norm": 1.7750074863433838,
6031
+ "learning_rate": 2.4886806912948035e-05,
6032
+ "loss": 1.2161,
6033
+ "step": 856
6034
+ },
6035
+ {
6036
+ "epoch": 0.7738148984198645,
6037
+ "grad_norm": 1.5756460428237915,
6038
+ "learning_rate": 2.4698232197889337e-05,
6039
+ "loss": 0.9405,
6040
+ "step": 857
6041
+ },
6042
+ {
6043
+ "epoch": 0.7747178329571106,
6044
+ "grad_norm": 1.7079740762710571,
6045
+ "learning_rate": 2.451027393578863e-05,
6046
+ "loss": 1.3505,
6047
+ "step": 858
6048
+ },
6049
+ {
6050
+ "epoch": 0.7756207674943567,
6051
+ "grad_norm": 1.0900604724884033,
6052
+ "learning_rate": 2.4322933665353776e-05,
6053
+ "loss": 0.8443,
6054
+ "step": 859
6055
+ },
6056
+ {
6057
+ "epoch": 0.7765237020316027,
6058
+ "grad_norm": 1.6753469705581665,
6059
+ "learning_rate": 2.413621292023349e-05,
6060
+ "loss": 1.2974,
6061
+ "step": 860
6062
+ },
6063
+ {
6064
+ "epoch": 0.7774266365688488,
6065
+ "grad_norm": 1.7383633852005005,
6066
+ "learning_rate": 2.3950113229004968e-05,
6067
+ "loss": 1.2505,
6068
+ "step": 861
6069
+ },
6070
+ {
6071
+ "epoch": 0.7783295711060948,
6072
+ "grad_norm": 1.237730860710144,
6073
+ "learning_rate": 2.3764636115160978e-05,
6074
+ "loss": 0.8125,
6075
+ "step": 862
6076
+ },
6077
+ {
6078
+ "epoch": 0.7792325056433409,
6079
+ "grad_norm": 1.43095064163208,
6080
+ "learning_rate": 2.3579783097097695e-05,
6081
+ "loss": 0.6666,
6082
+ "step": 863
6083
+ },
6084
+ {
6085
+ "epoch": 0.7801354401805869,
6086
+ "grad_norm": 1.8008005619049072,
6087
+ "learning_rate": 2.339555568810221e-05,
6088
+ "loss": 1.2575,
6089
+ "step": 864
6090
+ },
6091
+ {
6092
+ "epoch": 0.781038374717833,
6093
+ "grad_norm": 1.721174716949463,
6094
+ "learning_rate": 2.3211955396340002e-05,
6095
+ "loss": 1.4017,
6096
+ "step": 865
6097
+ },
6098
+ {
6099
+ "epoch": 0.781941309255079,
6100
+ "grad_norm": 1.8302357196807861,
6101
+ "learning_rate": 2.302898372484278e-05,
6102
+ "loss": 1.3493,
6103
+ "step": 866
6104
+ },
6105
+ {
6106
+ "epoch": 0.7828442437923251,
6107
+ "grad_norm": 1.9394512176513672,
6108
+ "learning_rate": 2.2846642171496102e-05,
6109
+ "loss": 1.5522,
6110
+ "step": 867
6111
+ },
6112
+ {
6113
+ "epoch": 0.7837471783295711,
6114
+ "grad_norm": 1.74718177318573,
6115
+ "learning_rate": 2.2664932229027024e-05,
6116
+ "loss": 1.3953,
6117
+ "step": 868
6118
+ },
6119
+ {
6120
+ "epoch": 0.7846501128668172,
6121
+ "grad_norm": 1.7172614336013794,
6122
+ "learning_rate": 2.2483855384992026e-05,
6123
+ "loss": 1.1969,
6124
+ "step": 869
6125
+ },
6126
+ {
6127
+ "epoch": 0.7855530474040632,
6128
+ "grad_norm": 1.8553889989852905,
6129
+ "learning_rate": 2.230341312176476e-05,
6130
+ "loss": 1.0929,
6131
+ "step": 870
6132
+ },
6133
+ {
6134
+ "epoch": 0.7864559819413093,
6135
+ "grad_norm": 1.6518503427505493,
6136
+ "learning_rate": 2.2123606916523953e-05,
6137
+ "loss": 1.1453,
6138
+ "step": 871
6139
+ },
6140
+ {
6141
+ "epoch": 0.7873589164785553,
6142
+ "grad_norm": 1.5877022743225098,
6143
+ "learning_rate": 2.1944438241241184e-05,
6144
+ "loss": 1.149,
6145
+ "step": 872
6146
+ },
6147
+ {
6148
+ "epoch": 0.7882618510158014,
6149
+ "grad_norm": 1.6167192459106445,
6150
+ "learning_rate": 2.1765908562669035e-05,
6151
+ "loss": 0.9507,
6152
+ "step": 873
6153
+ },
6154
+ {
6155
+ "epoch": 0.7891647855530474,
6156
+ "grad_norm": 1.4243950843811035,
6157
+ "learning_rate": 2.1588019342328968e-05,
6158
+ "loss": 0.9338,
6159
+ "step": 874
6160
+ },
6161
+ {
6162
+ "epoch": 0.7900677200902935,
6163
+ "grad_norm": 1.5820962190628052,
6164
+ "learning_rate": 2.1410772036499326e-05,
6165
+ "loss": 0.9402,
6166
+ "step": 875
6167
+ },
6168
+ {
6169
+ "epoch": 0.7909706546275395,
6170
+ "grad_norm": 1.3775403499603271,
6171
+ "learning_rate": 2.1234168096203512e-05,
6172
+ "loss": 0.6707,
6173
+ "step": 876
6174
+ },
6175
+ {
6176
+ "epoch": 0.7918735891647856,
6177
+ "grad_norm": 1.983003854751587,
6178
+ "learning_rate": 2.1058208967198045e-05,
6179
+ "loss": 1.4335,
6180
+ "step": 877
6181
+ },
6182
+ {
6183
+ "epoch": 0.7927765237020316,
6184
+ "grad_norm": 1.9397960901260376,
6185
+ "learning_rate": 2.088289608996071e-05,
6186
+ "loss": 1.1648,
6187
+ "step": 878
6188
+ },
6189
+ {
6190
+ "epoch": 0.7936794582392777,
6191
+ "grad_norm": 1.6338427066802979,
6192
+ "learning_rate": 2.0708230899678838e-05,
6193
+ "loss": 1.4529,
6194
+ "step": 879
6195
+ },
6196
+ {
6197
+ "epoch": 0.7945823927765236,
6198
+ "grad_norm": 1.9832733869552612,
6199
+ "learning_rate": 2.0534214826237484e-05,
6200
+ "loss": 1.7312,
6201
+ "step": 880
6202
+ },
6203
+ {
6204
+ "epoch": 0.7954853273137698,
6205
+ "grad_norm": 1.142454981803894,
6206
+ "learning_rate": 2.0360849294207808e-05,
6207
+ "loss": 0.6494,
6208
+ "step": 881
6209
+ },
6210
+ {
6211
+ "epoch": 0.7963882618510159,
6212
+ "grad_norm": 1.638196587562561,
6213
+ "learning_rate": 2.0188135722835233e-05,
6214
+ "loss": 1.3321,
6215
+ "step": 882
6216
+ },
6217
+ {
6218
+ "epoch": 0.7972911963882618,
6219
+ "grad_norm": 1.6472254991531372,
6220
+ "learning_rate": 2.0016075526028065e-05,
6221
+ "loss": 1.3264,
6222
+ "step": 883
6223
+ },
6224
+ {
6225
+ "epoch": 0.798194130925508,
6226
+ "grad_norm": 2.0473620891571045,
6227
+ "learning_rate": 1.9844670112345786e-05,
6228
+ "loss": 1.7047,
6229
+ "step": 884
6230
+ },
6231
+ {
6232
+ "epoch": 0.7990970654627539,
6233
+ "grad_norm": 1.5241625308990479,
6234
+ "learning_rate": 1.9673920884987463e-05,
6235
+ "loss": 1.1379,
6236
+ "step": 885
6237
+ },
6238
+ {
6239
+ "epoch": 0.8,
6240
+ "grad_norm": 1.3565895557403564,
6241
+ "learning_rate": 1.9503829241780412e-05,
6242
+ "loss": 0.8124,
6243
+ "step": 886
6244
+ },
6245
+ {
6246
+ "epoch": 0.800902934537246,
6247
+ "grad_norm": 1.800199270248413,
6248
+ "learning_rate": 1.9334396575168688e-05,
6249
+ "loss": 1.3687,
6250
+ "step": 887
6251
+ },
6252
+ {
6253
+ "epoch": 0.8018058690744921,
6254
+ "grad_norm": 1.655916452407837,
6255
+ "learning_rate": 1.9165624272201567e-05,
6256
+ "loss": 1.0146,
6257
+ "step": 888
6258
+ },
6259
+ {
6260
+ "epoch": 0.8027088036117381,
6261
+ "grad_norm": 1.7925070524215698,
6262
+ "learning_rate": 1.8997513714522487e-05,
6263
+ "loss": 1.0542,
6264
+ "step": 889
6265
+ },
6266
+ {
6267
+ "epoch": 0.8036117381489842,
6268
+ "grad_norm": 1.5180613994598389,
6269
+ "learning_rate": 1.8830066278357393e-05,
6270
+ "loss": 0.7936,
6271
+ "step": 890
6272
+ },
6273
+ {
6274
+ "epoch": 0.8045146726862302,
6275
+ "grad_norm": 1.3471791744232178,
6276
+ "learning_rate": 1.8663283334503633e-05,
6277
+ "loss": 1.0296,
6278
+ "step": 891
6279
+ },
6280
+ {
6281
+ "epoch": 0.8054176072234763,
6282
+ "grad_norm": 1.8048678636550903,
6283
+ "learning_rate": 1.8497166248318876e-05,
6284
+ "loss": 1.4417,
6285
+ "step": 892
6286
+ },
6287
+ {
6288
+ "epoch": 0.8063205417607223,
6289
+ "grad_norm": 1.628916621208191,
6290
+ "learning_rate": 1.833171637970963e-05,
6291
+ "loss": 1.1107,
6292
+ "step": 893
6293
+ },
6294
+ {
6295
+ "epoch": 0.8072234762979684,
6296
+ "grad_norm": 1.8453953266143799,
6297
+ "learning_rate": 1.8166935083120352e-05,
6298
+ "loss": 1.4268,
6299
+ "step": 894
6300
+ },
6301
+ {
6302
+ "epoch": 0.8081264108352144,
6303
+ "grad_norm": 1.3454231023788452,
6304
+ "learning_rate": 1.8002823707522297e-05,
6305
+ "loss": 1.0191,
6306
+ "step": 895
6307
+ },
6308
+ {
6309
+ "epoch": 0.8090293453724605,
6310
+ "grad_norm": 1.2696763277053833,
6311
+ "learning_rate": 1.783938359640238e-05,
6312
+ "loss": 0.6779,
6313
+ "step": 896
6314
+ },
6315
+ {
6316
+ "epoch": 0.8099322799097065,
6317
+ "grad_norm": 1.6980637311935425,
6318
+ "learning_rate": 1.7676616087752308e-05,
6319
+ "loss": 0.841,
6320
+ "step": 897
6321
+ },
6322
+ {
6323
+ "epoch": 0.8108352144469526,
6324
+ "grad_norm": 1.556020975112915,
6325
+ "learning_rate": 1.7514522514057553e-05,
6326
+ "loss": 1.0395,
6327
+ "step": 898
6328
+ },
6329
+ {
6330
+ "epoch": 0.8117381489841986,
6331
+ "grad_norm": 1.463173747062683,
6332
+ "learning_rate": 1.7353104202286517e-05,
6333
+ "loss": 0.9776,
6334
+ "step": 899
6335
+ },
6336
+ {
6337
+ "epoch": 0.8126410835214447,
6338
+ "grad_norm": 1.660776972770691,
6339
+ "learning_rate": 1.719236247387951e-05,
6340
+ "loss": 0.9951,
6341
+ "step": 900
6342
+ },
6343
+ {
6344
+ "epoch": 0.8135440180586907,
6345
+ "grad_norm": 1.5283406972885132,
6346
+ "learning_rate": 1.703229864473811e-05,
6347
+ "loss": 1.1435,
6348
+ "step": 901
6349
+ },
6350
+ {
6351
+ "epoch": 0.8144469525959368,
6352
+ "grad_norm": 1.4751852750778198,
6353
+ "learning_rate": 1.687291402521434e-05,
6354
+ "loss": 0.9997,
6355
+ "step": 902
6356
+ },
6357
+ {
6358
+ "epoch": 0.8153498871331828,
6359
+ "grad_norm": 1.2015782594680786,
6360
+ "learning_rate": 1.671420992009981e-05,
6361
+ "loss": 0.6096,
6362
+ "step": 903
6363
+ },
6364
+ {
6365
+ "epoch": 0.8162528216704289,
6366
+ "grad_norm": 1.6067993640899658,
6367
+ "learning_rate": 1.6556187628615273e-05,
6368
+ "loss": 1.0961,
6369
+ "step": 904
6370
+ },
6371
+ {
6372
+ "epoch": 0.8171557562076749,
6373
+ "grad_norm": 1.8478807210922241,
6374
+ "learning_rate": 1.6398848444399794e-05,
6375
+ "loss": 1.2024,
6376
+ "step": 905
6377
+ },
6378
+ {
6379
+ "epoch": 0.818058690744921,
6380
+ "grad_norm": 1.8460716009140015,
6381
+ "learning_rate": 1.6242193655500183e-05,
6382
+ "loss": 1.631,
6383
+ "step": 906
6384
+ },
6385
+ {
6386
+ "epoch": 0.8189616252821671,
6387
+ "grad_norm": 1.6105166673660278,
6388
+ "learning_rate": 1.608622454436062e-05,
6389
+ "loss": 1.194,
6390
+ "step": 907
6391
+ },
6392
+ {
6393
+ "epoch": 0.8198645598194131,
6394
+ "grad_norm": 1.4500304460525513,
6395
+ "learning_rate": 1.593094238781191e-05,
6396
+ "loss": 1.0055,
6397
+ "step": 908
6398
+ },
6399
+ {
6400
+ "epoch": 0.8207674943566592,
6401
+ "grad_norm": 1.8839186429977417,
6402
+ "learning_rate": 1.577634845706116e-05,
6403
+ "loss": 1.4827,
6404
+ "step": 909
6405
+ },
6406
+ {
6407
+ "epoch": 0.8216704288939052,
6408
+ "grad_norm": 1.7479982376098633,
6409
+ "learning_rate": 1.562244401768144e-05,
6410
+ "loss": 1.284,
6411
+ "step": 910
6412
+ },
6413
+ {
6414
+ "epoch": 0.8225733634311513,
6415
+ "grad_norm": 1.308475375175476,
6416
+ "learning_rate": 1.546923032960127e-05,
6417
+ "loss": 0.8433,
6418
+ "step": 911
6419
+ },
6420
+ {
6421
+ "epoch": 0.8234762979683973,
6422
+ "grad_norm": 1.3568767309188843,
6423
+ "learning_rate": 1.5316708647094446e-05,
6424
+ "loss": 0.9064,
6425
+ "step": 912
6426
+ },
6427
+ {
6428
+ "epoch": 0.8243792325056434,
6429
+ "grad_norm": 1.556696891784668,
6430
+ "learning_rate": 1.5164880218769618e-05,
6431
+ "loss": 0.8663,
6432
+ "step": 913
6433
+ },
6434
+ {
6435
+ "epoch": 0.8252821670428894,
6436
+ "grad_norm": 1.2990261316299438,
6437
+ "learning_rate": 1.5013746287560226e-05,
6438
+ "loss": 1.0119,
6439
+ "step": 914
6440
+ },
6441
+ {
6442
+ "epoch": 0.8261851015801355,
6443
+ "grad_norm": 1.4363588094711304,
6444
+ "learning_rate": 1.4863308090714256e-05,
6445
+ "loss": 0.8974,
6446
+ "step": 915
6447
+ },
6448
+ {
6449
+ "epoch": 0.8270880361173815,
6450
+ "grad_norm": 1.665542721748352,
6451
+ "learning_rate": 1.4713566859784045e-05,
6452
+ "loss": 1.2443,
6453
+ "step": 916
6454
+ },
6455
+ {
6456
+ "epoch": 0.8279909706546276,
6457
+ "grad_norm": 1.580439805984497,
6458
+ "learning_rate": 1.4564523820616326e-05,
6459
+ "loss": 0.7228,
6460
+ "step": 917
6461
+ },
6462
+ {
6463
+ "epoch": 0.8288939051918736,
6464
+ "grad_norm": 1.664021611213684,
6465
+ "learning_rate": 1.4416180193342144e-05,
6466
+ "loss": 1.1174,
6467
+ "step": 918
6468
+ },
6469
+ {
6470
+ "epoch": 0.8297968397291197,
6471
+ "grad_norm": 1.0893442630767822,
6472
+ "learning_rate": 1.426853719236676e-05,
6473
+ "loss": 0.488,
6474
+ "step": 919
6475
+ },
6476
+ {
6477
+ "epoch": 0.8306997742663657,
6478
+ "grad_norm": 1.5953645706176758,
6479
+ "learning_rate": 1.4121596026359951e-05,
6480
+ "loss": 1.3008,
6481
+ "step": 920
6482
+ },
6483
+ {
6484
+ "epoch": 0.8316027088036118,
6485
+ "grad_norm": 1.5674923658370972,
6486
+ "learning_rate": 1.3975357898245812e-05,
6487
+ "loss": 0.9816,
6488
+ "step": 921
6489
+ },
6490
+ {
6491
+ "epoch": 0.8325056433408577,
6492
+ "grad_norm": 1.0914887189865112,
6493
+ "learning_rate": 1.3829824005193181e-05,
6494
+ "loss": 0.4505,
6495
+ "step": 922
6496
+ },
6497
+ {
6498
+ "epoch": 0.8334085778781039,
6499
+ "grad_norm": 1.6878334283828735,
6500
+ "learning_rate": 1.3684995538605683e-05,
6501
+ "loss": 1.1872,
6502
+ "step": 923
6503
+ },
6504
+ {
6505
+ "epoch": 0.8343115124153498,
6506
+ "grad_norm": 1.5240914821624756,
6507
+ "learning_rate": 1.3540873684111976e-05,
6508
+ "loss": 0.8582,
6509
+ "step": 924
6510
+ },
6511
+ {
6512
+ "epoch": 0.835214446952596,
6513
+ "grad_norm": 1.0279604196548462,
6514
+ "learning_rate": 1.339745962155613e-05,
6515
+ "loss": 0.2322,
6516
+ "step": 925
6517
+ },
6518
+ {
6519
+ "epoch": 0.8361173814898419,
6520
+ "grad_norm": 1.7582857608795166,
6521
+ "learning_rate": 1.3254754524987956e-05,
6522
+ "loss": 1.4453,
6523
+ "step": 926
6524
+ },
6525
+ {
6526
+ "epoch": 0.837020316027088,
6527
+ "grad_norm": 1.7181614637374878,
6528
+ "learning_rate": 1.3112759562653265e-05,
6529
+ "loss": 1.1686,
6530
+ "step": 927
6531
+ },
6532
+ {
6533
+ "epoch": 0.837923250564334,
6534
+ "grad_norm": 1.7236977815628052,
6535
+ "learning_rate": 1.2971475896984475e-05,
6536
+ "loss": 1.0686,
6537
+ "step": 928
6538
+ },
6539
+ {
6540
+ "epoch": 0.8388261851015801,
6541
+ "grad_norm": 1.8403332233428955,
6542
+ "learning_rate": 1.2830904684591017e-05,
6543
+ "loss": 1.5042,
6544
+ "step": 929
6545
+ },
6546
+ {
6547
+ "epoch": 0.8397291196388262,
6548
+ "grad_norm": 1.3492463827133179,
6549
+ "learning_rate": 1.2691047076249851e-05,
6550
+ "loss": 0.599,
6551
+ "step": 930
6552
+ },
6553
+ {
6554
+ "epoch": 0.8406320541760722,
6555
+ "grad_norm": 1.0862035751342773,
6556
+ "learning_rate": 1.2551904216896037e-05,
6557
+ "loss": 0.6616,
6558
+ "step": 931
6559
+ },
6560
+ {
6561
+ "epoch": 0.8415349887133183,
6562
+ "grad_norm": 1.1652106046676636,
6563
+ "learning_rate": 1.2413477245613437e-05,
6564
+ "loss": 0.6117,
6565
+ "step": 932
6566
+ },
6567
+ {
6568
+ "epoch": 0.8424379232505643,
6569
+ "grad_norm": 1.392179250717163,
6570
+ "learning_rate": 1.2275767295625363e-05,
6571
+ "loss": 1.2104,
6572
+ "step": 933
6573
+ },
6574
+ {
6575
+ "epoch": 0.8433408577878104,
6576
+ "grad_norm": 1.479121208190918,
6577
+ "learning_rate": 1.2138775494285182e-05,
6578
+ "loss": 0.6797,
6579
+ "step": 934
6580
+ },
6581
+ {
6582
+ "epoch": 0.8442437923250564,
6583
+ "grad_norm": 1.5013456344604492,
6584
+ "learning_rate": 1.2002502963067275e-05,
6585
+ "loss": 0.8688,
6586
+ "step": 935
6587
+ },
6588
+ {
6589
+ "epoch": 0.8451467268623025,
6590
+ "grad_norm": 1.5734107494354248,
6591
+ "learning_rate": 1.1866950817557742e-05,
6592
+ "loss": 1.0534,
6593
+ "step": 936
6594
+ },
6595
+ {
6596
+ "epoch": 0.8460496613995485,
6597
+ "grad_norm": 1.5367547273635864,
6598
+ "learning_rate": 1.1732120167445248e-05,
6599
+ "loss": 0.6457,
6600
+ "step": 937
6601
+ },
6602
+ {
6603
+ "epoch": 0.8469525959367946,
6604
+ "grad_norm": 1.51642906665802,
6605
+ "learning_rate": 1.1598012116512092e-05,
6606
+ "loss": 1.3725,
6607
+ "step": 938
6608
+ },
6609
+ {
6610
+ "epoch": 0.8478555304740406,
6611
+ "grad_norm": 2.061697244644165,
6612
+ "learning_rate": 1.1464627762624946e-05,
6613
+ "loss": 1.3527,
6614
+ "step": 939
6615
+ },
6616
+ {
6617
+ "epoch": 0.8487584650112867,
6618
+ "grad_norm": 1.8436322212219238,
6619
+ "learning_rate": 1.1331968197725984e-05,
6620
+ "loss": 0.9779,
6621
+ "step": 940
6622
+ },
6623
+ {
6624
+ "epoch": 0.8496613995485327,
6625
+ "grad_norm": 1.7328407764434814,
6626
+ "learning_rate": 1.1200034507824086e-05,
6627
+ "loss": 1.0868,
6628
+ "step": 941
6629
+ },
6630
+ {
6631
+ "epoch": 0.8505643340857788,
6632
+ "grad_norm": 1.7387075424194336,
6633
+ "learning_rate": 1.1068827772985646e-05,
6634
+ "loss": 1.1025,
6635
+ "step": 942
6636
+ },
6637
+ {
6638
+ "epoch": 0.8514672686230248,
6639
+ "grad_norm": 1.6153181791305542,
6640
+ "learning_rate": 1.0938349067325959e-05,
6641
+ "loss": 0.9804,
6642
+ "step": 943
6643
+ },
6644
+ {
6645
+ "epoch": 0.8523702031602709,
6646
+ "grad_norm": 1.6639015674591064,
6647
+ "learning_rate": 1.0808599459000368e-05,
6648
+ "loss": 1.108,
6649
+ "step": 944
6650
+ },
6651
+ {
6652
+ "epoch": 0.8532731376975169,
6653
+ "grad_norm": 1.188910961151123,
6654
+ "learning_rate": 1.0679580010195445e-05,
6655
+ "loss": 0.5745,
6656
+ "step": 945
6657
+ },
6658
+ {
6659
+ "epoch": 0.854176072234763,
6660
+ "grad_norm": 1.5239681005477905,
6661
+ "learning_rate": 1.0551291777120464e-05,
6662
+ "loss": 0.9202,
6663
+ "step": 946
6664
+ },
6665
+ {
6666
+ "epoch": 0.855079006772009,
6667
+ "grad_norm": 2.2678442001342773,
6668
+ "learning_rate": 1.0423735809998514e-05,
6669
+ "loss": 0.84,
6670
+ "step": 947
6671
+ },
6672
+ {
6673
+ "epoch": 0.8559819413092551,
6674
+ "grad_norm": 1.5488260984420776,
6675
+ "learning_rate": 1.0296913153058163e-05,
6676
+ "loss": 0.9499,
6677
+ "step": 948
6678
+ },
6679
+ {
6680
+ "epoch": 0.8568848758465011,
6681
+ "grad_norm": 1.705390214920044,
6682
+ "learning_rate": 1.0170824844524728e-05,
6683
+ "loss": 1.3049,
6684
+ "step": 949
6685
+ },
6686
+ {
6687
+ "epoch": 0.8577878103837472,
6688
+ "grad_norm": 1.4453303813934326,
6689
+ "learning_rate": 1.0045471916611782e-05,
6690
+ "loss": 0.8621,
6691
+ "step": 950
6692
+ },
6693
+ {
6694
+ "epoch": 0.8586907449209932,
6695
+ "grad_norm": 1.8204010725021362,
6696
+ "learning_rate": 9.920855395512896e-06,
6697
+ "loss": 1.2233,
6698
+ "step": 951
6699
+ },
6700
+ {
6701
+ "epoch": 0.8595936794582393,
6702
+ "grad_norm": 1.5969047546386719,
6703
+ "learning_rate": 9.796976301392934e-06,
6704
+ "loss": 1.0275,
6705
+ "step": 952
6706
+ },
6707
+ {
6708
+ "epoch": 0.8604966139954854,
6709
+ "grad_norm": 1.5068354606628418,
6710
+ "learning_rate": 9.673835648379948e-06,
6711
+ "loss": 0.9911,
6712
+ "step": 953
6713
+ },
6714
+ {
6715
+ "epoch": 0.8613995485327314,
6716
+ "grad_norm": 1.7460449934005737,
6717
+ "learning_rate": 9.551434444556805e-06,
6718
+ "loss": 1.0814,
6719
+ "step": 954
6720
+ },
6721
+ {
6722
+ "epoch": 0.8623024830699775,
6723
+ "grad_norm": 1.3490803241729736,
6724
+ "learning_rate": 9.429773691952858e-06,
6725
+ "loss": 0.9293,
6726
+ "step": 955
6727
+ },
6728
+ {
6729
+ "epoch": 0.8632054176072235,
6730
+ "grad_norm": 1.359166145324707,
6731
+ "learning_rate": 9.308854386535848e-06,
6732
+ "loss": 0.4809,
6733
+ "step": 956
6734
+ },
6735
+ {
6736
+ "epoch": 0.8641083521444696,
6737
+ "grad_norm": 1.6106394529342651,
6738
+ "learning_rate": 9.188677518203703e-06,
6739
+ "loss": 1.251,
6740
+ "step": 957
6741
+ },
6742
+ {
6743
+ "epoch": 0.8650112866817156,
6744
+ "grad_norm": 1.3939250707626343,
6745
+ "learning_rate": 9.069244070776428e-06,
6746
+ "loss": 0.8553,
6747
+ "step": 958
6748
+ },
6749
+ {
6750
+ "epoch": 0.8659142212189617,
6751
+ "grad_norm": 1.9870485067367554,
6752
+ "learning_rate": 8.950555021988061e-06,
6753
+ "loss": 1.4127,
6754
+ "step": 959
6755
+ },
6756
+ {
6757
+ "epoch": 0.8668171557562077,
6758
+ "grad_norm": 1.3053696155548096,
6759
+ "learning_rate": 8.832611343478681e-06,
6760
+ "loss": 0.7796,
6761
+ "step": 960
6762
+ },
6763
+ {
6764
+ "epoch": 0.8677200902934538,
6765
+ "grad_norm": 1.4121004343032837,
6766
+ "learning_rate": 8.715414000786448e-06,
6767
+ "loss": 1.0717,
6768
+ "step": 961
6769
+ },
6770
+ {
6771
+ "epoch": 0.8686230248306998,
6772
+ "grad_norm": 2.2081167697906494,
6773
+ "learning_rate": 8.598963953339667e-06,
6774
+ "loss": 1.6921,
6775
+ "step": 962
6776
+ },
6777
+ {
6778
+ "epoch": 0.8695259593679459,
6779
+ "grad_norm": 2.1040449142456055,
6780
+ "learning_rate": 8.483262154448968e-06,
6781
+ "loss": 1.713,
6782
+ "step": 963
6783
+ },
6784
+ {
6785
+ "epoch": 0.8704288939051918,
6786
+ "grad_norm": 2.0439398288726807,
6787
+ "learning_rate": 8.368309551299536e-06,
6788
+ "loss": 1.7621,
6789
+ "step": 964
6790
+ },
6791
+ {
6792
+ "epoch": 0.871331828442438,
6793
+ "grad_norm": 1.6524083614349365,
6794
+ "learning_rate": 8.25410708494324e-06,
6795
+ "loss": 0.8079,
6796
+ "step": 965
6797
+ },
6798
+ {
6799
+ "epoch": 0.8722347629796839,
6800
+ "grad_norm": 1.563395380973816,
6801
+ "learning_rate": 8.140655690291044e-06,
6802
+ "loss": 0.9102,
6803
+ "step": 966
6804
+ },
6805
+ {
6806
+ "epoch": 0.87313769751693,
6807
+ "grad_norm": 1.7537543773651123,
6808
+ "learning_rate": 8.027956296105354e-06,
6809
+ "loss": 1.1403,
6810
+ "step": 967
6811
+ },
6812
+ {
6813
+ "epoch": 0.874040632054176,
6814
+ "grad_norm": 1.7073965072631836,
6815
+ "learning_rate": 7.916009824992254e-06,
6816
+ "loss": 1.0226,
6817
+ "step": 968
6818
+ },
6819
+ {
6820
+ "epoch": 0.8749435665914221,
6821
+ "grad_norm": 1.5671749114990234,
6822
+ "learning_rate": 7.804817193394242e-06,
6823
+ "loss": 0.8421,
6824
+ "step": 969
6825
+ },
6826
+ {
6827
+ "epoch": 0.8758465011286681,
6828
+ "grad_norm": 1.9673864841461182,
6829
+ "learning_rate": 7.6943793115824e-06,
6830
+ "loss": 1.5373,
6831
+ "step": 970
6832
+ },
6833
+ {
6834
+ "epoch": 0.8767494356659142,
6835
+ "grad_norm": 2.0507729053497314,
6836
+ "learning_rate": 7.584697083649184e-06,
6837
+ "loss": 1.3602,
6838
+ "step": 971
6839
+ },
6840
+ {
6841
+ "epoch": 0.8776523702031602,
6842
+ "grad_norm": 1.852461814880371,
6843
+ "learning_rate": 7.475771407500942e-06,
6844
+ "loss": 1.3545,
6845
+ "step": 972
6846
+ },
6847
+ {
6848
+ "epoch": 0.8785553047404063,
6849
+ "grad_norm": 1.611844778060913,
6850
+ "learning_rate": 7.367603174850502e-06,
6851
+ "loss": 1.0021,
6852
+ "step": 973
6853
+ },
6854
+ {
6855
+ "epoch": 0.8794582392776523,
6856
+ "grad_norm": 1.618187665939331,
6857
+ "learning_rate": 7.2601932712100026e-06,
6858
+ "loss": 1.1898,
6859
+ "step": 974
6860
+ },
6861
+ {
6862
+ "epoch": 0.8803611738148984,
6863
+ "grad_norm": 1.1232011318206787,
6864
+ "learning_rate": 7.153542575883543e-06,
6865
+ "loss": 0.7507,
6866
+ "step": 975
6867
+ },
6868
+ {
6869
+ "epoch": 0.8812641083521444,
6870
+ "grad_norm": 1.6856050491333008,
6871
+ "learning_rate": 7.047651961959978e-06,
6872
+ "loss": 1.2039,
6873
+ "step": 976
6874
+ },
6875
+ {
6876
+ "epoch": 0.8821670428893905,
6877
+ "grad_norm": 1.8394546508789062,
6878
+ "learning_rate": 6.942522296305853e-06,
6879
+ "loss": 0.7429,
6880
+ "step": 977
6881
+ },
6882
+ {
6883
+ "epoch": 0.8830699774266366,
6884
+ "grad_norm": 2.1657228469848633,
6885
+ "learning_rate": 6.838154439558253e-06,
6886
+ "loss": 1.4468,
6887
+ "step": 978
6888
+ },
6889
+ {
6890
+ "epoch": 0.8839729119638826,
6891
+ "grad_norm": 1.8799837827682495,
6892
+ "learning_rate": 6.73454924611776e-06,
6893
+ "loss": 1.3512,
6894
+ "step": 979
6895
+ },
6896
+ {
6897
+ "epoch": 0.8848758465011287,
6898
+ "grad_norm": 1.911229133605957,
6899
+ "learning_rate": 6.631707564141454e-06,
6900
+ "loss": 1.3261,
6901
+ "step": 980
6902
+ },
6903
+ {
6904
+ "epoch": 0.8857787810383747,
6905
+ "grad_norm": 1.6039128303527832,
6906
+ "learning_rate": 6.529630235535955e-06,
6907
+ "loss": 1.099,
6908
+ "step": 981
6909
+ },
6910
+ {
6911
+ "epoch": 0.8866817155756208,
6912
+ "grad_norm": 2.1180193424224854,
6913
+ "learning_rate": 6.428318095950647e-06,
6914
+ "loss": 1.5815,
6915
+ "step": 982
6916
+ },
6917
+ {
6918
+ "epoch": 0.8875846501128668,
6919
+ "grad_norm": 1.5415163040161133,
6920
+ "learning_rate": 6.327771974770625e-06,
6921
+ "loss": 1.2605,
6922
+ "step": 983
6923
+ },
6924
+ {
6925
+ "epoch": 0.8884875846501129,
6926
+ "grad_norm": 1.9346685409545898,
6927
+ "learning_rate": 6.227992695110096e-06,
6928
+ "loss": 1.2316,
6929
+ "step": 984
6930
+ },
6931
+ {
6932
+ "epoch": 0.8893905191873589,
6933
+ "grad_norm": 1.5397899150848389,
6934
+ "learning_rate": 6.128981073805584e-06,
6935
+ "loss": 0.9698,
6936
+ "step": 985
6937
+ },
6938
+ {
6939
+ "epoch": 0.890293453724605,
6940
+ "grad_norm": 1.7011609077453613,
6941
+ "learning_rate": 6.030737921409169e-06,
6942
+ "loss": 1.1717,
6943
+ "step": 986
6944
+ },
6945
+ {
6946
+ "epoch": 0.891196388261851,
6947
+ "grad_norm": 1.8230894804000854,
6948
+ "learning_rate": 5.93326404218194e-06,
6949
+ "loss": 1.1845,
6950
+ "step": 987
6951
+ },
6952
+ {
6953
+ "epoch": 0.8920993227990971,
6954
+ "grad_norm": 1.4834116697311401,
6955
+ "learning_rate": 5.836560234087418e-06,
6956
+ "loss": 1.4324,
6957
+ "step": 988
6958
+ },
6959
+ {
6960
+ "epoch": 0.8930022573363431,
6961
+ "grad_norm": 1.7495137453079224,
6962
+ "learning_rate": 5.740627288784905e-06,
6963
+ "loss": 1.33,
6964
+ "step": 989
6965
+ },
6966
+ {
6967
+ "epoch": 0.8939051918735892,
6968
+ "grad_norm": 1.7764803171157837,
6969
+ "learning_rate": 5.645465991623167e-06,
6970
+ "loss": 1.1222,
6971
+ "step": 990
6972
+ },
6973
+ {
6974
+ "epoch": 0.8948081264108352,
6975
+ "grad_norm": 1.9144630432128906,
6976
+ "learning_rate": 5.551077121633874e-06,
6977
+ "loss": 1.6709,
6978
+ "step": 991
6979
+ },
6980
+ {
6981
+ "epoch": 0.8957110609480813,
6982
+ "grad_norm": 1.673215627670288,
6983
+ "learning_rate": 5.4574614515253145e-06,
6984
+ "loss": 1.3176,
6985
+ "step": 992
6986
+ },
6987
+ {
6988
+ "epoch": 0.8966139954853273,
6989
+ "grad_norm": 1.0927332639694214,
6990
+ "learning_rate": 5.3646197476759586e-06,
6991
+ "loss": 0.5053,
6992
+ "step": 993
6993
+ },
6994
+ {
6995
+ "epoch": 0.8975169300225734,
6996
+ "grad_norm": 1.4994996786117554,
6997
+ "learning_rate": 5.272552770128314e-06,
6998
+ "loss": 0.9512,
6999
+ "step": 994
7000
+ },
7001
+ {
7002
+ "epoch": 0.8984198645598194,
7003
+ "grad_norm": 1.7333306074142456,
7004
+ "learning_rate": 5.181261272582638e-06,
7005
+ "loss": 1.088,
7006
+ "step": 995
7007
+ },
7008
+ {
7009
+ "epoch": 0.8993227990970655,
7010
+ "grad_norm": 1.976701021194458,
7011
+ "learning_rate": 5.090746002390734e-06,
7012
+ "loss": 1.4127,
7013
+ "step": 996
7014
+ },
7015
+ {
7016
+ "epoch": 0.9002257336343115,
7017
+ "grad_norm": 1.407848596572876,
7018
+ "learning_rate": 5.001007700549898e-06,
7019
+ "loss": 0.6292,
7020
+ "step": 997
7021
+ },
7022
+ {
7023
+ "epoch": 0.9011286681715576,
7024
+ "grad_norm": 1.795478343963623,
7025
+ "learning_rate": 4.912047101696848e-06,
7026
+ "loss": 1.4059,
7027
+ "step": 998
7028
+ },
7029
+ {
7030
+ "epoch": 0.9020316027088036,
7031
+ "grad_norm": 1.258590579032898,
7032
+ "learning_rate": 4.823864934101618e-06,
7033
+ "loss": 0.6135,
7034
+ "step": 999
7035
+ },
7036
+ {
7037
+ "epoch": 0.9029345372460497,
7038
+ "grad_norm": 1.7146711349487305,
7039
+ "learning_rate": 4.7364619196617495e-06,
7040
+ "loss": 1.4644,
7041
+ "step": 1000
7042
+ },
7043
+ {
7044
+ "epoch": 0.9038374717832958,
7045
+ "grad_norm": 1.9694057703018188,
7046
+ "learning_rate": 4.649838773896231e-06,
7047
+ "loss": 1.3474,
7048
+ "step": 1001
7049
+ },
7050
+ {
7051
+ "epoch": 0.9047404063205418,
7052
+ "grad_norm": 1.1898510456085205,
7053
+ "learning_rate": 4.563996205939747e-06,
7054
+ "loss": 0.4143,
7055
+ "step": 1002
7056
+ },
7057
+ {
7058
+ "epoch": 0.9056433408577879,
7059
+ "grad_norm": 1.5058674812316895,
7060
+ "learning_rate": 4.478934918536837e-06,
7061
+ "loss": 0.6336,
7062
+ "step": 1003
7063
+ },
7064
+ {
7065
+ "epoch": 0.9065462753950339,
7066
+ "grad_norm": 1.483232855796814,
7067
+ "learning_rate": 4.394655608036092e-06,
7068
+ "loss": 1.2108,
7069
+ "step": 1004
7070
+ },
7071
+ {
7072
+ "epoch": 0.90744920993228,
7073
+ "grad_norm": 1.6962145566940308,
7074
+ "learning_rate": 4.311158964384543e-06,
7075
+ "loss": 1.1302,
7076
+ "step": 1005
7077
+ },
7078
+ {
7079
+ "epoch": 0.908352144469526,
7080
+ "grad_norm": 1.6561692953109741,
7081
+ "learning_rate": 4.228445671121972e-06,
7082
+ "loss": 1.0076,
7083
+ "step": 1006
7084
+ },
7085
+ {
7086
+ "epoch": 0.909255079006772,
7087
+ "grad_norm": 1.3989051580429077,
7088
+ "learning_rate": 4.146516405375289e-06,
7089
+ "loss": 0.885,
7090
+ "step": 1007
7091
+ },
7092
+ {
7093
+ "epoch": 0.910158013544018,
7094
+ "grad_norm": 2.143188953399658,
7095
+ "learning_rate": 4.065371837853016e-06,
7096
+ "loss": 1.506,
7097
+ "step": 1008
7098
+ },
7099
+ {
7100
+ "epoch": 0.9110609480812641,
7101
+ "grad_norm": 1.4973962306976318,
7102
+ "learning_rate": 3.985012632839824e-06,
7103
+ "loss": 0.9991,
7104
+ "step": 1009
7105
+ },
7106
+ {
7107
+ "epoch": 0.9119638826185101,
7108
+ "grad_norm": 1.6684536933898926,
7109
+ "learning_rate": 3.905439448191051e-06,
7110
+ "loss": 0.9142,
7111
+ "step": 1010
7112
+ },
7113
+ {
7114
+ "epoch": 0.9128668171557562,
7115
+ "grad_norm": 1.2150386571884155,
7116
+ "learning_rate": 3.826652935327301e-06,
7117
+ "loss": 0.5438,
7118
+ "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.9137697516930022,
7122
+ "grad_norm": 1.4311710596084595,
7123
+ "learning_rate": 3.748653739229191e-06,
7124
+ "loss": 1.0845,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.9146726862302483,
7129
+ "grad_norm": 2.0449724197387695,
7130
+ "learning_rate": 3.6714424984319986e-06,
7131
+ "loss": 1.2579,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.9155756207674943,
7136
+ "grad_norm": 1.6338882446289062,
7137
+ "learning_rate": 3.595019845020442e-06,
7138
+ "loss": 1.0042,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.9164785553047404,
7143
+ "grad_norm": 1.2822327613830566,
7144
+ "learning_rate": 3.519386404623537e-06,
7145
+ "loss": 0.6456,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.9173814898419864,
7150
+ "grad_norm": 1.741418480873108,
7151
+ "learning_rate": 3.4445427964094778e-06,
7152
+ "loss": 1.0898,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.9182844243792325,
7157
+ "grad_norm": 1.4085890054702759,
7158
+ "learning_rate": 3.370489633080509e-06,
7159
+ "loss": 0.9378,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.9191873589164785,
7164
+ "grad_norm": 1.8852719068527222,
7165
+ "learning_rate": 3.2972275208679625e-06,
7166
+ "loss": 1.1135,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.9200902934537246,
7171
+ "grad_norm": 1.8236089944839478,
7172
+ "learning_rate": 3.2247570595273168e-06,
7173
+ "loss": 0.8719,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.9209932279909706,
7178
+ "grad_norm": 1.8349026441574097,
7179
+ "learning_rate": 3.1530788423332126e-06,
7180
+ "loss": 1.224,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.9218961625282167,
7185
+ "grad_norm": 1.607959508895874,
7186
+ "learning_rate": 3.0821934560746447e-06,
7187
+ "loss": 1.3352,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.9227990970654627,
7192
+ "grad_norm": 1.503532886505127,
7193
+ "learning_rate": 3.012101481050156e-06,
7194
+ "loss": 0.9005,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.9237020316027088,
7199
+ "grad_norm": 1.654677152633667,
7200
+ "learning_rate": 2.942803491063095e-06,
7201
+ "loss": 0.7169,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.9246049661399548,
7206
+ "grad_norm": 1.8319858312606812,
7207
+ "learning_rate": 2.8743000534168675e-06,
7208
+ "loss": 1.2094,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.9255079006772009,
7213
+ "grad_norm": 1.5955770015716553,
7214
+ "learning_rate": 2.806591728910357e-06,
7215
+ "loss": 1.0488,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.926410835214447,
7220
+ "grad_norm": 1.5378631353378296,
7221
+ "learning_rate": 2.739679071833301e-06,
7222
+ "loss": 0.9005,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.927313769751693,
7227
+ "grad_norm": 1.4716532230377197,
7228
+ "learning_rate": 2.6735626299617457e-06,
7229
+ "loss": 0.8866,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.9282167042889391,
7234
+ "grad_norm": 1.300451636314392,
7235
+ "learning_rate": 2.608242944553607e-06,
7236
+ "loss": 1.0212,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.9291196388261851,
7241
+ "grad_norm": 1.453568696975708,
7242
+ "learning_rate": 2.5437205503441754e-06,
7243
+ "loss": 0.8845,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.9300225733634312,
7248
+ "grad_norm": 1.7968647480010986,
7249
+ "learning_rate": 2.479995975541749e-06,
7250
+ "loss": 1.1663,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.9309255079006772,
7255
+ "grad_norm": 1.079252004623413,
7256
+ "learning_rate": 2.417069741823397e-06,
7257
+ "loss": 0.4307,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.9318284424379233,
7262
+ "grad_norm": 1.5583209991455078,
7263
+ "learning_rate": 2.354942364330559e-06,
7264
+ "loss": 0.8638,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.9327313769751693,
7269
+ "grad_norm": 1.7534904479980469,
7270
+ "learning_rate": 2.2936143516649188e-06,
7271
+ "loss": 1.2616,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.9336343115124154,
7276
+ "grad_norm": 1.5467944145202637,
7277
+ "learning_rate": 2.233086205884227e-06,
7278
+ "loss": 0.7197,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.9345372460496614,
7283
+ "grad_norm": 1.2515900135040283,
7284
+ "learning_rate": 2.1733584224981396e-06,
7285
+ "loss": 0.6519,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.9354401805869075,
7290
+ "grad_norm": 1.4876164197921753,
7291
+ "learning_rate": 2.1144314904642195e-06,
7292
+ "loss": 0.7608,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.9363431151241535,
7297
+ "grad_norm": 1.707992434501648,
7298
+ "learning_rate": 2.0563058921839183e-06,
7299
+ "loss": 1.022,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.9372460496613996,
7304
+ "grad_norm": 1.9715466499328613,
7305
+ "learning_rate": 1.9989821034986032e-06,
7306
+ "loss": 1.3803,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.9381489841986456,
7311
+ "grad_norm": 1.510226845741272,
7312
+ "learning_rate": 1.942460593685713e-06,
7313
+ "loss": 0.9968,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.9390519187358917,
7318
+ "grad_norm": 1.6002311706542969,
7319
+ "learning_rate": 1.8867418254548297e-06,
7320
+ "loss": 1.1801,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.9399548532731377,
7325
+ "grad_norm": 1.6373189687728882,
7326
+ "learning_rate": 1.8318262549440135e-06,
7327
+ "loss": 0.9959,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.9408577878103838,
7332
+ "grad_norm": 1.6004449129104614,
7333
+ "learning_rate": 1.7777143317159406e-06,
7334
+ "loss": 1.1855,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.9417607223476298,
7339
+ "grad_norm": 1.7518302202224731,
7340
+ "learning_rate": 1.724406498754294e-06,
7341
+ "loss": 1.2286,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.9426636568848759,
7346
+ "grad_norm": 1.3142588138580322,
7347
+ "learning_rate": 1.671903192460156e-06,
7348
+ "loss": 0.8243,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.9435665914221218,
7353
+ "grad_norm": 1.5260287523269653,
7354
+ "learning_rate": 1.6202048426483651e-06,
7355
+ "loss": 0.6199,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.944469525959368,
7360
+ "grad_norm": 1.7571525573730469,
7361
+ "learning_rate": 1.5693118725440658e-06,
7362
+ "loss": 1.0413,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.9453724604966139,
7367
+ "grad_norm": 1.945106029510498,
7368
+ "learning_rate": 1.5192246987791981e-06,
7369
+ "loss": 2.0071,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.94627539503386,
7374
+ "grad_norm": 2.676851272583008,
7375
+ "learning_rate": 1.4699437313891007e-06,
7376
+ "loss": 1.9852,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.9471783295711061,
7381
+ "grad_norm": 1.967848300933838,
7382
+ "learning_rate": 1.4214693738091812e-06,
7383
+ "loss": 1.345,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.9480812641083521,
7388
+ "grad_norm": 1.4572781324386597,
7389
+ "learning_rate": 1.373802022871551e-06,
7390
+ "loss": 0.5701,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.9489841986455982,
7395
+ "grad_norm": 1.3797591924667358,
7396
+ "learning_rate": 1.3269420688018508e-06,
7397
+ "loss": 0.8554,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.9498871331828442,
7402
+ "grad_norm": 1.8382567167282104,
7403
+ "learning_rate": 1.2808898952160198e-06,
7404
+ "loss": 1.1622,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.9507900677200903,
7409
+ "grad_norm": 1.3922321796417236,
7410
+ "learning_rate": 1.2356458791171088e-06,
7411
+ "loss": 1.0533,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.9516930022573363,
7416
+ "grad_norm": 1.9144047498703003,
7417
+ "learning_rate": 1.1912103908922945e-06,
7418
+ "loss": 1.1513,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.9525959367945824,
7423
+ "grad_norm": 1.6635743379592896,
7424
+ "learning_rate": 1.147583794309759e-06,
7425
+ "loss": 1.3228,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.9534988713318284,
7430
+ "grad_norm": 1.768678903579712,
7431
+ "learning_rate": 1.1047664465157592e-06,
7432
+ "loss": 1.1004,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.9544018058690745,
7437
+ "grad_norm": 1.643366813659668,
7438
+ "learning_rate": 1.0627586980317073e-06,
7439
+ "loss": 0.9478,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.9553047404063205,
7444
+ "grad_norm": 1.3332719802856445,
7445
+ "learning_rate": 1.02156089275125e-06,
7446
+ "loss": 0.7794,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.9562076749435666,
7451
+ "grad_norm": 2.097630262374878,
7452
+ "learning_rate": 9.811733679375156e-07,
7453
+ "loss": 1.7037,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.9571106094808126,
7458
+ "grad_norm": 1.8974721431732178,
7459
+ "learning_rate": 9.415964542203059e-07,
7460
+ "loss": 1.433,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.9580135440180587,
7465
+ "grad_norm": 1.405699610710144,
7466
+ "learning_rate": 9.028304755934081e-07,
7467
+ "loss": 0.7409,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.9589164785553047,
7472
+ "grad_norm": 1.6016145944595337,
7473
+ "learning_rate": 8.648757494119752e-07,
7474
+ "loss": 1.0633,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.9598194130925508,
7479
+ "grad_norm": 1.3242273330688477,
7480
+ "learning_rate": 8.277325863898511e-07,
7481
+ "loss": 0.6265,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.9607223476297968,
7486
+ "grad_norm": 1.8740465641021729,
7487
+ "learning_rate": 7.914012905970935e-07,
7488
+ "loss": 1.4374,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.9616252821670429,
7493
+ "grad_norm": 1.297940969467163,
7494
+ "learning_rate": 7.558821594574772e-07,
7495
+ "loss": 0.8479,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.9625282167042889,
7500
+ "grad_norm": 1.7031662464141846,
7501
+ "learning_rate": 7.21175483745995e-07,
7502
+ "loss": 1.2352,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.963431151241535,
7507
+ "grad_norm": 1.7558894157409668,
7508
+ "learning_rate": 6.872815475865934e-07,
7509
+ "loss": 1.1158,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.964334085778781,
7514
+ "grad_norm": 1.4458980560302734,
7515
+ "learning_rate": 6.542006284497304e-07,
7516
+ "loss": 0.9124,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.9652370203160271,
7521
+ "grad_norm": 1.6152722835540771,
7522
+ "learning_rate": 6.219329971501653e-07,
7523
+ "loss": 0.7919,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.9661399548532731,
7528
+ "grad_norm": 1.3795706033706665,
7529
+ "learning_rate": 5.904789178447389e-07,
7530
+ "loss": 0.8727,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.9670428893905192,
7535
+ "grad_norm": 1.5099116563796997,
7536
+ "learning_rate": 5.598386480301976e-07,
7537
+ "loss": 0.9675,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.9679458239277653,
7542
+ "grad_norm": 1.8839224576950073,
7543
+ "learning_rate": 5.300124385410943e-07,
7544
+ "loss": 1.5235,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.9688487584650113,
7549
+ "grad_norm": 2.0309793949127197,
7550
+ "learning_rate": 5.010005335477241e-07,
7551
+ "loss": 1.2777,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.9697516930022574,
7556
+ "grad_norm": 1.4652881622314453,
7557
+ "learning_rate": 4.728031705541369e-07,
7558
+ "loss": 0.7781,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.9706546275395034,
7563
+ "grad_norm": 1.8330317735671997,
7564
+ "learning_rate": 4.4542058039619417e-07,
7565
+ "loss": 1.2341,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.9715575620767495,
7570
+ "grad_norm": 2.0610013008117676,
7571
+ "learning_rate": 4.188529872396374e-07,
7572
+ "loss": 0.8753,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.9724604966139955,
7577
+ "grad_norm": 1.3807718753814697,
7578
+ "learning_rate": 3.9310060857834507e-07,
7579
+ "loss": 0.9572,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.9733634311512416,
7584
+ "grad_norm": 1.1987665891647339,
7585
+ "learning_rate": 3.681636552324452e-07,
7586
+ "loss": 0.5451,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.9742663656884876,
7591
+ "grad_norm": 1.537322998046875,
7592
+ "learning_rate": 3.440423313466834e-07,
7593
+ "loss": 0.7694,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.9751693002257337,
7598
+ "grad_norm": 1.7335373163223267,
7599
+ "learning_rate": 3.2073683438866853e-07,
7600
+ "loss": 0.8225,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.9760722347629797,
7605
+ "grad_norm": 1.9911307096481323,
7606
+ "learning_rate": 2.9824735514732974e-07,
7607
+ "loss": 1.4599,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.9769751693002258,
7612
+ "grad_norm": 1.5399749279022217,
7613
+ "learning_rate": 2.765740777313064e-07,
7614
+ "loss": 1.2908,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.9778781038374718,
7619
+ "grad_norm": 1.6297422647476196,
7620
+ "learning_rate": 2.5571717956743844e-07,
7621
+ "loss": 1.3364,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.9787810383747179,
7626
+ "grad_norm": 2.4442360401153564,
7627
+ "learning_rate": 2.3567683139936735e-07,
7628
+ "loss": 0.7743,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.9796839729119639,
7633
+ "grad_norm": 1.7662993669509888,
7634
+ "learning_rate": 2.1645319728607062e-07,
7635
+ "loss": 1.1924,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.98058690744921,
7640
+ "grad_norm": 1.6082686185836792,
7641
+ "learning_rate": 1.9804643460056284e-07,
7642
+ "loss": 1.2603,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.981489841986456,
7647
+ "grad_norm": 1.8181642293930054,
7648
+ "learning_rate": 1.8045669402859677e-07,
7649
+ "loss": 1.1942,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.982392776523702,
7654
+ "grad_norm": 1.5067050457000732,
7655
+ "learning_rate": 1.6368411956741991e-07,
7656
+ "loss": 0.9393,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.983295711060948,
7661
+ "grad_norm": 1.5651663541793823,
7662
+ "learning_rate": 1.4772884852461977e-07,
7663
+ "loss": 0.9082,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.9841986455981941,
7668
+ "grad_norm": 1.480655312538147,
7669
+ "learning_rate": 1.3259101151694708e-07,
7670
+ "loss": 0.8793,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.9851015801354401,
7675
+ "grad_norm": 2.0336530208587646,
7676
+ "learning_rate": 1.1827073246932774e-07,
7677
+ "loss": 1.455,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.9860045146726862,
7682
+ "grad_norm": 1.600927472114563,
7683
+ "learning_rate": 1.0476812861377471e-07,
7684
+ "loss": 0.9614,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.9869074492099322,
7689
+ "grad_norm": 1.7774394750595093,
7690
+ "learning_rate": 9.208331048846663e-08,
7691
+ "loss": 1.3924,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.9878103837471783,
7696
+ "grad_norm": 2.1832051277160645,
7697
+ "learning_rate": 8.021638193682624e-08,
7698
+ "loss": 1.5662,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.9887133182844243,
7703
+ "grad_norm": 1.5761157274246216,
7704
+ "learning_rate": 6.916744010667663e-08,
7705
+ "loss": 1.3133,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.9896162528216704,
7710
+ "grad_norm": 1.2132411003112793,
7711
+ "learning_rate": 5.893657544947528e-08,
7712
+ "loss": 0.569,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.9905191873589165,
7717
+ "grad_norm": 1.2810653448104858,
7718
+ "learning_rate": 4.9523871719492353e-08,
7719
+ "loss": 0.6272,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.9914221218961625,
7724
+ "grad_norm": 1.5991464853286743,
7725
+ "learning_rate": 4.092940597322237e-08,
7726
+ "loss": 0.9652,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 0.9923250564334086,
7731
+ "grad_norm": 1.7079530954360962,
7732
+ "learning_rate": 3.3153248568695835e-08,
7733
+ "loss": 1.6534,
7734
+ "step": 1099
7735
+ },
7736
+ {
7737
+ "epoch": 0.9932279909706546,
7738
+ "grad_norm": 1.7328083515167236,
7739
+ "learning_rate": 2.6195463164901955e-08,
7740
+ "loss": 0.8277,
7741
+ "step": 1100
7742
+ },
7743
+ {
7744
+ "epoch": 0.9941309255079007,
7745
+ "grad_norm": 1.4812557697296143,
7746
+ "learning_rate": 2.0056106721288992e-08,
7747
+ "loss": 1.0553,
7748
+ "step": 1101
7749
+ },
7750
+ {
7751
+ "epoch": 0.9950338600451467,
7752
+ "grad_norm": 1.4631847143173218,
7753
+ "learning_rate": 1.47352294973091e-08,
7754
+ "loss": 0.8053,
7755
+ "step": 1102
7756
+ },
7757
+ {
7758
+ "epoch": 0.9959367945823928,
7759
+ "grad_norm": 1.5872337818145752,
7760
+ "learning_rate": 1.0232875051963132e-08,
7761
+ "loss": 1.0591,
7762
+ "step": 1103
7763
+ },
7764
+ {
7765
+ "epoch": 0.9968397291196388,
7766
+ "grad_norm": 1.5717228651046753,
7767
+ "learning_rate": 6.549080243489769e-09,
7768
+ "loss": 1.0753,
7769
+ "step": 1104
7770
+ },
7771
+ {
7772
+ "epoch": 0.9977426636568849,
7773
+ "grad_norm": 1.4837099313735962,
7774
+ "learning_rate": 3.6838752290102585e-09,
7775
+ "loss": 1.1738,
7776
+ "step": 1105
7777
+ },
7778
+ {
7779
+ "epoch": 0.9986455981941309,
7780
+ "grad_norm": 1.5750898122787476,
7781
+ "learning_rate": 1.6372834643618717e-09,
7782
+ "loss": 1.0258,
7783
+ "step": 1106
7784
+ },
7785
+ {
7786
+ "epoch": 0.999548532731377,
7787
+ "grad_norm": 1.7029435634613037,
7788
+ "learning_rate": 4.0932170380925116e-10,
7789
+ "loss": 1.0436,
7790
+ "step": 1107
7791
+ },
7792
+ {
7793
+ "epoch": 1.000451467268623,
7794
+ "grad_norm": 2.608523368835449,
7795
+ "learning_rate": 0.0,
7796
+ "loss": 1.6067,
7797
+ "step": 1108
7798
+ },
7799
+ {
7800
+ "epoch": 1.000451467268623,
7801
+ "eval_loss": 1.0790674686431885,
7802
+ "eval_runtime": 8.2901,
7803
+ "eval_samples_per_second": 56.332,
7804
+ "eval_steps_per_second": 28.226,
7805
+ "step": 1108
7806
  }
7807
  ],
7808
  "logging_steps": 1,
 
7817
  "should_evaluate": false,
7818
  "should_log": false,
7819
  "should_save": true,
7820
+ "should_training_stop": true
7821
  },
7822
  "attributes": {}
7823
  }
7824
  },
7825
+ "total_flos": 2.834175119012659e+16,
7826
  "train_batch_size": 2,
7827
  "trial_name": null,
7828
  "trial_params": null