ErrorAI commited on
Commit
c8ece18
·
verified ·
1 Parent(s): 387c633

Training in progress, step 1303, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:2af79b87cdba2f6ee09202e5806579a3a64b21691a917cde1ab005a67018b158
3
  size 100059752
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:e4513e890d84684f8b33eb5fa24d27ce4da4333d4b27c1fb555bfb79850aa060
3
  size 100059752
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:90ad1ea0daa57f559d92fd099a3ead6026fc5b03b3c5d094a521dbf126d1985a
3
  size 51244404
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cc01379878ae9128b7373085be8d417ce51991b6873881c38392174190701425
3
  size 51244404
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b53b526ca46b50c78b2d293051395fcfc3faf741ae9849365dcec0d68cfe9398
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:83dcb968eefc2fe34af427267032a5b806dfd430cc9a31cf2e4ecdc4428bf987
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:fe6ddabd32cdc41f4c81c1d53be4d94bd11320d8500ca8b0b69995845949f304
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:9eabf0c977468cdbb0fb34466e43f850400f356cb7be4266d2d1ac09878380a5
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.751007870992513,
5
  "eval_steps": 326,
6
- "global_step": 978,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6885,6 +6885,2281 @@
6885
  "eval_samples_per_second": 27.795,
6886
  "eval_steps_per_second": 13.923,
6887
  "step": 978
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6888
  }
6889
  ],
6890
  "logging_steps": 1,
@@ -6899,12 +9174,12 @@
6899
  "should_evaluate": false,
6900
  "should_log": false,
6901
  "should_save": true,
6902
- "should_training_stop": false
6903
  },
6904
  "attributes": {}
6905
  }
6906
  },
6907
- "total_flos": 1.9488354717401088e+17,
6908
  "train_batch_size": 2,
6909
  "trial_name": null,
6910
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 1.000575926281436,
5
  "eval_steps": 326,
6
+ "global_step": 1303,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6885
  "eval_samples_per_second": 27.795,
6886
  "eval_steps_per_second": 13.923,
6887
  "step": 978
6888
+ },
6889
+ {
6890
+ "epoch": 0.7517757727010943,
6891
+ "grad_norm": 1.2883607149124146,
6892
+ "learning_rate": 2.9418293126798603e-05,
6893
+ "loss": 1.1005,
6894
+ "step": 979
6895
+ },
6896
+ {
6897
+ "epoch": 0.7525436744096755,
6898
+ "grad_norm": 1.434813141822815,
6899
+ "learning_rate": 2.9246383624288387e-05,
6900
+ "loss": 1.201,
6901
+ "step": 980
6902
+ },
6903
+ {
6904
+ "epoch": 0.7533115761182568,
6905
+ "grad_norm": 2.126904249191284,
6906
+ "learning_rate": 2.9074891808937753e-05,
6907
+ "loss": 1.4774,
6908
+ "step": 981
6909
+ },
6910
+ {
6911
+ "epoch": 0.7540794778268382,
6912
+ "grad_norm": 1.5914756059646606,
6913
+ "learning_rate": 2.8903818693132077e-05,
6914
+ "loss": 1.3087,
6915
+ "step": 982
6916
+ },
6917
+ {
6918
+ "epoch": 0.7548473795354195,
6919
+ "grad_norm": 1.577763557434082,
6920
+ "learning_rate": 2.873316528678507e-05,
6921
+ "loss": 1.3263,
6922
+ "step": 983
6923
+ },
6924
+ {
6925
+ "epoch": 0.7556152812440008,
6926
+ "grad_norm": 1.5671124458312988,
6927
+ "learning_rate": 2.856293259733266e-05,
6928
+ "loss": 1.2893,
6929
+ "step": 984
6930
+ },
6931
+ {
6932
+ "epoch": 0.7563831829525821,
6933
+ "grad_norm": 1.6029667854309082,
6934
+ "learning_rate": 2.8393121629727138e-05,
6935
+ "loss": 1.1126,
6936
+ "step": 985
6937
+ },
6938
+ {
6939
+ "epoch": 0.7571510846611633,
6940
+ "grad_norm": 1.4934439659118652,
6941
+ "learning_rate": 2.8223733386431185e-05,
6942
+ "loss": 1.2581,
6943
+ "step": 986
6944
+ },
6945
+ {
6946
+ "epoch": 0.7579189863697446,
6947
+ "grad_norm": 1.327414870262146,
6948
+ "learning_rate": 2.8054768867411974e-05,
6949
+ "loss": 1.2253,
6950
+ "step": 987
6951
+ },
6952
+ {
6953
+ "epoch": 0.758686888078326,
6954
+ "grad_norm": 1.5715781450271606,
6955
+ "learning_rate": 2.788622907013526e-05,
6956
+ "loss": 1.1577,
6957
+ "step": 988
6958
+ },
6959
+ {
6960
+ "epoch": 0.7594547897869073,
6961
+ "grad_norm": 1.4220985174179077,
6962
+ "learning_rate": 2.7718114989559552e-05,
6963
+ "loss": 1.1358,
6964
+ "step": 989
6965
+ },
6966
+ {
6967
+ "epoch": 0.7602226914954886,
6968
+ "grad_norm": 1.4818079471588135,
6969
+ "learning_rate": 2.7550427618130127e-05,
6970
+ "loss": 1.2783,
6971
+ "step": 990
6972
+ },
6973
+ {
6974
+ "epoch": 0.7609905932040699,
6975
+ "grad_norm": 1.394391655921936,
6976
+ "learning_rate": 2.738316794577315e-05,
6977
+ "loss": 1.2429,
6978
+ "step": 991
6979
+ },
6980
+ {
6981
+ "epoch": 0.7617584949126511,
6982
+ "grad_norm": 1.7591447830200195,
6983
+ "learning_rate": 2.7216336959890076e-05,
6984
+ "loss": 1.5355,
6985
+ "step": 992
6986
+ },
6987
+ {
6988
+ "epoch": 0.7625263966212324,
6989
+ "grad_norm": 1.226349949836731,
6990
+ "learning_rate": 2.704993564535152e-05,
6991
+ "loss": 1.0599,
6992
+ "step": 993
6993
+ },
6994
+ {
6995
+ "epoch": 0.7632942983298138,
6996
+ "grad_norm": 1.3571503162384033,
6997
+ "learning_rate": 2.688396498449164e-05,
6998
+ "loss": 0.9554,
6999
+ "step": 994
7000
+ },
7001
+ {
7002
+ "epoch": 0.7640622000383951,
7003
+ "grad_norm": 1.546478509902954,
7004
+ "learning_rate": 2.671842595710219e-05,
7005
+ "loss": 1.2609,
7006
+ "step": 995
7007
+ },
7008
+ {
7009
+ "epoch": 0.7648301017469764,
7010
+ "grad_norm": 1.304118275642395,
7011
+ "learning_rate": 2.655331954042699e-05,
7012
+ "loss": 1.1655,
7013
+ "step": 996
7014
+ },
7015
+ {
7016
+ "epoch": 0.7655980034555577,
7017
+ "grad_norm": 1.4672322273254395,
7018
+ "learning_rate": 2.638864670915572e-05,
7019
+ "loss": 1.1936,
7020
+ "step": 997
7021
+ },
7022
+ {
7023
+ "epoch": 0.7663659051641389,
7024
+ "grad_norm": 1.1511002779006958,
7025
+ "learning_rate": 2.622440843541869e-05,
7026
+ "loss": 1.1561,
7027
+ "step": 998
7028
+ },
7029
+ {
7030
+ "epoch": 0.7671338068727203,
7031
+ "grad_norm": 1.617389440536499,
7032
+ "learning_rate": 2.6060605688780694e-05,
7033
+ "loss": 1.2096,
7034
+ "step": 999
7035
+ },
7036
+ {
7037
+ "epoch": 0.7679017085813016,
7038
+ "grad_norm": 1.7287838459014893,
7039
+ "learning_rate": 2.5897239436235466e-05,
7040
+ "loss": 1.3722,
7041
+ "step": 1000
7042
+ },
7043
+ {
7044
+ "epoch": 0.7686696102898829,
7045
+ "grad_norm": 1.4887206554412842,
7046
+ "learning_rate": 2.5734310642199943e-05,
7047
+ "loss": 1.2082,
7048
+ "step": 1001
7049
+ },
7050
+ {
7051
+ "epoch": 0.7694375119984642,
7052
+ "grad_norm": 1.1259337663650513,
7053
+ "learning_rate": 2.557182026850855e-05,
7054
+ "loss": 0.937,
7055
+ "step": 1002
7056
+ },
7057
+ {
7058
+ "epoch": 0.7702054137070455,
7059
+ "grad_norm": 1.7888356447219849,
7060
+ "learning_rate": 2.5409769274407637e-05,
7061
+ "loss": 1.2036,
7062
+ "step": 1003
7063
+ },
7064
+ {
7065
+ "epoch": 0.7709733154156267,
7066
+ "grad_norm": 1.3678765296936035,
7067
+ "learning_rate": 2.524815861654952e-05,
7068
+ "loss": 1.183,
7069
+ "step": 1004
7070
+ },
7071
+ {
7072
+ "epoch": 0.7717412171242081,
7073
+ "grad_norm": 1.4759341478347778,
7074
+ "learning_rate": 2.5086989248987248e-05,
7075
+ "loss": 1.4874,
7076
+ "step": 1005
7077
+ },
7078
+ {
7079
+ "epoch": 0.7725091188327894,
7080
+ "grad_norm": 1.6217724084854126,
7081
+ "learning_rate": 2.492626212316862e-05,
7082
+ "loss": 1.3213,
7083
+ "step": 1006
7084
+ },
7085
+ {
7086
+ "epoch": 0.7732770205413707,
7087
+ "grad_norm": 1.735228180885315,
7088
+ "learning_rate": 2.476597818793075e-05,
7089
+ "loss": 1.4892,
7090
+ "step": 1007
7091
+ },
7092
+ {
7093
+ "epoch": 0.774044922249952,
7094
+ "grad_norm": 1.6505582332611084,
7095
+ "learning_rate": 2.460613838949437e-05,
7096
+ "loss": 1.3946,
7097
+ "step": 1008
7098
+ },
7099
+ {
7100
+ "epoch": 0.7748128239585333,
7101
+ "grad_norm": 1.5245342254638672,
7102
+ "learning_rate": 2.444674367145845e-05,
7103
+ "loss": 1.3344,
7104
+ "step": 1009
7105
+ },
7106
+ {
7107
+ "epoch": 0.7755807256671146,
7108
+ "grad_norm": 1.4345464706420898,
7109
+ "learning_rate": 2.4287794974794208e-05,
7110
+ "loss": 1.304,
7111
+ "step": 1010
7112
+ },
7113
+ {
7114
+ "epoch": 0.7763486273756959,
7115
+ "grad_norm": 1.120750069618225,
7116
+ "learning_rate": 2.4129293237840066e-05,
7117
+ "loss": 1.031,
7118
+ "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.7771165290842772,
7122
+ "grad_norm": 1.4984389543533325,
7123
+ "learning_rate": 2.397123939629574e-05,
7124
+ "loss": 1.4389,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.7778844307928585,
7129
+ "grad_norm": 1.4427404403686523,
7130
+ "learning_rate": 2.3813634383216853e-05,
7131
+ "loss": 1.1667,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.7786523325014398,
7136
+ "grad_norm": 1.6551741361618042,
7137
+ "learning_rate": 2.3656479129009422e-05,
7138
+ "loss": 1.3006,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.7794202342100212,
7143
+ "grad_norm": 1.3143059015274048,
7144
+ "learning_rate": 2.3499774561424327e-05,
7145
+ "loss": 1.134,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.7801881359186024,
7150
+ "grad_norm": 1.7605934143066406,
7151
+ "learning_rate": 2.3343521605551967e-05,
7152
+ "loss": 1.1622,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.7809560376271837,
7157
+ "grad_norm": 1.5233832597732544,
7158
+ "learning_rate": 2.3187721183816503e-05,
7159
+ "loss": 1.2939,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.781723939335765,
7164
+ "grad_norm": 1.3118071556091309,
7165
+ "learning_rate": 2.303237421597082e-05,
7166
+ "loss": 0.9272,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.7824918410443463,
7171
+ "grad_norm": 1.559906005859375,
7172
+ "learning_rate": 2.2877481619090734e-05,
7173
+ "loss": 1.4749,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.7832597427529276,
7178
+ "grad_norm": 1.6087397336959839,
7179
+ "learning_rate": 2.2723044307569775e-05,
7180
+ "loss": 1.2059,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.784027644461509,
7185
+ "grad_norm": 1.5750290155410767,
7186
+ "learning_rate": 2.2569063193113716e-05,
7187
+ "loss": 1.2115,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.7847955461700902,
7192
+ "grad_norm": 1.4662597179412842,
7193
+ "learning_rate": 2.2415539184735323e-05,
7194
+ "loss": 0.9787,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.7855634478786715,
7199
+ "grad_norm": 1.5807639360427856,
7200
+ "learning_rate": 2.2262473188748667e-05,
7201
+ "loss": 1.5,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.7863313495872528,
7206
+ "grad_norm": 1.4712680578231812,
7207
+ "learning_rate": 2.210986610876421e-05,
7208
+ "loss": 1.1427,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.7870992512958341,
7213
+ "grad_norm": 1.7284588813781738,
7214
+ "learning_rate": 2.1957718845683106e-05,
7215
+ "loss": 0.9901,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.7878671530044155,
7220
+ "grad_norm": 1.7499277591705322,
7221
+ "learning_rate": 2.180603229769208e-05,
7222
+ "loss": 1.7659,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.7886350547129968,
7227
+ "grad_norm": 2.04580020904541,
7228
+ "learning_rate": 2.1654807360258068e-05,
7229
+ "loss": 1.4249,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.789402956421578,
7234
+ "grad_norm": 1.8796188831329346,
7235
+ "learning_rate": 2.15040449261229e-05,
7236
+ "loss": 1.4763,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.7901708581301593,
7241
+ "grad_norm": 1.7241255044937134,
7242
+ "learning_rate": 2.1353745885298103e-05,
7243
+ "loss": 1.4569,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.7909387598387406,
7248
+ "grad_norm": 1.2481935024261475,
7249
+ "learning_rate": 2.120391112505955e-05,
7250
+ "loss": 1.1742,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.7917066615473219,
7255
+ "grad_norm": 1.440290093421936,
7256
+ "learning_rate": 2.1054541529942374e-05,
7257
+ "loss": 1.243,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.7924745632559033,
7262
+ "grad_norm": 1.8699524402618408,
7263
+ "learning_rate": 2.090563798173557e-05,
7264
+ "loss": 1.3004,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.7932424649644846,
7269
+ "grad_norm": 1.7997124195098877,
7270
+ "learning_rate": 2.0757201359476884e-05,
7271
+ "loss": 1.5915,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.7940103666730658,
7276
+ "grad_norm": 1.4160553216934204,
7277
+ "learning_rate": 2.060923253944761e-05,
7278
+ "loss": 1.3386,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.7947782683816471,
7283
+ "grad_norm": 1.4589799642562866,
7284
+ "learning_rate": 2.0461732395167475e-05,
7285
+ "loss": 1.3019,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.7955461700902284,
7290
+ "grad_norm": 1.8283833265304565,
7291
+ "learning_rate": 2.03147017973893e-05,
7292
+ "loss": 1.3423,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.7963140717988098,
7297
+ "grad_norm": 1.4732909202575684,
7298
+ "learning_rate": 2.0168141614094126e-05,
7299
+ "loss": 1.2183,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.7970819735073911,
7304
+ "grad_norm": 1.5215457677841187,
7305
+ "learning_rate": 2.0022052710485874e-05,
7306
+ "loss": 1.2761,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.7978498752159724,
7311
+ "grad_norm": 1.812894344329834,
7312
+ "learning_rate": 1.9876435948986228e-05,
7313
+ "loss": 1.4416,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.7986177769245536,
7318
+ "grad_norm": 1.212895154953003,
7319
+ "learning_rate": 1.973129218922981e-05,
7320
+ "loss": 1.0733,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.7993856786331349,
7325
+ "grad_norm": 1.5380189418792725,
7326
+ "learning_rate": 1.95866222880588e-05,
7327
+ "loss": 1.4282,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.8001535803417162,
7332
+ "grad_norm": 1.671745777130127,
7333
+ "learning_rate": 1.9442427099518022e-05,
7334
+ "loss": 1.4183,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.8009214820502976,
7339
+ "grad_norm": 1.6439645290374756,
7340
+ "learning_rate": 1.9298707474849843e-05,
7341
+ "loss": 1.2435,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.8016893837588789,
7346
+ "grad_norm": 1.3178609609603882,
7347
+ "learning_rate": 1.9155464262489298e-05,
7348
+ "loss": 0.843,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.8024572854674602,
7353
+ "grad_norm": 1.7350953817367554,
7354
+ "learning_rate": 1.9012698308058852e-05,
7355
+ "loss": 1.4906,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.8032251871760415,
7360
+ "grad_norm": 1.2103064060211182,
7361
+ "learning_rate": 1.8870410454363573e-05,
7362
+ "loss": 0.9144,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.8039930888846227,
7367
+ "grad_norm": 1.1046971082687378,
7368
+ "learning_rate": 1.872860154138608e-05,
7369
+ "loss": 0.9619,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.804760990593204,
7374
+ "grad_norm": 1.832051157951355,
7375
+ "learning_rate": 1.858727240628171e-05,
7376
+ "loss": 1.4815,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.8055288923017854,
7381
+ "grad_norm": 1.1102668046951294,
7382
+ "learning_rate": 1.8446423883373286e-05,
7383
+ "loss": 0.9905,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.8062967940103667,
7388
+ "grad_norm": 1.155604600906372,
7389
+ "learning_rate": 1.8306056804146575e-05,
7390
+ "loss": 1.0172,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.807064695718948,
7395
+ "grad_norm": 1.4365675449371338,
7396
+ "learning_rate": 1.816617199724512e-05,
7397
+ "loss": 1.3202,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.8078325974275293,
7402
+ "grad_norm": 1.2660962343215942,
7403
+ "learning_rate": 1.8026770288465323e-05,
7404
+ "loss": 1.2372,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.8086004991361105,
7409
+ "grad_norm": 1.484471082687378,
7410
+ "learning_rate": 1.7887852500751822e-05,
7411
+ "loss": 1.2489,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.8093684008446919,
7416
+ "grad_norm": 1.62258780002594,
7417
+ "learning_rate": 1.7749419454192373e-05,
7418
+ "loss": 1.3631,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.8101363025532732,
7423
+ "grad_norm": 1.2742317914962769,
7424
+ "learning_rate": 1.7611471966013127e-05,
7425
+ "loss": 1.0303,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.8109042042618545,
7430
+ "grad_norm": 1.770555853843689,
7431
+ "learning_rate": 1.7474010850573775e-05,
7432
+ "loss": 1.4317,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.8116721059704358,
7437
+ "grad_norm": 1.3370784521102905,
7438
+ "learning_rate": 1.7337036919362827e-05,
7439
+ "loss": 1.1577,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.8124400076790171,
7444
+ "grad_norm": 1.4367464780807495,
7445
+ "learning_rate": 1.7200550980992647e-05,
7446
+ "loss": 1.3085,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.8132079093875983,
7451
+ "grad_norm": 1.363452434539795,
7452
+ "learning_rate": 1.706455384119485e-05,
7453
+ "loss": 1.1423,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.8139758110961797,
7458
+ "grad_norm": 1.3414223194122314,
7459
+ "learning_rate": 1.6929046302815443e-05,
7460
+ "loss": 1.2153,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.814743712804761,
7465
+ "grad_norm": 1.577257513999939,
7466
+ "learning_rate": 1.6794029165810133e-05,
7467
+ "loss": 1.357,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.8155116145133423,
7472
+ "grad_norm": 1.594196081161499,
7473
+ "learning_rate": 1.665950322723957e-05,
7474
+ "loss": 1.2597,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.8162795162219236,
7479
+ "grad_norm": 1.5210363864898682,
7480
+ "learning_rate": 1.652546928126466e-05,
7481
+ "loss": 1.2459,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.817047417930505,
7486
+ "grad_norm": 1.3744914531707764,
7487
+ "learning_rate": 1.6391928119141965e-05,
7488
+ "loss": 1.236,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.8178153196390862,
7493
+ "grad_norm": 1.56074857711792,
7494
+ "learning_rate": 1.625888052921878e-05,
7495
+ "loss": 1.2514,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.8185832213476675,
7500
+ "grad_norm": 1.3938485383987427,
7501
+ "learning_rate": 1.612632729692881e-05,
7502
+ "loss": 1.3724,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.8193511230562488,
7507
+ "grad_norm": 1.2004398107528687,
7508
+ "learning_rate": 1.599426920478726e-05,
7509
+ "loss": 0.8796,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.8201190247648301,
7514
+ "grad_norm": 1.6214113235473633,
7515
+ "learning_rate": 1.586270703238637e-05,
7516
+ "loss": 1.3691,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.8208869264734114,
7521
+ "grad_norm": 1.7719411849975586,
7522
+ "learning_rate": 1.573164155639073e-05,
7523
+ "loss": 1.5033,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.8216548281819928,
7528
+ "grad_norm": 1.2365126609802246,
7529
+ "learning_rate": 1.560107355053282e-05,
7530
+ "loss": 1.1611,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.822422729890574,
7535
+ "grad_norm": 1.804200291633606,
7536
+ "learning_rate": 1.5471003785608184e-05,
7537
+ "loss": 1.2228,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.8231906315991553,
7542
+ "grad_norm": 3.12967586517334,
7543
+ "learning_rate": 1.534143302947123e-05,
7544
+ "loss": 1.0455,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.8239585333077366,
7549
+ "grad_norm": 1.7391802072525024,
7550
+ "learning_rate": 1.5212362047030427e-05,
7551
+ "loss": 1.4632,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.8247264350163179,
7556
+ "grad_norm": 1.4144318103790283,
7557
+ "learning_rate": 1.5083791600243857e-05,
7558
+ "loss": 1.2948,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.8254943367248992,
7563
+ "grad_norm": 1.2028521299362183,
7564
+ "learning_rate": 1.4955722448114807e-05,
7565
+ "loss": 0.9203,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.8262622384334806,
7570
+ "grad_norm": 1.4866068363189697,
7571
+ "learning_rate": 1.4828155346687123e-05,
7572
+ "loss": 1.3486,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.8270301401420618,
7577
+ "grad_norm": 1.471641182899475,
7578
+ "learning_rate": 1.4701091049040994e-05,
7579
+ "loss": 1.1633,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.8277980418506431,
7584
+ "grad_norm": 1.3013348579406738,
7585
+ "learning_rate": 1.4574530305288158e-05,
7586
+ "loss": 0.9819,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.8285659435592244,
7591
+ "grad_norm": 1.5000224113464355,
7592
+ "learning_rate": 1.4448473862567857e-05,
7593
+ "loss": 1.1458,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.8293338452678057,
7598
+ "grad_norm": 1.4229687452316284,
7599
+ "learning_rate": 1.4322922465042132e-05,
7600
+ "loss": 1.3797,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.8301017469763871,
7605
+ "grad_norm": 1.3966771364212036,
7606
+ "learning_rate": 1.4197876853891557e-05,
7607
+ "loss": 1.4436,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.8308696486849684,
7612
+ "grad_norm": 1.3111258745193481,
7613
+ "learning_rate": 1.4073337767310834e-05,
7614
+ "loss": 1.175,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.8316375503935496,
7619
+ "grad_norm": 1.4146270751953125,
7620
+ "learning_rate": 1.3949305940504541e-05,
7621
+ "loss": 1.1575,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.8324054521021309,
7626
+ "grad_norm": 1.2625914812088013,
7627
+ "learning_rate": 1.3825782105682527e-05,
7628
+ "loss": 0.984,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.8331733538107122,
7633
+ "grad_norm": 1.2037335634231567,
7634
+ "learning_rate": 1.3702766992055927e-05,
7635
+ "loss": 1.0908,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.8339412555192935,
7640
+ "grad_norm": 1.384108304977417,
7641
+ "learning_rate": 1.3580261325832578e-05,
7642
+ "loss": 1.4079,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.8347091572278749,
7647
+ "grad_norm": 1.0640181303024292,
7648
+ "learning_rate": 1.3458265830212891e-05,
7649
+ "loss": 0.68,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.8354770589364562,
7654
+ "grad_norm": 1.6578110456466675,
7655
+ "learning_rate": 1.333678122538553e-05,
7656
+ "loss": 1.1659,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.8362449606450374,
7661
+ "grad_norm": 1.3299002647399902,
7662
+ "learning_rate": 1.321580822852313e-05,
7663
+ "loss": 1.1961,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.8370128623536187,
7668
+ "grad_norm": 1.5801900625228882,
7669
+ "learning_rate": 1.3095347553778193e-05,
7670
+ "loss": 1.3358,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.8377807640622,
7675
+ "grad_norm": 1.6045485734939575,
7676
+ "learning_rate": 1.2975399912278608e-05,
7677
+ "loss": 1.3452,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.8385486657707814,
7682
+ "grad_norm": 1.3222181797027588,
7683
+ "learning_rate": 1.2855966012123822e-05,
7684
+ "loss": 1.0153,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.8393165674793627,
7689
+ "grad_norm": 1.5065910816192627,
7690
+ "learning_rate": 1.2737046558380305e-05,
7691
+ "loss": 1.3556,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.840084469187944,
7696
+ "grad_norm": 1.6371604204177856,
7697
+ "learning_rate": 1.2618642253077628e-05,
7698
+ "loss": 1.3203,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.8408523708965252,
7703
+ "grad_norm": 1.801613688468933,
7704
+ "learning_rate": 1.2500753795204157e-05,
7705
+ "loss": 1.272,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.8416202726051065,
7710
+ "grad_norm": 1.6735864877700806,
7711
+ "learning_rate": 1.2383381880703138e-05,
7712
+ "loss": 1.2709,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.8423881743136878,
7717
+ "grad_norm": 1.3746118545532227,
7718
+ "learning_rate": 1.2266527202468248e-05,
7719
+ "loss": 1.164,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.8431560760222692,
7724
+ "grad_norm": 1.5882354974746704,
7725
+ "learning_rate": 1.2150190450339915e-05,
7726
+ "loss": 0.8384,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 0.8439239777308505,
7731
+ "grad_norm": 1.492803931236267,
7732
+ "learning_rate": 1.2034372311100905e-05,
7733
+ "loss": 1.4302,
7734
+ "step": 1099
7735
+ },
7736
+ {
7737
+ "epoch": 0.8446918794394318,
7738
+ "grad_norm": 1.868151307106018,
7739
+ "learning_rate": 1.1919073468472475e-05,
7740
+ "loss": 1.24,
7741
+ "step": 1100
7742
+ },
7743
+ {
7744
+ "epoch": 0.845459781148013,
7745
+ "grad_norm": 1.3878445625305176,
7746
+ "learning_rate": 1.1804294603110222e-05,
7747
+ "loss": 1.1959,
7748
+ "step": 1101
7749
+ },
7750
+ {
7751
+ "epoch": 0.8462276828565943,
7752
+ "grad_norm": 1.6517834663391113,
7753
+ "learning_rate": 1.1690036392600112e-05,
7754
+ "loss": 1.4946,
7755
+ "step": 1102
7756
+ },
7757
+ {
7758
+ "epoch": 0.8469955845651757,
7759
+ "grad_norm": 1.5959718227386475,
7760
+ "learning_rate": 1.1576299511454513e-05,
7761
+ "loss": 1.3349,
7762
+ "step": 1103
7763
+ },
7764
+ {
7765
+ "epoch": 0.847763486273757,
7766
+ "grad_norm": 1.3100310564041138,
7767
+ "learning_rate": 1.1463084631108101e-05,
7768
+ "loss": 1.0446,
7769
+ "step": 1104
7770
+ },
7771
+ {
7772
+ "epoch": 0.8485313879823383,
7773
+ "grad_norm": 1.5334558486938477,
7774
+ "learning_rate": 1.135039241991408e-05,
7775
+ "loss": 1.0935,
7776
+ "step": 1105
7777
+ },
7778
+ {
7779
+ "epoch": 0.8492992896909196,
7780
+ "grad_norm": 1.306308627128601,
7781
+ "learning_rate": 1.1238223543140024e-05,
7782
+ "loss": 1.0424,
7783
+ "step": 1106
7784
+ },
7785
+ {
7786
+ "epoch": 0.8500671913995008,
7787
+ "grad_norm": 1.5370351076126099,
7788
+ "learning_rate": 1.1126578662964115e-05,
7789
+ "loss": 1.1695,
7790
+ "step": 1107
7791
+ },
7792
+ {
7793
+ "epoch": 0.8508350931080821,
7794
+ "grad_norm": 1.5034894943237305,
7795
+ "learning_rate": 1.1015458438471116e-05,
7796
+ "loss": 1.3281,
7797
+ "step": 1108
7798
+ },
7799
+ {
7800
+ "epoch": 0.8516029948166635,
7801
+ "grad_norm": 1.815669059753418,
7802
+ "learning_rate": 1.0904863525648633e-05,
7803
+ "loss": 1.3144,
7804
+ "step": 1109
7805
+ },
7806
+ {
7807
+ "epoch": 0.8523708965252448,
7808
+ "grad_norm": 1.2194162607192993,
7809
+ "learning_rate": 1.0794794577383016e-05,
7810
+ "loss": 1.1239,
7811
+ "step": 1110
7812
+ },
7813
+ {
7814
+ "epoch": 0.8531387982338261,
7815
+ "grad_norm": 1.3530551195144653,
7816
+ "learning_rate": 1.0685252243455712e-05,
7817
+ "loss": 1.1957,
7818
+ "step": 1111
7819
+ },
7820
+ {
7821
+ "epoch": 0.8539066999424074,
7822
+ "grad_norm": 1.437690019607544,
7823
+ "learning_rate": 1.0576237170539383e-05,
7824
+ "loss": 1.1088,
7825
+ "step": 1112
7826
+ },
7827
+ {
7828
+ "epoch": 0.8546746016509886,
7829
+ "grad_norm": 1.7501755952835083,
7830
+ "learning_rate": 1.0467750002193944e-05,
7831
+ "loss": 1.3246,
7832
+ "step": 1113
7833
+ },
7834
+ {
7835
+ "epoch": 0.85544250335957,
7836
+ "grad_norm": 1.587377905845642,
7837
+ "learning_rate": 1.0359791378863005e-05,
7838
+ "loss": 1.2558,
7839
+ "step": 1114
7840
+ },
7841
+ {
7842
+ "epoch": 0.8562104050681513,
7843
+ "grad_norm": 1.8887481689453125,
7844
+ "learning_rate": 1.025236193786987e-05,
7845
+ "loss": 1.523,
7846
+ "step": 1115
7847
+ },
7848
+ {
7849
+ "epoch": 0.8569783067767326,
7850
+ "grad_norm": 1.4728237390518188,
7851
+ "learning_rate": 1.014546231341391e-05,
7852
+ "loss": 1.4592,
7853
+ "step": 1116
7854
+ },
7855
+ {
7856
+ "epoch": 0.8577462084853139,
7857
+ "grad_norm": 1.5659328699111938,
7858
+ "learning_rate": 1.0039093136566735e-05,
7859
+ "loss": 1.2452,
7860
+ "step": 1117
7861
+ },
7862
+ {
7863
+ "epoch": 0.8585141101938952,
7864
+ "grad_norm": 1.501523733139038,
7865
+ "learning_rate": 9.933255035268574e-06,
7866
+ "loss": 1.1862,
7867
+ "step": 1118
7868
+ },
7869
+ {
7870
+ "epoch": 0.8592820119024764,
7871
+ "grad_norm": 1.4726933240890503,
7872
+ "learning_rate": 9.827948634324447e-06,
7873
+ "loss": 1.1691,
7874
+ "step": 1119
7875
+ },
7876
+ {
7877
+ "epoch": 0.8600499136110578,
7878
+ "grad_norm": 1.601131558418274,
7879
+ "learning_rate": 9.72317455540055e-06,
7880
+ "loss": 1.2678,
7881
+ "step": 1120
7882
+ },
7883
+ {
7884
+ "epoch": 0.8608178153196391,
7885
+ "grad_norm": 1.5712275505065918,
7886
+ "learning_rate": 9.61893341702056e-06,
7887
+ "loss": 1.1582,
7888
+ "step": 1121
7889
+ },
7890
+ {
7891
+ "epoch": 0.8615857170282204,
7892
+ "grad_norm": 1.4145914316177368,
7893
+ "learning_rate": 9.515225834562003e-06,
7894
+ "loss": 0.9806,
7895
+ "step": 1122
7896
+ },
7897
+ {
7898
+ "epoch": 0.8623536187368017,
7899
+ "grad_norm": 1.4771418571472168,
7900
+ "learning_rate": 9.412052420252605e-06,
7901
+ "loss": 1.233,
7902
+ "step": 1123
7903
+ },
7904
+ {
7905
+ "epoch": 0.863121520445383,
7906
+ "grad_norm": 1.4225813150405884,
7907
+ "learning_rate": 9.309413783166654e-06,
7908
+ "loss": 0.8999,
7909
+ "step": 1124
7910
+ },
7911
+ {
7912
+ "epoch": 0.8638894221539642,
7913
+ "grad_norm": 1.6784931421279907,
7914
+ "learning_rate": 9.207310529221525e-06,
7915
+ "loss": 1.2208,
7916
+ "step": 1125
7917
+ },
7918
+ {
7919
+ "epoch": 0.8646573238625456,
7920
+ "grad_norm": 1.05604887008667,
7921
+ "learning_rate": 9.10574326117386e-06,
7922
+ "loss": 0.9784,
7923
+ "step": 1126
7924
+ },
7925
+ {
7926
+ "epoch": 0.8654252255711269,
7927
+ "grad_norm": 1.5101516246795654,
7928
+ "learning_rate": 9.004712578616304e-06,
7929
+ "loss": 1.2459,
7930
+ "step": 1127
7931
+ },
7932
+ {
7933
+ "epoch": 0.8661931272797082,
7934
+ "grad_norm": 1.5375887155532837,
7935
+ "learning_rate": 8.90421907797374e-06,
7936
+ "loss": 1.3941,
7937
+ "step": 1128
7938
+ },
7939
+ {
7940
+ "epoch": 0.8669610289882895,
7941
+ "grad_norm": 1.382124423980713,
7942
+ "learning_rate": 8.804263352499864e-06,
7943
+ "loss": 1.0871,
7944
+ "step": 1129
7945
+ },
7946
+ {
7947
+ "epoch": 0.8677289306968708,
7948
+ "grad_norm": 1.4245071411132812,
7949
+ "learning_rate": 8.70484599227367e-06,
7950
+ "loss": 1.0823,
7951
+ "step": 1130
7952
+ },
7953
+ {
7954
+ "epoch": 0.8684968324054521,
7955
+ "grad_norm": 1.651361107826233,
7956
+ "learning_rate": 8.605967584195995e-06,
7957
+ "loss": 1.3007,
7958
+ "step": 1131
7959
+ },
7960
+ {
7961
+ "epoch": 0.8692647341140334,
7962
+ "grad_norm": 1.8151158094406128,
7963
+ "learning_rate": 8.507628711985983e-06,
7964
+ "loss": 1.3263,
7965
+ "step": 1132
7966
+ },
7967
+ {
7968
+ "epoch": 0.8700326358226147,
7969
+ "grad_norm": 1.6930426359176636,
7970
+ "learning_rate": 8.409829956177684e-06,
7971
+ "loss": 1.2812,
7972
+ "step": 1133
7973
+ },
7974
+ {
7975
+ "epoch": 0.870800537531196,
7976
+ "grad_norm": 1.6178615093231201,
7977
+ "learning_rate": 8.312571894116649e-06,
7978
+ "loss": 1.2922,
7979
+ "step": 1134
7980
+ },
7981
+ {
7982
+ "epoch": 0.8715684392397773,
7983
+ "grad_norm": 1.7102075815200806,
7984
+ "learning_rate": 8.215855099956472e-06,
7985
+ "loss": 1.1281,
7986
+ "step": 1135
7987
+ },
7988
+ {
7989
+ "epoch": 0.8723363409483587,
7990
+ "grad_norm": 1.4845244884490967,
7991
+ "learning_rate": 8.119680144655428e-06,
7992
+ "loss": 1.0213,
7993
+ "step": 1136
7994
+ },
7995
+ {
7996
+ "epoch": 0.8731042426569399,
7997
+ "grad_norm": 1.4863834381103516,
7998
+ "learning_rate": 8.024047595973095e-06,
7999
+ "loss": 1.0862,
8000
+ "step": 1137
8001
+ },
8002
+ {
8003
+ "epoch": 0.8738721443655212,
8004
+ "grad_norm": 1.2989436388015747,
8005
+ "learning_rate": 7.92895801846707e-06,
8006
+ "loss": 1.052,
8007
+ "step": 1138
8008
+ },
8009
+ {
8010
+ "epoch": 0.8746400460741025,
8011
+ "grad_norm": 1.3424791097640991,
8012
+ "learning_rate": 7.834411973489419e-06,
8013
+ "loss": 1.3913,
8014
+ "step": 1139
8015
+ },
8016
+ {
8017
+ "epoch": 0.8754079477826838,
8018
+ "grad_norm": 1.5543662309646606,
8019
+ "learning_rate": 7.740410019183697e-06,
8020
+ "loss": 1.4759,
8021
+ "step": 1140
8022
+ },
8023
+ {
8024
+ "epoch": 0.8761758494912651,
8025
+ "grad_norm": 1.499265193939209,
8026
+ "learning_rate": 7.646952710481336e-06,
8027
+ "loss": 1.3668,
8028
+ "step": 1141
8029
+ },
8030
+ {
8031
+ "epoch": 0.8769437511998465,
8032
+ "grad_norm": 1.6394531726837158,
8033
+ "learning_rate": 7.554040599098588e-06,
8034
+ "loss": 1.1713,
8035
+ "step": 1142
8036
+ },
8037
+ {
8038
+ "epoch": 0.8777116529084277,
8039
+ "grad_norm": 1.4457104206085205,
8040
+ "learning_rate": 7.461674233533123e-06,
8041
+ "loss": 1.3674,
8042
+ "step": 1143
8043
+ },
8044
+ {
8045
+ "epoch": 0.878479554617009,
8046
+ "grad_norm": 1.468809723854065,
8047
+ "learning_rate": 7.369854159060929e-06,
8048
+ "loss": 1.0444,
8049
+ "step": 1144
8050
+ },
8051
+ {
8052
+ "epoch": 0.8792474563255903,
8053
+ "grad_norm": 1.610374093055725,
8054
+ "learning_rate": 7.278580917732913e-06,
8055
+ "loss": 1.5037,
8056
+ "step": 1145
8057
+ },
8058
+ {
8059
+ "epoch": 0.8800153580341716,
8060
+ "grad_norm": 1.3369286060333252,
8061
+ "learning_rate": 7.187855048371917e-06,
8062
+ "loss": 1.129,
8063
+ "step": 1146
8064
+ },
8065
+ {
8066
+ "epoch": 0.880783259742753,
8067
+ "grad_norm": 1.4274189472198486,
8068
+ "learning_rate": 7.097677086569343e-06,
8069
+ "loss": 1.2629,
8070
+ "step": 1147
8071
+ },
8072
+ {
8073
+ "epoch": 0.8815511614513343,
8074
+ "grad_norm": 1.4373105764389038,
8075
+ "learning_rate": 7.008047564682119e-06,
8076
+ "loss": 1.2244,
8077
+ "step": 1148
8078
+ },
8079
+ {
8080
+ "epoch": 0.8823190631599155,
8081
+ "grad_norm": 1.5060944557189941,
8082
+ "learning_rate": 6.91896701182948e-06,
8083
+ "loss": 1.3279,
8084
+ "step": 1149
8085
+ },
8086
+ {
8087
+ "epoch": 0.8830869648684968,
8088
+ "grad_norm": 1.1090878248214722,
8089
+ "learning_rate": 6.83043595388988e-06,
8090
+ "loss": 0.9791,
8091
+ "step": 1150
8092
+ },
8093
+ {
8094
+ "epoch": 0.8838548665770781,
8095
+ "grad_norm": 1.6525593996047974,
8096
+ "learning_rate": 6.742454913497942e-06,
8097
+ "loss": 1.2751,
8098
+ "step": 1151
8099
+ },
8100
+ {
8101
+ "epoch": 0.8846227682856594,
8102
+ "grad_norm": 1.5659713745117188,
8103
+ "learning_rate": 6.6550244100412e-06,
8104
+ "loss": 1.3544,
8105
+ "step": 1152
8106
+ },
8107
+ {
8108
+ "epoch": 0.8853906699942408,
8109
+ "grad_norm": 1.4881879091262817,
8110
+ "learning_rate": 6.568144959657263e-06,
8111
+ "loss": 1.1873,
8112
+ "step": 1153
8113
+ },
8114
+ {
8115
+ "epoch": 0.8861585717028221,
8116
+ "grad_norm": 1.8786675930023193,
8117
+ "learning_rate": 6.481817075230567e-06,
8118
+ "loss": 1.3176,
8119
+ "step": 1154
8120
+ },
8121
+ {
8122
+ "epoch": 0.8869264734114033,
8123
+ "grad_norm": 1.4211797714233398,
8124
+ "learning_rate": 6.396041266389474e-06,
8125
+ "loss": 1.3475,
8126
+ "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.8876943751199846,
8130
+ "grad_norm": 1.4349972009658813,
8131
+ "learning_rate": 6.3108180395031965e-06,
8132
+ "loss": 1.1019,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.8884622768285659,
8137
+ "grad_norm": 1.3336567878723145,
8138
+ "learning_rate": 6.22614789767888e-06,
8139
+ "loss": 1.1098,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.8892301785371473,
8144
+ "grad_norm": 1.4133919477462769,
8145
+ "learning_rate": 6.142031340758525e-06,
8146
+ "loss": 1.2118,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.8899980802457286,
8151
+ "grad_norm": 1.3893505334854126,
8152
+ "learning_rate": 6.058468865316102e-06,
8153
+ "loss": 1.1315,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.8907659819543099,
8158
+ "grad_norm": 1.786585807800293,
8159
+ "learning_rate": 5.975460964654689e-06,
8160
+ "loss": 1.6215,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.8915338836628911,
8165
+ "grad_norm": 1.3746907711029053,
8166
+ "learning_rate": 5.8930081288034014e-06,
8167
+ "loss": 1.0703,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.8923017853714724,
8172
+ "grad_norm": 1.420802116394043,
8173
+ "learning_rate": 5.8111108445146116e-06,
8174
+ "loss": 1.0426,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.8930696870800537,
8179
+ "grad_norm": 1.5010699033737183,
8180
+ "learning_rate": 5.72976959526107e-06,
8181
+ "loss": 1.3698,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.8938375887886351,
8186
+ "grad_norm": 1.3752045631408691,
8187
+ "learning_rate": 5.648984861232986e-06,
8188
+ "loss": 1.2014,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.8946054904972164,
8193
+ "grad_norm": 1.5743210315704346,
8194
+ "learning_rate": 5.568757119335244e-06,
8195
+ "loss": 1.4007,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.8953733922057977,
8200
+ "grad_norm": 1.4705897569656372,
8201
+ "learning_rate": 5.489086843184632e-06,
8202
+ "loss": 1.0485,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.8961412939143789,
8207
+ "grad_norm": 1.4664305448532104,
8208
+ "learning_rate": 5.40997450310693e-06,
8209
+ "loss": 1.3765,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.8969091956229602,
8214
+ "grad_norm": 1.6887331008911133,
8215
+ "learning_rate": 5.3314205661342155e-06,
8216
+ "loss": 1.3474,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.8976770973315416,
8221
+ "grad_norm": 1.5927088260650635,
8222
+ "learning_rate": 5.253425496002084e-06,
8223
+ "loss": 1.2915,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.8984449990401229,
8228
+ "grad_norm": 1.3032876253128052,
8229
+ "learning_rate": 5.175989753146948e-06,
8230
+ "loss": 1.2463,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.8992129007487042,
8235
+ "grad_norm": 1.2626043558120728,
8236
+ "learning_rate": 5.099113794703225e-06,
8237
+ "loss": 1.2223,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.8999808024572855,
8242
+ "grad_norm": 1.5485360622406006,
8243
+ "learning_rate": 5.0227980745007345e-06,
8244
+ "loss": 1.4437,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.9007487041658667,
8249
+ "grad_norm": 1.3756585121154785,
8250
+ "learning_rate": 4.947043043062016e-06,
8251
+ "loss": 1.3702,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.901516605874448,
8256
+ "grad_norm": 1.281550645828247,
8257
+ "learning_rate": 4.87184914759955e-06,
8258
+ "loss": 0.8686,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.9022845075830294,
8263
+ "grad_norm": 1.7812248468399048,
8264
+ "learning_rate": 4.7972168320132845e-06,
8265
+ "loss": 1.2599,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 0.9030524092916107,
8270
+ "grad_norm": 1.186799168586731,
8271
+ "learning_rate": 4.7231465368879124e-06,
8272
+ "loss": 1.0582,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 0.903820311000192,
8277
+ "grad_norm": 1.4105154275894165,
8278
+ "learning_rate": 4.649638699490266e-06,
8279
+ "loss": 1.1345,
8280
+ "step": 1177
8281
+ },
8282
+ {
8283
+ "epoch": 0.9045882127087733,
8284
+ "grad_norm": 1.4764769077301025,
8285
+ "learning_rate": 4.576693753766792e-06,
8286
+ "loss": 1.3989,
8287
+ "step": 1178
8288
+ },
8289
+ {
8290
+ "epoch": 0.9053561144173545,
8291
+ "grad_norm": 2.1660075187683105,
8292
+ "learning_rate": 4.5043121303409595e-06,
8293
+ "loss": 1.1665,
8294
+ "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.9061240161259358,
8298
+ "grad_norm": 1.262603521347046,
8299
+ "learning_rate": 4.432494256510711e-06,
8300
+ "loss": 0.9425,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.9068919178345172,
8305
+ "grad_norm": 1.8108893632888794,
8306
+ "learning_rate": 4.361240556245938e-06,
8307
+ "loss": 1.2851,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.9076598195430985,
8312
+ "grad_norm": 1.5858032703399658,
8313
+ "learning_rate": 4.290551450185986e-06,
8314
+ "loss": 1.4577,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.9084277212516798,
8319
+ "grad_norm": 1.2271817922592163,
8320
+ "learning_rate": 4.220427355637224e-06,
8321
+ "loss": 1.1701,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.9091956229602611,
8326
+ "grad_norm": 1.280598759651184,
8327
+ "learning_rate": 4.150868686570464e-06,
8328
+ "loss": 1.2309,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.9099635246688423,
8333
+ "grad_norm": 1.40516996383667,
8334
+ "learning_rate": 4.081875853618588e-06,
8335
+ "loss": 1.0201,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.9107314263774237,
8340
+ "grad_norm": 1.4448282718658447,
8341
+ "learning_rate": 4.013449264074187e-06,
8342
+ "loss": 1.1834,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.911499328086005,
8347
+ "grad_norm": 1.2964657545089722,
8348
+ "learning_rate": 3.945589321886989e-06,
8349
+ "loss": 1.0199,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.9122672297945863,
8354
+ "grad_norm": 1.3470900058746338,
8355
+ "learning_rate": 3.878296427661676e-06,
8356
+ "loss": 1.0585,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.9130351315031676,
8361
+ "grad_norm": 1.3308759927749634,
8362
+ "learning_rate": 3.8115709786553435e-06,
8363
+ "loss": 1.3752,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.9138030332117489,
8368
+ "grad_norm": 1.4458931684494019,
8369
+ "learning_rate": 3.7454133687752524e-06,
8370
+ "loss": 1.1349,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.9145709349203301,
8375
+ "grad_norm": 1.471204400062561,
8376
+ "learning_rate": 3.6798239885764806e-06,
8377
+ "loss": 1.126,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.9153388366289115,
8382
+ "grad_norm": 1.403232216835022,
8383
+ "learning_rate": 3.614803225259622e-06,
8384
+ "loss": 1.1377,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.9161067383374928,
8389
+ "grad_norm": 1.5859801769256592,
8390
+ "learning_rate": 3.550351462668489e-06,
8391
+ "loss": 1.2045,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.9168746400460741,
8396
+ "grad_norm": 1.2398918867111206,
8397
+ "learning_rate": 3.4864690812878688e-06,
8398
+ "loss": 1.111,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.9176425417546554,
8403
+ "grad_norm": 1.455277681350708,
8404
+ "learning_rate": 3.4231564582412167e-06,
8405
+ "loss": 1.1314,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.9184104434632367,
8410
+ "grad_norm": 1.5992294549942017,
8411
+ "learning_rate": 3.3604139672885227e-06,
8412
+ "loss": 1.2585,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.919178345171818,
8417
+ "grad_norm": 1.6772078275680542,
8418
+ "learning_rate": 3.298241978824046e-06,
8419
+ "loss": 1.0393,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.9199462468803993,
8424
+ "grad_norm": 1.202988862991333,
8425
+ "learning_rate": 3.2366408598741072e-06,
8426
+ "loss": 1.0763,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.9207141485889806,
8431
+ "grad_norm": 1.5782155990600586,
8432
+ "learning_rate": 3.175610974095011e-06,
8433
+ "loss": 1.3341,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.9214820502975619,
8438
+ "grad_norm": 1.611743450164795,
8439
+ "learning_rate": 3.115152681770783e-06,
8440
+ "loss": 1.0767,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.9222499520061432,
8445
+ "grad_norm": 1.6371206045150757,
8446
+ "learning_rate": 3.055266339811147e-06,
8447
+ "loss": 0.7947,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.9230178537147246,
8452
+ "grad_norm": 1.335860252380371,
8453
+ "learning_rate": 2.9959523017493386e-06,
8454
+ "loss": 1.2236,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 0.9237857554233058,
8459
+ "grad_norm": 1.4622019529342651,
8460
+ "learning_rate": 2.9372109177400854e-06,
8461
+ "loss": 1.5577,
8462
+ "step": 1203
8463
+ },
8464
+ {
8465
+ "epoch": 0.9245536571318871,
8466
+ "grad_norm": 1.4906941652297974,
8467
+ "learning_rate": 2.8790425345574745e-06,
8468
+ "loss": 1.1759,
8469
+ "step": 1204
8470
+ },
8471
+ {
8472
+ "epoch": 0.9253215588404684,
8473
+ "grad_norm": 1.2302792072296143,
8474
+ "learning_rate": 2.821447495592977e-06,
8475
+ "loss": 0.7965,
8476
+ "step": 1205
8477
+ },
8478
+ {
8479
+ "epoch": 0.9260894605490497,
8480
+ "grad_norm": 1.4680209159851074,
8481
+ "learning_rate": 2.7644261408533155e-06,
8482
+ "loss": 1.213,
8483
+ "step": 1206
8484
+ },
8485
+ {
8486
+ "epoch": 0.926857362257631,
8487
+ "grad_norm": 1.737641453742981,
8488
+ "learning_rate": 2.707978806958611e-06,
8489
+ "loss": 1.1734,
8490
+ "step": 1207
8491
+ },
8492
+ {
8493
+ "epoch": 0.9276252639662124,
8494
+ "grad_norm": 1.386087417602539,
8495
+ "learning_rate": 2.6521058271402386e-06,
8496
+ "loss": 1.3075,
8497
+ "step": 1208
8498
+ },
8499
+ {
8500
+ "epoch": 0.9283931656747936,
8501
+ "grad_norm": 1.5818560123443604,
8502
+ "learning_rate": 2.596807531238965e-06,
8503
+ "loss": 1.3811,
8504
+ "step": 1209
8505
+ },
8506
+ {
8507
+ "epoch": 0.9291610673833749,
8508
+ "grad_norm": 1.2463423013687134,
8509
+ "learning_rate": 2.542084245702947e-06,
8510
+ "loss": 1.2488,
8511
+ "step": 1210
8512
+ },
8513
+ {
8514
+ "epoch": 0.9299289690919562,
8515
+ "grad_norm": 1.1760039329528809,
8516
+ "learning_rate": 2.487936293585813e-06,
8517
+ "loss": 0.9825,
8518
+ "step": 1211
8519
+ },
8520
+ {
8521
+ "epoch": 0.9306968708005375,
8522
+ "grad_norm": 1.2284053564071655,
8523
+ "learning_rate": 2.4343639945448306e-06,
8524
+ "loss": 1.12,
8525
+ "step": 1212
8526
+ },
8527
+ {
8528
+ "epoch": 0.9314647725091189,
8529
+ "grad_norm": 1.4763203859329224,
8530
+ "learning_rate": 2.3813676648388517e-06,
8531
+ "loss": 1.1244,
8532
+ "step": 1213
8533
+ },
8534
+ {
8535
+ "epoch": 0.9322326742177002,
8536
+ "grad_norm": 1.6483160257339478,
8537
+ "learning_rate": 2.3289476173266376e-06,
8538
+ "loss": 1.3215,
8539
+ "step": 1214
8540
+ },
8541
+ {
8542
+ "epoch": 0.9330005759262814,
8543
+ "grad_norm": 1.625486135482788,
8544
+ "learning_rate": 2.2771041614648825e-06,
8545
+ "loss": 1.578,
8546
+ "step": 1215
8547
+ },
8548
+ {
8549
+ "epoch": 0.9337684776348627,
8550
+ "grad_norm": 1.7281734943389893,
8551
+ "learning_rate": 2.2258376033064354e-06,
8552
+ "loss": 1.3752,
8553
+ "step": 1216
8554
+ },
8555
+ {
8556
+ "epoch": 0.934536379343444,
8557
+ "grad_norm": 1.1822775602340698,
8558
+ "learning_rate": 2.1751482454984706e-06,
8559
+ "loss": 0.9411,
8560
+ "step": 1217
8561
+ },
8562
+ {
8563
+ "epoch": 0.9353042810520253,
8564
+ "grad_norm": 1.5272676944732666,
8565
+ "learning_rate": 2.1250363872807655e-06,
8566
+ "loss": 1.3861,
8567
+ "step": 1218
8568
+ },
8569
+ {
8570
+ "epoch": 0.9360721827606067,
8571
+ "grad_norm": 1.6605676412582397,
8572
+ "learning_rate": 2.0755023244838136e-06,
8573
+ "loss": 1.5562,
8574
+ "step": 1219
8575
+ },
8576
+ {
8577
+ "epoch": 0.936840084469188,
8578
+ "grad_norm": 1.4125683307647705,
8579
+ "learning_rate": 2.026546349527181e-06,
8580
+ "loss": 1.0978,
8581
+ "step": 1220
8582
+ },
8583
+ {
8584
+ "epoch": 0.9376079861777692,
8585
+ "grad_norm": 1.3512035608291626,
8586
+ "learning_rate": 1.978168751417786e-06,
8587
+ "loss": 0.9322,
8588
+ "step": 1221
8589
+ },
8590
+ {
8591
+ "epoch": 0.9383758878863505,
8592
+ "grad_norm": 1.7064318656921387,
8593
+ "learning_rate": 1.93036981574809e-06,
8594
+ "loss": 1.2816,
8595
+ "step": 1222
8596
+ },
8597
+ {
8598
+ "epoch": 0.9391437895949318,
8599
+ "grad_norm": 1.2211792469024658,
8600
+ "learning_rate": 1.8831498246945189e-06,
8601
+ "loss": 1.0071,
8602
+ "step": 1223
8603
+ },
8604
+ {
8605
+ "epoch": 0.9399116913035132,
8606
+ "grad_norm": 1.3540048599243164,
8607
+ "learning_rate": 1.836509057015734e-06,
8608
+ "loss": 1.202,
8609
+ "step": 1224
8610
+ },
8611
+ {
8612
+ "epoch": 0.9406795930120945,
8613
+ "grad_norm": 1.3373445272445679,
8614
+ "learning_rate": 1.7904477880510307e-06,
8615
+ "loss": 1.142,
8616
+ "step": 1225
8617
+ },
8618
+ {
8619
+ "epoch": 0.9414474947206758,
8620
+ "grad_norm": 1.38016939163208,
8621
+ "learning_rate": 1.7449662897186414e-06,
8622
+ "loss": 1.3193,
8623
+ "step": 1226
8624
+ },
8625
+ {
8626
+ "epoch": 0.942215396429257,
8627
+ "grad_norm": 1.3662525415420532,
8628
+ "learning_rate": 1.7000648305142364e-06,
8629
+ "loss": 1.0969,
8630
+ "step": 1227
8631
+ },
8632
+ {
8633
+ "epoch": 0.9429832981378383,
8634
+ "grad_norm": 1.7097259759902954,
8635
+ "learning_rate": 1.655743675509258e-06,
8636
+ "loss": 1.4585,
8637
+ "step": 1228
8638
+ },
8639
+ {
8640
+ "epoch": 0.9437511998464196,
8641
+ "grad_norm": 1.177868127822876,
8642
+ "learning_rate": 1.6120030863493674e-06,
8643
+ "loss": 0.9733,
8644
+ "step": 1229
8645
+ },
8646
+ {
8647
+ "epoch": 0.944519101555001,
8648
+ "grad_norm": 1.481663465499878,
8649
+ "learning_rate": 1.5688433212529107e-06,
8650
+ "loss": 1.0466,
8651
+ "step": 1230
8652
+ },
8653
+ {
8654
+ "epoch": 0.9452870032635823,
8655
+ "grad_norm": 1.6859853267669678,
8656
+ "learning_rate": 1.5262646350094334e-06,
8657
+ "loss": 1.2808,
8658
+ "step": 1231
8659
+ },
8660
+ {
8661
+ "epoch": 0.9460549049721636,
8662
+ "grad_norm": 1.7730293273925781,
8663
+ "learning_rate": 1.4842672789780798e-06,
8664
+ "loss": 1.2563,
8665
+ "step": 1232
8666
+ },
8667
+ {
8668
+ "epoch": 0.9468228066807448,
8669
+ "grad_norm": 1.5149153470993042,
8670
+ "learning_rate": 1.4428515010861955e-06,
8671
+ "loss": 1.249,
8672
+ "step": 1233
8673
+ },
8674
+ {
8675
+ "epoch": 0.9475907083893261,
8676
+ "grad_norm": 1.8611276149749756,
8677
+ "learning_rate": 1.4020175458278607e-06,
8678
+ "loss": 1.5504,
8679
+ "step": 1234
8680
+ },
8681
+ {
8682
+ "epoch": 0.9483586100979075,
8683
+ "grad_norm": 1.5275269746780396,
8684
+ "learning_rate": 1.3617656542623813e-06,
8685
+ "loss": 1.3417,
8686
+ "step": 1235
8687
+ },
8688
+ {
8689
+ "epoch": 0.9491265118064888,
8690
+ "grad_norm": 1.3223843574523926,
8691
+ "learning_rate": 1.322096064012912e-06,
8692
+ "loss": 1.1907,
8693
+ "step": 1236
8694
+ },
8695
+ {
8696
+ "epoch": 0.9498944135150701,
8697
+ "grad_norm": 1.4529744386672974,
8698
+ "learning_rate": 1.2830090092650904e-06,
8699
+ "loss": 1.16,
8700
+ "step": 1237
8701
+ },
8702
+ {
8703
+ "epoch": 0.9506623152236514,
8704
+ "grad_norm": 1.4799784421920776,
8705
+ "learning_rate": 1.244504720765549e-06,
8706
+ "loss": 1.3583,
8707
+ "step": 1238
8708
+ },
8709
+ {
8710
+ "epoch": 0.9514302169322326,
8711
+ "grad_norm": 1.4964150190353394,
8712
+ "learning_rate": 1.20658342582064e-06,
8713
+ "loss": 1.2563,
8714
+ "step": 1239
8715
+ },
8716
+ {
8717
+ "epoch": 0.9521981186408139,
8718
+ "grad_norm": 1.318679690361023,
8719
+ "learning_rate": 1.1692453482951115e-06,
8720
+ "loss": 1.1699,
8721
+ "step": 1240
8722
+ },
8723
+ {
8724
+ "epoch": 0.9529660203493953,
8725
+ "grad_norm": 1.2729301452636719,
8726
+ "learning_rate": 1.1324907086106895e-06,
8727
+ "loss": 1.0768,
8728
+ "step": 1241
8729
+ },
8730
+ {
8731
+ "epoch": 0.9537339220579766,
8732
+ "grad_norm": 1.4914193153381348,
8733
+ "learning_rate": 1.096319723744843e-06,
8734
+ "loss": 0.9835,
8735
+ "step": 1242
8736
+ },
8737
+ {
8738
+ "epoch": 0.9545018237665579,
8739
+ "grad_norm": 1.4499318599700928,
8740
+ "learning_rate": 1.0607326072295087e-06,
8741
+ "loss": 1.1102,
8742
+ "step": 1243
8743
+ },
8744
+ {
8745
+ "epoch": 0.9552697254751392,
8746
+ "grad_norm": 1.4721513986587524,
8747
+ "learning_rate": 1.0257295691497914e-06,
8748
+ "loss": 1.234,
8749
+ "step": 1244
8750
+ },
8751
+ {
8752
+ "epoch": 0.9560376271837204,
8753
+ "grad_norm": 1.553381323814392,
8754
+ "learning_rate": 9.913108161427543e-07,
8755
+ "loss": 1.2512,
8756
+ "step": 1245
8757
+ },
8758
+ {
8759
+ "epoch": 0.9568055288923017,
8760
+ "grad_norm": 1.384883165359497,
8761
+ "learning_rate": 9.57476551396197e-07,
8762
+ "loss": 1.2325,
8763
+ "step": 1246
8764
+ },
8765
+ {
8766
+ "epoch": 0.9575734306008831,
8767
+ "grad_norm": 1.6136502027511597,
8768
+ "learning_rate": 9.242269746474575e-07,
8769
+ "loss": 1.4892,
8770
+ "step": 1247
8771
+ },
8772
+ {
8773
+ "epoch": 0.9583413323094644,
8774
+ "grad_norm": 1.5573700666427612,
8775
+ "learning_rate": 8.915622821821789e-07,
8776
+ "loss": 1.447,
8777
+ "step": 1248
8778
+ },
8779
+ {
8780
+ "epoch": 0.9591092340180457,
8781
+ "grad_norm": 1.47049880027771,
8782
+ "learning_rate": 8.594826668332445e-07,
8783
+ "loss": 1.1597,
8784
+ "step": 1249
8785
+ },
8786
+ {
8787
+ "epoch": 0.959877135726627,
8788
+ "grad_norm": 0.9694231748580933,
8789
+ "learning_rate": 8.279883179795666e-07,
8790
+ "loss": 0.8528,
8791
+ "step": 1250
8792
+ },
8793
+ {
8794
+ "epoch": 0.9606450374352083,
8795
+ "grad_norm": 1.28829026222229,
8796
+ "learning_rate": 7.970794215450106e-07,
8797
+ "loss": 1.1936,
8798
+ "step": 1251
8799
+ },
8800
+ {
8801
+ "epoch": 0.9614129391437896,
8802
+ "grad_norm": 1.6050745248794556,
8803
+ "learning_rate": 7.667561599972505e-07,
8804
+ "loss": 1.3697,
8805
+ "step": 1252
8806
+ },
8807
+ {
8808
+ "epoch": 0.9621808408523709,
8809
+ "grad_norm": 1.1561931371688843,
8810
+ "learning_rate": 7.370187123467708e-07,
8811
+ "loss": 0.9132,
8812
+ "step": 1253
8813
+ },
8814
+ {
8815
+ "epoch": 0.9629487425609522,
8816
+ "grad_norm": 1.2682461738586426,
8817
+ "learning_rate": 7.078672541456999e-07,
8818
+ "loss": 1.1176,
8819
+ "step": 1254
8820
+ },
8821
+ {
8822
+ "epoch": 0.9637166442695335,
8823
+ "grad_norm": 1.4032613039016724,
8824
+ "learning_rate": 6.793019574868775e-07,
8825
+ "loss": 1.2812,
8826
+ "step": 1255
8827
+ },
8828
+ {
8829
+ "epoch": 0.9644845459781148,
8830
+ "grad_norm": 1.855252981185913,
8831
+ "learning_rate": 6.513229910027896e-07,
8832
+ "loss": 1.4774,
8833
+ "step": 1256
8834
+ },
8835
+ {
8836
+ "epoch": 0.9652524476866962,
8837
+ "grad_norm": 1.4534977674484253,
8838
+ "learning_rate": 6.239305198645462e-07,
8839
+ "loss": 1.097,
8840
+ "step": 1257
8841
+ },
8842
+ {
8843
+ "epoch": 0.9660203493952774,
8844
+ "grad_norm": 1.4636932611465454,
8845
+ "learning_rate": 5.971247057809826e-07,
8846
+ "loss": 1.2459,
8847
+ "step": 1258
8848
+ },
8849
+ {
8850
+ "epoch": 0.9667882511038587,
8851
+ "grad_norm": 1.318543553352356,
8852
+ "learning_rate": 5.709057069976265e-07,
8853
+ "loss": 1.342,
8854
+ "step": 1259
8855
+ },
8856
+ {
8857
+ "epoch": 0.96755615281244,
8858
+ "grad_norm": 1.2237138748168945,
8859
+ "learning_rate": 5.452736782958323e-07,
8860
+ "loss": 1.0311,
8861
+ "step": 1260
8862
+ },
8863
+ {
8864
+ "epoch": 0.9683240545210213,
8865
+ "grad_norm": 1.3968307971954346,
8866
+ "learning_rate": 5.20228770991793e-07,
8867
+ "loss": 1.2152,
8868
+ "step": 1261
8869
+ },
8870
+ {
8871
+ "epoch": 0.9690919562296026,
8872
+ "grad_norm": 1.2888987064361572,
8873
+ "learning_rate": 4.957711329357073e-07,
8874
+ "loss": 0.9803,
8875
+ "step": 1262
8876
+ },
8877
+ {
8878
+ "epoch": 0.969859857938184,
8879
+ "grad_norm": 1.2455861568450928,
8880
+ "learning_rate": 4.7190090851090274e-07,
8881
+ "loss": 0.814,
8882
+ "step": 1263
8883
+ },
8884
+ {
8885
+ "epoch": 0.9706277596467652,
8886
+ "grad_norm": 1.263824462890625,
8887
+ "learning_rate": 4.4861823863292516e-07,
8888
+ "loss": 0.9433,
8889
+ "step": 1264
8890
+ },
8891
+ {
8892
+ "epoch": 0.9713956613553465,
8893
+ "grad_norm": 1.63260817527771,
8894
+ "learning_rate": 4.259232607487951e-07,
8895
+ "loss": 1.4563,
8896
+ "step": 1265
8897
+ },
8898
+ {
8899
+ "epoch": 0.9721635630639278,
8900
+ "grad_norm": 1.3201172351837158,
8901
+ "learning_rate": 4.038161088361192e-07,
8902
+ "loss": 1.0101,
8903
+ "step": 1266
8904
+ },
8905
+ {
8906
+ "epoch": 0.9729314647725091,
8907
+ "grad_norm": 1.456137776374817,
8908
+ "learning_rate": 3.8229691340234684e-07,
8909
+ "loss": 1.3377,
8910
+ "step": 1267
8911
+ },
8912
+ {
8913
+ "epoch": 0.9736993664810905,
8914
+ "grad_norm": 1.9307949542999268,
8915
+ "learning_rate": 3.613658014839594e-07,
8916
+ "loss": 1.5946,
8917
+ "step": 1268
8918
+ },
8919
+ {
8920
+ "epoch": 0.9744672681896718,
8921
+ "grad_norm": 1.0594274997711182,
8922
+ "learning_rate": 3.4102289664578177e-07,
8923
+ "loss": 1.0772,
8924
+ "step": 1269
8925
+ },
8926
+ {
8927
+ "epoch": 0.975235169898253,
8928
+ "grad_norm": 1.3033182621002197,
8929
+ "learning_rate": 3.212683189801724e-07,
8930
+ "loss": 1.2004,
8931
+ "step": 1270
8932
+ },
8933
+ {
8934
+ "epoch": 0.9760030716068343,
8935
+ "grad_norm": 1.574930191040039,
8936
+ "learning_rate": 3.021021851063899e-07,
8937
+ "loss": 1.266,
8938
+ "step": 1271
8939
+ },
8940
+ {
8941
+ "epoch": 0.9767709733154156,
8942
+ "grad_norm": 1.5406841039657593,
8943
+ "learning_rate": 2.8352460816986057e-07,
8944
+ "loss": 1.0827,
8945
+ "step": 1272
8946
+ },
8947
+ {
8948
+ "epoch": 0.977538875023997,
8949
+ "grad_norm": 1.1407910585403442,
8950
+ "learning_rate": 2.6553569784152357e-07,
8951
+ "loss": 0.8456,
8952
+ "step": 1273
8953
+ },
8954
+ {
8955
+ "epoch": 0.9783067767325783,
8956
+ "grad_norm": 1.4787224531173706,
8957
+ "learning_rate": 2.481355603171531e-07,
8958
+ "loss": 1.3375,
8959
+ "step": 1274
8960
+ },
8961
+ {
8962
+ "epoch": 0.9790746784411596,
8963
+ "grad_norm": 1.514699935913086,
8964
+ "learning_rate": 2.3132429831682622e-07,
8965
+ "loss": 1.4017,
8966
+ "step": 1275
8967
+ },
8968
+ {
8969
+ "epoch": 0.9798425801497408,
8970
+ "grad_norm": 1.372117519378662,
8971
+ "learning_rate": 2.1510201108416728e-07,
8972
+ "loss": 1.1619,
8973
+ "step": 1276
8974
+ },
8975
+ {
8976
+ "epoch": 0.9806104818583221,
8977
+ "grad_norm": 1.2351239919662476,
8978
+ "learning_rate": 1.9946879438592636e-07,
8979
+ "loss": 0.945,
8980
+ "step": 1277
8981
+ },
8982
+ {
8983
+ "epoch": 0.9813783835669034,
8984
+ "grad_norm": 1.4396629333496094,
8985
+ "learning_rate": 1.8442474051125757e-07,
8986
+ "loss": 0.9939,
8987
+ "step": 1278
8988
+ },
8989
+ {
8990
+ "epoch": 0.9821462852754848,
8991
+ "grad_norm": 1.9772976636886597,
8992
+ "learning_rate": 1.6996993827129715e-07,
8993
+ "loss": 1.4349,
8994
+ "step": 1279
8995
+ },
8996
+ {
8997
+ "epoch": 0.9829141869840661,
8998
+ "grad_norm": 1.2860651016235352,
8999
+ "learning_rate": 1.561044729985861e-07,
9000
+ "loss": 0.9433,
9001
+ "step": 1280
9002
+ },
9003
+ {
9004
+ "epoch": 0.9836820886926474,
9005
+ "grad_norm": 1.496124505996704,
9006
+ "learning_rate": 1.428284265465596e-07,
9007
+ "loss": 1.2376,
9008
+ "step": 1281
9009
+ },
9010
+ {
9011
+ "epoch": 0.9844499904012286,
9012
+ "grad_norm": 1.2294336557388306,
9013
+ "learning_rate": 1.3014187728906945e-07,
9014
+ "loss": 0.9644,
9015
+ "step": 1282
9016
+ },
9017
+ {
9018
+ "epoch": 0.9852178921098099,
9019
+ "grad_norm": 1.182978630065918,
9020
+ "learning_rate": 1.1804490011995129e-07,
9021
+ "loss": 1.2047,
9022
+ "step": 1283
9023
+ },
9024
+ {
9025
+ "epoch": 0.9859857938183912,
9026
+ "grad_norm": 1.6320767402648926,
9027
+ "learning_rate": 1.0653756645252477e-07,
9028
+ "loss": 1.4767,
9029
+ "step": 1284
9030
+ },
9031
+ {
9032
+ "epoch": 0.9867536955269726,
9033
+ "grad_norm": 1.482164978981018,
9034
+ "learning_rate": 9.561994421924958e-08,
9035
+ "loss": 1.21,
9036
+ "step": 1285
9037
+ },
9038
+ {
9039
+ "epoch": 0.9875215972355539,
9040
+ "grad_norm": 1.3324884176254272,
9041
+ "learning_rate": 8.529209787123682e-08,
9042
+ "loss": 1.0876,
9043
+ "step": 1286
9044
+ },
9045
+ {
9046
+ "epoch": 0.9882894989441352,
9047
+ "grad_norm": 1.530920386314392,
9048
+ "learning_rate": 7.555408837794931e-08,
9049
+ "loss": 1.1581,
9050
+ "step": 1287
9051
+ },
9052
+ {
9053
+ "epoch": 0.9890574006527164,
9054
+ "grad_norm": 1.4899532794952393,
9055
+ "learning_rate": 6.640597322677967e-08,
9056
+ "loss": 1.3396,
9057
+ "step": 1288
9058
+ },
9059
+ {
9060
+ "epoch": 0.9898253023612977,
9061
+ "grad_norm": 1.2358452081680298,
9062
+ "learning_rate": 5.784780642275056e-08,
9063
+ "loss": 1.0957,
9064
+ "step": 1289
9065
+ },
9066
+ {
9067
+ "epoch": 0.990593204069879,
9068
+ "grad_norm": 1.703139305114746,
9069
+ "learning_rate": 4.9879638488159465e-08,
9070
+ "loss": 1.2339,
9071
+ "step": 1290
9072
+ },
9073
+ {
9074
+ "epoch": 0.9913611057784604,
9075
+ "grad_norm": 1.3851401805877686,
9076
+ "learning_rate": 4.2501516462334356e-08,
9077
+ "loss": 1.4007,
9078
+ "step": 1291
9079
+ },
9080
+ {
9081
+ "epoch": 0.9921290074870417,
9082
+ "grad_norm": 1.52871572971344,
9083
+ "learning_rate": 3.5713483901300696e-08,
9084
+ "loss": 1.3904,
9085
+ "step": 1292
9086
+ },
9087
+ {
9088
+ "epoch": 0.992896909195623,
9089
+ "grad_norm": 1.9627262353897095,
9090
+ "learning_rate": 2.9515580877559346e-08,
9091
+ "loss": 1.2959,
9092
+ "step": 1293
9093
+ },
9094
+ {
9095
+ "epoch": 0.9936648109042042,
9096
+ "grad_norm": 2.1106338500976562,
9097
+ "learning_rate": 2.3907843979831257e-08,
9098
+ "loss": 1.7045,
9099
+ "step": 1294
9100
+ },
9101
+ {
9102
+ "epoch": 0.9944327126127855,
9103
+ "grad_norm": 1.3870468139648438,
9104
+ "learning_rate": 1.8890306312846495e-08,
9105
+ "loss": 1.2606,
9106
+ "step": 1295
9107
+ },
9108
+ {
9109
+ "epoch": 0.9952006143213669,
9110
+ "grad_norm": 1.4199986457824707,
9111
+ "learning_rate": 1.446299749716662e-08,
9112
+ "loss": 1.3145,
9113
+ "step": 1296
9114
+ },
9115
+ {
9116
+ "epoch": 0.9959685160299482,
9117
+ "grad_norm": 1.398864984512329,
9118
+ "learning_rate": 1.0625943668973736e-08,
9119
+ "loss": 1.3875,
9120
+ "step": 1297
9121
+ },
9122
+ {
9123
+ "epoch": 0.9967364177385295,
9124
+ "grad_norm": 1.4852126836776733,
9125
+ "learning_rate": 7.379167479948379e-09,
9126
+ "loss": 1.1144,
9127
+ "step": 1298
9128
+ },
9129
+ {
9130
+ "epoch": 0.9975043194471108,
9131
+ "grad_norm": 1.3623526096343994,
9132
+ "learning_rate": 4.722688097125172e-09,
9133
+ "loss": 1.3668,
9134
+ "step": 1299
9135
+ },
9136
+ {
9137
+ "epoch": 0.998272221155692,
9138
+ "grad_norm": 1.426559329032898,
9139
+ "learning_rate": 2.656521202770712e-09,
9140
+ "loss": 1.2487,
9141
+ "step": 1300
9142
+ },
9143
+ {
9144
+ "epoch": 0.9990401228642733,
9145
+ "grad_norm": 1.8108794689178467,
9146
+ "learning_rate": 1.1806789942947484e-09,
9147
+ "loss": 1.5596,
9148
+ "step": 1301
9149
+ },
9150
+ {
9151
+ "epoch": 0.9998080245728547,
9152
+ "grad_norm": 1.4854652881622314,
9153
+ "learning_rate": 2.9517018420577305e-10,
9154
+ "loss": 1.0427,
9155
+ "step": 1302
9156
+ },
9157
+ {
9158
+ "epoch": 1.000575926281436,
9159
+ "grad_norm": 2.9019205570220947,
9160
+ "learning_rate": 0.0,
9161
+ "loss": 2.1779,
9162
+ "step": 1303
9163
  }
9164
  ],
9165
  "logging_steps": 1,
 
9174
  "should_evaluate": false,
9175
  "should_log": false,
9176
  "should_save": true,
9177
+ "should_training_stop": true
9178
  },
9179
  "attributes": {}
9180
  }
9181
  },
9182
+ "total_flos": 2.5981287804174336e+17,
9183
  "train_batch_size": 2,
9184
  "trial_name": null,
9185
  "trial_params": null