eageringdev commited on
Commit
23acb6b
·
verified ·
1 Parent(s): ad4c4a0

Training in progress, step 1312, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a71c9c8fbb9b66f04fc71c3e7ab29a92982b75241d3df3b0091a5d3e292231dd
3
  size 5327496
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8154f422c806e03cfbaa960ceae5cb57305b7a91cd33712440268468179c6e7d
3
  size 5327496
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:9d54cdc44f88018d0817e1d837edd27ef61c659c8f5dc650f0d1b50f327a68b4
3
  size 2857850
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0da9173aa2b1588c0646b562c824b5b7c358046890288caa386b54efdc0b3688
3
  size 2857850
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:8beee7e2810917bc7eb070569f54bf91b0f77bb9dcf219b3da1632c3b93f53be
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:db8ae9be8cf8744709ff35d36b7b7c1157f26ed4a20388d517ead00ad8f57cbe
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e40179335493b8b183b0e2880de54f865b6e42dd03fca33a25b1a7ac981f347b
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7692a22ce4a153f8e1646f4dea36295220df47a3d86a6c0e7c97a15691a7dfa6
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.04704644880590949,
5
  "eval_steps": 328,
6
- "global_step": 984,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -6927,6 +6927,2310 @@
6927
  "eval_samples_per_second": 106.804,
6928
  "eval_steps_per_second": 53.408,
6929
  "step": 984
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6930
  }
6931
  ],
6932
  "logging_steps": 1,
@@ -6941,12 +9245,12 @@
6941
  "should_evaluate": false,
6942
  "should_log": false,
6943
  "should_save": true,
6944
- "should_training_stop": false
6945
  },
6946
  "attributes": {}
6947
  }
6948
  },
6949
- "total_flos": 2088845907591168.0,
6950
  "train_batch_size": 2,
6951
  "trial_name": null,
6952
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.06272859840787932,
5
  "eval_steps": 328,
6
+ "global_step": 1312,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
6927
  "eval_samples_per_second": 106.804,
6928
  "eval_steps_per_second": 53.408,
6929
  "step": 984
6930
+ },
6931
+ {
6932
+ "epoch": 0.047094260237622816,
6933
+ "grad_norm": 7.109315395355225,
6934
+ "learning_rate": 2.954571090182149e-05,
6935
+ "loss": 11.0976,
6936
+ "step": 985
6937
+ },
6938
+ {
6939
+ "epoch": 0.047142071669336136,
6940
+ "grad_norm": 5.694741249084473,
6941
+ "learning_rate": 2.9374682133177546e-05,
6942
+ "loss": 12.443,
6943
+ "step": 986
6944
+ },
6945
+ {
6946
+ "epoch": 0.04718988310104946,
6947
+ "grad_norm": 7.9805097579956055,
6948
+ "learning_rate": 2.920406455021385e-05,
6949
+ "loss": 11.8897,
6950
+ "step": 987
6951
+ },
6952
+ {
6953
+ "epoch": 0.04723769453276278,
6954
+ "grad_norm": 7.192514419555664,
6955
+ "learning_rate": 2.9033859146278197e-05,
6956
+ "loss": 13.6973,
6957
+ "step": 988
6958
+ },
6959
+ {
6960
+ "epoch": 0.04728550596447611,
6961
+ "grad_norm": 6.8400959968566895,
6962
+ "learning_rate": 2.88640669123187e-05,
6963
+ "loss": 11.4047,
6964
+ "step": 989
6965
+ },
6966
+ {
6967
+ "epoch": 0.04733331739618943,
6968
+ "grad_norm": 7.250961780548096,
6969
+ "learning_rate": 2.869468883687798e-05,
6970
+ "loss": 14.0175,
6971
+ "step": 990
6972
+ },
6973
+ {
6974
+ "epoch": 0.047381128827902755,
6975
+ "grad_norm": 6.001102924346924,
6976
+ "learning_rate": 2.852572590608735e-05,
6977
+ "loss": 9.9436,
6978
+ "step": 991
6979
+ },
6980
+ {
6981
+ "epoch": 0.047428940259616074,
6982
+ "grad_norm": 7.87460994720459,
6983
+ "learning_rate": 2.835717910366117e-05,
6984
+ "loss": 10.5558,
6985
+ "step": 992
6986
+ },
6987
+ {
6988
+ "epoch": 0.047476751691329394,
6989
+ "grad_norm": 6.603124141693115,
6990
+ "learning_rate": 2.8189049410891032e-05,
6991
+ "loss": 10.5087,
6992
+ "step": 993
6993
+ },
6994
+ {
6995
+ "epoch": 0.04752456312304272,
6996
+ "grad_norm": 7.176062107086182,
6997
+ "learning_rate": 2.8021337806640135e-05,
6998
+ "loss": 10.9031,
6999
+ "step": 994
7000
+ },
7001
+ {
7002
+ "epoch": 0.04757237455475604,
7003
+ "grad_norm": 8.618760108947754,
7004
+ "learning_rate": 2.7854045267337436e-05,
7005
+ "loss": 12.6463,
7006
+ "step": 995
7007
+ },
7008
+ {
7009
+ "epoch": 0.04762018598646937,
7010
+ "grad_norm": 5.61967134475708,
7011
+ "learning_rate": 2.768717276697217e-05,
7012
+ "loss": 10.0929,
7013
+ "step": 996
7014
+ },
7015
+ {
7016
+ "epoch": 0.04766799741818269,
7017
+ "grad_norm": 5.709712028503418,
7018
+ "learning_rate": 2.7520721277088024e-05,
7019
+ "loss": 11.1073,
7020
+ "step": 997
7021
+ },
7022
+ {
7023
+ "epoch": 0.04771580884989601,
7024
+ "grad_norm": 7.481429576873779,
7025
+ "learning_rate": 2.735469176677755e-05,
7026
+ "loss": 12.3471,
7027
+ "step": 998
7028
+ },
7029
+ {
7030
+ "epoch": 0.04776362028160933,
7031
+ "grad_norm": 6.881556987762451,
7032
+ "learning_rate": 2.718908520267649e-05,
7033
+ "loss": 10.5751,
7034
+ "step": 999
7035
+ },
7036
+ {
7037
+ "epoch": 0.04781143171332265,
7038
+ "grad_norm": 7.028878688812256,
7039
+ "learning_rate": 2.702390254895819e-05,
7040
+ "loss": 10.0113,
7041
+ "step": 1000
7042
+ },
7043
+ {
7044
+ "epoch": 0.04785924314503598,
7045
+ "grad_norm": 6.605225086212158,
7046
+ "learning_rate": 2.685914476732794e-05,
7047
+ "loss": 12.4407,
7048
+ "step": 1001
7049
+ },
7050
+ {
7051
+ "epoch": 0.0479070545767493,
7052
+ "grad_norm": 7.520063877105713,
7053
+ "learning_rate": 2.669481281701739e-05,
7054
+ "loss": 10.8321,
7055
+ "step": 1002
7056
+ },
7057
+ {
7058
+ "epoch": 0.047954866008462625,
7059
+ "grad_norm": 6.562614440917969,
7060
+ "learning_rate": 2.6530907654778958e-05,
7061
+ "loss": 11.7903,
7062
+ "step": 1003
7063
+ },
7064
+ {
7065
+ "epoch": 0.048002677440175945,
7066
+ "grad_norm": 8.194293022155762,
7067
+ "learning_rate": 2.6367430234880284e-05,
7068
+ "loss": 11.2306,
7069
+ "step": 1004
7070
+ },
7071
+ {
7072
+ "epoch": 0.04805048887188927,
7073
+ "grad_norm": 6.811942100524902,
7074
+ "learning_rate": 2.6204381509098684e-05,
7075
+ "loss": 10.7551,
7076
+ "step": 1005
7077
+ },
7078
+ {
7079
+ "epoch": 0.04809830030360259,
7080
+ "grad_norm": 6.931473255157471,
7081
+ "learning_rate": 2.6041762426715566e-05,
7082
+ "loss": 12.1181,
7083
+ "step": 1006
7084
+ },
7085
+ {
7086
+ "epoch": 0.04814611173531591,
7087
+ "grad_norm": 6.276373386383057,
7088
+ "learning_rate": 2.5879573934510913e-05,
7089
+ "loss": 12.2452,
7090
+ "step": 1007
7091
+ },
7092
+ {
7093
+ "epoch": 0.04819392316702924,
7094
+ "grad_norm": 7.315033912658691,
7095
+ "learning_rate": 2.57178169767578e-05,
7096
+ "loss": 11.5262,
7097
+ "step": 1008
7098
+ },
7099
+ {
7100
+ "epoch": 0.04824173459874256,
7101
+ "grad_norm": 7.419189453125,
7102
+ "learning_rate": 2.5556492495216867e-05,
7103
+ "loss": 13.3119,
7104
+ "step": 1009
7105
+ },
7106
+ {
7107
+ "epoch": 0.048289546030455884,
7108
+ "grad_norm": 6.809630393981934,
7109
+ "learning_rate": 2.5395601429130876e-05,
7110
+ "loss": 13.1221,
7111
+ "step": 1010
7112
+ },
7113
+ {
7114
+ "epoch": 0.0483373574621692,
7115
+ "grad_norm": 6.1475419998168945,
7116
+ "learning_rate": 2.523514471521913e-05,
7117
+ "loss": 11.0054,
7118
+ "step": 1011
7119
+ },
7120
+ {
7121
+ "epoch": 0.04838516889388253,
7122
+ "grad_norm": 8.833901405334473,
7123
+ "learning_rate": 2.5075123287672175e-05,
7124
+ "loss": 13.8518,
7125
+ "step": 1012
7126
+ },
7127
+ {
7128
+ "epoch": 0.04843298032559585,
7129
+ "grad_norm": 6.803923606872559,
7130
+ "learning_rate": 2.4915538078146294e-05,
7131
+ "loss": 9.5813,
7132
+ "step": 1013
7133
+ },
7134
+ {
7135
+ "epoch": 0.048480791757309176,
7136
+ "grad_norm": 6.928596019744873,
7137
+ "learning_rate": 2.4756390015758037e-05,
7138
+ "loss": 13.0504,
7139
+ "step": 1014
7140
+ },
7141
+ {
7142
+ "epoch": 0.048528603189022496,
7143
+ "grad_norm": 6.18769645690918,
7144
+ "learning_rate": 2.4597680027078873e-05,
7145
+ "loss": 10.7243,
7146
+ "step": 1015
7147
+ },
7148
+ {
7149
+ "epoch": 0.048576414620735815,
7150
+ "grad_norm": 7.228739261627197,
7151
+ "learning_rate": 2.443940903612978e-05,
7152
+ "loss": 12.2092,
7153
+ "step": 1016
7154
+ },
7155
+ {
7156
+ "epoch": 0.04862422605244914,
7157
+ "grad_norm": 6.727472305297852,
7158
+ "learning_rate": 2.4281577964375845e-05,
7159
+ "loss": 11.2015,
7160
+ "step": 1017
7161
+ },
7162
+ {
7163
+ "epoch": 0.04867203748416246,
7164
+ "grad_norm": 6.819626331329346,
7165
+ "learning_rate": 2.4124187730720917e-05,
7166
+ "loss": 11.4536,
7167
+ "step": 1018
7168
+ },
7169
+ {
7170
+ "epoch": 0.04871984891587579,
7171
+ "grad_norm": 8.001144409179688,
7172
+ "learning_rate": 2.396723925150225e-05,
7173
+ "loss": 13.981,
7174
+ "step": 1019
7175
+ },
7176
+ {
7177
+ "epoch": 0.04876766034758911,
7178
+ "grad_norm": 6.684787750244141,
7179
+ "learning_rate": 2.381073344048519e-05,
7180
+ "loss": 10.4641,
7181
+ "step": 1020
7182
+ },
7183
+ {
7184
+ "epoch": 0.048815471779302434,
7185
+ "grad_norm": 6.8459086418151855,
7186
+ "learning_rate": 2.3654671208857826e-05,
7187
+ "loss": 10.3555,
7188
+ "step": 1021
7189
+ },
7190
+ {
7191
+ "epoch": 0.048863283211015754,
7192
+ "grad_norm": 6.782165050506592,
7193
+ "learning_rate": 2.3499053465225685e-05,
7194
+ "loss": 10.8759,
7195
+ "step": 1022
7196
+ },
7197
+ {
7198
+ "epoch": 0.048911094642729074,
7199
+ "grad_norm": 8.837566375732422,
7200
+ "learning_rate": 2.334388111560647e-05,
7201
+ "loss": 12.8346,
7202
+ "step": 1023
7203
+ },
7204
+ {
7205
+ "epoch": 0.0489589060744424,
7206
+ "grad_norm": 5.899895191192627,
7207
+ "learning_rate": 2.3189155063424782e-05,
7208
+ "loss": 10.5408,
7209
+ "step": 1024
7210
+ },
7211
+ {
7212
+ "epoch": 0.04900671750615572,
7213
+ "grad_norm": 6.8309760093688965,
7214
+ "learning_rate": 2.3034876209506772e-05,
7215
+ "loss": 11.2973,
7216
+ "step": 1025
7217
+ },
7218
+ {
7219
+ "epoch": 0.049054528937869046,
7220
+ "grad_norm": 6.9437055587768555,
7221
+ "learning_rate": 2.2881045452075067e-05,
7222
+ "loss": 11.7396,
7223
+ "step": 1026
7224
+ },
7225
+ {
7226
+ "epoch": 0.049102340369582366,
7227
+ "grad_norm": 7.168252468109131,
7228
+ "learning_rate": 2.2727663686743385e-05,
7229
+ "loss": 10.8321,
7230
+ "step": 1027
7231
+ },
7232
+ {
7233
+ "epoch": 0.04915015180129569,
7234
+ "grad_norm": 7.503252983093262,
7235
+ "learning_rate": 2.2574731806511397e-05,
7236
+ "loss": 11.1285,
7237
+ "step": 1028
7238
+ },
7239
+ {
7240
+ "epoch": 0.04919796323300901,
7241
+ "grad_norm": 6.952978134155273,
7242
+ "learning_rate": 2.2422250701759506e-05,
7243
+ "loss": 10.7459,
7244
+ "step": 1029
7245
+ },
7246
+ {
7247
+ "epoch": 0.04924577466472233,
7248
+ "grad_norm": 6.832451820373535,
7249
+ "learning_rate": 2.2270221260243673e-05,
7250
+ "loss": 10.5416,
7251
+ "step": 1030
7252
+ },
7253
+ {
7254
+ "epoch": 0.04929358609643566,
7255
+ "grad_norm": 6.886053562164307,
7256
+ "learning_rate": 2.211864436709028e-05,
7257
+ "loss": 12.82,
7258
+ "step": 1031
7259
+ },
7260
+ {
7261
+ "epoch": 0.04934139752814898,
7262
+ "grad_norm": 6.735972881317139,
7263
+ "learning_rate": 2.1967520904790827e-05,
7264
+ "loss": 12.3402,
7265
+ "step": 1032
7266
+ },
7267
+ {
7268
+ "epoch": 0.049389208959862305,
7269
+ "grad_norm": 7.045289993286133,
7270
+ "learning_rate": 2.181685175319702e-05,
7271
+ "loss": 9.2852,
7272
+ "step": 1033
7273
+ },
7274
+ {
7275
+ "epoch": 0.049437020391575624,
7276
+ "grad_norm": 7.346778392791748,
7277
+ "learning_rate": 2.1666637789515498e-05,
7278
+ "loss": 12.6252,
7279
+ "step": 1034
7280
+ },
7281
+ {
7282
+ "epoch": 0.04948483182328895,
7283
+ "grad_norm": 7.470715522766113,
7284
+ "learning_rate": 2.1516879888302764e-05,
7285
+ "loss": 9.5202,
7286
+ "step": 1035
7287
+ },
7288
+ {
7289
+ "epoch": 0.04953264325500227,
7290
+ "grad_norm": 7.316771507263184,
7291
+ "learning_rate": 2.1367578921460074e-05,
7292
+ "loss": 10.0187,
7293
+ "step": 1036
7294
+ },
7295
+ {
7296
+ "epoch": 0.0495804546867156,
7297
+ "grad_norm": 6.675178527832031,
7298
+ "learning_rate": 2.1218735758228403e-05,
7299
+ "loss": 12.6647,
7300
+ "step": 1037
7301
+ },
7302
+ {
7303
+ "epoch": 0.04962826611842892,
7304
+ "grad_norm": 10.01680850982666,
7305
+ "learning_rate": 2.1070351265183386e-05,
7306
+ "loss": 12.8561,
7307
+ "step": 1038
7308
+ },
7309
+ {
7310
+ "epoch": 0.049676077550142236,
7311
+ "grad_norm": 6.511804103851318,
7312
+ "learning_rate": 2.092242630623016e-05,
7313
+ "loss": 10.6495,
7314
+ "step": 1039
7315
+ },
7316
+ {
7317
+ "epoch": 0.04972388898185556,
7318
+ "grad_norm": 6.2225871086120605,
7319
+ "learning_rate": 2.0774961742598488e-05,
7320
+ "loss": 10.7088,
7321
+ "step": 1040
7322
+ },
7323
+ {
7324
+ "epoch": 0.04977170041356888,
7325
+ "grad_norm": 7.0774970054626465,
7326
+ "learning_rate": 2.062795843283768e-05,
7327
+ "loss": 11.7864,
7328
+ "step": 1041
7329
+ },
7330
+ {
7331
+ "epoch": 0.04981951184528221,
7332
+ "grad_norm": 6.972522258758545,
7333
+ "learning_rate": 2.0481417232811573e-05,
7334
+ "loss": 10.9509,
7335
+ "step": 1042
7336
+ },
7337
+ {
7338
+ "epoch": 0.04986732327699553,
7339
+ "grad_norm": 8.037018775939941,
7340
+ "learning_rate": 2.0335338995693564e-05,
7341
+ "loss": 12.8436,
7342
+ "step": 1043
7343
+ },
7344
+ {
7345
+ "epoch": 0.049915134708708855,
7346
+ "grad_norm": 7.327417373657227,
7347
+ "learning_rate": 2.0189724571961677e-05,
7348
+ "loss": 11.537,
7349
+ "step": 1044
7350
+ },
7351
+ {
7352
+ "epoch": 0.049962946140422175,
7353
+ "grad_norm": 7.174251079559326,
7354
+ "learning_rate": 2.0044574809393547e-05,
7355
+ "loss": 9.8398,
7356
+ "step": 1045
7357
+ },
7358
+ {
7359
+ "epoch": 0.050010757572135495,
7360
+ "grad_norm": 6.9801716804504395,
7361
+ "learning_rate": 1.9899890553061562e-05,
7362
+ "loss": 11.7782,
7363
+ "step": 1046
7364
+ },
7365
+ {
7366
+ "epoch": 0.05005856900384882,
7367
+ "grad_norm": 7.83244514465332,
7368
+ "learning_rate": 1.9755672645327804e-05,
7369
+ "loss": 11.4249,
7370
+ "step": 1047
7371
+ },
7372
+ {
7373
+ "epoch": 0.05010638043556214,
7374
+ "grad_norm": 6.077456474304199,
7375
+ "learning_rate": 1.961192192583934e-05,
7376
+ "loss": 10.2965,
7377
+ "step": 1048
7378
+ },
7379
+ {
7380
+ "epoch": 0.05015419186727547,
7381
+ "grad_norm": 6.794162273406982,
7382
+ "learning_rate": 1.94686392315232e-05,
7383
+ "loss": 10.2771,
7384
+ "step": 1049
7385
+ },
7386
+ {
7387
+ "epoch": 0.05020200329898879,
7388
+ "grad_norm": 9.769984245300293,
7389
+ "learning_rate": 1.9325825396581543e-05,
7390
+ "loss": 14.9416,
7391
+ "step": 1050
7392
+ },
7393
+ {
7394
+ "epoch": 0.050249814730702114,
7395
+ "grad_norm": 6.598973751068115,
7396
+ "learning_rate": 1.9183481252486767e-05,
7397
+ "loss": 10.7436,
7398
+ "step": 1051
7399
+ },
7400
+ {
7401
+ "epoch": 0.05029762616241543,
7402
+ "grad_norm": 8.009735107421875,
7403
+ "learning_rate": 1.9041607627976732e-05,
7404
+ "loss": 14.2835,
7405
+ "step": 1052
7406
+ },
7407
+ {
7408
+ "epoch": 0.05034543759412875,
7409
+ "grad_norm": 6.3866167068481445,
7410
+ "learning_rate": 1.8900205349049904e-05,
7411
+ "loss": 9.5854,
7412
+ "step": 1053
7413
+ },
7414
+ {
7415
+ "epoch": 0.05039324902584208,
7416
+ "grad_norm": 6.82936954498291,
7417
+ "learning_rate": 1.8759275238960473e-05,
7418
+ "loss": 12.8392,
7419
+ "step": 1054
7420
+ },
7421
+ {
7422
+ "epoch": 0.0504410604575554,
7423
+ "grad_norm": 8.580596923828125,
7424
+ "learning_rate": 1.8618818118213698e-05,
7425
+ "loss": 10.9765,
7426
+ "step": 1055
7427
+ },
7428
+ {
7429
+ "epoch": 0.050488871889268726,
7430
+ "grad_norm": 7.819889068603516,
7431
+ "learning_rate": 1.847883480456104e-05,
7432
+ "loss": 13.7809,
7433
+ "step": 1056
7434
+ },
7435
+ {
7436
+ "epoch": 0.050536683320982045,
7437
+ "grad_norm": 7.687258720397949,
7438
+ "learning_rate": 1.8339326112995425e-05,
7439
+ "loss": 11.0958,
7440
+ "step": 1057
7441
+ },
7442
+ {
7443
+ "epoch": 0.05058449475269537,
7444
+ "grad_norm": 8.695372581481934,
7445
+ "learning_rate": 1.820029285574647e-05,
7446
+ "loss": 16.2532,
7447
+ "step": 1058
7448
+ },
7449
+ {
7450
+ "epoch": 0.05063230618440869,
7451
+ "grad_norm": 6.339588165283203,
7452
+ "learning_rate": 1.806173584227583e-05,
7453
+ "loss": 11.2791,
7454
+ "step": 1059
7455
+ },
7456
+ {
7457
+ "epoch": 0.05068011761612202,
7458
+ "grad_norm": 6.770627975463867,
7459
+ "learning_rate": 1.7923655879272393e-05,
7460
+ "loss": 11.3009,
7461
+ "step": 1060
7462
+ },
7463
+ {
7464
+ "epoch": 0.05072792904783534,
7465
+ "grad_norm": 6.357767105102539,
7466
+ "learning_rate": 1.7786053770647615e-05,
7467
+ "loss": 11.1885,
7468
+ "step": 1061
7469
+ },
7470
+ {
7471
+ "epoch": 0.05077574047954866,
7472
+ "grad_norm": 7.122130870819092,
7473
+ "learning_rate": 1.7648930317530865e-05,
7474
+ "loss": 9.7104,
7475
+ "step": 1062
7476
+ },
7477
+ {
7478
+ "epoch": 0.050823551911261984,
7479
+ "grad_norm": 6.65751314163208,
7480
+ "learning_rate": 1.751228631826478e-05,
7481
+ "loss": 11.9357,
7482
+ "step": 1063
7483
+ },
7484
+ {
7485
+ "epoch": 0.050871363342975304,
7486
+ "grad_norm": 7.130817413330078,
7487
+ "learning_rate": 1.7376122568400532e-05,
7488
+ "loss": 14.0172,
7489
+ "step": 1064
7490
+ },
7491
+ {
7492
+ "epoch": 0.05091917477468863,
7493
+ "grad_norm": 7.422727108001709,
7494
+ "learning_rate": 1.724043986069327e-05,
7495
+ "loss": 11.0116,
7496
+ "step": 1065
7497
+ },
7498
+ {
7499
+ "epoch": 0.05096698620640195,
7500
+ "grad_norm": 7.368555545806885,
7501
+ "learning_rate": 1.7105238985097472e-05,
7502
+ "loss": 12.0141,
7503
+ "step": 1066
7504
+ },
7505
+ {
7506
+ "epoch": 0.051014797638115277,
7507
+ "grad_norm": 6.818940162658691,
7508
+ "learning_rate": 1.6970520728762375e-05,
7509
+ "loss": 13.2337,
7510
+ "step": 1067
7511
+ },
7512
+ {
7513
+ "epoch": 0.051062609069828596,
7514
+ "grad_norm": 6.313105583190918,
7515
+ "learning_rate": 1.6836285876027335e-05,
7516
+ "loss": 11.0838,
7517
+ "step": 1068
7518
+ },
7519
+ {
7520
+ "epoch": 0.051110420501541916,
7521
+ "grad_norm": 7.8725056648254395,
7522
+ "learning_rate": 1.6702535208417346e-05,
7523
+ "loss": 12.5174,
7524
+ "step": 1069
7525
+ },
7526
+ {
7527
+ "epoch": 0.05115823193325524,
7528
+ "grad_norm": 7.930119514465332,
7529
+ "learning_rate": 1.6569269504638397e-05,
7530
+ "loss": 11.488,
7531
+ "step": 1070
7532
+ },
7533
+ {
7534
+ "epoch": 0.05120604336496856,
7535
+ "grad_norm": 6.53126335144043,
7536
+ "learning_rate": 1.6436489540572996e-05,
7537
+ "loss": 10.2127,
7538
+ "step": 1071
7539
+ },
7540
+ {
7541
+ "epoch": 0.05125385479668189,
7542
+ "grad_norm": 5.600967884063721,
7543
+ "learning_rate": 1.6304196089275658e-05,
7544
+ "loss": 12.0328,
7545
+ "step": 1072
7546
+ },
7547
+ {
7548
+ "epoch": 0.05130166622839521,
7549
+ "grad_norm": 6.714117050170898,
7550
+ "learning_rate": 1.6172389920968357e-05,
7551
+ "loss": 12.2817,
7552
+ "step": 1073
7553
+ },
7554
+ {
7555
+ "epoch": 0.051349477660108535,
7556
+ "grad_norm": 6.806501388549805,
7557
+ "learning_rate": 1.60410718030361e-05,
7558
+ "loss": 12.2648,
7559
+ "step": 1074
7560
+ },
7561
+ {
7562
+ "epoch": 0.051397289091821854,
7563
+ "grad_norm": 7.509237766265869,
7564
+ "learning_rate": 1.591024250002243e-05,
7565
+ "loss": 12.5679,
7566
+ "step": 1075
7567
+ },
7568
+ {
7569
+ "epoch": 0.051445100523535174,
7570
+ "grad_norm": 7.574392795562744,
7571
+ "learning_rate": 1.577990277362491e-05,
7572
+ "loss": 12.0793,
7573
+ "step": 1076
7574
+ },
7575
+ {
7576
+ "epoch": 0.0514929119552485,
7577
+ "grad_norm": 7.31062126159668,
7578
+ "learning_rate": 1.565005338269082e-05,
7579
+ "loss": 14.0407,
7580
+ "step": 1077
7581
+ },
7582
+ {
7583
+ "epoch": 0.05154072338696182,
7584
+ "grad_norm": 6.899569988250732,
7585
+ "learning_rate": 1.5520695083212678e-05,
7586
+ "loss": 10.8106,
7587
+ "step": 1078
7588
+ },
7589
+ {
7590
+ "epoch": 0.05158853481867515,
7591
+ "grad_norm": 7.219051837921143,
7592
+ "learning_rate": 1.539182862832378e-05,
7593
+ "loss": 13.0134,
7594
+ "step": 1079
7595
+ },
7596
+ {
7597
+ "epoch": 0.05163634625038847,
7598
+ "grad_norm": 7.442750453948975,
7599
+ "learning_rate": 1.5263454768293904e-05,
7600
+ "loss": 11.3706,
7601
+ "step": 1080
7602
+ },
7603
+ {
7604
+ "epoch": 0.05168415768210179,
7605
+ "grad_norm": 6.3968329429626465,
7606
+ "learning_rate": 1.5135574250524897e-05,
7607
+ "loss": 10.042,
7608
+ "step": 1081
7609
+ },
7610
+ {
7611
+ "epoch": 0.05173196911381511,
7612
+ "grad_norm": 7.059074401855469,
7613
+ "learning_rate": 1.500818781954635e-05,
7614
+ "loss": 11.7948,
7615
+ "step": 1082
7616
+ },
7617
+ {
7618
+ "epoch": 0.05177978054552843,
7619
+ "grad_norm": 7.279366493225098,
7620
+ "learning_rate": 1.4881296217011198e-05,
7621
+ "loss": 10.2265,
7622
+ "step": 1083
7623
+ },
7624
+ {
7625
+ "epoch": 0.05182759197724176,
7626
+ "grad_norm": 7.711565971374512,
7627
+ "learning_rate": 1.4754900181691467e-05,
7628
+ "loss": 12.3845,
7629
+ "step": 1084
7630
+ },
7631
+ {
7632
+ "epoch": 0.05187540340895508,
7633
+ "grad_norm": 7.382181644439697,
7634
+ "learning_rate": 1.4629000449474007e-05,
7635
+ "loss": 9.8954,
7636
+ "step": 1085
7637
+ },
7638
+ {
7639
+ "epoch": 0.051923214840668405,
7640
+ "grad_norm": 7.441666126251221,
7641
+ "learning_rate": 1.450359775335608e-05,
7642
+ "loss": 12.4277,
7643
+ "step": 1086
7644
+ },
7645
+ {
7646
+ "epoch": 0.051971026272381725,
7647
+ "grad_norm": 7.462728977203369,
7648
+ "learning_rate": 1.437869282344121e-05,
7649
+ "loss": 13.3137,
7650
+ "step": 1087
7651
+ },
7652
+ {
7653
+ "epoch": 0.05201883770409505,
7654
+ "grad_norm": 6.264698505401611,
7655
+ "learning_rate": 1.425428638693489e-05,
7656
+ "loss": 7.785,
7657
+ "step": 1088
7658
+ },
7659
+ {
7660
+ "epoch": 0.05206664913580837,
7661
+ "grad_norm": 6.829832077026367,
7662
+ "learning_rate": 1.4130379168140362e-05,
7663
+ "loss": 9.5492,
7664
+ "step": 1089
7665
+ },
7666
+ {
7667
+ "epoch": 0.0521144605675217,
7668
+ "grad_norm": 8.121318817138672,
7669
+ "learning_rate": 1.4006971888454323e-05,
7670
+ "loss": 11.7454,
7671
+ "step": 1090
7672
+ },
7673
+ {
7674
+ "epoch": 0.05216227199923502,
7675
+ "grad_norm": 5.979797840118408,
7676
+ "learning_rate": 1.3884065266362845e-05,
7677
+ "loss": 9.4902,
7678
+ "step": 1091
7679
+ },
7680
+ {
7681
+ "epoch": 0.05221008343094834,
7682
+ "grad_norm": 6.876123428344727,
7683
+ "learning_rate": 1.3761660017437128e-05,
7684
+ "loss": 12.9726,
7685
+ "step": 1092
7686
+ },
7687
+ {
7688
+ "epoch": 0.052257894862661664,
7689
+ "grad_norm": 6.709342956542969,
7690
+ "learning_rate": 1.3639756854329334e-05,
7691
+ "loss": 12.6137,
7692
+ "step": 1093
7693
+ },
7694
+ {
7695
+ "epoch": 0.05230570629437498,
7696
+ "grad_norm": 6.490479469299316,
7697
+ "learning_rate": 1.3518356486768446e-05,
7698
+ "loss": 11.4913,
7699
+ "step": 1094
7700
+ },
7701
+ {
7702
+ "epoch": 0.05235351772608831,
7703
+ "grad_norm": 8.935108184814453,
7704
+ "learning_rate": 1.339745962155613e-05,
7705
+ "loss": 13.1655,
7706
+ "step": 1095
7707
+ },
7708
+ {
7709
+ "epoch": 0.05240132915780163,
7710
+ "grad_norm": 6.405674934387207,
7711
+ "learning_rate": 1.3277066962562645e-05,
7712
+ "loss": 13.5308,
7713
+ "step": 1096
7714
+ },
7715
+ {
7716
+ "epoch": 0.052449140589514956,
7717
+ "grad_norm": 7.632229328155518,
7718
+ "learning_rate": 1.3157179210722715e-05,
7719
+ "loss": 11.0844,
7720
+ "step": 1097
7721
+ },
7722
+ {
7723
+ "epoch": 0.052496952021228276,
7724
+ "grad_norm": 7.769608497619629,
7725
+ "learning_rate": 1.3037797064031421e-05,
7726
+ "loss": 11.1969,
7727
+ "step": 1098
7728
+ },
7729
+ {
7730
+ "epoch": 0.052544763452941595,
7731
+ "grad_norm": 7.831042289733887,
7732
+ "learning_rate": 1.2918921217540226e-05,
7733
+ "loss": 11.9603,
7734
+ "step": 1099
7735
+ },
7736
+ {
7737
+ "epoch": 0.05259257488465492,
7738
+ "grad_norm": 6.1776838302612305,
7739
+ "learning_rate": 1.280055236335287e-05,
7740
+ "loss": 10.3584,
7741
+ "step": 1100
7742
+ },
7743
+ {
7744
+ "epoch": 0.05264038631636824,
7745
+ "grad_norm": 8.177087783813477,
7746
+ "learning_rate": 1.2682691190621309e-05,
7747
+ "loss": 14.1836,
7748
+ "step": 1101
7749
+ },
7750
+ {
7751
+ "epoch": 0.05268819774808157,
7752
+ "grad_norm": 7.492428779602051,
7753
+ "learning_rate": 1.2565338385541792e-05,
7754
+ "loss": 12.9438,
7755
+ "step": 1102
7756
+ },
7757
+ {
7758
+ "epoch": 0.05273600917979489,
7759
+ "grad_norm": 7.132182598114014,
7760
+ "learning_rate": 1.2448494631350783e-05,
7761
+ "loss": 11.3015,
7762
+ "step": 1103
7763
+ },
7764
+ {
7765
+ "epoch": 0.052783820611508214,
7766
+ "grad_norm": 8.338322639465332,
7767
+ "learning_rate": 1.233216060832103e-05,
7768
+ "loss": 13.59,
7769
+ "step": 1104
7770
+ },
7771
+ {
7772
+ "epoch": 0.052831632043221534,
7773
+ "grad_norm": 8.018399238586426,
7774
+ "learning_rate": 1.221633699375756e-05,
7775
+ "loss": 13.9362,
7776
+ "step": 1105
7777
+ },
7778
+ {
7779
+ "epoch": 0.052879443474934854,
7780
+ "grad_norm": 6.557053089141846,
7781
+ "learning_rate": 1.2101024461993805e-05,
7782
+ "loss": 12.7612,
7783
+ "step": 1106
7784
+ },
7785
+ {
7786
+ "epoch": 0.05292725490664818,
7787
+ "grad_norm": 6.3985514640808105,
7788
+ "learning_rate": 1.198622368438761e-05,
7789
+ "loss": 12.1431,
7790
+ "step": 1107
7791
+ },
7792
+ {
7793
+ "epoch": 0.0529750663383615,
7794
+ "grad_norm": 7.745150089263916,
7795
+ "learning_rate": 1.1871935329317363e-05,
7796
+ "loss": 11.0428,
7797
+ "step": 1108
7798
+ },
7799
+ {
7800
+ "epoch": 0.053022877770074826,
7801
+ "grad_norm": 8.713289260864258,
7802
+ "learning_rate": 1.1758160062178093e-05,
7803
+ "loss": 13.541,
7804
+ "step": 1109
7805
+ },
7806
+ {
7807
+ "epoch": 0.053070689201788146,
7808
+ "grad_norm": 6.27971076965332,
7809
+ "learning_rate": 1.1644898545377581e-05,
7810
+ "loss": 10.5678,
7811
+ "step": 1110
7812
+ },
7813
+ {
7814
+ "epoch": 0.05311850063350147,
7815
+ "grad_norm": 7.161699295043945,
7816
+ "learning_rate": 1.153215143833255e-05,
7817
+ "loss": 12.641,
7818
+ "step": 1111
7819
+ },
7820
+ {
7821
+ "epoch": 0.05316631206521479,
7822
+ "grad_norm": 6.462125778198242,
7823
+ "learning_rate": 1.1419919397464718e-05,
7824
+ "loss": 10.5856,
7825
+ "step": 1112
7826
+ },
7827
+ {
7828
+ "epoch": 0.05321412349692812,
7829
+ "grad_norm": 6.3692240715026855,
7830
+ "learning_rate": 1.1308203076197122e-05,
7831
+ "loss": 12.8644,
7832
+ "step": 1113
7833
+ },
7834
+ {
7835
+ "epoch": 0.05326193492864144,
7836
+ "grad_norm": 6.57526159286499,
7837
+ "learning_rate": 1.1197003124950222e-05,
7838
+ "loss": 11.6179,
7839
+ "step": 1114
7840
+ },
7841
+ {
7842
+ "epoch": 0.05330974636035476,
7843
+ "grad_norm": 7.567281723022461,
7844
+ "learning_rate": 1.1086320191138133e-05,
7845
+ "loss": 11.221,
7846
+ "step": 1115
7847
+ },
7848
+ {
7849
+ "epoch": 0.053357557792068085,
7850
+ "grad_norm": 5.894258499145508,
7851
+ "learning_rate": 1.097615491916485e-05,
7852
+ "loss": 10.6669,
7853
+ "step": 1116
7854
+ },
7855
+ {
7856
+ "epoch": 0.053405369223781404,
7857
+ "grad_norm": 7.11670446395874,
7858
+ "learning_rate": 1.0866507950420524e-05,
7859
+ "loss": 11.9137,
7860
+ "step": 1117
7861
+ },
7862
+ {
7863
+ "epoch": 0.05345318065549473,
7864
+ "grad_norm": 6.696661949157715,
7865
+ "learning_rate": 1.0757379923277667e-05,
7866
+ "loss": 11.6216,
7867
+ "step": 1118
7868
+ },
7869
+ {
7870
+ "epoch": 0.05350099208720805,
7871
+ "grad_norm": 7.777387619018555,
7872
+ "learning_rate": 1.0648771473087538e-05,
7873
+ "loss": 15.0296,
7874
+ "step": 1119
7875
+ },
7876
+ {
7877
+ "epoch": 0.05354880351892138,
7878
+ "grad_norm": 7.215236186981201,
7879
+ "learning_rate": 1.0540683232176307e-05,
7880
+ "loss": 11.3117,
7881
+ "step": 1120
7882
+ },
7883
+ {
7884
+ "epoch": 0.0535966149506347,
7885
+ "grad_norm": 7.303989887237549,
7886
+ "learning_rate": 1.0433115829841522e-05,
7887
+ "loss": 9.7025,
7888
+ "step": 1121
7889
+ },
7890
+ {
7891
+ "epoch": 0.053644426382348016,
7892
+ "grad_norm": 6.581008434295654,
7893
+ "learning_rate": 1.0326069892348322e-05,
7894
+ "loss": 12.8498,
7895
+ "step": 1122
7896
+ },
7897
+ {
7898
+ "epoch": 0.05369223781406134,
7899
+ "grad_norm": 5.351386547088623,
7900
+ "learning_rate": 1.0219546042925843e-05,
7901
+ "loss": 9.6386,
7902
+ "step": 1123
7903
+ },
7904
+ {
7905
+ "epoch": 0.05374004924577466,
7906
+ "grad_norm": 7.279900074005127,
7907
+ "learning_rate": 1.0113544901763606e-05,
7908
+ "loss": 11.4363,
7909
+ "step": 1124
7910
+ },
7911
+ {
7912
+ "epoch": 0.05378786067748799,
7913
+ "grad_norm": 6.933126449584961,
7914
+ "learning_rate": 1.0008067086007878e-05,
7915
+ "loss": 9.6372,
7916
+ "step": 1125
7917
+ },
7918
+ {
7919
+ "epoch": 0.05383567210920131,
7920
+ "grad_norm": 6.844083309173584,
7921
+ "learning_rate": 9.903113209758096e-06,
7922
+ "loss": 11.0777,
7923
+ "step": 1126
7924
+ },
7925
+ {
7926
+ "epoch": 0.053883483540914635,
7927
+ "grad_norm": 6.126784801483154,
7928
+ "learning_rate": 9.798683884063264e-06,
7929
+ "loss": 9.2428,
7930
+ "step": 1127
7931
+ },
7932
+ {
7933
+ "epoch": 0.053931294972627955,
7934
+ "grad_norm": 6.594939231872559,
7935
+ "learning_rate": 9.694779716918434e-06,
7936
+ "loss": 11.9669,
7937
+ "step": 1128
7938
+ },
7939
+ {
7940
+ "epoch": 0.053979106404341275,
7941
+ "grad_norm": 6.806014537811279,
7942
+ "learning_rate": 9.59140131326114e-06,
7943
+ "loss": 11.3165,
7944
+ "step": 1129
7945
+ },
7946
+ {
7947
+ "epoch": 0.0540269178360546,
7948
+ "grad_norm": 6.542304515838623,
7949
+ "learning_rate": 9.488549274967872e-06,
7950
+ "loss": 12.3538,
7951
+ "step": 1130
7952
+ },
7953
+ {
7954
+ "epoch": 0.05407472926776792,
7955
+ "grad_norm": 7.642573833465576,
7956
+ "learning_rate": 9.386224200850623e-06,
7957
+ "loss": 12.2293,
7958
+ "step": 1131
7959
+ },
7960
+ {
7961
+ "epoch": 0.05412254069948125,
7962
+ "grad_norm": 7.607949733734131,
7963
+ "learning_rate": 9.284426686653303e-06,
7964
+ "loss": 12.8654,
7965
+ "step": 1132
7966
+ },
7967
+ {
7968
+ "epoch": 0.05417035213119457,
7969
+ "grad_norm": 6.807147979736328,
7970
+ "learning_rate": 9.183157325048397e-06,
7971
+ "loss": 10.16,
7972
+ "step": 1133
7973
+ },
7974
+ {
7975
+ "epoch": 0.054218163562907894,
7976
+ "grad_norm": 7.009206771850586,
7977
+ "learning_rate": 9.082416705633379e-06,
7978
+ "loss": 12.3162,
7979
+ "step": 1134
7980
+ },
7981
+ {
7982
+ "epoch": 0.05426597499462121,
7983
+ "grad_norm": 6.721374034881592,
7984
+ "learning_rate": 8.98220541492738e-06,
7985
+ "loss": 11.8486,
7986
+ "step": 1135
7987
+ },
7988
+ {
7989
+ "epoch": 0.05431378642633454,
7990
+ "grad_norm": 6.294310569763184,
7991
+ "learning_rate": 8.882524036367757e-06,
7992
+ "loss": 9.6196,
7993
+ "step": 1136
7994
+ },
7995
+ {
7996
+ "epoch": 0.05436159785804786,
7997
+ "grad_norm": 7.5386962890625,
7998
+ "learning_rate": 8.783373150306661e-06,
7999
+ "loss": 13.269,
8000
+ "step": 1137
8001
+ },
8002
+ {
8003
+ "epoch": 0.05440940928976118,
8004
+ "grad_norm": 8.121341705322266,
8005
+ "learning_rate": 8.68475333400769e-06,
8006
+ "loss": 16.3141,
8007
+ "step": 1138
8008
+ },
8009
+ {
8010
+ "epoch": 0.054457220721474506,
8011
+ "grad_norm": 7.0010504722595215,
8012
+ "learning_rate": 8.586665161642494e-06,
8013
+ "loss": 11.5196,
8014
+ "step": 1139
8015
+ },
8016
+ {
8017
+ "epoch": 0.054505032153187825,
8018
+ "grad_norm": 8.508298873901367,
8019
+ "learning_rate": 8.489109204287472e-06,
8020
+ "loss": 11.4205,
8021
+ "step": 1140
8022
+ },
8023
+ {
8024
+ "epoch": 0.05455284358490115,
8025
+ "grad_norm": 6.388782024383545,
8026
+ "learning_rate": 8.392086029920443e-06,
8027
+ "loss": 11.5982,
8028
+ "step": 1141
8029
+ },
8030
+ {
8031
+ "epoch": 0.05460065501661447,
8032
+ "grad_norm": 7.11677885055542,
8033
+ "learning_rate": 8.295596203417278e-06,
8034
+ "loss": 10.2629,
8035
+ "step": 1142
8036
+ },
8037
+ {
8038
+ "epoch": 0.0546484664483278,
8039
+ "grad_norm": 6.895127296447754,
8040
+ "learning_rate": 8.199640286548693e-06,
8041
+ "loss": 11.1813,
8042
+ "step": 1143
8043
+ },
8044
+ {
8045
+ "epoch": 0.05469627788004112,
8046
+ "grad_norm": 6.778639793395996,
8047
+ "learning_rate": 8.10421883797694e-06,
8048
+ "loss": 9.8393,
8049
+ "step": 1144
8050
+ },
8051
+ {
8052
+ "epoch": 0.05474408931175444,
8053
+ "grad_norm": 7.860418796539307,
8054
+ "learning_rate": 8.009332413252558e-06,
8055
+ "loss": 11.9863,
8056
+ "step": 1145
8057
+ },
8058
+ {
8059
+ "epoch": 0.054791900743467764,
8060
+ "grad_norm": 7.845333576202393,
8061
+ "learning_rate": 7.914981564811142e-06,
8062
+ "loss": 12.8243,
8063
+ "step": 1146
8064
+ },
8065
+ {
8066
+ "epoch": 0.054839712175181084,
8067
+ "grad_norm": 6.43133020401001,
8068
+ "learning_rate": 7.821166841970107e-06,
8069
+ "loss": 10.4886,
8070
+ "step": 1147
8071
+ },
8072
+ {
8073
+ "epoch": 0.05488752360689441,
8074
+ "grad_norm": 6.970253944396973,
8075
+ "learning_rate": 7.727888790925542e-06,
8076
+ "loss": 11.5634,
8077
+ "step": 1148
8078
+ },
8079
+ {
8080
+ "epoch": 0.05493533503860773,
8081
+ "grad_norm": 7.549833297729492,
8082
+ "learning_rate": 7.635147954748934e-06,
8083
+ "loss": 10.6819,
8084
+ "step": 1149
8085
+ },
8086
+ {
8087
+ "epoch": 0.054983146470321057,
8088
+ "grad_norm": 9.84428596496582,
8089
+ "learning_rate": 7.542944873384106e-06,
8090
+ "loss": 13.0569,
8091
+ "step": 1150
8092
+ },
8093
+ {
8094
+ "epoch": 0.055030957902034376,
8095
+ "grad_norm": 6.6666460037231445,
8096
+ "learning_rate": 7.4512800836440525e-06,
8097
+ "loss": 10.906,
8098
+ "step": 1151
8099
+ },
8100
+ {
8101
+ "epoch": 0.055078769333747696,
8102
+ "grad_norm": 6.872984409332275,
8103
+ "learning_rate": 7.360154119207751e-06,
8104
+ "loss": 9.7305,
8105
+ "step": 1152
8106
+ },
8107
+ {
8108
+ "epoch": 0.05512658076546102,
8109
+ "grad_norm": 8.127420425415039,
8110
+ "learning_rate": 7.269567510617126e-06,
8111
+ "loss": 13.443,
8112
+ "step": 1153
8113
+ },
8114
+ {
8115
+ "epoch": 0.05517439219717434,
8116
+ "grad_norm": 6.642383098602295,
8117
+ "learning_rate": 7.179520785273941e-06,
8118
+ "loss": 10.8743,
8119
+ "step": 1154
8120
+ },
8121
+ {
8122
+ "epoch": 0.05522220362888767,
8123
+ "grad_norm": 6.925289154052734,
8124
+ "learning_rate": 7.0900144674367005e-06,
8125
+ "loss": 11.6619,
8126
+ "step": 1155
8127
+ },
8128
+ {
8129
+ "epoch": 0.05527001506060099,
8130
+ "grad_norm": 6.449171543121338,
8131
+ "learning_rate": 7.0010490782176145e-06,
8132
+ "loss": 12.4408,
8133
+ "step": 1156
8134
+ },
8135
+ {
8136
+ "epoch": 0.055317826492314315,
8137
+ "grad_norm": 7.721719741821289,
8138
+ "learning_rate": 6.9126251355795864e-06,
8139
+ "loss": 12.5158,
8140
+ "step": 1157
8141
+ },
8142
+ {
8143
+ "epoch": 0.055365637924027634,
8144
+ "grad_norm": 7.007317543029785,
8145
+ "learning_rate": 6.824743154333157e-06,
8146
+ "loss": 10.3344,
8147
+ "step": 1158
8148
+ },
8149
+ {
8150
+ "epoch": 0.05541344935574096,
8151
+ "grad_norm": 9.989958763122559,
8152
+ "learning_rate": 6.737403646133567e-06,
8153
+ "loss": 12.409,
8154
+ "step": 1159
8155
+ },
8156
+ {
8157
+ "epoch": 0.05546126078745428,
8158
+ "grad_norm": 6.475602149963379,
8159
+ "learning_rate": 6.650607119477692e-06,
8160
+ "loss": 12.2925,
8161
+ "step": 1160
8162
+ },
8163
+ {
8164
+ "epoch": 0.0555090722191676,
8165
+ "grad_norm": 7.471884250640869,
8166
+ "learning_rate": 6.564354079701163e-06,
8167
+ "loss": 12.3177,
8168
+ "step": 1161
8169
+ },
8170
+ {
8171
+ "epoch": 0.05555688365088093,
8172
+ "grad_norm": 7.412891387939453,
8173
+ "learning_rate": 6.4786450289753715e-06,
8174
+ "loss": 10.5241,
8175
+ "step": 1162
8176
+ },
8177
+ {
8178
+ "epoch": 0.05560469508259425,
8179
+ "grad_norm": 7.155189514160156,
8180
+ "learning_rate": 6.393480466304613e-06,
8181
+ "loss": 11.2839,
8182
+ "step": 1163
8183
+ },
8184
+ {
8185
+ "epoch": 0.05565250651430757,
8186
+ "grad_norm": 6.134313106536865,
8187
+ "learning_rate": 6.30886088752305e-06,
8188
+ "loss": 9.5243,
8189
+ "step": 1164
8190
+ },
8191
+ {
8192
+ "epoch": 0.05570031794602089,
8193
+ "grad_norm": 6.45501184463501,
8194
+ "learning_rate": 6.22478678529197e-06,
8195
+ "loss": 11.4822,
8196
+ "step": 1165
8197
+ },
8198
+ {
8199
+ "epoch": 0.05574812937773422,
8200
+ "grad_norm": 6.3346452713012695,
8201
+ "learning_rate": 6.141258649096837e-06,
8202
+ "loss": 9.9668,
8203
+ "step": 1166
8204
+ },
8205
+ {
8206
+ "epoch": 0.05579594080944754,
8207
+ "grad_norm": 6.544136047363281,
8208
+ "learning_rate": 6.058276965244491e-06,
8209
+ "loss": 13.252,
8210
+ "step": 1167
8211
+ },
8212
+ {
8213
+ "epoch": 0.05584375224116086,
8214
+ "grad_norm": 8.531256675720215,
8215
+ "learning_rate": 5.975842216860239e-06,
8216
+ "loss": 13.8205,
8217
+ "step": 1168
8218
+ },
8219
+ {
8220
+ "epoch": 0.055891563672874185,
8221
+ "grad_norm": 7.049127578735352,
8222
+ "learning_rate": 5.893954883885133e-06,
8223
+ "loss": 10.6642,
8224
+ "step": 1169
8225
+ },
8226
+ {
8227
+ "epoch": 0.055939375104587505,
8228
+ "grad_norm": 6.844118595123291,
8229
+ "learning_rate": 5.812615443073122e-06,
8230
+ "loss": 12.2604,
8231
+ "step": 1170
8232
+ },
8233
+ {
8234
+ "epoch": 0.05598718653630083,
8235
+ "grad_norm": 6.81496524810791,
8236
+ "learning_rate": 5.731824367988259e-06,
8237
+ "loss": 12.3213,
8238
+ "step": 1171
8239
+ },
8240
+ {
8241
+ "epoch": 0.05603499796801415,
8242
+ "grad_norm": 8.04981517791748,
8243
+ "learning_rate": 5.651582129001986e-06,
8244
+ "loss": 9.9006,
8245
+ "step": 1172
8246
+ },
8247
+ {
8248
+ "epoch": 0.05608280939972748,
8249
+ "grad_norm": 6.623665809631348,
8250
+ "learning_rate": 5.571889193290414e-06,
8251
+ "loss": 9.4621,
8252
+ "step": 1173
8253
+ },
8254
+ {
8255
+ "epoch": 0.0561306208314408,
8256
+ "grad_norm": 6.761471271514893,
8257
+ "learning_rate": 5.492746024831541e-06,
8258
+ "loss": 11.1984,
8259
+ "step": 1174
8260
+ },
8261
+ {
8262
+ "epoch": 0.05617843226315412,
8263
+ "grad_norm": 5.669954776763916,
8264
+ "learning_rate": 5.414153084402573e-06,
8265
+ "loss": 11.2231,
8266
+ "step": 1175
8267
+ },
8268
+ {
8269
+ "epoch": 0.056226243694867444,
8270
+ "grad_norm": 7.645977973937988,
8271
+ "learning_rate": 5.336110829577279e-06,
8272
+ "loss": 13.0729,
8273
+ "step": 1176
8274
+ },
8275
+ {
8276
+ "epoch": 0.05627405512658076,
8277
+ "grad_norm": 7.997268199920654,
8278
+ "learning_rate": 5.258619714723278e-06,
8279
+ "loss": 10.0103,
8280
+ "step": 1177
8281
+ },
8282
+ {
8283
+ "epoch": 0.05632186655829409,
8284
+ "grad_norm": 7.1278977394104,
8285
+ "learning_rate": 5.181680190999394e-06,
8286
+ "loss": 12.6017,
8287
+ "step": 1178
8288
+ },
8289
+ {
8290
+ "epoch": 0.05636967799000741,
8291
+ "grad_norm": 6.510688304901123,
8292
+ "learning_rate": 5.105292706353093e-06,
8293
+ "loss": 11.9529,
8294
+ "step": 1179
8295
+ },
8296
+ {
8297
+ "epoch": 0.056417489421720736,
8298
+ "grad_norm": 7.182712554931641,
8299
+ "learning_rate": 5.029457705517793e-06,
8300
+ "loss": 10.1696,
8301
+ "step": 1180
8302
+ },
8303
+ {
8304
+ "epoch": 0.056465300853434056,
8305
+ "grad_norm": 6.3885908126831055,
8306
+ "learning_rate": 4.954175630010316e-06,
8307
+ "loss": 9.6611,
8308
+ "step": 1181
8309
+ },
8310
+ {
8311
+ "epoch": 0.05651311228514738,
8312
+ "grad_norm": 7.285274028778076,
8313
+ "learning_rate": 4.879446918128339e-06,
8314
+ "loss": 11.5422,
8315
+ "step": 1182
8316
+ },
8317
+ {
8318
+ "epoch": 0.0565609237168607,
8319
+ "grad_norm": 6.955239295959473,
8320
+ "learning_rate": 4.805272004947781e-06,
8321
+ "loss": 9.3422,
8322
+ "step": 1183
8323
+ },
8324
+ {
8325
+ "epoch": 0.05660873514857402,
8326
+ "grad_norm": 6.375068664550781,
8327
+ "learning_rate": 4.73165132232034e-06,
8328
+ "loss": 9.9667,
8329
+ "step": 1184
8330
+ },
8331
+ {
8332
+ "epoch": 0.05665654658028735,
8333
+ "grad_norm": 7.190155982971191,
8334
+ "learning_rate": 4.6585852988708985e-06,
8335
+ "loss": 11.2559,
8336
+ "step": 1185
8337
+ },
8338
+ {
8339
+ "epoch": 0.05670435801200067,
8340
+ "grad_norm": 7.193498611450195,
8341
+ "learning_rate": 4.586074359995119e-06,
8342
+ "loss": 10.39,
8343
+ "step": 1186
8344
+ },
8345
+ {
8346
+ "epoch": 0.056752169443713994,
8347
+ "grad_norm": 6.857291221618652,
8348
+ "learning_rate": 4.514118927856892e-06,
8349
+ "loss": 12.3133,
8350
+ "step": 1187
8351
+ },
8352
+ {
8353
+ "epoch": 0.056799980875427314,
8354
+ "grad_norm": 7.048860549926758,
8355
+ "learning_rate": 4.442719421385922e-06,
8356
+ "loss": 12.2941,
8357
+ "step": 1188
8358
+ },
8359
+ {
8360
+ "epoch": 0.05684779230714064,
8361
+ "grad_norm": 7.470992565155029,
8362
+ "learning_rate": 4.371876256275287e-06,
8363
+ "loss": 13.0183,
8364
+ "step": 1189
8365
+ },
8366
+ {
8367
+ "epoch": 0.05689560373885396,
8368
+ "grad_norm": 8.032382011413574,
8369
+ "learning_rate": 4.30158984497896e-06,
8370
+ "loss": 13.0273,
8371
+ "step": 1190
8372
+ },
8373
+ {
8374
+ "epoch": 0.05694341517056728,
8375
+ "grad_norm": 6.280318260192871,
8376
+ "learning_rate": 4.231860596709503e-06,
8377
+ "loss": 11.835,
8378
+ "step": 1191
8379
+ },
8380
+ {
8381
+ "epoch": 0.056991226602280606,
8382
+ "grad_norm": 6.940912246704102,
8383
+ "learning_rate": 4.162688917435631e-06,
8384
+ "loss": 12.0494,
8385
+ "step": 1192
8386
+ },
8387
+ {
8388
+ "epoch": 0.057039038033993926,
8389
+ "grad_norm": 7.232605934143066,
8390
+ "learning_rate": 4.094075209879788e-06,
8391
+ "loss": 12.8787,
8392
+ "step": 1193
8393
+ },
8394
+ {
8395
+ "epoch": 0.05708684946570725,
8396
+ "grad_norm": 7.259566307067871,
8397
+ "learning_rate": 4.026019873515952e-06,
8398
+ "loss": 11.6557,
8399
+ "step": 1194
8400
+ },
8401
+ {
8402
+ "epoch": 0.05713466089742057,
8403
+ "grad_norm": 7.399826526641846,
8404
+ "learning_rate": 3.958523304567174e-06,
8405
+ "loss": 13.6205,
8406
+ "step": 1195
8407
+ },
8408
+ {
8409
+ "epoch": 0.0571824723291339,
8410
+ "grad_norm": 7.567840576171875,
8411
+ "learning_rate": 3.891585896003335e-06,
8412
+ "loss": 13.1901,
8413
+ "step": 1196
8414
+ },
8415
+ {
8416
+ "epoch": 0.05723028376084722,
8417
+ "grad_norm": 6.9567341804504395,
8418
+ "learning_rate": 3.825208037538841e-06,
8419
+ "loss": 12.7935,
8420
+ "step": 1197
8421
+ },
8422
+ {
8423
+ "epoch": 0.05727809519256054,
8424
+ "grad_norm": 7.210753917694092,
8425
+ "learning_rate": 3.7593901156303566e-06,
8426
+ "loss": 10.5421,
8427
+ "step": 1198
8428
+ },
8429
+ {
8430
+ "epoch": 0.057325906624273865,
8431
+ "grad_norm": 7.2676825523376465,
8432
+ "learning_rate": 3.69413251347458e-06,
8433
+ "loss": 10.3655,
8434
+ "step": 1199
8435
+ },
8436
+ {
8437
+ "epoch": 0.057373718055987184,
8438
+ "grad_norm": 6.523344993591309,
8439
+ "learning_rate": 3.6294356110059157e-06,
8440
+ "loss": 11.2613,
8441
+ "step": 1200
8442
+ },
8443
+ {
8444
+ "epoch": 0.05742152948770051,
8445
+ "grad_norm": 9.02381706237793,
8446
+ "learning_rate": 3.565299784894427e-06,
8447
+ "loss": 11.9912,
8448
+ "step": 1201
8449
+ },
8450
+ {
8451
+ "epoch": 0.05746934091941383,
8452
+ "grad_norm": 6.536443710327148,
8453
+ "learning_rate": 3.501725408543477e-06,
8454
+ "loss": 11.7479,
8455
+ "step": 1202
8456
+ },
8457
+ {
8458
+ "epoch": 0.05751715235112716,
8459
+ "grad_norm": 7.091581344604492,
8460
+ "learning_rate": 3.4387128520876775e-06,
8461
+ "loss": 10.0515,
8462
+ "step": 1203
8463
+ },
8464
+ {
8465
+ "epoch": 0.05756496378284048,
8466
+ "grad_norm": 6.528881072998047,
8467
+ "learning_rate": 3.3762624823906573e-06,
8468
+ "loss": 11.7824,
8469
+ "step": 1204
8470
+ },
8471
+ {
8472
+ "epoch": 0.057612775214553796,
8473
+ "grad_norm": 6.467398643493652,
8474
+ "learning_rate": 3.314374663042963e-06,
8475
+ "loss": 10.3721,
8476
+ "step": 1205
8477
+ },
8478
+ {
8479
+ "epoch": 0.05766058664626712,
8480
+ "grad_norm": 10.72854232788086,
8481
+ "learning_rate": 3.253049754359927e-06,
8482
+ "loss": 15.8296,
8483
+ "step": 1206
8484
+ },
8485
+ {
8486
+ "epoch": 0.05770839807798044,
8487
+ "grad_norm": 6.468982696533203,
8488
+ "learning_rate": 3.1922881133795825e-06,
8489
+ "loss": 10.5848,
8490
+ "step": 1207
8491
+ },
8492
+ {
8493
+ "epoch": 0.05775620950969377,
8494
+ "grad_norm": 6.516100883483887,
8495
+ "learning_rate": 3.1320900938605626e-06,
8496
+ "loss": 10.7587,
8497
+ "step": 1208
8498
+ },
8499
+ {
8500
+ "epoch": 0.05780402094140709,
8501
+ "grad_norm": 6.87551212310791,
8502
+ "learning_rate": 3.07245604628007e-06,
8503
+ "loss": 11.3465,
8504
+ "step": 1209
8505
+ },
8506
+ {
8507
+ "epoch": 0.057851832373120415,
8508
+ "grad_norm": 6.65150260925293,
8509
+ "learning_rate": 3.0133863178318232e-06,
8510
+ "loss": 10.4935,
8511
+ "step": 1210
8512
+ },
8513
+ {
8514
+ "epoch": 0.057899643804833735,
8515
+ "grad_norm": 6.728663444519043,
8516
+ "learning_rate": 2.9548812524240353e-06,
8517
+ "loss": 10.9992,
8518
+ "step": 1211
8519
+ },
8520
+ {
8521
+ "epoch": 0.05794745523654706,
8522
+ "grad_norm": 5.60107421875,
8523
+ "learning_rate": 2.8969411906773937e-06,
8524
+ "loss": 9.7708,
8525
+ "step": 1212
8526
+ },
8527
+ {
8528
+ "epoch": 0.05799526666826038,
8529
+ "grad_norm": 6.653834342956543,
8530
+ "learning_rate": 2.839566469923105e-06,
8531
+ "loss": 12.5889,
8532
+ "step": 1213
8533
+ },
8534
+ {
8535
+ "epoch": 0.0580430780999737,
8536
+ "grad_norm": 6.426825046539307,
8537
+ "learning_rate": 2.7827574242009437e-06,
8538
+ "loss": 10.1172,
8539
+ "step": 1214
8540
+ },
8541
+ {
8542
+ "epoch": 0.05809088953168703,
8543
+ "grad_norm": 6.510440349578857,
8544
+ "learning_rate": 2.7265143842572284e-06,
8545
+ "loss": 11.1428,
8546
+ "step": 1215
8547
+ },
8548
+ {
8549
+ "epoch": 0.05813870096340035,
8550
+ "grad_norm": 6.843871593475342,
8551
+ "learning_rate": 2.6708376775430033e-06,
8552
+ "loss": 11.4051,
8553
+ "step": 1216
8554
+ },
8555
+ {
8556
+ "epoch": 0.058186512395113674,
8557
+ "grad_norm": 8.29066276550293,
8558
+ "learning_rate": 2.615727628212039e-06,
8559
+ "loss": 12.0261,
8560
+ "step": 1217
8561
+ },
8562
+ {
8563
+ "epoch": 0.05823432382682699,
8564
+ "grad_norm": 5.986488342285156,
8565
+ "learning_rate": 2.561184557119023e-06,
8566
+ "loss": 12.2707,
8567
+ "step": 1218
8568
+ },
8569
+ {
8570
+ "epoch": 0.05828213525854032,
8571
+ "grad_norm": 6.171065807342529,
8572
+ "learning_rate": 2.5072087818176382e-06,
8573
+ "loss": 7.9814,
8574
+ "step": 1219
8575
+ },
8576
+ {
8577
+ "epoch": 0.05832994669025364,
8578
+ "grad_norm": 7.454899311065674,
8579
+ "learning_rate": 2.4538006165587324e-06,
8580
+ "loss": 13.3756,
8581
+ "step": 1220
8582
+ },
8583
+ {
8584
+ "epoch": 0.05837775812196696,
8585
+ "grad_norm": 7.085451126098633,
8586
+ "learning_rate": 2.4009603722884742e-06,
8587
+ "loss": 13.5912,
8588
+ "step": 1221
8589
+ },
8590
+ {
8591
+ "epoch": 0.058425569553680286,
8592
+ "grad_norm": 7.177112579345703,
8593
+ "learning_rate": 2.3486883566465777e-06,
8594
+ "loss": 13.3228,
8595
+ "step": 1222
8596
+ },
8597
+ {
8598
+ "epoch": 0.058473380985393605,
8599
+ "grad_norm": 6.507716178894043,
8600
+ "learning_rate": 2.2969848739644582e-06,
8601
+ "loss": 10.533,
8602
+ "step": 1223
8603
+ },
8604
+ {
8605
+ "epoch": 0.05852119241710693,
8606
+ "grad_norm": 7.587296009063721,
8607
+ "learning_rate": 2.245850225263524e-06,
8608
+ "loss": 12.835,
8609
+ "step": 1224
8610
+ },
8611
+ {
8612
+ "epoch": 0.05856900384882025,
8613
+ "grad_norm": 8.082344055175781,
8614
+ "learning_rate": 2.195284708253387e-06,
8615
+ "loss": 10.1423,
8616
+ "step": 1225
8617
+ },
8618
+ {
8619
+ "epoch": 0.05861681528053358,
8620
+ "grad_norm": 7.659343719482422,
8621
+ "learning_rate": 2.145288617330099e-06,
8622
+ "loss": 12.5473,
8623
+ "step": 1226
8624
+ },
8625
+ {
8626
+ "epoch": 0.0586646267122469,
8627
+ "grad_norm": 6.5159807205200195,
8628
+ "learning_rate": 2.095862243574531e-06,
8629
+ "loss": 11.7112,
8630
+ "step": 1227
8631
+ },
8632
+ {
8633
+ "epoch": 0.05871243814396022,
8634
+ "grad_norm": 7.886244773864746,
8635
+ "learning_rate": 2.0470058747505516e-06,
8636
+ "loss": 13.4634,
8637
+ "step": 1228
8638
+ },
8639
+ {
8640
+ "epoch": 0.058760249575673544,
8641
+ "grad_norm": 8.021929740905762,
8642
+ "learning_rate": 1.998719795303472e-06,
8643
+ "loss": 13.5485,
8644
+ "step": 1229
8645
+ },
8646
+ {
8647
+ "epoch": 0.058808061007386864,
8648
+ "grad_norm": 7.092513084411621,
8649
+ "learning_rate": 1.951004286358327e-06,
8650
+ "loss": 13.0203,
8651
+ "step": 1230
8652
+ },
8653
+ {
8654
+ "epoch": 0.05885587243910019,
8655
+ "grad_norm": 6.523121356964111,
8656
+ "learning_rate": 1.9038596257182184e-06,
8657
+ "loss": 10.1733,
8658
+ "step": 1231
8659
+ },
8660
+ {
8661
+ "epoch": 0.05890368387081351,
8662
+ "grad_norm": 7.202290058135986,
8663
+ "learning_rate": 1.857286087862775e-06,
8664
+ "loss": 11.7106,
8665
+ "step": 1232
8666
+ },
8667
+ {
8668
+ "epoch": 0.058951495302526837,
8669
+ "grad_norm": 6.51995849609375,
8670
+ "learning_rate": 1.8112839439464736e-06,
8671
+ "loss": 10.0029,
8672
+ "step": 1233
8673
+ },
8674
+ {
8675
+ "epoch": 0.058999306734240156,
8676
+ "grad_norm": 6.796818733215332,
8677
+ "learning_rate": 1.7658534617971067e-06,
8678
+ "loss": 10.7521,
8679
+ "step": 1234
8680
+ },
8681
+ {
8682
+ "epoch": 0.05904711816595348,
8683
+ "grad_norm": 6.953072547912598,
8684
+ "learning_rate": 1.7209949059142083e-06,
8685
+ "loss": 11.2363,
8686
+ "step": 1235
8687
+ },
8688
+ {
8689
+ "epoch": 0.0590949295976668,
8690
+ "grad_norm": 7.390401363372803,
8691
+ "learning_rate": 1.6767085374675085e-06,
8692
+ "loss": 11.4966,
8693
+ "step": 1236
8694
+ },
8695
+ {
8696
+ "epoch": 0.05914274102938012,
8697
+ "grad_norm": 6.77098274230957,
8698
+ "learning_rate": 1.6329946142954356e-06,
8699
+ "loss": 9.9186,
8700
+ "step": 1237
8701
+ },
8702
+ {
8703
+ "epoch": 0.05919055246109345,
8704
+ "grad_norm": 7.101603984832764,
8705
+ "learning_rate": 1.5898533909035952e-06,
8706
+ "loss": 11.5049,
8707
+ "step": 1238
8708
+ },
8709
+ {
8710
+ "epoch": 0.05923836389280677,
8711
+ "grad_norm": 6.689188003540039,
8712
+ "learning_rate": 1.5472851184632931e-06,
8713
+ "loss": 11.6284,
8714
+ "step": 1239
8715
+ },
8716
+ {
8717
+ "epoch": 0.059286175324520095,
8718
+ "grad_norm": 7.310275554656982,
8719
+ "learning_rate": 1.5052900448100815e-06,
8720
+ "loss": 12.954,
8721
+ "step": 1240
8722
+ },
8723
+ {
8724
+ "epoch": 0.059333986756233414,
8725
+ "grad_norm": 7.711053848266602,
8726
+ "learning_rate": 1.4638684144422821e-06,
8727
+ "loss": 12.1924,
8728
+ "step": 1241
8729
+ },
8730
+ {
8731
+ "epoch": 0.05938179818794674,
8732
+ "grad_norm": 7.312699317932129,
8733
+ "learning_rate": 1.4230204685196203e-06,
8734
+ "loss": 13.7446,
8735
+ "step": 1242
8736
+ },
8737
+ {
8738
+ "epoch": 0.05942960961966006,
8739
+ "grad_norm": 6.659768104553223,
8740
+ "learning_rate": 1.3827464448617711e-06,
8741
+ "loss": 13.6394,
8742
+ "step": 1243
8743
+ },
8744
+ {
8745
+ "epoch": 0.05947742105137338,
8746
+ "grad_norm": 7.438172817230225,
8747
+ "learning_rate": 1.3430465779469936e-06,
8748
+ "loss": 12.6777,
8749
+ "step": 1244
8750
+ },
8751
+ {
8752
+ "epoch": 0.05952523248308671,
8753
+ "grad_norm": 6.835502624511719,
8754
+ "learning_rate": 1.3039210989107764e-06,
8755
+ "loss": 10.0316,
8756
+ "step": 1245
8757
+ },
8758
+ {
8759
+ "epoch": 0.05957304391480003,
8760
+ "grad_norm": 6.754507064819336,
8761
+ "learning_rate": 1.2653702355444608e-06,
8762
+ "loss": 10.1478,
8763
+ "step": 1246
8764
+ },
8765
+ {
8766
+ "epoch": 0.05962085534651335,
8767
+ "grad_norm": 7.723879337310791,
8768
+ "learning_rate": 1.2273942122939531e-06,
8769
+ "loss": 12.8445,
8770
+ "step": 1247
8771
+ },
8772
+ {
8773
+ "epoch": 0.05966866677822667,
8774
+ "grad_norm": 6.9790496826171875,
8775
+ "learning_rate": 1.189993250258381e-06,
8776
+ "loss": 13.2241,
8777
+ "step": 1248
8778
+ },
8779
+ {
8780
+ "epoch": 0.05971647820994,
8781
+ "grad_norm": 6.446763038635254,
8782
+ "learning_rate": 1.1531675671888619e-06,
8783
+ "loss": 11.5262,
8784
+ "step": 1249
8785
+ },
8786
+ {
8787
+ "epoch": 0.05976428964165332,
8788
+ "grad_norm": 7.207417964935303,
8789
+ "learning_rate": 1.1169173774871478e-06,
8790
+ "loss": 11.1738,
8791
+ "step": 1250
8792
+ },
8793
+ {
8794
+ "epoch": 0.05981210107336664,
8795
+ "grad_norm": 7.113643169403076,
8796
+ "learning_rate": 1.0812428922044592e-06,
8797
+ "loss": 11.5882,
8798
+ "step": 1251
8799
+ },
8800
+ {
8801
+ "epoch": 0.059859912505079965,
8802
+ "grad_norm": 7.8461689949035645,
8803
+ "learning_rate": 1.0461443190402099e-06,
8804
+ "loss": 13.6024,
8805
+ "step": 1252
8806
+ },
8807
+ {
8808
+ "epoch": 0.059907723936793285,
8809
+ "grad_norm": 6.816285133361816,
8810
+ "learning_rate": 1.011621862340817e-06,
8811
+ "loss": 10.8082,
8812
+ "step": 1253
8813
+ },
8814
+ {
8815
+ "epoch": 0.05995553536850661,
8816
+ "grad_norm": 8.05375862121582,
8817
+ "learning_rate": 9.776757230985145e-07,
8818
+ "loss": 13.7541,
8819
+ "step": 1254
8820
+ },
8821
+ {
8822
+ "epoch": 0.06000334680021993,
8823
+ "grad_norm": 6.277020454406738,
8824
+ "learning_rate": 9.443060989501651e-07,
8825
+ "loss": 12.6768,
8826
+ "step": 1255
8827
+ },
8828
+ {
8829
+ "epoch": 0.06005115823193326,
8830
+ "grad_norm": 6.9199628829956055,
8831
+ "learning_rate": 9.11513184176116e-07,
8832
+ "loss": 10.5309,
8833
+ "step": 1256
8834
+ },
8835
+ {
8836
+ "epoch": 0.06009896966364658,
8837
+ "grad_norm": 7.061563491821289,
8838
+ "learning_rate": 8.792971696990671e-07,
8839
+ "loss": 13.3549,
8840
+ "step": 1257
8841
+ },
8842
+ {
8843
+ "epoch": 0.060146781095359904,
8844
+ "grad_norm": 6.853957176208496,
8845
+ "learning_rate": 8.476582430830049e-07,
8846
+ "loss": 10.8686,
8847
+ "step": 1258
8848
+ },
8849
+ {
8850
+ "epoch": 0.060194592527073223,
8851
+ "grad_norm": 6.672121524810791,
8852
+ "learning_rate": 8.165965885319927e-07,
8853
+ "loss": 11.9522,
8854
+ "step": 1259
8855
+ },
8856
+ {
8857
+ "epoch": 0.06024240395878654,
8858
+ "grad_norm": 6.61238956451416,
8859
+ "learning_rate": 7.861123868892483e-07,
8860
+ "loss": 11.737,
8861
+ "step": 1260
8862
+ },
8863
+ {
8864
+ "epoch": 0.06029021539049987,
8865
+ "grad_norm": 6.505923748016357,
8866
+ "learning_rate": 7.562058156359686e-07,
8867
+ "loss": 11.4601,
8868
+ "step": 1261
8869
+ },
8870
+ {
8871
+ "epoch": 0.06033802682221319,
8872
+ "grad_norm": 7.02233362197876,
8873
+ "learning_rate": 7.26877048890362e-07,
8874
+ "loss": 10.8346,
8875
+ "step": 1262
8876
+ },
8877
+ {
8878
+ "epoch": 0.060385838253926516,
8879
+ "grad_norm": 6.840794563293457,
8880
+ "learning_rate": 6.981262574066394e-07,
8881
+ "loss": 12.5558,
8882
+ "step": 1263
8883
+ },
8884
+ {
8885
+ "epoch": 0.060433649685639836,
8886
+ "grad_norm": 7.369102954864502,
8887
+ "learning_rate": 6.699536085739588e-07,
8888
+ "loss": 13.166,
8889
+ "step": 1264
8890
+ },
8891
+ {
8892
+ "epoch": 0.06048146111735316,
8893
+ "grad_norm": 7.65620231628418,
8894
+ "learning_rate": 6.423592664155043e-07,
8895
+ "loss": 12.9833,
8896
+ "step": 1265
8897
+ },
8898
+ {
8899
+ "epoch": 0.06052927254906648,
8900
+ "grad_norm": 7.955878734588623,
8901
+ "learning_rate": 6.153433915875418e-07,
8902
+ "loss": 14.9006,
8903
+ "step": 1266
8904
+ },
8905
+ {
8906
+ "epoch": 0.0605770839807798,
8907
+ "grad_norm": 7.511544704437256,
8908
+ "learning_rate": 5.889061413784091e-07,
8909
+ "loss": 12.0573,
8910
+ "step": 1267
8911
+ },
8912
+ {
8913
+ "epoch": 0.06062489541249313,
8914
+ "grad_norm": 8.05403995513916,
8915
+ "learning_rate": 5.630476697076947e-07,
8916
+ "loss": 12.9865,
8917
+ "step": 1268
8918
+ },
8919
+ {
8920
+ "epoch": 0.06067270684420645,
8921
+ "grad_norm": 7.220417499542236,
8922
+ "learning_rate": 5.377681271252822e-07,
8923
+ "loss": 11.141,
8924
+ "step": 1269
8925
+ },
8926
+ {
8927
+ "epoch": 0.060720518275919774,
8928
+ "grad_norm": 6.97089147567749,
8929
+ "learning_rate": 5.130676608104845e-07,
8930
+ "loss": 11.2041,
8931
+ "step": 1270
8932
+ },
8933
+ {
8934
+ "epoch": 0.060768329707633094,
8935
+ "grad_norm": 7.240792274475098,
8936
+ "learning_rate": 4.889464145711897e-07,
8937
+ "loss": 12.4409,
8938
+ "step": 1271
8939
+ },
8940
+ {
8941
+ "epoch": 0.06081614113934642,
8942
+ "grad_norm": 7.993712902069092,
8943
+ "learning_rate": 4.6540452884303864e-07,
8944
+ "loss": 11.321,
8945
+ "step": 1272
8946
+ },
8947
+ {
8948
+ "epoch": 0.06086395257105974,
8949
+ "grad_norm": 6.494480609893799,
8950
+ "learning_rate": 4.4244214068857036e-07,
8951
+ "loss": 10.7806,
8952
+ "step": 1273
8953
+ },
8954
+ {
8955
+ "epoch": 0.06091176400277306,
8956
+ "grad_norm": 6.773935317993164,
8957
+ "learning_rate": 4.2005938379645614e-07,
8958
+ "loss": 12.2017,
8959
+ "step": 1274
8960
+ },
8961
+ {
8962
+ "epoch": 0.060959575434486386,
8963
+ "grad_norm": 7.454319953918457,
8964
+ "learning_rate": 3.9825638848073333e-07,
8965
+ "loss": 13.1307,
8966
+ "step": 1275
8967
+ },
8968
+ {
8969
+ "epoch": 0.061007386866199706,
8970
+ "grad_norm": 7.689677715301514,
8971
+ "learning_rate": 3.7703328167999485e-07,
8972
+ "loss": 11.5839,
8973
+ "step": 1276
8974
+ },
8975
+ {
8976
+ "epoch": 0.06105519829791303,
8977
+ "grad_norm": 8.754450798034668,
8978
+ "learning_rate": 3.56390186956701e-07,
8979
+ "loss": 13.1473,
8980
+ "step": 1277
8981
+ },
8982
+ {
8983
+ "epoch": 0.06110300972962635,
8984
+ "grad_norm": 6.511455535888672,
8985
+ "learning_rate": 3.363272244964355e-07,
8986
+ "loss": 10.383,
8987
+ "step": 1278
8988
+ },
8989
+ {
8990
+ "epoch": 0.06115082116133968,
8991
+ "grad_norm": 8.072748184204102,
8992
+ "learning_rate": 3.16844511107206e-07,
8993
+ "loss": 16.1493,
8994
+ "step": 1279
8995
+ },
8996
+ {
8997
+ "epoch": 0.061198632593053,
8998
+ "grad_norm": 6.8627166748046875,
8999
+ "learning_rate": 2.979421602187782e-07,
9000
+ "loss": 10.3464,
9001
+ "step": 1280
9002
+ },
9003
+ {
9004
+ "epoch": 0.061246444024766325,
9005
+ "grad_norm": 6.9087748527526855,
9006
+ "learning_rate": 2.7962028188198706e-07,
9007
+ "loss": 11.6314,
9008
+ "step": 1281
9009
+ },
9010
+ {
9011
+ "epoch": 0.061294255456479645,
9012
+ "grad_norm": 7.146842956542969,
9013
+ "learning_rate": 2.6187898276813784e-07,
9014
+ "loss": 10.5916,
9015
+ "step": 1282
9016
+ },
9017
+ {
9018
+ "epoch": 0.061342066888192964,
9019
+ "grad_norm": 8.035828590393066,
9020
+ "learning_rate": 2.447183661683283e-07,
9021
+ "loss": 13.8099,
9022
+ "step": 1283
9023
+ },
9024
+ {
9025
+ "epoch": 0.06138987831990629,
9026
+ "grad_norm": 6.372766017913818,
9027
+ "learning_rate": 2.2813853199292746e-07,
9028
+ "loss": 11.8733,
9029
+ "step": 1284
9030
+ },
9031
+ {
9032
+ "epoch": 0.06143768975161961,
9033
+ "grad_norm": 7.708188533782959,
9034
+ "learning_rate": 2.121395767709089e-07,
9035
+ "loss": 10.1432,
9036
+ "step": 1285
9037
+ },
9038
+ {
9039
+ "epoch": 0.06148550118333294,
9040
+ "grad_norm": 6.371932029724121,
9041
+ "learning_rate": 1.9672159364935162e-07,
9042
+ "loss": 10.7602,
9043
+ "step": 1286
9044
+ },
9045
+ {
9046
+ "epoch": 0.06153331261504626,
9047
+ "grad_norm": 7.205697059631348,
9048
+ "learning_rate": 1.8188467239285133e-07,
9049
+ "loss": 13.4996,
9050
+ "step": 1287
9051
+ },
9052
+ {
9053
+ "epoch": 0.06158112404675958,
9054
+ "grad_norm": 6.705113887786865,
9055
+ "learning_rate": 1.6762889938303217e-07,
9056
+ "loss": 11.523,
9057
+ "step": 1288
9058
+ },
9059
+ {
9060
+ "epoch": 0.0616289354784729,
9061
+ "grad_norm": 6.464982986450195,
9062
+ "learning_rate": 1.539543576180358e-07,
9063
+ "loss": 10.8957,
9064
+ "step": 1289
9065
+ },
9066
+ {
9067
+ "epoch": 0.06167674691018622,
9068
+ "grad_norm": 6.801351547241211,
9069
+ "learning_rate": 1.408611267120219e-07,
9070
+ "loss": 10.9815,
9071
+ "step": 1290
9072
+ },
9073
+ {
9074
+ "epoch": 0.06172455834189955,
9075
+ "grad_norm": 8.094093322753906,
9076
+ "learning_rate": 1.2834928289472416e-07,
9077
+ "loss": 12.1063,
9078
+ "step": 1291
9079
+ },
9080
+ {
9081
+ "epoch": 0.06177236977361287,
9082
+ "grad_norm": 8.686542510986328,
9083
+ "learning_rate": 1.164188990109949e-07,
9084
+ "loss": 12.2343,
9085
+ "step": 1292
9086
+ },
9087
+ {
9088
+ "epoch": 0.061820181205326195,
9089
+ "grad_norm": 7.394459247589111,
9090
+ "learning_rate": 1.0507004452039448e-07,
9091
+ "loss": 12.3694,
9092
+ "step": 1293
9093
+ },
9094
+ {
9095
+ "epoch": 0.061867992637039515,
9096
+ "grad_norm": 6.753342628479004,
9097
+ "learning_rate": 9.430278549675819e-08,
9098
+ "loss": 10.8457,
9099
+ "step": 1294
9100
+ },
9101
+ {
9102
+ "epoch": 0.06191580406875284,
9103
+ "grad_norm": 7.126917362213135,
9104
+ "learning_rate": 8.411718462786322e-08,
9105
+ "loss": 12.1192,
9106
+ "step": 1295
9107
+ },
9108
+ {
9109
+ "epoch": 0.06196361550046616,
9110
+ "grad_norm": 9.326420783996582,
9111
+ "learning_rate": 7.451330121498457e-08,
9112
+ "loss": 13.2389,
9113
+ "step": 1296
9114
+ },
9115
+ {
9116
+ "epoch": 0.06201142693217948,
9117
+ "grad_norm": 7.877248287200928,
9118
+ "learning_rate": 6.549119117263969e-08,
9119
+ "loss": 12.5016,
9120
+ "step": 1297
9121
+ },
9122
+ {
9123
+ "epoch": 0.06205923836389281,
9124
+ "grad_norm": 8.499676704406738,
9125
+ "learning_rate": 5.705090702819993e-08,
9126
+ "loss": 10.6485,
9127
+ "step": 1298
9128
+ },
9129
+ {
9130
+ "epoch": 0.06210704979560613,
9131
+ "grad_norm": 6.845163345336914,
9132
+ "learning_rate": 4.919249792159075e-08,
9133
+ "loss": 10.7636,
9134
+ "step": 1299
9135
+ },
9136
+ {
9137
+ "epoch": 0.062154861227319454,
9138
+ "grad_norm": 6.525848865509033,
9139
+ "learning_rate": 4.191600960505859e-08,
9140
+ "loss": 9.5123,
9141
+ "step": 1300
9142
+ },
9143
+ {
9144
+ "epoch": 0.06220267265903277,
9145
+ "grad_norm": 6.789247989654541,
9146
+ "learning_rate": 3.5221484442837795e-08,
9147
+ "loss": 12.1668,
9148
+ "step": 1301
9149
+ },
9150
+ {
9151
+ "epoch": 0.0622504840907461,
9152
+ "grad_norm": 7.4512152671813965,
9153
+ "learning_rate": 2.9108961410917458e-08,
9154
+ "loss": 14.4092,
9155
+ "step": 1302
9156
+ },
9157
+ {
9158
+ "epoch": 0.06229829552245942,
9159
+ "grad_norm": 7.412023544311523,
9160
+ "learning_rate": 2.357847609686381e-08,
9161
+ "loss": 13.492,
9162
+ "step": 1303
9163
+ },
9164
+ {
9165
+ "epoch": 0.062346106954172746,
9166
+ "grad_norm": 7.283682823181152,
9167
+ "learning_rate": 1.8630060699553752e-08,
9168
+ "loss": 11.885,
9169
+ "step": 1304
9170
+ },
9171
+ {
9172
+ "epoch": 0.062393918385886066,
9173
+ "grad_norm": 6.971307754516602,
9174
+ "learning_rate": 1.426374402901942e-08,
9175
+ "loss": 11.7913,
9176
+ "step": 1305
9177
+ },
9178
+ {
9179
+ "epoch": 0.062441729817599385,
9180
+ "grad_norm": 6.387993812561035,
9181
+ "learning_rate": 1.0479551506259456e-08,
9182
+ "loss": 10.0542,
9183
+ "step": 1306
9184
+ },
9185
+ {
9186
+ "epoch": 0.06248954124931271,
9187
+ "grad_norm": 7.178387641906738,
9188
+ "learning_rate": 7.277505163139076e-09,
9189
+ "loss": 15.0374,
9190
+ "step": 1307
9191
+ },
9192
+ {
9193
+ "epoch": 0.06253735268102603,
9194
+ "grad_norm": 7.890112400054932,
9195
+ "learning_rate": 4.657623642179143e-09,
9196
+ "loss": 13.1065,
9197
+ "step": 1308
9198
+ },
9199
+ {
9200
+ "epoch": 0.06258516411273936,
9201
+ "grad_norm": 6.9360527992248535,
9202
+ "learning_rate": 2.6199221965228504e-09,
9203
+ "loss": 13.3427,
9204
+ "step": 1309
9205
+ },
9206
+ {
9207
+ "epoch": 0.06263297554445268,
9208
+ "grad_norm": 7.331573009490967,
9209
+ "learning_rate": 1.1644126898247009e-09,
9210
+ "loss": 11.5051,
9211
+ "step": 1310
9212
+ },
9213
+ {
9214
+ "epoch": 0.062680786976166,
9215
+ "grad_norm": 6.696556568145752,
9216
+ "learning_rate": 2.911035961616904e-10,
9217
+ "loss": 13.0456,
9218
+ "step": 1311
9219
+ },
9220
+ {
9221
+ "epoch": 0.06272859840787932,
9222
+ "grad_norm": 7.385967254638672,
9223
+ "learning_rate": 0.0,
9224
+ "loss": 12.7968,
9225
+ "step": 1312
9226
+ },
9227
+ {
9228
+ "epoch": 0.06272859840787932,
9229
+ "eval_loss": 2.930758476257324,
9230
+ "eval_runtime": 80.645,
9231
+ "eval_samples_per_second": 109.207,
9232
+ "eval_steps_per_second": 54.61,
9233
+ "step": 1312
9234
  }
9235
  ],
9236
  "logging_steps": 1,
 
9245
  "should_evaluate": false,
9246
  "should_log": false,
9247
  "should_save": true,
9248
+ "should_training_stop": true
9249
  },
9250
  "attributes": {}
9251
  }
9252
  },
9253
+ "total_flos": 2784951020814336.0,
9254
  "train_batch_size": 2,
9255
  "trial_name": null,
9256
  "trial_params": null