PurplelinkPL commited on
Commit
cf025d5
·
verified ·
1 Parent(s): c464737

Upload 10 files

Browse files
Files changed (6) hide show
  1. model.safetensors +1 -1
  2. optimizer.pt +1 -1
  3. rng_state.pth +1 -1
  4. scheduler.pt +1 -1
  5. trainer_state.json +2187 -3
  6. training_args.bin +1 -1
model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:68dfbe915ff4e03024cebbe33bde59cbf6b6d263e48d28395b6093519870427f
3
  size 598635032
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8fe5d6868ff2c81227fd2c969c46af4fb1f58973ee4e0966c10979962f78982d
3
  size 598635032
optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:a7c99ecdaaf664092be0234fe077bbcd25baa9813c62c8c46bdea2a42455c5ff
3
  size 1197359627
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:47b3c36d9ca1786cd8d0139a8f5f16980ca80bc74296c03c792d092074a01113
3
  size 1197359627
rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:08c78b4c639ae6ded426a01aaa0cfe34a255d9fc38024fa012efae708fa63f88
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:de790fba095fbd174e2cbec99a78f74e882cac29a5ff6c7320d627732b666d8d
3
  size 14645
scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d057880b7192dde278d129dfeefa0076ad8bd0f56219fa25a8eb938564ee0f19
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:18105fb0a6af67c0e74a6e195673b14e0b259cf81cc485bb090b6d14e24299a1
3
  size 1465
trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
- "epoch": 0.0446530735268672,
6
  "eval_steps": 1000,
7
- "global_step": 89000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -6957,6 +6957,2190 @@
6957
  "eval_samples_per_second": 196.535,
6958
  "eval_steps_per_second": 1.542,
6959
  "step": 89000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
6960
  }
6961
  ],
6962
  "logging_steps": 100,
@@ -6976,7 +9160,7 @@
6976
  "attributes": {}
6977
  }
6978
  },
6979
- "total_flos": 7.767244494864384e+18,
6980
  "train_batch_size": 128,
6981
  "trial_name": null,
6982
  "trial_params": null
 
2
  "best_global_step": null,
3
  "best_metric": null,
4
  "best_model_checkpoint": null,
5
+ "epoch": 0.036280622240579596,
6
  "eval_steps": 1000,
7
+ "global_step": 117000,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
6957
  "eval_samples_per_second": 196.535,
6958
  "eval_steps_per_second": 1.542,
6959
  "step": 89000
6960
+ },
6961
+ {
6962
+ "epoch": 0.00027908170954291995,
6963
+ "grad_norm": 1.6284213066101074,
6964
+ "learning_rate": 4.331808372709617e-05,
6965
+ "loss": 2.1737,
6966
+ "step": 89100
6967
+ },
6968
+ {
6969
+ "epoch": 0.0005581634190858399,
6970
+ "grad_norm": 1.5599644184112549,
6971
+ "learning_rate": 4.33030093580447e-05,
6972
+ "loss": 2.1666,
6973
+ "step": 89200
6974
+ },
6975
+ {
6976
+ "epoch": 0.0008372451286287599,
6977
+ "grad_norm": 1.5871340036392212,
6978
+ "learning_rate": 4.328792063355065e-05,
6979
+ "loss": 2.1656,
6980
+ "step": 89300
6981
+ },
6982
+ {
6983
+ "epoch": 0.0011163268381716798,
6984
+ "grad_norm": 1.655039668083191,
6985
+ "learning_rate": 4.327281756544842e-05,
6986
+ "loss": 2.169,
6987
+ "step": 89400
6988
+ },
6989
+ {
6990
+ "epoch": 0.0013954085477146,
6991
+ "grad_norm": 1.549782633781433,
6992
+ "learning_rate": 4.325770016558367e-05,
6993
+ "loss": 2.1748,
6994
+ "step": 89500
6995
+ },
6996
+ {
6997
+ "epoch": 0.0016744902572575198,
6998
+ "grad_norm": 1.6504789590835571,
6999
+ "learning_rate": 4.3242568445813306e-05,
7000
+ "loss": 2.1637,
7001
+ "step": 89600
7002
+ },
7003
+ {
7004
+ "epoch": 0.00195357196680044,
7005
+ "grad_norm": 1.6154310703277588,
7006
+ "learning_rate": 4.322742241800545e-05,
7007
+ "loss": 2.1582,
7008
+ "step": 89700
7009
+ },
7010
+ {
7011
+ "epoch": 0.0022326536763433596,
7012
+ "grad_norm": 1.611567497253418,
7013
+ "learning_rate": 4.321226209403947e-05,
7014
+ "loss": 2.1519,
7015
+ "step": 89800
7016
+ },
7017
+ {
7018
+ "epoch": 0.0025117353858862797,
7019
+ "grad_norm": 1.5689648389816284,
7020
+ "learning_rate": 4.319708748580592e-05,
7021
+ "loss": 2.1659,
7022
+ "step": 89900
7023
+ },
7024
+ {
7025
+ "epoch": 0.0027908170954292,
7026
+ "grad_norm": 1.630550503730774,
7027
+ "learning_rate": 4.318189860520658e-05,
7028
+ "loss": 2.1545,
7029
+ "step": 90000
7030
+ },
7031
+ {
7032
+ "epoch": 0.0027908170954292,
7033
+ "eval_loss": 2.2889482975006104,
7034
+ "eval_runtime": 51.8104,
7035
+ "eval_samples_per_second": 196.756,
7036
+ "eval_steps_per_second": 1.544,
7037
+ "step": 90000
7038
+ },
7039
+ {
7040
+ "epoch": 0.00306989880497212,
7041
+ "grad_norm": 1.5548030138015747,
7042
+ "learning_rate": 4.316669546415441e-05,
7043
+ "loss": 2.1585,
7044
+ "step": 90100
7045
+ },
7046
+ {
7047
+ "epoch": 0.0033489805145150396,
7048
+ "grad_norm": 1.675545573234558,
7049
+ "learning_rate": 4.315147807457356e-05,
7050
+ "loss": 2.1588,
7051
+ "step": 90200
7052
+ },
7053
+ {
7054
+ "epoch": 0.0036280622240579597,
7055
+ "grad_norm": 1.6402935981750488,
7056
+ "learning_rate": 4.313624644839936e-05,
7057
+ "loss": 2.1548,
7058
+ "step": 90300
7059
+ },
7060
+ {
7061
+ "epoch": 0.00390714393360088,
7062
+ "grad_norm": 1.6139987707138062,
7063
+ "learning_rate": 4.312100059757829e-05,
7064
+ "loss": 2.1571,
7065
+ "step": 90400
7066
+ },
7067
+ {
7068
+ "epoch": 0.0041862256431437995,
7069
+ "grad_norm": 1.625307321548462,
7070
+ "learning_rate": 4.310574053406801e-05,
7071
+ "loss": 2.1595,
7072
+ "step": 90500
7073
+ },
7074
+ {
7075
+ "epoch": 0.004465307352686719,
7076
+ "grad_norm": 1.6252094507217407,
7077
+ "learning_rate": 4.3090466269837304e-05,
7078
+ "loss": 2.1593,
7079
+ "step": 90600
7080
+ },
7081
+ {
7082
+ "epoch": 0.00474438906222964,
7083
+ "grad_norm": 1.6178643703460693,
7084
+ "learning_rate": 4.307517781686611e-05,
7085
+ "loss": 2.1393,
7086
+ "step": 90700
7087
+ },
7088
+ {
7089
+ "epoch": 0.005023470771772559,
7090
+ "grad_norm": 1.4477986097335815,
7091
+ "learning_rate": 4.3059875187145495e-05,
7092
+ "loss": 2.1526,
7093
+ "step": 90800
7094
+ },
7095
+ {
7096
+ "epoch": 0.00530255248131548,
7097
+ "grad_norm": 1.6491955518722534,
7098
+ "learning_rate": 4.3044558392677627e-05,
7099
+ "loss": 2.1456,
7100
+ "step": 90900
7101
+ },
7102
+ {
7103
+ "epoch": 0.0055816341908584,
7104
+ "grad_norm": 1.6281492710113525,
7105
+ "learning_rate": 4.30292274454758e-05,
7106
+ "loss": 2.1516,
7107
+ "step": 91000
7108
+ },
7109
+ {
7110
+ "epoch": 0.0055816341908584,
7111
+ "eval_loss": 2.270752191543579,
7112
+ "eval_runtime": 51.3993,
7113
+ "eval_samples_per_second": 198.329,
7114
+ "eval_steps_per_second": 1.556,
7115
+ "step": 91000
7116
+ },
7117
+ {
7118
+ "epoch": 0.005860715900401319,
7119
+ "grad_norm": 1.6257696151733398,
7120
+ "learning_rate": 4.301388235756442e-05,
7121
+ "loss": 2.1455,
7122
+ "step": 91100
7123
+ },
7124
+ {
7125
+ "epoch": 0.00613979760994424,
7126
+ "grad_norm": 1.6170133352279663,
7127
+ "learning_rate": 4.299852314097894e-05,
7128
+ "loss": 2.1379,
7129
+ "step": 91200
7130
+ },
7131
+ {
7132
+ "epoch": 0.0064188793194871595,
7133
+ "grad_norm": 1.5804738998413086,
7134
+ "learning_rate": 4.298314980776594e-05,
7135
+ "loss": 2.1415,
7136
+ "step": 91300
7137
+ },
7138
+ {
7139
+ "epoch": 0.006697961029030079,
7140
+ "grad_norm": 1.6626943349838257,
7141
+ "learning_rate": 4.2967762369983065e-05,
7142
+ "loss": 2.1513,
7143
+ "step": 91400
7144
+ },
7145
+ {
7146
+ "epoch": 0.006977042738573,
7147
+ "grad_norm": 1.5107390880584717,
7148
+ "learning_rate": 4.295236083969899e-05,
7149
+ "loss": 2.1477,
7150
+ "step": 91500
7151
+ },
7152
+ {
7153
+ "epoch": 0.0072561244481159195,
7154
+ "grad_norm": 1.6073352098464966,
7155
+ "learning_rate": 4.293694522899349e-05,
7156
+ "loss": 2.1468,
7157
+ "step": 91600
7158
+ },
7159
+ {
7160
+ "epoch": 0.007535206157658839,
7161
+ "grad_norm": 1.5642460584640503,
7162
+ "learning_rate": 4.292151554995734e-05,
7163
+ "loss": 2.1394,
7164
+ "step": 91700
7165
+ },
7166
+ {
7167
+ "epoch": 0.00781428786720176,
7168
+ "grad_norm": 1.4667211771011353,
7169
+ "learning_rate": 4.290607181469236e-05,
7170
+ "loss": 2.1446,
7171
+ "step": 91800
7172
+ },
7173
+ {
7174
+ "epoch": 0.00809336957674468,
7175
+ "grad_norm": 1.5254555940628052,
7176
+ "learning_rate": 4.2890614035311425e-05,
7177
+ "loss": 2.1516,
7178
+ "step": 91900
7179
+ },
7180
+ {
7181
+ "epoch": 0.008372451286287599,
7182
+ "grad_norm": 1.5663783550262451,
7183
+ "learning_rate": 4.2875142223938395e-05,
7184
+ "loss": 2.1407,
7185
+ "step": 92000
7186
+ },
7187
+ {
7188
+ "epoch": 0.008372451286287599,
7189
+ "eval_loss": 2.2744436264038086,
7190
+ "eval_runtime": 51.2413,
7191
+ "eval_samples_per_second": 198.941,
7192
+ "eval_steps_per_second": 1.561,
7193
+ "step": 92000
7194
+ },
7195
+ {
7196
+ "epoch": 0.008651532995830519,
7197
+ "grad_norm": 1.6381663084030151,
7198
+ "learning_rate": 4.285965639270814e-05,
7199
+ "loss": 2.1364,
7200
+ "step": 92100
7201
+ },
7202
+ {
7203
+ "epoch": 0.008930614705373438,
7204
+ "grad_norm": 1.5091722011566162,
7205
+ "learning_rate": 4.284415655376654e-05,
7206
+ "loss": 2.1387,
7207
+ "step": 92200
7208
+ },
7209
+ {
7210
+ "epoch": 0.00920969641491636,
7211
+ "grad_norm": 1.53826105594635,
7212
+ "learning_rate": 4.282864271927042e-05,
7213
+ "loss": 2.1422,
7214
+ "step": 92300
7215
+ },
7216
+ {
7217
+ "epoch": 0.00948877812445928,
7218
+ "grad_norm": 1.5313266515731812,
7219
+ "learning_rate": 4.281311490138765e-05,
7220
+ "loss": 2.1358,
7221
+ "step": 92400
7222
+ },
7223
+ {
7224
+ "epoch": 0.0097678598340022,
7225
+ "grad_norm": 1.5104668140411377,
7226
+ "learning_rate": 4.279757311229702e-05,
7227
+ "loss": 2.1324,
7228
+ "step": 92500
7229
+ },
7230
+ {
7231
+ "epoch": 0.010046941543545119,
7232
+ "grad_norm": 1.5808652639389038,
7233
+ "learning_rate": 4.278201736418828e-05,
7234
+ "loss": 2.1479,
7235
+ "step": 92600
7236
+ },
7237
+ {
7238
+ "epoch": 0.010326023253088039,
7239
+ "grad_norm": 1.5481529235839844,
7240
+ "learning_rate": 4.276644766926213e-05,
7241
+ "loss": 2.1359,
7242
+ "step": 92700
7243
+ },
7244
+ {
7245
+ "epoch": 0.01060510496263096,
7246
+ "grad_norm": 1.6417638063430786,
7247
+ "learning_rate": 4.275086403973023e-05,
7248
+ "loss": 2.1421,
7249
+ "step": 92800
7250
+ },
7251
+ {
7252
+ "epoch": 0.01088418667217388,
7253
+ "grad_norm": 1.6985423564910889,
7254
+ "learning_rate": 4.2735266487815156e-05,
7255
+ "loss": 2.1376,
7256
+ "step": 92900
7257
+ },
7258
+ {
7259
+ "epoch": 0.0111632683817168,
7260
+ "grad_norm": 1.7289358377456665,
7261
+ "learning_rate": 4.271965502575039e-05,
7262
+ "loss": 2.1446,
7263
+ "step": 93000
7264
+ },
7265
+ {
7266
+ "epoch": 0.0111632683817168,
7267
+ "eval_loss": 2.2753000259399414,
7268
+ "eval_runtime": 51.3478,
7269
+ "eval_samples_per_second": 198.529,
7270
+ "eval_steps_per_second": 1.558,
7271
+ "step": 93000
7272
+ },
7273
+ {
7274
+ "epoch": 0.011442350091259719,
7275
+ "grad_norm": 1.5933712720870972,
7276
+ "learning_rate": 4.2704029665780354e-05,
7277
+ "loss": 2.1341,
7278
+ "step": 93100
7279
+ },
7280
+ {
7281
+ "epoch": 0.011721431800802639,
7282
+ "grad_norm": 1.4210540056228638,
7283
+ "learning_rate": 4.2688390420160335e-05,
7284
+ "loss": 2.125,
7285
+ "step": 93200
7286
+ },
7287
+ {
7288
+ "epoch": 0.012000513510345558,
7289
+ "grad_norm": 1.7447474002838135,
7290
+ "learning_rate": 4.267273730115654e-05,
7291
+ "loss": 2.1259,
7292
+ "step": 93300
7293
+ },
7294
+ {
7295
+ "epoch": 0.01227959521988848,
7296
+ "grad_norm": 1.6314444541931152,
7297
+ "learning_rate": 4.265707032104603e-05,
7298
+ "loss": 2.1334,
7299
+ "step": 93400
7300
+ },
7301
+ {
7302
+ "epoch": 0.0125586769294314,
7303
+ "grad_norm": 1.6820199489593506,
7304
+ "learning_rate": 4.264138949211678e-05,
7305
+ "loss": 2.1263,
7306
+ "step": 93500
7307
+ },
7308
+ {
7309
+ "epoch": 0.012837758638974319,
7310
+ "grad_norm": 1.6244908571243286,
7311
+ "learning_rate": 4.2625694826667576e-05,
7312
+ "loss": 2.1313,
7313
+ "step": 93600
7314
+ },
7315
+ {
7316
+ "epoch": 0.013116840348517239,
7317
+ "grad_norm": 1.6561076641082764,
7318
+ "learning_rate": 4.260998633700809e-05,
7319
+ "loss": 2.1274,
7320
+ "step": 93700
7321
+ },
7322
+ {
7323
+ "epoch": 0.013395922058060158,
7324
+ "grad_norm": 1.5971171855926514,
7325
+ "learning_rate": 4.259426403545883e-05,
7326
+ "loss": 2.1304,
7327
+ "step": 93800
7328
+ },
7329
+ {
7330
+ "epoch": 0.013675003767603078,
7331
+ "grad_norm": 1.5423985719680786,
7332
+ "learning_rate": 4.257852793435113e-05,
7333
+ "loss": 2.1356,
7334
+ "step": 93900
7335
+ },
7336
+ {
7337
+ "epoch": 0.013954085477146,
7338
+ "grad_norm": 1.6720298528671265,
7339
+ "learning_rate": 4.256277804602715e-05,
7340
+ "loss": 2.1297,
7341
+ "step": 94000
7342
+ },
7343
+ {
7344
+ "epoch": 0.013954085477146,
7345
+ "eval_loss": 2.2692244052886963,
7346
+ "eval_runtime": 51.3308,
7347
+ "eval_samples_per_second": 198.594,
7348
+ "eval_steps_per_second": 1.559,
7349
+ "step": 94000
7350
+ },
7351
+ {
7352
+ "epoch": 0.01423316718668892,
7353
+ "grad_norm": 1.670507550239563,
7354
+ "learning_rate": 4.254701438283987e-05,
7355
+ "loss": 2.1326,
7356
+ "step": 94100
7357
+ },
7358
+ {
7359
+ "epoch": 0.014512248896231839,
7360
+ "grad_norm": 1.6407012939453125,
7361
+ "learning_rate": 4.253123695715307e-05,
7362
+ "loss": 2.1201,
7363
+ "step": 94200
7364
+ },
7365
+ {
7366
+ "epoch": 0.014791330605774759,
7367
+ "grad_norm": 1.6673415899276733,
7368
+ "learning_rate": 4.2515445781341306e-05,
7369
+ "loss": 2.1236,
7370
+ "step": 94300
7371
+ },
7372
+ {
7373
+ "epoch": 0.015070412315317678,
7374
+ "grad_norm": 1.6600122451782227,
7375
+ "learning_rate": 4.2499640867789955e-05,
7376
+ "loss": 2.1387,
7377
+ "step": 94400
7378
+ },
7379
+ {
7380
+ "epoch": 0.015349494024860598,
7381
+ "grad_norm": 1.669821858406067,
7382
+ "learning_rate": 4.248382222889515e-05,
7383
+ "loss": 2.1376,
7384
+ "step": 94500
7385
+ },
7386
+ {
7387
+ "epoch": 0.01562857573440352,
7388
+ "grad_norm": 1.6163934469223022,
7389
+ "learning_rate": 4.246798987706378e-05,
7390
+ "loss": 2.1219,
7391
+ "step": 94600
7392
+ },
7393
+ {
7394
+ "epoch": 0.015907657443946437,
7395
+ "grad_norm": 1.6449049711227417,
7396
+ "learning_rate": 4.24521438247135e-05,
7397
+ "loss": 2.1197,
7398
+ "step": 94700
7399
+ },
7400
+ {
7401
+ "epoch": 0.01618673915348936,
7402
+ "grad_norm": 1.6894525289535522,
7403
+ "learning_rate": 4.2436284084272706e-05,
7404
+ "loss": 2.1185,
7405
+ "step": 94800
7406
+ },
7407
+ {
7408
+ "epoch": 0.01646582086303228,
7409
+ "grad_norm": 1.6635791063308716,
7410
+ "learning_rate": 4.242041066818053e-05,
7411
+ "loss": 2.1202,
7412
+ "step": 94900
7413
+ },
7414
+ {
7415
+ "epoch": 0.016744902572575198,
7416
+ "grad_norm": 1.5680242776870728,
7417
+ "learning_rate": 4.240452358888685e-05,
7418
+ "loss": 2.1157,
7419
+ "step": 95000
7420
+ },
7421
+ {
7422
+ "epoch": 0.016744902572575198,
7423
+ "eval_loss": 2.2662878036499023,
7424
+ "eval_runtime": 51.3865,
7425
+ "eval_samples_per_second": 198.379,
7426
+ "eval_steps_per_second": 1.557,
7427
+ "step": 95000
7428
+ },
7429
+ {
7430
+ "epoch": 0.01702398428211812,
7431
+ "grad_norm": 1.6089997291564941,
7432
+ "learning_rate": 4.2388622858852224e-05,
7433
+ "loss": 2.1249,
7434
+ "step": 95100
7435
+ },
7436
+ {
7437
+ "epoch": 0.017303065991661037,
7438
+ "grad_norm": 1.5722119808197021,
7439
+ "learning_rate": 4.237270849054794e-05,
7440
+ "loss": 2.1169,
7441
+ "step": 95200
7442
+ },
7443
+ {
7444
+ "epoch": 0.01758214770120396,
7445
+ "grad_norm": 1.6253992319107056,
7446
+ "learning_rate": 4.2356780496455984e-05,
7447
+ "loss": 2.121,
7448
+ "step": 95300
7449
+ },
7450
+ {
7451
+ "epoch": 0.017861229410746877,
7452
+ "grad_norm": 1.7267462015151978,
7453
+ "learning_rate": 4.2340838889069014e-05,
7454
+ "loss": 2.1174,
7455
+ "step": 95400
7456
+ },
7457
+ {
7458
+ "epoch": 0.018140311120289798,
7459
+ "grad_norm": 1.639393925666809,
7460
+ "learning_rate": 4.232488368089038e-05,
7461
+ "loss": 2.1191,
7462
+ "step": 95500
7463
+ },
7464
+ {
7465
+ "epoch": 0.01841939282983272,
7466
+ "grad_norm": 1.570025086402893,
7467
+ "learning_rate": 4.2308914884434096e-05,
7468
+ "loss": 2.1208,
7469
+ "step": 95600
7470
+ },
7471
+ {
7472
+ "epoch": 0.018698474539375638,
7473
+ "grad_norm": 1.6924635171890259,
7474
+ "learning_rate": 4.2292932512224835e-05,
7475
+ "loss": 2.1218,
7476
+ "step": 95700
7477
+ },
7478
+ {
7479
+ "epoch": 0.01897755624891856,
7480
+ "grad_norm": 1.5708248615264893,
7481
+ "learning_rate": 4.22769365767979e-05,
7482
+ "loss": 2.1191,
7483
+ "step": 95800
7484
+ },
7485
+ {
7486
+ "epoch": 0.019256637958461477,
7487
+ "grad_norm": 1.6411412954330444,
7488
+ "learning_rate": 4.226092709069926e-05,
7489
+ "loss": 2.1017,
7490
+ "step": 95900
7491
+ },
7492
+ {
7493
+ "epoch": 0.0195357196680044,
7494
+ "grad_norm": 1.6997929811477661,
7495
+ "learning_rate": 4.224490406648548e-05,
7496
+ "loss": 2.1125,
7497
+ "step": 96000
7498
+ },
7499
+ {
7500
+ "epoch": 0.0195357196680044,
7501
+ "eval_loss": 2.2651915550231934,
7502
+ "eval_runtime": 51.6612,
7503
+ "eval_samples_per_second": 197.324,
7504
+ "eval_steps_per_second": 1.549,
7505
+ "step": 96000
7506
+ },
7507
+ {
7508
+ "epoch": 0.01981480137754732,
7509
+ "grad_norm": 1.678976058959961,
7510
+ "learning_rate": 4.222886751672379e-05,
7511
+ "loss": 2.1085,
7512
+ "step": 96100
7513
+ },
7514
+ {
7515
+ "epoch": 0.020093883087090238,
7516
+ "grad_norm": 1.6502765417099,
7517
+ "learning_rate": 4.221281745399197e-05,
7518
+ "loss": 2.104,
7519
+ "step": 96200
7520
+ },
7521
+ {
7522
+ "epoch": 0.02037296479663316,
7523
+ "grad_norm": 1.7067300081253052,
7524
+ "learning_rate": 4.219675389087845e-05,
7525
+ "loss": 2.0918,
7526
+ "step": 96300
7527
+ },
7528
+ {
7529
+ "epoch": 0.020652046506176077,
7530
+ "grad_norm": 1.5428402423858643,
7531
+ "learning_rate": 4.218067683998221e-05,
7532
+ "loss": 2.0912,
7533
+ "step": 96400
7534
+ },
7535
+ {
7536
+ "epoch": 0.020931128215719,
7537
+ "grad_norm": 1.5912175178527832,
7538
+ "learning_rate": 4.2164586313912844e-05,
7539
+ "loss": 2.1018,
7540
+ "step": 96500
7541
+ },
7542
+ {
7543
+ "epoch": 0.02121020992526192,
7544
+ "grad_norm": 1.6541246175765991,
7545
+ "learning_rate": 4.214848232529048e-05,
7546
+ "loss": 2.1059,
7547
+ "step": 96600
7548
+ },
7549
+ {
7550
+ "epoch": 0.021489291634804838,
7551
+ "grad_norm": 1.6385318040847778,
7552
+ "learning_rate": 4.2132364886745834e-05,
7553
+ "loss": 2.0992,
7554
+ "step": 96700
7555
+ },
7556
+ {
7557
+ "epoch": 0.02176837334434776,
7558
+ "grad_norm": 1.6574422121047974,
7559
+ "learning_rate": 4.2116234010920153e-05,
7560
+ "loss": 2.1014,
7561
+ "step": 96800
7562
+ },
7563
+ {
7564
+ "epoch": 0.022047455053890677,
7565
+ "grad_norm": 1.798996090888977,
7566
+ "learning_rate": 4.210008971046522e-05,
7567
+ "loss": 2.0837,
7568
+ "step": 96900
7569
+ },
7570
+ {
7571
+ "epoch": 0.0223265367634336,
7572
+ "grad_norm": 1.7654832601547241,
7573
+ "learning_rate": 4.208393199804337e-05,
7574
+ "loss": 2.0967,
7575
+ "step": 97000
7576
+ },
7577
+ {
7578
+ "epoch": 0.0223265367634336,
7579
+ "eval_loss": 2.2732906341552734,
7580
+ "eval_runtime": 51.5925,
7581
+ "eval_samples_per_second": 197.587,
7582
+ "eval_steps_per_second": 1.551,
7583
+ "step": 97000
7584
+ },
7585
+ {
7586
+ "epoch": 0.022605618472976517,
7587
+ "grad_norm": 1.659149169921875,
7588
+ "learning_rate": 4.206776088632744e-05,
7589
+ "loss": 2.0867,
7590
+ "step": 97100
7591
+ },
7592
+ {
7593
+ "epoch": 0.022884700182519438,
7594
+ "grad_norm": 1.6352757215499878,
7595
+ "learning_rate": 4.205157638800077e-05,
7596
+ "loss": 2.0883,
7597
+ "step": 97200
7598
+ },
7599
+ {
7600
+ "epoch": 0.02316378189206236,
7601
+ "grad_norm": 1.6729434728622437,
7602
+ "learning_rate": 4.203537851575722e-05,
7603
+ "loss": 2.0826,
7604
+ "step": 97300
7605
+ },
7606
+ {
7607
+ "epoch": 0.023442863601605277,
7608
+ "grad_norm": 1.6211354732513428,
7609
+ "learning_rate": 4.201916728230112e-05,
7610
+ "loss": 2.0862,
7611
+ "step": 97400
7612
+ },
7613
+ {
7614
+ "epoch": 0.0237219453111482,
7615
+ "grad_norm": 1.6426453590393066,
7616
+ "learning_rate": 4.20029427003473e-05,
7617
+ "loss": 2.1016,
7618
+ "step": 97500
7619
+ },
7620
+ {
7621
+ "epoch": 0.024001027020691117,
7622
+ "grad_norm": 1.7282731533050537,
7623
+ "learning_rate": 4.198670478262103e-05,
7624
+ "loss": 2.0897,
7625
+ "step": 97600
7626
+ },
7627
+ {
7628
+ "epoch": 0.024280108730234038,
7629
+ "grad_norm": 1.6720244884490967,
7630
+ "learning_rate": 4.1970453541858075e-05,
7631
+ "loss": 2.0887,
7632
+ "step": 97700
7633
+ },
7634
+ {
7635
+ "epoch": 0.02455919043977696,
7636
+ "grad_norm": 1.6182509660720825,
7637
+ "learning_rate": 4.195418899080462e-05,
7638
+ "loss": 2.0941,
7639
+ "step": 97800
7640
+ },
7641
+ {
7642
+ "epoch": 0.024838272149319877,
7643
+ "grad_norm": 1.5953019857406616,
7644
+ "learning_rate": 4.19379111422173e-05,
7645
+ "loss": 2.0799,
7646
+ "step": 97900
7647
+ },
7648
+ {
7649
+ "epoch": 0.0251173538588628,
7650
+ "grad_norm": 1.6194970607757568,
7651
+ "learning_rate": 4.1921620008863193e-05,
7652
+ "loss": 2.0915,
7653
+ "step": 98000
7654
+ },
7655
+ {
7656
+ "epoch": 0.0251173538588628,
7657
+ "eval_loss": 2.269259452819824,
7658
+ "eval_runtime": 51.5672,
7659
+ "eval_samples_per_second": 197.684,
7660
+ "eval_steps_per_second": 1.551,
7661
+ "step": 98000
7662
+ },
7663
+ {
7664
+ "epoch": 0.025396435568405717,
7665
+ "grad_norm": 1.6391347646713257,
7666
+ "learning_rate": 4.1905315603519765e-05,
7667
+ "loss": 2.0761,
7668
+ "step": 98100
7669
+ },
7670
+ {
7671
+ "epoch": 0.025675517277948638,
7672
+ "grad_norm": 1.6369253396987915,
7673
+ "learning_rate": 4.1888997938974935e-05,
7674
+ "loss": 2.0862,
7675
+ "step": 98200
7676
+ },
7677
+ {
7678
+ "epoch": 0.025954598987491556,
7679
+ "grad_norm": 1.628437876701355,
7680
+ "learning_rate": 4.187266702802698e-05,
7681
+ "loss": 2.0835,
7682
+ "step": 98300
7683
+ },
7684
+ {
7685
+ "epoch": 0.026233680697034478,
7686
+ "grad_norm": 1.643228530883789,
7687
+ "learning_rate": 4.1856322883484584e-05,
7688
+ "loss": 2.078,
7689
+ "step": 98400
7690
+ },
7691
+ {
7692
+ "epoch": 0.0265127624065774,
7693
+ "grad_norm": 1.6307592391967773,
7694
+ "learning_rate": 4.183996551816681e-05,
7695
+ "loss": 2.0703,
7696
+ "step": 98500
7697
+ },
7698
+ {
7699
+ "epoch": 0.026791844116120317,
7700
+ "grad_norm": 1.6314188241958618,
7701
+ "learning_rate": 4.18235949449031e-05,
7702
+ "loss": 2.0926,
7703
+ "step": 98600
7704
+ },
7705
+ {
7706
+ "epoch": 0.02707092582566324,
7707
+ "grad_norm": 1.5619598627090454,
7708
+ "learning_rate": 4.180721117653323e-05,
7709
+ "loss": 2.0827,
7710
+ "step": 98700
7711
+ },
7712
+ {
7713
+ "epoch": 0.027350007535206156,
7714
+ "grad_norm": 1.5566825866699219,
7715
+ "learning_rate": 4.179081422590736e-05,
7716
+ "loss": 2.0754,
7717
+ "step": 98800
7718
+ },
7719
+ {
7720
+ "epoch": 0.027629089244749078,
7721
+ "grad_norm": 1.621233344078064,
7722
+ "learning_rate": 4.177440410588596e-05,
7723
+ "loss": 2.0702,
7724
+ "step": 98900
7725
+ },
7726
+ {
7727
+ "epoch": 0.027908170954292,
7728
+ "grad_norm": 1.6783591508865356,
7729
+ "learning_rate": 4.1757980829339826e-05,
7730
+ "loss": 2.0691,
7731
+ "step": 99000
7732
+ },
7733
+ {
7734
+ "epoch": 0.027908170954292,
7735
+ "eval_loss": 2.2590763568878174,
7736
+ "eval_runtime": 51.6452,
7737
+ "eval_samples_per_second": 197.385,
7738
+ "eval_steps_per_second": 1.549,
7739
+ "step": 99000
7740
+ },
7741
+ {
7742
+ "epoch": 0.028187252663834917,
7743
+ "grad_norm": 1.6113650798797607,
7744
+ "learning_rate": 4.1741544409150104e-05,
7745
+ "loss": 2.0677,
7746
+ "step": 99100
7747
+ },
7748
+ {
7749
+ "epoch": 0.02846633437337784,
7750
+ "grad_norm": 1.6120631694793701,
7751
+ "learning_rate": 4.172509485820823e-05,
7752
+ "loss": 2.0784,
7753
+ "step": 99200
7754
+ },
7755
+ {
7756
+ "epoch": 0.028745416082920756,
7757
+ "grad_norm": 1.603555679321289,
7758
+ "learning_rate": 4.170863218941593e-05,
7759
+ "loss": 2.0685,
7760
+ "step": 99300
7761
+ },
7762
+ {
7763
+ "epoch": 0.029024497792463678,
7764
+ "grad_norm": 1.5876059532165527,
7765
+ "learning_rate": 4.1692156415685234e-05,
7766
+ "loss": 2.0694,
7767
+ "step": 99400
7768
+ },
7769
+ {
7770
+ "epoch": 0.0293035795020066,
7771
+ "grad_norm": 1.5650913715362549,
7772
+ "learning_rate": 4.167566754993844e-05,
7773
+ "loss": 2.0714,
7774
+ "step": 99500
7775
+ },
7776
+ {
7777
+ "epoch": 0.029582661211549517,
7778
+ "grad_norm": 1.6612671613693237,
7779
+ "learning_rate": 4.1659165605108134e-05,
7780
+ "loss": 2.0754,
7781
+ "step": 99600
7782
+ },
7783
+ {
7784
+ "epoch": 0.02986174292109244,
7785
+ "grad_norm": 1.6820577383041382,
7786
+ "learning_rate": 4.1642650594137116e-05,
7787
+ "loss": 2.0686,
7788
+ "step": 99700
7789
+ },
7790
+ {
7791
+ "epoch": 0.030140824630635357,
7792
+ "grad_norm": 1.6811972856521606,
7793
+ "learning_rate": 4.162612252997849e-05,
7794
+ "loss": 2.0719,
7795
+ "step": 99800
7796
+ },
7797
+ {
7798
+ "epoch": 0.030419906340178278,
7799
+ "grad_norm": 1.6226907968521118,
7800
+ "learning_rate": 4.160958142559556e-05,
7801
+ "loss": 2.0654,
7802
+ "step": 99900
7803
+ },
7804
+ {
7805
+ "epoch": 0.030698988049721196,
7806
+ "grad_norm": 1.5367672443389893,
7807
+ "learning_rate": 4.159302729396186e-05,
7808
+ "loss": 2.077,
7809
+ "step": 100000
7810
+ },
7811
+ {
7812
+ "epoch": 0.030698988049721196,
7813
+ "eval_loss": 2.2724859714508057,
7814
+ "eval_runtime": 51.6394,
7815
+ "eval_samples_per_second": 197.407,
7816
+ "eval_steps_per_second": 1.549,
7817
+ "step": 100000
7818
+ },
7819
+ {
7820
+ "epoch": 0.030978069759264117,
7821
+ "grad_norm": 1.6159389019012451,
7822
+ "learning_rate": 4.157646014806117e-05,
7823
+ "loss": 2.0694,
7824
+ "step": 100100
7825
+ },
7826
+ {
7827
+ "epoch": 0.03125715146880704,
7828
+ "grad_norm": 1.6105570793151855,
7829
+ "learning_rate": 4.155988000088745e-05,
7830
+ "loss": 2.0527,
7831
+ "step": 100200
7832
+ },
7833
+ {
7834
+ "epoch": 0.03153623317834996,
7835
+ "grad_norm": 1.6409541368484497,
7836
+ "learning_rate": 4.1543286865444856e-05,
7837
+ "loss": 2.0671,
7838
+ "step": 100300
7839
+ },
7840
+ {
7841
+ "epoch": 0.031815314887892875,
7842
+ "grad_norm": 1.6089441776275635,
7843
+ "learning_rate": 4.152668075474775e-05,
7844
+ "loss": 2.0659,
7845
+ "step": 100400
7846
+ },
7847
+ {
7848
+ "epoch": 0.0320943965974358,
7849
+ "grad_norm": 1.6299337148666382,
7850
+ "learning_rate": 4.151006168182065e-05,
7851
+ "loss": 2.0634,
7852
+ "step": 100500
7853
+ },
7854
+ {
7855
+ "epoch": 0.03237347830697872,
7856
+ "grad_norm": 1.5447492599487305,
7857
+ "learning_rate": 4.1493429659698266e-05,
7858
+ "loss": 2.0709,
7859
+ "step": 100600
7860
+ },
7861
+ {
7862
+ "epoch": 0.032652560016521635,
7863
+ "grad_norm": 1.6599881649017334,
7864
+ "learning_rate": 4.147678470142544e-05,
7865
+ "loss": 2.0663,
7866
+ "step": 100700
7867
+ },
7868
+ {
7869
+ "epoch": 0.03293164172606456,
7870
+ "grad_norm": 1.6231052875518799,
7871
+ "learning_rate": 4.146012682005717e-05,
7872
+ "loss": 2.0691,
7873
+ "step": 100800
7874
+ },
7875
+ {
7876
+ "epoch": 0.03321072343560748,
7877
+ "grad_norm": 1.67854642868042,
7878
+ "learning_rate": 4.144345602865859e-05,
7879
+ "loss": 2.0569,
7880
+ "step": 100900
7881
+ },
7882
+ {
7883
+ "epoch": 0.033489805145150396,
7884
+ "grad_norm": 1.655781626701355,
7885
+ "learning_rate": 4.1426772340304964e-05,
7886
+ "loss": 2.0546,
7887
+ "step": 101000
7888
+ },
7889
+ {
7890
+ "epoch": 0.033489805145150396,
7891
+ "eval_loss": 2.275222063064575,
7892
+ "eval_runtime": 51.7111,
7893
+ "eval_samples_per_second": 197.134,
7894
+ "eval_steps_per_second": 1.547,
7895
+ "step": 101000
7896
+ },
7897
+ {
7898
+ "epoch": 0.033768886854693314,
7899
+ "grad_norm": 1.6492592096328735,
7900
+ "learning_rate": 4.141007576808166e-05,
7901
+ "loss": 2.0605,
7902
+ "step": 101100
7903
+ },
7904
+ {
7905
+ "epoch": 0.03404796856423624,
7906
+ "grad_norm": 1.5914729833602905,
7907
+ "learning_rate": 4.139336632508415e-05,
7908
+ "loss": 2.0417,
7909
+ "step": 101200
7910
+ },
7911
+ {
7912
+ "epoch": 0.03432705027377916,
7913
+ "grad_norm": 1.6000899076461792,
7914
+ "learning_rate": 4.1376644024418035e-05,
7915
+ "loss": 2.0621,
7916
+ "step": 101300
7917
+ },
7918
+ {
7919
+ "epoch": 0.034606131983322075,
7920
+ "grad_norm": 1.5423117876052856,
7921
+ "learning_rate": 4.135990887919894e-05,
7922
+ "loss": 2.0709,
7923
+ "step": 101400
7924
+ },
7925
+ {
7926
+ "epoch": 0.034885213692865,
7927
+ "grad_norm": 1.5954508781433105,
7928
+ "learning_rate": 4.134316090255263e-05,
7929
+ "loss": 2.0585,
7930
+ "step": 101500
7931
+ },
7932
+ {
7933
+ "epoch": 0.03516429540240792,
7934
+ "grad_norm": 1.603651523590088,
7935
+ "learning_rate": 4.1326400107614877e-05,
7936
+ "loss": 2.0688,
7937
+ "step": 101600
7938
+ },
7939
+ {
7940
+ "epoch": 0.035443377111950836,
7941
+ "grad_norm": 1.6470582485198975,
7942
+ "learning_rate": 4.130962650753154e-05,
7943
+ "loss": 2.0548,
7944
+ "step": 101700
7945
+ },
7946
+ {
7947
+ "epoch": 0.035722458821493754,
7948
+ "grad_norm": 1.6013911962509155,
7949
+ "learning_rate": 4.129284011545852e-05,
7950
+ "loss": 2.0502,
7951
+ "step": 101800
7952
+ },
7953
+ {
7954
+ "epoch": 0.03600154053103668,
7955
+ "grad_norm": 1.6595914363861084,
7956
+ "learning_rate": 4.127604094456174e-05,
7957
+ "loss": 2.0653,
7958
+ "step": 101900
7959
+ },
7960
+ {
7961
+ "epoch": 0.036280622240579596,
7962
+ "grad_norm": 1.6441375017166138,
7963
+ "learning_rate": 4.125922900801715e-05,
7964
+ "loss": 2.0181,
7965
+ "step": 102000
7966
+ },
7967
+ {
7968
+ "epoch": 0.036280622240579596,
7969
+ "eval_loss": 2.27272891998291,
7970
+ "eval_runtime": 51.6797,
7971
+ "eval_samples_per_second": 197.253,
7972
+ "eval_steps_per_second": 1.548,
7973
+ "step": 102000
7974
+ },
7975
+ {
7976
+ "epoch": 0.036559703950122514,
7977
+ "grad_norm": 1.5254052877426147,
7978
+ "learning_rate": 4.124240431901071e-05,
7979
+ "loss": 2.0585,
7980
+ "step": 102100
7981
+ },
7982
+ {
7983
+ "epoch": 0.03683878565966544,
7984
+ "grad_norm": 1.5843355655670166,
7985
+ "learning_rate": 4.1225566890738384e-05,
7986
+ "loss": 2.059,
7987
+ "step": 102200
7988
+ },
7989
+ {
7990
+ "epoch": 0.03711786736920836,
7991
+ "grad_norm": 1.64484441280365,
7992
+ "learning_rate": 4.120871673640613e-05,
7993
+ "loss": 2.0522,
7994
+ "step": 102300
7995
+ },
7996
+ {
7997
+ "epoch": 0.037396949078751275,
7998
+ "grad_norm": 1.7020013332366943,
7999
+ "learning_rate": 4.119185386922988e-05,
8000
+ "loss": 2.0519,
8001
+ "step": 102400
8002
+ },
8003
+ {
8004
+ "epoch": 0.0376760307882942,
8005
+ "grad_norm": 1.6111907958984375,
8006
+ "learning_rate": 4.117497830243555e-05,
8007
+ "loss": 2.0563,
8008
+ "step": 102500
8009
+ },
8010
+ {
8011
+ "epoch": 0.03795511249783712,
8012
+ "grad_norm": 1.5560317039489746,
8013
+ "learning_rate": 4.1158090049259005e-05,
8014
+ "loss": 2.0476,
8015
+ "step": 102600
8016
+ },
8017
+ {
8018
+ "epoch": 0.038234194207380036,
8019
+ "grad_norm": 1.6740190982818604,
8020
+ "learning_rate": 4.114118912294607e-05,
8021
+ "loss": 2.0654,
8022
+ "step": 102700
8023
+ },
8024
+ {
8025
+ "epoch": 0.038513275916922954,
8026
+ "grad_norm": 1.5790201425552368,
8027
+ "learning_rate": 4.1124275536752494e-05,
8028
+ "loss": 2.0557,
8029
+ "step": 102800
8030
+ },
8031
+ {
8032
+ "epoch": 0.03879235762646588,
8033
+ "grad_norm": 1.6047033071517944,
8034
+ "learning_rate": 4.110734930394397e-05,
8035
+ "loss": 2.0472,
8036
+ "step": 102900
8037
+ },
8038
+ {
8039
+ "epoch": 0.0390714393360088,
8040
+ "grad_norm": 1.5579067468643188,
8041
+ "learning_rate": 4.1090410437796104e-05,
8042
+ "loss": 2.054,
8043
+ "step": 103000
8044
+ },
8045
+ {
8046
+ "epoch": 0.0390714393360088,
8047
+ "eval_loss": 2.261636257171631,
8048
+ "eval_runtime": 51.6907,
8049
+ "eval_samples_per_second": 197.212,
8050
+ "eval_steps_per_second": 1.548,
8051
+ "step": 103000
8052
+ },
8053
+ {
8054
+ "epoch": 0.039350521045551715,
8055
+ "grad_norm": 1.5974478721618652,
8056
+ "learning_rate": 4.107345895159441e-05,
8057
+ "loss": 2.0528,
8058
+ "step": 103100
8059
+ },
8060
+ {
8061
+ "epoch": 0.03962960275509464,
8062
+ "grad_norm": 1.6119569540023804,
8063
+ "learning_rate": 4.105649485863431e-05,
8064
+ "loss": 2.0571,
8065
+ "step": 103200
8066
+ },
8067
+ {
8068
+ "epoch": 0.03990868446463756,
8069
+ "grad_norm": 1.606919527053833,
8070
+ "learning_rate": 4.1039518172221105e-05,
8071
+ "loss": 2.0516,
8072
+ "step": 103300
8073
+ },
8074
+ {
8075
+ "epoch": 0.040187766174180475,
8076
+ "grad_norm": 1.700379490852356,
8077
+ "learning_rate": 4.1022528905669954e-05,
8078
+ "loss": 2.0405,
8079
+ "step": 103400
8080
+ },
8081
+ {
8082
+ "epoch": 0.04046684788372339,
8083
+ "grad_norm": 1.5789330005645752,
8084
+ "learning_rate": 4.100552707230593e-05,
8085
+ "loss": 2.0551,
8086
+ "step": 103500
8087
+ },
8088
+ {
8089
+ "epoch": 0.04074592959326632,
8090
+ "grad_norm": 1.5743343830108643,
8091
+ "learning_rate": 4.098851268546392e-05,
8092
+ "loss": 2.0558,
8093
+ "step": 103600
8094
+ },
8095
+ {
8096
+ "epoch": 0.041025011302809236,
8097
+ "grad_norm": 1.6383607387542725,
8098
+ "learning_rate": 4.097148575848868e-05,
8099
+ "loss": 2.0473,
8100
+ "step": 103700
8101
+ },
8102
+ {
8103
+ "epoch": 0.041304093012352154,
8104
+ "grad_norm": 1.5813179016113281,
8105
+ "learning_rate": 4.095444630473478e-05,
8106
+ "loss": 2.0462,
8107
+ "step": 103800
8108
+ },
8109
+ {
8110
+ "epoch": 0.04158317472189508,
8111
+ "grad_norm": 1.5996896028518677,
8112
+ "learning_rate": 4.093739433756665e-05,
8113
+ "loss": 2.0445,
8114
+ "step": 103900
8115
+ },
8116
+ {
8117
+ "epoch": 0.041862256431438,
8118
+ "grad_norm": 1.627163290977478,
8119
+ "learning_rate": 4.09203298703585e-05,
8120
+ "loss": 2.0512,
8121
+ "step": 104000
8122
+ },
8123
+ {
8124
+ "epoch": 0.041862256431438,
8125
+ "eval_loss": 2.2715542316436768,
8126
+ "eval_runtime": 51.5969,
8127
+ "eval_samples_per_second": 197.57,
8128
+ "eval_steps_per_second": 1.55,
8129
+ "step": 104000
8130
+ },
8131
+ {
8132
+ "epoch": 0.00027908170954291995,
8133
+ "grad_norm": 1.621848225593567,
8134
+ "learning_rate": 4.090325291649436e-05,
8135
+ "loss": 2.056,
8136
+ "step": 104100
8137
+ },
8138
+ {
8139
+ "epoch": 0.0005581634190858399,
8140
+ "grad_norm": 1.5937111377716064,
8141
+ "learning_rate": 4.088616348936804e-05,
8142
+ "loss": 2.0527,
8143
+ "step": 104200
8144
+ },
8145
+ {
8146
+ "epoch": 0.0008372451286287599,
8147
+ "grad_norm": 3.054250478744507,
8148
+ "learning_rate": 4.0869061602383166e-05,
8149
+ "loss": 2.1108,
8150
+ "step": 104300
8151
+ },
8152
+ {
8153
+ "epoch": 0.0011163268381716798,
8154
+ "grad_norm": 1.599531888961792,
8155
+ "learning_rate": 4.0851947268953096e-05,
8156
+ "loss": 2.148,
8157
+ "step": 104400
8158
+ },
8159
+ {
8160
+ "epoch": 0.0013954085477146,
8161
+ "grad_norm": 1.4354475736618042,
8162
+ "learning_rate": 4.083482050250098e-05,
8163
+ "loss": 2.1317,
8164
+ "step": 104500
8165
+ },
8166
+ {
8167
+ "epoch": 0.0016744902572575198,
8168
+ "grad_norm": 1.6972846984863281,
8169
+ "learning_rate": 4.08176813164597e-05,
8170
+ "loss": 2.1313,
8171
+ "step": 104600
8172
+ },
8173
+ {
8174
+ "epoch": 0.00195357196680044,
8175
+ "grad_norm": 1.3760380744934082,
8176
+ "learning_rate": 4.0800529724271896e-05,
8177
+ "loss": 2.1105,
8178
+ "step": 104700
8179
+ },
8180
+ {
8181
+ "epoch": 0.0022326536763433596,
8182
+ "grad_norm": 1.5800480842590332,
8183
+ "learning_rate": 4.0783365739389924e-05,
8184
+ "loss": 2.1108,
8185
+ "step": 104800
8186
+ },
8187
+ {
8188
+ "epoch": 0.0025117353858862797,
8189
+ "grad_norm": 1.6185262203216553,
8190
+ "learning_rate": 4.076618937527585e-05,
8191
+ "loss": 2.0927,
8192
+ "step": 104900
8193
+ },
8194
+ {
8195
+ "epoch": 0.0027908170954292,
8196
+ "grad_norm": 1.666864037513733,
8197
+ "learning_rate": 4.07490006454015e-05,
8198
+ "loss": 2.096,
8199
+ "step": 105000
8200
+ },
8201
+ {
8202
+ "epoch": 0.0027908170954292,
8203
+ "eval_loss": 2.255873441696167,
8204
+ "eval_runtime": 52.3492,
8205
+ "eval_samples_per_second": 194.731,
8206
+ "eval_steps_per_second": 1.528,
8207
+ "step": 105000
8208
+ },
8209
+ {
8210
+ "epoch": 0.00306989880497212,
8211
+ "grad_norm": 1.558935284614563,
8212
+ "learning_rate": 4.0731799563248334e-05,
8213
+ "loss": 2.0891,
8214
+ "step": 105100
8215
+ },
8216
+ {
8217
+ "epoch": 0.0033489805145150396,
8218
+ "grad_norm": 1.62444269657135,
8219
+ "learning_rate": 4.0714586142307546e-05,
8220
+ "loss": 2.0738,
8221
+ "step": 105200
8222
+ },
8223
+ {
8224
+ "epoch": 0.0036280622240579597,
8225
+ "grad_norm": 1.6997108459472656,
8226
+ "learning_rate": 4.069736039607998e-05,
8227
+ "loss": 2.0742,
8228
+ "step": 105300
8229
+ },
8230
+ {
8231
+ "epoch": 0.00390714393360088,
8232
+ "grad_norm": 1.2430105209350586,
8233
+ "learning_rate": 4.0680122338076156e-05,
8234
+ "loss": 2.0892,
8235
+ "step": 105400
8236
+ },
8237
+ {
8238
+ "epoch": 0.0041862256431437995,
8239
+ "grad_norm": 1.6265345811843872,
8240
+ "learning_rate": 4.0662871981816266e-05,
8241
+ "loss": 2.0759,
8242
+ "step": 105500
8243
+ },
8244
+ {
8245
+ "epoch": 0.004465307352686719,
8246
+ "grad_norm": 1.429768681526184,
8247
+ "learning_rate": 4.064560934083012e-05,
8248
+ "loss": 2.0731,
8249
+ "step": 105600
8250
+ },
8251
+ {
8252
+ "epoch": 0.00474438906222964,
8253
+ "grad_norm": 1.5453941822052002,
8254
+ "learning_rate": 4.062833442865719e-05,
8255
+ "loss": 2.0334,
8256
+ "step": 105700
8257
+ },
8258
+ {
8259
+ "epoch": 0.005023470771772559,
8260
+ "grad_norm": 1.6710811853408813,
8261
+ "learning_rate": 4.061104725884654e-05,
8262
+ "loss": 2.0727,
8263
+ "step": 105800
8264
+ },
8265
+ {
8266
+ "epoch": 0.00530255248131548,
8267
+ "grad_norm": 1.668752908706665,
8268
+ "learning_rate": 4.0593747844956896e-05,
8269
+ "loss": 2.0566,
8270
+ "step": 105900
8271
+ },
8272
+ {
8273
+ "epoch": 0.0055816341908584,
8274
+ "grad_norm": 1.6783727407455444,
8275
+ "learning_rate": 4.057643620055654e-05,
8276
+ "loss": 2.0607,
8277
+ "step": 106000
8278
+ },
8279
+ {
8280
+ "epoch": 0.0055816341908584,
8281
+ "eval_loss": 2.251800537109375,
8282
+ "eval_runtime": 51.9592,
8283
+ "eval_samples_per_second": 196.192,
8284
+ "eval_steps_per_second": 1.54,
8285
+ "step": 106000
8286
+ },
8287
+ {
8288
+ "epoch": 0.005860715900401319,
8289
+ "grad_norm": 1.4173957109451294,
8290
+ "learning_rate": 4.055911233922338e-05,
8291
+ "loss": 2.0537,
8292
+ "step": 106100
8293
+ },
8294
+ {
8295
+ "epoch": 0.00613979760994424,
8296
+ "grad_norm": 1.6333705186843872,
8297
+ "learning_rate": 4.054177627454487e-05,
8298
+ "loss": 2.0679,
8299
+ "step": 106200
8300
+ },
8301
+ {
8302
+ "epoch": 0.0064188793194871595,
8303
+ "grad_norm": 1.078372836112976,
8304
+ "learning_rate": 4.0524428020118074e-05,
8305
+ "loss": 2.0599,
8306
+ "step": 106300
8307
+ },
8308
+ {
8309
+ "epoch": 0.006697961029030079,
8310
+ "grad_norm": 1.7360562086105347,
8311
+ "learning_rate": 4.0507067589549595e-05,
8312
+ "loss": 2.0451,
8313
+ "step": 106400
8314
+ },
8315
+ {
8316
+ "epoch": 0.006977042738573,
8317
+ "grad_norm": 1.0331660509109497,
8318
+ "learning_rate": 4.048969499645559e-05,
8319
+ "loss": 2.0569,
8320
+ "step": 106500
8321
+ },
8322
+ {
8323
+ "epoch": 0.0072561244481159195,
8324
+ "grad_norm": 1.7799084186553955,
8325
+ "learning_rate": 4.0472310254461765e-05,
8326
+ "loss": 2.0452,
8327
+ "step": 106600
8328
+ },
8329
+ {
8330
+ "epoch": 0.007535206157658839,
8331
+ "grad_norm": 1.6667675971984863,
8332
+ "learning_rate": 4.045491337720333e-05,
8333
+ "loss": 2.0386,
8334
+ "step": 106700
8335
+ },
8336
+ {
8337
+ "epoch": 0.00781428786720176,
8338
+ "grad_norm": 1.5602868795394897,
8339
+ "learning_rate": 4.043750437832504e-05,
8340
+ "loss": 2.0379,
8341
+ "step": 106800
8342
+ },
8343
+ {
8344
+ "epoch": 0.00809336957674468,
8345
+ "grad_norm": 1.670214295387268,
8346
+ "learning_rate": 4.0420083271481144e-05,
8347
+ "loss": 2.0362,
8348
+ "step": 106900
8349
+ },
8350
+ {
8351
+ "epoch": 0.008372451286287599,
8352
+ "grad_norm": 1.6006022691726685,
8353
+ "learning_rate": 4.040265007033538e-05,
8354
+ "loss": 2.042,
8355
+ "step": 107000
8356
+ },
8357
+ {
8358
+ "epoch": 0.008372451286287599,
8359
+ "eval_loss": 2.252915620803833,
8360
+ "eval_runtime": 51.9529,
8361
+ "eval_samples_per_second": 196.216,
8362
+ "eval_steps_per_second": 1.54,
8363
+ "step": 107000
8364
+ },
8365
+ {
8366
+ "epoch": 0.008651532995830519,
8367
+ "grad_norm": 1.5068638324737549,
8368
+ "learning_rate": 4.0385204788561e-05,
8369
+ "loss": 2.0379,
8370
+ "step": 107100
8371
+ },
8372
+ {
8373
+ "epoch": 0.008930614705373438,
8374
+ "grad_norm": 1.7357958555221558,
8375
+ "learning_rate": 4.0367747439840694e-05,
8376
+ "loss": 2.0289,
8377
+ "step": 107200
8378
+ },
8379
+ {
8380
+ "epoch": 0.00920969641491636,
8381
+ "grad_norm": 1.6686527729034424,
8382
+ "learning_rate": 4.0350278037866654e-05,
8383
+ "loss": 2.0413,
8384
+ "step": 107300
8385
+ },
8386
+ {
8387
+ "epoch": 0.00948877812445928,
8388
+ "grad_norm": 1.226962924003601,
8389
+ "learning_rate": 4.0332796596340485e-05,
8390
+ "loss": 2.0204,
8391
+ "step": 107400
8392
+ },
8393
+ {
8394
+ "epoch": 0.0097678598340022,
8395
+ "grad_norm": 1.696763515472412,
8396
+ "learning_rate": 4.031530312897327e-05,
8397
+ "loss": 2.0296,
8398
+ "step": 107500
8399
+ },
8400
+ {
8401
+ "epoch": 0.010046941543545119,
8402
+ "grad_norm": 1.6187881231307983,
8403
+ "learning_rate": 4.0297797649485515e-05,
8404
+ "loss": 2.0211,
8405
+ "step": 107600
8406
+ },
8407
+ {
8408
+ "epoch": 0.010326023253088039,
8409
+ "grad_norm": 1.082560658454895,
8410
+ "learning_rate": 4.028028017160712e-05,
8411
+ "loss": 2.0304,
8412
+ "step": 107700
8413
+ },
8414
+ {
8415
+ "epoch": 0.01060510496263096,
8416
+ "grad_norm": 1.551513910293579,
8417
+ "learning_rate": 4.026275070907744e-05,
8418
+ "loss": 2.0332,
8419
+ "step": 107800
8420
+ },
8421
+ {
8422
+ "epoch": 0.01088418667217388,
8423
+ "grad_norm": 1.658700704574585,
8424
+ "learning_rate": 4.024520927564521e-05,
8425
+ "loss": 2.0134,
8426
+ "step": 107900
8427
+ },
8428
+ {
8429
+ "epoch": 0.0111632683817168,
8430
+ "grad_norm": 1.734298586845398,
8431
+ "learning_rate": 4.022765588506854e-05,
8432
+ "loss": 2.0259,
8433
+ "step": 108000
8434
+ },
8435
+ {
8436
+ "epoch": 0.0111632683817168,
8437
+ "eval_loss": 2.248534917831421,
8438
+ "eval_runtime": 51.918,
8439
+ "eval_samples_per_second": 196.348,
8440
+ "eval_steps_per_second": 1.541,
8441
+ "step": 108000
8442
+ },
8443
+ {
8444
+ "epoch": 0.011442350091259719,
8445
+ "grad_norm": 1.3358790874481201,
8446
+ "learning_rate": 4.021009055111493e-05,
8447
+ "loss": 2.0226,
8448
+ "step": 108100
8449
+ },
8450
+ {
8451
+ "epoch": 0.011721431800802639,
8452
+ "grad_norm": 1.6433982849121094,
8453
+ "learning_rate": 4.019251328756125e-05,
8454
+ "loss": 2.0231,
8455
+ "step": 108200
8456
+ },
8457
+ {
8458
+ "epoch": 0.012000513510345558,
8459
+ "grad_norm": 1.6571450233459473,
8460
+ "learning_rate": 4.0174924108193734e-05,
8461
+ "loss": 2.0272,
8462
+ "step": 108300
8463
+ },
8464
+ {
8465
+ "epoch": 0.01227959521988848,
8466
+ "grad_norm": 1.5485866069793701,
8467
+ "learning_rate": 4.015732302680795e-05,
8468
+ "loss": 2.0154,
8469
+ "step": 108400
8470
+ },
8471
+ {
8472
+ "epoch": 0.0125586769294314,
8473
+ "grad_norm": 1.717331886291504,
8474
+ "learning_rate": 4.0139710057208794e-05,
8475
+ "loss": 2.0186,
8476
+ "step": 108500
8477
+ },
8478
+ {
8479
+ "epoch": 0.012837758638974319,
8480
+ "grad_norm": 1.3007159233093262,
8481
+ "learning_rate": 4.012208521321049e-05,
8482
+ "loss": 2.017,
8483
+ "step": 108600
8484
+ },
8485
+ {
8486
+ "epoch": 0.013116840348517239,
8487
+ "grad_norm": 1.6857043504714966,
8488
+ "learning_rate": 4.01044485086366e-05,
8489
+ "loss": 2.0183,
8490
+ "step": 108700
8491
+ },
8492
+ {
8493
+ "epoch": 0.013395922058060158,
8494
+ "grad_norm": 1.5786222219467163,
8495
+ "learning_rate": 4.0086799957319965e-05,
8496
+ "loss": 2.0081,
8497
+ "step": 108800
8498
+ },
8499
+ {
8500
+ "epoch": 0.013675003767603078,
8501
+ "grad_norm": 1.708694338798523,
8502
+ "learning_rate": 4.0069139573102715e-05,
8503
+ "loss": 2.0052,
8504
+ "step": 108900
8505
+ },
8506
+ {
8507
+ "epoch": 0.013954085477146,
8508
+ "grad_norm": 1.6401610374450684,
8509
+ "learning_rate": 4.005146736983627e-05,
8510
+ "loss": 1.998,
8511
+ "step": 109000
8512
+ },
8513
+ {
8514
+ "epoch": 0.013954085477146,
8515
+ "eval_loss": 2.2400035858154297,
8516
+ "eval_runtime": 52.1098,
8517
+ "eval_samples_per_second": 195.625,
8518
+ "eval_steps_per_second": 1.535,
8519
+ "step": 109000
8520
+ },
8521
+ {
8522
+ "epoch": 0.01423316718668892,
8523
+ "grad_norm": 1.3219704627990723,
8524
+ "learning_rate": 4.0033783361381324e-05,
8525
+ "loss": 2.0154,
8526
+ "step": 109100
8527
+ },
8528
+ {
8529
+ "epoch": 0.014512248896231839,
8530
+ "grad_norm": 1.7542061805725098,
8531
+ "learning_rate": 4.001608756160781e-05,
8532
+ "loss": 2.0129,
8533
+ "step": 109200
8534
+ },
8535
+ {
8536
+ "epoch": 0.014791330605774759,
8537
+ "grad_norm": 1.690807819366455,
8538
+ "learning_rate": 3.999837998439494e-05,
8539
+ "loss": 2.0031,
8540
+ "step": 109300
8541
+ },
8542
+ {
8543
+ "epoch": 0.015070412315317678,
8544
+ "grad_norm": 1.652106523513794,
8545
+ "learning_rate": 3.9980660643631137e-05,
8546
+ "loss": 2.0025,
8547
+ "step": 109400
8548
+ },
8549
+ {
8550
+ "epoch": 0.015349494024860598,
8551
+ "grad_norm": 1.5204631090164185,
8552
+ "learning_rate": 3.996292955321406e-05,
8553
+ "loss": 2.0024,
8554
+ "step": 109500
8555
+ },
8556
+ {
8557
+ "epoch": 0.01562857573440352,
8558
+ "grad_norm": 1.6795552968978882,
8559
+ "learning_rate": 3.9945186727050574e-05,
8560
+ "loss": 2.0078,
8561
+ "step": 109600
8562
+ },
8563
+ {
8564
+ "epoch": 0.015907657443946437,
8565
+ "grad_norm": 1.7057318687438965,
8566
+ "learning_rate": 3.992743217905678e-05,
8567
+ "loss": 2.0012,
8568
+ "step": 109700
8569
+ },
8570
+ {
8571
+ "epoch": 0.01618673915348936,
8572
+ "grad_norm": 1.5931191444396973,
8573
+ "learning_rate": 3.990966592315793e-05,
8574
+ "loss": 2.0042,
8575
+ "step": 109800
8576
+ },
8577
+ {
8578
+ "epoch": 0.01646582086303228,
8579
+ "grad_norm": 1.6618363857269287,
8580
+ "learning_rate": 3.989188797328851e-05,
8581
+ "loss": 2.0029,
8582
+ "step": 109900
8583
+ },
8584
+ {
8585
+ "epoch": 0.016744902572575198,
8586
+ "grad_norm": 1.6900277137756348,
8587
+ "learning_rate": 3.987409834339211e-05,
8588
+ "loss": 1.9952,
8589
+ "step": 110000
8590
+ },
8591
+ {
8592
+ "epoch": 0.016744902572575198,
8593
+ "eval_loss": 2.2469289302825928,
8594
+ "eval_runtime": 52.1385,
8595
+ "eval_samples_per_second": 195.518,
8596
+ "eval_steps_per_second": 1.534,
8597
+ "step": 110000
8598
+ },
8599
+ {
8600
+ "epoch": 0.01702398428211812,
8601
+ "grad_norm": 1.4866619110107422,
8602
+ "learning_rate": 3.985629704742153e-05,
8603
+ "loss": 2.0031,
8604
+ "step": 110100
8605
+ },
8606
+ {
8607
+ "epoch": 0.017303065991661037,
8608
+ "grad_norm": 1.759400725364685,
8609
+ "learning_rate": 3.9838484099338714e-05,
8610
+ "loss": 1.9986,
8611
+ "step": 110200
8612
+ },
8613
+ {
8614
+ "epoch": 0.01758214770120396,
8615
+ "grad_norm": 1.6036171913146973,
8616
+ "learning_rate": 3.9820659513114735e-05,
8617
+ "loss": 2.0032,
8618
+ "step": 110300
8619
+ },
8620
+ {
8621
+ "epoch": 0.017861229410746877,
8622
+ "grad_norm": 1.650638461112976,
8623
+ "learning_rate": 3.9802823302729806e-05,
8624
+ "loss": 1.9968,
8625
+ "step": 110400
8626
+ },
8627
+ {
8628
+ "epoch": 0.018140311120289798,
8629
+ "grad_norm": 0.8783386945724487,
8630
+ "learning_rate": 3.978497548217324e-05,
8631
+ "loss": 1.927,
8632
+ "step": 110500
8633
+ },
8634
+ {
8635
+ "epoch": 0.01841939282983272,
8636
+ "grad_norm": 1.0009950399398804,
8637
+ "learning_rate": 3.9767116065443464e-05,
8638
+ "loss": 1.8641,
8639
+ "step": 110600
8640
+ },
8641
+ {
8642
+ "epoch": 0.018698474539375638,
8643
+ "grad_norm": 1.0648219585418701,
8644
+ "learning_rate": 3.974924506654801e-05,
8645
+ "loss": 1.8177,
8646
+ "step": 110700
8647
+ },
8648
+ {
8649
+ "epoch": 0.01897755624891856,
8650
+ "grad_norm": 0.8869590759277344,
8651
+ "learning_rate": 3.9731362499503474e-05,
8652
+ "loss": 1.8099,
8653
+ "step": 110800
8654
+ },
8655
+ {
8656
+ "epoch": 0.019256637958461477,
8657
+ "grad_norm": 1.1313343048095703,
8658
+ "learning_rate": 3.971346837833556e-05,
8659
+ "loss": 1.7797,
8660
+ "step": 110900
8661
+ },
8662
+ {
8663
+ "epoch": 0.0195357196680044,
8664
+ "grad_norm": 0.87049400806427,
8665
+ "learning_rate": 3.969556271707898e-05,
8666
+ "loss": 1.7763,
8667
+ "step": 111000
8668
+ },
8669
+ {
8670
+ "epoch": 0.0195357196680044,
8671
+ "eval_loss": 2.235299587249756,
8672
+ "eval_runtime": 52.3725,
8673
+ "eval_samples_per_second": 194.644,
8674
+ "eval_steps_per_second": 1.528,
8675
+ "step": 111000
8676
+ },
8677
+ {
8678
+ "epoch": 0.01981480137754732,
8679
+ "grad_norm": 0.9816115498542786,
8680
+ "learning_rate": 3.967764552977754e-05,
8681
+ "loss": 1.7607,
8682
+ "step": 111100
8683
+ },
8684
+ {
8685
+ "epoch": 0.020093883087090238,
8686
+ "grad_norm": 1.1495822668075562,
8687
+ "learning_rate": 3.9659716830484085e-05,
8688
+ "loss": 1.7387,
8689
+ "step": 111200
8690
+ },
8691
+ {
8692
+ "epoch": 0.02037296479663316,
8693
+ "grad_norm": 1.117358684539795,
8694
+ "learning_rate": 3.9641776633260464e-05,
8695
+ "loss": 1.7432,
8696
+ "step": 111300
8697
+ },
8698
+ {
8699
+ "epoch": 0.020652046506176077,
8700
+ "grad_norm": 1.1056963205337524,
8701
+ "learning_rate": 3.962382495217757e-05,
8702
+ "loss": 1.7173,
8703
+ "step": 111400
8704
+ },
8705
+ {
8706
+ "epoch": 0.020931128215719,
8707
+ "grad_norm": 1.3292206525802612,
8708
+ "learning_rate": 3.960586180131528e-05,
8709
+ "loss": 1.7183,
8710
+ "step": 111500
8711
+ },
8712
+ {
8713
+ "epoch": 0.02121020992526192,
8714
+ "grad_norm": 1.182369589805603,
8715
+ "learning_rate": 3.9587887194762485e-05,
8716
+ "loss": 1.7172,
8717
+ "step": 111600
8718
+ },
8719
+ {
8720
+ "epoch": 0.021489291634804838,
8721
+ "grad_norm": 0.8990152478218079,
8722
+ "learning_rate": 3.956990114661705e-05,
8723
+ "loss": 1.6941,
8724
+ "step": 111700
8725
+ },
8726
+ {
8727
+ "epoch": 0.02176837334434776,
8728
+ "grad_norm": 1.1310220956802368,
8729
+ "learning_rate": 3.955190367098582e-05,
8730
+ "loss": 1.6928,
8731
+ "step": 111800
8732
+ },
8733
+ {
8734
+ "epoch": 0.022047455053890677,
8735
+ "grad_norm": 0.880366325378418,
8736
+ "learning_rate": 3.9533894781984606e-05,
8737
+ "loss": 1.6886,
8738
+ "step": 111900
8739
+ },
8740
+ {
8741
+ "epoch": 0.0223265367634336,
8742
+ "grad_norm": 0.8530257940292358,
8743
+ "learning_rate": 3.951587449373816e-05,
8744
+ "loss": 1.6671,
8745
+ "step": 112000
8746
+ },
8747
+ {
8748
+ "epoch": 0.0223265367634336,
8749
+ "eval_loss": 2.2474164962768555,
8750
+ "eval_runtime": 52.3853,
8751
+ "eval_samples_per_second": 194.597,
8752
+ "eval_steps_per_second": 1.527,
8753
+ "step": 112000
8754
+ },
8755
+ {
8756
+ "epoch": 0.022605618472976517,
8757
+ "grad_norm": 1.0223313570022583,
8758
+ "learning_rate": 3.949784282038018e-05,
8759
+ "loss": 1.6847,
8760
+ "step": 112100
8761
+ },
8762
+ {
8763
+ "epoch": 0.022884700182519438,
8764
+ "grad_norm": 0.878471314907074,
8765
+ "learning_rate": 3.9479799776053306e-05,
8766
+ "loss": 1.6647,
8767
+ "step": 112200
8768
+ },
8769
+ {
8770
+ "epoch": 0.02316378189206236,
8771
+ "grad_norm": 1.2385903596878052,
8772
+ "learning_rate": 3.9461745374909066e-05,
8773
+ "loss": 1.6462,
8774
+ "step": 112300
8775
+ },
8776
+ {
8777
+ "epoch": 0.023442863601605277,
8778
+ "grad_norm": 1.071331262588501,
8779
+ "learning_rate": 3.9443679631107924e-05,
8780
+ "loss": 1.641,
8781
+ "step": 112400
8782
+ },
8783
+ {
8784
+ "epoch": 0.0237219453111482,
8785
+ "grad_norm": 0.8975522518157959,
8786
+ "learning_rate": 3.942560255881922e-05,
8787
+ "loss": 1.6262,
8788
+ "step": 112500
8789
+ },
8790
+ {
8791
+ "epoch": 0.024001027020691117,
8792
+ "grad_norm": 0.8427426218986511,
8793
+ "learning_rate": 3.94075141722212e-05,
8794
+ "loss": 1.6467,
8795
+ "step": 112600
8796
+ },
8797
+ {
8798
+ "epoch": 0.024280108730234038,
8799
+ "grad_norm": 0.8209208250045776,
8800
+ "learning_rate": 3.938941448550098e-05,
8801
+ "loss": 1.6257,
8802
+ "step": 112700
8803
+ },
8804
+ {
8805
+ "epoch": 0.02455919043977696,
8806
+ "grad_norm": 0.8760822415351868,
8807
+ "learning_rate": 3.937130351285452e-05,
8808
+ "loss": 1.6292,
8809
+ "step": 112800
8810
+ },
8811
+ {
8812
+ "epoch": 0.024838272149319877,
8813
+ "grad_norm": 0.9947307705879211,
8814
+ "learning_rate": 3.935318126848664e-05,
8815
+ "loss": 1.6358,
8816
+ "step": 112900
8817
+ },
8818
+ {
8819
+ "epoch": 0.0251173538588628,
8820
+ "grad_norm": 1.6038973331451416,
8821
+ "learning_rate": 3.933504776661102e-05,
8822
+ "loss": 1.8923,
8823
+ "step": 113000
8824
+ },
8825
+ {
8826
+ "epoch": 0.0251173538588628,
8827
+ "eval_loss": 2.267655849456787,
8828
+ "eval_runtime": 51.8322,
8829
+ "eval_samples_per_second": 196.673,
8830
+ "eval_steps_per_second": 1.543,
8831
+ "step": 113000
8832
+ },
8833
+ {
8834
+ "epoch": 0.025396435568405717,
8835
+ "grad_norm": 1.4726253747940063,
8836
+ "learning_rate": 3.931690302145014e-05,
8837
+ "loss": 1.9579,
8838
+ "step": 113100
8839
+ },
8840
+ {
8841
+ "epoch": 0.025675517277948638,
8842
+ "grad_norm": 1.4382061958312988,
8843
+ "learning_rate": 3.9298747047235327e-05,
8844
+ "loss": 1.9466,
8845
+ "step": 113200
8846
+ },
8847
+ {
8848
+ "epoch": 0.025954598987491556,
8849
+ "grad_norm": 1.5668888092041016,
8850
+ "learning_rate": 3.928057985820668e-05,
8851
+ "loss": 1.9479,
8852
+ "step": 113300
8853
+ },
8854
+ {
8855
+ "epoch": 0.026233680697034478,
8856
+ "grad_norm": 1.5239572525024414,
8857
+ "learning_rate": 3.926240146861314e-05,
8858
+ "loss": 1.9306,
8859
+ "step": 113400
8860
+ },
8861
+ {
8862
+ "epoch": 0.0265127624065774,
8863
+ "grad_norm": 1.6437016725540161,
8864
+ "learning_rate": 3.924421189271239e-05,
8865
+ "loss": 1.9364,
8866
+ "step": 113500
8867
+ },
8868
+ {
8869
+ "epoch": 0.026791844116120317,
8870
+ "grad_norm": 1.632081151008606,
8871
+ "learning_rate": 3.9226011144770904e-05,
8872
+ "loss": 1.9297,
8873
+ "step": 113600
8874
+ },
8875
+ {
8876
+ "epoch": 0.02707092582566324,
8877
+ "grad_norm": 1.577589750289917,
8878
+ "learning_rate": 3.920779923906393e-05,
8879
+ "loss": 1.9223,
8880
+ "step": 113700
8881
+ },
8882
+ {
8883
+ "epoch": 0.027350007535206156,
8884
+ "grad_norm": 1.5894604921340942,
8885
+ "learning_rate": 3.918957618987545e-05,
8886
+ "loss": 1.9263,
8887
+ "step": 113800
8888
+ },
8889
+ {
8890
+ "epoch": 0.027629089244749078,
8891
+ "grad_norm": 1.5186114311218262,
8892
+ "learning_rate": 3.9171342011498185e-05,
8893
+ "loss": 1.9261,
8894
+ "step": 113900
8895
+ },
8896
+ {
8897
+ "epoch": 0.027908170954292,
8898
+ "grad_norm": 1.639272689819336,
8899
+ "learning_rate": 3.9153096718233604e-05,
8900
+ "loss": 1.9166,
8901
+ "step": 114000
8902
+ },
8903
+ {
8904
+ "epoch": 0.027908170954292,
8905
+ "eval_loss": 2.2479372024536133,
8906
+ "eval_runtime": 51.8659,
8907
+ "eval_samples_per_second": 196.545,
8908
+ "eval_steps_per_second": 1.542,
8909
+ "step": 114000
8910
+ },
8911
+ {
8912
+ "epoch": 0.028187252663834917,
8913
+ "grad_norm": 1.5154080390930176,
8914
+ "learning_rate": 3.913484032439187e-05,
8915
+ "loss": 1.916,
8916
+ "step": 114100
8917
+ },
8918
+ {
8919
+ "epoch": 0.02846633437337784,
8920
+ "grad_norm": 1.5147068500518799,
8921
+ "learning_rate": 3.911657284429189e-05,
8922
+ "loss": 1.9153,
8923
+ "step": 114200
8924
+ },
8925
+ {
8926
+ "epoch": 0.028745416082920756,
8927
+ "grad_norm": 1.5977636575698853,
8928
+ "learning_rate": 3.9098294292261205e-05,
8929
+ "loss": 1.9027,
8930
+ "step": 114300
8931
+ },
8932
+ {
8933
+ "epoch": 0.029024497792463678,
8934
+ "grad_norm": 1.4557409286499023,
8935
+ "learning_rate": 3.908000468263609e-05,
8936
+ "loss": 1.9073,
8937
+ "step": 114400
8938
+ },
8939
+ {
8940
+ "epoch": 0.0293035795020066,
8941
+ "grad_norm": 1.5657786130905151,
8942
+ "learning_rate": 3.9061704029761495e-05,
8943
+ "loss": 1.9026,
8944
+ "step": 114500
8945
+ },
8946
+ {
8947
+ "epoch": 0.029582661211549517,
8948
+ "grad_norm": 1.5239813327789307,
8949
+ "learning_rate": 3.904339234799098e-05,
8950
+ "loss": 1.9092,
8951
+ "step": 114600
8952
+ },
8953
+ {
8954
+ "epoch": 0.02986174292109244,
8955
+ "grad_norm": 1.4764059782028198,
8956
+ "learning_rate": 3.9025069651686816e-05,
8957
+ "loss": 1.9019,
8958
+ "step": 114700
8959
+ },
8960
+ {
8961
+ "epoch": 0.030140824630635357,
8962
+ "grad_norm": 1.5580713748931885,
8963
+ "learning_rate": 3.9006735955219874e-05,
8964
+ "loss": 1.8958,
8965
+ "step": 114800
8966
+ },
8967
+ {
8968
+ "epoch": 0.030419906340178278,
8969
+ "grad_norm": 1.5598928928375244,
8970
+ "learning_rate": 3.898839127296968e-05,
8971
+ "loss": 1.8961,
8972
+ "step": 114900
8973
+ },
8974
+ {
8975
+ "epoch": 0.030698988049721196,
8976
+ "grad_norm": 1.4871125221252441,
8977
+ "learning_rate": 3.897003561932434e-05,
8978
+ "loss": 1.8978,
8979
+ "step": 115000
8980
+ },
8981
+ {
8982
+ "epoch": 0.030698988049721196,
8983
+ "eval_loss": 2.2493135929107666,
8984
+ "eval_runtime": 51.934,
8985
+ "eval_samples_per_second": 196.288,
8986
+ "eval_steps_per_second": 1.54,
8987
+ "step": 115000
8988
+ },
8989
+ {
8990
+ "epoch": 0.030978069759264117,
8991
+ "grad_norm": 1.4677025079727173,
8992
+ "learning_rate": 3.89516690086806e-05,
8993
+ "loss": 1.8905,
8994
+ "step": 115100
8995
+ },
8996
+ {
8997
+ "epoch": 0.03125715146880704,
8998
+ "grad_norm": 1.4988230466842651,
8999
+ "learning_rate": 3.8933291455443786e-05,
9000
+ "loss": 1.8935,
9001
+ "step": 115200
9002
+ },
9003
+ {
9004
+ "epoch": 0.03153623317834996,
9005
+ "grad_norm": 1.5289825201034546,
9006
+ "learning_rate": 3.891490297402781e-05,
9007
+ "loss": 1.8875,
9008
+ "step": 115300
9009
+ },
9010
+ {
9011
+ "epoch": 0.031815314887892875,
9012
+ "grad_norm": 1.480161428451538,
9013
+ "learning_rate": 3.889650357885514e-05,
9014
+ "loss": 1.8897,
9015
+ "step": 115400
9016
+ },
9017
+ {
9018
+ "epoch": 0.0320943965974358,
9019
+ "grad_norm": 1.6153870820999146,
9020
+ "learning_rate": 3.887809328435683e-05,
9021
+ "loss": 1.8878,
9022
+ "step": 115500
9023
+ },
9024
+ {
9025
+ "epoch": 0.03237347830697872,
9026
+ "grad_norm": 1.409119725227356,
9027
+ "learning_rate": 3.8859672104972454e-05,
9028
+ "loss": 1.8976,
9029
+ "step": 115600
9030
+ },
9031
+ {
9032
+ "epoch": 0.032652560016521635,
9033
+ "grad_norm": 1.5816664695739746,
9034
+ "learning_rate": 3.884124005515015e-05,
9035
+ "loss": 1.8876,
9036
+ "step": 115700
9037
+ },
9038
+ {
9039
+ "epoch": 0.03293164172606456,
9040
+ "grad_norm": 1.5077482461929321,
9041
+ "learning_rate": 3.882279714934657e-05,
9042
+ "loss": 1.888,
9043
+ "step": 115800
9044
+ },
9045
+ {
9046
+ "epoch": 0.03321072343560748,
9047
+ "grad_norm": 1.4968522787094116,
9048
+ "learning_rate": 3.880434340202686e-05,
9049
+ "loss": 1.8841,
9050
+ "step": 115900
9051
+ },
9052
+ {
9053
+ "epoch": 0.033489805145150396,
9054
+ "grad_norm": 1.467680811882019,
9055
+ "learning_rate": 3.878587882766472e-05,
9056
+ "loss": 1.8832,
9057
+ "step": 116000
9058
+ },
9059
+ {
9060
+ "epoch": 0.033489805145150396,
9061
+ "eval_loss": 2.2356553077697754,
9062
+ "eval_runtime": 51.966,
9063
+ "eval_samples_per_second": 196.167,
9064
+ "eval_steps_per_second": 1.539,
9065
+ "step": 116000
9066
+ },
9067
+ {
9068
+ "epoch": 0.033768886854693314,
9069
+ "grad_norm": 1.4993896484375,
9070
+ "learning_rate": 3.87674034407423e-05,
9071
+ "loss": 1.8783,
9072
+ "step": 116100
9073
+ },
9074
+ {
9075
+ "epoch": 0.03404796856423624,
9076
+ "grad_norm": 1.479200005531311,
9077
+ "learning_rate": 3.8748917255750225e-05,
9078
+ "loss": 1.8864,
9079
+ "step": 116200
9080
+ },
9081
+ {
9082
+ "epoch": 0.03432705027377916,
9083
+ "grad_norm": 1.4365732669830322,
9084
+ "learning_rate": 3.873042028718764e-05,
9085
+ "loss": 1.877,
9086
+ "step": 116300
9087
+ },
9088
+ {
9089
+ "epoch": 0.034606131983322075,
9090
+ "grad_norm": 1.4553158283233643,
9091
+ "learning_rate": 3.871191254956208e-05,
9092
+ "loss": 1.8873,
9093
+ "step": 116400
9094
+ },
9095
+ {
9096
+ "epoch": 0.034885213692865,
9097
+ "grad_norm": 1.505732774734497,
9098
+ "learning_rate": 3.8693394057389574e-05,
9099
+ "loss": 1.8737,
9100
+ "step": 116500
9101
+ },
9102
+ {
9103
+ "epoch": 0.03516429540240792,
9104
+ "grad_norm": 1.4430396556854248,
9105
+ "learning_rate": 3.8674864825194574e-05,
9106
+ "loss": 1.8743,
9107
+ "step": 116600
9108
+ },
9109
+ {
9110
+ "epoch": 0.035443377111950836,
9111
+ "grad_norm": 1.5058810710906982,
9112
+ "learning_rate": 3.865632486750996e-05,
9113
+ "loss": 1.8734,
9114
+ "step": 116700
9115
+ },
9116
+ {
9117
+ "epoch": 0.035722458821493754,
9118
+ "grad_norm": 1.551901936531067,
9119
+ "learning_rate": 3.8637774198877e-05,
9120
+ "loss": 1.8754,
9121
+ "step": 116800
9122
+ },
9123
+ {
9124
+ "epoch": 0.03600154053103668,
9125
+ "grad_norm": 1.5766918659210205,
9126
+ "learning_rate": 3.86192128338454e-05,
9127
+ "loss": 1.878,
9128
+ "step": 116900
9129
+ },
9130
+ {
9131
+ "epoch": 0.036280622240579596,
9132
+ "grad_norm": 1.5308256149291992,
9133
+ "learning_rate": 3.860064078697323e-05,
9134
+ "loss": 1.8833,
9135
+ "step": 117000
9136
+ },
9137
+ {
9138
+ "epoch": 0.036280622240579596,
9139
+ "eval_loss": 2.2324624061584473,
9140
+ "eval_runtime": 51.883,
9141
+ "eval_samples_per_second": 196.48,
9142
+ "eval_steps_per_second": 1.542,
9143
+ "step": 117000
9144
  }
9145
  ],
9146
  "logging_steps": 100,
 
9160
  "attributes": {}
9161
  }
9162
  },
9163
+ "total_flos": 1.0210871976394752e+19,
9164
  "train_batch_size": 128,
9165
  "trial_name": null,
9166
  "trial_params": null
training_args.bin CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f4f786a1ab971b3519761e9e75ce2bb6dc37b3b2f73ad1120f8a4c1f996b3a44
3
  size 5777
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:da5f5517b1675eb630da2afe2ee47f40a6f105aba3407f1e48d33a873836c026
3
  size 5777