ErrorAI commited on
Commit
4ae7801
·
verified ·
1 Parent(s): c4f6c03

Training in progress, step 1348, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c0ba8f1dcf8c1fdbb0a02c2603f561328180d24b81061699c176126ae933a6bb
3
  size 48679352
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b7189c3f6166f33cbcb5b62b612e0b04c220fb62a6938a6401db9a58161c9232
3
  size 48679352
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:522560887765e121f45e5f5e69c749ec7776bfeadf7dccee1d579a4717457777
3
  size 25152884
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f51454ccb9f8b303a8f544fb4719b8fa31a5229f918aa1a58cdf32400fe1b73e
3
  size 25152884
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:97ddf09f9f408664fa20a31572cbb2fd09a35cfbd84e48ab9887925a0f978f54
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:55b299c52d6201f84aa147b9aa87992f5c397824e5cb440b0f7b67d941e6e386
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:57921b102b9e4db63bdb7876c16329bd57fa12c1595bd72253799508f3084829
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:dd26d8b02db4e883d2627ac1def223d85df0215e3f58adf64783c3d2247e2997
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
- "epoch": 0.006719818146167677,
5
  "eval_steps": 500,
6
- "global_step": 1011,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7084,6 +7084,2365 @@
7084
  "learning_rate": 1.474819249769387e-05,
7085
  "loss": 0.9628,
7086
  "step": 1011
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7087
  }
7088
  ],
7089
  "logging_steps": 1,
@@ -7098,12 +9457,12 @@
7098
  "should_evaluate": false,
7099
  "should_log": false,
7100
  "should_save": true,
7101
- "should_training_stop": false
7102
  },
7103
  "attributes": {}
7104
  }
7105
  },
7106
- "total_flos": 2.814199719788544e+17,
7107
  "train_batch_size": 4,
7108
  "trial_name": null,
7109
  "trial_params": null
 
1
  {
2
  "best_metric": null,
3
  "best_model_checkpoint": null,
4
+ "epoch": 0.008959757528223568,
5
  "eval_steps": 500,
6
+ "global_step": 1348,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7084
  "learning_rate": 1.474819249769387e-05,
7085
  "loss": 0.9628,
7086
  "step": 1011
7087
+ },
7088
+ {
7089
+ "epoch": 0.0067264648505654685,
7090
+ "grad_norm": 0.6961068511009216,
7091
+ "learning_rate": 1.4665343097240503e-05,
7092
+ "loss": 0.8654,
7093
+ "step": 1012
7094
+ },
7095
+ {
7096
+ "epoch": 0.00673311155496326,
7097
+ "grad_norm": 1.7019646167755127,
7098
+ "learning_rate": 1.4582687048667821e-05,
7099
+ "loss": 1.0952,
7100
+ "step": 1013
7101
+ },
7102
+ {
7103
+ "epoch": 0.006739758259361052,
7104
+ "grad_norm": 0.675050675868988,
7105
+ "learning_rate": 1.4500224804271224e-05,
7106
+ "loss": 0.8855,
7107
+ "step": 1014
7108
+ },
7109
+ {
7110
+ "epoch": 0.0067464049637588445,
7111
+ "grad_norm": 0.9519442915916443,
7112
+ "learning_rate": 1.4417956815285578e-05,
7113
+ "loss": 0.9579,
7114
+ "step": 1015
7115
+ },
7116
+ {
7117
+ "epoch": 0.006753051668156636,
7118
+ "grad_norm": 0.7415252327919006,
7119
+ "learning_rate": 1.4335883531882838e-05,
7120
+ "loss": 0.8451,
7121
+ "step": 1016
7122
+ },
7123
+ {
7124
+ "epoch": 0.006759698372554428,
7125
+ "grad_norm": 1.1390528678894043,
7126
+ "learning_rate": 1.425400540316948e-05,
7127
+ "loss": 0.8423,
7128
+ "step": 1017
7129
+ },
7130
+ {
7131
+ "epoch": 0.00676634507695222,
7132
+ "grad_norm": 0.9725595712661743,
7133
+ "learning_rate": 1.4172322877184086e-05,
7134
+ "loss": 0.7498,
7135
+ "step": 1018
7136
+ },
7137
+ {
7138
+ "epoch": 0.006772991781350012,
7139
+ "grad_norm": 0.9298149347305298,
7140
+ "learning_rate": 1.4090836400894959e-05,
7141
+ "loss": 1.0078,
7142
+ "step": 1019
7143
+ },
7144
+ {
7145
+ "epoch": 0.006779638485747804,
7146
+ "grad_norm": 0.8755249977111816,
7147
+ "learning_rate": 1.4009546420197522e-05,
7148
+ "loss": 0.8132,
7149
+ "step": 1020
7150
+ },
7151
+ {
7152
+ "epoch": 0.006786285190145596,
7153
+ "grad_norm": 1.2902690172195435,
7154
+ "learning_rate": 1.392845337991202e-05,
7155
+ "loss": 0.8194,
7156
+ "step": 1021
7157
+ },
7158
+ {
7159
+ "epoch": 0.006792931894543388,
7160
+ "grad_norm": 1.1407941579818726,
7161
+ "learning_rate": 1.3847557723781063e-05,
7162
+ "loss": 0.9492,
7163
+ "step": 1022
7164
+ },
7165
+ {
7166
+ "epoch": 0.00679957859894118,
7167
+ "grad_norm": 1.3614915609359741,
7168
+ "learning_rate": 1.3766859894467128e-05,
7169
+ "loss": 0.8664,
7170
+ "step": 1023
7171
+ },
7172
+ {
7173
+ "epoch": 0.006806225303338972,
7174
+ "grad_norm": 1.0740727186203003,
7175
+ "learning_rate": 1.368636033355018e-05,
7176
+ "loss": 0.971,
7177
+ "step": 1024
7178
+ },
7179
+ {
7180
+ "epoch": 0.006812872007736764,
7181
+ "grad_norm": 0.8833456635475159,
7182
+ "learning_rate": 1.3606059481525296e-05,
7183
+ "loss": 0.7741,
7184
+ "step": 1025
7185
+ },
7186
+ {
7187
+ "epoch": 0.006819518712134556,
7188
+ "grad_norm": 1.0809568166732788,
7189
+ "learning_rate": 1.3525957777800175e-05,
7190
+ "loss": 0.8665,
7191
+ "step": 1026
7192
+ },
7193
+ {
7194
+ "epoch": 0.006826165416532348,
7195
+ "grad_norm": 1.0262800455093384,
7196
+ "learning_rate": 1.3446055660692792e-05,
7197
+ "loss": 0.8596,
7198
+ "step": 1027
7199
+ },
7200
+ {
7201
+ "epoch": 0.00683281212093014,
7202
+ "grad_norm": 1.109528660774231,
7203
+ "learning_rate": 1.3366353567428968e-05,
7204
+ "loss": 0.9235,
7205
+ "step": 1028
7206
+ },
7207
+ {
7208
+ "epoch": 0.0068394588253279315,
7209
+ "grad_norm": 1.1061710119247437,
7210
+ "learning_rate": 1.3286851934139982e-05,
7211
+ "loss": 0.8335,
7212
+ "step": 1029
7213
+ },
7214
+ {
7215
+ "epoch": 0.006846105529725724,
7216
+ "grad_norm": 1.2392761707305908,
7217
+ "learning_rate": 1.3207551195860241e-05,
7218
+ "loss": 0.9051,
7219
+ "step": 1030
7220
+ },
7221
+ {
7222
+ "epoch": 0.006852752234123516,
7223
+ "grad_norm": 1.4736852645874023,
7224
+ "learning_rate": 1.3128451786524799e-05,
7225
+ "loss": 0.9024,
7226
+ "step": 1031
7227
+ },
7228
+ {
7229
+ "epoch": 0.006859398938521308,
7230
+ "grad_norm": 1.2435581684112549,
7231
+ "learning_rate": 1.3049554138967051e-05,
7232
+ "loss": 0.7742,
7233
+ "step": 1032
7234
+ },
7235
+ {
7236
+ "epoch": 0.006866045642919099,
7237
+ "grad_norm": 1.3452228307724,
7238
+ "learning_rate": 1.2970858684916354e-05,
7239
+ "loss": 0.7281,
7240
+ "step": 1033
7241
+ },
7242
+ {
7243
+ "epoch": 0.006872692347316892,
7244
+ "grad_norm": 1.332139492034912,
7245
+ "learning_rate": 1.2892365854995636e-05,
7246
+ "loss": 0.6664,
7247
+ "step": 1034
7248
+ },
7249
+ {
7250
+ "epoch": 0.006879339051714684,
7251
+ "grad_norm": 1.1080251932144165,
7252
+ "learning_rate": 1.2814076078719111e-05,
7253
+ "loss": 0.7559,
7254
+ "step": 1035
7255
+ },
7256
+ {
7257
+ "epoch": 0.006885985756112475,
7258
+ "grad_norm": 1.4522793292999268,
7259
+ "learning_rate": 1.2735989784489833e-05,
7260
+ "loss": 0.8294,
7261
+ "step": 1036
7262
+ },
7263
+ {
7264
+ "epoch": 0.006892632460510267,
7265
+ "grad_norm": 1.2575972080230713,
7266
+ "learning_rate": 1.2658107399597402e-05,
7267
+ "loss": 0.78,
7268
+ "step": 1037
7269
+ },
7270
+ {
7271
+ "epoch": 0.00689927916490806,
7272
+ "grad_norm": 1.3221418857574463,
7273
+ "learning_rate": 1.2580429350215655e-05,
7274
+ "loss": 0.7153,
7275
+ "step": 1038
7276
+ },
7277
+ {
7278
+ "epoch": 0.0069059258693058515,
7279
+ "grad_norm": 1.2984662055969238,
7280
+ "learning_rate": 1.2502956061400278e-05,
7281
+ "loss": 0.6847,
7282
+ "step": 1039
7283
+ },
7284
+ {
7285
+ "epoch": 0.006912572573703643,
7286
+ "grad_norm": 1.363701581954956,
7287
+ "learning_rate": 1.2425687957086501e-05,
7288
+ "loss": 0.8088,
7289
+ "step": 1040
7290
+ },
7291
+ {
7292
+ "epoch": 0.006919219278101435,
7293
+ "grad_norm": 1.7513952255249023,
7294
+ "learning_rate": 1.2348625460086783e-05,
7295
+ "loss": 0.9895,
7296
+ "step": 1041
7297
+ },
7298
+ {
7299
+ "epoch": 0.006925865982499228,
7300
+ "grad_norm": 1.6750338077545166,
7301
+ "learning_rate": 1.2271768992088489e-05,
7302
+ "loss": 0.6736,
7303
+ "step": 1042
7304
+ },
7305
+ {
7306
+ "epoch": 0.006932512686897019,
7307
+ "grad_norm": 1.670466661453247,
7308
+ "learning_rate": 1.219511897365163e-05,
7309
+ "loss": 0.5852,
7310
+ "step": 1043
7311
+ },
7312
+ {
7313
+ "epoch": 0.006939159391294811,
7314
+ "grad_norm": 2.0741326808929443,
7315
+ "learning_rate": 1.2118675824206471e-05,
7316
+ "loss": 0.8142,
7317
+ "step": 1044
7318
+ },
7319
+ {
7320
+ "epoch": 0.006945806095692603,
7321
+ "grad_norm": 1.7679868936538696,
7322
+ "learning_rate": 1.2042439962051316e-05,
7323
+ "loss": 0.815,
7324
+ "step": 1045
7325
+ },
7326
+ {
7327
+ "epoch": 0.0069524528000903954,
7328
+ "grad_norm": 2.1219823360443115,
7329
+ "learning_rate": 1.1966411804350169e-05,
7330
+ "loss": 1.1116,
7331
+ "step": 1046
7332
+ },
7333
+ {
7334
+ "epoch": 0.006959099504488187,
7335
+ "grad_norm": 2.6933865547180176,
7336
+ "learning_rate": 1.1890591767130488e-05,
7337
+ "loss": 1.1779,
7338
+ "step": 1047
7339
+ },
7340
+ {
7341
+ "epoch": 0.006965746208885979,
7342
+ "grad_norm": 2.501415729522705,
7343
+ "learning_rate": 1.1814980265280868e-05,
7344
+ "loss": 0.7689,
7345
+ "step": 1048
7346
+ },
7347
+ {
7348
+ "epoch": 0.006972392913283771,
7349
+ "grad_norm": 3.903364896774292,
7350
+ "learning_rate": 1.1739577712548844e-05,
7351
+ "loss": 0.9412,
7352
+ "step": 1049
7353
+ },
7354
+ {
7355
+ "epoch": 0.006979039617681563,
7356
+ "grad_norm": 3.4034478664398193,
7357
+ "learning_rate": 1.1664384521538529e-05,
7358
+ "loss": 1.2922,
7359
+ "step": 1050
7360
+ },
7361
+ {
7362
+ "epoch": 0.006985686322079355,
7363
+ "grad_norm": 0.39825499057769775,
7364
+ "learning_rate": 1.1589401103708414e-05,
7365
+ "loss": 1.081,
7366
+ "step": 1051
7367
+ },
7368
+ {
7369
+ "epoch": 0.006992333026477147,
7370
+ "grad_norm": 0.5522071123123169,
7371
+ "learning_rate": 1.1514627869369154e-05,
7372
+ "loss": 0.9383,
7373
+ "step": 1052
7374
+ },
7375
+ {
7376
+ "epoch": 0.006998979730874939,
7377
+ "grad_norm": 0.5248834490776062,
7378
+ "learning_rate": 1.1440065227681179e-05,
7379
+ "loss": 0.8488,
7380
+ "step": 1053
7381
+ },
7382
+ {
7383
+ "epoch": 0.007005626435272731,
7384
+ "grad_norm": 0.6659883260726929,
7385
+ "learning_rate": 1.1365713586652654e-05,
7386
+ "loss": 0.8654,
7387
+ "step": 1054
7388
+ },
7389
+ {
7390
+ "epoch": 0.007012273139670523,
7391
+ "grad_norm": 0.8896507024765015,
7392
+ "learning_rate": 1.1291573353137092e-05,
7393
+ "loss": 1.0403,
7394
+ "step": 1055
7395
+ },
7396
+ {
7397
+ "epoch": 0.007018919844068315,
7398
+ "grad_norm": 0.6538704633712769,
7399
+ "learning_rate": 1.1217644932831172e-05,
7400
+ "loss": 0.8849,
7401
+ "step": 1056
7402
+ },
7403
+ {
7404
+ "epoch": 0.007025566548466107,
7405
+ "grad_norm": 0.591541588306427,
7406
+ "learning_rate": 1.1143928730272574e-05,
7407
+ "loss": 0.8564,
7408
+ "step": 1057
7409
+ },
7410
+ {
7411
+ "epoch": 0.007032213252863899,
7412
+ "grad_norm": 0.6448386907577515,
7413
+ "learning_rate": 1.1070425148837677e-05,
7414
+ "loss": 0.8696,
7415
+ "step": 1058
7416
+ },
7417
+ {
7418
+ "epoch": 0.007038859957261691,
7419
+ "grad_norm": 0.909649670124054,
7420
+ "learning_rate": 1.09971345907394e-05,
7421
+ "loss": 0.8302,
7422
+ "step": 1059
7423
+ },
7424
+ {
7425
+ "epoch": 0.007045506661659482,
7426
+ "grad_norm": 0.6905636787414551,
7427
+ "learning_rate": 1.0924057457025006e-05,
7428
+ "loss": 0.7878,
7429
+ "step": 1060
7430
+ },
7431
+ {
7432
+ "epoch": 0.007052153366057275,
7433
+ "grad_norm": 0.7071312665939331,
7434
+ "learning_rate": 1.0851194147573874e-05,
7435
+ "loss": 0.8071,
7436
+ "step": 1061
7437
+ },
7438
+ {
7439
+ "epoch": 0.007058800070455067,
7440
+ "grad_norm": 0.7880951762199402,
7441
+ "learning_rate": 1.077854506109538e-05,
7442
+ "loss": 0.7939,
7443
+ "step": 1062
7444
+ },
7445
+ {
7446
+ "epoch": 0.0070654467748528585,
7447
+ "grad_norm": 0.9042670130729675,
7448
+ "learning_rate": 1.0706110595126622e-05,
7449
+ "loss": 0.817,
7450
+ "step": 1063
7451
+ },
7452
+ {
7453
+ "epoch": 0.00707209347925065,
7454
+ "grad_norm": 0.893925130367279,
7455
+ "learning_rate": 1.063389114603029e-05,
7456
+ "loss": 0.933,
7457
+ "step": 1064
7458
+ },
7459
+ {
7460
+ "epoch": 0.007078740183648443,
7461
+ "grad_norm": 0.8859744668006897,
7462
+ "learning_rate": 1.0561887108992558e-05,
7463
+ "loss": 0.9567,
7464
+ "step": 1065
7465
+ },
7466
+ {
7467
+ "epoch": 0.007085386888046235,
7468
+ "grad_norm": 0.8059008717536926,
7469
+ "learning_rate": 1.0490098878020771e-05,
7470
+ "loss": 1.0025,
7471
+ "step": 1066
7472
+ },
7473
+ {
7474
+ "epoch": 0.007092033592444026,
7475
+ "grad_norm": 0.9288918375968933,
7476
+ "learning_rate": 1.0418526845941428e-05,
7477
+ "loss": 0.7934,
7478
+ "step": 1067
7479
+ },
7480
+ {
7481
+ "epoch": 0.007098680296841818,
7482
+ "grad_norm": 2.7794365882873535,
7483
+ "learning_rate": 1.0347171404398016e-05,
7484
+ "loss": 0.9065,
7485
+ "step": 1068
7486
+ },
7487
+ {
7488
+ "epoch": 0.007105327001239611,
7489
+ "grad_norm": 0.8017891049385071,
7490
+ "learning_rate": 1.0276032943848773e-05,
7491
+ "loss": 0.7289,
7492
+ "step": 1069
7493
+ },
7494
+ {
7495
+ "epoch": 0.007111973705637402,
7496
+ "grad_norm": 0.959570050239563,
7497
+ "learning_rate": 1.0205111853564637e-05,
7498
+ "loss": 0.8598,
7499
+ "step": 1070
7500
+ },
7501
+ {
7502
+ "epoch": 0.007118620410035194,
7503
+ "grad_norm": 0.9912649393081665,
7504
+ "learning_rate": 1.0134408521627125e-05,
7505
+ "loss": 0.7436,
7506
+ "step": 1071
7507
+ },
7508
+ {
7509
+ "epoch": 0.007125267114432986,
7510
+ "grad_norm": 0.9054157137870789,
7511
+ "learning_rate": 1.00639233349261e-05,
7512
+ "loss": 0.7789,
7513
+ "step": 1072
7514
+ },
7515
+ {
7516
+ "epoch": 0.0071319138188307785,
7517
+ "grad_norm": 0.975159764289856,
7518
+ "learning_rate": 9.993656679157814e-06,
7519
+ "loss": 0.875,
7520
+ "step": 1073
7521
+ },
7522
+ {
7523
+ "epoch": 0.00713856052322857,
7524
+ "grad_norm": 0.8699640035629272,
7525
+ "learning_rate": 9.92360893882267e-06,
7526
+ "loss": 0.7706,
7527
+ "step": 1074
7528
+ },
7529
+ {
7530
+ "epoch": 0.007145207227626362,
7531
+ "grad_norm": 1.5838837623596191,
7532
+ "learning_rate": 9.853780497223142e-06,
7533
+ "loss": 0.682,
7534
+ "step": 1075
7535
+ },
7536
+ {
7537
+ "epoch": 0.007151853932024154,
7538
+ "grad_norm": 1.466307282447815,
7539
+ "learning_rate": 9.784171736461762e-06,
7540
+ "loss": 0.6719,
7541
+ "step": 1076
7542
+ },
7543
+ {
7544
+ "epoch": 0.007158500636421946,
7545
+ "grad_norm": 1.0214964151382446,
7546
+ "learning_rate": 9.714783037438908e-06,
7547
+ "loss": 0.7178,
7548
+ "step": 1077
7549
+ },
7550
+ {
7551
+ "epoch": 0.007165147340819738,
7552
+ "grad_norm": 1.1572860479354858,
7553
+ "learning_rate": 9.645614779850786e-06,
7554
+ "loss": 0.6817,
7555
+ "step": 1078
7556
+ },
7557
+ {
7558
+ "epoch": 0.00717179404521753,
7559
+ "grad_norm": 1.1431288719177246,
7560
+ "learning_rate": 9.576667342187362e-06,
7561
+ "loss": 0.9412,
7562
+ "step": 1079
7563
+ },
7564
+ {
7565
+ "epoch": 0.007178440749615322,
7566
+ "grad_norm": 1.1874042749404907,
7567
+ "learning_rate": 9.507941101730244e-06,
7568
+ "loss": 0.8299,
7569
+ "step": 1080
7570
+ },
7571
+ {
7572
+ "epoch": 0.007185087454013114,
7573
+ "grad_norm": 1.1492891311645508,
7574
+ "learning_rate": 9.439436434550685e-06,
7575
+ "loss": 0.7104,
7576
+ "step": 1081
7577
+ },
7578
+ {
7579
+ "epoch": 0.007191734158410906,
7580
+ "grad_norm": 1.3264169692993164,
7581
+ "learning_rate": 9.371153715507452e-06,
7582
+ "loss": 0.9369,
7583
+ "step": 1082
7584
+ },
7585
+ {
7586
+ "epoch": 0.007198380862808698,
7587
+ "grad_norm": 1.1123535633087158,
7588
+ "learning_rate": 9.303093318244798e-06,
7589
+ "loss": 0.6075,
7590
+ "step": 1083
7591
+ },
7592
+ {
7593
+ "epoch": 0.00720502756720649,
7594
+ "grad_norm": 1.3998688459396362,
7595
+ "learning_rate": 9.235255615190492e-06,
7596
+ "loss": 0.8027,
7597
+ "step": 1084
7598
+ },
7599
+ {
7600
+ "epoch": 0.007211674271604282,
7601
+ "grad_norm": 1.2818394899368286,
7602
+ "learning_rate": 9.16764097755361e-06,
7603
+ "loss": 0.7329,
7604
+ "step": 1085
7605
+ },
7606
+ {
7607
+ "epoch": 0.007218320976002074,
7608
+ "grad_norm": 1.576278805732727,
7609
+ "learning_rate": 9.100249775322717e-06,
7610
+ "loss": 0.5591,
7611
+ "step": 1086
7612
+ },
7613
+ {
7614
+ "epoch": 0.0072249676803998655,
7615
+ "grad_norm": 1.4213736057281494,
7616
+ "learning_rate": 9.03308237726367e-06,
7617
+ "loss": 0.8237,
7618
+ "step": 1087
7619
+ },
7620
+ {
7621
+ "epoch": 0.007231614384797658,
7622
+ "grad_norm": 1.4508426189422607,
7623
+ "learning_rate": 8.966139150917673e-06,
7624
+ "loss": 0.8817,
7625
+ "step": 1088
7626
+ },
7627
+ {
7628
+ "epoch": 0.00723826108919545,
7629
+ "grad_norm": 1.173179268836975,
7630
+ "learning_rate": 8.899420462599295e-06,
7631
+ "loss": 0.5531,
7632
+ "step": 1089
7633
+ },
7634
+ {
7635
+ "epoch": 0.0072449077935932416,
7636
+ "grad_norm": 1.7149258852005005,
7637
+ "learning_rate": 8.832926677394387e-06,
7638
+ "loss": 0.9887,
7639
+ "step": 1090
7640
+ },
7641
+ {
7642
+ "epoch": 0.007251554497991033,
7643
+ "grad_norm": 1.4370622634887695,
7644
+ "learning_rate": 8.766658159158154e-06,
7645
+ "loss": 0.8378,
7646
+ "step": 1091
7647
+ },
7648
+ {
7649
+ "epoch": 0.007258201202388826,
7650
+ "grad_norm": 1.8227239847183228,
7651
+ "learning_rate": 8.700615270513113e-06,
7652
+ "loss": 0.8106,
7653
+ "step": 1092
7654
+ },
7655
+ {
7656
+ "epoch": 0.007264847906786618,
7657
+ "grad_norm": 1.640458583831787,
7658
+ "learning_rate": 8.634798372847148e-06,
7659
+ "loss": 0.9043,
7660
+ "step": 1093
7661
+ },
7662
+ {
7663
+ "epoch": 0.007271494611184409,
7664
+ "grad_norm": 1.5509916543960571,
7665
+ "learning_rate": 8.569207826311497e-06,
7666
+ "loss": 0.5178,
7667
+ "step": 1094
7668
+ },
7669
+ {
7670
+ "epoch": 0.007278141315582201,
7671
+ "grad_norm": 1.9336589574813843,
7672
+ "learning_rate": 8.503843989818844e-06,
7673
+ "loss": 0.9943,
7674
+ "step": 1095
7675
+ },
7676
+ {
7677
+ "epoch": 0.007284788019979994,
7678
+ "grad_norm": 1.8835606575012207,
7679
+ "learning_rate": 8.438707221041264e-06,
7680
+ "loss": 0.9805,
7681
+ "step": 1096
7682
+ },
7683
+ {
7684
+ "epoch": 0.0072914347243777855,
7685
+ "grad_norm": 2.1661856174468994,
7686
+ "learning_rate": 8.373797876408329e-06,
7687
+ "loss": 1.1262,
7688
+ "step": 1097
7689
+ },
7690
+ {
7691
+ "epoch": 0.007298081428775577,
7692
+ "grad_norm": 2.223982810974121,
7693
+ "learning_rate": 8.309116311105175e-06,
7694
+ "loss": 0.7702,
7695
+ "step": 1098
7696
+ },
7697
+ {
7698
+ "epoch": 0.007304728133173369,
7699
+ "grad_norm": 2.4875991344451904,
7700
+ "learning_rate": 8.244662879070447e-06,
7701
+ "loss": 0.844,
7702
+ "step": 1099
7703
+ },
7704
+ {
7705
+ "epoch": 0.0073113748375711616,
7706
+ "grad_norm": 4.667254447937012,
7707
+ "learning_rate": 8.180437932994523e-06,
7708
+ "loss": 1.4025,
7709
+ "step": 1100
7710
+ },
7711
+ {
7712
+ "epoch": 0.007318021541968953,
7713
+ "grad_norm": 0.4407655894756317,
7714
+ "learning_rate": 8.116441824317466e-06,
7715
+ "loss": 1.0094,
7716
+ "step": 1101
7717
+ },
7718
+ {
7719
+ "epoch": 0.007324668246366745,
7720
+ "grad_norm": 0.7525428533554077,
7721
+ "learning_rate": 8.052674903227114e-06,
7722
+ "loss": 1.1577,
7723
+ "step": 1102
7724
+ },
7725
+ {
7726
+ "epoch": 0.007331314950764537,
7727
+ "grad_norm": 0.6444684863090515,
7728
+ "learning_rate": 7.989137518657241e-06,
7729
+ "loss": 0.7716,
7730
+ "step": 1103
7731
+ },
7732
+ {
7733
+ "epoch": 0.007337961655162329,
7734
+ "grad_norm": 0.7983958125114441,
7735
+ "learning_rate": 7.925830018285558e-06,
7736
+ "loss": 0.9884,
7737
+ "step": 1104
7738
+ },
7739
+ {
7740
+ "epoch": 0.007344608359560121,
7741
+ "grad_norm": 0.9875003695487976,
7742
+ "learning_rate": 7.862752748531832e-06,
7743
+ "loss": 0.8579,
7744
+ "step": 1105
7745
+ },
7746
+ {
7747
+ "epoch": 0.007351255063957913,
7748
+ "grad_norm": 0.7467929124832153,
7749
+ "learning_rate": 7.799906054556038e-06,
7750
+ "loss": 0.9209,
7751
+ "step": 1106
7752
+ },
7753
+ {
7754
+ "epoch": 0.007357901768355705,
7755
+ "grad_norm": 0.6296849250793457,
7756
+ "learning_rate": 7.737290280256404e-06,
7757
+ "loss": 0.8742,
7758
+ "step": 1107
7759
+ },
7760
+ {
7761
+ "epoch": 0.007364548472753497,
7762
+ "grad_norm": 0.6243581175804138,
7763
+ "learning_rate": 7.674905768267598e-06,
7764
+ "loss": 0.5811,
7765
+ "step": 1108
7766
+ },
7767
+ {
7768
+ "epoch": 0.007371195177151289,
7769
+ "grad_norm": 0.7141432762145996,
7770
+ "learning_rate": 7.612752859958788e-06,
7771
+ "loss": 0.8225,
7772
+ "step": 1109
7773
+ },
7774
+ {
7775
+ "epoch": 0.007377841881549081,
7776
+ "grad_norm": 0.8562071323394775,
7777
+ "learning_rate": 7.550831895431798e-06,
7778
+ "loss": 0.8902,
7779
+ "step": 1110
7780
+ },
7781
+ {
7782
+ "epoch": 0.007384488585946873,
7783
+ "grad_norm": 0.7764965891838074,
7784
+ "learning_rate": 7.489143213519301e-06,
7785
+ "loss": 0.7679,
7786
+ "step": 1111
7787
+ },
7788
+ {
7789
+ "epoch": 0.007391135290344665,
7790
+ "grad_norm": 0.8709304928779602,
7791
+ "learning_rate": 7.427687151782831e-06,
7792
+ "loss": 0.9091,
7793
+ "step": 1112
7794
+ },
7795
+ {
7796
+ "epoch": 0.007397781994742457,
7797
+ "grad_norm": 0.7640267014503479,
7798
+ "learning_rate": 7.366464046511095e-06,
7799
+ "loss": 0.7604,
7800
+ "step": 1113
7801
+ },
7802
+ {
7803
+ "epoch": 0.0074044286991402485,
7804
+ "grad_norm": 0.76639324426651,
7805
+ "learning_rate": 7.305474232718034e-06,
7806
+ "loss": 0.7818,
7807
+ "step": 1114
7808
+ },
7809
+ {
7810
+ "epoch": 0.007411075403538041,
7811
+ "grad_norm": 0.8508751392364502,
7812
+ "learning_rate": 7.244718044140985e-06,
7813
+ "loss": 0.7539,
7814
+ "step": 1115
7815
+ },
7816
+ {
7817
+ "epoch": 0.007417722107935833,
7818
+ "grad_norm": 0.7841925621032715,
7819
+ "learning_rate": 7.184195813238942e-06,
7820
+ "loss": 1.0814,
7821
+ "step": 1116
7822
+ },
7823
+ {
7824
+ "epoch": 0.007424368812333625,
7825
+ "grad_norm": 0.782747745513916,
7826
+ "learning_rate": 7.123907871190638e-06,
7827
+ "loss": 0.9666,
7828
+ "step": 1117
7829
+ },
7830
+ {
7831
+ "epoch": 0.007431015516731416,
7832
+ "grad_norm": 0.7739728093147278,
7833
+ "learning_rate": 7.0638545478927564e-06,
7834
+ "loss": 1.0658,
7835
+ "step": 1118
7836
+ },
7837
+ {
7838
+ "epoch": 0.007437662221129209,
7839
+ "grad_norm": 0.7077974677085876,
7840
+ "learning_rate": 7.004036171958189e-06,
7841
+ "loss": 0.9449,
7842
+ "step": 1119
7843
+ },
7844
+ {
7845
+ "epoch": 0.007444308925527001,
7846
+ "grad_norm": 0.8694546222686768,
7847
+ "learning_rate": 6.944453070714163e-06,
7848
+ "loss": 0.8399,
7849
+ "step": 1120
7850
+ },
7851
+ {
7852
+ "epoch": 0.0074509556299247924,
7853
+ "grad_norm": 1.0898901224136353,
7854
+ "learning_rate": 6.885105570200473e-06,
7855
+ "loss": 0.6944,
7856
+ "step": 1121
7857
+ },
7858
+ {
7859
+ "epoch": 0.007457602334322584,
7860
+ "grad_norm": 1.1614891290664673,
7861
+ "learning_rate": 6.825993995167734e-06,
7862
+ "loss": 0.9711,
7863
+ "step": 1122
7864
+ },
7865
+ {
7866
+ "epoch": 0.007464249038720377,
7867
+ "grad_norm": 0.9722786545753479,
7868
+ "learning_rate": 6.767118669075551e-06,
7869
+ "loss": 1.0403,
7870
+ "step": 1123
7871
+ },
7872
+ {
7873
+ "epoch": 0.0074708957431181685,
7874
+ "grad_norm": 1.130591630935669,
7875
+ "learning_rate": 6.70847991409076e-06,
7876
+ "loss": 0.9114,
7877
+ "step": 1124
7878
+ },
7879
+ {
7880
+ "epoch": 0.00747754244751596,
7881
+ "grad_norm": 0.9889459013938904,
7882
+ "learning_rate": 6.6500780510856894e-06,
7883
+ "loss": 0.8139,
7884
+ "step": 1125
7885
+ },
7886
+ {
7887
+ "epoch": 0.007484189151913752,
7888
+ "grad_norm": 0.9626076817512512,
7889
+ "learning_rate": 6.591913399636379e-06,
7890
+ "loss": 0.7973,
7891
+ "step": 1126
7892
+ },
7893
+ {
7894
+ "epoch": 0.007490835856311545,
7895
+ "grad_norm": 1.1746480464935303,
7896
+ "learning_rate": 6.533986278020876e-06,
7897
+ "loss": 0.7858,
7898
+ "step": 1127
7899
+ },
7900
+ {
7901
+ "epoch": 0.007497482560709336,
7902
+ "grad_norm": 0.9362528920173645,
7903
+ "learning_rate": 6.4762970032174244e-06,
7904
+ "loss": 0.742,
7905
+ "step": 1128
7906
+ },
7907
+ {
7908
+ "epoch": 0.007504129265107128,
7909
+ "grad_norm": 1.059566855430603,
7910
+ "learning_rate": 6.418845890902758e-06,
7911
+ "loss": 0.6696,
7912
+ "step": 1129
7913
+ },
7914
+ {
7915
+ "epoch": 0.00751077596950492,
7916
+ "grad_norm": 1.0743556022644043,
7917
+ "learning_rate": 6.36163325545045e-06,
7918
+ "loss": 0.8127,
7919
+ "step": 1130
7920
+ },
7921
+ {
7922
+ "epoch": 0.0075174226739027124,
7923
+ "grad_norm": 1.2865488529205322,
7924
+ "learning_rate": 6.304659409929014e-06,
7925
+ "loss": 0.6302,
7926
+ "step": 1131
7927
+ },
7928
+ {
7929
+ "epoch": 0.007524069378300504,
7930
+ "grad_norm": 1.5246131420135498,
7931
+ "learning_rate": 6.2479246661004075e-06,
7932
+ "loss": 1.0186,
7933
+ "step": 1132
7934
+ },
7935
+ {
7936
+ "epoch": 0.007530716082698296,
7937
+ "grad_norm": 1.2269837856292725,
7938
+ "learning_rate": 6.191429334418159e-06,
7939
+ "loss": 0.7935,
7940
+ "step": 1133
7941
+ },
7942
+ {
7943
+ "epoch": 0.007537362787096088,
7944
+ "grad_norm": 1.1740168333053589,
7945
+ "learning_rate": 6.135173724025728e-06,
7946
+ "loss": 0.8413,
7947
+ "step": 1134
7948
+ },
7949
+ {
7950
+ "epoch": 0.00754400949149388,
7951
+ "grad_norm": 1.4913796186447144,
7952
+ "learning_rate": 6.079158142754854e-06,
7953
+ "loss": 0.7446,
7954
+ "step": 1135
7955
+ },
7956
+ {
7957
+ "epoch": 0.007550656195891672,
7958
+ "grad_norm": 1.0735604763031006,
7959
+ "learning_rate": 6.023382897123802e-06,
7960
+ "loss": 0.7684,
7961
+ "step": 1136
7962
+ },
7963
+ {
7964
+ "epoch": 0.007557302900289464,
7965
+ "grad_norm": 1.630862832069397,
7966
+ "learning_rate": 5.967848292335726e-06,
7967
+ "loss": 0.7411,
7968
+ "step": 1137
7969
+ },
7970
+ {
7971
+ "epoch": 0.007563949604687256,
7972
+ "grad_norm": 1.8513967990875244,
7973
+ "learning_rate": 5.9125546322769735e-06,
7974
+ "loss": 0.8697,
7975
+ "step": 1138
7976
+ },
7977
+ {
7978
+ "epoch": 0.007570596309085048,
7979
+ "grad_norm": 2.3496155738830566,
7980
+ "learning_rate": 5.857502219515454e-06,
7981
+ "loss": 1.0677,
7982
+ "step": 1139
7983
+ },
7984
+ {
7985
+ "epoch": 0.00757724301348284,
7986
+ "grad_norm": 1.3723787069320679,
7987
+ "learning_rate": 5.8026913552989785e-06,
7988
+ "loss": 0.8436,
7989
+ "step": 1140
7990
+ },
7991
+ {
7992
+ "epoch": 0.007583889717880632,
7993
+ "grad_norm": 1.3498401641845703,
7994
+ "learning_rate": 5.748122339553574e-06,
7995
+ "loss": 0.576,
7996
+ "step": 1141
7997
+ },
7998
+ {
7999
+ "epoch": 0.007590536422278424,
8000
+ "grad_norm": 1.2930383682250977,
8001
+ "learning_rate": 5.693795470881874e-06,
8002
+ "loss": 0.6561,
8003
+ "step": 1142
8004
+ },
8005
+ {
8006
+ "epoch": 0.007597183126676216,
8007
+ "grad_norm": 1.4337948560714722,
8008
+ "learning_rate": 5.6397110465615185e-06,
8009
+ "loss": 0.76,
8010
+ "step": 1143
8011
+ },
8012
+ {
8013
+ "epoch": 0.007603829831074008,
8014
+ "grad_norm": 1.9629545211791992,
8015
+ "learning_rate": 5.585869362543416e-06,
8016
+ "loss": 0.8236,
8017
+ "step": 1144
8018
+ },
8019
+ {
8020
+ "epoch": 0.007610476535471799,
8021
+ "grad_norm": 2.1740760803222656,
8022
+ "learning_rate": 5.532270713450238e-06,
8023
+ "loss": 1.0983,
8024
+ "step": 1145
8025
+ },
8026
+ {
8027
+ "epoch": 0.007617123239869592,
8028
+ "grad_norm": 2.136279344558716,
8029
+ "learning_rate": 5.478915392574774e-06,
8030
+ "loss": 0.9574,
8031
+ "step": 1146
8032
+ },
8033
+ {
8034
+ "epoch": 0.007623769944267384,
8035
+ "grad_norm": 2.5724313259124756,
8036
+ "learning_rate": 5.425803691878306e-06,
8037
+ "loss": 0.8941,
8038
+ "step": 1147
8039
+ },
8040
+ {
8041
+ "epoch": 0.0076304166486651755,
8042
+ "grad_norm": 2.502218008041382,
8043
+ "learning_rate": 5.372935901989001e-06,
8044
+ "loss": 0.7709,
8045
+ "step": 1148
8046
+ },
8047
+ {
8048
+ "epoch": 0.007637063353062967,
8049
+ "grad_norm": 2.775395154953003,
8050
+ "learning_rate": 5.320312312200376e-06,
8051
+ "loss": 0.8911,
8052
+ "step": 1149
8053
+ },
8054
+ {
8055
+ "epoch": 0.00764371005746076,
8056
+ "grad_norm": 3.990251064300537,
8057
+ "learning_rate": 5.267933210469666e-06,
8058
+ "loss": 0.8216,
8059
+ "step": 1150
8060
+ },
8061
+ {
8062
+ "epoch": 0.007650356761858552,
8063
+ "grad_norm": 0.39456188678741455,
8064
+ "learning_rate": 5.215798883416251e-06,
8065
+ "loss": 0.8644,
8066
+ "step": 1151
8067
+ },
8068
+ {
8069
+ "epoch": 0.007657003466256343,
8070
+ "grad_norm": 0.8583712577819824,
8071
+ "learning_rate": 5.1639096163201174e-06,
8072
+ "loss": 1.0014,
8073
+ "step": 1152
8074
+ },
8075
+ {
8076
+ "epoch": 0.007663650170654135,
8077
+ "grad_norm": 0.9232821464538574,
8078
+ "learning_rate": 5.112265693120261e-06,
8079
+ "loss": 0.8994,
8080
+ "step": 1153
8081
+ },
8082
+ {
8083
+ "epoch": 0.007670296875051928,
8084
+ "grad_norm": 0.5785272717475891,
8085
+ "learning_rate": 5.060867396413177e-06,
8086
+ "loss": 0.9637,
8087
+ "step": 1154
8088
+ },
8089
+ {
8090
+ "epoch": 0.007676943579449719,
8091
+ "grad_norm": 0.6478680968284607,
8092
+ "learning_rate": 5.009715007451266e-06,
8093
+ "loss": 0.8283,
8094
+ "step": 1155
8095
+ },
8096
+ {
8097
+ "epoch": 0.007683590283847511,
8098
+ "grad_norm": 0.8059694766998291,
8099
+ "learning_rate": 4.958808806141324e-06,
8100
+ "loss": 0.9192,
8101
+ "step": 1156
8102
+ },
8103
+ {
8104
+ "epoch": 0.007690236988245303,
8105
+ "grad_norm": 0.6113861203193665,
8106
+ "learning_rate": 4.908149071043011e-06,
8107
+ "loss": 0.9582,
8108
+ "step": 1157
8109
+ },
8110
+ {
8111
+ "epoch": 0.0076968836926430955,
8112
+ "grad_norm": 0.8809743523597717,
8113
+ "learning_rate": 4.857736079367292e-06,
8114
+ "loss": 0.8583,
8115
+ "step": 1158
8116
+ },
8117
+ {
8118
+ "epoch": 0.007703530397040887,
8119
+ "grad_norm": 0.8392626643180847,
8120
+ "learning_rate": 4.80757010697499e-06,
8121
+ "loss": 0.7019,
8122
+ "step": 1159
8123
+ },
8124
+ {
8125
+ "epoch": 0.007710177101438679,
8126
+ "grad_norm": 0.6849403977394104,
8127
+ "learning_rate": 4.757651428375204e-06,
8128
+ "loss": 0.9524,
8129
+ "step": 1160
8130
+ },
8131
+ {
8132
+ "epoch": 0.007716823805836471,
8133
+ "grad_norm": 0.8214367032051086,
8134
+ "learning_rate": 4.707980316723837e-06,
8135
+ "loss": 0.8737,
8136
+ "step": 1161
8137
+ },
8138
+ {
8139
+ "epoch": 0.007723470510234263,
8140
+ "grad_norm": 0.7810667753219604,
8141
+ "learning_rate": 4.658557043822126e-06,
8142
+ "loss": 0.9465,
8143
+ "step": 1162
8144
+ },
8145
+ {
8146
+ "epoch": 0.007730117214632055,
8147
+ "grad_norm": 0.9260057210922241,
8148
+ "learning_rate": 4.60938188011511e-06,
8149
+ "loss": 0.8487,
8150
+ "step": 1163
8151
+ },
8152
+ {
8153
+ "epoch": 0.007736763919029847,
8154
+ "grad_norm": 0.7148987054824829,
8155
+ "learning_rate": 4.560455094690147e-06,
8156
+ "loss": 0.8699,
8157
+ "step": 1164
8158
+ },
8159
+ {
8160
+ "epoch": 0.007743410623427639,
8161
+ "grad_norm": 0.8174601197242737,
8162
+ "learning_rate": 4.5117769552755204e-06,
8163
+ "loss": 0.8122,
8164
+ "step": 1165
8165
+ },
8166
+ {
8167
+ "epoch": 0.007750057327825431,
8168
+ "grad_norm": 1.025646448135376,
8169
+ "learning_rate": 4.463347728238876e-06,
8170
+ "loss": 0.9181,
8171
+ "step": 1166
8172
+ },
8173
+ {
8174
+ "epoch": 0.007756704032223223,
8175
+ "grad_norm": 0.7788020372390747,
8176
+ "learning_rate": 4.4151676785858134e-06,
8177
+ "loss": 0.9611,
8178
+ "step": 1167
8179
+ },
8180
+ {
8181
+ "epoch": 0.007763350736621015,
8182
+ "grad_norm": 1.321489691734314,
8183
+ "learning_rate": 4.367237069958452e-06,
8184
+ "loss": 0.9909,
8185
+ "step": 1168
8186
+ },
8187
+ {
8188
+ "epoch": 0.007769997441018807,
8189
+ "grad_norm": 0.7479851841926575,
8190
+ "learning_rate": 4.319556164633931e-06,
8191
+ "loss": 0.6977,
8192
+ "step": 1169
8193
+ },
8194
+ {
8195
+ "epoch": 0.007776644145416599,
8196
+ "grad_norm": 1.0073057413101196,
8197
+ "learning_rate": 4.272125223523038e-06,
8198
+ "loss": 1.0281,
8199
+ "step": 1170
8200
+ },
8201
+ {
8202
+ "epoch": 0.007783290849814391,
8203
+ "grad_norm": 0.9414459466934204,
8204
+ "learning_rate": 4.224944506168727e-06,
8205
+ "loss": 0.9071,
8206
+ "step": 1171
8207
+ },
8208
+ {
8209
+ "epoch": 0.0077899375542121825,
8210
+ "grad_norm": 0.8787379264831543,
8211
+ "learning_rate": 4.178014270744734e-06,
8212
+ "loss": 0.8008,
8213
+ "step": 1172
8214
+ },
8215
+ {
8216
+ "epoch": 0.007796584258609975,
8217
+ "grad_norm": 1.0833090543746948,
8218
+ "learning_rate": 4.131334774054174e-06,
8219
+ "loss": 0.8581,
8220
+ "step": 1173
8221
+ },
8222
+ {
8223
+ "epoch": 0.007803230963007767,
8224
+ "grad_norm": 1.1257520914077759,
8225
+ "learning_rate": 4.084906271528078e-06,
8226
+ "loss": 0.9957,
8227
+ "step": 1174
8228
+ },
8229
+ {
8230
+ "epoch": 0.0078098776674055586,
8231
+ "grad_norm": 0.8979743719100952,
8232
+ "learning_rate": 4.038729017224053e-06,
8233
+ "loss": 0.9922,
8234
+ "step": 1175
8235
+ },
8236
+ {
8237
+ "epoch": 0.00781652437180335,
8238
+ "grad_norm": 1.0814310312271118,
8239
+ "learning_rate": 3.9928032638248845e-06,
8240
+ "loss": 0.6788,
8241
+ "step": 1176
8242
+ },
8243
+ {
8244
+ "epoch": 0.007823171076201143,
8245
+ "grad_norm": 1.2778379917144775,
8246
+ "learning_rate": 3.9471292626370945e-06,
8247
+ "loss": 0.8249,
8248
+ "step": 1177
8249
+ },
8250
+ {
8251
+ "epoch": 0.007829817780598934,
8252
+ "grad_norm": 1.479982614517212,
8253
+ "learning_rate": 3.901707263589671e-06,
8254
+ "loss": 0.5155,
8255
+ "step": 1178
8256
+ },
8257
+ {
8258
+ "epoch": 0.007836464484996726,
8259
+ "grad_norm": 0.9428544640541077,
8260
+ "learning_rate": 3.8565375152325996e-06,
8261
+ "loss": 0.8443,
8262
+ "step": 1179
8263
+ },
8264
+ {
8265
+ "epoch": 0.007843111189394519,
8266
+ "grad_norm": 0.9592569470405579,
8267
+ "learning_rate": 3.8116202647355493e-06,
8268
+ "loss": 0.7258,
8269
+ "step": 1180
8270
+ },
8271
+ {
8272
+ "epoch": 0.00784975789379231,
8273
+ "grad_norm": 1.0904635190963745,
8274
+ "learning_rate": 3.766955757886548e-06,
8275
+ "loss": 0.9012,
8276
+ "step": 1181
8277
+ },
8278
+ {
8279
+ "epoch": 0.007856404598190102,
8280
+ "grad_norm": 1.4539234638214111,
8281
+ "learning_rate": 3.7225442390905754e-06,
8282
+ "loss": 1.1477,
8283
+ "step": 1182
8284
+ },
8285
+ {
8286
+ "epoch": 0.007863051302587895,
8287
+ "grad_norm": 1.4327820539474487,
8288
+ "learning_rate": 3.678385951368257e-06,
8289
+ "loss": 0.7707,
8290
+ "step": 1183
8291
+ },
8292
+ {
8293
+ "epoch": 0.007869698006985686,
8294
+ "grad_norm": 1.1811769008636475,
8295
+ "learning_rate": 3.6344811363545505e-06,
8296
+ "loss": 0.8859,
8297
+ "step": 1184
8298
+ },
8299
+ {
8300
+ "epoch": 0.007876344711383479,
8301
+ "grad_norm": 1.3446558713912964,
8302
+ "learning_rate": 3.590830034297382e-06,
8303
+ "loss": 0.8637,
8304
+ "step": 1185
8305
+ },
8306
+ {
8307
+ "epoch": 0.00788299141578127,
8308
+ "grad_norm": 1.423336386680603,
8309
+ "learning_rate": 3.54743288405639e-06,
8310
+ "loss": 0.7678,
8311
+ "step": 1186
8312
+ },
8313
+ {
8314
+ "epoch": 0.007889638120179062,
8315
+ "grad_norm": 1.4963477849960327,
8316
+ "learning_rate": 3.504289923101556e-06,
8317
+ "loss": 0.8908,
8318
+ "step": 1187
8319
+ },
8320
+ {
8321
+ "epoch": 0.007896284824576855,
8322
+ "grad_norm": 1.390196442604065,
8323
+ "learning_rate": 3.461401387511931e-06,
8324
+ "loss": 0.8631,
8325
+ "step": 1188
8326
+ },
8327
+ {
8328
+ "epoch": 0.007902931528974646,
8329
+ "grad_norm": 1.5411558151245117,
8330
+ "learning_rate": 3.41876751197438e-06,
8331
+ "loss": 0.8,
8332
+ "step": 1189
8333
+ },
8334
+ {
8335
+ "epoch": 0.007909578233372438,
8336
+ "grad_norm": 1.6541517972946167,
8337
+ "learning_rate": 3.376388529782215e-06,
8338
+ "loss": 0.8427,
8339
+ "step": 1190
8340
+ },
8341
+ {
8342
+ "epoch": 0.00791622493777023,
8343
+ "grad_norm": 1.5967952013015747,
8344
+ "learning_rate": 3.3342646728339977e-06,
8345
+ "loss": 0.9418,
8346
+ "step": 1191
8347
+ },
8348
+ {
8349
+ "epoch": 0.007922871642168022,
8350
+ "grad_norm": 1.55086350440979,
8351
+ "learning_rate": 3.292396171632245e-06,
8352
+ "loss": 0.7369,
8353
+ "step": 1192
8354
+ },
8355
+ {
8356
+ "epoch": 0.007929518346565814,
8357
+ "grad_norm": 1.3495543003082275,
8358
+ "learning_rate": 3.2507832552821473e-06,
8359
+ "loss": 0.7876,
8360
+ "step": 1193
8361
+ },
8362
+ {
8363
+ "epoch": 0.007936165050963607,
8364
+ "grad_norm": 1.8371061086654663,
8365
+ "learning_rate": 3.2094261514903247e-06,
8366
+ "loss": 0.7453,
8367
+ "step": 1194
8368
+ },
8369
+ {
8370
+ "epoch": 0.007942811755361398,
8371
+ "grad_norm": 1.7620829343795776,
8372
+ "learning_rate": 3.1683250865636114e-06,
8373
+ "loss": 0.7892,
8374
+ "step": 1195
8375
+ },
8376
+ {
8377
+ "epoch": 0.00794945845975919,
8378
+ "grad_norm": 2.5139377117156982,
8379
+ "learning_rate": 3.1274802854077634e-06,
8380
+ "loss": 0.7147,
8381
+ "step": 1196
8382
+ },
8383
+ {
8384
+ "epoch": 0.007956105164156981,
8385
+ "grad_norm": 2.4547066688537598,
8386
+ "learning_rate": 3.0868919715262788e-06,
8387
+ "loss": 0.9004,
8388
+ "step": 1197
8389
+ },
8390
+ {
8391
+ "epoch": 0.007962751868554774,
8392
+ "grad_norm": 2.587991952896118,
8393
+ "learning_rate": 3.0465603670191413e-06,
8394
+ "loss": 0.9432,
8395
+ "step": 1198
8396
+ },
8397
+ {
8398
+ "epoch": 0.007969398572952566,
8399
+ "grad_norm": 2.3181488513946533,
8400
+ "learning_rate": 3.006485692581612e-06,
8401
+ "loss": 0.8625,
8402
+ "step": 1199
8403
+ },
8404
+ {
8405
+ "epoch": 0.007976045277350357,
8406
+ "grad_norm": 2.9762380123138428,
8407
+ "learning_rate": 2.966668167503045e-06,
8408
+ "loss": 0.6588,
8409
+ "step": 1200
8410
+ },
8411
+ {
8412
+ "epoch": 0.00798269198174815,
8413
+ "grad_norm": 0.3529517650604248,
8414
+ "learning_rate": 2.9271080096656523e-06,
8415
+ "loss": 1.0714,
8416
+ "step": 1201
8417
+ },
8418
+ {
8419
+ "epoch": 0.007989338686145942,
8420
+ "grad_norm": 0.8299329280853271,
8421
+ "learning_rate": 2.8878054355433336e-06,
8422
+ "loss": 0.9036,
8423
+ "step": 1202
8424
+ },
8425
+ {
8426
+ "epoch": 0.007995985390543733,
8427
+ "grad_norm": 0.6384105086326599,
8428
+ "learning_rate": 2.8487606602004836e-06,
8429
+ "loss": 0.7667,
8430
+ "step": 1203
8431
+ },
8432
+ {
8433
+ "epoch": 0.008002632094941526,
8434
+ "grad_norm": 0.6536184549331665,
8435
+ "learning_rate": 2.8099738972908074e-06,
8436
+ "loss": 0.816,
8437
+ "step": 1204
8438
+ },
8439
+ {
8440
+ "epoch": 0.008009278799339317,
8441
+ "grad_norm": 0.7148771286010742,
8442
+ "learning_rate": 2.771445359056185e-06,
8443
+ "loss": 0.8579,
8444
+ "step": 1205
8445
+ },
8446
+ {
8447
+ "epoch": 0.00801592550373711,
8448
+ "grad_norm": 0.6713609099388123,
8449
+ "learning_rate": 2.7331752563254766e-06,
8450
+ "loss": 0.8654,
8451
+ "step": 1206
8452
+ },
8453
+ {
8454
+ "epoch": 0.008022572208134902,
8455
+ "grad_norm": 0.822352945804596,
8456
+ "learning_rate": 2.695163798513356e-06,
8457
+ "loss": 0.9397,
8458
+ "step": 1207
8459
+ },
8460
+ {
8461
+ "epoch": 0.008029218912532693,
8462
+ "grad_norm": 0.954106867313385,
8463
+ "learning_rate": 2.6574111936192357e-06,
8464
+ "loss": 0.7833,
8465
+ "step": 1208
8466
+ },
8467
+ {
8468
+ "epoch": 0.008035865616930486,
8469
+ "grad_norm": 0.6043768525123596,
8470
+ "learning_rate": 2.6199176482260224e-06,
8471
+ "loss": 0.9567,
8472
+ "step": 1209
8473
+ },
8474
+ {
8475
+ "epoch": 0.008042512321328278,
8476
+ "grad_norm": 0.7908644676208496,
8477
+ "learning_rate": 2.582683367499089e-06,
8478
+ "loss": 1.0173,
8479
+ "step": 1210
8480
+ },
8481
+ {
8482
+ "epoch": 0.008049159025726069,
8483
+ "grad_norm": 0.7377932667732239,
8484
+ "learning_rate": 2.5457085551850947e-06,
8485
+ "loss": 0.7149,
8486
+ "step": 1211
8487
+ },
8488
+ {
8489
+ "epoch": 0.008055805730123862,
8490
+ "grad_norm": 0.8818528056144714,
8491
+ "learning_rate": 2.5089934136108664e-06,
8492
+ "loss": 0.8703,
8493
+ "step": 1212
8494
+ },
8495
+ {
8496
+ "epoch": 0.008062452434521653,
8497
+ "grad_norm": 0.6863070130348206,
8498
+ "learning_rate": 2.4725381436823346e-06,
8499
+ "loss": 0.9214,
8500
+ "step": 1213
8501
+ },
8502
+ {
8503
+ "epoch": 0.008069099138919445,
8504
+ "grad_norm": 0.8124974966049194,
8505
+ "learning_rate": 2.4363429448833908e-06,
8506
+ "loss": 0.8818,
8507
+ "step": 1214
8508
+ },
8509
+ {
8510
+ "epoch": 0.008075745843317238,
8511
+ "grad_norm": 1.0461612939834595,
8512
+ "learning_rate": 2.400408015274819e-06,
8513
+ "loss": 0.6488,
8514
+ "step": 1215
8515
+ },
8516
+ {
8517
+ "epoch": 0.008082392547715029,
8518
+ "grad_norm": 0.8627413511276245,
8519
+ "learning_rate": 2.364733551493198e-06,
8520
+ "loss": 0.8103,
8521
+ "step": 1216
8522
+ },
8523
+ {
8524
+ "epoch": 0.008089039252112821,
8525
+ "grad_norm": 1.0460317134857178,
8526
+ "learning_rate": 2.3293197487498418e-06,
8527
+ "loss": 0.8674,
8528
+ "step": 1217
8529
+ },
8530
+ {
8531
+ "epoch": 0.008095685956510614,
8532
+ "grad_norm": 0.7561958432197571,
8533
+ "learning_rate": 2.2941668008297114e-06,
8534
+ "loss": 0.8874,
8535
+ "step": 1218
8536
+ },
8537
+ {
8538
+ "epoch": 0.008102332660908405,
8539
+ "grad_norm": 0.7814791202545166,
8540
+ "learning_rate": 2.2592749000903802e-06,
8541
+ "loss": 0.9138,
8542
+ "step": 1219
8543
+ },
8544
+ {
8545
+ "epoch": 0.008108979365306197,
8546
+ "grad_norm": 0.8485913276672363,
8547
+ "learning_rate": 2.22464423746096e-06,
8548
+ "loss": 0.8523,
8549
+ "step": 1220
8550
+ },
8551
+ {
8552
+ "epoch": 0.008115626069703988,
8553
+ "grad_norm": 0.830274224281311,
8554
+ "learning_rate": 2.1902750024410612e-06,
8555
+ "loss": 0.7601,
8556
+ "step": 1221
8557
+ },
8558
+ {
8559
+ "epoch": 0.00812227277410178,
8560
+ "grad_norm": 0.9487256407737732,
8561
+ "learning_rate": 2.1561673830997552e-06,
8562
+ "loss": 0.8799,
8563
+ "step": 1222
8564
+ },
8565
+ {
8566
+ "epoch": 0.008128919478499573,
8567
+ "grad_norm": 0.8875256776809692,
8568
+ "learning_rate": 2.122321566074542e-06,
8569
+ "loss": 0.8891,
8570
+ "step": 1223
8571
+ },
8572
+ {
8573
+ "epoch": 0.008135566182897364,
8574
+ "grad_norm": 1.2967002391815186,
8575
+ "learning_rate": 2.088737736570362e-06,
8576
+ "loss": 0.8055,
8577
+ "step": 1224
8578
+ },
8579
+ {
8580
+ "epoch": 0.008142212887295157,
8581
+ "grad_norm": 0.9257766008377075,
8582
+ "learning_rate": 2.0554160783585295e-06,
8583
+ "loss": 0.8675,
8584
+ "step": 1225
8585
+ },
8586
+ {
8587
+ "epoch": 0.00814885959169295,
8588
+ "grad_norm": 1.5874323844909668,
8589
+ "learning_rate": 2.022356773775752e-06,
8590
+ "loss": 1.0484,
8591
+ "step": 1226
8592
+ },
8593
+ {
8594
+ "epoch": 0.00815550629609074,
8595
+ "grad_norm": 0.9779448509216309,
8596
+ "learning_rate": 1.9895600037231563e-06,
8597
+ "loss": 0.9069,
8598
+ "step": 1227
8599
+ },
8600
+ {
8601
+ "epoch": 0.008162153000488533,
8602
+ "grad_norm": 1.190856695175171,
8603
+ "learning_rate": 1.957025947665253e-06,
8604
+ "loss": 0.9152,
8605
+ "step": 1228
8606
+ },
8607
+ {
8608
+ "epoch": 0.008168799704886326,
8609
+ "grad_norm": 1.113503336906433,
8610
+ "learning_rate": 1.9247547836289793e-06,
8611
+ "loss": 0.877,
8612
+ "step": 1229
8613
+ },
8614
+ {
8615
+ "epoch": 0.008175446409284116,
8616
+ "grad_norm": 1.3767004013061523,
8617
+ "learning_rate": 1.8927466882027344e-06,
8618
+ "loss": 0.7015,
8619
+ "step": 1230
8620
+ },
8621
+ {
8622
+ "epoch": 0.008182093113681909,
8623
+ "grad_norm": 1.1997989416122437,
8624
+ "learning_rate": 1.8610018365353866e-06,
8625
+ "loss": 0.6455,
8626
+ "step": 1231
8627
+ },
8628
+ {
8629
+ "epoch": 0.0081887398180797,
8630
+ "grad_norm": 1.4293056726455688,
8631
+ "learning_rate": 1.8295204023353496e-06,
8632
+ "loss": 1.0369,
8633
+ "step": 1232
8634
+ },
8635
+ {
8636
+ "epoch": 0.008195386522477493,
8637
+ "grad_norm": 1.2590155601501465,
8638
+ "learning_rate": 1.7983025578695912e-06,
8639
+ "loss": 0.6939,
8640
+ "step": 1233
8641
+ },
8642
+ {
8643
+ "epoch": 0.008202033226875285,
8644
+ "grad_norm": 1.137853980064392,
8645
+ "learning_rate": 1.7673484739627266e-06,
8646
+ "loss": 0.7536,
8647
+ "step": 1234
8648
+ },
8649
+ {
8650
+ "epoch": 0.008208679931273076,
8651
+ "grad_norm": 1.3032435178756714,
8652
+ "learning_rate": 1.736658319996054e-06,
8653
+ "loss": 1.0341,
8654
+ "step": 1235
8655
+ },
8656
+ {
8657
+ "epoch": 0.008215326635670869,
8658
+ "grad_norm": 1.3839718103408813,
8659
+ "learning_rate": 1.7062322639066485e-06,
8660
+ "loss": 0.513,
8661
+ "step": 1236
8662
+ },
8663
+ {
8664
+ "epoch": 0.008221973340068661,
8665
+ "grad_norm": 1.6024293899536133,
8666
+ "learning_rate": 1.6760704721864474e-06,
8667
+ "loss": 0.7537,
8668
+ "step": 1237
8669
+ },
8670
+ {
8671
+ "epoch": 0.008228620044466452,
8672
+ "grad_norm": 1.8940508365631104,
8673
+ "learning_rate": 1.6461731098813217e-06,
8674
+ "loss": 0.9626,
8675
+ "step": 1238
8676
+ },
8677
+ {
8678
+ "epoch": 0.008235266748864245,
8679
+ "grad_norm": 1.572707176208496,
8680
+ "learning_rate": 1.6165403405901614e-06,
8681
+ "loss": 1.0464,
8682
+ "step": 1239
8683
+ },
8684
+ {
8685
+ "epoch": 0.008241913453262036,
8686
+ "grad_norm": 1.628700852394104,
8687
+ "learning_rate": 1.5871723264640316e-06,
8688
+ "loss": 0.7058,
8689
+ "step": 1240
8690
+ },
8691
+ {
8692
+ "epoch": 0.008248560157659828,
8693
+ "grad_norm": 1.628277063369751,
8694
+ "learning_rate": 1.558069228205239e-06,
8695
+ "loss": 0.7208,
8696
+ "step": 1241
8697
+ },
8698
+ {
8699
+ "epoch": 0.00825520686205762,
8700
+ "grad_norm": 2.343567132949829,
8701
+ "learning_rate": 1.5292312050664393e-06,
8702
+ "loss": 0.8656,
8703
+ "step": 1242
8704
+ },
8705
+ {
8706
+ "epoch": 0.008261853566455412,
8707
+ "grad_norm": 1.4860535860061646,
8708
+ "learning_rate": 1.5006584148498426e-06,
8709
+ "loss": 0.5914,
8710
+ "step": 1243
8711
+ },
8712
+ {
8713
+ "epoch": 0.008268500270853204,
8714
+ "grad_norm": 1.5953693389892578,
8715
+ "learning_rate": 1.4723510139062536e-06,
8716
+ "loss": 0.4961,
8717
+ "step": 1244
8718
+ },
8719
+ {
8720
+ "epoch": 0.008275146975250997,
8721
+ "grad_norm": 1.7320637702941895,
8722
+ "learning_rate": 1.4443091571342881e-06,
8723
+ "loss": 0.8088,
8724
+ "step": 1245
8725
+ },
8726
+ {
8727
+ "epoch": 0.008281793679648788,
8728
+ "grad_norm": 2.03082537651062,
8729
+ "learning_rate": 1.4165329979794973e-06,
8730
+ "loss": 0.8709,
8731
+ "step": 1246
8732
+ },
8733
+ {
8734
+ "epoch": 0.00828844038404658,
8735
+ "grad_norm": 1.9797908067703247,
8736
+ "learning_rate": 1.3890226884335279e-06,
8737
+ "loss": 0.7463,
8738
+ "step": 1247
8739
+ },
8740
+ {
8741
+ "epoch": 0.008295087088444371,
8742
+ "grad_norm": 2.290008544921875,
8743
+ "learning_rate": 1.3617783790332793e-06,
8744
+ "loss": 0.9667,
8745
+ "step": 1248
8746
+ },
8747
+ {
8748
+ "epoch": 0.008301733792842164,
8749
+ "grad_norm": 3.5632598400115967,
8750
+ "learning_rate": 1.3348002188601106e-06,
8751
+ "loss": 0.832,
8752
+ "step": 1249
8753
+ },
8754
+ {
8755
+ "epoch": 0.008308380497239956,
8756
+ "grad_norm": 3.8966562747955322,
8757
+ "learning_rate": 1.3080883555389944e-06,
8758
+ "loss": 0.9873,
8759
+ "step": 1250
8760
+ },
8761
+ {
8762
+ "epoch": 0.008315027201637747,
8763
+ "grad_norm": 0.43680328130722046,
8764
+ "learning_rate": 1.2816429352377424e-06,
8765
+ "loss": 0.9673,
8766
+ "step": 1251
8767
+ },
8768
+ {
8769
+ "epoch": 0.00832167390603554,
8770
+ "grad_norm": 0.4867130517959595,
8771
+ "learning_rate": 1.255464102666165e-06,
8772
+ "loss": 0.9407,
8773
+ "step": 1252
8774
+ },
8775
+ {
8776
+ "epoch": 0.008328320610433333,
8777
+ "grad_norm": 0.6942826509475708,
8778
+ "learning_rate": 1.2295520010753013e-06,
8779
+ "loss": 0.9193,
8780
+ "step": 1253
8781
+ },
8782
+ {
8783
+ "epoch": 0.008334967314831123,
8784
+ "grad_norm": 0.6908741593360901,
8785
+ "learning_rate": 1.2039067722566578e-06,
8786
+ "loss": 0.9005,
8787
+ "step": 1254
8788
+ },
8789
+ {
8790
+ "epoch": 0.008341614019228916,
8791
+ "grad_norm": 0.7160000801086426,
8792
+ "learning_rate": 1.178528556541364e-06,
8793
+ "loss": 0.6959,
8794
+ "step": 1255
8795
+ },
8796
+ {
8797
+ "epoch": 0.008348260723626709,
8798
+ "grad_norm": 0.5546773076057434,
8799
+ "learning_rate": 1.1534174927994968e-06,
8800
+ "loss": 0.7764,
8801
+ "step": 1256
8802
+ },
8803
+ {
8804
+ "epoch": 0.0083549074280245,
8805
+ "grad_norm": 0.7886601686477661,
8806
+ "learning_rate": 1.1285737184392353e-06,
8807
+ "loss": 0.9033,
8808
+ "step": 1257
8809
+ },
8810
+ {
8811
+ "epoch": 0.008361554132422292,
8812
+ "grad_norm": 0.631632924079895,
8813
+ "learning_rate": 1.1039973694061678e-06,
8814
+ "loss": 0.8779,
8815
+ "step": 1258
8816
+ },
8817
+ {
8818
+ "epoch": 0.008368200836820083,
8819
+ "grad_norm": 0.6958200931549072,
8820
+ "learning_rate": 1.079688580182525e-06,
8821
+ "loss": 0.8848,
8822
+ "step": 1259
8823
+ },
8824
+ {
8825
+ "epoch": 0.008374847541217876,
8826
+ "grad_norm": 0.8860964775085449,
8827
+ "learning_rate": 1.0556474837864371e-06,
8828
+ "loss": 0.7837,
8829
+ "step": 1260
8830
+ },
8831
+ {
8832
+ "epoch": 0.008381494245615668,
8833
+ "grad_norm": 0.76692795753479,
8834
+ "learning_rate": 1.0318742117712055e-06,
8835
+ "loss": 0.923,
8836
+ "step": 1261
8837
+ },
8838
+ {
8839
+ "epoch": 0.008388140950013459,
8840
+ "grad_norm": 0.6733999848365784,
8841
+ "learning_rate": 1.0083688942246206e-06,
8842
+ "loss": 0.7976,
8843
+ "step": 1262
8844
+ },
8845
+ {
8846
+ "epoch": 0.008394787654411252,
8847
+ "grad_norm": 0.8771406412124634,
8848
+ "learning_rate": 9.851316597681958e-07,
8849
+ "loss": 0.9309,
8850
+ "step": 1263
8851
+ },
8852
+ {
8853
+ "epoch": 0.008401434358809044,
8854
+ "grad_norm": 0.8756757378578186,
8855
+ "learning_rate": 9.621626355564962e-07,
8856
+ "loss": 0.668,
8857
+ "step": 1264
8858
+ },
8859
+ {
8860
+ "epoch": 0.008408081063206835,
8861
+ "grad_norm": 0.7340953946113586,
8862
+ "learning_rate": 9.394619472764488e-07,
8863
+ "loss": 1.0142,
8864
+ "step": 1265
8865
+ },
8866
+ {
8867
+ "epoch": 0.008414727767604628,
8868
+ "grad_norm": 0.889940083026886,
8869
+ "learning_rate": 9.17029719146617e-07,
8870
+ "loss": 0.84,
8871
+ "step": 1266
8872
+ },
8873
+ {
8874
+ "epoch": 0.008421374472002419,
8875
+ "grad_norm": 0.8058779835700989,
8876
+ "learning_rate": 8.948660739165671e-07,
8877
+ "loss": 1.0034,
8878
+ "step": 1267
8879
+ },
8880
+ {
8881
+ "epoch": 0.008428021176400211,
8882
+ "grad_norm": 1.0010138750076294,
8883
+ "learning_rate": 8.729711328661627e-07,
8884
+ "loss": 0.9071,
8885
+ "step": 1268
8886
+ },
8887
+ {
8888
+ "epoch": 0.008434667880798004,
8889
+ "grad_norm": 0.8743391036987305,
8890
+ "learning_rate": 8.513450158049108e-07,
8891
+ "loss": 0.7044,
8892
+ "step": 1269
8893
+ },
8894
+ {
8895
+ "epoch": 0.008441314585195795,
8896
+ "grad_norm": 0.9519810080528259,
8897
+ "learning_rate": 8.299878410713224e-07,
8898
+ "loss": 0.757,
8899
+ "step": 1270
8900
+ },
8901
+ {
8902
+ "epoch": 0.008447961289593587,
8903
+ "grad_norm": 0.887423574924469,
8904
+ "learning_rate": 8.088997255322417e-07,
8905
+ "loss": 0.8691,
8906
+ "step": 1271
8907
+ },
8908
+ {
8909
+ "epoch": 0.00845460799399138,
8910
+ "grad_norm": 0.9585660696029663,
8911
+ "learning_rate": 7.88080784582218e-07,
8912
+ "loss": 0.6703,
8913
+ "step": 1272
8914
+ },
8915
+ {
8916
+ "epoch": 0.00846125469838917,
8917
+ "grad_norm": 0.8071337938308716,
8918
+ "learning_rate": 7.67531132142868e-07,
8919
+ "loss": 0.8983,
8920
+ "step": 1273
8921
+ },
8922
+ {
8923
+ "epoch": 0.008467901402786963,
8924
+ "grad_norm": 1.160842776298523,
8925
+ "learning_rate": 7.472508806622647e-07,
8926
+ "loss": 1.1184,
8927
+ "step": 1274
8928
+ },
8929
+ {
8930
+ "epoch": 0.008474548107184754,
8931
+ "grad_norm": 1.6256940364837646,
8932
+ "learning_rate": 7.272401411143159e-07,
8933
+ "loss": 0.762,
8934
+ "step": 1275
8935
+ },
8936
+ {
8937
+ "epoch": 0.008481194811582547,
8938
+ "grad_norm": 1.2412770986557007,
8939
+ "learning_rate": 7.074990229981371e-07,
8940
+ "loss": 0.9556,
8941
+ "step": 1276
8942
+ },
8943
+ {
8944
+ "epoch": 0.00848784151598034,
8945
+ "grad_norm": 1.051373839378357,
8946
+ "learning_rate": 6.880276343374903e-07,
8947
+ "loss": 0.7274,
8948
+ "step": 1277
8949
+ },
8950
+ {
8951
+ "epoch": 0.00849448822037813,
8952
+ "grad_norm": 1.1199849843978882,
8953
+ "learning_rate": 6.688260816801628e-07,
8954
+ "loss": 0.8716,
8955
+ "step": 1278
8956
+ },
8957
+ {
8958
+ "epoch": 0.008501134924775923,
8959
+ "grad_norm": 1.1052923202514648,
8960
+ "learning_rate": 6.498944700974063e-07,
8961
+ "loss": 0.8678,
8962
+ "step": 1279
8963
+ },
8964
+ {
8965
+ "epoch": 0.008507781629173716,
8966
+ "grad_norm": 1.2587484121322632,
8967
+ "learning_rate": 6.312329031833319e-07,
8968
+ "loss": 0.764,
8969
+ "step": 1280
8970
+ },
8971
+ {
8972
+ "epoch": 0.008514428333571506,
8973
+ "grad_norm": 1.3716700077056885,
8974
+ "learning_rate": 6.128414830543716e-07,
8975
+ "loss": 0.7445,
8976
+ "step": 1281
8977
+ },
8978
+ {
8979
+ "epoch": 0.008521075037969299,
8980
+ "grad_norm": 1.2459251880645752,
8981
+ "learning_rate": 5.94720310348712e-07,
8982
+ "loss": 0.75,
8983
+ "step": 1282
8984
+ },
8985
+ {
8986
+ "epoch": 0.008527721742367092,
8987
+ "grad_norm": 1.0755395889282227,
8988
+ "learning_rate": 5.768694842257393e-07,
8989
+ "loss": 0.8851,
8990
+ "step": 1283
8991
+ },
8992
+ {
8993
+ "epoch": 0.008534368446764883,
8994
+ "grad_norm": 1.2833749055862427,
8995
+ "learning_rate": 5.5928910236549e-07,
8996
+ "loss": 0.7277,
8997
+ "step": 1284
8998
+ },
8999
+ {
9000
+ "epoch": 0.008541015151162675,
9001
+ "grad_norm": 1.2845550775527954,
9002
+ "learning_rate": 5.419792609681285e-07,
9003
+ "loss": 0.7464,
9004
+ "step": 1285
9005
+ },
9006
+ {
9007
+ "epoch": 0.008547661855560466,
9008
+ "grad_norm": 1.8557933568954468,
9009
+ "learning_rate": 5.249400547534366e-07,
9010
+ "loss": 0.7781,
9011
+ "step": 1286
9012
+ },
9013
+ {
9014
+ "epoch": 0.008554308559958259,
9015
+ "grad_norm": 1.497525930404663,
9016
+ "learning_rate": 5.081715769602424e-07,
9017
+ "loss": 0.8232,
9018
+ "step": 1287
9019
+ },
9020
+ {
9021
+ "epoch": 0.008560955264356051,
9022
+ "grad_norm": 1.3864185810089111,
9023
+ "learning_rate": 4.916739193459641e-07,
9024
+ "loss": 0.7804,
9025
+ "step": 1288
9026
+ },
9027
+ {
9028
+ "epoch": 0.008567601968753842,
9029
+ "grad_norm": 1.4862985610961914,
9030
+ "learning_rate": 4.7544717218608313e-07,
9031
+ "loss": 0.7926,
9032
+ "step": 1289
9033
+ },
9034
+ {
9035
+ "epoch": 0.008574248673151635,
9036
+ "grad_norm": 1.5221184492111206,
9037
+ "learning_rate": 4.594914242736503e-07,
9038
+ "loss": 0.9998,
9039
+ "step": 1290
9040
+ },
9041
+ {
9042
+ "epoch": 0.008580895377549427,
9043
+ "grad_norm": 1.4324357509613037,
9044
+ "learning_rate": 4.4380676291880253e-07,
9045
+ "loss": 0.5789,
9046
+ "step": 1291
9047
+ },
9048
+ {
9049
+ "epoch": 0.008587542081947218,
9050
+ "grad_norm": 1.805057168006897,
9051
+ "learning_rate": 4.283932739483021e-07,
9052
+ "loss": 0.8777,
9053
+ "step": 1292
9054
+ },
9055
+ {
9056
+ "epoch": 0.00859418878634501,
9057
+ "grad_norm": 1.8946709632873535,
9058
+ "learning_rate": 4.1325104170503173e-07,
9059
+ "loss": 0.9351,
9060
+ "step": 1293
9061
+ },
9062
+ {
9063
+ "epoch": 0.008600835490742802,
9064
+ "grad_norm": 1.608729362487793,
9065
+ "learning_rate": 3.983801490475614e-07,
9066
+ "loss": 0.7184,
9067
+ "step": 1294
9068
+ },
9069
+ {
9070
+ "epoch": 0.008607482195140594,
9071
+ "grad_norm": 1.8496559858322144,
9072
+ "learning_rate": 3.8378067734968213e-07,
9073
+ "loss": 0.8492,
9074
+ "step": 1295
9075
+ },
9076
+ {
9077
+ "epoch": 0.008614128899538387,
9078
+ "grad_norm": 2.211517095565796,
9079
+ "learning_rate": 3.69452706499962e-07,
9080
+ "loss": 0.9622,
9081
+ "step": 1296
9082
+ },
9083
+ {
9084
+ "epoch": 0.008620775603936178,
9085
+ "grad_norm": 2.6515936851501465,
9086
+ "learning_rate": 3.553963149013295e-07,
9087
+ "loss": 0.8629,
9088
+ "step": 1297
9089
+ },
9090
+ {
9091
+ "epoch": 0.00862742230833397,
9092
+ "grad_norm": 1.9974112510681152,
9093
+ "learning_rate": 3.416115794706021e-07,
9094
+ "loss": 0.6682,
9095
+ "step": 1298
9096
+ },
9097
+ {
9098
+ "epoch": 0.008634069012731763,
9099
+ "grad_norm": 2.589667320251465,
9100
+ "learning_rate": 3.2809857563810274e-07,
9101
+ "loss": 0.7936,
9102
+ "step": 1299
9103
+ },
9104
+ {
9105
+ "epoch": 0.008640715717129554,
9106
+ "grad_norm": 3.9543275833129883,
9107
+ "learning_rate": 3.148573773472441e-07,
9108
+ "loss": 1.0748,
9109
+ "step": 1300
9110
+ },
9111
+ {
9112
+ "epoch": 0.008647362421527346,
9113
+ "grad_norm": 0.406210720539093,
9114
+ "learning_rate": 3.0188805705408385e-07,
9115
+ "loss": 1.0903,
9116
+ "step": 1301
9117
+ },
9118
+ {
9119
+ "epoch": 0.008654009125925137,
9120
+ "grad_norm": 0.9732136726379395,
9121
+ "learning_rate": 2.891906857269866e-07,
9122
+ "loss": 1.0584,
9123
+ "step": 1302
9124
+ },
9125
+ {
9126
+ "epoch": 0.00866065583032293,
9127
+ "grad_norm": 0.5782064199447632,
9128
+ "learning_rate": 2.767653328461961e-07,
9129
+ "loss": 0.8106,
9130
+ "step": 1303
9131
+ },
9132
+ {
9133
+ "epoch": 0.008667302534720723,
9134
+ "grad_norm": 0.5775068402290344,
9135
+ "learning_rate": 2.64612066403469e-07,
9136
+ "loss": 0.7984,
9137
+ "step": 1304
9138
+ },
9139
+ {
9140
+ "epoch": 0.008673949239118513,
9141
+ "grad_norm": 0.569423258304596,
9142
+ "learning_rate": 2.5273095290169746e-07,
9143
+ "loss": 0.692,
9144
+ "step": 1305
9145
+ },
9146
+ {
9147
+ "epoch": 0.008680595943516306,
9148
+ "grad_norm": 0.5373005270957947,
9149
+ "learning_rate": 2.411220573545536e-07,
9150
+ "loss": 0.9552,
9151
+ "step": 1306
9152
+ },
9153
+ {
9154
+ "epoch": 0.008687242647914099,
9155
+ "grad_norm": 0.6390656232833862,
9156
+ "learning_rate": 2.2978544328611794e-07,
9157
+ "loss": 1.0082,
9158
+ "step": 1307
9159
+ },
9160
+ {
9161
+ "epoch": 0.00869388935231189,
9162
+ "grad_norm": 0.6282153129577637,
9163
+ "learning_rate": 2.1872117273054604e-07,
9164
+ "loss": 0.7487,
9165
+ "step": 1308
9166
+ },
9167
+ {
9168
+ "epoch": 0.008700536056709682,
9169
+ "grad_norm": 0.7460707426071167,
9170
+ "learning_rate": 2.0792930623173e-07,
9171
+ "loss": 0.8016,
9172
+ "step": 1309
9173
+ },
9174
+ {
9175
+ "epoch": 0.008707182761107475,
9176
+ "grad_norm": 1.049312949180603,
9177
+ "learning_rate": 1.974099028429599e-07,
9178
+ "loss": 1.1425,
9179
+ "step": 1310
9180
+ },
9181
+ {
9182
+ "epoch": 0.008713829465505266,
9183
+ "grad_norm": 0.8370749950408936,
9184
+ "learning_rate": 1.8716302012659615e-07,
9185
+ "loss": 0.9004,
9186
+ "step": 1311
9187
+ },
9188
+ {
9189
+ "epoch": 0.008720476169903058,
9190
+ "grad_norm": 0.7265930771827698,
9191
+ "learning_rate": 1.771887141537698e-07,
9192
+ "loss": 0.7916,
9193
+ "step": 1312
9194
+ },
9195
+ {
9196
+ "epoch": 0.008727122874300849,
9197
+ "grad_norm": 0.9264492988586426,
9198
+ "learning_rate": 1.6748703950406063e-07,
9199
+ "loss": 0.8537,
9200
+ "step": 1313
9201
+ },
9202
+ {
9203
+ "epoch": 0.008733769578698642,
9204
+ "grad_norm": 0.9052757620811462,
9205
+ "learning_rate": 1.580580492652084e-07,
9206
+ "loss": 0.8482,
9207
+ "step": 1314
9208
+ },
9209
+ {
9210
+ "epoch": 0.008740416283096434,
9211
+ "grad_norm": 0.7245783805847168,
9212
+ "learning_rate": 1.4890179503281865e-07,
9213
+ "loss": 0.8166,
9214
+ "step": 1315
9215
+ },
9216
+ {
9217
+ "epoch": 0.008747062987494225,
9218
+ "grad_norm": 0.8683069944381714,
9219
+ "learning_rate": 1.4001832691007964e-07,
9220
+ "loss": 0.9666,
9221
+ "step": 1316
9222
+ },
9223
+ {
9224
+ "epoch": 0.008753709691892018,
9225
+ "grad_norm": 0.7424309849739075,
9226
+ "learning_rate": 1.3140769350749037e-07,
9227
+ "loss": 0.7295,
9228
+ "step": 1317
9229
+ },
9230
+ {
9231
+ "epoch": 0.00876035639628981,
9232
+ "grad_norm": 0.8548372387886047,
9233
+ "learning_rate": 1.2306994194258848e-07,
9234
+ "loss": 0.787,
9235
+ "step": 1318
9236
+ },
9237
+ {
9238
+ "epoch": 0.008767003100687601,
9239
+ "grad_norm": 0.934486985206604,
9240
+ "learning_rate": 1.1500511783970602e-07,
9241
+ "loss": 0.8888,
9242
+ "step": 1319
9243
+ },
9244
+ {
9245
+ "epoch": 0.008773649805085394,
9246
+ "grad_norm": 0.8122676610946655,
9247
+ "learning_rate": 1.072132653297031e-07,
9248
+ "loss": 0.8405,
9249
+ "step": 1320
9250
+ },
9251
+ {
9252
+ "epoch": 0.008780296509483185,
9253
+ "grad_norm": 0.852226197719574,
9254
+ "learning_rate": 9.969442704974019e-08,
9255
+ "loss": 0.7526,
9256
+ "step": 1321
9257
+ },
9258
+ {
9259
+ "epoch": 0.008786943213880977,
9260
+ "grad_norm": 1.0085203647613525,
9261
+ "learning_rate": 9.244864414302834e-08,
9262
+ "loss": 0.9304,
9263
+ "step": 1322
9264
+ },
9265
+ {
9266
+ "epoch": 0.00879358991827877,
9267
+ "grad_norm": 0.9912753105163574,
9268
+ "learning_rate": 8.547595625863491e-08,
9269
+ "loss": 0.7629,
9270
+ "step": 1323
9271
+ },
9272
+ {
9273
+ "epoch": 0.00880023662267656,
9274
+ "grad_norm": 1.2250392436981201,
9275
+ "learning_rate": 7.877640155122268e-08,
9276
+ "loss": 0.8004,
9277
+ "step": 1324
9278
+ },
9279
+ {
9280
+ "epoch": 0.008806883327074353,
9281
+ "grad_norm": 0.9448941946029663,
9282
+ "learning_rate": 7.235001668088325e-08,
9283
+ "loss": 0.8332,
9284
+ "step": 1325
9285
+ },
9286
+ {
9287
+ "epoch": 0.008813530031472146,
9288
+ "grad_norm": 1.032435417175293,
9289
+ "learning_rate": 6.619683681290956e-08,
9290
+ "loss": 0.8739,
9291
+ "step": 1326
9292
+ },
9293
+ {
9294
+ "epoch": 0.008820176735869937,
9295
+ "grad_norm": 1.0339690446853638,
9296
+ "learning_rate": 6.0316895617607e-08,
9297
+ "loss": 0.7745,
9298
+ "step": 1327
9299
+ },
9300
+ {
9301
+ "epoch": 0.00882682344026773,
9302
+ "grad_norm": 1.292864441871643,
9303
+ "learning_rate": 5.471022527012703e-08,
9304
+ "loss": 0.6597,
9305
+ "step": 1328
9306
+ },
9307
+ {
9308
+ "epoch": 0.00883347014466552,
9309
+ "grad_norm": 1.1034690141677856,
9310
+ "learning_rate": 4.9376856450267236e-08,
9311
+ "loss": 0.8557,
9312
+ "step": 1329
9313
+ },
9314
+ {
9315
+ "epoch": 0.008840116849063313,
9316
+ "grad_norm": 1.2322593927383423,
9317
+ "learning_rate": 4.4316818342321484e-08,
9318
+ "loss": 0.8141,
9319
+ "step": 1330
9320
+ },
9321
+ {
9322
+ "epoch": 0.008846763553461106,
9323
+ "grad_norm": 1.2572166919708252,
9324
+ "learning_rate": 3.953013863490784e-08,
9325
+ "loss": 0.9697,
9326
+ "step": 1331
9327
+ },
9328
+ {
9329
+ "epoch": 0.008853410257858896,
9330
+ "grad_norm": 1.3452128171920776,
9331
+ "learning_rate": 3.5016843520824235e-08,
9332
+ "loss": 0.8005,
9333
+ "step": 1332
9334
+ },
9335
+ {
9336
+ "epoch": 0.008860056962256689,
9337
+ "grad_norm": 1.4997920989990234,
9338
+ "learning_rate": 3.077695769689859e-08,
9339
+ "loss": 0.9166,
9340
+ "step": 1333
9341
+ },
9342
+ {
9343
+ "epoch": 0.008866703666654482,
9344
+ "grad_norm": 1.3338452577590942,
9345
+ "learning_rate": 2.681050436386667e-08,
9346
+ "loss": 0.8158,
9347
+ "step": 1334
9348
+ },
9349
+ {
9350
+ "epoch": 0.008873350371052273,
9351
+ "grad_norm": 1.1318567991256714,
9352
+ "learning_rate": 2.31175052262389e-08,
9353
+ "loss": 0.8882,
9354
+ "step": 1335
9355
+ },
9356
+ {
9357
+ "epoch": 0.008879997075450065,
9358
+ "grad_norm": 1.9771742820739746,
9359
+ "learning_rate": 1.9697980492161538e-08,
9360
+ "loss": 0.9642,
9361
+ "step": 1336
9362
+ },
9363
+ {
9364
+ "epoch": 0.008886643779847858,
9365
+ "grad_norm": 1.233786940574646,
9366
+ "learning_rate": 1.6551948873344548e-08,
9367
+ "loss": 0.6705,
9368
+ "step": 1337
9369
+ },
9370
+ {
9371
+ "epoch": 0.008893290484245649,
9372
+ "grad_norm": 1.3417657613754272,
9373
+ "learning_rate": 1.3679427584922799e-08,
9374
+ "loss": 0.8834,
9375
+ "step": 1338
9376
+ },
9377
+ {
9378
+ "epoch": 0.008899937188643441,
9379
+ "grad_norm": 1.4624358415603638,
9380
+ "learning_rate": 1.108043234538947e-08,
9381
+ "loss": 0.6122,
9382
+ "step": 1339
9383
+ },
9384
+ {
9385
+ "epoch": 0.008906583893041232,
9386
+ "grad_norm": 1.4649372100830078,
9387
+ "learning_rate": 8.75497737649611e-09,
9388
+ "loss": 0.5629,
9389
+ "step": 1340
9390
+ },
9391
+ {
9392
+ "epoch": 0.008913230597439025,
9393
+ "grad_norm": 1.4422084093093872,
9394
+ "learning_rate": 6.703075403163839e-09,
9395
+ "loss": 0.8694,
9396
+ "step": 1341
9397
+ },
9398
+ {
9399
+ "epoch": 0.008919877301836817,
9400
+ "grad_norm": 2.035944938659668,
9401
+ "learning_rate": 4.924737653450029e-09,
9402
+ "loss": 0.9864,
9403
+ "step": 1342
9404
+ },
9405
+ {
9406
+ "epoch": 0.008926524006234608,
9407
+ "grad_norm": 1.9655488729476929,
9408
+ "learning_rate": 3.4199738584428374e-09,
9409
+ "loss": 1.0682,
9410
+ "step": 1343
9411
+ },
9412
+ {
9413
+ "epoch": 0.0089331707106324,
9414
+ "grad_norm": 2.2372169494628906,
9415
+ "learning_rate": 2.1887922522390027e-09,
9416
+ "loss": 0.8023,
9417
+ "step": 1344
9418
+ },
9419
+ {
9420
+ "epoch": 0.008939817415030193,
9421
+ "grad_norm": 2.060652256011963,
9422
+ "learning_rate": 1.2311995718883307e-09,
9423
+ "loss": 0.9167,
9424
+ "step": 1345
9425
+ },
9426
+ {
9427
+ "epoch": 0.008946464119427984,
9428
+ "grad_norm": 1.81247878074646,
9429
+ "learning_rate": 5.472010573492892e-10,
9430
+ "loss": 0.9118,
9431
+ "step": 1346
9432
+ },
9433
+ {
9434
+ "epoch": 0.008953110823825777,
9435
+ "grad_norm": 1.983481526374817,
9436
+ "learning_rate": 1.3680045148345423e-10,
9437
+ "loss": 0.9945,
9438
+ "step": 1347
9439
+ },
9440
+ {
9441
+ "epoch": 0.008959757528223568,
9442
+ "grad_norm": 1.9146455526351929,
9443
+ "learning_rate": 0.0,
9444
+ "loss": 0.5276,
9445
+ "step": 1348
9446
  }
9447
  ],
9448
  "logging_steps": 1,
 
9457
  "should_evaluate": false,
9458
  "should_log": false,
9459
  "should_save": true,
9460
+ "should_training_stop": true
9461
  },
9462
  "attributes": {}
9463
  }
9464
  },
9465
+ "total_flos": 3.7520343853694976e+17,
9466
  "train_batch_size": 4,
9467
  "trial_name": null,
9468
  "trial_params": null