kurtpayne commited on
Commit
fbae1fe
·
verified ·
1 Parent(s): f0cec02

Training in progress, epoch 5, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:c8410f408e0079e83c7a6936cd13259682dab1ad291f2e827f6190df07097dbf
3
  size 41326816
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:0d1433d4e4339e2841a40e263c888bec9f25cfe7bdb630a06cfa160acd0e881e
3
  size 41326816
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:3adc6e4c93f907fba2ff60429e372e87e7158671e238f3131a0d31a8e31c4689
3
  size 82710219
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2ab4431a5db8d23049c17ead1ee12d4b9b0e467426a295bdebdf54b00096c9fe
3
  size 82710219
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:af83586da6cc11811d72392f577e9ab5ad20f5069b818629a874d7657c8a9b15
3
  size 14645
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:58b5b218011616df264922fa5ac76d9d4bfced159ec4ab13de08b3483606f3f2
3
  size 14645
last-checkpoint/scaler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1e0e71e5c9aaa220d58178094eab4988ab135b6ba1066da12d997b682a2b141f
3
  size 1383
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f18de9d18d2a2e6be549612c0bb1e2a24d9b75770502f7a5c001184a16c40414
3
  size 1383
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:915ac783388449f6e04fc4a7733428615aaa78e942229edb4cc4d27e27fe4aee
3
  size 1465
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:c82f734f517a2798e2d64427ec70011ea213131c5b83d8ea95de6baca42b2fd6
3
  size 1465
last-checkpoint/trainer_state.json CHANGED
@@ -2,9 +2,9 @@
2
  "best_global_step": 7578,
3
  "best_metric": 0.014301872812211514,
4
  "best_model_checkpoint": "/tmp/tmpe4p6q40s/adapter-multilabel/checkpoint-7578",
5
- "epoch": 4.0,
6
  "eval_steps": 500,
7
- "global_step": 10104,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
@@ -7110,6 +7110,1785 @@
7110
  "eval_samples_per_second": 186.334,
7111
  "eval_steps_per_second": 23.312,
7112
  "step": 10104
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7113
  }
7114
  ],
7115
  "logging_steps": 10,
@@ -7124,7 +8903,7 @@
7124
  "early_stopping_threshold": 0.0
7125
  },
7126
  "attributes": {
7127
- "early_stopping_patience_counter": 1
7128
  }
7129
  },
7130
  "TrainerControl": {
@@ -7133,12 +8912,12 @@
7133
  "should_evaluate": false,
7134
  "should_log": false,
7135
  "should_save": true,
7136
- "should_training_stop": false
7137
  },
7138
  "attributes": {}
7139
  }
7140
  },
7141
- "total_flos": 2.2582574385463296e+16,
7142
  "train_batch_size": 8,
7143
  "trial_name": null,
7144
  "trial_params": null
 
2
  "best_global_step": 7578,
3
  "best_metric": 0.014301872812211514,
4
  "best_model_checkpoint": "/tmp/tmpe4p6q40s/adapter-multilabel/checkpoint-7578",
5
+ "epoch": 5.0,
6
  "eval_steps": 500,
7
+ "global_step": 12630,
8
  "is_hyper_param_search": false,
9
  "is_local_process_zero": true,
10
  "is_world_process_zero": true,
 
7110
  "eval_samples_per_second": 186.334,
7111
  "eval_steps_per_second": 23.312,
7112
  "step": 10104
7113
+ },
7114
+ {
7115
+ "epoch": 4.002375296912114,
7116
+ "grad_norm": 0.025458339601755142,
7117
+ "learning_rate": 3.3267352863552386e-06,
7118
+ "loss": 0.0176,
7119
+ "step": 10110
7120
+ },
7121
+ {
7122
+ "epoch": 4.006334125098971,
7123
+ "grad_norm": 0.693576455116272,
7124
+ "learning_rate": 3.31353919239905e-06,
7125
+ "loss": 0.0358,
7126
+ "step": 10120
7127
+ },
7128
+ {
7129
+ "epoch": 4.010292953285828,
7130
+ "grad_norm": 0.3112759590148926,
7131
+ "learning_rate": 3.3003430984428613e-06,
7132
+ "loss": 0.0137,
7133
+ "step": 10130
7134
+ },
7135
+ {
7136
+ "epoch": 4.014251781472684,
7137
+ "grad_norm": 0.21676863729953766,
7138
+ "learning_rate": 3.287147004486672e-06,
7139
+ "loss": 0.009,
7140
+ "step": 10140
7141
+ },
7142
+ {
7143
+ "epoch": 4.0182106096595405,
7144
+ "grad_norm": 0.02533499151468277,
7145
+ "learning_rate": 3.273950910530483e-06,
7146
+ "loss": 0.0018,
7147
+ "step": 10150
7148
+ },
7149
+ {
7150
+ "epoch": 4.022169437846397,
7151
+ "grad_norm": 0.038250651210546494,
7152
+ "learning_rate": 3.2607548165742945e-06,
7153
+ "loss": 0.0105,
7154
+ "step": 10160
7155
+ },
7156
+ {
7157
+ "epoch": 4.026128266033254,
7158
+ "grad_norm": 2.936196804046631,
7159
+ "learning_rate": 3.2475587226181054e-06,
7160
+ "loss": 0.019,
7161
+ "step": 10170
7162
+ },
7163
+ {
7164
+ "epoch": 4.030087094220111,
7165
+ "grad_norm": 0.04230177402496338,
7166
+ "learning_rate": 3.2343626286619163e-06,
7167
+ "loss": 0.0018,
7168
+ "step": 10180
7169
+ },
7170
+ {
7171
+ "epoch": 4.034045922406968,
7172
+ "grad_norm": 0.9019578099250793,
7173
+ "learning_rate": 3.2211665347057272e-06,
7174
+ "loss": 0.0034,
7175
+ "step": 10190
7176
+ },
7177
+ {
7178
+ "epoch": 4.038004750593824,
7179
+ "grad_norm": 0.015337091870605946,
7180
+ "learning_rate": 3.207970440749538e-06,
7181
+ "loss": 0.0017,
7182
+ "step": 10200
7183
+ },
7184
+ {
7185
+ "epoch": 4.041963578780681,
7186
+ "grad_norm": 0.007164216134697199,
7187
+ "learning_rate": 3.1947743467933495e-06,
7188
+ "loss": 0.0104,
7189
+ "step": 10210
7190
+ },
7191
+ {
7192
+ "epoch": 4.045922406967538,
7193
+ "grad_norm": 0.003774322336539626,
7194
+ "learning_rate": 3.1815782528371604e-06,
7195
+ "loss": 0.0021,
7196
+ "step": 10220
7197
+ },
7198
+ {
7199
+ "epoch": 4.049881235154395,
7200
+ "grad_norm": 0.008863361552357674,
7201
+ "learning_rate": 3.1683821588809713e-06,
7202
+ "loss": 0.001,
7203
+ "step": 10230
7204
+ },
7205
+ {
7206
+ "epoch": 4.053840063341251,
7207
+ "grad_norm": 0.09657549113035202,
7208
+ "learning_rate": 3.1551860649247822e-06,
7209
+ "loss": 0.0099,
7210
+ "step": 10240
7211
+ },
7212
+ {
7213
+ "epoch": 4.057798891528107,
7214
+ "grad_norm": 0.08302096277475357,
7215
+ "learning_rate": 3.1419899709685936e-06,
7216
+ "loss": 0.0302,
7217
+ "step": 10250
7218
+ },
7219
+ {
7220
+ "epoch": 4.061757719714964,
7221
+ "grad_norm": 0.09942620992660522,
7222
+ "learning_rate": 3.1287938770124045e-06,
7223
+ "loss": 0.0152,
7224
+ "step": 10260
7225
+ },
7226
+ {
7227
+ "epoch": 4.065716547901821,
7228
+ "grad_norm": 0.13514858484268188,
7229
+ "learning_rate": 3.1155977830562154e-06,
7230
+ "loss": 0.0125,
7231
+ "step": 10270
7232
+ },
7233
+ {
7234
+ "epoch": 4.069675376088678,
7235
+ "grad_norm": 0.020670639351010323,
7236
+ "learning_rate": 3.1024016891000264e-06,
7237
+ "loss": 0.0086,
7238
+ "step": 10280
7239
+ },
7240
+ {
7241
+ "epoch": 4.0736342042755345,
7242
+ "grad_norm": 0.07322364300489426,
7243
+ "learning_rate": 3.0892055951438373e-06,
7244
+ "loss": 0.02,
7245
+ "step": 10290
7246
+ },
7247
+ {
7248
+ "epoch": 4.077593032462391,
7249
+ "grad_norm": 0.340831995010376,
7250
+ "learning_rate": 3.0760095011876486e-06,
7251
+ "loss": 0.013,
7252
+ "step": 10300
7253
+ },
7254
+ {
7255
+ "epoch": 4.081551860649248,
7256
+ "grad_norm": 0.01248082984238863,
7257
+ "learning_rate": 3.0628134072314595e-06,
7258
+ "loss": 0.0089,
7259
+ "step": 10310
7260
+ },
7261
+ {
7262
+ "epoch": 4.085510688836105,
7263
+ "grad_norm": 0.024720976129174232,
7264
+ "learning_rate": 3.0496173132752705e-06,
7265
+ "loss": 0.02,
7266
+ "step": 10320
7267
+ },
7268
+ {
7269
+ "epoch": 4.089469517022962,
7270
+ "grad_norm": 0.019353309646248817,
7271
+ "learning_rate": 3.0364212193190814e-06,
7272
+ "loss": 0.0019,
7273
+ "step": 10330
7274
+ },
7275
+ {
7276
+ "epoch": 4.0934283452098175,
7277
+ "grad_norm": 0.08675594627857208,
7278
+ "learning_rate": 3.0232251253628927e-06,
7279
+ "loss": 0.0202,
7280
+ "step": 10340
7281
+ },
7282
+ {
7283
+ "epoch": 4.097387173396674,
7284
+ "grad_norm": 0.2732747495174408,
7285
+ "learning_rate": 3.0100290314067037e-06,
7286
+ "loss": 0.0072,
7287
+ "step": 10350
7288
+ },
7289
+ {
7290
+ "epoch": 4.101346001583531,
7291
+ "grad_norm": 0.006827787961810827,
7292
+ "learning_rate": 2.9968329374505146e-06,
7293
+ "loss": 0.0016,
7294
+ "step": 10360
7295
+ },
7296
+ {
7297
+ "epoch": 4.105304829770388,
7298
+ "grad_norm": 0.03036872111260891,
7299
+ "learning_rate": 2.9836368434943255e-06,
7300
+ "loss": 0.0052,
7301
+ "step": 10370
7302
+ },
7303
+ {
7304
+ "epoch": 4.109263657957245,
7305
+ "grad_norm": 0.02737751416862011,
7306
+ "learning_rate": 2.970440749538137e-06,
7307
+ "loss": 0.0088,
7308
+ "step": 10380
7309
+ },
7310
+ {
7311
+ "epoch": 4.113222486144101,
7312
+ "grad_norm": 0.26449987292289734,
7313
+ "learning_rate": 2.9572446555819478e-06,
7314
+ "loss": 0.025,
7315
+ "step": 10390
7316
+ },
7317
+ {
7318
+ "epoch": 4.117181314330958,
7319
+ "grad_norm": 0.015447895973920822,
7320
+ "learning_rate": 2.9440485616257587e-06,
7321
+ "loss": 0.0064,
7322
+ "step": 10400
7323
+ },
7324
+ {
7325
+ "epoch": 4.121140142517815,
7326
+ "grad_norm": 0.48912787437438965,
7327
+ "learning_rate": 2.9308524676695696e-06,
7328
+ "loss": 0.0051,
7329
+ "step": 10410
7330
+ },
7331
+ {
7332
+ "epoch": 4.125098970704672,
7333
+ "grad_norm": 0.009630228392779827,
7334
+ "learning_rate": 2.9176563737133805e-06,
7335
+ "loss": 0.0006,
7336
+ "step": 10420
7337
+ },
7338
+ {
7339
+ "epoch": 4.1290577988915285,
7340
+ "grad_norm": 0.016364438459277153,
7341
+ "learning_rate": 2.904460279757192e-06,
7342
+ "loss": 0.0111,
7343
+ "step": 10430
7344
+ },
7345
+ {
7346
+ "epoch": 4.133016627078385,
7347
+ "grad_norm": 0.146970734000206,
7348
+ "learning_rate": 2.891264185801003e-06,
7349
+ "loss": 0.0158,
7350
+ "step": 10440
7351
+ },
7352
+ {
7353
+ "epoch": 4.136975455265241,
7354
+ "grad_norm": 0.01109443698078394,
7355
+ "learning_rate": 2.878068091844814e-06,
7356
+ "loss": 0.0111,
7357
+ "step": 10450
7358
+ },
7359
+ {
7360
+ "epoch": 4.140934283452098,
7361
+ "grad_norm": 1.858878254890442,
7362
+ "learning_rate": 2.864871997888625e-06,
7363
+ "loss": 0.0055,
7364
+ "step": 10460
7365
+ },
7366
+ {
7367
+ "epoch": 4.144893111638955,
7368
+ "grad_norm": 0.07197848707437515,
7369
+ "learning_rate": 2.8516759039324364e-06,
7370
+ "loss": 0.0012,
7371
+ "step": 10470
7372
+ },
7373
+ {
7374
+ "epoch": 4.1488519398258115,
7375
+ "grad_norm": 0.0016396682476624846,
7376
+ "learning_rate": 2.8384798099762473e-06,
7377
+ "loss": 0.0415,
7378
+ "step": 10480
7379
+ },
7380
+ {
7381
+ "epoch": 4.152810768012668,
7382
+ "grad_norm": 0.006434198934584856,
7383
+ "learning_rate": 2.8252837160200583e-06,
7384
+ "loss": 0.0083,
7385
+ "step": 10490
7386
+ },
7387
+ {
7388
+ "epoch": 4.156769596199525,
7389
+ "grad_norm": 0.010171783156692982,
7390
+ "learning_rate": 2.812087622063869e-06,
7391
+ "loss": 0.0088,
7392
+ "step": 10500
7393
+ },
7394
+ {
7395
+ "epoch": 4.160728424386382,
7396
+ "grad_norm": 0.00399325555190444,
7397
+ "learning_rate": 2.7988915281076805e-06,
7398
+ "loss": 0.0255,
7399
+ "step": 10510
7400
+ },
7401
+ {
7402
+ "epoch": 4.164687252573239,
7403
+ "grad_norm": 1.4930006265640259,
7404
+ "learning_rate": 2.7856954341514914e-06,
7405
+ "loss": 0.0247,
7406
+ "step": 10520
7407
+ },
7408
+ {
7409
+ "epoch": 4.168646080760095,
7410
+ "grad_norm": 1.2947190999984741,
7411
+ "learning_rate": 2.7724993401953024e-06,
7412
+ "loss": 0.0049,
7413
+ "step": 10530
7414
+ },
7415
+ {
7416
+ "epoch": 4.172604908946952,
7417
+ "grad_norm": 0.3954826593399048,
7418
+ "learning_rate": 2.7593032462391133e-06,
7419
+ "loss": 0.02,
7420
+ "step": 10540
7421
+ },
7422
+ {
7423
+ "epoch": 4.176563737133808,
7424
+ "grad_norm": 2.7527806758880615,
7425
+ "learning_rate": 2.746107152282924e-06,
7426
+ "loss": 0.0187,
7427
+ "step": 10550
7428
+ },
7429
+ {
7430
+ "epoch": 4.180522565320665,
7431
+ "grad_norm": 0.0014982519205659628,
7432
+ "learning_rate": 2.7329110583267356e-06,
7433
+ "loss": 0.0152,
7434
+ "step": 10560
7435
+ },
7436
+ {
7437
+ "epoch": 4.184481393507522,
7438
+ "grad_norm": 0.1216762438416481,
7439
+ "learning_rate": 2.7197149643705465e-06,
7440
+ "loss": 0.0034,
7441
+ "step": 10570
7442
+ },
7443
+ {
7444
+ "epoch": 4.188440221694378,
7445
+ "grad_norm": 2.067582845687866,
7446
+ "learning_rate": 2.7065188704143574e-06,
7447
+ "loss": 0.0063,
7448
+ "step": 10580
7449
+ },
7450
+ {
7451
+ "epoch": 4.192399049881235,
7452
+ "grad_norm": 0.06368841975927353,
7453
+ "learning_rate": 2.6933227764581683e-06,
7454
+ "loss": 0.0042,
7455
+ "step": 10590
7456
+ },
7457
+ {
7458
+ "epoch": 4.196357878068092,
7459
+ "grad_norm": 0.017680363729596138,
7460
+ "learning_rate": 2.6801266825019797e-06,
7461
+ "loss": 0.0122,
7462
+ "step": 10600
7463
+ },
7464
+ {
7465
+ "epoch": 4.200316706254949,
7466
+ "grad_norm": 0.013119541108608246,
7467
+ "learning_rate": 2.6669305885457906e-06,
7468
+ "loss": 0.0071,
7469
+ "step": 10610
7470
+ },
7471
+ {
7472
+ "epoch": 4.2042755344418055,
7473
+ "grad_norm": 0.017275096848607063,
7474
+ "learning_rate": 2.6537344945896015e-06,
7475
+ "loss": 0.0162,
7476
+ "step": 10620
7477
+ },
7478
+ {
7479
+ "epoch": 4.208234362628662,
7480
+ "grad_norm": 0.13690078258514404,
7481
+ "learning_rate": 2.6405384006334124e-06,
7482
+ "loss": 0.0165,
7483
+ "step": 10630
7484
+ },
7485
+ {
7486
+ "epoch": 4.212193190815519,
7487
+ "grad_norm": 0.022821534425020218,
7488
+ "learning_rate": 2.6273423066772233e-06,
7489
+ "loss": 0.0013,
7490
+ "step": 10640
7491
+ },
7492
+ {
7493
+ "epoch": 4.216152019002375,
7494
+ "grad_norm": 0.0382111519575119,
7495
+ "learning_rate": 2.6141462127210347e-06,
7496
+ "loss": 0.021,
7497
+ "step": 10650
7498
+ },
7499
+ {
7500
+ "epoch": 4.220110847189232,
7501
+ "grad_norm": 0.39983102679252625,
7502
+ "learning_rate": 2.6009501187648456e-06,
7503
+ "loss": 0.0107,
7504
+ "step": 10660
7505
+ },
7506
+ {
7507
+ "epoch": 4.2240696753760885,
7508
+ "grad_norm": 0.09305311739444733,
7509
+ "learning_rate": 2.5877540248086565e-06,
7510
+ "loss": 0.0022,
7511
+ "step": 10670
7512
+ },
7513
+ {
7514
+ "epoch": 4.228028503562945,
7515
+ "grad_norm": 0.002689237706363201,
7516
+ "learning_rate": 2.5745579308524675e-06,
7517
+ "loss": 0.0141,
7518
+ "step": 10680
7519
+ },
7520
+ {
7521
+ "epoch": 4.231987331749802,
7522
+ "grad_norm": 2.4468233585357666,
7523
+ "learning_rate": 2.561361836896279e-06,
7524
+ "loss": 0.0325,
7525
+ "step": 10690
7526
+ },
7527
+ {
7528
+ "epoch": 4.235946159936659,
7529
+ "grad_norm": 0.25319406390190125,
7530
+ "learning_rate": 2.5481657429400897e-06,
7531
+ "loss": 0.0018,
7532
+ "step": 10700
7533
+ },
7534
+ {
7535
+ "epoch": 4.239904988123516,
7536
+ "grad_norm": 0.08327177911996841,
7537
+ "learning_rate": 2.5349696489839006e-06,
7538
+ "loss": 0.0007,
7539
+ "step": 10710
7540
+ },
7541
+ {
7542
+ "epoch": 4.243863816310372,
7543
+ "grad_norm": 0.0035083668772131205,
7544
+ "learning_rate": 2.5217735550277116e-06,
7545
+ "loss": 0.0131,
7546
+ "step": 10720
7547
+ },
7548
+ {
7549
+ "epoch": 4.247822644497229,
7550
+ "grad_norm": 0.040262769907712936,
7551
+ "learning_rate": 2.508577461071523e-06,
7552
+ "loss": 0.0098,
7553
+ "step": 10730
7554
+ },
7555
+ {
7556
+ "epoch": 4.251781472684086,
7557
+ "grad_norm": 0.03535272926092148,
7558
+ "learning_rate": 2.495381367115334e-06,
7559
+ "loss": 0.002,
7560
+ "step": 10740
7561
+ },
7562
+ {
7563
+ "epoch": 4.255740300870942,
7564
+ "grad_norm": 0.008145648054778576,
7565
+ "learning_rate": 2.4821852731591448e-06,
7566
+ "loss": 0.0518,
7567
+ "step": 10750
7568
+ },
7569
+ {
7570
+ "epoch": 4.259699129057799,
7571
+ "grad_norm": 0.0012378422543406487,
7572
+ "learning_rate": 2.468989179202956e-06,
7573
+ "loss": 0.0068,
7574
+ "step": 10760
7575
+ },
7576
+ {
7577
+ "epoch": 4.263657957244655,
7578
+ "grad_norm": 0.011911870911717415,
7579
+ "learning_rate": 2.455793085246767e-06,
7580
+ "loss": 0.0022,
7581
+ "step": 10770
7582
+ },
7583
+ {
7584
+ "epoch": 4.267616785431512,
7585
+ "grad_norm": 0.020499201491475105,
7586
+ "learning_rate": 2.4425969912905784e-06,
7587
+ "loss": 0.0455,
7588
+ "step": 10780
7589
+ },
7590
+ {
7591
+ "epoch": 4.271575613618369,
7592
+ "grad_norm": 0.2833760380744934,
7593
+ "learning_rate": 2.4294008973343893e-06,
7594
+ "loss": 0.0028,
7595
+ "step": 10790
7596
+ },
7597
+ {
7598
+ "epoch": 4.275534441805226,
7599
+ "grad_norm": 2.9257848262786865,
7600
+ "learning_rate": 2.4162048033782002e-06,
7601
+ "loss": 0.0275,
7602
+ "step": 10800
7603
+ },
7604
+ {
7605
+ "epoch": 4.2794932699920825,
7606
+ "grad_norm": 0.004658582620322704,
7607
+ "learning_rate": 2.403008709422011e-06,
7608
+ "loss": 0.0103,
7609
+ "step": 10810
7610
+ },
7611
+ {
7612
+ "epoch": 4.283452098178939,
7613
+ "grad_norm": 0.045958828181028366,
7614
+ "learning_rate": 2.3898126154658225e-06,
7615
+ "loss": 0.0021,
7616
+ "step": 10820
7617
+ },
7618
+ {
7619
+ "epoch": 4.287410926365796,
7620
+ "grad_norm": 0.03812342882156372,
7621
+ "learning_rate": 2.3766165215096334e-06,
7622
+ "loss": 0.0112,
7623
+ "step": 10830
7624
+ },
7625
+ {
7626
+ "epoch": 4.291369754552653,
7627
+ "grad_norm": 0.42923569679260254,
7628
+ "learning_rate": 2.3634204275534443e-06,
7629
+ "loss": 0.0178,
7630
+ "step": 10840
7631
+ },
7632
+ {
7633
+ "epoch": 4.29532858273951,
7634
+ "grad_norm": 2.794842481613159,
7635
+ "learning_rate": 2.3502243335972552e-06,
7636
+ "loss": 0.0167,
7637
+ "step": 10850
7638
+ },
7639
+ {
7640
+ "epoch": 4.2992874109263655,
7641
+ "grad_norm": 2.6024465560913086,
7642
+ "learning_rate": 2.337028239641066e-06,
7643
+ "loss": 0.0098,
7644
+ "step": 10860
7645
+ },
7646
+ {
7647
+ "epoch": 4.303246239113222,
7648
+ "grad_norm": 0.3943503499031067,
7649
+ "learning_rate": 2.3238321456848775e-06,
7650
+ "loss": 0.0241,
7651
+ "step": 10870
7652
+ },
7653
+ {
7654
+ "epoch": 4.307205067300079,
7655
+ "grad_norm": 0.3368546664714813,
7656
+ "learning_rate": 2.3106360517286884e-06,
7657
+ "loss": 0.0102,
7658
+ "step": 10880
7659
+ },
7660
+ {
7661
+ "epoch": 4.311163895486936,
7662
+ "grad_norm": 2.6512246131896973,
7663
+ "learning_rate": 2.2974399577724994e-06,
7664
+ "loss": 0.038,
7665
+ "step": 10890
7666
+ },
7667
+ {
7668
+ "epoch": 4.315122723673793,
7669
+ "grad_norm": 0.010673053562641144,
7670
+ "learning_rate": 2.2842438638163103e-06,
7671
+ "loss": 0.0028,
7672
+ "step": 10900
7673
+ },
7674
+ {
7675
+ "epoch": 4.319081551860649,
7676
+ "grad_norm": 0.024181121960282326,
7677
+ "learning_rate": 2.2710477698601216e-06,
7678
+ "loss": 0.0222,
7679
+ "step": 10910
7680
+ },
7681
+ {
7682
+ "epoch": 4.323040380047506,
7683
+ "grad_norm": 0.23308300971984863,
7684
+ "learning_rate": 2.2578516759039325e-06,
7685
+ "loss": 0.0016,
7686
+ "step": 10920
7687
+ },
7688
+ {
7689
+ "epoch": 4.326999208234363,
7690
+ "grad_norm": 0.20534226298332214,
7691
+ "learning_rate": 2.2446555819477435e-06,
7692
+ "loss": 0.0129,
7693
+ "step": 10930
7694
+ },
7695
+ {
7696
+ "epoch": 4.33095803642122,
7697
+ "grad_norm": 4.1924614906311035,
7698
+ "learning_rate": 2.2314594879915544e-06,
7699
+ "loss": 0.0191,
7700
+ "step": 10940
7701
+ },
7702
+ {
7703
+ "epoch": 4.334916864608076,
7704
+ "grad_norm": 0.005158805754035711,
7705
+ "learning_rate": 2.2182633940353657e-06,
7706
+ "loss": 0.0136,
7707
+ "step": 10950
7708
+ },
7709
+ {
7710
+ "epoch": 4.338875692794932,
7711
+ "grad_norm": 0.001412239857017994,
7712
+ "learning_rate": 2.2050673000791767e-06,
7713
+ "loss": 0.006,
7714
+ "step": 10960
7715
+ },
7716
+ {
7717
+ "epoch": 4.342834520981789,
7718
+ "grad_norm": 0.16200730204582214,
7719
+ "learning_rate": 2.1918712061229876e-06,
7720
+ "loss": 0.0218,
7721
+ "step": 10970
7722
+ },
7723
+ {
7724
+ "epoch": 4.346793349168646,
7725
+ "grad_norm": 0.012622310779988766,
7726
+ "learning_rate": 2.1786751121667985e-06,
7727
+ "loss": 0.0034,
7728
+ "step": 10980
7729
+ },
7730
+ {
7731
+ "epoch": 4.350752177355503,
7732
+ "grad_norm": 0.002170913852751255,
7733
+ "learning_rate": 2.1654790182106094e-06,
7734
+ "loss": 0.0036,
7735
+ "step": 10990
7736
+ },
7737
+ {
7738
+ "epoch": 4.3547110055423595,
7739
+ "grad_norm": 0.025332679972052574,
7740
+ "learning_rate": 2.1522829242544208e-06,
7741
+ "loss": 0.019,
7742
+ "step": 11000
7743
+ },
7744
+ {
7745
+ "epoch": 4.358669833729216,
7746
+ "grad_norm": 2.4141597747802734,
7747
+ "learning_rate": 2.1390868302982317e-06,
7748
+ "loss": 0.0197,
7749
+ "step": 11010
7750
+ },
7751
+ {
7752
+ "epoch": 4.362628661916073,
7753
+ "grad_norm": 0.021384382620453835,
7754
+ "learning_rate": 2.1258907363420426e-06,
7755
+ "loss": 0.0109,
7756
+ "step": 11020
7757
+ },
7758
+ {
7759
+ "epoch": 4.36658749010293,
7760
+ "grad_norm": 0.23710516095161438,
7761
+ "learning_rate": 2.1126946423858535e-06,
7762
+ "loss": 0.0157,
7763
+ "step": 11030
7764
+ },
7765
+ {
7766
+ "epoch": 4.370546318289787,
7767
+ "grad_norm": 0.2813720405101776,
7768
+ "learning_rate": 2.099498548429665e-06,
7769
+ "loss": 0.0188,
7770
+ "step": 11040
7771
+ },
7772
+ {
7773
+ "epoch": 4.374505146476643,
7774
+ "grad_norm": 0.033856701105833054,
7775
+ "learning_rate": 2.086302454473476e-06,
7776
+ "loss": 0.0089,
7777
+ "step": 11050
7778
+ },
7779
+ {
7780
+ "epoch": 4.378463974663499,
7781
+ "grad_norm": 0.03744563087821007,
7782
+ "learning_rate": 2.0731063605172867e-06,
7783
+ "loss": 0.0141,
7784
+ "step": 11060
7785
+ },
7786
+ {
7787
+ "epoch": 4.382422802850356,
7788
+ "grad_norm": 0.11789966374635696,
7789
+ "learning_rate": 2.0599102665610976e-06,
7790
+ "loss": 0.0294,
7791
+ "step": 11070
7792
+ },
7793
+ {
7794
+ "epoch": 4.386381631037213,
7795
+ "grad_norm": 0.6800145506858826,
7796
+ "learning_rate": 2.0467141726049094e-06,
7797
+ "loss": 0.0152,
7798
+ "step": 11080
7799
+ },
7800
+ {
7801
+ "epoch": 4.39034045922407,
7802
+ "grad_norm": 4.2035932540893555,
7803
+ "learning_rate": 2.0335180786487203e-06,
7804
+ "loss": 0.0393,
7805
+ "step": 11090
7806
+ },
7807
+ {
7808
+ "epoch": 4.394299287410926,
7809
+ "grad_norm": 0.4387066960334778,
7810
+ "learning_rate": 2.0203219846925313e-06,
7811
+ "loss": 0.0109,
7812
+ "step": 11100
7813
+ },
7814
+ {
7815
+ "epoch": 4.398258115597783,
7816
+ "grad_norm": 0.0016134337056428194,
7817
+ "learning_rate": 2.007125890736342e-06,
7818
+ "loss": 0.0018,
7819
+ "step": 11110
7820
+ },
7821
+ {
7822
+ "epoch": 4.40221694378464,
7823
+ "grad_norm": 0.03524504229426384,
7824
+ "learning_rate": 1.993929796780153e-06,
7825
+ "loss": 0.0196,
7826
+ "step": 11120
7827
+ },
7828
+ {
7829
+ "epoch": 4.406175771971497,
7830
+ "grad_norm": 0.008228733204305172,
7831
+ "learning_rate": 1.9807337028239644e-06,
7832
+ "loss": 0.0021,
7833
+ "step": 11130
7834
+ },
7835
+ {
7836
+ "epoch": 4.4101346001583535,
7837
+ "grad_norm": 0.2361990064382553,
7838
+ "learning_rate": 1.9675376088677754e-06,
7839
+ "loss": 0.0097,
7840
+ "step": 11140
7841
+ },
7842
+ {
7843
+ "epoch": 4.414093428345209,
7844
+ "grad_norm": 0.17866535484790802,
7845
+ "learning_rate": 1.9543415149115863e-06,
7846
+ "loss": 0.0015,
7847
+ "step": 11150
7848
+ },
7849
+ {
7850
+ "epoch": 4.418052256532066,
7851
+ "grad_norm": 0.9840713143348694,
7852
+ "learning_rate": 1.941145420955397e-06,
7853
+ "loss": 0.0056,
7854
+ "step": 11160
7855
+ },
7856
+ {
7857
+ "epoch": 4.422011084718923,
7858
+ "grad_norm": 0.034094199538230896,
7859
+ "learning_rate": 1.9279493269992085e-06,
7860
+ "loss": 0.0126,
7861
+ "step": 11170
7862
+ },
7863
+ {
7864
+ "epoch": 4.42596991290578,
7865
+ "grad_norm": 0.01327612716704607,
7866
+ "learning_rate": 1.9147532330430195e-06,
7867
+ "loss": 0.032,
7868
+ "step": 11180
7869
+ },
7870
+ {
7871
+ "epoch": 4.4299287410926365,
7872
+ "grad_norm": 0.03214488551020622,
7873
+ "learning_rate": 1.9015571390868304e-06,
7874
+ "loss": 0.0007,
7875
+ "step": 11190
7876
+ },
7877
+ {
7878
+ "epoch": 4.433887569279493,
7879
+ "grad_norm": 0.1643148809671402,
7880
+ "learning_rate": 1.8883610451306415e-06,
7881
+ "loss": 0.001,
7882
+ "step": 11200
7883
+ },
7884
+ {
7885
+ "epoch": 4.43784639746635,
7886
+ "grad_norm": 1.2142212390899658,
7887
+ "learning_rate": 1.8751649511744524e-06,
7888
+ "loss": 0.0029,
7889
+ "step": 11210
7890
+ },
7891
+ {
7892
+ "epoch": 4.441805225653207,
7893
+ "grad_norm": 0.050521478056907654,
7894
+ "learning_rate": 1.8619688572182634e-06,
7895
+ "loss": 0.0015,
7896
+ "step": 11220
7897
+ },
7898
+ {
7899
+ "epoch": 4.445764053840064,
7900
+ "grad_norm": 2.6327645778656006,
7901
+ "learning_rate": 1.8487727632620745e-06,
7902
+ "loss": 0.0141,
7903
+ "step": 11230
7904
+ },
7905
+ {
7906
+ "epoch": 4.44972288202692,
7907
+ "grad_norm": 0.10866005718708038,
7908
+ "learning_rate": 1.8355766693058854e-06,
7909
+ "loss": 0.0331,
7910
+ "step": 11240
7911
+ },
7912
+ {
7913
+ "epoch": 4.453681710213777,
7914
+ "grad_norm": 2.2170937061309814,
7915
+ "learning_rate": 1.8223805753496966e-06,
7916
+ "loss": 0.0085,
7917
+ "step": 11250
7918
+ },
7919
+ {
7920
+ "epoch": 4.457640538400633,
7921
+ "grad_norm": 0.15154610574245453,
7922
+ "learning_rate": 1.8091844813935075e-06,
7923
+ "loss": 0.0237,
7924
+ "step": 11260
7925
+ },
7926
+ {
7927
+ "epoch": 4.46159936658749,
7928
+ "grad_norm": 0.005728883668780327,
7929
+ "learning_rate": 1.7959883874373186e-06,
7930
+ "loss": 0.0185,
7931
+ "step": 11270
7932
+ },
7933
+ {
7934
+ "epoch": 4.465558194774347,
7935
+ "grad_norm": 0.08254682272672653,
7936
+ "learning_rate": 1.7827922934811295e-06,
7937
+ "loss": 0.0084,
7938
+ "step": 11280
7939
+ },
7940
+ {
7941
+ "epoch": 4.469517022961203,
7942
+ "grad_norm": 0.36999353766441345,
7943
+ "learning_rate": 1.7695961995249407e-06,
7944
+ "loss": 0.012,
7945
+ "step": 11290
7946
+ },
7947
+ {
7948
+ "epoch": 4.47347585114806,
7949
+ "grad_norm": 0.023466236889362335,
7950
+ "learning_rate": 1.7564001055687516e-06,
7951
+ "loss": 0.001,
7952
+ "step": 11300
7953
+ },
7954
+ {
7955
+ "epoch": 4.477434679334917,
7956
+ "grad_norm": 0.10780829936265945,
7957
+ "learning_rate": 1.7432040116125627e-06,
7958
+ "loss": 0.0131,
7959
+ "step": 11310
7960
+ },
7961
+ {
7962
+ "epoch": 4.481393507521774,
7963
+ "grad_norm": 0.01709785871207714,
7964
+ "learning_rate": 1.7300079176563739e-06,
7965
+ "loss": 0.0095,
7966
+ "step": 11320
7967
+ },
7968
+ {
7969
+ "epoch": 4.4853523357086305,
7970
+ "grad_norm": 0.01511989627033472,
7971
+ "learning_rate": 1.7168118237001848e-06,
7972
+ "loss": 0.0042,
7973
+ "step": 11330
7974
+ },
7975
+ {
7976
+ "epoch": 4.489311163895487,
7977
+ "grad_norm": 0.13262680172920227,
7978
+ "learning_rate": 1.703615729743996e-06,
7979
+ "loss": 0.0272,
7980
+ "step": 11340
7981
+ },
7982
+ {
7983
+ "epoch": 4.493269992082344,
7984
+ "grad_norm": 0.01472618617117405,
7985
+ "learning_rate": 1.6904196357878068e-06,
7986
+ "loss": 0.001,
7987
+ "step": 11350
7988
+ },
7989
+ {
7990
+ "epoch": 4.4972288202692,
7991
+ "grad_norm": 0.0017839232459664345,
7992
+ "learning_rate": 1.677223541831618e-06,
7993
+ "loss": 0.0125,
7994
+ "step": 11360
7995
+ },
7996
+ {
7997
+ "epoch": 4.501187648456057,
7998
+ "grad_norm": 0.15884031355381012,
7999
+ "learning_rate": 1.6640274478754289e-06,
8000
+ "loss": 0.0019,
8001
+ "step": 11370
8002
+ },
8003
+ {
8004
+ "epoch": 4.5051464766429135,
8005
+ "grad_norm": 0.07231657952070236,
8006
+ "learning_rate": 1.65083135391924e-06,
8007
+ "loss": 0.0021,
8008
+ "step": 11380
8009
+ },
8010
+ {
8011
+ "epoch": 4.50910530482977,
8012
+ "grad_norm": 0.15871493518352509,
8013
+ "learning_rate": 1.637635259963051e-06,
8014
+ "loss": 0.0008,
8015
+ "step": 11390
8016
+ },
8017
+ {
8018
+ "epoch": 4.513064133016627,
8019
+ "grad_norm": 0.011580166406929493,
8020
+ "learning_rate": 1.624439166006862e-06,
8021
+ "loss": 0.0049,
8022
+ "step": 11400
8023
+ },
8024
+ {
8025
+ "epoch": 4.517022961203484,
8026
+ "grad_norm": 0.014912627637386322,
8027
+ "learning_rate": 1.611243072050673e-06,
8028
+ "loss": 0.0158,
8029
+ "step": 11410
8030
+ },
8031
+ {
8032
+ "epoch": 4.520981789390341,
8033
+ "grad_norm": 0.0724916085600853,
8034
+ "learning_rate": 1.5980469780944841e-06,
8035
+ "loss": 0.0466,
8036
+ "step": 11420
8037
+ },
8038
+ {
8039
+ "epoch": 4.524940617577197,
8040
+ "grad_norm": 0.21377435326576233,
8041
+ "learning_rate": 1.584850884138295e-06,
8042
+ "loss": 0.0009,
8043
+ "step": 11430
8044
+ },
8045
+ {
8046
+ "epoch": 4.528899445764054,
8047
+ "grad_norm": 0.005721719935536385,
8048
+ "learning_rate": 1.571654790182106e-06,
8049
+ "loss": 0.0165,
8050
+ "step": 11440
8051
+ },
8052
+ {
8053
+ "epoch": 4.532858273950911,
8054
+ "grad_norm": 0.009795432910323143,
8055
+ "learning_rate": 1.5584586962259171e-06,
8056
+ "loss": 0.0016,
8057
+ "step": 11450
8058
+ },
8059
+ {
8060
+ "epoch": 4.536817102137768,
8061
+ "grad_norm": 0.026736890897154808,
8062
+ "learning_rate": 1.545262602269728e-06,
8063
+ "loss": 0.0014,
8064
+ "step": 11460
8065
+ },
8066
+ {
8067
+ "epoch": 4.540775930324624,
8068
+ "grad_norm": 0.014911648817360401,
8069
+ "learning_rate": 1.5320665083135392e-06,
8070
+ "loss": 0.0218,
8071
+ "step": 11470
8072
+ },
8073
+ {
8074
+ "epoch": 4.54473475851148,
8075
+ "grad_norm": 0.0018749868031591177,
8076
+ "learning_rate": 1.5188704143573503e-06,
8077
+ "loss": 0.0015,
8078
+ "step": 11480
8079
+ },
8080
+ {
8081
+ "epoch": 4.548693586698337,
8082
+ "grad_norm": 2.4239377975463867,
8083
+ "learning_rate": 1.5056743204011614e-06,
8084
+ "loss": 0.0177,
8085
+ "step": 11490
8086
+ },
8087
+ {
8088
+ "epoch": 4.552652414885194,
8089
+ "grad_norm": 0.2642796039581299,
8090
+ "learning_rate": 1.4924782264449724e-06,
8091
+ "loss": 0.0085,
8092
+ "step": 11500
8093
+ },
8094
+ {
8095
+ "epoch": 4.556611243072051,
8096
+ "grad_norm": 0.6623967289924622,
8097
+ "learning_rate": 1.4792821324887835e-06,
8098
+ "loss": 0.0031,
8099
+ "step": 11510
8100
+ },
8101
+ {
8102
+ "epoch": 4.5605700712589075,
8103
+ "grad_norm": 2.6269302368164062,
8104
+ "learning_rate": 1.4660860385325944e-06,
8105
+ "loss": 0.0092,
8106
+ "step": 11520
8107
+ },
8108
+ {
8109
+ "epoch": 4.564528899445764,
8110
+ "grad_norm": 0.20825159549713135,
8111
+ "learning_rate": 1.4528899445764055e-06,
8112
+ "loss": 0.0013,
8113
+ "step": 11530
8114
+ },
8115
+ {
8116
+ "epoch": 4.568487727632621,
8117
+ "grad_norm": 0.44120895862579346,
8118
+ "learning_rate": 1.4396938506202165e-06,
8119
+ "loss": 0.0022,
8120
+ "step": 11540
8121
+ },
8122
+ {
8123
+ "epoch": 4.572446555819478,
8124
+ "grad_norm": 0.4229113459587097,
8125
+ "learning_rate": 1.4264977566640274e-06,
8126
+ "loss": 0.0137,
8127
+ "step": 11550
8128
+ },
8129
+ {
8130
+ "epoch": 4.576405384006334,
8131
+ "grad_norm": 0.12956929206848145,
8132
+ "learning_rate": 1.4133016627078385e-06,
8133
+ "loss": 0.0026,
8134
+ "step": 11560
8135
+ },
8136
+ {
8137
+ "epoch": 4.5803642121931905,
8138
+ "grad_norm": 0.013492707163095474,
8139
+ "learning_rate": 1.4001055687516494e-06,
8140
+ "loss": 0.0013,
8141
+ "step": 11570
8142
+ },
8143
+ {
8144
+ "epoch": 4.584323040380047,
8145
+ "grad_norm": 0.030138276517391205,
8146
+ "learning_rate": 1.3869094747954606e-06,
8147
+ "loss": 0.001,
8148
+ "step": 11580
8149
+ },
8150
+ {
8151
+ "epoch": 4.588281868566904,
8152
+ "grad_norm": 0.05256173387169838,
8153
+ "learning_rate": 1.3737133808392715e-06,
8154
+ "loss": 0.0006,
8155
+ "step": 11590
8156
+ },
8157
+ {
8158
+ "epoch": 4.592240696753761,
8159
+ "grad_norm": 0.0029339452739804983,
8160
+ "learning_rate": 1.3605172868830826e-06,
8161
+ "loss": 0.0249,
8162
+ "step": 11600
8163
+ },
8164
+ {
8165
+ "epoch": 4.596199524940618,
8166
+ "grad_norm": 2.4009523391723633,
8167
+ "learning_rate": 1.3473211929268935e-06,
8168
+ "loss": 0.0255,
8169
+ "step": 11610
8170
+ },
8171
+ {
8172
+ "epoch": 4.600158353127474,
8173
+ "grad_norm": 2.775813341140747,
8174
+ "learning_rate": 1.3341250989707047e-06,
8175
+ "loss": 0.0276,
8176
+ "step": 11620
8177
+ },
8178
+ {
8179
+ "epoch": 4.604117181314331,
8180
+ "grad_norm": 0.020541055127978325,
8181
+ "learning_rate": 1.3209290050145156e-06,
8182
+ "loss": 0.0008,
8183
+ "step": 11630
8184
+ },
8185
+ {
8186
+ "epoch": 4.608076009501188,
8187
+ "grad_norm": 0.12365325540304184,
8188
+ "learning_rate": 1.307732911058327e-06,
8189
+ "loss": 0.0215,
8190
+ "step": 11640
8191
+ },
8192
+ {
8193
+ "epoch": 4.612034837688045,
8194
+ "grad_norm": 0.10344530642032623,
8195
+ "learning_rate": 1.2945368171021379e-06,
8196
+ "loss": 0.0009,
8197
+ "step": 11650
8198
+ },
8199
+ {
8200
+ "epoch": 4.6159936658749015,
8201
+ "grad_norm": 0.021320436149835587,
8202
+ "learning_rate": 1.2813407231459488e-06,
8203
+ "loss": 0.0018,
8204
+ "step": 11660
8205
+ },
8206
+ {
8207
+ "epoch": 4.619952494061757,
8208
+ "grad_norm": 0.1441866159439087,
8209
+ "learning_rate": 1.26814462918976e-06,
8210
+ "loss": 0.031,
8211
+ "step": 11670
8212
+ },
8213
+ {
8214
+ "epoch": 4.623911322248614,
8215
+ "grad_norm": 0.010510790161788464,
8216
+ "learning_rate": 1.2549485352335708e-06,
8217
+ "loss": 0.0174,
8218
+ "step": 11680
8219
+ },
8220
+ {
8221
+ "epoch": 4.627870150435471,
8222
+ "grad_norm": 0.5400771498680115,
8223
+ "learning_rate": 1.241752441277382e-06,
8224
+ "loss": 0.0156,
8225
+ "step": 11690
8226
+ },
8227
+ {
8228
+ "epoch": 4.631828978622328,
8229
+ "grad_norm": 0.2115350365638733,
8230
+ "learning_rate": 1.228556347321193e-06,
8231
+ "loss": 0.0037,
8232
+ "step": 11700
8233
+ },
8234
+ {
8235
+ "epoch": 4.6357878068091845,
8236
+ "grad_norm": 0.13378827273845673,
8237
+ "learning_rate": 1.215360253365004e-06,
8238
+ "loss": 0.0027,
8239
+ "step": 11710
8240
+ },
8241
+ {
8242
+ "epoch": 4.639746634996041,
8243
+ "grad_norm": 0.03523465245962143,
8244
+ "learning_rate": 1.202164159408815e-06,
8245
+ "loss": 0.0181,
8246
+ "step": 11720
8247
+ },
8248
+ {
8249
+ "epoch": 4.643705463182898,
8250
+ "grad_norm": 0.0026600570417940617,
8251
+ "learning_rate": 1.188968065452626e-06,
8252
+ "loss": 0.0023,
8253
+ "step": 11730
8254
+ },
8255
+ {
8256
+ "epoch": 4.647664291369755,
8257
+ "grad_norm": 0.0101556908339262,
8258
+ "learning_rate": 1.175771971496437e-06,
8259
+ "loss": 0.0007,
8260
+ "step": 11740
8261
+ },
8262
+ {
8263
+ "epoch": 4.651623119556612,
8264
+ "grad_norm": 0.13945993781089783,
8265
+ "learning_rate": 1.1625758775402481e-06,
8266
+ "loss": 0.0066,
8267
+ "step": 11750
8268
+ },
8269
+ {
8270
+ "epoch": 4.6555819477434675,
8271
+ "grad_norm": 0.3167749047279358,
8272
+ "learning_rate": 1.149379783584059e-06,
8273
+ "loss": 0.0022,
8274
+ "step": 11760
8275
+ },
8276
+ {
8277
+ "epoch": 4.659540775930324,
8278
+ "grad_norm": 0.004489412531256676,
8279
+ "learning_rate": 1.1361836896278702e-06,
8280
+ "loss": 0.0105,
8281
+ "step": 11770
8282
+ },
8283
+ {
8284
+ "epoch": 4.663499604117181,
8285
+ "grad_norm": 0.27212023735046387,
8286
+ "learning_rate": 1.1229875956716811e-06,
8287
+ "loss": 0.0086,
8288
+ "step": 11780
8289
+ },
8290
+ {
8291
+ "epoch": 4.667458432304038,
8292
+ "grad_norm": 0.03749987855553627,
8293
+ "learning_rate": 1.1097915017154923e-06,
8294
+ "loss": 0.0095,
8295
+ "step": 11790
8296
+ },
8297
+ {
8298
+ "epoch": 4.671417260490895,
8299
+ "grad_norm": 0.15570545196533203,
8300
+ "learning_rate": 1.0965954077593034e-06,
8301
+ "loss": 0.0015,
8302
+ "step": 11800
8303
+ },
8304
+ {
8305
+ "epoch": 4.675376088677751,
8306
+ "grad_norm": 0.052114758640527725,
8307
+ "learning_rate": 1.0833993138031143e-06,
8308
+ "loss": 0.0133,
8309
+ "step": 11810
8310
+ },
8311
+ {
8312
+ "epoch": 4.679334916864608,
8313
+ "grad_norm": 0.2027260959148407,
8314
+ "learning_rate": 1.0702032198469254e-06,
8315
+ "loss": 0.0159,
8316
+ "step": 11820
8317
+ },
8318
+ {
8319
+ "epoch": 4.683293745051465,
8320
+ "grad_norm": 0.057699043303728104,
8321
+ "learning_rate": 1.0570071258907364e-06,
8322
+ "loss": 0.0081,
8323
+ "step": 11830
8324
+ },
8325
+ {
8326
+ "epoch": 4.687252573238322,
8327
+ "grad_norm": 0.07636474817991257,
8328
+ "learning_rate": 1.0438110319345475e-06,
8329
+ "loss": 0.0242,
8330
+ "step": 11840
8331
+ },
8332
+ {
8333
+ "epoch": 4.6912114014251785,
8334
+ "grad_norm": 0.23860959708690643,
8335
+ "learning_rate": 1.0306149379783584e-06,
8336
+ "loss": 0.0146,
8337
+ "step": 11850
8338
+ },
8339
+ {
8340
+ "epoch": 4.695170229612035,
8341
+ "grad_norm": 0.11115310341119766,
8342
+ "learning_rate": 1.0174188440221696e-06,
8343
+ "loss": 0.0059,
8344
+ "step": 11860
8345
+ },
8346
+ {
8347
+ "epoch": 4.699129057798892,
8348
+ "grad_norm": 0.2461850345134735,
8349
+ "learning_rate": 1.0042227500659805e-06,
8350
+ "loss": 0.0018,
8351
+ "step": 11870
8352
+ },
8353
+ {
8354
+ "epoch": 4.703087885985748,
8355
+ "grad_norm": 0.007762064225971699,
8356
+ "learning_rate": 9.910266561097916e-07,
8357
+ "loss": 0.0113,
8358
+ "step": 11880
8359
+ },
8360
+ {
8361
+ "epoch": 4.707046714172605,
8362
+ "grad_norm": 0.21308307349681854,
8363
+ "learning_rate": 9.778305621536025e-07,
8364
+ "loss": 0.0016,
8365
+ "step": 11890
8366
+ },
8367
+ {
8368
+ "epoch": 4.7110055423594615,
8369
+ "grad_norm": 0.38225802779197693,
8370
+ "learning_rate": 9.646344681974135e-07,
8371
+ "loss": 0.002,
8372
+ "step": 11900
8373
+ },
8374
+ {
8375
+ "epoch": 4.714964370546318,
8376
+ "grad_norm": 0.47582879662513733,
8377
+ "learning_rate": 9.514383742412246e-07,
8378
+ "loss": 0.0019,
8379
+ "step": 11910
8380
+ },
8381
+ {
8382
+ "epoch": 4.718923198733175,
8383
+ "grad_norm": 0.13118302822113037,
8384
+ "learning_rate": 9.382422802850356e-07,
8385
+ "loss": 0.0009,
8386
+ "step": 11920
8387
+ },
8388
+ {
8389
+ "epoch": 4.722882026920032,
8390
+ "grad_norm": 0.11689452081918716,
8391
+ "learning_rate": 9.250461863288467e-07,
8392
+ "loss": 0.0036,
8393
+ "step": 11930
8394
+ },
8395
+ {
8396
+ "epoch": 4.726840855106889,
8397
+ "grad_norm": 0.011046094819903374,
8398
+ "learning_rate": 9.118500923726578e-07,
8399
+ "loss": 0.0011,
8400
+ "step": 11940
8401
+ },
8402
+ {
8403
+ "epoch": 4.730799683293745,
8404
+ "grad_norm": 0.00931351538747549,
8405
+ "learning_rate": 8.986539984164687e-07,
8406
+ "loss": 0.0284,
8407
+ "step": 11950
8408
+ },
8409
+ {
8410
+ "epoch": 4.734758511480602,
8411
+ "grad_norm": 0.058653805404901505,
8412
+ "learning_rate": 8.854579044602797e-07,
8413
+ "loss": 0.0027,
8414
+ "step": 11960
8415
+ },
8416
+ {
8417
+ "epoch": 4.738717339667458,
8418
+ "grad_norm": 0.0022915638983249664,
8419
+ "learning_rate": 8.722618105040908e-07,
8420
+ "loss": 0.0013,
8421
+ "step": 11970
8422
+ },
8423
+ {
8424
+ "epoch": 4.742676167854315,
8425
+ "grad_norm": 0.007116817403584719,
8426
+ "learning_rate": 8.590657165479018e-07,
8427
+ "loss": 0.0141,
8428
+ "step": 11980
8429
+ },
8430
+ {
8431
+ "epoch": 4.746634996041172,
8432
+ "grad_norm": 0.13853254914283752,
8433
+ "learning_rate": 8.458696225917129e-07,
8434
+ "loss": 0.0104,
8435
+ "step": 11990
8436
+ },
8437
+ {
8438
+ "epoch": 4.750593824228028,
8439
+ "grad_norm": 0.011576661840081215,
8440
+ "learning_rate": 8.326735286355239e-07,
8441
+ "loss": 0.0014,
8442
+ "step": 12000
8443
+ },
8444
+ {
8445
+ "epoch": 4.754552652414885,
8446
+ "grad_norm": 2.4724280834198,
8447
+ "learning_rate": 8.19477434679335e-07,
8448
+ "loss": 0.0327,
8449
+ "step": 12010
8450
+ },
8451
+ {
8452
+ "epoch": 4.758511480601742,
8453
+ "grad_norm": 0.08917970210313797,
8454
+ "learning_rate": 8.06281340723146e-07,
8455
+ "loss": 0.0167,
8456
+ "step": 12020
8457
+ },
8458
+ {
8459
+ "epoch": 4.762470308788599,
8460
+ "grad_norm": 0.13262496888637543,
8461
+ "learning_rate": 7.93085246766957e-07,
8462
+ "loss": 0.005,
8463
+ "step": 12030
8464
+ },
8465
+ {
8466
+ "epoch": 4.7664291369754554,
8467
+ "grad_norm": 0.005669764243066311,
8468
+ "learning_rate": 7.79889152810768e-07,
8469
+ "loss": 0.0183,
8470
+ "step": 12040
8471
+ },
8472
+ {
8473
+ "epoch": 4.770387965162312,
8474
+ "grad_norm": 0.13403597474098206,
8475
+ "learning_rate": 7.666930588545791e-07,
8476
+ "loss": 0.0165,
8477
+ "step": 12050
8478
+ },
8479
+ {
8480
+ "epoch": 4.774346793349169,
8481
+ "grad_norm": 0.017786597833037376,
8482
+ "learning_rate": 7.534969648983901e-07,
8483
+ "loss": 0.0207,
8484
+ "step": 12060
8485
+ },
8486
+ {
8487
+ "epoch": 4.778305621536026,
8488
+ "grad_norm": 0.2829414904117584,
8489
+ "learning_rate": 7.403008709422011e-07,
8490
+ "loss": 0.0373,
8491
+ "step": 12070
8492
+ },
8493
+ {
8494
+ "epoch": 4.782264449722882,
8495
+ "grad_norm": 0.0074774897657334805,
8496
+ "learning_rate": 7.271047769860122e-07,
8497
+ "loss": 0.0014,
8498
+ "step": 12080
8499
+ },
8500
+ {
8501
+ "epoch": 4.7862232779097384,
8502
+ "grad_norm": 0.20584142208099365,
8503
+ "learning_rate": 7.139086830298232e-07,
8504
+ "loss": 0.0027,
8505
+ "step": 12090
8506
+ },
8507
+ {
8508
+ "epoch": 4.790182106096595,
8509
+ "grad_norm": 0.05486268550157547,
8510
+ "learning_rate": 7.007125890736342e-07,
8511
+ "loss": 0.0111,
8512
+ "step": 12100
8513
+ },
8514
+ {
8515
+ "epoch": 4.794140934283452,
8516
+ "grad_norm": 0.003304367419332266,
8517
+ "learning_rate": 6.875164951174452e-07,
8518
+ "loss": 0.0096,
8519
+ "step": 12110
8520
+ },
8521
+ {
8522
+ "epoch": 4.798099762470309,
8523
+ "grad_norm": 2.7915356159210205,
8524
+ "learning_rate": 6.743204011612563e-07,
8525
+ "loss": 0.0238,
8526
+ "step": 12120
8527
+ },
8528
+ {
8529
+ "epoch": 4.802058590657166,
8530
+ "grad_norm": 0.1825484335422516,
8531
+ "learning_rate": 6.611243072050673e-07,
8532
+ "loss": 0.0128,
8533
+ "step": 12130
8534
+ },
8535
+ {
8536
+ "epoch": 4.806017418844022,
8537
+ "grad_norm": 0.2295331060886383,
8538
+ "learning_rate": 6.479282132488783e-07,
8539
+ "loss": 0.0016,
8540
+ "step": 12140
8541
+ },
8542
+ {
8543
+ "epoch": 4.809976247030879,
8544
+ "grad_norm": 0.004416352603584528,
8545
+ "learning_rate": 6.347321192926895e-07,
8546
+ "loss": 0.0015,
8547
+ "step": 12150
8548
+ },
8549
+ {
8550
+ "epoch": 4.813935075217736,
8551
+ "grad_norm": 0.004335583653301001,
8552
+ "learning_rate": 6.215360253365005e-07,
8553
+ "loss": 0.0096,
8554
+ "step": 12160
8555
+ },
8556
+ {
8557
+ "epoch": 4.817893903404592,
8558
+ "grad_norm": 0.01758703403174877,
8559
+ "learning_rate": 6.083399313803115e-07,
8560
+ "loss": 0.0047,
8561
+ "step": 12170
8562
+ },
8563
+ {
8564
+ "epoch": 4.821852731591449,
8565
+ "grad_norm": 0.001830776920542121,
8566
+ "learning_rate": 5.951438374241224e-07,
8567
+ "loss": 0.0085,
8568
+ "step": 12180
8569
+ },
8570
+ {
8571
+ "epoch": 4.825811559778305,
8572
+ "grad_norm": 0.03966958075761795,
8573
+ "learning_rate": 5.819477434679335e-07,
8574
+ "loss": 0.023,
8575
+ "step": 12190
8576
+ },
8577
+ {
8578
+ "epoch": 4.829770387965162,
8579
+ "grad_norm": 0.16295941174030304,
8580
+ "learning_rate": 5.687516495117445e-07,
8581
+ "loss": 0.001,
8582
+ "step": 12200
8583
+ },
8584
+ {
8585
+ "epoch": 4.833729216152019,
8586
+ "grad_norm": 0.029076730832457542,
8587
+ "learning_rate": 5.555555555555555e-07,
8588
+ "loss": 0.0152,
8589
+ "step": 12210
8590
+ },
8591
+ {
8592
+ "epoch": 4.837688044338876,
8593
+ "grad_norm": 0.012178479693830013,
8594
+ "learning_rate": 5.423594615993665e-07,
8595
+ "loss": 0.0426,
8596
+ "step": 12220
8597
+ },
8598
+ {
8599
+ "epoch": 4.8416468725257324,
8600
+ "grad_norm": 0.04596005380153656,
8601
+ "learning_rate": 5.291633676431777e-07,
8602
+ "loss": 0.0164,
8603
+ "step": 12230
8604
+ },
8605
+ {
8606
+ "epoch": 4.845605700712589,
8607
+ "grad_norm": 0.24843168258666992,
8608
+ "learning_rate": 5.159672736869887e-07,
8609
+ "loss": 0.0017,
8610
+ "step": 12240
8611
+ },
8612
+ {
8613
+ "epoch": 4.849564528899446,
8614
+ "grad_norm": 0.006510727573186159,
8615
+ "learning_rate": 5.027711797307997e-07,
8616
+ "loss": 0.0162,
8617
+ "step": 12250
8618
+ },
8619
+ {
8620
+ "epoch": 4.853523357086303,
8621
+ "grad_norm": 0.0016284239245578647,
8622
+ "learning_rate": 4.895750857746108e-07,
8623
+ "loss": 0.016,
8624
+ "step": 12260
8625
+ },
8626
+ {
8627
+ "epoch": 4.85748218527316,
8628
+ "grad_norm": 0.011615815572440624,
8629
+ "learning_rate": 4.7637899181842174e-07,
8630
+ "loss": 0.0121,
8631
+ "step": 12270
8632
+ },
8633
+ {
8634
+ "epoch": 4.8614410134600154,
8635
+ "grad_norm": 3.054940700531006,
8636
+ "learning_rate": 4.6318289786223276e-07,
8637
+ "loss": 0.0164,
8638
+ "step": 12280
8639
+ },
8640
+ {
8641
+ "epoch": 4.865399841646872,
8642
+ "grad_norm": 0.3476531505584717,
8643
+ "learning_rate": 4.4998680390604384e-07,
8644
+ "loss": 0.0087,
8645
+ "step": 12290
8646
+ },
8647
+ {
8648
+ "epoch": 4.869358669833729,
8649
+ "grad_norm": 0.4537252187728882,
8650
+ "learning_rate": 4.3679070994985487e-07,
8651
+ "loss": 0.0143,
8652
+ "step": 12300
8653
+ },
8654
+ {
8655
+ "epoch": 4.873317498020586,
8656
+ "grad_norm": 0.007204136345535517,
8657
+ "learning_rate": 4.235946159936659e-07,
8658
+ "loss": 0.0198,
8659
+ "step": 12310
8660
+ },
8661
+ {
8662
+ "epoch": 4.877276326207443,
8663
+ "grad_norm": 2.6663107872009277,
8664
+ "learning_rate": 4.103985220374769e-07,
8665
+ "loss": 0.0413,
8666
+ "step": 12320
8667
+ },
8668
+ {
8669
+ "epoch": 4.881235154394299,
8670
+ "grad_norm": 0.12623126804828644,
8671
+ "learning_rate": 3.9720242808128795e-07,
8672
+ "loss": 0.0027,
8673
+ "step": 12330
8674
+ },
8675
+ {
8676
+ "epoch": 4.885193982581156,
8677
+ "grad_norm": 0.0011634131660684943,
8678
+ "learning_rate": 3.84006334125099e-07,
8679
+ "loss": 0.014,
8680
+ "step": 12340
8681
+ },
8682
+ {
8683
+ "epoch": 4.889152810768013,
8684
+ "grad_norm": 0.33776265382766724,
8685
+ "learning_rate": 3.7081024016891e-07,
8686
+ "loss": 0.0171,
8687
+ "step": 12350
8688
+ },
8689
+ {
8690
+ "epoch": 4.89311163895487,
8691
+ "grad_norm": 0.005637482274323702,
8692
+ "learning_rate": 3.5761414621272104e-07,
8693
+ "loss": 0.0018,
8694
+ "step": 12360
8695
+ },
8696
+ {
8697
+ "epoch": 4.897070467141726,
8698
+ "grad_norm": 0.16389860212802887,
8699
+ "learning_rate": 3.444180522565321e-07,
8700
+ "loss": 0.0115,
8701
+ "step": 12370
8702
+ },
8703
+ {
8704
+ "epoch": 4.901029295328582,
8705
+ "grad_norm": 0.0014358052285388112,
8706
+ "learning_rate": 3.312219583003431e-07,
8707
+ "loss": 0.0093,
8708
+ "step": 12380
8709
+ },
8710
+ {
8711
+ "epoch": 4.904988123515439,
8712
+ "grad_norm": 0.16846758127212524,
8713
+ "learning_rate": 3.180258643441541e-07,
8714
+ "loss": 0.0195,
8715
+ "step": 12390
8716
+ },
8717
+ {
8718
+ "epoch": 4.908946951702296,
8719
+ "grad_norm": 0.034828487783670425,
8720
+ "learning_rate": 3.0482977038796515e-07,
8721
+ "loss": 0.0072,
8722
+ "step": 12400
8723
+ },
8724
+ {
8725
+ "epoch": 4.912905779889153,
8726
+ "grad_norm": 0.008080679923295975,
8727
+ "learning_rate": 2.9163367643177623e-07,
8728
+ "loss": 0.0092,
8729
+ "step": 12410
8730
+ },
8731
+ {
8732
+ "epoch": 4.9168646080760094,
8733
+ "grad_norm": 0.2054898589849472,
8734
+ "learning_rate": 2.7843758247558726e-07,
8735
+ "loss": 0.0084,
8736
+ "step": 12420
8737
+ },
8738
+ {
8739
+ "epoch": 4.920823436262866,
8740
+ "grad_norm": 0.0295702014118433,
8741
+ "learning_rate": 2.652414885193983e-07,
8742
+ "loss": 0.0187,
8743
+ "step": 12430
8744
+ },
8745
+ {
8746
+ "epoch": 4.924782264449723,
8747
+ "grad_norm": 5.268764019012451,
8748
+ "learning_rate": 2.5204539456320926e-07,
8749
+ "loss": 0.0342,
8750
+ "step": 12440
8751
+ },
8752
+ {
8753
+ "epoch": 4.92874109263658,
8754
+ "grad_norm": 0.18980184197425842,
8755
+ "learning_rate": 2.3884930060702034e-07,
8756
+ "loss": 0.004,
8757
+ "step": 12450
8758
+ },
8759
+ {
8760
+ "epoch": 4.932699920823437,
8761
+ "grad_norm": 0.06021437793970108,
8762
+ "learning_rate": 2.2565320665083137e-07,
8763
+ "loss": 0.0017,
8764
+ "step": 12460
8765
+ },
8766
+ {
8767
+ "epoch": 4.936658749010293,
8768
+ "grad_norm": 0.2200620025396347,
8769
+ "learning_rate": 2.124571126946424e-07,
8770
+ "loss": 0.0014,
8771
+ "step": 12470
8772
+ },
8773
+ {
8774
+ "epoch": 4.94061757719715,
8775
+ "grad_norm": 2.6067283153533936,
8776
+ "learning_rate": 1.9926101873845342e-07,
8777
+ "loss": 0.0182,
8778
+ "step": 12480
8779
+ },
8780
+ {
8781
+ "epoch": 4.944576405384006,
8782
+ "grad_norm": 0.4836919903755188,
8783
+ "learning_rate": 1.8606492478226445e-07,
8784
+ "loss": 0.0118,
8785
+ "step": 12490
8786
+ },
8787
+ {
8788
+ "epoch": 4.948535233570863,
8789
+ "grad_norm": 3.4199352264404297,
8790
+ "learning_rate": 1.728688308260755e-07,
8791
+ "loss": 0.0168,
8792
+ "step": 12500
8793
+ },
8794
+ {
8795
+ "epoch": 4.95249406175772,
8796
+ "grad_norm": 0.0025512713473290205,
8797
+ "learning_rate": 1.596727368698865e-07,
8798
+ "loss": 0.0008,
8799
+ "step": 12510
8800
+ },
8801
+ {
8802
+ "epoch": 4.956452889944576,
8803
+ "grad_norm": 0.13040626049041748,
8804
+ "learning_rate": 1.4647664291369756e-07,
8805
+ "loss": 0.0043,
8806
+ "step": 12520
8807
+ },
8808
+ {
8809
+ "epoch": 4.960411718131433,
8810
+ "grad_norm": 0.007748185191303492,
8811
+ "learning_rate": 1.3328054895750858e-07,
8812
+ "loss": 0.002,
8813
+ "step": 12530
8814
+ },
8815
+ {
8816
+ "epoch": 4.96437054631829,
8817
+ "grad_norm": 0.09668821841478348,
8818
+ "learning_rate": 1.200844550013196e-07,
8819
+ "loss": 0.0024,
8820
+ "step": 12540
8821
+ },
8822
+ {
8823
+ "epoch": 4.968329374505147,
8824
+ "grad_norm": 0.002127299318090081,
8825
+ "learning_rate": 1.0688836104513065e-07,
8826
+ "loss": 0.0013,
8827
+ "step": 12550
8828
+ },
8829
+ {
8830
+ "epoch": 4.9722882026920034,
8831
+ "grad_norm": 0.3176936209201813,
8832
+ "learning_rate": 9.369226708894168e-08,
8833
+ "loss": 0.0182,
8834
+ "step": 12560
8835
+ },
8836
+ {
8837
+ "epoch": 4.97624703087886,
8838
+ "grad_norm": 0.07354911416769028,
8839
+ "learning_rate": 8.049617313275271e-08,
8840
+ "loss": 0.0016,
8841
+ "step": 12570
8842
+ },
8843
+ {
8844
+ "epoch": 4.980205859065716,
8845
+ "grad_norm": 0.12911178171634674,
8846
+ "learning_rate": 6.730007917656375e-08,
8847
+ "loss": 0.0018,
8848
+ "step": 12580
8849
+ },
8850
+ {
8851
+ "epoch": 4.984164687252573,
8852
+ "grad_norm": 3.4642975330352783,
8853
+ "learning_rate": 5.410398522037477e-08,
8854
+ "loss": 0.0101,
8855
+ "step": 12590
8856
+ },
8857
+ {
8858
+ "epoch": 4.98812351543943,
8859
+ "grad_norm": 0.0033425739966332912,
8860
+ "learning_rate": 4.09078912641858e-08,
8861
+ "loss": 0.0012,
8862
+ "step": 12600
8863
+ },
8864
+ {
8865
+ "epoch": 4.9920823436262864,
8866
+ "grad_norm": 0.10665281862020493,
8867
+ "learning_rate": 2.7711797307996835e-08,
8868
+ "loss": 0.012,
8869
+ "step": 12610
8870
+ },
8871
+ {
8872
+ "epoch": 4.996041171813143,
8873
+ "grad_norm": 0.4431086480617523,
8874
+ "learning_rate": 1.4515703351807866e-08,
8875
+ "loss": 0.0014,
8876
+ "step": 12620
8877
+ },
8878
+ {
8879
+ "epoch": 5.0,
8880
+ "grad_norm": 0.005758483428508043,
8881
+ "learning_rate": 1.3196093956188968e-09,
8882
+ "loss": 0.0034,
8883
+ "step": 12630
8884
+ },
8885
+ {
8886
+ "epoch": 5.0,
8887
+ "eval_loss": 0.016071012243628502,
8888
+ "eval_runtime": 12.0492,
8889
+ "eval_samples_per_second": 186.403,
8890
+ "eval_steps_per_second": 23.321,
8891
+ "step": 12630
8892
  }
8893
  ],
8894
  "logging_steps": 10,
 
8903
  "early_stopping_threshold": 0.0
8904
  },
8905
  "attributes": {
8906
+ "early_stopping_patience_counter": 2
8907
  }
8908
  },
8909
  "TrainerControl": {
 
8912
  "should_evaluate": false,
8913
  "should_log": false,
8914
  "should_save": true,
8915
+ "should_training_stop": true
8916
  },
8917
  "attributes": {}
8918
  }
8919
  },
8920
+ "total_flos": 2.822821798182912e+16,
8921
  "train_batch_size": 8,
8922
  "trial_name": null,
8923
  "trial_params": null