Fanucci commited on
Commit
02f2b40
·
verified ·
1 Parent(s): d9bfbd5

Training in progress, step 1200, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d14fa1c6cd0a8c1098c2de693eacd3e9fd9509d70fdc5893f7c7bc6fa28a5515
3
  size 671149168
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f17745bedcf2691c98c5c38bed681bcbf85273eca7d4b073a3a5217298d9a2d3
3
  size 671149168
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d145b6c083f2e7222313302dd9978b6bc171ff03d6651b2280de2698f84eda21
3
  size 1342555602
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:cff726efcf2b6d6ea5f5b99a5d48fd9ea0c135385b1d0d2cca75befa63a0bc1a
3
  size 1342555602
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:5f5a61412c4341dc129410787ef47b348a882a43e4433910d7fa909787ab3112
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:2fd83e1e15f70d373e2aa254f4001309c2d36b697f5a068bcfbf1e9855d8a484
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:e56f8bb31e77104b8ecd639f65cf9bb955635271d71868e7ef99f855e32f8bbf
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:8e7f5cdb6cd5b1751a2a041a35a236dff4650191e9a4687c5450d12c2fac14d6
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 3.1351470947265625,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
- "epoch": 0.3199488081906895,
5
  "eval_steps": 200,
6
- "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7055,6 +7055,1414 @@
7055
  "eval_samples_per_second": 5.624,
7056
  "eval_steps_per_second": 1.406,
7057
  "step": 1000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7058
  }
7059
  ],
7060
  "logging_steps": 1,
@@ -7069,7 +8477,7 @@
7069
  "early_stopping_threshold": 0.0
7070
  },
7071
  "attributes": {
7072
- "early_stopping_patience_counter": 2
7073
  }
7074
  },
7075
  "TrainerControl": {
@@ -7083,7 +8491,7 @@
7083
  "attributes": {}
7084
  }
7085
  },
7086
- "total_flos": 9.201317197790577e+17,
7087
  "train_batch_size": 4,
7088
  "trial_name": null,
7089
  "trial_params": null
 
1
  {
2
  "best_metric": 3.1351470947265625,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
+ "epoch": 0.3839385698288274,
5
  "eval_steps": 200,
6
+ "global_step": 1200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7055
  "eval_samples_per_second": 5.624,
7056
  "eval_steps_per_second": 1.406,
7057
  "step": 1000
7058
+ },
7059
+ {
7060
+ "epoch": 0.3202687569988802,
7061
+ "grad_norm": 9.613029479980469,
7062
+ "learning_rate": 0.0003093164406544793,
7063
+ "loss": 6.5549,
7064
+ "step": 1001
7065
+ },
7066
+ {
7067
+ "epoch": 0.3205887058070709,
7068
+ "grad_norm": 6.538544654846191,
7069
+ "learning_rate": 0.0003091495477342108,
7070
+ "loss": 6.6206,
7071
+ "step": 1002
7072
+ },
7073
+ {
7074
+ "epoch": 0.3209086546152616,
7075
+ "grad_norm": 6.343434810638428,
7076
+ "learning_rate": 0.00030898254961999173,
7077
+ "loss": 6.7164,
7078
+ "step": 1003
7079
+ },
7080
+ {
7081
+ "epoch": 0.3212286034234523,
7082
+ "grad_norm": 6.2874908447265625,
7083
+ "learning_rate": 0.0003088154464890007,
7084
+ "loss": 6.6797,
7085
+ "step": 1004
7086
+ },
7087
+ {
7088
+ "epoch": 0.3215485522316429,
7089
+ "grad_norm": 18.32168960571289,
7090
+ "learning_rate": 0.00030864823851852786,
7091
+ "loss": 6.3663,
7092
+ "step": 1005
7093
+ },
7094
+ {
7095
+ "epoch": 0.3218685010398336,
7096
+ "grad_norm": 4.97805643081665,
7097
+ "learning_rate": 0.00030848092588597463,
7098
+ "loss": 6.4058,
7099
+ "step": 1006
7100
+ },
7101
+ {
7102
+ "epoch": 0.3221884498480243,
7103
+ "grad_norm": 7.486648082733154,
7104
+ "learning_rate": 0.00030831350876885344,
7105
+ "loss": 6.6289,
7106
+ "step": 1007
7107
+ },
7108
+ {
7109
+ "epoch": 0.322508398656215,
7110
+ "grad_norm": 7.603539943695068,
7111
+ "learning_rate": 0.0003081459873447875,
7112
+ "loss": 6.5563,
7113
+ "step": 1008
7114
+ },
7115
+ {
7116
+ "epoch": 0.3228283474644057,
7117
+ "grad_norm": 9.133359909057617,
7118
+ "learning_rate": 0.00030797836179151085,
7119
+ "loss": 6.5898,
7120
+ "step": 1009
7121
+ },
7122
+ {
7123
+ "epoch": 0.3231482962725964,
7124
+ "grad_norm": 8.029521942138672,
7125
+ "learning_rate": 0.0003078106322868679,
7126
+ "loss": 6.8213,
7127
+ "step": 1010
7128
+ },
7129
+ {
7130
+ "epoch": 0.3234682450807871,
7131
+ "grad_norm": 5.991820335388184,
7132
+ "learning_rate": 0.0003076427990088133,
7133
+ "loss": 6.5975,
7134
+ "step": 1011
7135
+ },
7136
+ {
7137
+ "epoch": 0.3237881938889778,
7138
+ "grad_norm": 4.940555572509766,
7139
+ "learning_rate": 0.0003074748621354119,
7140
+ "loss": 6.628,
7141
+ "step": 1012
7142
+ },
7143
+ {
7144
+ "epoch": 0.3241081426971685,
7145
+ "grad_norm": 7.488973140716553,
7146
+ "learning_rate": 0.0003073068218448384,
7147
+ "loss": 6.56,
7148
+ "step": 1013
7149
+ },
7150
+ {
7151
+ "epoch": 0.3244280915053591,
7152
+ "grad_norm": 10.482954025268555,
7153
+ "learning_rate": 0.0003071386783153772,
7154
+ "loss": 6.7303,
7155
+ "step": 1014
7156
+ },
7157
+ {
7158
+ "epoch": 0.3247480403135498,
7159
+ "grad_norm": 7.40532112121582,
7160
+ "learning_rate": 0.00030697043172542244,
7161
+ "loss": 6.8107,
7162
+ "step": 1015
7163
+ },
7164
+ {
7165
+ "epoch": 0.3250679891217405,
7166
+ "grad_norm": 16.26544189453125,
7167
+ "learning_rate": 0.00030680208225347737,
7168
+ "loss": 6.5008,
7169
+ "step": 1016
7170
+ },
7171
+ {
7172
+ "epoch": 0.3253879379299312,
7173
+ "grad_norm": 13.164572715759277,
7174
+ "learning_rate": 0.0003066336300781544,
7175
+ "loss": 6.5557,
7176
+ "step": 1017
7177
+ },
7178
+ {
7179
+ "epoch": 0.3257078867381219,
7180
+ "grad_norm": 12.598750114440918,
7181
+ "learning_rate": 0.000306465075378175,
7182
+ "loss": 6.7085,
7183
+ "step": 1018
7184
+ },
7185
+ {
7186
+ "epoch": 0.3260278355463126,
7187
+ "grad_norm": 6.103877544403076,
7188
+ "learning_rate": 0.00030629641833236935,
7189
+ "loss": 6.6045,
7190
+ "step": 1019
7191
+ },
7192
+ {
7193
+ "epoch": 0.3263477843545033,
7194
+ "grad_norm": 6.347523212432861,
7195
+ "learning_rate": 0.0003061276591196764,
7196
+ "loss": 6.8141,
7197
+ "step": 1020
7198
+ },
7199
+ {
7200
+ "epoch": 0.326667733162694,
7201
+ "grad_norm": 3.747049570083618,
7202
+ "learning_rate": 0.00030595879791914314,
7203
+ "loss": 6.5425,
7204
+ "step": 1021
7205
+ },
7206
+ {
7207
+ "epoch": 0.3269876819708847,
7208
+ "grad_norm": 6.858709335327148,
7209
+ "learning_rate": 0.00030578983490992505,
7210
+ "loss": 6.4573,
7211
+ "step": 1022
7212
+ },
7213
+ {
7214
+ "epoch": 0.3273076307790753,
7215
+ "grad_norm": 3.5340542793273926,
7216
+ "learning_rate": 0.00030562077027128555,
7217
+ "loss": 6.506,
7218
+ "step": 1023
7219
+ },
7220
+ {
7221
+ "epoch": 0.327627579587266,
7222
+ "grad_norm": 6.104124546051025,
7223
+ "learning_rate": 0.000305451604182596,
7224
+ "loss": 6.5108,
7225
+ "step": 1024
7226
+ },
7227
+ {
7228
+ "epoch": 0.3279475283954567,
7229
+ "grad_norm": 7.606841087341309,
7230
+ "learning_rate": 0.000305282336823335,
7231
+ "loss": 6.7387,
7232
+ "step": 1025
7233
+ },
7234
+ {
7235
+ "epoch": 0.3282674772036474,
7236
+ "grad_norm": 6.288745880126953,
7237
+ "learning_rate": 0.0003051129683730891,
7238
+ "loss": 6.7012,
7239
+ "step": 1026
7240
+ },
7241
+ {
7242
+ "epoch": 0.3285874260118381,
7243
+ "grad_norm": 7.002671241760254,
7244
+ "learning_rate": 0.0003049434990115518,
7245
+ "loss": 6.5738,
7246
+ "step": 1027
7247
+ },
7248
+ {
7249
+ "epoch": 0.3289073748200288,
7250
+ "grad_norm": 5.6297478675842285,
7251
+ "learning_rate": 0.00030477392891852374,
7252
+ "loss": 6.6822,
7253
+ "step": 1028
7254
+ },
7255
+ {
7256
+ "epoch": 0.3292273236282195,
7257
+ "grad_norm": 9.002836227416992,
7258
+ "learning_rate": 0.0003046042582739124,
7259
+ "loss": 6.7199,
7260
+ "step": 1029
7261
+ },
7262
+ {
7263
+ "epoch": 0.3295472724364102,
7264
+ "grad_norm": 4.909145832061768,
7265
+ "learning_rate": 0.000304434487257732,
7266
+ "loss": 6.6323,
7267
+ "step": 1030
7268
+ },
7269
+ {
7270
+ "epoch": 0.3298672212446009,
7271
+ "grad_norm": 15.304366111755371,
7272
+ "learning_rate": 0.00030426461605010324,
7273
+ "loss": 6.6586,
7274
+ "step": 1031
7275
+ },
7276
+ {
7277
+ "epoch": 0.3301871700527916,
7278
+ "grad_norm": 16.558542251586914,
7279
+ "learning_rate": 0.0003040946448312531,
7280
+ "loss": 6.5575,
7281
+ "step": 1032
7282
+ },
7283
+ {
7284
+ "epoch": 0.3305071188609822,
7285
+ "grad_norm": 17.546894073486328,
7286
+ "learning_rate": 0.00030392457378151456,
7287
+ "loss": 6.4663,
7288
+ "step": 1033
7289
+ },
7290
+ {
7291
+ "epoch": 0.3308270676691729,
7292
+ "grad_norm": 6.221606254577637,
7293
+ "learning_rate": 0.00030375440308132666,
7294
+ "loss": 6.6658,
7295
+ "step": 1034
7296
+ },
7297
+ {
7298
+ "epoch": 0.3311470164773636,
7299
+ "grad_norm": 5.4567999839782715,
7300
+ "learning_rate": 0.0003035841329112343,
7301
+ "loss": 6.5654,
7302
+ "step": 1035
7303
+ },
7304
+ {
7305
+ "epoch": 0.3314669652855543,
7306
+ "grad_norm": 17.624677658081055,
7307
+ "learning_rate": 0.0003034137634518875,
7308
+ "loss": 6.582,
7309
+ "step": 1036
7310
+ },
7311
+ {
7312
+ "epoch": 0.331786914093745,
7313
+ "grad_norm": 17.85716438293457,
7314
+ "learning_rate": 0.00030324329488404207,
7315
+ "loss": 6.7594,
7316
+ "step": 1037
7317
+ },
7318
+ {
7319
+ "epoch": 0.3321068629019357,
7320
+ "grad_norm": 15.087934494018555,
7321
+ "learning_rate": 0.00030307272738855855,
7322
+ "loss": 6.6988,
7323
+ "step": 1038
7324
+ },
7325
+ {
7326
+ "epoch": 0.3324268117101264,
7327
+ "grad_norm": 8.74818229675293,
7328
+ "learning_rate": 0.0003029020611464029,
7329
+ "loss": 6.6417,
7330
+ "step": 1039
7331
+ },
7332
+ {
7333
+ "epoch": 0.3327467605183171,
7334
+ "grad_norm": 6.144550323486328,
7335
+ "learning_rate": 0.00030273129633864534,
7336
+ "loss": 6.5553,
7337
+ "step": 1040
7338
+ },
7339
+ {
7340
+ "epoch": 0.3330667093265078,
7341
+ "grad_norm": 14.558652877807617,
7342
+ "learning_rate": 0.0003025604331464612,
7343
+ "loss": 6.6014,
7344
+ "step": 1041
7345
+ },
7346
+ {
7347
+ "epoch": 0.3333866581346984,
7348
+ "grad_norm": 7.271969318389893,
7349
+ "learning_rate": 0.0003023894717511297,
7350
+ "loss": 6.5538,
7351
+ "step": 1042
7352
+ },
7353
+ {
7354
+ "epoch": 0.3337066069428891,
7355
+ "grad_norm": 9.705676078796387,
7356
+ "learning_rate": 0.0003022184123340346,
7357
+ "loss": 6.6535,
7358
+ "step": 1043
7359
+ },
7360
+ {
7361
+ "epoch": 0.3340265557510798,
7362
+ "grad_norm": 7.595553398132324,
7363
+ "learning_rate": 0.0003020472550766634,
7364
+ "loss": 6.7706,
7365
+ "step": 1044
7366
+ },
7367
+ {
7368
+ "epoch": 0.3343465045592705,
7369
+ "grad_norm": 7.8142476081848145,
7370
+ "learning_rate": 0.00030187600016060766,
7371
+ "loss": 6.7936,
7372
+ "step": 1045
7373
+ },
7374
+ {
7375
+ "epoch": 0.3346664533674612,
7376
+ "grad_norm": 7.204625129699707,
7377
+ "learning_rate": 0.0003017046477675624,
7378
+ "loss": 6.4859,
7379
+ "step": 1046
7380
+ },
7381
+ {
7382
+ "epoch": 0.3349864021756519,
7383
+ "grad_norm": 8.921597480773926,
7384
+ "learning_rate": 0.0003015331980793259,
7385
+ "loss": 6.5621,
7386
+ "step": 1047
7387
+ },
7388
+ {
7389
+ "epoch": 0.3353063509838426,
7390
+ "grad_norm": 7.932427406311035,
7391
+ "learning_rate": 0.0003013616512778001,
7392
+ "loss": 6.566,
7393
+ "step": 1048
7394
+ },
7395
+ {
7396
+ "epoch": 0.3356262997920333,
7397
+ "grad_norm": 11.233190536499023,
7398
+ "learning_rate": 0.00030119000754498965,
7399
+ "loss": 6.7973,
7400
+ "step": 1049
7401
+ },
7402
+ {
7403
+ "epoch": 0.335946248600224,
7404
+ "grad_norm": 7.584317684173584,
7405
+ "learning_rate": 0.00030101826706300193,
7406
+ "loss": 6.5683,
7407
+ "step": 1050
7408
+ },
7409
+ {
7410
+ "epoch": 0.3362661974084147,
7411
+ "grad_norm": 8.914484024047852,
7412
+ "learning_rate": 0.0003008464300140474,
7413
+ "loss": 6.6189,
7414
+ "step": 1051
7415
+ },
7416
+ {
7417
+ "epoch": 0.3365861462166053,
7418
+ "grad_norm": 11.658357620239258,
7419
+ "learning_rate": 0.0003006744965804385,
7420
+ "loss": 6.6833,
7421
+ "step": 1052
7422
+ },
7423
+ {
7424
+ "epoch": 0.336906095024796,
7425
+ "grad_norm": 8.101858139038086,
7426
+ "learning_rate": 0.0003005024669445904,
7427
+ "loss": 6.7025,
7428
+ "step": 1053
7429
+ },
7430
+ {
7431
+ "epoch": 0.3372260438329867,
7432
+ "grad_norm": 5.961119651794434,
7433
+ "learning_rate": 0.00030033034128901996,
7434
+ "loss": 6.7396,
7435
+ "step": 1054
7436
+ },
7437
+ {
7438
+ "epoch": 0.3375459926411774,
7439
+ "grad_norm": 10.675737380981445,
7440
+ "learning_rate": 0.00030015811979634593,
7441
+ "loss": 6.4708,
7442
+ "step": 1055
7443
+ },
7444
+ {
7445
+ "epoch": 0.3378659414493681,
7446
+ "grad_norm": 8.396323204040527,
7447
+ "learning_rate": 0.00029998580264928906,
7448
+ "loss": 6.5822,
7449
+ "step": 1056
7450
+ },
7451
+ {
7452
+ "epoch": 0.3381858902575588,
7453
+ "grad_norm": 4.825063228607178,
7454
+ "learning_rate": 0.00029981339003067124,
7455
+ "loss": 6.6281,
7456
+ "step": 1057
7457
+ },
7458
+ {
7459
+ "epoch": 0.3385058390657495,
7460
+ "grad_norm": 12.628974914550781,
7461
+ "learning_rate": 0.0002996408821234158,
7462
+ "loss": 6.78,
7463
+ "step": 1058
7464
+ },
7465
+ {
7466
+ "epoch": 0.3388257878739402,
7467
+ "grad_norm": 9.515558242797852,
7468
+ "learning_rate": 0.00029946827911054723,
7469
+ "loss": 6.7697,
7470
+ "step": 1059
7471
+ },
7472
+ {
7473
+ "epoch": 0.3391457366821309,
7474
+ "grad_norm": 5.6787543296813965,
7475
+ "learning_rate": 0.00029929558117519086,
7476
+ "loss": 6.6566,
7477
+ "step": 1060
7478
+ },
7479
+ {
7480
+ "epoch": 0.3394656854903215,
7481
+ "grad_norm": 8.688566207885742,
7482
+ "learning_rate": 0.00029912278850057253,
7483
+ "loss": 6.6127,
7484
+ "step": 1061
7485
+ },
7486
+ {
7487
+ "epoch": 0.3397856342985122,
7488
+ "grad_norm": 6.97818660736084,
7489
+ "learning_rate": 0.0002989499012700191,
7490
+ "loss": 6.75,
7491
+ "step": 1062
7492
+ },
7493
+ {
7494
+ "epoch": 0.3401055831067029,
7495
+ "grad_norm": 8.22523021697998,
7496
+ "learning_rate": 0.0002987769196669572,
7497
+ "loss": 6.6283,
7498
+ "step": 1063
7499
+ },
7500
+ {
7501
+ "epoch": 0.3404255319148936,
7502
+ "grad_norm": 10.774093627929688,
7503
+ "learning_rate": 0.0002986038438749139,
7504
+ "loss": 6.611,
7505
+ "step": 1064
7506
+ },
7507
+ {
7508
+ "epoch": 0.3407454807230843,
7509
+ "grad_norm": 8.792933464050293,
7510
+ "learning_rate": 0.00029843067407751606,
7511
+ "loss": 6.5654,
7512
+ "step": 1065
7513
+ },
7514
+ {
7515
+ "epoch": 0.341065429531275,
7516
+ "grad_norm": 5.798463344573975,
7517
+ "learning_rate": 0.0002982574104584904,
7518
+ "loss": 6.7735,
7519
+ "step": 1066
7520
+ },
7521
+ {
7522
+ "epoch": 0.3413853783394657,
7523
+ "grad_norm": 7.097434997558594,
7524
+ "learning_rate": 0.00029808405320166313,
7525
+ "loss": 6.4257,
7526
+ "step": 1067
7527
+ },
7528
+ {
7529
+ "epoch": 0.3417053271476564,
7530
+ "grad_norm": 5.740554332733154,
7531
+ "learning_rate": 0.00029791060249095976,
7532
+ "loss": 6.6911,
7533
+ "step": 1068
7534
+ },
7535
+ {
7536
+ "epoch": 0.3420252759558471,
7537
+ "grad_norm": 6.828253746032715,
7538
+ "learning_rate": 0.00029773705851040503,
7539
+ "loss": 6.4999,
7540
+ "step": 1069
7541
+ },
7542
+ {
7543
+ "epoch": 0.3423452247640378,
7544
+ "grad_norm": 6.237061977386475,
7545
+ "learning_rate": 0.00029756342144412253,
7546
+ "loss": 6.3495,
7547
+ "step": 1070
7548
+ },
7549
+ {
7550
+ "epoch": 0.3426651735722284,
7551
+ "grad_norm": 5.364548206329346,
7552
+ "learning_rate": 0.00029738969147633475,
7553
+ "loss": 6.6146,
7554
+ "step": 1071
7555
+ },
7556
+ {
7557
+ "epoch": 0.3429851223804191,
7558
+ "grad_norm": 6.4642815589904785,
7559
+ "learning_rate": 0.0002972158687913626,
7560
+ "loss": 6.6634,
7561
+ "step": 1072
7562
+ },
7563
+ {
7564
+ "epoch": 0.3433050711886098,
7565
+ "grad_norm": 8.208625793457031,
7566
+ "learning_rate": 0.00029704195357362545,
7567
+ "loss": 6.5723,
7568
+ "step": 1073
7569
+ },
7570
+ {
7571
+ "epoch": 0.3436250199968005,
7572
+ "grad_norm": 10.248831748962402,
7573
+ "learning_rate": 0.00029686794600764085,
7574
+ "loss": 6.6042,
7575
+ "step": 1074
7576
+ },
7577
+ {
7578
+ "epoch": 0.3439449688049912,
7579
+ "grad_norm": 7.775475978851318,
7580
+ "learning_rate": 0.0002966938462780242,
7581
+ "loss": 6.3936,
7582
+ "step": 1075
7583
+ },
7584
+ {
7585
+ "epoch": 0.3442649176131819,
7586
+ "grad_norm": 7.968334197998047,
7587
+ "learning_rate": 0.000296519654569489,
7588
+ "loss": 6.5476,
7589
+ "step": 1076
7590
+ },
7591
+ {
7592
+ "epoch": 0.3445848664213726,
7593
+ "grad_norm": 5.832833766937256,
7594
+ "learning_rate": 0.00029634537106684587,
7595
+ "loss": 6.6565,
7596
+ "step": 1077
7597
+ },
7598
+ {
7599
+ "epoch": 0.3449048152295633,
7600
+ "grad_norm": 7.168907165527344,
7601
+ "learning_rate": 0.0002961709959550032,
7602
+ "loss": 6.4957,
7603
+ "step": 1078
7604
+ },
7605
+ {
7606
+ "epoch": 0.345224764037754,
7607
+ "grad_norm": 8.945564270019531,
7608
+ "learning_rate": 0.00029599652941896643,
7609
+ "loss": 6.7646,
7610
+ "step": 1079
7611
+ },
7612
+ {
7613
+ "epoch": 0.3455447128459446,
7614
+ "grad_norm": 5.535223960876465,
7615
+ "learning_rate": 0.00029582197164383796,
7616
+ "loss": 6.3885,
7617
+ "step": 1080
7618
+ },
7619
+ {
7620
+ "epoch": 0.3458646616541353,
7621
+ "grad_norm": 6.619454860687256,
7622
+ "learning_rate": 0.00029564732281481715,
7623
+ "loss": 6.5704,
7624
+ "step": 1081
7625
+ },
7626
+ {
7627
+ "epoch": 0.346184610462326,
7628
+ "grad_norm": 8.324727058410645,
7629
+ "learning_rate": 0.00029547258311719973,
7630
+ "loss": 6.4878,
7631
+ "step": 1082
7632
+ },
7633
+ {
7634
+ "epoch": 0.3465045592705167,
7635
+ "grad_norm": 6.584716320037842,
7636
+ "learning_rate": 0.00029529775273637803,
7637
+ "loss": 6.5915,
7638
+ "step": 1083
7639
+ },
7640
+ {
7641
+ "epoch": 0.3468245080787074,
7642
+ "grad_norm": 4.810291290283203,
7643
+ "learning_rate": 0.00029512283185784046,
7644
+ "loss": 6.3791,
7645
+ "step": 1084
7646
+ },
7647
+ {
7648
+ "epoch": 0.3471444568868981,
7649
+ "grad_norm": 29.184206008911133,
7650
+ "learning_rate": 0.0002949478206671717,
7651
+ "loss": 6.7601,
7652
+ "step": 1085
7653
+ },
7654
+ {
7655
+ "epoch": 0.3474644056950888,
7656
+ "grad_norm": 9.653064727783203,
7657
+ "learning_rate": 0.0002947727193500518,
7658
+ "loss": 6.6253,
7659
+ "step": 1086
7660
+ },
7661
+ {
7662
+ "epoch": 0.3477843545032795,
7663
+ "grad_norm": 13.180891990661621,
7664
+ "learning_rate": 0.0002945975280922569,
7665
+ "loss": 6.5926,
7666
+ "step": 1087
7667
+ },
7668
+ {
7669
+ "epoch": 0.3481043033114702,
7670
+ "grad_norm": 9.94357681274414,
7671
+ "learning_rate": 0.0002944222470796582,
7672
+ "loss": 6.6027,
7673
+ "step": 1088
7674
+ },
7675
+ {
7676
+ "epoch": 0.3484242521196608,
7677
+ "grad_norm": 9.287586212158203,
7678
+ "learning_rate": 0.0002942468764982223,
7679
+ "loss": 6.7376,
7680
+ "step": 1089
7681
+ },
7682
+ {
7683
+ "epoch": 0.3487442009278515,
7684
+ "grad_norm": 17.233806610107422,
7685
+ "learning_rate": 0.000294071416534011,
7686
+ "loss": 6.8934,
7687
+ "step": 1090
7688
+ },
7689
+ {
7690
+ "epoch": 0.3490641497360422,
7691
+ "grad_norm": 11.148905754089355,
7692
+ "learning_rate": 0.00029389586737318046,
7693
+ "loss": 6.4543,
7694
+ "step": 1091
7695
+ },
7696
+ {
7697
+ "epoch": 0.3493840985442329,
7698
+ "grad_norm": 7.293564319610596,
7699
+ "learning_rate": 0.00029372022920198186,
7700
+ "loss": 6.5114,
7701
+ "step": 1092
7702
+ },
7703
+ {
7704
+ "epoch": 0.3497040473524236,
7705
+ "grad_norm": 7.520803928375244,
7706
+ "learning_rate": 0.0002935445022067609,
7707
+ "loss": 6.7753,
7708
+ "step": 1093
7709
+ },
7710
+ {
7711
+ "epoch": 0.3500239961606143,
7712
+ "grad_norm": 8.508971214294434,
7713
+ "learning_rate": 0.00029336868657395704,
7714
+ "loss": 6.5503,
7715
+ "step": 1094
7716
+ },
7717
+ {
7718
+ "epoch": 0.350343944968805,
7719
+ "grad_norm": 7.20286750793457,
7720
+ "learning_rate": 0.0002931927824901042,
7721
+ "loss": 6.5862,
7722
+ "step": 1095
7723
+ },
7724
+ {
7725
+ "epoch": 0.3506638937769957,
7726
+ "grad_norm": 6.576849460601807,
7727
+ "learning_rate": 0.00029301679014183006,
7728
+ "loss": 6.5876,
7729
+ "step": 1096
7730
+ },
7731
+ {
7732
+ "epoch": 0.3509838425851864,
7733
+ "grad_norm": 5.83701753616333,
7734
+ "learning_rate": 0.0002928407097158558,
7735
+ "loss": 6.3791,
7736
+ "step": 1097
7737
+ },
7738
+ {
7739
+ "epoch": 0.3513037913933771,
7740
+ "grad_norm": 9.229516983032227,
7741
+ "learning_rate": 0.00029266454139899615,
7742
+ "loss": 6.6795,
7743
+ "step": 1098
7744
+ },
7745
+ {
7746
+ "epoch": 0.3516237402015677,
7747
+ "grad_norm": 16.494159698486328,
7748
+ "learning_rate": 0.00029248828537815924,
7749
+ "loss": 6.571,
7750
+ "step": 1099
7751
+ },
7752
+ {
7753
+ "epoch": 0.3519436890097584,
7754
+ "grad_norm": 10.0813627243042,
7755
+ "learning_rate": 0.00029231194184034596,
7756
+ "loss": 6.4374,
7757
+ "step": 1100
7758
+ },
7759
+ {
7760
+ "epoch": 0.3522636378179491,
7761
+ "grad_norm": 7.692905902862549,
7762
+ "learning_rate": 0.0002921355109726502,
7763
+ "loss": 6.6512,
7764
+ "step": 1101
7765
+ },
7766
+ {
7767
+ "epoch": 0.3525835866261398,
7768
+ "grad_norm": 15.104799270629883,
7769
+ "learning_rate": 0.00029195899296225846,
7770
+ "loss": 6.4528,
7771
+ "step": 1102
7772
+ },
7773
+ {
7774
+ "epoch": 0.3529035354343305,
7775
+ "grad_norm": 18.930479049682617,
7776
+ "learning_rate": 0.00029178238799644983,
7777
+ "loss": 6.4953,
7778
+ "step": 1103
7779
+ },
7780
+ {
7781
+ "epoch": 0.3532234842425212,
7782
+ "grad_norm": 10.989952087402344,
7783
+ "learning_rate": 0.00029160569626259555,
7784
+ "loss": 6.5066,
7785
+ "step": 1104
7786
+ },
7787
+ {
7788
+ "epoch": 0.3535434330507119,
7789
+ "grad_norm": 8.65145206451416,
7790
+ "learning_rate": 0.00029142891794815877,
7791
+ "loss": 6.7426,
7792
+ "step": 1105
7793
+ },
7794
+ {
7795
+ "epoch": 0.3538633818589026,
7796
+ "grad_norm": 4.995960235595703,
7797
+ "learning_rate": 0.00029125205324069477,
7798
+ "loss": 6.4861,
7799
+ "step": 1106
7800
+ },
7801
+ {
7802
+ "epoch": 0.3541833306670933,
7803
+ "grad_norm": 6.398393630981445,
7804
+ "learning_rate": 0.00029107510232785036,
7805
+ "loss": 6.3449,
7806
+ "step": 1107
7807
+ },
7808
+ {
7809
+ "epoch": 0.35450327947528393,
7810
+ "grad_norm": 5.589430809020996,
7811
+ "learning_rate": 0.00029089806539736384,
7812
+ "loss": 6.5538,
7813
+ "step": 1108
7814
+ },
7815
+ {
7816
+ "epoch": 0.3548232282834746,
7817
+ "grad_norm": 4.985332012176514,
7818
+ "learning_rate": 0.0002907209426370647,
7819
+ "loss": 6.544,
7820
+ "step": 1109
7821
+ },
7822
+ {
7823
+ "epoch": 0.3551431770916653,
7824
+ "grad_norm": 5.552674293518066,
7825
+ "learning_rate": 0.00029054373423487357,
7826
+ "loss": 6.5413,
7827
+ "step": 1110
7828
+ },
7829
+ {
7830
+ "epoch": 0.355463125899856,
7831
+ "grad_norm": 7.634738922119141,
7832
+ "learning_rate": 0.00029036644037880186,
7833
+ "loss": 6.475,
7834
+ "step": 1111
7835
+ },
7836
+ {
7837
+ "epoch": 0.3557830747080467,
7838
+ "grad_norm": 11.79802131652832,
7839
+ "learning_rate": 0.0002901890612569518,
7840
+ "loss": 6.8223,
7841
+ "step": 1112
7842
+ },
7843
+ {
7844
+ "epoch": 0.3561030235162374,
7845
+ "grad_norm": 13.318756103515625,
7846
+ "learning_rate": 0.000290011597057516,
7847
+ "loss": 6.2933,
7848
+ "step": 1113
7849
+ },
7850
+ {
7851
+ "epoch": 0.3564229723244281,
7852
+ "grad_norm": 14.60718822479248,
7853
+ "learning_rate": 0.00028983404796877716,
7854
+ "loss": 6.803,
7855
+ "step": 1114
7856
+ },
7857
+ {
7858
+ "epoch": 0.3567429211326188,
7859
+ "grad_norm": 8.220056533813477,
7860
+ "learning_rate": 0.00028965641417910833,
7861
+ "loss": 6.4244,
7862
+ "step": 1115
7863
+ },
7864
+ {
7865
+ "epoch": 0.3570628699408095,
7866
+ "grad_norm": 5.330780506134033,
7867
+ "learning_rate": 0.0002894786958769723,
7868
+ "loss": 6.4827,
7869
+ "step": 1116
7870
+ },
7871
+ {
7872
+ "epoch": 0.3573828187490002,
7873
+ "grad_norm": 7.304154872894287,
7874
+ "learning_rate": 0.00028930089325092146,
7875
+ "loss": 6.4375,
7876
+ "step": 1117
7877
+ },
7878
+ {
7879
+ "epoch": 0.3577027675571908,
7880
+ "grad_norm": 7.895937442779541,
7881
+ "learning_rate": 0.0002891230064895977,
7882
+ "loss": 6.5026,
7883
+ "step": 1118
7884
+ },
7885
+ {
7886
+ "epoch": 0.3580227163653815,
7887
+ "grad_norm": 8.539824485778809,
7888
+ "learning_rate": 0.0002889450357817324,
7889
+ "loss": 6.5781,
7890
+ "step": 1119
7891
+ },
7892
+ {
7893
+ "epoch": 0.3583426651735722,
7894
+ "grad_norm": 11.084145545959473,
7895
+ "learning_rate": 0.0002887669813161455,
7896
+ "loss": 6.4965,
7897
+ "step": 1120
7898
+ },
7899
+ {
7900
+ "epoch": 0.3586626139817629,
7901
+ "grad_norm": 8.87822151184082,
7902
+ "learning_rate": 0.00028858884328174635,
7903
+ "loss": 6.2127,
7904
+ "step": 1121
7905
+ },
7906
+ {
7907
+ "epoch": 0.3589825627899536,
7908
+ "grad_norm": 12.374408721923828,
7909
+ "learning_rate": 0.0002884106218675326,
7910
+ "loss": 6.3412,
7911
+ "step": 1122
7912
+ },
7913
+ {
7914
+ "epoch": 0.3593025115981443,
7915
+ "grad_norm": 7.8099470138549805,
7916
+ "learning_rate": 0.0002882323172625906,
7917
+ "loss": 6.2976,
7918
+ "step": 1123
7919
+ },
7920
+ {
7921
+ "epoch": 0.359622460406335,
7922
+ "grad_norm": 9.879372596740723,
7923
+ "learning_rate": 0.0002880539296560947,
7924
+ "loss": 6.3613,
7925
+ "step": 1124
7926
+ },
7927
+ {
7928
+ "epoch": 0.3599424092145257,
7929
+ "grad_norm": 18.98383140563965,
7930
+ "learning_rate": 0.0002878754592373075,
7931
+ "loss": 6.564,
7932
+ "step": 1125
7933
+ },
7934
+ {
7935
+ "epoch": 0.3602623580227164,
7936
+ "grad_norm": 27.977420806884766,
7937
+ "learning_rate": 0.00028769690619557945,
7938
+ "loss": 6.2547,
7939
+ "step": 1126
7940
+ },
7941
+ {
7942
+ "epoch": 0.36058230683090703,
7943
+ "grad_norm": 9.814420700073242,
7944
+ "learning_rate": 0.00028751827072034876,
7945
+ "loss": 6.447,
7946
+ "step": 1127
7947
+ },
7948
+ {
7949
+ "epoch": 0.3609022556390977,
7950
+ "grad_norm": 9.564621925354004,
7951
+ "learning_rate": 0.00028733955300114066,
7952
+ "loss": 6.6715,
7953
+ "step": 1128
7954
+ },
7955
+ {
7956
+ "epoch": 0.3612222044472884,
7957
+ "grad_norm": 7.441284656524658,
7958
+ "learning_rate": 0.00028716075322756827,
7959
+ "loss": 6.3489,
7960
+ "step": 1129
7961
+ },
7962
+ {
7963
+ "epoch": 0.3615421532554791,
7964
+ "grad_norm": 6.929698944091797,
7965
+ "learning_rate": 0.0002869818715893312,
7966
+ "loss": 6.6691,
7967
+ "step": 1130
7968
+ },
7969
+ {
7970
+ "epoch": 0.3618621020636698,
7971
+ "grad_norm": 9.472748756408691,
7972
+ "learning_rate": 0.0002868029082762163,
7973
+ "loss": 6.4778,
7974
+ "step": 1131
7975
+ },
7976
+ {
7977
+ "epoch": 0.3621820508718605,
7978
+ "grad_norm": 7.518265724182129,
7979
+ "learning_rate": 0.00028662386347809687,
7980
+ "loss": 6.5739,
7981
+ "step": 1132
7982
+ },
7983
+ {
7984
+ "epoch": 0.3625019996800512,
7985
+ "grad_norm": 7.980709552764893,
7986
+ "learning_rate": 0.00028644473738493275,
7987
+ "loss": 6.5246,
7988
+ "step": 1133
7989
+ },
7990
+ {
7991
+ "epoch": 0.3628219484882419,
7992
+ "grad_norm": 7.017282009124756,
7993
+ "learning_rate": 0.00028626553018677,
7994
+ "loss": 6.2618,
7995
+ "step": 1134
7996
+ },
7997
+ {
7998
+ "epoch": 0.3631418972964326,
7999
+ "grad_norm": 8.980280876159668,
8000
+ "learning_rate": 0.0002860862420737407,
8001
+ "loss": 6.4679,
8002
+ "step": 1135
8003
+ },
8004
+ {
8005
+ "epoch": 0.3634618461046233,
8006
+ "grad_norm": 11.132031440734863,
8007
+ "learning_rate": 0.0002859068732360628,
8008
+ "loss": 6.4575,
8009
+ "step": 1136
8010
+ },
8011
+ {
8012
+ "epoch": 0.3637817949128139,
8013
+ "grad_norm": 10.001900672912598,
8014
+ "learning_rate": 0.00028572742386404,
8015
+ "loss": 6.4749,
8016
+ "step": 1137
8017
+ },
8018
+ {
8019
+ "epoch": 0.3641017437210046,
8020
+ "grad_norm": 8.816960334777832,
8021
+ "learning_rate": 0.0002855478941480613,
8022
+ "loss": 6.6358,
8023
+ "step": 1138
8024
+ },
8025
+ {
8026
+ "epoch": 0.3644216925291953,
8027
+ "grad_norm": 7.853034019470215,
8028
+ "learning_rate": 0.0002853682842786009,
8029
+ "loss": 6.4368,
8030
+ "step": 1139
8031
+ },
8032
+ {
8033
+ "epoch": 0.364741641337386,
8034
+ "grad_norm": 7.836308479309082,
8035
+ "learning_rate": 0.00028518859444621834,
8036
+ "loss": 6.3961,
8037
+ "step": 1140
8038
+ },
8039
+ {
8040
+ "epoch": 0.3650615901455767,
8041
+ "grad_norm": 7.645723819732666,
8042
+ "learning_rate": 0.0002850088248415577,
8043
+ "loss": 6.3327,
8044
+ "step": 1141
8045
+ },
8046
+ {
8047
+ "epoch": 0.3653815389537674,
8048
+ "grad_norm": 5.902100563049316,
8049
+ "learning_rate": 0.00028482897565534763,
8050
+ "loss": 6.418,
8051
+ "step": 1142
8052
+ },
8053
+ {
8054
+ "epoch": 0.3657014877619581,
8055
+ "grad_norm": 6.9731292724609375,
8056
+ "learning_rate": 0.0002846490470784016,
8057
+ "loss": 6.1619,
8058
+ "step": 1143
8059
+ },
8060
+ {
8061
+ "epoch": 0.3660214365701488,
8062
+ "grad_norm": 9.789436340332031,
8063
+ "learning_rate": 0.00028446903930161695,
8064
+ "loss": 6.6124,
8065
+ "step": 1144
8066
+ },
8067
+ {
8068
+ "epoch": 0.3663413853783395,
8069
+ "grad_norm": 6.7149577140808105,
8070
+ "learning_rate": 0.0002842889525159753,
8071
+ "loss": 6.5035,
8072
+ "step": 1145
8073
+ },
8074
+ {
8075
+ "epoch": 0.36666133418653013,
8076
+ "grad_norm": 7.927312850952148,
8077
+ "learning_rate": 0.00028410878691254173,
8078
+ "loss": 6.3137,
8079
+ "step": 1146
8080
+ },
8081
+ {
8082
+ "epoch": 0.3669812829947208,
8083
+ "grad_norm": 6.585173606872559,
8084
+ "learning_rate": 0.00028392854268246545,
8085
+ "loss": 6.3402,
8086
+ "step": 1147
8087
+ },
8088
+ {
8089
+ "epoch": 0.3673012318029115,
8090
+ "grad_norm": 7.843646049499512,
8091
+ "learning_rate": 0.0002837482200169787,
8092
+ "loss": 6.4396,
8093
+ "step": 1148
8094
+ },
8095
+ {
8096
+ "epoch": 0.3676211806111022,
8097
+ "grad_norm": 6.062797546386719,
8098
+ "learning_rate": 0.0002835678191073971,
8099
+ "loss": 5.9964,
8100
+ "step": 1149
8101
+ },
8102
+ {
8103
+ "epoch": 0.3679411294192929,
8104
+ "grad_norm": 7.792223930358887,
8105
+ "learning_rate": 0.0002833873401451192,
8106
+ "loss": 6.4738,
8107
+ "step": 1150
8108
+ },
8109
+ {
8110
+ "epoch": 0.3682610782274836,
8111
+ "grad_norm": 21.281097412109375,
8112
+ "learning_rate": 0.00028320678332162646,
8113
+ "loss": 6.2936,
8114
+ "step": 1151
8115
+ },
8116
+ {
8117
+ "epoch": 0.3685810270356743,
8118
+ "grad_norm": 33.57594299316406,
8119
+ "learning_rate": 0.0002830261488284829,
8120
+ "loss": 6.4598,
8121
+ "step": 1152
8122
+ },
8123
+ {
8124
+ "epoch": 0.368900975843865,
8125
+ "grad_norm": 38.78255844116211,
8126
+ "learning_rate": 0.0002828454368573348,
8127
+ "loss": 6.349,
8128
+ "step": 1153
8129
+ },
8130
+ {
8131
+ "epoch": 0.3692209246520557,
8132
+ "grad_norm": 21.15943717956543,
8133
+ "learning_rate": 0.00028266464759991105,
8134
+ "loss": 6.493,
8135
+ "step": 1154
8136
+ },
8137
+ {
8138
+ "epoch": 0.36954087346024633,
8139
+ "grad_norm": 870.9165649414062,
8140
+ "learning_rate": 0.00028248378124802204,
8141
+ "loss": 6.4243,
8142
+ "step": 1155
8143
+ },
8144
+ {
8145
+ "epoch": 0.36986082226843703,
8146
+ "grad_norm": 67.86760711669922,
8147
+ "learning_rate": 0.00028230283799356024,
8148
+ "loss": 6.4124,
8149
+ "step": 1156
8150
+ },
8151
+ {
8152
+ "epoch": 0.3701807710766277,
8153
+ "grad_norm": 148.6990966796875,
8154
+ "learning_rate": 0.00028212181802849973,
8155
+ "loss": 6.3447,
8156
+ "step": 1157
8157
+ },
8158
+ {
8159
+ "epoch": 0.3705007198848184,
8160
+ "grad_norm": 224.3986358642578,
8161
+ "learning_rate": 0.0002819407215448958,
8162
+ "loss": 6.8178,
8163
+ "step": 1158
8164
+ },
8165
+ {
8166
+ "epoch": 0.3708206686930091,
8167
+ "grad_norm": 116.84649658203125,
8168
+ "learning_rate": 0.0002817595487348851,
8169
+ "loss": 6.6928,
8170
+ "step": 1159
8171
+ },
8172
+ {
8173
+ "epoch": 0.3711406175011998,
8174
+ "grad_norm": 5677.07763671875,
8175
+ "learning_rate": 0.0002815782997906852,
8176
+ "loss": 6.7519,
8177
+ "step": 1160
8178
+ },
8179
+ {
8180
+ "epoch": 0.3714605663093905,
8181
+ "grad_norm": 1888.601806640625,
8182
+ "learning_rate": 0.0002813969749045943,
8183
+ "loss": 6.6966,
8184
+ "step": 1161
8185
+ },
8186
+ {
8187
+ "epoch": 0.3717805151175812,
8188
+ "grad_norm": 8388.8984375,
8189
+ "learning_rate": 0.00028121557426899154,
8190
+ "loss": 6.9312,
8191
+ "step": 1162
8192
+ },
8193
+ {
8194
+ "epoch": 0.3721004639257719,
8195
+ "grad_norm": 9415.212890625,
8196
+ "learning_rate": 0.00028103409807633595,
8197
+ "loss": 7.3199,
8198
+ "step": 1163
8199
+ },
8200
+ {
8201
+ "epoch": 0.3724204127339626,
8202
+ "grad_norm": 678.4221801757812,
8203
+ "learning_rate": 0.000280852546519167,
8204
+ "loss": 7.6811,
8205
+ "step": 1164
8206
+ },
8207
+ {
8208
+ "epoch": 0.37274036154215323,
8209
+ "grad_norm": 33225.8359375,
8210
+ "learning_rate": 0.0002806709197901042,
8211
+ "loss": 7.352,
8212
+ "step": 1165
8213
+ },
8214
+ {
8215
+ "epoch": 0.3730603103503439,
8216
+ "grad_norm": 23.9914493560791,
8217
+ "learning_rate": 0.00028048921808184667,
8218
+ "loss": 7.4617,
8219
+ "step": 1166
8220
+ },
8221
+ {
8222
+ "epoch": 0.3733802591585346,
8223
+ "grad_norm": 100466.765625,
8224
+ "learning_rate": 0.000280307441587173,
8225
+ "loss": 6.8622,
8226
+ "step": 1167
8227
+ },
8228
+ {
8229
+ "epoch": 0.3737002079667253,
8230
+ "grad_norm": 165.09849548339844,
8231
+ "learning_rate": 0.00028012559049894135,
8232
+ "loss": 7.0926,
8233
+ "step": 1168
8234
+ },
8235
+ {
8236
+ "epoch": 0.374020156774916,
8237
+ "grad_norm": 143.38955688476562,
8238
+ "learning_rate": 0.0002799436650100889,
8239
+ "loss": 7.2583,
8240
+ "step": 1169
8241
+ },
8242
+ {
8243
+ "epoch": 0.3743401055831067,
8244
+ "grad_norm": 3611.675048828125,
8245
+ "learning_rate": 0.0002797616653136316,
8246
+ "loss": 7.6278,
8247
+ "step": 1170
8248
+ },
8249
+ {
8250
+ "epoch": 0.3746600543912974,
8251
+ "grad_norm": 1785.349365234375,
8252
+ "learning_rate": 0.0002795795916026645,
8253
+ "loss": 7.9622,
8254
+ "step": 1171
8255
+ },
8256
+ {
8257
+ "epoch": 0.3749800031994881,
8258
+ "grad_norm": 273.0044860839844,
8259
+ "learning_rate": 0.0002793974440703608,
8260
+ "loss": 8.2006,
8261
+ "step": 1172
8262
+ },
8263
+ {
8264
+ "epoch": 0.3752999520076788,
8265
+ "grad_norm": 1025.5972900390625,
8266
+ "learning_rate": 0.00027921522290997247,
8267
+ "loss": 7.8807,
8268
+ "step": 1173
8269
+ },
8270
+ {
8271
+ "epoch": 0.37561990081586943,
8272
+ "grad_norm": 7521.10107421875,
8273
+ "learning_rate": 0.00027903292831482905,
8274
+ "loss": 7.7593,
8275
+ "step": 1174
8276
+ },
8277
+ {
8278
+ "epoch": 0.37593984962406013,
8279
+ "grad_norm": 276.4880676269531,
8280
+ "learning_rate": 0.0002788505604783383,
8281
+ "loss": 7.5434,
8282
+ "step": 1175
8283
+ },
8284
+ {
8285
+ "epoch": 0.3762597984322508,
8286
+ "grad_norm": 286.2404479980469,
8287
+ "learning_rate": 0.00027866811959398585,
8288
+ "loss": 7.0517,
8289
+ "step": 1176
8290
+ },
8291
+ {
8292
+ "epoch": 0.3765797472404415,
8293
+ "grad_norm": 31.163135528564453,
8294
+ "learning_rate": 0.0002784856058553345,
8295
+ "loss": 7.2771,
8296
+ "step": 1177
8297
+ },
8298
+ {
8299
+ "epoch": 0.3768996960486322,
8300
+ "grad_norm": 22.811885833740234,
8301
+ "learning_rate": 0.00027830301945602445,
8302
+ "loss": 7.0636,
8303
+ "step": 1178
8304
+ },
8305
+ {
8306
+ "epoch": 0.3772196448568229,
8307
+ "grad_norm": 449.5051574707031,
8308
+ "learning_rate": 0.000278120360589773,
8309
+ "loss": 6.9615,
8310
+ "step": 1179
8311
+ },
8312
+ {
8313
+ "epoch": 0.3775395936650136,
8314
+ "grad_norm": 16.285924911499023,
8315
+ "learning_rate": 0.0002779376294503745,
8316
+ "loss": 7.1608,
8317
+ "step": 1180
8318
+ },
8319
+ {
8320
+ "epoch": 0.3778595424732043,
8321
+ "grad_norm": 16.230222702026367,
8322
+ "learning_rate": 0.00027775482623169977,
8323
+ "loss": 6.7927,
8324
+ "step": 1181
8325
+ },
8326
+ {
8327
+ "epoch": 0.378179491281395,
8328
+ "grad_norm": 9.623656272888184,
8329
+ "learning_rate": 0.0002775719511276961,
8330
+ "loss": 6.8221,
8331
+ "step": 1182
8332
+ },
8333
+ {
8334
+ "epoch": 0.3784994400895857,
8335
+ "grad_norm": 9.932913780212402,
8336
+ "learning_rate": 0.00027738900433238716,
8337
+ "loss": 6.6573,
8338
+ "step": 1183
8339
+ },
8340
+ {
8341
+ "epoch": 0.37881938889777633,
8342
+ "grad_norm": 7.48627233505249,
8343
+ "learning_rate": 0.0002772059860398726,
8344
+ "loss": 6.6814,
8345
+ "step": 1184
8346
+ },
8347
+ {
8348
+ "epoch": 0.37913933770596703,
8349
+ "grad_norm": 7.055801868438721,
8350
+ "learning_rate": 0.00027702289644432804,
8351
+ "loss": 6.5999,
8352
+ "step": 1185
8353
+ },
8354
+ {
8355
+ "epoch": 0.3794592865141577,
8356
+ "grad_norm": 8.798673629760742,
8357
+ "learning_rate": 0.00027683973574000464,
8358
+ "loss": 6.5275,
8359
+ "step": 1186
8360
+ },
8361
+ {
8362
+ "epoch": 0.3797792353223484,
8363
+ "grad_norm": 17.74211883544922,
8364
+ "learning_rate": 0.000276656504121229,
8365
+ "loss": 6.732,
8366
+ "step": 1187
8367
+ },
8368
+ {
8369
+ "epoch": 0.3800991841305391,
8370
+ "grad_norm": 11.82168960571289,
8371
+ "learning_rate": 0.000276473201782403,
8372
+ "loss": 6.5822,
8373
+ "step": 1188
8374
+ },
8375
+ {
8376
+ "epoch": 0.3804191329387298,
8377
+ "grad_norm": 8.84131908416748,
8378
+ "learning_rate": 0.0002762898289180036,
8379
+ "loss": 6.7404,
8380
+ "step": 1189
8381
+ },
8382
+ {
8383
+ "epoch": 0.3807390817469205,
8384
+ "grad_norm": 9.530952453613281,
8385
+ "learning_rate": 0.00027610638572258254,
8386
+ "loss": 6.5298,
8387
+ "step": 1190
8388
+ },
8389
+ {
8390
+ "epoch": 0.3810590305551112,
8391
+ "grad_norm": 15.368577003479004,
8392
+ "learning_rate": 0.0002759228723907661,
8393
+ "loss": 6.4386,
8394
+ "step": 1191
8395
+ },
8396
+ {
8397
+ "epoch": 0.3813789793633019,
8398
+ "grad_norm": 19.41617202758789,
8399
+ "learning_rate": 0.000275739289117255,
8400
+ "loss": 6.7247,
8401
+ "step": 1192
8402
+ },
8403
+ {
8404
+ "epoch": 0.38169892817149254,
8405
+ "grad_norm": 10.758553504943848,
8406
+ "learning_rate": 0.0002755556360968244,
8407
+ "loss": 6.4879,
8408
+ "step": 1193
8409
+ },
8410
+ {
8411
+ "epoch": 0.38201887697968323,
8412
+ "grad_norm": 6.776547431945801,
8413
+ "learning_rate": 0.000275371913524323,
8414
+ "loss": 6.4938,
8415
+ "step": 1194
8416
+ },
8417
+ {
8418
+ "epoch": 0.3823388257878739,
8419
+ "grad_norm": 9.408045768737793,
8420
+ "learning_rate": 0.0002751881215946738,
8421
+ "loss": 6.5052,
8422
+ "step": 1195
8423
+ },
8424
+ {
8425
+ "epoch": 0.3826587745960646,
8426
+ "grad_norm": 9.227543830871582,
8427
+ "learning_rate": 0.00027500426050287293,
8428
+ "loss": 6.4985,
8429
+ "step": 1196
8430
+ },
8431
+ {
8432
+ "epoch": 0.3829787234042553,
8433
+ "grad_norm": 114.55646514892578,
8434
+ "learning_rate": 0.0002748203304439903,
8435
+ "loss": 6.5849,
8436
+ "step": 1197
8437
+ },
8438
+ {
8439
+ "epoch": 0.383298672212446,
8440
+ "grad_norm": 588.6021728515625,
8441
+ "learning_rate": 0.0002746363316131687,
8442
+ "loss": 6.7832,
8443
+ "step": 1198
8444
+ },
8445
+ {
8446
+ "epoch": 0.3836186210206367,
8447
+ "grad_norm": 147.17431640625,
8448
+ "learning_rate": 0.000274452264205624,
8449
+ "loss": 6.6167,
8450
+ "step": 1199
8451
+ },
8452
+ {
8453
+ "epoch": 0.3839385698288274,
8454
+ "grad_norm": 28.505613327026367,
8455
+ "learning_rate": 0.00027426812841664487,
8456
+ "loss": 6.6407,
8457
+ "step": 1200
8458
+ },
8459
+ {
8460
+ "epoch": 0.3839385698288274,
8461
+ "eval_loss": 3.3596253395080566,
8462
+ "eval_runtime": 233.5546,
8463
+ "eval_samples_per_second": 5.635,
8464
+ "eval_steps_per_second": 1.409,
8465
+ "step": 1200
8466
  }
8467
  ],
8468
  "logging_steps": 1,
 
8477
  "early_stopping_threshold": 0.0
8478
  },
8479
  "attributes": {
8480
+ "early_stopping_patience_counter": 3
8481
  }
8482
  },
8483
  "TrainerControl": {
 
8491
  "attributes": {}
8492
  }
8493
  },
8494
+ "total_flos": 1.1047304629384643e+18,
8495
  "train_batch_size": 4,
8496
  "trial_name": null,
8497
  "trial_params": null