error577 commited on
Commit
f2e0841
·
verified ·
1 Parent(s): eec1069

Training in progress, step 1200, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1435e56064804ee74daa247fea25c94f4dcfe1831b4c154b2265ec5194634f12
3
  size 194563400
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:f4b5f1eef8e7013f79a444f9ea028ef8ae496fd8b4c9d5bcc1c2b7042e6dfaa4
3
  size 194563400
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:b92d2650bf2b4f59e082878cec8319d793cf406bcc52b0fc4622f0d8dee8315e
3
  size 100255938
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:d975d28d45a1322a651452aaaf97a8106605aeb8742d88cabc76f193e21cc481
3
  size 100255938
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:0b470be6f9ff3fcd0a43d53d64143d7ab1af6994ddb5d46944a794feae4de392
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:7532d75c0ba8850f0b92d41ab0ce24556d470c4da7cda005b659f7bcc8bf4b4d
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f6fd8dbeac69591d6b58daf60b42428fc4a3f087d020b62d360141e848077b7a
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:b20da93e50834667a3a10e5c0a114d4f1a917750b3a4009ff729ec7f84e3ff65
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.7061967849731445,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
4
- "epoch": 0.10922545499228595,
5
  "eval_steps": 200,
6
- "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7055,6 +7055,1414 @@
7055
  "eval_samples_per_second": 10.131,
7056
  "eval_steps_per_second": 5.072,
7057
  "step": 1000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7058
  }
7059
  ],
7060
  "logging_steps": 1,
@@ -7069,7 +8477,7 @@
7069
  "early_stopping_threshold": 0.0
7070
  },
7071
  "attributes": {
7072
- "early_stopping_patience_counter": 2
7073
  }
7074
  },
7075
  "TrainerControl": {
@@ -7078,12 +8486,12 @@
7078
  "should_evaluate": false,
7079
  "should_log": false,
7080
  "should_save": true,
7081
- "should_training_stop": false
7082
  },
7083
  "attributes": {}
7084
  }
7085
  },
7086
- "total_flos": 1.4349170824445952e+17,
7087
  "train_batch_size": 2,
7088
  "trial_name": null,
7089
  "trial_params": null
 
1
  {
2
  "best_metric": 0.7061967849731445,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-200",
4
+ "epoch": 0.13107054599074314,
5
  "eval_steps": 200,
6
+ "global_step": 1200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7055
  "eval_samples_per_second": 10.131,
7056
  "eval_steps_per_second": 5.072,
7057
  "step": 1000
7058
+ },
7059
+ {
7060
+ "epoch": 0.10933468044727823,
7061
+ "grad_norm": 1.2205915451049805,
7062
+ "learning_rate": 0.0001993824803270106,
7063
+ "loss": 0.7065,
7064
+ "step": 1001
7065
+ },
7066
+ {
7067
+ "epoch": 0.10944390590227053,
7068
+ "grad_norm": 1.3085845708847046,
7069
+ "learning_rate": 0.00019938120906093872,
7070
+ "loss": 0.9705,
7071
+ "step": 1002
7072
+ },
7073
+ {
7074
+ "epoch": 0.10955313135726281,
7075
+ "grad_norm": 1.2457107305526733,
7076
+ "learning_rate": 0.0001993799364917178,
7077
+ "loss": 0.6375,
7078
+ "step": 1003
7079
+ },
7080
+ {
7081
+ "epoch": 0.1096623568122551,
7082
+ "grad_norm": 1.124176025390625,
7083
+ "learning_rate": 0.00019937866261936452,
7084
+ "loss": 1.0772,
7085
+ "step": 1004
7086
+ },
7087
+ {
7088
+ "epoch": 0.10977158226724738,
7089
+ "grad_norm": 0.9982814788818359,
7090
+ "learning_rate": 0.00019937738744389558,
7091
+ "loss": 0.695,
7092
+ "step": 1005
7093
+ },
7094
+ {
7095
+ "epoch": 0.10988080772223967,
7096
+ "grad_norm": 1.127756118774414,
7097
+ "learning_rate": 0.00019937611096532772,
7098
+ "loss": 0.925,
7099
+ "step": 1006
7100
+ },
7101
+ {
7102
+ "epoch": 0.10999003317723195,
7103
+ "grad_norm": 1.3581675291061401,
7104
+ "learning_rate": 0.00019937483318367762,
7105
+ "loss": 0.9221,
7106
+ "step": 1007
7107
+ },
7108
+ {
7109
+ "epoch": 0.11009925863222424,
7110
+ "grad_norm": 1.3347697257995605,
7111
+ "learning_rate": 0.0001993735540989621,
7112
+ "loss": 0.9107,
7113
+ "step": 1008
7114
+ },
7115
+ {
7116
+ "epoch": 0.11020848408721652,
7117
+ "grad_norm": 0.9323390126228333,
7118
+ "learning_rate": 0.0001993722737111979,
7119
+ "loss": 0.948,
7120
+ "step": 1009
7121
+ },
7122
+ {
7123
+ "epoch": 0.1103177095422088,
7124
+ "grad_norm": 1.101404070854187,
7125
+ "learning_rate": 0.00019937099202040184,
7126
+ "loss": 0.8408,
7127
+ "step": 1010
7128
+ },
7129
+ {
7130
+ "epoch": 0.1104269349972011,
7131
+ "grad_norm": 1.327126383781433,
7132
+ "learning_rate": 0.00019936970902659064,
7133
+ "loss": 0.7098,
7134
+ "step": 1011
7135
+ },
7136
+ {
7137
+ "epoch": 0.11053616045219339,
7138
+ "grad_norm": 1.6174031496047974,
7139
+ "learning_rate": 0.00019936842472978125,
7140
+ "loss": 1.0018,
7141
+ "step": 1012
7142
+ },
7143
+ {
7144
+ "epoch": 0.11064538590718567,
7145
+ "grad_norm": 1.1017050743103027,
7146
+ "learning_rate": 0.0001993671391299904,
7147
+ "loss": 0.7131,
7148
+ "step": 1013
7149
+ },
7150
+ {
7151
+ "epoch": 0.11075461136217796,
7152
+ "grad_norm": 1.4763091802597046,
7153
+ "learning_rate": 0.00019936585222723503,
7154
+ "loss": 0.5779,
7155
+ "step": 1014
7156
+ },
7157
+ {
7158
+ "epoch": 0.11086383681717024,
7159
+ "grad_norm": 1.215286135673523,
7160
+ "learning_rate": 0.00019936456402153195,
7161
+ "loss": 1.131,
7162
+ "step": 1015
7163
+ },
7164
+ {
7165
+ "epoch": 0.11097306227216253,
7166
+ "grad_norm": 1.2176015377044678,
7167
+ "learning_rate": 0.00019936327451289813,
7168
+ "loss": 0.8717,
7169
+ "step": 1016
7170
+ },
7171
+ {
7172
+ "epoch": 0.11108228772715481,
7173
+ "grad_norm": 1.297967553138733,
7174
+ "learning_rate": 0.00019936198370135036,
7175
+ "loss": 1.0072,
7176
+ "step": 1017
7177
+ },
7178
+ {
7179
+ "epoch": 0.1111915131821471,
7180
+ "grad_norm": 1.1566557884216309,
7181
+ "learning_rate": 0.00019936069158690568,
7182
+ "loss": 0.8495,
7183
+ "step": 1018
7184
+ },
7185
+ {
7186
+ "epoch": 0.11130073863713938,
7187
+ "grad_norm": 1.104823350906372,
7188
+ "learning_rate": 0.00019935939816958097,
7189
+ "loss": 0.9517,
7190
+ "step": 1019
7191
+ },
7192
+ {
7193
+ "epoch": 0.11140996409213168,
7194
+ "grad_norm": 1.3326419591903687,
7195
+ "learning_rate": 0.00019935810344939321,
7196
+ "loss": 1.0257,
7197
+ "step": 1020
7198
+ },
7199
+ {
7200
+ "epoch": 0.11151918954712396,
7201
+ "grad_norm": 1.1882355213165283,
7202
+ "learning_rate": 0.0001993568074263594,
7203
+ "loss": 0.9735,
7204
+ "step": 1021
7205
+ },
7206
+ {
7207
+ "epoch": 0.11162841500211625,
7208
+ "grad_norm": 1.0751303434371948,
7209
+ "learning_rate": 0.00019935551010049647,
7210
+ "loss": 0.6276,
7211
+ "step": 1022
7212
+ },
7213
+ {
7214
+ "epoch": 0.11173764045710853,
7215
+ "grad_norm": 1.2646431922912598,
7216
+ "learning_rate": 0.00019935421147182147,
7217
+ "loss": 0.7494,
7218
+ "step": 1023
7219
+ },
7220
+ {
7221
+ "epoch": 0.11184686591210082,
7222
+ "grad_norm": 1.2806205749511719,
7223
+ "learning_rate": 0.00019935291154035145,
7224
+ "loss": 1.0176,
7225
+ "step": 1024
7226
+ },
7227
+ {
7228
+ "epoch": 0.1119560913670931,
7229
+ "grad_norm": 1.3170644044876099,
7230
+ "learning_rate": 0.0001993516103061034,
7231
+ "loss": 1.1641,
7232
+ "step": 1025
7233
+ },
7234
+ {
7235
+ "epoch": 0.11206531682208538,
7236
+ "grad_norm": 1.271410346031189,
7237
+ "learning_rate": 0.00019935030776909446,
7238
+ "loss": 1.1157,
7239
+ "step": 1026
7240
+ },
7241
+ {
7242
+ "epoch": 0.11217454227707767,
7243
+ "grad_norm": 1.4487496614456177,
7244
+ "learning_rate": 0.00019934900392934167,
7245
+ "loss": 0.832,
7246
+ "step": 1027
7247
+ },
7248
+ {
7249
+ "epoch": 0.11228376773206995,
7250
+ "grad_norm": 1.3541709184646606,
7251
+ "learning_rate": 0.00019934769878686212,
7252
+ "loss": 0.722,
7253
+ "step": 1028
7254
+ },
7255
+ {
7256
+ "epoch": 0.11239299318706225,
7257
+ "grad_norm": 1.5500739812850952,
7258
+ "learning_rate": 0.0001993463923416729,
7259
+ "loss": 0.896,
7260
+ "step": 1029
7261
+ },
7262
+ {
7263
+ "epoch": 0.11250221864205454,
7264
+ "grad_norm": 1.046573519706726,
7265
+ "learning_rate": 0.00019934508459379117,
7266
+ "loss": 0.6733,
7267
+ "step": 1030
7268
+ },
7269
+ {
7270
+ "epoch": 0.11261144409704682,
7271
+ "grad_norm": 1.2942837476730347,
7272
+ "learning_rate": 0.0001993437755432341,
7273
+ "loss": 0.8235,
7274
+ "step": 1031
7275
+ },
7276
+ {
7277
+ "epoch": 0.1127206695520391,
7278
+ "grad_norm": 2.2381908893585205,
7279
+ "learning_rate": 0.00019934246519001883,
7280
+ "loss": 0.9397,
7281
+ "step": 1032
7282
+ },
7283
+ {
7284
+ "epoch": 0.11282989500703139,
7285
+ "grad_norm": 1.2537754774093628,
7286
+ "learning_rate": 0.0001993411535341625,
7287
+ "loss": 0.9351,
7288
+ "step": 1033
7289
+ },
7290
+ {
7291
+ "epoch": 0.11293912046202367,
7292
+ "grad_norm": 1.1798999309539795,
7293
+ "learning_rate": 0.00019933984057568242,
7294
+ "loss": 0.9141,
7295
+ "step": 1034
7296
+ },
7297
+ {
7298
+ "epoch": 0.11304834591701596,
7299
+ "grad_norm": 1.300783395767212,
7300
+ "learning_rate": 0.00019933852631459571,
7301
+ "loss": 0.7434,
7302
+ "step": 1035
7303
+ },
7304
+ {
7305
+ "epoch": 0.11315757137200824,
7306
+ "grad_norm": 1.6943469047546387,
7307
+ "learning_rate": 0.00019933721075091962,
7308
+ "loss": 1.4925,
7309
+ "step": 1036
7310
+ },
7311
+ {
7312
+ "epoch": 0.11326679682700053,
7313
+ "grad_norm": 1.3298465013504028,
7314
+ "learning_rate": 0.00019933589388467142,
7315
+ "loss": 0.7144,
7316
+ "step": 1037
7317
+ },
7318
+ {
7319
+ "epoch": 0.11337602228199282,
7320
+ "grad_norm": 1.3957929611206055,
7321
+ "learning_rate": 0.00019933457571586838,
7322
+ "loss": 1.335,
7323
+ "step": 1038
7324
+ },
7325
+ {
7326
+ "epoch": 0.11348524773698511,
7327
+ "grad_norm": 1.2654701471328735,
7328
+ "learning_rate": 0.00019933325624452776,
7329
+ "loss": 0.8992,
7330
+ "step": 1039
7331
+ },
7332
+ {
7333
+ "epoch": 0.1135944731919774,
7334
+ "grad_norm": 1.1495540142059326,
7335
+ "learning_rate": 0.00019933193547066688,
7336
+ "loss": 0.8485,
7337
+ "step": 1040
7338
+ },
7339
+ {
7340
+ "epoch": 0.11370369864696968,
7341
+ "grad_norm": 1.567428708076477,
7342
+ "learning_rate": 0.00019933061339430305,
7343
+ "loss": 0.8859,
7344
+ "step": 1041
7345
+ },
7346
+ {
7347
+ "epoch": 0.11381292410196196,
7348
+ "grad_norm": 1.3406460285186768,
7349
+ "learning_rate": 0.00019932929001545367,
7350
+ "loss": 0.9023,
7351
+ "step": 1042
7352
+ },
7353
+ {
7354
+ "epoch": 0.11392214955695425,
7355
+ "grad_norm": 1.2080565690994263,
7356
+ "learning_rate": 0.00019932796533413596,
7357
+ "loss": 0.5623,
7358
+ "step": 1043
7359
+ },
7360
+ {
7361
+ "epoch": 0.11403137501194653,
7362
+ "grad_norm": 1.5534919500350952,
7363
+ "learning_rate": 0.0001993266393503674,
7364
+ "loss": 0.7808,
7365
+ "step": 1044
7366
+ },
7367
+ {
7368
+ "epoch": 0.11414060046693882,
7369
+ "grad_norm": 1.3839794397354126,
7370
+ "learning_rate": 0.00019932531206416534,
7371
+ "loss": 0.8238,
7372
+ "step": 1045
7373
+ },
7374
+ {
7375
+ "epoch": 0.1142498259219311,
7376
+ "grad_norm": 1.5013834238052368,
7377
+ "learning_rate": 0.0001993239834755472,
7378
+ "loss": 0.7241,
7379
+ "step": 1046
7380
+ },
7381
+ {
7382
+ "epoch": 0.1143590513769234,
7383
+ "grad_norm": 1.3011348247528076,
7384
+ "learning_rate": 0.00019932265358453034,
7385
+ "loss": 0.6477,
7386
+ "step": 1047
7387
+ },
7388
+ {
7389
+ "epoch": 0.11446827683191568,
7390
+ "grad_norm": 1.2873181104660034,
7391
+ "learning_rate": 0.0001993213223911323,
7392
+ "loss": 0.8507,
7393
+ "step": 1048
7394
+ },
7395
+ {
7396
+ "epoch": 0.11457750228690797,
7397
+ "grad_norm": 1.3292242288589478,
7398
+ "learning_rate": 0.00019931998989537045,
7399
+ "loss": 0.8086,
7400
+ "step": 1049
7401
+ },
7402
+ {
7403
+ "epoch": 0.11468672774190025,
7404
+ "grad_norm": 1.728370189666748,
7405
+ "learning_rate": 0.0001993186560972623,
7406
+ "loss": 0.6108,
7407
+ "step": 1050
7408
+ },
7409
+ {
7410
+ "epoch": 0.11479595319689254,
7411
+ "grad_norm": 1.2135319709777832,
7412
+ "learning_rate": 0.00019931732099682533,
7413
+ "loss": 0.9925,
7414
+ "step": 1051
7415
+ },
7416
+ {
7417
+ "epoch": 0.11490517865188482,
7418
+ "grad_norm": 1.5249863862991333,
7419
+ "learning_rate": 0.00019931598459407704,
7420
+ "loss": 0.4253,
7421
+ "step": 1052
7422
+ },
7423
+ {
7424
+ "epoch": 0.1150144041068771,
7425
+ "grad_norm": 1.195080041885376,
7426
+ "learning_rate": 0.000199314646889035,
7427
+ "loss": 0.7426,
7428
+ "step": 1053
7429
+ },
7430
+ {
7431
+ "epoch": 0.11512362956186939,
7432
+ "grad_norm": 1.8309367895126343,
7433
+ "learning_rate": 0.00019931330788171668,
7434
+ "loss": 0.8132,
7435
+ "step": 1054
7436
+ },
7437
+ {
7438
+ "epoch": 0.11523285501686167,
7439
+ "grad_norm": 1.301666259765625,
7440
+ "learning_rate": 0.0001993119675721397,
7441
+ "loss": 0.7908,
7442
+ "step": 1055
7443
+ },
7444
+ {
7445
+ "epoch": 0.11534208047185397,
7446
+ "grad_norm": 1.4406108856201172,
7447
+ "learning_rate": 0.0001993106259603216,
7448
+ "loss": 0.7856,
7449
+ "step": 1056
7450
+ },
7451
+ {
7452
+ "epoch": 0.11545130592684626,
7453
+ "grad_norm": 1.672108769416809,
7454
+ "learning_rate": 0.00019930928304628,
7455
+ "loss": 0.8696,
7456
+ "step": 1057
7457
+ },
7458
+ {
7459
+ "epoch": 0.11556053138183854,
7460
+ "grad_norm": 1.634285807609558,
7461
+ "learning_rate": 0.00019930793883003243,
7462
+ "loss": 0.6701,
7463
+ "step": 1058
7464
+ },
7465
+ {
7466
+ "epoch": 0.11566975683683083,
7467
+ "grad_norm": 1.3943419456481934,
7468
+ "learning_rate": 0.0001993065933115966,
7469
+ "loss": 1.0329,
7470
+ "step": 1059
7471
+ },
7472
+ {
7473
+ "epoch": 0.11577898229182311,
7474
+ "grad_norm": 1.7570948600769043,
7475
+ "learning_rate": 0.00019930524649099013,
7476
+ "loss": 0.8156,
7477
+ "step": 1060
7478
+ },
7479
+ {
7480
+ "epoch": 0.1158882077468154,
7481
+ "grad_norm": 1.2345890998840332,
7482
+ "learning_rate": 0.0001993038983682307,
7483
+ "loss": 0.7043,
7484
+ "step": 1061
7485
+ },
7486
+ {
7487
+ "epoch": 0.11599743320180768,
7488
+ "grad_norm": 1.6712225675582886,
7489
+ "learning_rate": 0.00019930254894333596,
7490
+ "loss": 0.7725,
7491
+ "step": 1062
7492
+ },
7493
+ {
7494
+ "epoch": 0.11610665865679996,
7495
+ "grad_norm": 1.473175048828125,
7496
+ "learning_rate": 0.0001993011982163236,
7497
+ "loss": 0.7347,
7498
+ "step": 1063
7499
+ },
7500
+ {
7501
+ "epoch": 0.11621588411179225,
7502
+ "grad_norm": 1.3786654472351074,
7503
+ "learning_rate": 0.00019929984618721137,
7504
+ "loss": 0.8501,
7505
+ "step": 1064
7506
+ },
7507
+ {
7508
+ "epoch": 0.11632510956678455,
7509
+ "grad_norm": 1.1373165845870972,
7510
+ "learning_rate": 0.00019929849285601692,
7511
+ "loss": 0.8806,
7512
+ "step": 1065
7513
+ },
7514
+ {
7515
+ "epoch": 0.11643433502177683,
7516
+ "grad_norm": 1.8122903108596802,
7517
+ "learning_rate": 0.00019929713822275805,
7518
+ "loss": 0.9973,
7519
+ "step": 1066
7520
+ },
7521
+ {
7522
+ "epoch": 0.11654356047676911,
7523
+ "grad_norm": 0.9967430233955383,
7524
+ "learning_rate": 0.00019929578228745256,
7525
+ "loss": 0.783,
7526
+ "step": 1067
7527
+ },
7528
+ {
7529
+ "epoch": 0.1166527859317614,
7530
+ "grad_norm": 1.4985566139221191,
7531
+ "learning_rate": 0.00019929442505011818,
7532
+ "loss": 0.8065,
7533
+ "step": 1068
7534
+ },
7535
+ {
7536
+ "epoch": 0.11676201138675368,
7537
+ "grad_norm": 1.4771041870117188,
7538
+ "learning_rate": 0.0001992930665107727,
7539
+ "loss": 0.7213,
7540
+ "step": 1069
7541
+ },
7542
+ {
7543
+ "epoch": 0.11687123684174597,
7544
+ "grad_norm": 1.803648829460144,
7545
+ "learning_rate": 0.00019929170666943397,
7546
+ "loss": 0.7813,
7547
+ "step": 1070
7548
+ },
7549
+ {
7550
+ "epoch": 0.11698046229673825,
7551
+ "grad_norm": 1.6353493928909302,
7552
+ "learning_rate": 0.00019929034552611979,
7553
+ "loss": 0.7494,
7554
+ "step": 1071
7555
+ },
7556
+ {
7557
+ "epoch": 0.11708968775173054,
7558
+ "grad_norm": 1.5146071910858154,
7559
+ "learning_rate": 0.00019928898308084803,
7560
+ "loss": 0.8089,
7561
+ "step": 1072
7562
+ },
7563
+ {
7564
+ "epoch": 0.11719891320672282,
7565
+ "grad_norm": 1.3005802631378174,
7566
+ "learning_rate": 0.00019928761933363652,
7567
+ "loss": 0.7843,
7568
+ "step": 1073
7569
+ },
7570
+ {
7571
+ "epoch": 0.11730813866171512,
7572
+ "grad_norm": 1.4477092027664185,
7573
+ "learning_rate": 0.0001992862542845032,
7574
+ "loss": 0.8091,
7575
+ "step": 1074
7576
+ },
7577
+ {
7578
+ "epoch": 0.1174173641167074,
7579
+ "grad_norm": 1.0689550638198853,
7580
+ "learning_rate": 0.0001992848879334659,
7581
+ "loss": 0.9451,
7582
+ "step": 1075
7583
+ },
7584
+ {
7585
+ "epoch": 0.11752658957169969,
7586
+ "grad_norm": 1.581805944442749,
7587
+ "learning_rate": 0.00019928352028054258,
7588
+ "loss": 0.8532,
7589
+ "step": 1076
7590
+ },
7591
+ {
7592
+ "epoch": 0.11763581502669197,
7593
+ "grad_norm": 1.5796600580215454,
7594
+ "learning_rate": 0.0001992821513257512,
7595
+ "loss": 0.6943,
7596
+ "step": 1077
7597
+ },
7598
+ {
7599
+ "epoch": 0.11774504048168426,
7600
+ "grad_norm": 1.5918270349502563,
7601
+ "learning_rate": 0.00019928078106910965,
7602
+ "loss": 0.9145,
7603
+ "step": 1078
7604
+ },
7605
+ {
7606
+ "epoch": 0.11785426593667654,
7607
+ "grad_norm": 1.4922096729278564,
7608
+ "learning_rate": 0.00019927940951063592,
7609
+ "loss": 0.6328,
7610
+ "step": 1079
7611
+ },
7612
+ {
7613
+ "epoch": 0.11796349139166883,
7614
+ "grad_norm": 0.9377450346946716,
7615
+ "learning_rate": 0.000199278036650348,
7616
+ "loss": 1.0577,
7617
+ "step": 1080
7618
+ },
7619
+ {
7620
+ "epoch": 0.11807271684666111,
7621
+ "grad_norm": 1.3035157918930054,
7622
+ "learning_rate": 0.00019927666248826392,
7623
+ "loss": 0.7525,
7624
+ "step": 1081
7625
+ },
7626
+ {
7627
+ "epoch": 0.1181819423016534,
7628
+ "grad_norm": 1.5068557262420654,
7629
+ "learning_rate": 0.00019927528702440165,
7630
+ "loss": 0.7421,
7631
+ "step": 1082
7632
+ },
7633
+ {
7634
+ "epoch": 0.1182911677566457,
7635
+ "grad_norm": 1.2622627019882202,
7636
+ "learning_rate": 0.00019927391025877924,
7637
+ "loss": 0.6874,
7638
+ "step": 1083
7639
+ },
7640
+ {
7641
+ "epoch": 0.11840039321163798,
7642
+ "grad_norm": 1.7203670740127563,
7643
+ "learning_rate": 0.00019927253219141476,
7644
+ "loss": 0.6967,
7645
+ "step": 1084
7646
+ },
7647
+ {
7648
+ "epoch": 0.11850961866663026,
7649
+ "grad_norm": 1.436240792274475,
7650
+ "learning_rate": 0.00019927115282232624,
7651
+ "loss": 0.6359,
7652
+ "step": 1085
7653
+ },
7654
+ {
7655
+ "epoch": 0.11861884412162255,
7656
+ "grad_norm": 1.0763415098190308,
7657
+ "learning_rate": 0.00019926977215153183,
7658
+ "loss": 0.8655,
7659
+ "step": 1086
7660
+ },
7661
+ {
7662
+ "epoch": 0.11872806957661483,
7663
+ "grad_norm": 1.2961541414260864,
7664
+ "learning_rate": 0.0001992683901790496,
7665
+ "loss": 0.494,
7666
+ "step": 1087
7667
+ },
7668
+ {
7669
+ "epoch": 0.11883729503160712,
7670
+ "grad_norm": 1.5096957683563232,
7671
+ "learning_rate": 0.00019926700690489765,
7672
+ "loss": 0.6852,
7673
+ "step": 1088
7674
+ },
7675
+ {
7676
+ "epoch": 0.1189465204865994,
7677
+ "grad_norm": 1.5299978256225586,
7678
+ "learning_rate": 0.00019926562232909417,
7679
+ "loss": 1.0133,
7680
+ "step": 1089
7681
+ },
7682
+ {
7683
+ "epoch": 0.11905574594159168,
7684
+ "grad_norm": 1.0444854497909546,
7685
+ "learning_rate": 0.00019926423645165727,
7686
+ "loss": 0.9608,
7687
+ "step": 1090
7688
+ },
7689
+ {
7690
+ "epoch": 0.11916497139658397,
7691
+ "grad_norm": 1.2627832889556885,
7692
+ "learning_rate": 0.00019926284927260514,
7693
+ "loss": 1.0715,
7694
+ "step": 1091
7695
+ },
7696
+ {
7697
+ "epoch": 0.11927419685157625,
7698
+ "grad_norm": 1.2448171377182007,
7699
+ "learning_rate": 0.00019926146079195594,
7700
+ "loss": 0.9528,
7701
+ "step": 1092
7702
+ },
7703
+ {
7704
+ "epoch": 0.11938342230656855,
7705
+ "grad_norm": 1.0306788682937622,
7706
+ "learning_rate": 0.00019926007100972798,
7707
+ "loss": 0.908,
7708
+ "step": 1093
7709
+ },
7710
+ {
7711
+ "epoch": 0.11949264776156084,
7712
+ "grad_norm": 1.3586934804916382,
7713
+ "learning_rate": 0.00019925867992593932,
7714
+ "loss": 0.8233,
7715
+ "step": 1094
7716
+ },
7717
+ {
7718
+ "epoch": 0.11960187321655312,
7719
+ "grad_norm": 1.3546695709228516,
7720
+ "learning_rate": 0.00019925728754060834,
7721
+ "loss": 0.6921,
7722
+ "step": 1095
7723
+ },
7724
+ {
7725
+ "epoch": 0.1197110986715454,
7726
+ "grad_norm": 1.4747517108917236,
7727
+ "learning_rate": 0.00019925589385375324,
7728
+ "loss": 0.3998,
7729
+ "step": 1096
7730
+ },
7731
+ {
7732
+ "epoch": 0.11982032412653769,
7733
+ "grad_norm": 1.6195718050003052,
7734
+ "learning_rate": 0.0001992544988653923,
7735
+ "loss": 1.0382,
7736
+ "step": 1097
7737
+ },
7738
+ {
7739
+ "epoch": 0.11992954958152997,
7740
+ "grad_norm": 1.6750741004943848,
7741
+ "learning_rate": 0.0001992531025755438,
7742
+ "loss": 0.5369,
7743
+ "step": 1098
7744
+ },
7745
+ {
7746
+ "epoch": 0.12003877503652226,
7747
+ "grad_norm": 1.1470670700073242,
7748
+ "learning_rate": 0.00019925170498422606,
7749
+ "loss": 0.8429,
7750
+ "step": 1099
7751
+ },
7752
+ {
7753
+ "epoch": 0.12014800049151454,
7754
+ "grad_norm": 1.1155179738998413,
7755
+ "learning_rate": 0.00019925030609145743,
7756
+ "loss": 0.6548,
7757
+ "step": 1100
7758
+ },
7759
+ {
7760
+ "epoch": 0.12025722594650683,
7761
+ "grad_norm": 1.6656816005706787,
7762
+ "learning_rate": 0.00019924890589725623,
7763
+ "loss": 0.5107,
7764
+ "step": 1101
7765
+ },
7766
+ {
7767
+ "epoch": 0.12036645140149912,
7768
+ "grad_norm": 1.3539464473724365,
7769
+ "learning_rate": 0.00019924750440164081,
7770
+ "loss": 0.7774,
7771
+ "step": 1102
7772
+ },
7773
+ {
7774
+ "epoch": 0.12047567685649141,
7775
+ "grad_norm": 1.571033239364624,
7776
+ "learning_rate": 0.00019924610160462956,
7777
+ "loss": 0.6545,
7778
+ "step": 1103
7779
+ },
7780
+ {
7781
+ "epoch": 0.1205849023114837,
7782
+ "grad_norm": 1.665709376335144,
7783
+ "learning_rate": 0.0001992446975062409,
7784
+ "loss": 0.8734,
7785
+ "step": 1104
7786
+ },
7787
+ {
7788
+ "epoch": 0.12069412776647598,
7789
+ "grad_norm": 1.2241404056549072,
7790
+ "learning_rate": 0.00019924329210649317,
7791
+ "loss": 0.8143,
7792
+ "step": 1105
7793
+ },
7794
+ {
7795
+ "epoch": 0.12080335322146826,
7796
+ "grad_norm": 0.9677228331565857,
7797
+ "learning_rate": 0.00019924188540540488,
7798
+ "loss": 0.7972,
7799
+ "step": 1106
7800
+ },
7801
+ {
7802
+ "epoch": 0.12091257867646055,
7803
+ "grad_norm": 1.384819507598877,
7804
+ "learning_rate": 0.00019924047740299444,
7805
+ "loss": 0.5386,
7806
+ "step": 1107
7807
+ },
7808
+ {
7809
+ "epoch": 0.12102180413145283,
7810
+ "grad_norm": 1.4157319068908691,
7811
+ "learning_rate": 0.0001992390680992803,
7812
+ "loss": 0.7179,
7813
+ "step": 1108
7814
+ },
7815
+ {
7816
+ "epoch": 0.12113102958644512,
7817
+ "grad_norm": 1.3099032640457153,
7818
+ "learning_rate": 0.00019923765749428092,
7819
+ "loss": 0.851,
7820
+ "step": 1109
7821
+ },
7822
+ {
7823
+ "epoch": 0.1212402550414374,
7824
+ "grad_norm": 1.1710662841796875,
7825
+ "learning_rate": 0.0001992362455880149,
7826
+ "loss": 0.7325,
7827
+ "step": 1110
7828
+ },
7829
+ {
7830
+ "epoch": 0.1213494804964297,
7831
+ "grad_norm": 1.4912019968032837,
7832
+ "learning_rate": 0.0001992348323805006,
7833
+ "loss": 0.7942,
7834
+ "step": 1111
7835
+ },
7836
+ {
7837
+ "epoch": 0.12145870595142198,
7838
+ "grad_norm": 1.0365915298461914,
7839
+ "learning_rate": 0.00019923341787175667,
7840
+ "loss": 1.0589,
7841
+ "step": 1112
7842
+ },
7843
+ {
7844
+ "epoch": 0.12156793140641427,
7845
+ "grad_norm": 1.487493872642517,
7846
+ "learning_rate": 0.00019923200206180164,
7847
+ "loss": 0.9355,
7848
+ "step": 1113
7849
+ },
7850
+ {
7851
+ "epoch": 0.12167715686140655,
7852
+ "grad_norm": 1.150929570198059,
7853
+ "learning_rate": 0.00019923058495065402,
7854
+ "loss": 0.813,
7855
+ "step": 1114
7856
+ },
7857
+ {
7858
+ "epoch": 0.12178638231639884,
7859
+ "grad_norm": 1.6531025171279907,
7860
+ "learning_rate": 0.00019922916653833248,
7861
+ "loss": 0.8806,
7862
+ "step": 1115
7863
+ },
7864
+ {
7865
+ "epoch": 0.12189560777139112,
7866
+ "grad_norm": 1.3603259325027466,
7867
+ "learning_rate": 0.00019922774682485552,
7868
+ "loss": 1.1474,
7869
+ "step": 1116
7870
+ },
7871
+ {
7872
+ "epoch": 0.1220048332263834,
7873
+ "grad_norm": 1.6009835004806519,
7874
+ "learning_rate": 0.00019922632581024182,
7875
+ "loss": 0.7006,
7876
+ "step": 1117
7877
+ },
7878
+ {
7879
+ "epoch": 0.12211405868137569,
7880
+ "grad_norm": 1.4102089405059814,
7881
+ "learning_rate": 0.00019922490349451,
7882
+ "loss": 0.4627,
7883
+ "step": 1118
7884
+ },
7885
+ {
7886
+ "epoch": 0.12222328413636797,
7887
+ "grad_norm": 1.0573030710220337,
7888
+ "learning_rate": 0.0001992234798776787,
7889
+ "loss": 0.9204,
7890
+ "step": 1119
7891
+ },
7892
+ {
7893
+ "epoch": 0.12233250959136027,
7894
+ "grad_norm": 1.8316164016723633,
7895
+ "learning_rate": 0.00019922205495976657,
7896
+ "loss": 0.7667,
7897
+ "step": 1120
7898
+ },
7899
+ {
7900
+ "epoch": 0.12244173504635256,
7901
+ "grad_norm": 1.232649803161621,
7902
+ "learning_rate": 0.00019922062874079237,
7903
+ "loss": 0.8237,
7904
+ "step": 1121
7905
+ },
7906
+ {
7907
+ "epoch": 0.12255096050134484,
7908
+ "grad_norm": 1.6198135614395142,
7909
+ "learning_rate": 0.0001992192012207747,
7910
+ "loss": 0.9329,
7911
+ "step": 1122
7912
+ },
7913
+ {
7914
+ "epoch": 0.12266018595633713,
7915
+ "grad_norm": 1.4416582584381104,
7916
+ "learning_rate": 0.00019921777239973238,
7917
+ "loss": 0.7153,
7918
+ "step": 1123
7919
+ },
7920
+ {
7921
+ "epoch": 0.12276941141132941,
7922
+ "grad_norm": 1.1062138080596924,
7923
+ "learning_rate": 0.00019921634227768403,
7924
+ "loss": 1.0572,
7925
+ "step": 1124
7926
+ },
7927
+ {
7928
+ "epoch": 0.1228786368663217,
7929
+ "grad_norm": 1.6167114973068237,
7930
+ "learning_rate": 0.0001992149108546485,
7931
+ "loss": 0.6347,
7932
+ "step": 1125
7933
+ },
7934
+ {
7935
+ "epoch": 0.12298786232131398,
7936
+ "grad_norm": 1.4493283033370972,
7937
+ "learning_rate": 0.00019921347813064454,
7938
+ "loss": 0.8981,
7939
+ "step": 1126
7940
+ },
7941
+ {
7942
+ "epoch": 0.12309708777630626,
7943
+ "grad_norm": 1.386709213256836,
7944
+ "learning_rate": 0.00019921204410569093,
7945
+ "loss": 0.8438,
7946
+ "step": 1127
7947
+ },
7948
+ {
7949
+ "epoch": 0.12320631323129855,
7950
+ "grad_norm": 1.011716604232788,
7951
+ "learning_rate": 0.00019921060877980647,
7952
+ "loss": 0.8014,
7953
+ "step": 1128
7954
+ },
7955
+ {
7956
+ "epoch": 0.12331553868629085,
7957
+ "grad_norm": 1.101968765258789,
7958
+ "learning_rate": 0.00019920917215300997,
7959
+ "loss": 0.9873,
7960
+ "step": 1129
7961
+ },
7962
+ {
7963
+ "epoch": 0.12342476414128313,
7964
+ "grad_norm": 1.388913631439209,
7965
+ "learning_rate": 0.00019920773422532024,
7966
+ "loss": 0.7366,
7967
+ "step": 1130
7968
+ },
7969
+ {
7970
+ "epoch": 0.12353398959627541,
7971
+ "grad_norm": 1.0777970552444458,
7972
+ "learning_rate": 0.0001992062949967562,
7973
+ "loss": 0.9902,
7974
+ "step": 1131
7975
+ },
7976
+ {
7977
+ "epoch": 0.1236432150512677,
7978
+ "grad_norm": 1.364811658859253,
7979
+ "learning_rate": 0.0001992048544673367,
7980
+ "loss": 0.9963,
7981
+ "step": 1132
7982
+ },
7983
+ {
7984
+ "epoch": 0.12375244050625998,
7985
+ "grad_norm": 1.068984866142273,
7986
+ "learning_rate": 0.0001992034126370806,
7987
+ "loss": 0.7391,
7988
+ "step": 1133
7989
+ },
7990
+ {
7991
+ "epoch": 0.12386166596125227,
7992
+ "grad_norm": 1.4525978565216064,
7993
+ "learning_rate": 0.0001992019695060068,
7994
+ "loss": 0.743,
7995
+ "step": 1134
7996
+ },
7997
+ {
7998
+ "epoch": 0.12397089141624455,
7999
+ "grad_norm": 1.5010894536972046,
8000
+ "learning_rate": 0.0001992005250741343,
8001
+ "loss": 0.5288,
8002
+ "step": 1135
8003
+ },
8004
+ {
8005
+ "epoch": 0.12408011687123684,
8006
+ "grad_norm": 1.6246229410171509,
8007
+ "learning_rate": 0.000199199079341482,
8008
+ "loss": 0.564,
8009
+ "step": 1136
8010
+ },
8011
+ {
8012
+ "epoch": 0.12418934232622912,
8013
+ "grad_norm": 1.2848314046859741,
8014
+ "learning_rate": 0.00019919763230806886,
8015
+ "loss": 1.01,
8016
+ "step": 1137
8017
+ },
8018
+ {
8019
+ "epoch": 0.12429856778122142,
8020
+ "grad_norm": 1.1841753721237183,
8021
+ "learning_rate": 0.00019919618397391383,
8022
+ "loss": 0.8131,
8023
+ "step": 1138
8024
+ },
8025
+ {
8026
+ "epoch": 0.1244077932362137,
8027
+ "grad_norm": 1.2205997705459595,
8028
+ "learning_rate": 0.00019919473433903587,
8029
+ "loss": 0.6815,
8030
+ "step": 1139
8031
+ },
8032
+ {
8033
+ "epoch": 0.12451701869120599,
8034
+ "grad_norm": 1.003227710723877,
8035
+ "learning_rate": 0.00019919328340345407,
8036
+ "loss": 1.0282,
8037
+ "step": 1140
8038
+ },
8039
+ {
8040
+ "epoch": 0.12462624414619827,
8041
+ "grad_norm": 1.6726300716400146,
8042
+ "learning_rate": 0.00019919183116718741,
8043
+ "loss": 0.5959,
8044
+ "step": 1141
8045
+ },
8046
+ {
8047
+ "epoch": 0.12473546960119056,
8048
+ "grad_norm": 1.4816073179244995,
8049
+ "learning_rate": 0.00019919037763025497,
8050
+ "loss": 0.8751,
8051
+ "step": 1142
8052
+ },
8053
+ {
8054
+ "epoch": 0.12484469505618284,
8055
+ "grad_norm": 1.4230906963348389,
8056
+ "learning_rate": 0.00019918892279267573,
8057
+ "loss": 0.7128,
8058
+ "step": 1143
8059
+ },
8060
+ {
8061
+ "epoch": 0.12495392051117513,
8062
+ "grad_norm": 1.585444450378418,
8063
+ "learning_rate": 0.00019918746665446887,
8064
+ "loss": 0.987,
8065
+ "step": 1144
8066
+ },
8067
+ {
8068
+ "epoch": 0.1250631459661674,
8069
+ "grad_norm": 1.2062503099441528,
8070
+ "learning_rate": 0.0001991860092156534,
8071
+ "loss": 0.8526,
8072
+ "step": 1145
8073
+ },
8074
+ {
8075
+ "epoch": 0.1251723714211597,
8076
+ "grad_norm": 1.2922080755233765,
8077
+ "learning_rate": 0.00019918455047624847,
8078
+ "loss": 0.8382,
8079
+ "step": 1146
8080
+ },
8081
+ {
8082
+ "epoch": 0.12528159687615198,
8083
+ "grad_norm": 1.0248481035232544,
8084
+ "learning_rate": 0.0001991830904362732,
8085
+ "loss": 0.8086,
8086
+ "step": 1147
8087
+ },
8088
+ {
8089
+ "epoch": 0.12539082233114426,
8090
+ "grad_norm": 1.1466559171676636,
8091
+ "learning_rate": 0.00019918162909574676,
8092
+ "loss": 1.0704,
8093
+ "step": 1148
8094
+ },
8095
+ {
8096
+ "epoch": 0.12550004778613655,
8097
+ "grad_norm": 1.1013227701187134,
8098
+ "learning_rate": 0.00019918016645468828,
8099
+ "loss": 0.7709,
8100
+ "step": 1149
8101
+ },
8102
+ {
8103
+ "epoch": 0.12560927324112883,
8104
+ "grad_norm": 1.3349677324295044,
8105
+ "learning_rate": 0.0001991787025131169,
8106
+ "loss": 0.8724,
8107
+ "step": 1150
8108
+ },
8109
+ {
8110
+ "epoch": 0.12571849869612114,
8111
+ "grad_norm": 1.3502088785171509,
8112
+ "learning_rate": 0.0001991772372710519,
8113
+ "loss": 0.7469,
8114
+ "step": 1151
8115
+ },
8116
+ {
8117
+ "epoch": 0.12582772415111343,
8118
+ "grad_norm": 1.935926079750061,
8119
+ "learning_rate": 0.00019917577072851245,
8120
+ "loss": 0.6738,
8121
+ "step": 1152
8122
+ },
8123
+ {
8124
+ "epoch": 0.1259369496061057,
8125
+ "grad_norm": 1.0898360013961792,
8126
+ "learning_rate": 0.0001991743028855178,
8127
+ "loss": 0.9042,
8128
+ "step": 1153
8129
+ },
8130
+ {
8131
+ "epoch": 0.126046175061098,
8132
+ "grad_norm": 1.331155776977539,
8133
+ "learning_rate": 0.00019917283374208718,
8134
+ "loss": 0.7953,
8135
+ "step": 1154
8136
+ },
8137
+ {
8138
+ "epoch": 0.12615540051609028,
8139
+ "grad_norm": 1.3799457550048828,
8140
+ "learning_rate": 0.00019917136329823985,
8141
+ "loss": 0.8777,
8142
+ "step": 1155
8143
+ },
8144
+ {
8145
+ "epoch": 0.12626462597108257,
8146
+ "grad_norm": 1.4449254274368286,
8147
+ "learning_rate": 0.0001991698915539951,
8148
+ "loss": 0.762,
8149
+ "step": 1156
8150
+ },
8151
+ {
8152
+ "epoch": 0.12637385142607485,
8153
+ "grad_norm": 2.1223926544189453,
8154
+ "learning_rate": 0.00019916841850937223,
8155
+ "loss": 0.89,
8156
+ "step": 1157
8157
+ },
8158
+ {
8159
+ "epoch": 0.12648307688106714,
8160
+ "grad_norm": 2.0117380619049072,
8161
+ "learning_rate": 0.00019916694416439055,
8162
+ "loss": 0.9165,
8163
+ "step": 1158
8164
+ },
8165
+ {
8166
+ "epoch": 0.12659230233605942,
8167
+ "grad_norm": 1.5511128902435303,
8168
+ "learning_rate": 0.00019916546851906942,
8169
+ "loss": 0.7501,
8170
+ "step": 1159
8171
+ },
8172
+ {
8173
+ "epoch": 0.1267015277910517,
8174
+ "grad_norm": 1.7130296230316162,
8175
+ "learning_rate": 0.0001991639915734281,
8176
+ "loss": 0.7706,
8177
+ "step": 1160
8178
+ },
8179
+ {
8180
+ "epoch": 0.126810753246044,
8181
+ "grad_norm": 1.9127705097198486,
8182
+ "learning_rate": 0.0001991625133274861,
8183
+ "loss": 0.6702,
8184
+ "step": 1161
8185
+ },
8186
+ {
8187
+ "epoch": 0.12691997870103627,
8188
+ "grad_norm": 0.9722485542297363,
8189
+ "learning_rate": 0.0001991610337812627,
8190
+ "loss": 0.8523,
8191
+ "step": 1162
8192
+ },
8193
+ {
8194
+ "epoch": 0.12702920415602856,
8195
+ "grad_norm": 1.625596046447754,
8196
+ "learning_rate": 0.0001991595529347773,
8197
+ "loss": 0.8436,
8198
+ "step": 1163
8199
+ },
8200
+ {
8201
+ "epoch": 0.12713842961102084,
8202
+ "grad_norm": 0.9808928370475769,
8203
+ "learning_rate": 0.00019915807078804937,
8204
+ "loss": 1.0688,
8205
+ "step": 1164
8206
+ },
8207
+ {
8208
+ "epoch": 0.12724765506601313,
8209
+ "grad_norm": 1.1023699045181274,
8210
+ "learning_rate": 0.0001991565873410983,
8211
+ "loss": 0.5671,
8212
+ "step": 1165
8213
+ },
8214
+ {
8215
+ "epoch": 0.1273568805210054,
8216
+ "grad_norm": 1.5466971397399902,
8217
+ "learning_rate": 0.00019915510259394358,
8218
+ "loss": 0.873,
8219
+ "step": 1166
8220
+ },
8221
+ {
8222
+ "epoch": 0.1274661059759977,
8223
+ "grad_norm": 1.235567331314087,
8224
+ "learning_rate": 0.00019915361654660466,
8225
+ "loss": 0.4493,
8226
+ "step": 1167
8227
+ },
8228
+ {
8229
+ "epoch": 0.12757533143098998,
8230
+ "grad_norm": 1.0934616327285767,
8231
+ "learning_rate": 0.000199152129199101,
8232
+ "loss": 0.8694,
8233
+ "step": 1168
8234
+ },
8235
+ {
8236
+ "epoch": 0.12768455688598226,
8237
+ "grad_norm": 1.2065255641937256,
8238
+ "learning_rate": 0.00019915064055145217,
8239
+ "loss": 0.7965,
8240
+ "step": 1169
8241
+ },
8242
+ {
8243
+ "epoch": 0.12779378234097458,
8244
+ "grad_norm": 1.1741219758987427,
8245
+ "learning_rate": 0.00019914915060367764,
8246
+ "loss": 1.0232,
8247
+ "step": 1170
8248
+ },
8249
+ {
8250
+ "epoch": 0.12790300779596686,
8251
+ "grad_norm": 1.2858492136001587,
8252
+ "learning_rate": 0.00019914765935579695,
8253
+ "loss": 0.5655,
8254
+ "step": 1171
8255
+ },
8256
+ {
8257
+ "epoch": 0.12801223325095915,
8258
+ "grad_norm": 1.2976844310760498,
8259
+ "learning_rate": 0.00019914616680782965,
8260
+ "loss": 1.1432,
8261
+ "step": 1172
8262
+ },
8263
+ {
8264
+ "epoch": 0.12812145870595143,
8265
+ "grad_norm": 1.2354950904846191,
8266
+ "learning_rate": 0.00019914467295979534,
8267
+ "loss": 0.7539,
8268
+ "step": 1173
8269
+ },
8270
+ {
8271
+ "epoch": 0.12823068416094371,
8272
+ "grad_norm": 1.6397385597229004,
8273
+ "learning_rate": 0.00019914317781171356,
8274
+ "loss": 0.7583,
8275
+ "step": 1174
8276
+ },
8277
+ {
8278
+ "epoch": 0.128339909615936,
8279
+ "grad_norm": 1.0528595447540283,
8280
+ "learning_rate": 0.00019914168136360395,
8281
+ "loss": 0.7553,
8282
+ "step": 1175
8283
+ },
8284
+ {
8285
+ "epoch": 0.12844913507092828,
8286
+ "grad_norm": 1.6798441410064697,
8287
+ "learning_rate": 0.00019914018361548617,
8288
+ "loss": 0.782,
8289
+ "step": 1176
8290
+ },
8291
+ {
8292
+ "epoch": 0.12855836052592057,
8293
+ "grad_norm": 1.258589744567871,
8294
+ "learning_rate": 0.0001991386845673798,
8295
+ "loss": 0.6446,
8296
+ "step": 1177
8297
+ },
8298
+ {
8299
+ "epoch": 0.12866758598091285,
8300
+ "grad_norm": 1.3399349451065063,
8301
+ "learning_rate": 0.00019913718421930447,
8302
+ "loss": 0.6295,
8303
+ "step": 1178
8304
+ },
8305
+ {
8306
+ "epoch": 0.12877681143590514,
8307
+ "grad_norm": 1.269821286201477,
8308
+ "learning_rate": 0.00019913568257127996,
8309
+ "loss": 0.9165,
8310
+ "step": 1179
8311
+ },
8312
+ {
8313
+ "epoch": 0.12888603689089742,
8314
+ "grad_norm": 1.0398304462432861,
8315
+ "learning_rate": 0.00019913417962332585,
8316
+ "loss": 0.7205,
8317
+ "step": 1180
8318
+ },
8319
+ {
8320
+ "epoch": 0.1289952623458897,
8321
+ "grad_norm": 1.5040866136550903,
8322
+ "learning_rate": 0.0001991326753754619,
8323
+ "loss": 0.7214,
8324
+ "step": 1181
8325
+ },
8326
+ {
8327
+ "epoch": 0.129104487800882,
8328
+ "grad_norm": 1.4522327184677124,
8329
+ "learning_rate": 0.00019913116982770785,
8330
+ "loss": 0.7847,
8331
+ "step": 1182
8332
+ },
8333
+ {
8334
+ "epoch": 0.12921371325587427,
8335
+ "grad_norm": 1.994592308998108,
8336
+ "learning_rate": 0.00019912966298008344,
8337
+ "loss": 0.8897,
8338
+ "step": 1183
8339
+ },
8340
+ {
8341
+ "epoch": 0.12932293871086656,
8342
+ "grad_norm": 1.1971591711044312,
8343
+ "learning_rate": 0.00019912815483260837,
8344
+ "loss": 0.758,
8345
+ "step": 1184
8346
+ },
8347
+ {
8348
+ "epoch": 0.12943216416585884,
8349
+ "grad_norm": 1.4321714639663696,
8350
+ "learning_rate": 0.00019912664538530248,
8351
+ "loss": 0.8213,
8352
+ "step": 1185
8353
+ },
8354
+ {
8355
+ "epoch": 0.12954138962085113,
8356
+ "grad_norm": 1.096415400505066,
8357
+ "learning_rate": 0.00019912513463818553,
8358
+ "loss": 0.917,
8359
+ "step": 1186
8360
+ },
8361
+ {
8362
+ "epoch": 0.1296506150758434,
8363
+ "grad_norm": 1.1453442573547363,
8364
+ "learning_rate": 0.00019912362259127733,
8365
+ "loss": 1.0078,
8366
+ "step": 1187
8367
+ },
8368
+ {
8369
+ "epoch": 0.12975984053083572,
8370
+ "grad_norm": 1.2599525451660156,
8371
+ "learning_rate": 0.00019912210924459772,
8372
+ "loss": 1.135,
8373
+ "step": 1188
8374
+ },
8375
+ {
8376
+ "epoch": 0.129869065985828,
8377
+ "grad_norm": 1.5952235460281372,
8378
+ "learning_rate": 0.00019912059459816655,
8379
+ "loss": 1.0051,
8380
+ "step": 1189
8381
+ },
8382
+ {
8383
+ "epoch": 0.1299782914408203,
8384
+ "grad_norm": 1.5863276720046997,
8385
+ "learning_rate": 0.00019911907865200368,
8386
+ "loss": 0.9173,
8387
+ "step": 1190
8388
+ },
8389
+ {
8390
+ "epoch": 0.13008751689581258,
8391
+ "grad_norm": 1.192514419555664,
8392
+ "learning_rate": 0.00019911756140612895,
8393
+ "loss": 1.1793,
8394
+ "step": 1191
8395
+ },
8396
+ {
8397
+ "epoch": 0.13019674235080486,
8398
+ "grad_norm": 1.3725534677505493,
8399
+ "learning_rate": 0.0001991160428605623,
8400
+ "loss": 0.6035,
8401
+ "step": 1192
8402
+ },
8403
+ {
8404
+ "epoch": 0.13030596780579715,
8405
+ "grad_norm": 1.4018157720565796,
8406
+ "learning_rate": 0.00019911452301532364,
8407
+ "loss": 0.5395,
8408
+ "step": 1193
8409
+ },
8410
+ {
8411
+ "epoch": 0.13041519326078943,
8412
+ "grad_norm": 1.6074763536453247,
8413
+ "learning_rate": 0.00019911300187043285,
8414
+ "loss": 0.7839,
8415
+ "step": 1194
8416
+ },
8417
+ {
8418
+ "epoch": 0.13052441871578171,
8419
+ "grad_norm": 1.3953901529312134,
8420
+ "learning_rate": 0.00019911147942590994,
8421
+ "loss": 0.5896,
8422
+ "step": 1195
8423
+ },
8424
+ {
8425
+ "epoch": 0.130633644170774,
8426
+ "grad_norm": 1.767909049987793,
8427
+ "learning_rate": 0.00019910995568177484,
8428
+ "loss": 0.7127,
8429
+ "step": 1196
8430
+ },
8431
+ {
8432
+ "epoch": 0.13074286962576628,
8433
+ "grad_norm": 2.1226041316986084,
8434
+ "learning_rate": 0.00019910843063804753,
8435
+ "loss": 0.7028,
8436
+ "step": 1197
8437
+ },
8438
+ {
8439
+ "epoch": 0.13085209508075857,
8440
+ "grad_norm": 1.4294666051864624,
8441
+ "learning_rate": 0.000199106904294748,
8442
+ "loss": 0.8648,
8443
+ "step": 1198
8444
+ },
8445
+ {
8446
+ "epoch": 0.13096132053575085,
8447
+ "grad_norm": 1.0620681047439575,
8448
+ "learning_rate": 0.0001991053766518963,
8449
+ "loss": 0.7604,
8450
+ "step": 1199
8451
+ },
8452
+ {
8453
+ "epoch": 0.13107054599074314,
8454
+ "grad_norm": 1.41582453250885,
8455
+ "learning_rate": 0.00019910384770951243,
8456
+ "loss": 0.9233,
8457
+ "step": 1200
8458
+ },
8459
+ {
8460
+ "epoch": 0.13107054599074314,
8461
+ "eval_loss": 0.7380471229553223,
8462
+ "eval_runtime": 72.7237,
8463
+ "eval_samples_per_second": 10.134,
8464
+ "eval_steps_per_second": 5.074,
8465
+ "step": 1200
8466
  }
8467
  ],
8468
  "logging_steps": 1,
 
8477
  "early_stopping_threshold": 0.0
8478
  },
8479
  "attributes": {
8480
+ "early_stopping_patience_counter": 3
8481
  }
8482
  },
8483
  "TrainerControl": {
 
8486
  "should_evaluate": false,
8487
  "should_log": false,
8488
  "should_save": true,
8489
+ "should_training_stop": true
8490
  },
8491
  "attributes": {}
8492
  }
8493
  },
8494
+ "total_flos": 1.716967696194601e+17,
8495
  "train_batch_size": 2,
8496
  "trial_name": null,
8497
  "trial_params": null