error577 commited on
Commit
b216d09
·
verified ·
1 Parent(s): 986657a

Training in progress, step 1200, checkpoint

Browse files
last-checkpoint/adapter_model.safetensors CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:1e4fa797141091296697bfc1bdc115cc2799ee4a9c05389d10639e0d4eddf51d
3
  size 335604696
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:43dc3e67c4dd1820bbd2270c7e0b12353f9c7369b0bcf3fad771b83ac8447e3d
3
  size 335604696
last-checkpoint/optimizer.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:760dc9fef2871f0c87ad3dfd3ba0517baba7d297d5fbab7679b56f239c3e3d8c
3
  size 170920532
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:a98ec5d1c2471dadc6ffbe5e4f0ddc0eccb1bf4306b2e42107164b9ba171922c
3
  size 170920532
last-checkpoint/rng_state.pth CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:d43ccdb62487cb074bcb64d07dc1d91ece31c7dfc4d2db6d3414aec06c1153b7
3
  size 14244
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:140ab48bfe96a1d0da1e6c5c3b63214bcd35f3a91e2df3df83ed97a96aa7a467
3
  size 14244
last-checkpoint/scheduler.pt CHANGED
@@ -1,3 +1,3 @@
1
  version https://git-lfs.github.com/spec/v1
2
- oid sha256:f01ea6511f4181b900b6f374c17c20d6aca227ddf08415a65c8e8cedc1e2682b
3
  size 1064
 
1
  version https://git-lfs.github.com/spec/v1
2
+ oid sha256:040ca33075c084cc6ee3696af40933b3a026e71b68847c6f3c2869db1e7ef945
3
  size 1064
last-checkpoint/trainer_state.json CHANGED
@@ -1,9 +1,9 @@
1
  {
2
  "best_metric": 0.9684450030326843,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
- "epoch": 0.15402387370042356,
5
  "eval_steps": 200,
6
- "global_step": 1000,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
@@ -7055,6 +7055,1414 @@
7055
  "eval_samples_per_second": 6.453,
7056
  "eval_steps_per_second": 3.239,
7057
  "step": 1000
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
7058
  }
7059
  ],
7060
  "logging_steps": 1,
@@ -7069,7 +8477,7 @@
7069
  "early_stopping_threshold": 0.0
7070
  },
7071
  "attributes": {
7072
- "early_stopping_patience_counter": 2
7073
  }
7074
  },
7075
  "TrainerControl": {
@@ -7078,12 +8486,12 @@
7078
  "should_evaluate": false,
7079
  "should_log": false,
7080
  "should_save": true,
7081
- "should_training_stop": false
7082
  },
7083
  "attributes": {}
7084
  }
7085
  },
7086
- "total_flos": 1.4560580866985165e+17,
7087
  "train_batch_size": 2,
7088
  "trial_name": null,
7089
  "trial_params": null
 
1
  {
2
  "best_metric": 0.9684450030326843,
3
  "best_model_checkpoint": "miner_id_24/checkpoint-600",
4
+ "epoch": 0.18482864844050828,
5
  "eval_steps": 200,
6
+ "global_step": 1200,
7
  "is_hyper_param_search": false,
8
  "is_local_process_zero": true,
9
  "is_world_process_zero": true,
 
7055
  "eval_samples_per_second": 6.453,
7056
  "eval_steps_per_second": 3.239,
7057
  "step": 1000
7058
+ },
7059
+ {
7060
+ "epoch": 0.15417789757412398,
7061
+ "grad_norm": 13.766051292419434,
7062
+ "learning_rate": 0.00019877211733515348,
7063
+ "loss": 4.6898,
7064
+ "step": 1001
7065
+ },
7066
+ {
7067
+ "epoch": 0.1543319214478244,
7068
+ "grad_norm": 11.941194534301758,
7069
+ "learning_rate": 0.00019876959212519163,
7070
+ "loss": 4.276,
7071
+ "step": 1002
7072
+ },
7073
+ {
7074
+ "epoch": 0.15448594532152485,
7075
+ "grad_norm": 14.202241897583008,
7076
+ "learning_rate": 0.00019876706433735134,
7077
+ "loss": 3.6016,
7078
+ "step": 1003
7079
+ },
7080
+ {
7081
+ "epoch": 0.15463996919522527,
7082
+ "grad_norm": 15.519389152526855,
7083
+ "learning_rate": 0.0001987645339716985,
7084
+ "loss": 4.9497,
7085
+ "step": 1004
7086
+ },
7087
+ {
7088
+ "epoch": 0.1547939930689257,
7089
+ "grad_norm": 16.54033660888672,
7090
+ "learning_rate": 0.0001987620010282992,
7091
+ "loss": 3.3404,
7092
+ "step": 1005
7093
+ },
7094
+ {
7095
+ "epoch": 0.1549480169426261,
7096
+ "grad_norm": 10.095898628234863,
7097
+ "learning_rate": 0.00019875946550721954,
7098
+ "loss": 3.3351,
7099
+ "step": 1006
7100
+ },
7101
+ {
7102
+ "epoch": 0.15510204081632653,
7103
+ "grad_norm": 14.892594337463379,
7104
+ "learning_rate": 0.0001987569274085257,
7105
+ "loss": 3.2248,
7106
+ "step": 1007
7107
+ },
7108
+ {
7109
+ "epoch": 0.15525606469002695,
7110
+ "grad_norm": 19.26637840270996,
7111
+ "learning_rate": 0.00019875438673228393,
7112
+ "loss": 4.6162,
7113
+ "step": 1008
7114
+ },
7115
+ {
7116
+ "epoch": 0.15541008856372737,
7117
+ "grad_norm": 13.137590408325195,
7118
+ "learning_rate": 0.00019875184347856054,
7119
+ "loss": 3.9372,
7120
+ "step": 1009
7121
+ },
7122
+ {
7123
+ "epoch": 0.1555641124374278,
7124
+ "grad_norm": 14.01908016204834,
7125
+ "learning_rate": 0.0001987492976474219,
7126
+ "loss": 4.2331,
7127
+ "step": 1010
7128
+ },
7129
+ {
7130
+ "epoch": 0.1557181363111282,
7131
+ "grad_norm": 12.255888938903809,
7132
+ "learning_rate": 0.00019874674923893443,
7133
+ "loss": 4.0807,
7134
+ "step": 1011
7135
+ },
7136
+ {
7137
+ "epoch": 0.15587216018482866,
7138
+ "grad_norm": 13.065942764282227,
7139
+ "learning_rate": 0.0001987441982531647,
7140
+ "loss": 4.3647,
7141
+ "step": 1012
7142
+ },
7143
+ {
7144
+ "epoch": 0.15602618405852908,
7145
+ "grad_norm": 9.445647239685059,
7146
+ "learning_rate": 0.00019874164469017925,
7147
+ "loss": 3.397,
7148
+ "step": 1013
7149
+ },
7150
+ {
7151
+ "epoch": 0.1561802079322295,
7152
+ "grad_norm": 17.212614059448242,
7153
+ "learning_rate": 0.00019873908855004476,
7154
+ "loss": 4.5294,
7155
+ "step": 1014
7156
+ },
7157
+ {
7158
+ "epoch": 0.15633423180592992,
7159
+ "grad_norm": 12.967076301574707,
7160
+ "learning_rate": 0.00019873652983282792,
7161
+ "loss": 4.6614,
7162
+ "step": 1015
7163
+ },
7164
+ {
7165
+ "epoch": 0.15648825567963034,
7166
+ "grad_norm": 12.160512924194336,
7167
+ "learning_rate": 0.00019873396853859553,
7168
+ "loss": 3.7298,
7169
+ "step": 1016
7170
+ },
7171
+ {
7172
+ "epoch": 0.15664227955333077,
7173
+ "grad_norm": 10.568840980529785,
7174
+ "learning_rate": 0.00019873140466741438,
7175
+ "loss": 4.1098,
7176
+ "step": 1017
7177
+ },
7178
+ {
7179
+ "epoch": 0.1567963034270312,
7180
+ "grad_norm": 10.045523643493652,
7181
+ "learning_rate": 0.00019872883821935147,
7182
+ "loss": 3.9284,
7183
+ "step": 1018
7184
+ },
7185
+ {
7186
+ "epoch": 0.1569503273007316,
7187
+ "grad_norm": 12.165972709655762,
7188
+ "learning_rate": 0.00019872626919447374,
7189
+ "loss": 3.5241,
7190
+ "step": 1019
7191
+ },
7192
+ {
7193
+ "epoch": 0.15710435117443203,
7194
+ "grad_norm": 13.945481300354004,
7195
+ "learning_rate": 0.00019872369759284827,
7196
+ "loss": 4.4213,
7197
+ "step": 1020
7198
+ },
7199
+ {
7200
+ "epoch": 0.15725837504813245,
7201
+ "grad_norm": 14.0652437210083,
7202
+ "learning_rate": 0.00019872112341454213,
7203
+ "loss": 4.4031,
7204
+ "step": 1021
7205
+ },
7206
+ {
7207
+ "epoch": 0.1574123989218329,
7208
+ "grad_norm": 11.660938262939453,
7209
+ "learning_rate": 0.00019871854665962256,
7210
+ "loss": 3.1114,
7211
+ "step": 1022
7212
+ },
7213
+ {
7214
+ "epoch": 0.15756642279553332,
7215
+ "grad_norm": 11.772308349609375,
7216
+ "learning_rate": 0.00019871596732815675,
7217
+ "loss": 4.7416,
7218
+ "step": 1023
7219
+ },
7220
+ {
7221
+ "epoch": 0.15772044666923374,
7222
+ "grad_norm": 10.968940734863281,
7223
+ "learning_rate": 0.0001987133854202121,
7224
+ "loss": 2.9122,
7225
+ "step": 1024
7226
+ },
7227
+ {
7228
+ "epoch": 0.15787447054293416,
7229
+ "grad_norm": 11.12600326538086,
7230
+ "learning_rate": 0.00019871080093585594,
7231
+ "loss": 3.5455,
7232
+ "step": 1025
7233
+ },
7234
+ {
7235
+ "epoch": 0.15802849441663458,
7236
+ "grad_norm": 9.834585189819336,
7237
+ "learning_rate": 0.00019870821387515573,
7238
+ "loss": 3.1168,
7239
+ "step": 1026
7240
+ },
7241
+ {
7242
+ "epoch": 0.158182518290335,
7243
+ "grad_norm": 15.116072654724121,
7244
+ "learning_rate": 0.000198705624238179,
7245
+ "loss": 4.0013,
7246
+ "step": 1027
7247
+ },
7248
+ {
7249
+ "epoch": 0.15833654216403542,
7250
+ "grad_norm": 10.250100135803223,
7251
+ "learning_rate": 0.00019870303202499336,
7252
+ "loss": 3.0386,
7253
+ "step": 1028
7254
+ },
7255
+ {
7256
+ "epoch": 0.15849056603773584,
7257
+ "grad_norm": 13.875730514526367,
7258
+ "learning_rate": 0.00019870043723566646,
7259
+ "loss": 4.0619,
7260
+ "step": 1029
7261
+ },
7262
+ {
7263
+ "epoch": 0.15864458991143626,
7264
+ "grad_norm": 10.340214729309082,
7265
+ "learning_rate": 0.00019869783987026596,
7266
+ "loss": 3.6729,
7267
+ "step": 1030
7268
+ },
7269
+ {
7270
+ "epoch": 0.15879861378513668,
7271
+ "grad_norm": 11.000602722167969,
7272
+ "learning_rate": 0.00019869523992885975,
7273
+ "loss": 3.91,
7274
+ "step": 1031
7275
+ },
7276
+ {
7277
+ "epoch": 0.15895263765883713,
7278
+ "grad_norm": 11.994555473327637,
7279
+ "learning_rate": 0.0001986926374115156,
7280
+ "loss": 4.1724,
7281
+ "step": 1032
7282
+ },
7283
+ {
7284
+ "epoch": 0.15910666153253755,
7285
+ "grad_norm": 12.995914459228516,
7286
+ "learning_rate": 0.0001986900323183015,
7287
+ "loss": 3.8724,
7288
+ "step": 1033
7289
+ },
7290
+ {
7291
+ "epoch": 0.15926068540623797,
7292
+ "grad_norm": 10.791321754455566,
7293
+ "learning_rate": 0.00019868742464928542,
7294
+ "loss": 3.7237,
7295
+ "step": 1034
7296
+ },
7297
+ {
7298
+ "epoch": 0.1594147092799384,
7299
+ "grad_norm": 9.404729843139648,
7300
+ "learning_rate": 0.00019868481440453542,
7301
+ "loss": 4.1626,
7302
+ "step": 1035
7303
+ },
7304
+ {
7305
+ "epoch": 0.15956873315363881,
7306
+ "grad_norm": 13.564080238342285,
7307
+ "learning_rate": 0.00019868220158411964,
7308
+ "loss": 5.0002,
7309
+ "step": 1036
7310
+ },
7311
+ {
7312
+ "epoch": 0.15972275702733923,
7313
+ "grad_norm": 11.500726699829102,
7314
+ "learning_rate": 0.00019867958618810625,
7315
+ "loss": 4.0815,
7316
+ "step": 1037
7317
+ },
7318
+ {
7319
+ "epoch": 0.15987678090103966,
7320
+ "grad_norm": 12.543424606323242,
7321
+ "learning_rate": 0.0001986769682165635,
7322
+ "loss": 3.9962,
7323
+ "step": 1038
7324
+ },
7325
+ {
7326
+ "epoch": 0.16003080477474008,
7327
+ "grad_norm": 14.21129035949707,
7328
+ "learning_rate": 0.00019867434766955976,
7329
+ "loss": 4.1891,
7330
+ "step": 1039
7331
+ },
7332
+ {
7333
+ "epoch": 0.1601848286484405,
7334
+ "grad_norm": 12.011770248413086,
7335
+ "learning_rate": 0.00019867172454716343,
7336
+ "loss": 3.8437,
7337
+ "step": 1040
7338
+ },
7339
+ {
7340
+ "epoch": 0.16033885252214095,
7341
+ "grad_norm": 9.131732940673828,
7342
+ "learning_rate": 0.0001986690988494429,
7343
+ "loss": 2.8849,
7344
+ "step": 1041
7345
+ },
7346
+ {
7347
+ "epoch": 0.16049287639584137,
7348
+ "grad_norm": 11.264022827148438,
7349
+ "learning_rate": 0.0001986664705764668,
7350
+ "loss": 3.5034,
7351
+ "step": 1042
7352
+ },
7353
+ {
7354
+ "epoch": 0.1606469002695418,
7355
+ "grad_norm": 10.755845069885254,
7356
+ "learning_rate": 0.00019866383972830365,
7357
+ "loss": 3.9478,
7358
+ "step": 1043
7359
+ },
7360
+ {
7361
+ "epoch": 0.1608009241432422,
7362
+ "grad_norm": 11.155594825744629,
7363
+ "learning_rate": 0.00019866120630502215,
7364
+ "loss": 3.8415,
7365
+ "step": 1044
7366
+ },
7367
+ {
7368
+ "epoch": 0.16095494801694263,
7369
+ "grad_norm": 11.492998123168945,
7370
+ "learning_rate": 0.00019865857030669103,
7371
+ "loss": 3.6514,
7372
+ "step": 1045
7373
+ },
7374
+ {
7375
+ "epoch": 0.16110897189064305,
7376
+ "grad_norm": 12.405851364135742,
7377
+ "learning_rate": 0.00019865593173337912,
7378
+ "loss": 4.4151,
7379
+ "step": 1046
7380
+ },
7381
+ {
7382
+ "epoch": 0.16126299576434347,
7383
+ "grad_norm": 14.843172073364258,
7384
+ "learning_rate": 0.0001986532905851552,
7385
+ "loss": 4.0748,
7386
+ "step": 1047
7387
+ },
7388
+ {
7389
+ "epoch": 0.1614170196380439,
7390
+ "grad_norm": 13.064985275268555,
7391
+ "learning_rate": 0.00019865064686208826,
7392
+ "loss": 3.959,
7393
+ "step": 1048
7394
+ },
7395
+ {
7396
+ "epoch": 0.1615710435117443,
7397
+ "grad_norm": 10.112977027893066,
7398
+ "learning_rate": 0.0001986480005642473,
7399
+ "loss": 4.4101,
7400
+ "step": 1049
7401
+ },
7402
+ {
7403
+ "epoch": 0.16172506738544473,
7404
+ "grad_norm": 13.397727012634277,
7405
+ "learning_rate": 0.00019864535169170143,
7406
+ "loss": 4.5429,
7407
+ "step": 1050
7408
+ },
7409
+ {
7410
+ "epoch": 0.16187909125914518,
7411
+ "grad_norm": 11.528743743896484,
7412
+ "learning_rate": 0.00019864270024451966,
7413
+ "loss": 4.748,
7414
+ "step": 1051
7415
+ },
7416
+ {
7417
+ "epoch": 0.1620331151328456,
7418
+ "grad_norm": 11.48531436920166,
7419
+ "learning_rate": 0.00019864004622277133,
7420
+ "loss": 4.2897,
7421
+ "step": 1052
7422
+ },
7423
+ {
7424
+ "epoch": 0.16218713900654602,
7425
+ "grad_norm": 9.885492324829102,
7426
+ "learning_rate": 0.00019863738962652564,
7427
+ "loss": 3.9293,
7428
+ "step": 1053
7429
+ },
7430
+ {
7431
+ "epoch": 0.16234116288024644,
7432
+ "grad_norm": 11.141953468322754,
7433
+ "learning_rate": 0.00019863473045585194,
7434
+ "loss": 3.8289,
7435
+ "step": 1054
7436
+ },
7437
+ {
7438
+ "epoch": 0.16249518675394686,
7439
+ "grad_norm": 12.676016807556152,
7440
+ "learning_rate": 0.00019863206871081963,
7441
+ "loss": 4.2164,
7442
+ "step": 1055
7443
+ },
7444
+ {
7445
+ "epoch": 0.16264921062764728,
7446
+ "grad_norm": 11.620012283325195,
7447
+ "learning_rate": 0.0001986294043914982,
7448
+ "loss": 3.8046,
7449
+ "step": 1056
7450
+ },
7451
+ {
7452
+ "epoch": 0.1628032345013477,
7453
+ "grad_norm": 15.559549331665039,
7454
+ "learning_rate": 0.00019862673749795716,
7455
+ "loss": 3.3443,
7456
+ "step": 1057
7457
+ },
7458
+ {
7459
+ "epoch": 0.16295725837504813,
7460
+ "grad_norm": 10.871837615966797,
7461
+ "learning_rate": 0.00019862406803026613,
7462
+ "loss": 4.1935,
7463
+ "step": 1058
7464
+ },
7465
+ {
7466
+ "epoch": 0.16311128224874855,
7467
+ "grad_norm": 11.921292304992676,
7468
+ "learning_rate": 0.0001986213959884948,
7469
+ "loss": 4.2124,
7470
+ "step": 1059
7471
+ },
7472
+ {
7473
+ "epoch": 0.16326530612244897,
7474
+ "grad_norm": 15.105125427246094,
7475
+ "learning_rate": 0.00019861872137271285,
7476
+ "loss": 4.2305,
7477
+ "step": 1060
7478
+ },
7479
+ {
7480
+ "epoch": 0.16341932999614942,
7481
+ "grad_norm": 17.650894165039062,
7482
+ "learning_rate": 0.00019861604418299015,
7483
+ "loss": 3.8902,
7484
+ "step": 1061
7485
+ },
7486
+ {
7487
+ "epoch": 0.16357335386984984,
7488
+ "grad_norm": 10.674752235412598,
7489
+ "learning_rate": 0.00019861336441939656,
7490
+ "loss": 4.66,
7491
+ "step": 1062
7492
+ },
7493
+ {
7494
+ "epoch": 0.16372737774355026,
7495
+ "grad_norm": 12.202083587646484,
7496
+ "learning_rate": 0.000198610682082002,
7497
+ "loss": 4.3085,
7498
+ "step": 1063
7499
+ },
7500
+ {
7501
+ "epoch": 0.16388140161725068,
7502
+ "grad_norm": 12.168536186218262,
7503
+ "learning_rate": 0.00019860799717087653,
7504
+ "loss": 3.9641,
7505
+ "step": 1064
7506
+ },
7507
+ {
7508
+ "epoch": 0.1640354254909511,
7509
+ "grad_norm": 13.570276260375977,
7510
+ "learning_rate": 0.00019860530968609017,
7511
+ "loss": 4.1331,
7512
+ "step": 1065
7513
+ },
7514
+ {
7515
+ "epoch": 0.16418944936465152,
7516
+ "grad_norm": 14.154974937438965,
7517
+ "learning_rate": 0.00019860261962771305,
7518
+ "loss": 4.6501,
7519
+ "step": 1066
7520
+ },
7521
+ {
7522
+ "epoch": 0.16434347323835194,
7523
+ "grad_norm": 10.965476989746094,
7524
+ "learning_rate": 0.00019859992699581546,
7525
+ "loss": 4.6674,
7526
+ "step": 1067
7527
+ },
7528
+ {
7529
+ "epoch": 0.16449749711205236,
7530
+ "grad_norm": 10.643817901611328,
7531
+ "learning_rate": 0.0001985972317904676,
7532
+ "loss": 4.053,
7533
+ "step": 1068
7534
+ },
7535
+ {
7536
+ "epoch": 0.16465152098575278,
7537
+ "grad_norm": 13.31205940246582,
7538
+ "learning_rate": 0.00019859453401173987,
7539
+ "loss": 3.4928,
7540
+ "step": 1069
7541
+ },
7542
+ {
7543
+ "epoch": 0.16480554485945323,
7544
+ "grad_norm": 12.753203392028809,
7545
+ "learning_rate": 0.00019859183365970265,
7546
+ "loss": 4.4367,
7547
+ "step": 1070
7548
+ },
7549
+ {
7550
+ "epoch": 0.16495956873315365,
7551
+ "grad_norm": 12.968934059143066,
7552
+ "learning_rate": 0.00019858913073442645,
7553
+ "loss": 3.9816,
7554
+ "step": 1071
7555
+ },
7556
+ {
7557
+ "epoch": 0.16511359260685407,
7558
+ "grad_norm": 10.421770095825195,
7559
+ "learning_rate": 0.00019858642523598173,
7560
+ "loss": 3.779,
7561
+ "step": 1072
7562
+ },
7563
+ {
7564
+ "epoch": 0.1652676164805545,
7565
+ "grad_norm": 12.015799522399902,
7566
+ "learning_rate": 0.00019858371716443922,
7567
+ "loss": 2.9187,
7568
+ "step": 1073
7569
+ },
7570
+ {
7571
+ "epoch": 0.1654216403542549,
7572
+ "grad_norm": 12.27148723602295,
7573
+ "learning_rate": 0.00019858100651986953,
7574
+ "loss": 4.164,
7575
+ "step": 1074
7576
+ },
7577
+ {
7578
+ "epoch": 0.16557566422795533,
7579
+ "grad_norm": 12.459403038024902,
7580
+ "learning_rate": 0.0001985782933023434,
7581
+ "loss": 3.5718,
7582
+ "step": 1075
7583
+ },
7584
+ {
7585
+ "epoch": 0.16572968810165575,
7586
+ "grad_norm": 14.004292488098145,
7587
+ "learning_rate": 0.0001985755775119317,
7588
+ "loss": 4.3172,
7589
+ "step": 1076
7590
+ },
7591
+ {
7592
+ "epoch": 0.16588371197535617,
7593
+ "grad_norm": 9.558106422424316,
7594
+ "learning_rate": 0.0001985728591487053,
7595
+ "loss": 3.3111,
7596
+ "step": 1077
7597
+ },
7598
+ {
7599
+ "epoch": 0.1660377358490566,
7600
+ "grad_norm": 12.947151184082031,
7601
+ "learning_rate": 0.00019857013821273508,
7602
+ "loss": 3.8423,
7603
+ "step": 1078
7604
+ },
7605
+ {
7606
+ "epoch": 0.16619175972275702,
7607
+ "grad_norm": 10.47056770324707,
7608
+ "learning_rate": 0.00019856741470409214,
7609
+ "loss": 3.513,
7610
+ "step": 1079
7611
+ },
7612
+ {
7613
+ "epoch": 0.16634578359645746,
7614
+ "grad_norm": 12.660852432250977,
7615
+ "learning_rate": 0.00019856468862284752,
7616
+ "loss": 3.8525,
7617
+ "step": 1080
7618
+ },
7619
+ {
7620
+ "epoch": 0.16649980747015788,
7621
+ "grad_norm": 13.666932106018066,
7622
+ "learning_rate": 0.00019856195996907237,
7623
+ "loss": 4.3106,
7624
+ "step": 1081
7625
+ },
7626
+ {
7627
+ "epoch": 0.1666538313438583,
7628
+ "grad_norm": 14.849276542663574,
7629
+ "learning_rate": 0.00019855922874283794,
7630
+ "loss": 3.5716,
7631
+ "step": 1082
7632
+ },
7633
+ {
7634
+ "epoch": 0.16680785521755873,
7635
+ "grad_norm": 10.565242767333984,
7636
+ "learning_rate": 0.00019855649494421548,
7637
+ "loss": 3.5383,
7638
+ "step": 1083
7639
+ },
7640
+ {
7641
+ "epoch": 0.16696187909125915,
7642
+ "grad_norm": 12.083426475524902,
7643
+ "learning_rate": 0.00019855375857327637,
7644
+ "loss": 4.0519,
7645
+ "step": 1084
7646
+ },
7647
+ {
7648
+ "epoch": 0.16711590296495957,
7649
+ "grad_norm": 8.973551750183105,
7650
+ "learning_rate": 0.00019855101963009198,
7651
+ "loss": 3.2653,
7652
+ "step": 1085
7653
+ },
7654
+ {
7655
+ "epoch": 0.16726992683866,
7656
+ "grad_norm": 12.055974960327148,
7657
+ "learning_rate": 0.00019854827811473382,
7658
+ "loss": 4.0457,
7659
+ "step": 1086
7660
+ },
7661
+ {
7662
+ "epoch": 0.1674239507123604,
7663
+ "grad_norm": 10.313488960266113,
7664
+ "learning_rate": 0.0001985455340272735,
7665
+ "loss": 3.2663,
7666
+ "step": 1087
7667
+ },
7668
+ {
7669
+ "epoch": 0.16757797458606083,
7670
+ "grad_norm": 11.116025924682617,
7671
+ "learning_rate": 0.00019854278736778258,
7672
+ "loss": 3.4076,
7673
+ "step": 1088
7674
+ },
7675
+ {
7676
+ "epoch": 0.16773199845976125,
7677
+ "grad_norm": 13.926247596740723,
7678
+ "learning_rate": 0.00019854003813633275,
7679
+ "loss": 3.4324,
7680
+ "step": 1089
7681
+ },
7682
+ {
7683
+ "epoch": 0.1678860223334617,
7684
+ "grad_norm": 11.820225715637207,
7685
+ "learning_rate": 0.00019853728633299577,
7686
+ "loss": 3.3995,
7687
+ "step": 1090
7688
+ },
7689
+ {
7690
+ "epoch": 0.16804004620716212,
7691
+ "grad_norm": 10.893301010131836,
7692
+ "learning_rate": 0.00019853453195784346,
7693
+ "loss": 2.9227,
7694
+ "step": 1091
7695
+ },
7696
+ {
7697
+ "epoch": 0.16819407008086254,
7698
+ "grad_norm": 20.633623123168945,
7699
+ "learning_rate": 0.00019853177501094775,
7700
+ "loss": 3.9035,
7701
+ "step": 1092
7702
+ },
7703
+ {
7704
+ "epoch": 0.16834809395456296,
7705
+ "grad_norm": 13.161808013916016,
7706
+ "learning_rate": 0.00019852901549238054,
7707
+ "loss": 4.2875,
7708
+ "step": 1093
7709
+ },
7710
+ {
7711
+ "epoch": 0.16850211782826338,
7712
+ "grad_norm": 13.590312004089355,
7713
+ "learning_rate": 0.00019852625340221387,
7714
+ "loss": 3.5538,
7715
+ "step": 1094
7716
+ },
7717
+ {
7718
+ "epoch": 0.1686561417019638,
7719
+ "grad_norm": 14.807574272155762,
7720
+ "learning_rate": 0.00019852348874051985,
7721
+ "loss": 4.1179,
7722
+ "step": 1095
7723
+ },
7724
+ {
7725
+ "epoch": 0.16881016557566422,
7726
+ "grad_norm": 11.80431079864502,
7727
+ "learning_rate": 0.00019852072150737063,
7728
+ "loss": 4.2079,
7729
+ "step": 1096
7730
+ },
7731
+ {
7732
+ "epoch": 0.16896418944936464,
7733
+ "grad_norm": 13.151602745056152,
7734
+ "learning_rate": 0.00019851795170283841,
7735
+ "loss": 3.6325,
7736
+ "step": 1097
7737
+ },
7738
+ {
7739
+ "epoch": 0.16911821332306506,
7740
+ "grad_norm": 12.30171012878418,
7741
+ "learning_rate": 0.0001985151793269955,
7742
+ "loss": 3.3386,
7743
+ "step": 1098
7744
+ },
7745
+ {
7746
+ "epoch": 0.16927223719676548,
7747
+ "grad_norm": 12.336485862731934,
7748
+ "learning_rate": 0.00019851240437991426,
7749
+ "loss": 3.0809,
7750
+ "step": 1099
7751
+ },
7752
+ {
7753
+ "epoch": 0.16942626107046593,
7754
+ "grad_norm": 11.41134262084961,
7755
+ "learning_rate": 0.00019850962686166713,
7756
+ "loss": 3.272,
7757
+ "step": 1100
7758
+ },
7759
+ {
7760
+ "epoch": 0.16958028494416635,
7761
+ "grad_norm": 10.431635856628418,
7762
+ "learning_rate": 0.0001985068467723266,
7763
+ "loss": 3.7402,
7764
+ "step": 1101
7765
+ },
7766
+ {
7767
+ "epoch": 0.16973430881786677,
7768
+ "grad_norm": 13.894745826721191,
7769
+ "learning_rate": 0.00019850406411196518,
7770
+ "loss": 4.3794,
7771
+ "step": 1102
7772
+ },
7773
+ {
7774
+ "epoch": 0.1698883326915672,
7775
+ "grad_norm": 12.396195411682129,
7776
+ "learning_rate": 0.00019850127888065554,
7777
+ "loss": 4.2671,
7778
+ "step": 1103
7779
+ },
7780
+ {
7781
+ "epoch": 0.17004235656526762,
7782
+ "grad_norm": 11.540474891662598,
7783
+ "learning_rate": 0.0001984984910784704,
7784
+ "loss": 3.9258,
7785
+ "step": 1104
7786
+ },
7787
+ {
7788
+ "epoch": 0.17019638043896804,
7789
+ "grad_norm": 9.679957389831543,
7790
+ "learning_rate": 0.00019849570070548244,
7791
+ "loss": 3.8347,
7792
+ "step": 1105
7793
+ },
7794
+ {
7795
+ "epoch": 0.17035040431266846,
7796
+ "grad_norm": 13.799325942993164,
7797
+ "learning_rate": 0.00019849290776176458,
7798
+ "loss": 5.0299,
7799
+ "step": 1106
7800
+ },
7801
+ {
7802
+ "epoch": 0.17050442818636888,
7803
+ "grad_norm": 11.714168548583984,
7804
+ "learning_rate": 0.00019849011224738967,
7805
+ "loss": 3.7388,
7806
+ "step": 1107
7807
+ },
7808
+ {
7809
+ "epoch": 0.1706584520600693,
7810
+ "grad_norm": 13.339337348937988,
7811
+ "learning_rate": 0.00019848731416243067,
7812
+ "loss": 3.9534,
7813
+ "step": 1108
7814
+ },
7815
+ {
7816
+ "epoch": 0.17081247593376975,
7817
+ "grad_norm": 15.734074592590332,
7818
+ "learning_rate": 0.00019848451350696063,
7819
+ "loss": 4.3108,
7820
+ "step": 1109
7821
+ },
7822
+ {
7823
+ "epoch": 0.17096649980747017,
7824
+ "grad_norm": 12.882152557373047,
7825
+ "learning_rate": 0.00019848171028105261,
7826
+ "loss": 3.7053,
7827
+ "step": 1110
7828
+ },
7829
+ {
7830
+ "epoch": 0.1711205236811706,
7831
+ "grad_norm": 11.955374717712402,
7832
+ "learning_rate": 0.0001984789044847798,
7833
+ "loss": 4.1183,
7834
+ "step": 1111
7835
+ },
7836
+ {
7837
+ "epoch": 0.171274547554871,
7838
+ "grad_norm": 12.456283569335938,
7839
+ "learning_rate": 0.00019847609611821544,
7840
+ "loss": 3.0288,
7841
+ "step": 1112
7842
+ },
7843
+ {
7844
+ "epoch": 0.17142857142857143,
7845
+ "grad_norm": 10.662981033325195,
7846
+ "learning_rate": 0.0001984732851814328,
7847
+ "loss": 4.7529,
7848
+ "step": 1113
7849
+ },
7850
+ {
7851
+ "epoch": 0.17158259530227185,
7852
+ "grad_norm": 12.153194427490234,
7853
+ "learning_rate": 0.0001984704716745053,
7854
+ "loss": 3.9459,
7855
+ "step": 1114
7856
+ },
7857
+ {
7858
+ "epoch": 0.17173661917597227,
7859
+ "grad_norm": 16.472930908203125,
7860
+ "learning_rate": 0.00019846765559750632,
7861
+ "loss": 3.1947,
7862
+ "step": 1115
7863
+ },
7864
+ {
7865
+ "epoch": 0.1718906430496727,
7866
+ "grad_norm": 11.6087646484375,
7867
+ "learning_rate": 0.00019846483695050936,
7868
+ "loss": 3.9445,
7869
+ "step": 1116
7870
+ },
7871
+ {
7872
+ "epoch": 0.1720446669233731,
7873
+ "grad_norm": 11.422113418579102,
7874
+ "learning_rate": 0.00019846201573358801,
7875
+ "loss": 3.2062,
7876
+ "step": 1117
7877
+ },
7878
+ {
7879
+ "epoch": 0.17219869079707353,
7880
+ "grad_norm": 16.624980926513672,
7881
+ "learning_rate": 0.0001984591919468159,
7882
+ "loss": 3.8645,
7883
+ "step": 1118
7884
+ },
7885
+ {
7886
+ "epoch": 0.17235271467077398,
7887
+ "grad_norm": 11.967522621154785,
7888
+ "learning_rate": 0.0001984563655902667,
7889
+ "loss": 3.8582,
7890
+ "step": 1119
7891
+ },
7892
+ {
7893
+ "epoch": 0.1725067385444744,
7894
+ "grad_norm": 13.318442344665527,
7895
+ "learning_rate": 0.00019845353666401422,
7896
+ "loss": 4.3134,
7897
+ "step": 1120
7898
+ },
7899
+ {
7900
+ "epoch": 0.17266076241817482,
7901
+ "grad_norm": 8.190085411071777,
7902
+ "learning_rate": 0.00019845070516813227,
7903
+ "loss": 3.484,
7904
+ "step": 1121
7905
+ },
7906
+ {
7907
+ "epoch": 0.17281478629187524,
7908
+ "grad_norm": 17.924562454223633,
7909
+ "learning_rate": 0.00019844787110269478,
7910
+ "loss": 3.7665,
7911
+ "step": 1122
7912
+ },
7913
+ {
7914
+ "epoch": 0.17296881016557566,
7915
+ "grad_norm": 11.064155578613281,
7916
+ "learning_rate": 0.0001984450344677757,
7917
+ "loss": 3.0238,
7918
+ "step": 1123
7919
+ },
7920
+ {
7921
+ "epoch": 0.17312283403927609,
7922
+ "grad_norm": 16.522754669189453,
7923
+ "learning_rate": 0.00019844219526344903,
7924
+ "loss": 3.9628,
7925
+ "step": 1124
7926
+ },
7927
+ {
7928
+ "epoch": 0.1732768579129765,
7929
+ "grad_norm": 10.773133277893066,
7930
+ "learning_rate": 0.00019843935348978892,
7931
+ "loss": 4.2028,
7932
+ "step": 1125
7933
+ },
7934
+ {
7935
+ "epoch": 0.17343088178667693,
7936
+ "grad_norm": 12.943816184997559,
7937
+ "learning_rate": 0.00019843650914686954,
7938
+ "loss": 4.1469,
7939
+ "step": 1126
7940
+ },
7941
+ {
7942
+ "epoch": 0.17358490566037735,
7943
+ "grad_norm": 9.31995677947998,
7944
+ "learning_rate": 0.0001984336622347651,
7945
+ "loss": 2.9169,
7946
+ "step": 1127
7947
+ },
7948
+ {
7949
+ "epoch": 0.17373892953407777,
7950
+ "grad_norm": 12.664985656738281,
7951
+ "learning_rate": 0.0001984308127535499,
7952
+ "loss": 3.5709,
7953
+ "step": 1128
7954
+ },
7955
+ {
7956
+ "epoch": 0.17389295340777822,
7957
+ "grad_norm": 11.307038307189941,
7958
+ "learning_rate": 0.00019842796070329837,
7959
+ "loss": 5.146,
7960
+ "step": 1129
7961
+ },
7962
+ {
7963
+ "epoch": 0.17404697728147864,
7964
+ "grad_norm": 8.186049461364746,
7965
+ "learning_rate": 0.0001984251060840849,
7966
+ "loss": 3.5036,
7967
+ "step": 1130
7968
+ },
7969
+ {
7970
+ "epoch": 0.17420100115517906,
7971
+ "grad_norm": 11.325016975402832,
7972
+ "learning_rate": 0.00019842224889598397,
7973
+ "loss": 3.5391,
7974
+ "step": 1131
7975
+ },
7976
+ {
7977
+ "epoch": 0.17435502502887948,
7978
+ "grad_norm": 13.908296585083008,
7979
+ "learning_rate": 0.00019841938913907022,
7980
+ "loss": 3.5762,
7981
+ "step": 1132
7982
+ },
7983
+ {
7984
+ "epoch": 0.1745090489025799,
7985
+ "grad_norm": 9.789925575256348,
7986
+ "learning_rate": 0.00019841652681341825,
7987
+ "loss": 3.9647,
7988
+ "step": 1133
7989
+ },
7990
+ {
7991
+ "epoch": 0.17466307277628032,
7992
+ "grad_norm": 15.169290542602539,
7993
+ "learning_rate": 0.00019841366191910277,
7994
+ "loss": 4.6646,
7995
+ "step": 1134
7996
+ },
7997
+ {
7998
+ "epoch": 0.17481709664998074,
7999
+ "grad_norm": 11.169201850891113,
8000
+ "learning_rate": 0.00019841079445619855,
8001
+ "loss": 3.1769,
8002
+ "step": 1135
8003
+ },
8004
+ {
8005
+ "epoch": 0.17497112052368116,
8006
+ "grad_norm": 10.863900184631348,
8007
+ "learning_rate": 0.00019840792442478043,
8008
+ "loss": 3.8673,
8009
+ "step": 1136
8010
+ },
8011
+ {
8012
+ "epoch": 0.17512514439738158,
8013
+ "grad_norm": 11.557327270507812,
8014
+ "learning_rate": 0.0001984050518249233,
8015
+ "loss": 4.0111,
8016
+ "step": 1137
8017
+ },
8018
+ {
8019
+ "epoch": 0.17527916827108203,
8020
+ "grad_norm": 10.25669002532959,
8021
+ "learning_rate": 0.0001984021766567022,
8022
+ "loss": 4.0542,
8023
+ "step": 1138
8024
+ },
8025
+ {
8026
+ "epoch": 0.17543319214478245,
8027
+ "grad_norm": 12.508610725402832,
8028
+ "learning_rate": 0.0001983992989201921,
8029
+ "loss": 3.0514,
8030
+ "step": 1139
8031
+ },
8032
+ {
8033
+ "epoch": 0.17558721601848287,
8034
+ "grad_norm": 13.459620475769043,
8035
+ "learning_rate": 0.00019839641861546815,
8036
+ "loss": 4.1518,
8037
+ "step": 1140
8038
+ },
8039
+ {
8040
+ "epoch": 0.1757412398921833,
8041
+ "grad_norm": 15.084485054016113,
8042
+ "learning_rate": 0.00019839353574260552,
8043
+ "loss": 4.3405,
8044
+ "step": 1141
8045
+ },
8046
+ {
8047
+ "epoch": 0.1758952637658837,
8048
+ "grad_norm": 11.985688209533691,
8049
+ "learning_rate": 0.00019839065030167945,
8050
+ "loss": 4.4696,
8051
+ "step": 1142
8052
+ },
8053
+ {
8054
+ "epoch": 0.17604928763958413,
8055
+ "grad_norm": 13.175622940063477,
8056
+ "learning_rate": 0.00019838776229276524,
8057
+ "loss": 3.7165,
8058
+ "step": 1143
8059
+ },
8060
+ {
8061
+ "epoch": 0.17620331151328456,
8062
+ "grad_norm": 12.478694915771484,
8063
+ "learning_rate": 0.00019838487171593827,
8064
+ "loss": 3.9842,
8065
+ "step": 1144
8066
+ },
8067
+ {
8068
+ "epoch": 0.17635733538698498,
8069
+ "grad_norm": 11.12195110321045,
8070
+ "learning_rate": 0.00019838197857127398,
8071
+ "loss": 3.8946,
8072
+ "step": 1145
8073
+ },
8074
+ {
8075
+ "epoch": 0.1765113592606854,
8076
+ "grad_norm": 11.980460166931152,
8077
+ "learning_rate": 0.0001983790828588479,
8078
+ "loss": 4.5101,
8079
+ "step": 1146
8080
+ },
8081
+ {
8082
+ "epoch": 0.17666538313438582,
8083
+ "grad_norm": 11.580781936645508,
8084
+ "learning_rate": 0.0001983761845787356,
8085
+ "loss": 3.2412,
8086
+ "step": 1147
8087
+ },
8088
+ {
8089
+ "epoch": 0.17681940700808627,
8090
+ "grad_norm": 11.876729965209961,
8091
+ "learning_rate": 0.0001983732837310127,
8092
+ "loss": 4.362,
8093
+ "step": 1148
8094
+ },
8095
+ {
8096
+ "epoch": 0.1769734308817867,
8097
+ "grad_norm": 9.922520637512207,
8098
+ "learning_rate": 0.00019837038031575495,
8099
+ "loss": 3.7501,
8100
+ "step": 1149
8101
+ },
8102
+ {
8103
+ "epoch": 0.1771274547554871,
8104
+ "grad_norm": 10.539559364318848,
8105
+ "learning_rate": 0.00019836747433303812,
8106
+ "loss": 2.8852,
8107
+ "step": 1150
8108
+ },
8109
+ {
8110
+ "epoch": 0.17728147862918753,
8111
+ "grad_norm": 12.098252296447754,
8112
+ "learning_rate": 0.000198364565782938,
8113
+ "loss": 3.8561,
8114
+ "step": 1151
8115
+ },
8116
+ {
8117
+ "epoch": 0.17743550250288795,
8118
+ "grad_norm": 17.50993537902832,
8119
+ "learning_rate": 0.0001983616546655306,
8120
+ "loss": 3.773,
8121
+ "step": 1152
8122
+ },
8123
+ {
8124
+ "epoch": 0.17758952637658837,
8125
+ "grad_norm": 10.848986625671387,
8126
+ "learning_rate": 0.0001983587409808918,
8127
+ "loss": 4.1584,
8128
+ "step": 1153
8129
+ },
8130
+ {
8131
+ "epoch": 0.1777435502502888,
8132
+ "grad_norm": 13.124414443969727,
8133
+ "learning_rate": 0.00019835582472909775,
8134
+ "loss": 4.1641,
8135
+ "step": 1154
8136
+ },
8137
+ {
8138
+ "epoch": 0.1778975741239892,
8139
+ "grad_norm": 13.227132797241211,
8140
+ "learning_rate": 0.0001983529059102245,
8141
+ "loss": 3.6555,
8142
+ "step": 1155
8143
+ },
8144
+ {
8145
+ "epoch": 0.17805159799768963,
8146
+ "grad_norm": 11.310081481933594,
8147
+ "learning_rate": 0.0001983499845243482,
8148
+ "loss": 3.4316,
8149
+ "step": 1156
8150
+ },
8151
+ {
8152
+ "epoch": 0.17820562187139005,
8153
+ "grad_norm": 9.132098197937012,
8154
+ "learning_rate": 0.00019834706057154518,
8155
+ "loss": 3.1699,
8156
+ "step": 1157
8157
+ },
8158
+ {
8159
+ "epoch": 0.1783596457450905,
8160
+ "grad_norm": 12.124452590942383,
8161
+ "learning_rate": 0.00019834413405189172,
8162
+ "loss": 4.3226,
8163
+ "step": 1158
8164
+ },
8165
+ {
8166
+ "epoch": 0.17851366961879092,
8167
+ "grad_norm": 14.201220512390137,
8168
+ "learning_rate": 0.0001983412049654642,
8169
+ "loss": 4.4813,
8170
+ "step": 1159
8171
+ },
8172
+ {
8173
+ "epoch": 0.17866769349249134,
8174
+ "grad_norm": 13.82433032989502,
8175
+ "learning_rate": 0.00019833827331233904,
8176
+ "loss": 3.5625,
8177
+ "step": 1160
8178
+ },
8179
+ {
8180
+ "epoch": 0.17882171736619176,
8181
+ "grad_norm": 10.633478164672852,
8182
+ "learning_rate": 0.0001983353390925928,
8183
+ "loss": 3.9063,
8184
+ "step": 1161
8185
+ },
8186
+ {
8187
+ "epoch": 0.17897574123989218,
8188
+ "grad_norm": 12.822907447814941,
8189
+ "learning_rate": 0.000198332402306302,
8190
+ "loss": 3.7799,
8191
+ "step": 1162
8192
+ },
8193
+ {
8194
+ "epoch": 0.1791297651135926,
8195
+ "grad_norm": 13.253988265991211,
8196
+ "learning_rate": 0.00019832946295354338,
8197
+ "loss": 4.2672,
8198
+ "step": 1163
8199
+ },
8200
+ {
8201
+ "epoch": 0.17928378898729302,
8202
+ "grad_norm": 10.326937675476074,
8203
+ "learning_rate": 0.0001983265210343936,
8204
+ "loss": 3.556,
8205
+ "step": 1164
8206
+ },
8207
+ {
8208
+ "epoch": 0.17943781286099345,
8209
+ "grad_norm": 14.797069549560547,
8210
+ "learning_rate": 0.00019832357654892943,
8211
+ "loss": 3.9052,
8212
+ "step": 1165
8213
+ },
8214
+ {
8215
+ "epoch": 0.17959183673469387,
8216
+ "grad_norm": 9.644969940185547,
8217
+ "learning_rate": 0.0001983206294972278,
8218
+ "loss": 4.4052,
8219
+ "step": 1166
8220
+ },
8221
+ {
8222
+ "epoch": 0.17974586060839431,
8223
+ "grad_norm": 11.694543838500977,
8224
+ "learning_rate": 0.00019831767987936553,
8225
+ "loss": 4.3418,
8226
+ "step": 1167
8227
+ },
8228
+ {
8229
+ "epoch": 0.17989988448209474,
8230
+ "grad_norm": 12.655614852905273,
8231
+ "learning_rate": 0.00019831472769541965,
8232
+ "loss": 4.1458,
8233
+ "step": 1168
8234
+ },
8235
+ {
8236
+ "epoch": 0.18005390835579516,
8237
+ "grad_norm": 12.079744338989258,
8238
+ "learning_rate": 0.00019831177294546724,
8239
+ "loss": 4.4483,
8240
+ "step": 1169
8241
+ },
8242
+ {
8243
+ "epoch": 0.18020793222949558,
8244
+ "grad_norm": 12.279813766479492,
8245
+ "learning_rate": 0.00019830881562958537,
8246
+ "loss": 3.5655,
8247
+ "step": 1170
8248
+ },
8249
+ {
8250
+ "epoch": 0.180361956103196,
8251
+ "grad_norm": 13.201979637145996,
8252
+ "learning_rate": 0.00019830585574785124,
8253
+ "loss": 3.9816,
8254
+ "step": 1171
8255
+ },
8256
+ {
8257
+ "epoch": 0.18051597997689642,
8258
+ "grad_norm": 10.753480911254883,
8259
+ "learning_rate": 0.00019830289330034212,
8260
+ "loss": 3.5746,
8261
+ "step": 1172
8262
+ },
8263
+ {
8264
+ "epoch": 0.18067000385059684,
8265
+ "grad_norm": 10.541348457336426,
8266
+ "learning_rate": 0.00019829992828713532,
8267
+ "loss": 3.9633,
8268
+ "step": 1173
8269
+ },
8270
+ {
8271
+ "epoch": 0.18082402772429726,
8272
+ "grad_norm": 10.566235542297363,
8273
+ "learning_rate": 0.0001982969607083082,
8274
+ "loss": 3.4668,
8275
+ "step": 1174
8276
+ },
8277
+ {
8278
+ "epoch": 0.18097805159799768,
8279
+ "grad_norm": 12.87186050415039,
8280
+ "learning_rate": 0.00019829399056393821,
8281
+ "loss": 4.3093,
8282
+ "step": 1175
8283
+ },
8284
+ {
8285
+ "epoch": 0.1811320754716981,
8286
+ "grad_norm": 12.723098754882812,
8287
+ "learning_rate": 0.00019829101785410295,
8288
+ "loss": 4.4819,
8289
+ "step": 1176
8290
+ },
8291
+ {
8292
+ "epoch": 0.18128609934539855,
8293
+ "grad_norm": 11.136910438537598,
8294
+ "learning_rate": 0.00019828804257887995,
8295
+ "loss": 4.1809,
8296
+ "step": 1177
8297
+ },
8298
+ {
8299
+ "epoch": 0.18144012321909897,
8300
+ "grad_norm": 14.080367088317871,
8301
+ "learning_rate": 0.00019828506473834687,
8302
+ "loss": 4.3867,
8303
+ "step": 1178
8304
+ },
8305
+ {
8306
+ "epoch": 0.1815941470927994,
8307
+ "grad_norm": 11.699310302734375,
8308
+ "learning_rate": 0.00019828208433258143,
8309
+ "loss": 4.1318,
8310
+ "step": 1179
8311
+ },
8312
+ {
8313
+ "epoch": 0.1817481709664998,
8314
+ "grad_norm": 11.105619430541992,
8315
+ "learning_rate": 0.00019827910136166138,
8316
+ "loss": 4.3103,
8317
+ "step": 1180
8318
+ },
8319
+ {
8320
+ "epoch": 0.18190219484020023,
8321
+ "grad_norm": 9.191035270690918,
8322
+ "learning_rate": 0.00019827611582566468,
8323
+ "loss": 3.6743,
8324
+ "step": 1181
8325
+ },
8326
+ {
8327
+ "epoch": 0.18205621871390065,
8328
+ "grad_norm": 11.332408905029297,
8329
+ "learning_rate": 0.00019827312772466914,
8330
+ "loss": 4.1401,
8331
+ "step": 1182
8332
+ },
8333
+ {
8334
+ "epoch": 0.18221024258760107,
8335
+ "grad_norm": 11.520444869995117,
8336
+ "learning_rate": 0.0001982701370587528,
8337
+ "loss": 4.4887,
8338
+ "step": 1183
8339
+ },
8340
+ {
8341
+ "epoch": 0.1823642664613015,
8342
+ "grad_norm": 11.725013732910156,
8343
+ "learning_rate": 0.00019826714382799375,
8344
+ "loss": 3.4896,
8345
+ "step": 1184
8346
+ },
8347
+ {
8348
+ "epoch": 0.18251829033500191,
8349
+ "grad_norm": 17.180004119873047,
8350
+ "learning_rate": 0.00019826414803247001,
8351
+ "loss": 3.5693,
8352
+ "step": 1185
8353
+ },
8354
+ {
8355
+ "epoch": 0.18267231420870234,
8356
+ "grad_norm": 11.406875610351562,
8357
+ "learning_rate": 0.00019826114967225992,
8358
+ "loss": 3.2492,
8359
+ "step": 1186
8360
+ },
8361
+ {
8362
+ "epoch": 0.18282633808240278,
8363
+ "grad_norm": 10.967105865478516,
8364
+ "learning_rate": 0.00019825814874744157,
8365
+ "loss": 4.1061,
8366
+ "step": 1187
8367
+ },
8368
+ {
8369
+ "epoch": 0.1829803619561032,
8370
+ "grad_norm": 14.942412376403809,
8371
+ "learning_rate": 0.00019825514525809341,
8372
+ "loss": 4.4003,
8373
+ "step": 1188
8374
+ },
8375
+ {
8376
+ "epoch": 0.18313438582980363,
8377
+ "grad_norm": 11.987462997436523,
8378
+ "learning_rate": 0.0001982521392042938,
8379
+ "loss": 4.2834,
8380
+ "step": 1189
8381
+ },
8382
+ {
8383
+ "epoch": 0.18328840970350405,
8384
+ "grad_norm": 12.808433532714844,
8385
+ "learning_rate": 0.00019824913058612116,
8386
+ "loss": 3.9433,
8387
+ "step": 1190
8388
+ },
8389
+ {
8390
+ "epoch": 0.18344243357720447,
8391
+ "grad_norm": 12.015241622924805,
8392
+ "learning_rate": 0.00019824611940365402,
8393
+ "loss": 3.7709,
8394
+ "step": 1191
8395
+ },
8396
+ {
8397
+ "epoch": 0.1835964574509049,
8398
+ "grad_norm": 11.753364562988281,
8399
+ "learning_rate": 0.000198243105656971,
8400
+ "loss": 4.1389,
8401
+ "step": 1192
8402
+ },
8403
+ {
8404
+ "epoch": 0.1837504813246053,
8405
+ "grad_norm": 9.650666236877441,
8406
+ "learning_rate": 0.00019824008934615076,
8407
+ "loss": 4.0265,
8408
+ "step": 1193
8409
+ },
8410
+ {
8411
+ "epoch": 0.18390450519830573,
8412
+ "grad_norm": 12.346750259399414,
8413
+ "learning_rate": 0.00019823707047127205,
8414
+ "loss": 4.0431,
8415
+ "step": 1194
8416
+ },
8417
+ {
8418
+ "epoch": 0.18405852907200615,
8419
+ "grad_norm": 16.240116119384766,
8420
+ "learning_rate": 0.00019823404903241359,
8421
+ "loss": 3.9108,
8422
+ "step": 1195
8423
+ },
8424
+ {
8425
+ "epoch": 0.1842125529457066,
8426
+ "grad_norm": 14.475204467773438,
8427
+ "learning_rate": 0.00019823102502965426,
8428
+ "loss": 3.6084,
8429
+ "step": 1196
8430
+ },
8431
+ {
8432
+ "epoch": 0.18436657681940702,
8433
+ "grad_norm": 12.212177276611328,
8434
+ "learning_rate": 0.00019822799846307306,
8435
+ "loss": 3.5312,
8436
+ "step": 1197
8437
+ },
8438
+ {
8439
+ "epoch": 0.18452060069310744,
8440
+ "grad_norm": 15.028864860534668,
8441
+ "learning_rate": 0.00019822496933274888,
8442
+ "loss": 4.6225,
8443
+ "step": 1198
8444
+ },
8445
+ {
8446
+ "epoch": 0.18467462456680786,
8447
+ "grad_norm": 10.804827690124512,
8448
+ "learning_rate": 0.00019822193763876085,
8449
+ "loss": 2.7079,
8450
+ "step": 1199
8451
+ },
8452
+ {
8453
+ "epoch": 0.18482864844050828,
8454
+ "grad_norm": 12.293673515319824,
8455
+ "learning_rate": 0.00019821890338118806,
8456
+ "loss": 3.888,
8457
+ "step": 1200
8458
+ },
8459
+ {
8460
+ "epoch": 0.18482864844050828,
8461
+ "eval_loss": 0.9737382531166077,
8462
+ "eval_runtime": 40.4706,
8463
+ "eval_samples_per_second": 6.449,
8464
+ "eval_steps_per_second": 3.237,
8465
+ "step": 1200
8466
  }
8467
  ],
8468
  "logging_steps": 1,
 
8477
  "early_stopping_threshold": 0.0
8478
  },
8479
  "attributes": {
8480
+ "early_stopping_patience_counter": 3
8481
  }
8482
  },
8483
  "TrainerControl": {
 
8486
  "should_evaluate": false,
8487
  "should_log": false,
8488
  "should_save": true,
8489
+ "should_training_stop": true
8490
  },
8491
  "attributes": {}
8492
  }
8493
  },
8494
+ "total_flos": 1.745589977040814e+17,
8495
  "train_batch_size": 2,
8496
  "trial_name": null,
8497
  "trial_params": null