Training in progress, epoch 1, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +2 -2
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +63 -1687
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:95e876461f6941ed752cf45d9ac9302d2fcd14f16fa213ea0d206586aa9f8ad0
-size 2695611744

 version https://git-lfs.github.com/spec/v1
+oid sha256:66bf7ec1906085b9017dec52af7ee1d8cb6d38fa8ca3a526334a82ecc740dcbd
+size 2708729576

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efc1f9e0d1f0ba25073b30251fc09e761cd12b900a86d5d2832f4e9ab7cf17ff
-size 26261260

 version https://git-lfs.github.com/spec/v1
+oid sha256:f48d93af9f829aae4cbfe51ee4fffab7189d58377b64586f31b892a561403e60
+size 52499200

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3ac7ad6975b02cb2fe1ae9b24f6d70c26049c580d43be5a2feb4f3aa6fc1aa47
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:838e024e0a852529a2257dc1dc52b7019dd292f53abc55b9fa61835eb1065232
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c42147d2487e975dcb8b015449194c61c9350b5c1b3a114ecd6e3942d3403969
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bca4dbe650e04bc8012dd3f1938dfb2a637329721abd75c3bd59d28a64007b54
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,1804 +1,180 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.929233772571987,
   "eval_steps": 10,
-  "global_step": 1280,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.07808687164470474,
-      "grad_norm": 498170.15625,
       "learning_rate": 9.921875000000001e-05,
-      "loss": 24141.5234,
       "step": 10
     },
     {
       "epoch": 0.07808687164470474,
-      "eval_runtime": 19.5232,
-      "eval_samples_per_second": 22.128,
-      "eval_steps_per_second": 5.532,
       "step": 10
     },
     {
       "epoch": 0.15617374328940947,
-      "grad_norm": 281270.96875,
       "learning_rate": 9.84375e-05,
-      "loss": 11375.4516,
       "step": 20
     },
     {
       "epoch": 0.15617374328940947,
-      "eval_runtime": 19.5682,
-      "eval_samples_per_second": 22.077,
-      "eval_steps_per_second": 5.519,
       "step": 20
     },
     {
       "epoch": 0.2342606149341142,
-      "grad_norm": 567554.3125,
       "learning_rate": 9.765625e-05,
-      "loss": 8222.268,
       "step": 30
     },
     {
       "epoch": 0.2342606149341142,
-      "eval_runtime": 19.5935,
-      "eval_samples_per_second": 22.048,
-      "eval_steps_per_second": 5.512,
       "step": 30
     },
     {
       "epoch": 0.31234748657881894,
-      "grad_norm": 256184.6875,
       "learning_rate": 9.687500000000001e-05,
-      "loss": 6837.6664,
       "step": 40
     },
     {
       "epoch": 0.31234748657881894,
-      "eval_runtime": 19.5946,
-      "eval_samples_per_second": 22.047,
-      "eval_steps_per_second": 5.512,
       "step": 40
     },
     {
       "epoch": 0.3904343582235237,
-      "grad_norm": 365265.625,
       "learning_rate": 9.609375e-05,
-      "loss": 5512.5262,
       "step": 50
     },
     {
       "epoch": 0.3904343582235237,
-      "eval_runtime": 19.603,
-      "eval_samples_per_second": 22.037,
-      "eval_steps_per_second": 5.509,
       "step": 50
     },
     {
       "epoch": 0.4685212298682284,
-      "grad_norm": 318942.46875,
       "learning_rate": 9.53125e-05,
-      "loss": 4918.2848,
       "step": 60
     },
     {
       "epoch": 0.4685212298682284,
-      "eval_runtime": 19.625,
-      "eval_samples_per_second": 22.013,
-      "eval_steps_per_second": 5.503,
       "step": 60
     },
     {
       "epoch": 0.5466081015129332,
-      "grad_norm": 508354.03125,
       "learning_rate": 9.453125000000001e-05,
-      "loss": 4611.2082,
       "step": 70
     },
     {
       "epoch": 0.5466081015129332,
-      "eval_runtime": 19.629,
-      "eval_samples_per_second": 22.008,
-      "eval_steps_per_second": 5.502,
       "step": 70
     },
     {
       "epoch": 0.6246949731576379,
-      "grad_norm": 372461.53125,
       "learning_rate": 9.375e-05,
-      "loss": 4174.407,
       "step": 80
     },
     {
       "epoch": 0.6246949731576379,
-      "eval_runtime": 19.625,
-      "eval_samples_per_second": 22.013,
-      "eval_steps_per_second": 5.503,
       "step": 80
     },
     {
       "epoch": 0.7027818448023426,
-      "grad_norm": 196101.109375,
       "learning_rate": 9.296875e-05,
-      "loss": 3694.2605,
       "step": 90
     },
     {
       "epoch": 0.7027818448023426,
-      "eval_runtime": 19.6048,
-      "eval_samples_per_second": 22.035,
-      "eval_steps_per_second": 5.509,
       "step": 90
     },
     {
       "epoch": 0.7808687164470474,
-      "grad_norm": 324380.46875,
       "learning_rate": 9.21875e-05,
-      "loss": 3561.6039,
       "step": 100
     },
     {
       "epoch": 0.7808687164470474,
-      "eval_runtime": 19.6105,
-      "eval_samples_per_second": 22.029,
-      "eval_steps_per_second": 5.507,
       "step": 100
     },
     {
       "epoch": 0.8589555880917521,
-      "grad_norm": 253753.125,
       "learning_rate": 9.140625e-05,
-      "loss": 3622.6652,
       "step": 110
     },
     {
       "epoch": 0.8589555880917521,
-      "eval_runtime": 19.6179,
-      "eval_samples_per_second": 22.021,
-      "eval_steps_per_second": 5.505,
       "step": 110
     },
     {
       "epoch": 0.9370424597364568,
-      "grad_norm": 471811.90625,
       "learning_rate": 9.062500000000001e-05,
-      "loss": 3647.8051,
       "step": 120
     },
     {
       "epoch": 0.9370424597364568,
-      "eval_runtime": 19.628,
-      "eval_samples_per_second": 22.009,
-      "eval_steps_per_second": 5.502,
       "step": 120
-    },
-    {
-      "epoch": 1.0078086871644705,
-      "grad_norm": 688836.3125,
-      "learning_rate": 8.984375e-05,
-      "loss": 4461.798,
-      "step": 130
-    },
-    {
-      "epoch": 1.0078086871644705,
-      "eval_runtime": 19.4608,
-      "eval_samples_per_second": 22.198,
-      "eval_steps_per_second": 5.55,
-      "step": 130
-    },
-    {
-      "epoch": 1.0858955588091752,
-      "grad_norm": 564319.6875,
-      "learning_rate": 8.90625e-05,
-      "loss": 3695.1797,
-      "step": 140
-    },
-    {
-      "epoch": 1.0858955588091752,
-      "eval_runtime": 19.5702,
-      "eval_samples_per_second": 22.074,
-      "eval_steps_per_second": 5.519,
-      "step": 140
-    },
-    {
-      "epoch": 1.16398243045388,
-      "grad_norm": 297341.28125,
-      "learning_rate": 8.828125000000001e-05,
-      "loss": 3063.5557,
-      "step": 150
-    },
-    {
-      "epoch": 1.16398243045388,
-      "eval_runtime": 19.6107,
-      "eval_samples_per_second": 22.029,
-      "eval_steps_per_second": 5.507,
-      "step": 150
-    },
-    {
-      "epoch": 1.2420693020985847,
-      "grad_norm": 294460.375,
-      "learning_rate": 8.75e-05,
-      "loss": 3861.7359,
-      "step": 160
-    },
-    {
-      "epoch": 1.2420693020985847,
-      "eval_runtime": 19.6236,
-      "eval_samples_per_second": 22.014,
-      "eval_steps_per_second": 5.504,
-      "step": 160
-    },
-    {
-      "epoch": 1.3201561737432894,
-      "grad_norm": 446928.125,
-      "learning_rate": 8.671875e-05,
-      "loss": 3945.3711,
-      "step": 170
-    },
-    {
-      "epoch": 1.3201561737432894,
-      "eval_runtime": 19.6104,
-      "eval_samples_per_second": 22.029,
-      "eval_steps_per_second": 5.507,
-      "step": 170
-    },
-    {
-      "epoch": 1.3982430453879942,
-      "grad_norm": 477259.65625,
-      "learning_rate": 8.593750000000001e-05,
-      "loss": 3992.1383,
-      "step": 180
-    },
-    {
-      "epoch": 1.3982430453879942,
-      "eval_runtime": 19.6165,
-      "eval_samples_per_second": 22.022,
-      "eval_steps_per_second": 5.506,
-      "step": 180
-    },
-    {
-      "epoch": 1.476329917032699,
-      "grad_norm": 416177.8125,
-      "learning_rate": 8.515625e-05,
-      "loss": 3208.7566,
-      "step": 190
-    },
-    {
-      "epoch": 1.476329917032699,
-      "eval_runtime": 19.6029,
-      "eval_samples_per_second": 22.038,
-      "eval_steps_per_second": 5.509,
-      "step": 190
-    },
-    {
-      "epoch": 1.5544167886774036,
-      "grad_norm": 585219.5,
-      "learning_rate": 8.4375e-05,
-      "loss": 3544.4445,
-      "step": 200
-    },
-    {
-      "epoch": 1.5544167886774036,
-      "eval_runtime": 19.6024,
-      "eval_samples_per_second": 22.038,
-      "eval_steps_per_second": 5.51,
-      "step": 200
-    },
-    {
-      "epoch": 1.6325036603221084,
-      "grad_norm": 122144.359375,
-      "learning_rate": 8.359375000000001e-05,
-      "loss": 3495.2234,
-      "step": 210
-    },
-    {
-      "epoch": 1.6325036603221084,
-      "eval_runtime": 19.6241,
-      "eval_samples_per_second": 22.014,
-      "eval_steps_per_second": 5.503,
-      "step": 210
-    },
-    {
-      "epoch": 1.710590531966813,
-      "grad_norm": 517473.9375,
-      "learning_rate": 8.28125e-05,
-      "loss": 3106.2523,
-      "step": 220
-    },
-    {
-      "epoch": 1.710590531966813,
-      "eval_runtime": 19.6219,
-      "eval_samples_per_second": 22.016,
-      "eval_steps_per_second": 5.504,
-      "step": 220
-    },
-    {
-      "epoch": 1.7886774036115178,
-      "grad_norm": 279783.34375,
-      "learning_rate": 8.203125e-05,
-      "loss": 2969.224,
-      "step": 230
-    },
-    {
-      "epoch": 1.7886774036115178,
-      "eval_runtime": 19.6274,
-      "eval_samples_per_second": 22.01,
-      "eval_steps_per_second": 5.503,
-      "step": 230
-    },
-    {
-      "epoch": 1.8667642752562226,
-      "grad_norm": 500301.21875,
-      "learning_rate": 8.125000000000001e-05,
-      "loss": 2546.8709,
-      "step": 240
-    },
-    {
-      "epoch": 1.8667642752562226,
-      "eval_runtime": 19.6224,
-      "eval_samples_per_second": 22.016,
-      "eval_steps_per_second": 5.504,
-      "step": 240
-    },
-    {
-      "epoch": 1.9448511469009273,
-      "grad_norm": 420029.9375,
-      "learning_rate": 8.046875e-05,
-      "loss": 3124.2377,
-      "step": 250
-    },
-    {
-      "epoch": 1.9448511469009273,
-      "eval_runtime": 19.62,
-      "eval_samples_per_second": 22.018,
-      "eval_steps_per_second": 5.505,
-      "step": 250
-    },
-    {
-      "epoch": 2.015617374328941,
-      "grad_norm": 287152.59375,
-      "learning_rate": 7.96875e-05,
-      "loss": 2647.9721,
-      "step": 260
-    },
-    {
-      "epoch": 2.015617374328941,
-      "eval_runtime": 19.5051,
-      "eval_samples_per_second": 22.148,
-      "eval_steps_per_second": 5.537,
-      "step": 260
-    },
-    {
-      "epoch": 2.0937042459736457,
-      "grad_norm": 227855.6875,
-      "learning_rate": 7.890625000000001e-05,
-      "loss": 2429.9967,
-      "step": 270
-    },
-    {
-      "epoch": 2.0937042459736457,
-      "eval_runtime": 19.5753,
-      "eval_samples_per_second": 22.069,
-      "eval_steps_per_second": 5.517,
-      "step": 270
-    },
-    {
-      "epoch": 2.1717911176183504,
-      "grad_norm": 180075.734375,
-      "learning_rate": 7.8125e-05,
-      "loss": 2353.5262,
-      "step": 280
-    },
-    {
-      "epoch": 2.1717911176183504,
-      "eval_runtime": 19.6192,
-      "eval_samples_per_second": 22.019,
-      "eval_steps_per_second": 5.505,
-      "step": 280
-    },
-    {
-      "epoch": 2.249877989263055,
-      "grad_norm": 374717.40625,
-      "learning_rate": 7.734375e-05,
-      "loss": 2223.9002,
-      "step": 290
-    },
-    {
-      "epoch": 2.249877989263055,
-      "eval_runtime": 19.6086,
-      "eval_samples_per_second": 22.031,
-      "eval_steps_per_second": 5.508,
-      "step": 290
-    },
-    {
-      "epoch": 2.32796486090776,
-      "grad_norm": 302520.9375,
-      "learning_rate": 7.65625e-05,
-      "loss": 1899.2279,
-      "step": 300
-    },
-    {
-      "epoch": 2.32796486090776,
-      "eval_runtime": 19.6274,
-      "eval_samples_per_second": 22.01,
-      "eval_steps_per_second": 5.503,
-      "step": 300
-    },
-    {
-      "epoch": 2.4060517325524646,
-      "grad_norm": 178822.03125,
-      "learning_rate": 7.578125e-05,
-      "loss": 1682.3375,
-      "step": 310
-    },
-    {
-      "epoch": 2.4060517325524646,
-      "eval_runtime": 19.6223,
-      "eval_samples_per_second": 22.016,
-      "eval_steps_per_second": 5.504,
-      "step": 310
-    },
-    {
-      "epoch": 2.4841386041971694,
-      "grad_norm": 495346.4375,
-      "learning_rate": 7.500000000000001e-05,
-      "loss": 2398.752,
-      "step": 320
-    },
-    {
-      "epoch": 2.4841386041971694,
-      "eval_runtime": 19.5967,
-      "eval_samples_per_second": 22.044,
-      "eval_steps_per_second": 5.511,
-      "step": 320
-    },
-    {
-      "epoch": 2.562225475841874,
-      "grad_norm": 389064.15625,
-      "learning_rate": 7.421875e-05,
-      "loss": 3152.5979,
-      "step": 330
-    },
-    {
-      "epoch": 2.562225475841874,
-      "eval_runtime": 19.613,
-      "eval_samples_per_second": 22.026,
-      "eval_steps_per_second": 5.507,
-      "step": 330
-    },
-    {
-      "epoch": 2.640312347486579,
-      "grad_norm": 364833.375,
-      "learning_rate": 7.34375e-05,
-      "loss": 2780.8895,
-      "step": 340
-    },
-    {
-      "epoch": 2.640312347486579,
-      "eval_runtime": 19.6058,
-      "eval_samples_per_second": 22.034,
-      "eval_steps_per_second": 5.509,
-      "step": 340
-    },
-    {
-      "epoch": 2.7183992191312836,
-      "grad_norm": 250624.234375,
-      "learning_rate": 7.265625000000001e-05,
-      "loss": 2240.6416,
-      "step": 350
-    },
-    {
-      "epoch": 2.7183992191312836,
-      "eval_runtime": 19.6306,
-      "eval_samples_per_second": 22.006,
-      "eval_steps_per_second": 5.502,
-      "step": 350
-    },
-    {
-      "epoch": 2.7964860907759883,
-      "grad_norm": 355084.1875,
-      "learning_rate": 7.1875e-05,
-      "loss": 1683.0152,
-      "step": 360
-    },
-    {
-      "epoch": 2.7964860907759883,
-      "eval_runtime": 19.6274,
-      "eval_samples_per_second": 22.01,
-      "eval_steps_per_second": 5.503,
-      "step": 360
-    },
-    {
-      "epoch": 2.874572962420693,
-      "grad_norm": 408760.53125,
-      "learning_rate": 7.109375e-05,
-      "loss": 1970.6135,
-      "step": 370
-    },
-    {
-      "epoch": 2.874572962420693,
-      "eval_runtime": 19.6037,
-      "eval_samples_per_second": 22.037,
-      "eval_steps_per_second": 5.509,
-      "step": 370
-    },
-    {
-      "epoch": 2.952659834065398,
-      "grad_norm": 253820.046875,
-      "learning_rate": 7.031250000000001e-05,
-      "loss": 2003.0234,
-      "step": 380
-    },
-    {
-      "epoch": 2.952659834065398,
-      "eval_runtime": 19.6328,
-      "eval_samples_per_second": 22.004,
-      "eval_steps_per_second": 5.501,
-      "step": 380
-    },
-    {
-      "epoch": 3.0234260614934114,
-      "grad_norm": 322866.875,
-      "learning_rate": 6.953125e-05,
-      "loss": 1676.3783,
-      "step": 390
-    },
-    {
-      "epoch": 3.0234260614934114,
-      "eval_runtime": 19.5185,
-      "eval_samples_per_second": 22.133,
-      "eval_steps_per_second": 5.533,
-      "step": 390
-    },
-    {
-      "epoch": 3.101512933138116,
-      "grad_norm": 238511.0625,
-      "learning_rate": 6.875e-05,
-      "loss": 1455.4051,
-      "step": 400
-    },
-    {
-      "epoch": 3.101512933138116,
-      "eval_runtime": 19.6242,
-      "eval_samples_per_second": 22.014,
-      "eval_steps_per_second": 5.503,
-      "step": 400
-    },
-    {
-      "epoch": 3.179599804782821,
-      "grad_norm": 91918.703125,
-      "learning_rate": 6.796875000000001e-05,
-      "loss": 989.8731,
-      "step": 410
-    },
-    {
-      "epoch": 3.179599804782821,
-      "eval_runtime": 19.636,
-      "eval_samples_per_second": 22.0,
-      "eval_steps_per_second": 5.5,
-      "step": 410
-    },
-    {
-      "epoch": 3.2576866764275256,
-      "grad_norm": 362047.0,
-      "learning_rate": 6.71875e-05,
-      "loss": 1274.4269,
-      "step": 420
-    },
-    {
-      "epoch": 3.2576866764275256,
-      "eval_runtime": 19.6293,
-      "eval_samples_per_second": 22.008,
-      "eval_steps_per_second": 5.502,
-      "step": 420
-    },
-    {
-      "epoch": 3.3357735480722304,
-      "grad_norm": 230756.203125,
-      "learning_rate": 6.640625e-05,
-      "loss": 1462.9975,
-      "step": 430
-    },
-    {
-      "epoch": 3.3357735480722304,
-      "eval_runtime": 19.6142,
-      "eval_samples_per_second": 22.025,
-      "eval_steps_per_second": 5.506,
-      "step": 430
-    },
-    {
-      "epoch": 3.413860419716935,
-      "grad_norm": 551364.8125,
-      "learning_rate": 6.562500000000001e-05,
-      "loss": 1467.0002,
-      "step": 440
-    },
-    {
-      "epoch": 3.413860419716935,
-      "eval_runtime": 19.6339,
-      "eval_samples_per_second": 22.003,
-      "eval_steps_per_second": 5.501,
-      "step": 440
-    },
-    {
-      "epoch": 3.49194729136164,
-      "grad_norm": 238589.6875,
-      "learning_rate": 6.484375e-05,
-      "loss": 1181.1227,
-      "step": 450
-    },
-    {
-      "epoch": 3.49194729136164,
-      "eval_runtime": 19.6121,
-      "eval_samples_per_second": 22.027,
-      "eval_steps_per_second": 5.507,
-      "step": 450
-    },
-    {
-      "epoch": 3.5700341630063446,
-      "grad_norm": 200804.40625,
-      "learning_rate": 6.40625e-05,
-      "loss": 1450.5544,
-      "step": 460
-    },
-    {
-      "epoch": 3.5700341630063446,
-      "eval_runtime": 19.6183,
-      "eval_samples_per_second": 22.02,
-      "eval_steps_per_second": 5.505,
-      "step": 460
-    },
-    {
-      "epoch": 3.6481210346510493,
-      "grad_norm": 148718.125,
-      "learning_rate": 6.328125e-05,
-      "loss": 1220.6021,
-      "step": 470
-    },
-    {
-      "epoch": 3.6481210346510493,
-      "eval_runtime": 19.5968,
-      "eval_samples_per_second": 22.044,
-      "eval_steps_per_second": 5.511,
-      "step": 470
-    },
-    {
-      "epoch": 3.726207906295754,
-      "grad_norm": 154837.71875,
-      "learning_rate": 6.25e-05,
-      "loss": 1027.0058,
-      "step": 480
-    },
-    {
-      "epoch": 3.726207906295754,
-      "eval_runtime": 19.6342,
-      "eval_samples_per_second": 22.002,
-      "eval_steps_per_second": 5.501,
-      "step": 480
-    },
-    {
-      "epoch": 3.804294777940459,
-      "grad_norm": 388905.5625,
-      "learning_rate": 6.171875e-05,
-      "loss": 1102.8801,
-      "step": 490
-    },
-    {
-      "epoch": 3.804294777940459,
-      "eval_runtime": 19.6156,
-      "eval_samples_per_second": 22.023,
-      "eval_steps_per_second": 5.506,
-      "step": 490
-    },
-    {
-      "epoch": 3.8823816495851635,
-      "grad_norm": 251027.203125,
-      "learning_rate": 6.0937500000000004e-05,
-      "loss": 955.4972,
-      "step": 500
-    },
-    {
-      "epoch": 3.8823816495851635,
-      "eval_runtime": 19.6156,
-      "eval_samples_per_second": 22.023,
-      "eval_steps_per_second": 5.506,
-      "step": 500
-    },
-    {
-      "epoch": 3.9604685212298683,
-      "grad_norm": 446547.46875,
-      "learning_rate": 6.015625e-05,
-      "loss": 1092.9813,
-      "step": 510
-    },
-    {
-      "epoch": 3.9604685212298683,
-      "eval_runtime": 19.6311,
-      "eval_samples_per_second": 22.006,
-      "eval_steps_per_second": 5.501,
-      "step": 510
-    },
-    {
-      "epoch": 4.031234748657882,
-      "grad_norm": 255615.1875,
-      "learning_rate": 5.9375e-05,
-      "loss": 900.3142,
-      "step": 520
-    },
-    {
-      "epoch": 4.031234748657882,
-      "eval_runtime": 19.5145,
-      "eval_samples_per_second": 22.137,
-      "eval_steps_per_second": 5.534,
-      "step": 520
-    },
-    {
-      "epoch": 4.109321620302587,
-      "grad_norm": 318956.46875,
-      "learning_rate": 5.8593750000000005e-05,
-      "loss": 998.6581,
-      "step": 530
-    },
-    {
-      "epoch": 4.109321620302587,
-      "eval_runtime": 19.5902,
-      "eval_samples_per_second": 22.052,
-      "eval_steps_per_second": 5.513,
-      "step": 530
-    },
-    {
-      "epoch": 4.187408491947291,
-      "grad_norm": 291643.28125,
-      "learning_rate": 5.78125e-05,
-      "loss": 1226.5887,
-      "step": 540
-    },
-    {
-      "epoch": 4.187408491947291,
-      "eval_runtime": 19.6079,
-      "eval_samples_per_second": 22.032,
-      "eval_steps_per_second": 5.508,
-      "step": 540
-    },
-    {
-      "epoch": 4.265495363591996,
-      "grad_norm": 283195.4375,
-      "learning_rate": 5.703125e-05,
-      "loss": 1072.7449,
-      "step": 550
-    },
-    {
-      "epoch": 4.265495363591996,
-      "eval_runtime": 19.6116,
-      "eval_samples_per_second": 22.028,
-      "eval_steps_per_second": 5.507,
-      "step": 550
-    },
-    {
-      "epoch": 4.343582235236701,
-      "grad_norm": 335369.625,
-      "learning_rate": 5.6250000000000005e-05,
-      "loss": 801.423,
-      "step": 560
-    },
-    {
-      "epoch": 4.343582235236701,
-      "eval_runtime": 19.6203,
-      "eval_samples_per_second": 22.018,
-      "eval_steps_per_second": 5.505,
-      "step": 560
-    },
-    {
-      "epoch": 4.421669106881406,
-      "grad_norm": 363015.75,
-      "learning_rate": 5.546875e-05,
-      "loss": 1544.8841,
-      "step": 570
-    },
-    {
-      "epoch": 4.421669106881406,
-      "eval_runtime": 19.633,
-      "eval_samples_per_second": 22.004,
-      "eval_steps_per_second": 5.501,
-      "step": 570
-    },
-    {
-      "epoch": 4.49975597852611,
-      "grad_norm": 314545.34375,
-      "learning_rate": 5.46875e-05,
-      "loss": 1318.7243,
-      "step": 580
-    },
-    {
-      "epoch": 4.49975597852611,
-      "eval_runtime": 19.6216,
-      "eval_samples_per_second": 22.017,
-      "eval_steps_per_second": 5.504,
-      "step": 580
-    },
-    {
-      "epoch": 4.577842850170815,
-      "grad_norm": 436113.09375,
-      "learning_rate": 5.3906250000000006e-05,
-      "loss": 1256.4427,
-      "step": 590
-    },
-    {
-      "epoch": 4.577842850170815,
-      "eval_runtime": 19.6143,
-      "eval_samples_per_second": 22.025,
-      "eval_steps_per_second": 5.506,
-      "step": 590
-    },
-    {
-      "epoch": 4.65592972181552,
-      "grad_norm": 307997.78125,
-      "learning_rate": 5.3125000000000004e-05,
-      "loss": 1325.2429,
-      "step": 600
-    },
-    {
-      "epoch": 4.65592972181552,
-      "eval_runtime": 19.6167,
-      "eval_samples_per_second": 22.022,
-      "eval_steps_per_second": 5.506,
-      "step": 600
-    },
-    {
-      "epoch": 4.7340165934602245,
-      "grad_norm": 383733.25,
-      "learning_rate": 5.234375e-05,
-      "loss": 1247.956,
-      "step": 610
-    },
-    {
-      "epoch": 4.7340165934602245,
-      "eval_runtime": 19.6214,
-      "eval_samples_per_second": 22.017,
-      "eval_steps_per_second": 5.504,
-      "step": 610
-    },
-    {
-      "epoch": 4.812103465104929,
-      "grad_norm": 434974.0,
-      "learning_rate": 5.15625e-05,
-      "loss": 1198.3052,
-      "step": 620
-    },
-    {
-      "epoch": 4.812103465104929,
-      "eval_runtime": 19.6132,
-      "eval_samples_per_second": 22.026,
-      "eval_steps_per_second": 5.506,
-      "step": 620
-    },
-    {
-      "epoch": 4.890190336749634,
-      "grad_norm": 182716.515625,
-      "learning_rate": 5.0781250000000004e-05,
-      "loss": 853.0629,
-      "step": 630
-    },
-    {
-      "epoch": 4.890190336749634,
-      "eval_runtime": 19.618,
-      "eval_samples_per_second": 22.021,
-      "eval_steps_per_second": 5.505,
-      "step": 630
-    },
-    {
-      "epoch": 4.968277208394339,
-      "grad_norm": 364455.15625,
-      "learning_rate": 5e-05,
-      "loss": 798.3182,
-      "step": 640
-    },
-    {
-      "epoch": 4.968277208394339,
-      "eval_runtime": 19.6019,
-      "eval_samples_per_second": 22.039,
-      "eval_steps_per_second": 5.51,
-      "step": 640
-    },
-    {
-      "epoch": 5.039043435822352,
-      "grad_norm": 185726.75,
-      "learning_rate": 4.921875e-05,
-      "loss": 753.334,
-      "step": 650
-    },
-    {
-      "epoch": 5.039043435822352,
-      "eval_runtime": 19.544,
-      "eval_samples_per_second": 22.104,
-      "eval_steps_per_second": 5.526,
-      "step": 650
-    },
-    {
-      "epoch": 5.1171303074670575,
-      "grad_norm": 219226.359375,
-      "learning_rate": 4.8437500000000005e-05,
-      "loss": 1082.2985,
-      "step": 660
-    },
-    {
-      "epoch": 5.1171303074670575,
-      "eval_runtime": 19.5817,
-      "eval_samples_per_second": 22.061,
-      "eval_steps_per_second": 5.515,
-      "step": 660
-    },
-    {
-      "epoch": 5.195217179111761,
-      "grad_norm": 207455.5625,
-      "learning_rate": 4.765625e-05,
-      "loss": 879.2348,
-      "step": 670
-    },
-    {
-      "epoch": 5.195217179111761,
-      "eval_runtime": 19.5896,
-      "eval_samples_per_second": 22.053,
-      "eval_steps_per_second": 5.513,
-      "step": 670
-    },
-    {
-      "epoch": 5.273304050756467,
-      "grad_norm": 379599.875,
-      "learning_rate": 4.6875e-05,
-      "loss": 896.7317,
-      "step": 680
-    },
-    {
-      "epoch": 5.273304050756467,
-      "eval_runtime": 19.5928,
-      "eval_samples_per_second": 22.049,
-      "eval_steps_per_second": 5.512,
-      "step": 680
-    },
-    {
-      "epoch": 5.351390922401171,
-      "grad_norm": 303185.625,
-      "learning_rate": 4.609375e-05,
-      "loss": 754.6702,
-      "step": 690
-    },
-    {
-      "epoch": 5.351390922401171,
-      "eval_runtime": 19.5979,
-      "eval_samples_per_second": 22.043,
-      "eval_steps_per_second": 5.511,
-      "step": 690
-    },
-    {
-      "epoch": 5.4294777940458765,
-      "grad_norm": 405251.96875,
-      "learning_rate": 4.5312500000000004e-05,
-      "loss": 715.7025,
-      "step": 700
-    },
-    {
-      "epoch": 5.4294777940458765,
-      "eval_runtime": 19.6118,
-      "eval_samples_per_second": 22.028,
-      "eval_steps_per_second": 5.507,
-      "step": 700
-    },
-    {
-      "epoch": 5.50756466569058,
-      "grad_norm": 204986.03125,
-      "learning_rate": 4.453125e-05,
-      "loss": 728.391,
-      "step": 710
-    },
-    {
-      "epoch": 5.50756466569058,
-      "eval_runtime": 19.6098,
-      "eval_samples_per_second": 22.03,
-      "eval_steps_per_second": 5.507,
-      "step": 710
-    },
-    {
-      "epoch": 5.585651537335286,
-      "grad_norm": 321820.75,
-      "learning_rate": 4.375e-05,
-      "loss": 699.9287,
-      "step": 720
-    },
-    {
-      "epoch": 5.585651537335286,
-      "eval_runtime": 19.618,
-      "eval_samples_per_second": 22.021,
-      "eval_steps_per_second": 5.505,
-      "step": 720
-    },
-    {
-      "epoch": 5.66373840897999,
-      "grad_norm": 168577.65625,
-      "learning_rate": 4.2968750000000004e-05,
-      "loss": 586.6525,
-      "step": 730
-    },
-    {
-      "epoch": 5.66373840897999,
-      "eval_runtime": 19.6206,
-      "eval_samples_per_second": 22.018,
-      "eval_steps_per_second": 5.504,
-      "step": 730
-    },
-    {
-      "epoch": 5.741825280624695,
-      "grad_norm": 244243.9375,
-      "learning_rate": 4.21875e-05,
-      "loss": 625.2781,
-      "step": 740
-    },
-    {
-      "epoch": 5.741825280624695,
-      "eval_runtime": 19.6218,
-      "eval_samples_per_second": 22.016,
-      "eval_steps_per_second": 5.504,
-      "step": 740
-    },
-    {
-      "epoch": 5.819912152269399,
-      "grad_norm": 192660.640625,
-      "learning_rate": 4.140625e-05,
-      "loss": 719.4099,
-      "step": 750
-    },
-    {
-      "epoch": 5.819912152269399,
-      "eval_runtime": 19.6162,
-      "eval_samples_per_second": 22.023,
-      "eval_steps_per_second": 5.506,
-      "step": 750
-    },
-    {
-      "epoch": 5.897999023914105,
-      "grad_norm": 146700.25,
-      "learning_rate": 4.0625000000000005e-05,
-      "loss": 577.4713,
-      "step": 760
-    },
-    {
-      "epoch": 5.897999023914105,
-      "eval_runtime": 19.6213,
-      "eval_samples_per_second": 22.017,
-      "eval_steps_per_second": 5.504,
-      "step": 760
-    },
-    {
-      "epoch": 5.976085895558809,
-      "grad_norm": 209883.296875,
-      "learning_rate": 3.984375e-05,
-      "loss": 637.9117,
-      "step": 770
-    },
-    {
-      "epoch": 5.976085895558809,
-      "eval_runtime": 19.6267,
-      "eval_samples_per_second": 22.011,
-      "eval_steps_per_second": 5.503,
-      "step": 770
-    },
-    {
-      "epoch": 6.046852122986823,
-      "grad_norm": 468637.6875,
-      "learning_rate": 3.90625e-05,
-      "loss": 621.1816,
-      "step": 780
-    },
-    {
-      "epoch": 6.046852122986823,
-      "eval_runtime": 19.6074,
-      "eval_samples_per_second": 22.032,
-      "eval_steps_per_second": 5.508,
-      "step": 780
-    },
-    {
-      "epoch": 6.124938994631528,
-      "grad_norm": 374385.40625,
-      "learning_rate": 3.828125e-05,
-      "loss": 914.6565,
-      "step": 790
-    },
-    {
-      "epoch": 6.124938994631528,
-      "eval_runtime": 19.626,
-      "eval_samples_per_second": 22.012,
-      "eval_steps_per_second": 5.503,
-      "step": 790
-    },
-    {
-      "epoch": 6.203025866276232,
-      "grad_norm": 283100.3125,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 830.0896,
-      "step": 800
-    },
-    {
-      "epoch": 6.203025866276232,
-      "eval_runtime": 19.6195,
-      "eval_samples_per_second": 22.019,
-      "eval_steps_per_second": 5.505,
-      "step": 800
-    },
-    {
-      "epoch": 6.281112737920937,
-      "grad_norm": 186444.921875,
-      "learning_rate": 3.671875e-05,
-      "loss": 822.068,
-      "step": 810
-    },
-    {
-      "epoch": 6.281112737920937,
-      "eval_runtime": 19.6377,
-      "eval_samples_per_second": 21.998,
-      "eval_steps_per_second": 5.5,
-      "step": 810
-    },
-    {
-      "epoch": 6.359199609565642,
-      "grad_norm": 431370.5,
-      "learning_rate": 3.59375e-05,
-      "loss": 690.5968,
-      "step": 820
-    },
-    {
-      "epoch": 6.359199609565642,
-      "eval_runtime": 19.6147,
-      "eval_samples_per_second": 22.024,
-      "eval_steps_per_second": 5.506,
-      "step": 820
-    },
-    {
-      "epoch": 6.4372864812103465,
-      "grad_norm": 435885.03125,
-      "learning_rate": 3.5156250000000004e-05,
-      "loss": 1016.4219,
-      "step": 830
-    },
-    {
-      "epoch": 6.4372864812103465,
-      "eval_runtime": 19.6089,
-      "eval_samples_per_second": 22.031,
-      "eval_steps_per_second": 5.508,
-      "step": 830
-    },
-    {
-      "epoch": 6.515373352855051,
-      "grad_norm": 473700.9375,
-      "learning_rate": 3.4375e-05,
-      "loss": 806.1664,
-      "step": 840
-    },
-    {
-      "epoch": 6.515373352855051,
-      "eval_runtime": 19.6159,
-      "eval_samples_per_second": 22.023,
-      "eval_steps_per_second": 5.506,
-      "step": 840
-    },
-    {
-      "epoch": 6.593460224499756,
-      "grad_norm": 398720.625,
-      "learning_rate": 3.359375e-05,
-      "loss": 668.8824,
-      "step": 850
-    },
-    {
-      "epoch": 6.593460224499756,
-      "eval_runtime": 19.6281,
-      "eval_samples_per_second": 22.009,
-      "eval_steps_per_second": 5.502,
-      "step": 850
-    },
-    {
-      "epoch": 6.671547096144461,
-      "grad_norm": 305606.28125,
-      "learning_rate": 3.2812500000000005e-05,
-      "loss": 522.7901,
-      "step": 860
-    },
-    {
-      "epoch": 6.671547096144461,
-      "eval_runtime": 19.6214,
-      "eval_samples_per_second": 22.017,
-      "eval_steps_per_second": 5.504,
-      "step": 860
-    },
-    {
-      "epoch": 6.7496339677891655,
-      "grad_norm": 263199.21875,
-      "learning_rate": 3.203125e-05,
-      "loss": 559.4416,
-      "step": 870
-    },
-    {
-      "epoch": 6.7496339677891655,
-      "eval_runtime": 19.6359,
-      "eval_samples_per_second": 22.0,
-      "eval_steps_per_second": 5.5,
-      "step": 870
-    },
-    {
-      "epoch": 6.82772083943387,
-      "grad_norm": 203541.921875,
-      "learning_rate": 3.125e-05,
-      "loss": 602.3201,
-      "step": 880
-    },
-    {
-      "epoch": 6.82772083943387,
-      "eval_runtime": 19.6292,
-      "eval_samples_per_second": 22.008,
-      "eval_steps_per_second": 5.502,
-      "step": 880
-    },
-    {
-      "epoch": 6.905807711078575,
-      "grad_norm": 109014.71875,
-      "learning_rate": 3.0468750000000002e-05,
-      "loss": 527.6462,
-      "step": 890
-    },
-    {
-      "epoch": 6.905807711078575,
-      "eval_runtime": 19.615,
-      "eval_samples_per_second": 22.024,
-      "eval_steps_per_second": 5.506,
-      "step": 890
-    },
-    {
-      "epoch": 6.98389458272328,
-      "grad_norm": 173269.515625,
-      "learning_rate": 2.96875e-05,
-      "loss": 509.9485,
-      "step": 900
-    },
-    {
-      "epoch": 6.98389458272328,
-      "eval_runtime": 19.6287,
-      "eval_samples_per_second": 22.009,
-      "eval_steps_per_second": 5.502,
-      "step": 900
-    },
-    {
-      "epoch": 7.054660810151294,
-      "grad_norm": 89940.78125,
-      "learning_rate": 2.890625e-05,
-      "loss": 514.7005,
-      "step": 910
-    },
-    {
-      "epoch": 7.054660810151294,
-      "eval_runtime": 19.6378,
-      "eval_samples_per_second": 21.998,
-      "eval_steps_per_second": 5.5,
-      "step": 910
-    },
-    {
-      "epoch": 7.132747681795998,
-      "grad_norm": 64957.203125,
-      "learning_rate": 2.8125000000000003e-05,
-      "loss": 516.4828,
-      "step": 920
-    },
-    {
-      "epoch": 7.132747681795998,
-      "eval_runtime": 19.6159,
-      "eval_samples_per_second": 22.023,
-      "eval_steps_per_second": 5.506,
-      "step": 920
-    },
-    {
-      "epoch": 7.210834553440703,
-      "grad_norm": 191568.875,
-      "learning_rate": 2.734375e-05,
-      "loss": 469.4625,
-      "step": 930
-    },
-    {
-      "epoch": 7.210834553440703,
-      "eval_runtime": 19.6149,
-      "eval_samples_per_second": 22.024,
-      "eval_steps_per_second": 5.506,
-      "step": 930
-    },
-    {
-      "epoch": 7.288921425085407,
-      "grad_norm": 180467.84375,
-      "learning_rate": 2.6562500000000002e-05,
-      "loss": 627.1263,
-      "step": 940
-    },
-    {
-      "epoch": 7.288921425085407,
-      "eval_runtime": 19.6273,
-      "eval_samples_per_second": 22.01,
-      "eval_steps_per_second": 5.503,
-      "step": 940
-    },
-    {
-      "epoch": 7.367008296730113,
-      "grad_norm": 175262.3125,
-      "learning_rate": 2.578125e-05,
-      "loss": 497.1456,
-      "step": 950
-    },
-    {
-      "epoch": 7.367008296730113,
-      "eval_runtime": 19.6298,
-      "eval_samples_per_second": 22.007,
-      "eval_steps_per_second": 5.502,
-      "step": 950
-    },
-    {
-      "epoch": 7.4450951683748166,
-      "grad_norm": 194304.703125,
-      "learning_rate": 2.5e-05,
-      "loss": 651.0766,
-      "step": 960
-    },
-    {
-      "epoch": 7.4450951683748166,
-      "eval_runtime": 19.6413,
-      "eval_samples_per_second": 21.994,
-      "eval_steps_per_second": 5.499,
-      "step": 960
-    },
-    {
-      "epoch": 7.523182040019522,
-      "grad_norm": 221815.171875,
-      "learning_rate": 2.4218750000000003e-05,
-      "loss": 419.7869,
-      "step": 970
-    },
-    {
-      "epoch": 7.523182040019522,
-      "eval_runtime": 19.6255,
-      "eval_samples_per_second": 22.012,
-      "eval_steps_per_second": 5.503,
-      "step": 970
-    },
-    {
-      "epoch": 7.601268911664226,
-      "grad_norm": 330153.84375,
-      "learning_rate": 2.34375e-05,
-      "loss": 606.2052,
-      "step": 980
-    },
-    {
-      "epoch": 7.601268911664226,
-      "eval_runtime": 19.6246,
-      "eval_samples_per_second": 22.013,
-      "eval_steps_per_second": 5.503,
-      "step": 980
-    },
-    {
-      "epoch": 7.679355783308932,
-      "grad_norm": 134138.4375,
-      "learning_rate": 2.2656250000000002e-05,
-      "loss": 636.721,
-      "step": 990
-    },
-    {
-      "epoch": 7.679355783308932,
-      "eval_runtime": 19.622,
-      "eval_samples_per_second": 22.016,
-      "eval_steps_per_second": 5.504,
-      "step": 990
-    },
-    {
-      "epoch": 7.7574426549536355,
-      "grad_norm": 86497.265625,
-      "learning_rate": 2.1875e-05,
-      "loss": 565.6015,
-      "step": 1000
-    },
-    {
-      "epoch": 7.7574426549536355,
-      "eval_runtime": 19.6167,
-      "eval_samples_per_second": 22.022,
-      "eval_steps_per_second": 5.506,
-      "step": 1000
-    },
-    {
-      "epoch": 7.835529526598341,
-      "grad_norm": 256321.390625,
-      "learning_rate": 2.109375e-05,
-      "loss": 383.8543,
-      "step": 1010
-    },
-    {
-      "epoch": 7.835529526598341,
-      "eval_runtime": 19.6312,
-      "eval_samples_per_second": 22.006,
-      "eval_steps_per_second": 5.501,
-      "step": 1010
-    },
-    {
-      "epoch": 7.913616398243045,
-      "grad_norm": 300360.125,
-      "learning_rate": 2.0312500000000002e-05,
-      "loss": 386.0633,
-      "step": 1020
-    },
-    {
-      "epoch": 7.913616398243045,
-      "eval_runtime": 19.6333,
-      "eval_samples_per_second": 22.003,
-      "eval_steps_per_second": 5.501,
-      "step": 1020
-    },
-    {
-      "epoch": 7.991703269887751,
-      "grad_norm": 65186.7578125,
-      "learning_rate": 1.953125e-05,
-      "loss": 379.998,
-      "step": 1030
-    },
-    {
-      "epoch": 7.991703269887751,
-      "eval_runtime": 19.6079,
-      "eval_samples_per_second": 22.032,
-      "eval_steps_per_second": 5.508,
-      "step": 1030
-    },
-    {
-      "epoch": 8.062469497315764,
-      "grad_norm": 306364.5,
-      "learning_rate": 1.8750000000000002e-05,
-      "loss": 458.2917,
-      "step": 1040
-    },
-    {
-      "epoch": 8.062469497315764,
-      "eval_runtime": 19.626,
-      "eval_samples_per_second": 22.012,
-      "eval_steps_per_second": 5.503,
-      "step": 1040
-    },
-    {
-      "epoch": 8.140556368960468,
-      "grad_norm": 287573.96875,
-      "learning_rate": 1.796875e-05,
-      "loss": 459.69,
-      "step": 1050
-    },
-    {
-      "epoch": 8.140556368960468,
-      "eval_runtime": 19.64,
-      "eval_samples_per_second": 21.996,
-      "eval_steps_per_second": 5.499,
-      "step": 1050
-    },
-    {
-      "epoch": 8.218643240605173,
-      "grad_norm": 87142.5625,
-      "learning_rate": 1.71875e-05,
-      "loss": 380.1467,
-      "step": 1060
-    },
-    {
-      "epoch": 8.218643240605173,
-      "eval_runtime": 19.6334,
-      "eval_samples_per_second": 22.003,
-      "eval_steps_per_second": 5.501,
-      "step": 1060
-    },
-    {
-      "epoch": 8.296730112249879,
-      "grad_norm": 301649.96875,
-      "learning_rate": 1.6406250000000002e-05,
-      "loss": 384.5057,
-      "step": 1070
-    },
-    {
-      "epoch": 8.296730112249879,
-      "eval_runtime": 19.6212,
-      "eval_samples_per_second": 22.017,
-      "eval_steps_per_second": 5.504,
-      "step": 1070
-    },
-    {
-      "epoch": 8.374816983894583,
-      "grad_norm": 236951.1875,
-      "learning_rate": 1.5625e-05,
-      "loss": 374.7868,
-      "step": 1080
-    },
-    {
-      "epoch": 8.374816983894583,
-      "eval_runtime": 19.6187,
-      "eval_samples_per_second": 22.02,
-      "eval_steps_per_second": 5.505,
-      "step": 1080
-    },
-    {
-      "epoch": 8.452903855539287,
-      "grad_norm": 76360.2734375,
-      "learning_rate": 1.484375e-05,
-      "loss": 312.2099,
-      "step": 1090
-    },
-    {
-      "epoch": 8.452903855539287,
-      "eval_runtime": 19.6209,
-      "eval_samples_per_second": 22.017,
-      "eval_steps_per_second": 5.504,
-      "step": 1090
-    },
-    {
-      "epoch": 8.530990727183992,
-      "grad_norm": 76876.0859375,
-      "learning_rate": 1.4062500000000001e-05,
-      "loss": 303.1329,
-      "step": 1100
-    },
-    {
-      "epoch": 8.530990727183992,
-      "eval_runtime": 19.6126,
-      "eval_samples_per_second": 22.027,
-      "eval_steps_per_second": 5.507,
-      "step": 1100
-    },
-    {
-      "epoch": 8.609077598828698,
-      "grad_norm": 80524.609375,
-      "learning_rate": 1.3281250000000001e-05,
-      "loss": 336.2521,
-      "step": 1110
-    },
-    {
-      "epoch": 8.609077598828698,
-      "eval_runtime": 19.5907,
-      "eval_samples_per_second": 22.051,
-      "eval_steps_per_second": 5.513,
-      "step": 1110
-    },
-    {
-      "epoch": 8.687164470473402,
-      "grad_norm": 114438.3828125,
-      "learning_rate": 1.25e-05,
-      "loss": 342.3281,
-      "step": 1120
-    },
-    {
-      "epoch": 8.687164470473402,
-      "eval_runtime": 19.614,
-      "eval_samples_per_second": 22.025,
-      "eval_steps_per_second": 5.506,
-      "step": 1120
-    },
-    {
-      "epoch": 8.765251342118106,
-      "grad_norm": 281197.375,
-      "learning_rate": 1.171875e-05,
-      "loss": 358.492,
-      "step": 1130
-    },
-    {
-      "epoch": 8.765251342118106,
-      "eval_runtime": 19.5986,
-      "eval_samples_per_second": 22.042,
-      "eval_steps_per_second": 5.511,
-      "step": 1130
-    },
-    {
-      "epoch": 8.843338213762811,
-      "grad_norm": 39132.8515625,
-      "learning_rate": 1.09375e-05,
-      "loss": 297.0417,
-      "step": 1140
-    },
-    {
-      "epoch": 8.843338213762811,
-      "eval_runtime": 19.6013,
-      "eval_samples_per_second": 22.039,
-      "eval_steps_per_second": 5.51,
-      "step": 1140
-    },
-    {
-      "epoch": 8.921425085407517,
-      "grad_norm": 270795.65625,
-      "learning_rate": 1.0156250000000001e-05,
-      "loss": 306.2402,
-      "step": 1150
-    },
-    {
-      "epoch": 8.921425085407517,
-      "eval_runtime": 19.6264,
-      "eval_samples_per_second": 22.011,
-      "eval_steps_per_second": 5.503,
-      "step": 1150
-    },
-    {
-      "epoch": 8.99951195705222,
-      "grad_norm": 124614.0390625,
-      "learning_rate": 9.375000000000001e-06,
-      "loss": 354.61,
-      "step": 1160
-    },
-    {
-      "epoch": 8.99951195705222,
-      "eval_runtime": 19.6258,
-      "eval_samples_per_second": 22.012,
-      "eval_steps_per_second": 5.503,
-      "step": 1160
-    },
-    {
-      "epoch": 9.070278184480234,
-      "grad_norm": 194401.953125,
-      "learning_rate": 8.59375e-06,
-      "loss": 306.9392,
-      "step": 1170
-    },
-    {
-      "epoch": 9.070278184480234,
-      "eval_runtime": 19.6327,
-      "eval_samples_per_second": 22.004,
-      "eval_steps_per_second": 5.501,
-      "step": 1170
-    },
-    {
-      "epoch": 9.14836505612494,
-      "grad_norm": 134935.84375,
-      "learning_rate": 7.8125e-06,
-      "loss": 309.7358,
-      "step": 1180
-    },
-    {
-      "epoch": 9.14836505612494,
-      "eval_runtime": 19.625,
-      "eval_samples_per_second": 22.013,
-      "eval_steps_per_second": 5.503,
-      "step": 1180
-    },
-    {
-      "epoch": 9.226451927769643,
-      "grad_norm": 169914.25,
-      "learning_rate": 7.031250000000001e-06,
-      "loss": 316.8677,
-      "step": 1190
-    },
-    {
-      "epoch": 9.226451927769643,
-      "eval_runtime": 19.6279,
-      "eval_samples_per_second": 22.01,
-      "eval_steps_per_second": 5.502,
-      "step": 1190
-    },
-    {
-      "epoch": 9.304538799414349,
-      "grad_norm": 145255.390625,
-      "learning_rate": 6.25e-06,
-      "loss": 281.0021,
-      "step": 1200
-    },
-    {
-      "epoch": 9.304538799414349,
-      "eval_runtime": 19.6322,
-      "eval_samples_per_second": 22.005,
-      "eval_steps_per_second": 5.501,
-      "step": 1200
-    },
-    {
-      "epoch": 9.382625671059053,
-      "grad_norm": 77945.0625,
-      "learning_rate": 5.46875e-06,
-      "loss": 225.1448,
-      "step": 1210
-    },
-    {
-      "epoch": 9.382625671059053,
-      "eval_runtime": 19.6173,
-      "eval_samples_per_second": 22.021,
-      "eval_steps_per_second": 5.505,
-      "step": 1210
-    },
-    {
-      "epoch": 9.460712542703758,
-      "grad_norm": 106036.7421875,
-      "learning_rate": 4.6875000000000004e-06,
-      "loss": 260.6584,
-      "step": 1220
-    },
-    {
-      "epoch": 9.460712542703758,
-      "eval_runtime": 19.6147,
-      "eval_samples_per_second": 22.024,
-      "eval_steps_per_second": 5.506,
-      "step": 1220
-    },
-    {
-      "epoch": 9.538799414348462,
-      "grad_norm": 103023.9296875,
-      "learning_rate": 3.90625e-06,
-      "loss": 246.4592,
-      "step": 1230
-    },
-    {
-      "epoch": 9.538799414348462,
-      "eval_runtime": 19.6287,
-      "eval_samples_per_second": 22.009,
-      "eval_steps_per_second": 5.502,
-      "step": 1230
-    },
-    {
-      "epoch": 9.616886285993168,
-      "grad_norm": 69943.5,
-      "learning_rate": 3.125e-06,
-      "loss": 254.6815,
-      "step": 1240
-    },
-    {
-      "epoch": 9.616886285993168,
-      "eval_runtime": 19.6092,
-      "eval_samples_per_second": 22.031,
-      "eval_steps_per_second": 5.508,
-      "step": 1240
-    },
-    {
-      "epoch": 9.694973157637872,
-      "grad_norm": 157203.640625,
-      "learning_rate": 2.3437500000000002e-06,
-      "loss": 247.872,
-      "step": 1250
-    },
-    {
-      "epoch": 9.694973157637872,
-      "eval_runtime": 19.6301,
-      "eval_samples_per_second": 22.007,
-      "eval_steps_per_second": 5.502,
-      "step": 1250
-    },
-    {
-      "epoch": 9.773060029282577,
-      "grad_norm": 40032.71484375,
-      "learning_rate": 1.5625e-06,
-      "loss": 239.199,
-      "step": 1260
-    },
-    {
-      "epoch": 9.773060029282577,
-      "eval_runtime": 19.6402,
-      "eval_samples_per_second": 21.996,
-      "eval_steps_per_second": 5.499,
-      "step": 1260
-    },
-    {
-      "epoch": 9.851146900927281,
-      "grad_norm": 77447.0546875,
-      "learning_rate": 7.8125e-07,
-      "loss": 222.1013,
-      "step": 1270
-    },
-    {
-      "epoch": 9.851146900927281,
-      "eval_runtime": 19.623,
-      "eval_samples_per_second": 22.015,
-      "eval_steps_per_second": 5.504,
-      "step": 1270
-    },
-    {
-      "epoch": 9.929233772571987,
-      "grad_norm": 100750.3046875,
-      "learning_rate": 0.0,
-      "loss": 234.0448,
-      "step": 1280
-    },
-    {
-      "epoch": 9.929233772571987,
-      "eval_runtime": 19.621,
-      "eval_samples_per_second": 22.017,
-      "eval_steps_per_second": 5.504,
-      "step": 1280
     }
   ],
   "logging_steps": 10,
@@ -1813,7 +189,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 10,
+  "global_step": 129,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.07808687164470474,
+      "grad_norm": 562671.25,
       "learning_rate": 9.921875000000001e-05,
+      "loss": 41909.175,
       "step": 10
     },
     {
       "epoch": 0.07808687164470474,
+      "eval_runtime": 19.6603,
+      "eval_samples_per_second": 21.973,
+      "eval_steps_per_second": 5.493,
       "step": 10
     },
     {
       "epoch": 0.15617374328940947,
+      "grad_norm": 344896.03125,
       "learning_rate": 9.84375e-05,
+      "loss": 13890.8641,
       "step": 20
     },
     {
       "epoch": 0.15617374328940947,
+      "eval_runtime": 19.7074,
+      "eval_samples_per_second": 21.921,
+      "eval_steps_per_second": 5.48,
       "step": 20
     },
     {
       "epoch": 0.2342606149341142,
+      "grad_norm": 515524.21875,
       "learning_rate": 9.765625e-05,
+      "loss": 11401.4898,
       "step": 30
     },
     {
       "epoch": 0.2342606149341142,
+      "eval_runtime": 19.7344,
+      "eval_samples_per_second": 21.891,
+      "eval_steps_per_second": 5.473,
       "step": 30
     },
     {
       "epoch": 0.31234748657881894,
+      "grad_norm": 388208.53125,
       "learning_rate": 9.687500000000001e-05,
+      "loss": 6596.7703,
       "step": 40
     },
     {
       "epoch": 0.31234748657881894,
+      "eval_runtime": 19.7515,
+      "eval_samples_per_second": 21.872,
+      "eval_steps_per_second": 5.468,
       "step": 40
     },
     {
       "epoch": 0.3904343582235237,
+      "grad_norm": 236512.34375,
       "learning_rate": 9.609375e-05,
+      "loss": 3515.6215,
       "step": 50
     },
     {
       "epoch": 0.3904343582235237,
+      "eval_runtime": 19.738,
+      "eval_samples_per_second": 21.887,
+      "eval_steps_per_second": 5.472,
       "step": 50
     },
     {
       "epoch": 0.4685212298682284,
+      "grad_norm": 694649.5625,
       "learning_rate": 9.53125e-05,
+      "loss": 4275.273,
       "step": 60
     },
     {
       "epoch": 0.4685212298682284,
+      "eval_runtime": 19.7487,
+      "eval_samples_per_second": 21.875,
+      "eval_steps_per_second": 5.469,
       "step": 60
     },
     {
       "epoch": 0.5466081015129332,
+      "grad_norm": 375526.53125,
       "learning_rate": 9.453125000000001e-05,
+      "loss": 5022.9281,
       "step": 70
     },
     {
       "epoch": 0.5466081015129332,
+      "eval_runtime": 19.7307,
+      "eval_samples_per_second": 21.895,
+      "eval_steps_per_second": 5.474,
       "step": 70
     },
     {
       "epoch": 0.6246949731576379,
+      "grad_norm": 603116.25,
       "learning_rate": 9.375e-05,
+      "loss": 3630.4668,
       "step": 80
     },
     {
       "epoch": 0.6246949731576379,
+      "eval_runtime": 19.7405,
+      "eval_samples_per_second": 21.884,
+      "eval_steps_per_second": 5.471,
       "step": 80
     },
     {
       "epoch": 0.7027818448023426,
+      "grad_norm": 440137.71875,
       "learning_rate": 9.296875e-05,
+      "loss": 3183.9186,
       "step": 90
     },
     {
       "epoch": 0.7027818448023426,
+      "eval_runtime": 19.7964,
+      "eval_samples_per_second": 21.822,
+      "eval_steps_per_second": 5.456,
       "step": 90
     },
     {
       "epoch": 0.7808687164470474,
+      "grad_norm": 574069.4375,
       "learning_rate": 9.21875e-05,
+      "loss": 3536.15,
       "step": 100
     },
     {
       "epoch": 0.7808687164470474,
+      "eval_runtime": 19.7759,
+      "eval_samples_per_second": 21.845,
+      "eval_steps_per_second": 5.461,
       "step": 100
     },
     {
       "epoch": 0.8589555880917521,
+      "grad_norm": 639365.375,
       "learning_rate": 9.140625e-05,
+      "loss": 4252.8562,
       "step": 110
     },
     {
       "epoch": 0.8589555880917521,
+      "eval_runtime": 19.7724,
+      "eval_samples_per_second": 21.849,
+      "eval_steps_per_second": 5.462,
       "step": 110
     },
     {
       "epoch": 0.9370424597364568,
+      "grad_norm": 398296.34375,
       "learning_rate": 9.062500000000001e-05,
+      "loss": 3483.168,
       "step": 120
     },
     {
       "epoch": 0.9370424597364568,
+      "eval_runtime": 19.7473,
+      "eval_samples_per_second": 21.876,
+      "eval_steps_per_second": 5.469,
       "step": 120
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38c6a63ec4c4930b895b9b2c38482c3f00670f918edf566cda7d6c982c1fa789
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:00e1815a75e87f99681c46c6d470e12a833e128941d3a562bbcb63c47c459934
 size 5368