Training in progress, epoch 1, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +14 -882
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa0822fc409472b4df347ce0c6dbb5bf1d445c794af75086f172bf6c2394a18c
 size 2708729576

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a4c6f5313c5413e947c3b9ae8fbdcd3db5cfb17ae9d38f3845a0d90a0a99de4
 size 2708729576

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cf8fcb46ff34fb6b3c884e340b62e5087660faddc671c8d46dc2f75938bf059c
 size 52499200

 version https://git-lfs.github.com/spec/v1
+oid sha256:fa9bcb9d383cd758daed3e9bdac436feaaa8ace4983afd451ce084e4618839ef
 size 52499200

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a45b784475c6c47021a6ff08c5d6a553172a50192f5de3c134961024cdbbaf9f
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:b35b4cd4104958a3e34a87e84eee852763c80157fefbeae8abd4d6ed6ea94168
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b514faa73b6e320d8ae19d93f3da594146e59f1072af645ee09b9ce747afd0a1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bca4dbe650e04bc8012dd3f1938dfb2a637329721abd75c3bd59d28a64007b54
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,911 +1,43 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 5.0,
-  "eval_steps": 10,
-  "global_step": 645,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
-    {
-      "epoch": 0.07808687164470474,
-      "grad_norm": 562671.25,
-      "learning_rate": 9.921875000000001e-05,
-      "loss": 41909.175,
-      "step": 10
-    },
-    {
-      "epoch": 0.07808687164470474,
-      "eval_runtime": 19.6603,
-      "eval_samples_per_second": 21.973,
-      "eval_steps_per_second": 5.493,
-      "step": 10
-    },
-    {
-      "epoch": 0.15617374328940947,
-      "grad_norm": 344896.03125,
-      "learning_rate": 9.84375e-05,
-      "loss": 13890.8641,
-      "step": 20
-    },
-    {
-      "epoch": 0.15617374328940947,
-      "eval_runtime": 19.7074,
-      "eval_samples_per_second": 21.921,
-      "eval_steps_per_second": 5.48,
-      "step": 20
-    },
-    {
-      "epoch": 0.2342606149341142,
-      "grad_norm": 515524.21875,
-      "learning_rate": 9.765625e-05,
-      "loss": 11401.4898,
-      "step": 30
-    },
-    {
-      "epoch": 0.2342606149341142,
-      "eval_runtime": 19.7344,
-      "eval_samples_per_second": 21.891,
-      "eval_steps_per_second": 5.473,
-      "step": 30
-    },
-    {
-      "epoch": 0.31234748657881894,
-      "grad_norm": 388208.53125,
-      "learning_rate": 9.687500000000001e-05,
-      "loss": 6596.7703,
-      "step": 40
-    },
-    {
-      "epoch": 0.31234748657881894,
-      "eval_runtime": 19.7515,
-      "eval_samples_per_second": 21.872,
-      "eval_steps_per_second": 5.468,
-      "step": 40
-    },
     {
       "epoch": 0.3904343582235237,
-      "grad_norm": 236512.34375,
       "learning_rate": 9.609375e-05,
-      "loss": 3515.6215,
       "step": 50
     },
     {
       "epoch": 0.3904343582235237,
-      "eval_runtime": 19.738,
-      "eval_samples_per_second": 21.887,
-      "eval_steps_per_second": 5.472,
       "step": 50
     },
-    {
-      "epoch": 0.4685212298682284,
-      "grad_norm": 694649.5625,
-      "learning_rate": 9.53125e-05,
-      "loss": 4275.273,
-      "step": 60
-    },
-    {
-      "epoch": 0.4685212298682284,
-      "eval_runtime": 19.7487,
-      "eval_samples_per_second": 21.875,
-      "eval_steps_per_second": 5.469,
-      "step": 60
-    },
-    {
-      "epoch": 0.5466081015129332,
-      "grad_norm": 375526.53125,
-      "learning_rate": 9.453125000000001e-05,
-      "loss": 5022.9281,
-      "step": 70
-    },
-    {
-      "epoch": 0.5466081015129332,
-      "eval_runtime": 19.7307,
-      "eval_samples_per_second": 21.895,
-      "eval_steps_per_second": 5.474,
-      "step": 70
-    },
-    {
-      "epoch": 0.6246949731576379,
-      "grad_norm": 603116.25,
-      "learning_rate": 9.375e-05,
-      "loss": 3630.4668,
-      "step": 80
-    },
-    {
-      "epoch": 0.6246949731576379,
-      "eval_runtime": 19.7405,
-      "eval_samples_per_second": 21.884,
-      "eval_steps_per_second": 5.471,
-      "step": 80
-    },
-    {
-      "epoch": 0.7027818448023426,
-      "grad_norm": 440137.71875,
-      "learning_rate": 9.296875e-05,
-      "loss": 3183.9186,
-      "step": 90
-    },
-    {
-      "epoch": 0.7027818448023426,
-      "eval_runtime": 19.7964,
-      "eval_samples_per_second": 21.822,
-      "eval_steps_per_second": 5.456,
-      "step": 90
-    },
     {
       "epoch": 0.7808687164470474,
-      "grad_norm": 574069.4375,
       "learning_rate": 9.21875e-05,
-      "loss": 3536.15,
       "step": 100
     },
     {
       "epoch": 0.7808687164470474,
-      "eval_runtime": 19.7759,
-      "eval_samples_per_second": 21.845,
-      "eval_steps_per_second": 5.461,
-      "step": 100
-    },
-    {
-      "epoch": 0.8589555880917521,
-      "grad_norm": 639365.375,
-      "learning_rate": 9.140625e-05,
-      "loss": 4252.8562,
-      "step": 110
-    },
-    {
-      "epoch": 0.8589555880917521,
-      "eval_runtime": 19.7724,
-      "eval_samples_per_second": 21.849,
       "eval_steps_per_second": 5.462,
-      "step": 110
-    },
-    {
-      "epoch": 0.9370424597364568,
-      "grad_norm": 398296.34375,
-      "learning_rate": 9.062500000000001e-05,
-      "loss": 3483.168,
-      "step": 120
-    },
-    {
-      "epoch": 0.9370424597364568,
-      "eval_runtime": 19.7473,
-      "eval_samples_per_second": 21.876,
-      "eval_steps_per_second": 5.469,
-      "step": 120
-    },
-    {
-      "epoch": 1.0078086871644705,
-      "grad_norm": 307601.53125,
-      "learning_rate": 8.984375e-05,
-      "loss": 3748.8004,
-      "step": 130
-    },
-    {
-      "epoch": 1.0078086871644705,
-      "eval_runtime": 19.6206,
-      "eval_samples_per_second": 22.018,
-      "eval_steps_per_second": 5.504,
-      "step": 130
-    },
-    {
-      "epoch": 1.0858955588091752,
-      "grad_norm": 535453.9375,
-      "learning_rate": 8.90625e-05,
-      "loss": 3701.0125,
-      "step": 140
-    },
-    {
-      "epoch": 1.0858955588091752,
-      "eval_runtime": 19.714,
-      "eval_samples_per_second": 21.913,
-      "eval_steps_per_second": 5.478,
-      "step": 140
-    },
-    {
-      "epoch": 1.16398243045388,
-      "grad_norm": 578524.75,
-      "learning_rate": 8.828125000000001e-05,
-      "loss": 3222.8713,
-      "step": 150
-    },
-    {
-      "epoch": 1.16398243045388,
-      "eval_runtime": 19.7417,
-      "eval_samples_per_second": 21.883,
-      "eval_steps_per_second": 5.471,
-      "step": 150
-    },
-    {
-      "epoch": 1.2420693020985847,
-      "grad_norm": 413461.9375,
-      "learning_rate": 8.75e-05,
-      "loss": 3225.8557,
-      "step": 160
-    },
-    {
-      "epoch": 1.2420693020985847,
-      "eval_runtime": 19.7549,
-      "eval_samples_per_second": 21.868,
-      "eval_steps_per_second": 5.467,
-      "step": 160
-    },
-    {
-      "epoch": 1.3201561737432894,
-      "grad_norm": 473611.9375,
-      "learning_rate": 8.671875e-05,
-      "loss": 2951.6514,
-      "step": 170
-    },
-    {
-      "epoch": 1.3201561737432894,
-      "eval_runtime": 19.7505,
-      "eval_samples_per_second": 21.873,
-      "eval_steps_per_second": 5.468,
-      "step": 170
-    },
-    {
-      "epoch": 1.3982430453879942,
-      "grad_norm": 477603.59375,
-      "learning_rate": 8.593750000000001e-05,
-      "loss": 3479.666,
-      "step": 180
-    },
-    {
-      "epoch": 1.3982430453879942,
-      "eval_runtime": 19.7691,
-      "eval_samples_per_second": 21.852,
-      "eval_steps_per_second": 5.463,
-      "step": 180
-    },
-    {
-      "epoch": 1.476329917032699,
-      "grad_norm": 284746.375,
-      "learning_rate": 8.515625e-05,
-      "loss": 2754.5521,
-      "step": 190
-    },
-    {
-      "epoch": 1.476329917032699,
-      "eval_runtime": 19.7613,
-      "eval_samples_per_second": 21.861,
-      "eval_steps_per_second": 5.465,
-      "step": 190
-    },
-    {
-      "epoch": 1.5544167886774036,
-      "grad_norm": 583813.5625,
-      "learning_rate": 8.4375e-05,
-      "loss": 1812.6566,
-      "step": 200
-    },
-    {
-      "epoch": 1.5544167886774036,
-      "eval_runtime": 19.7512,
-      "eval_samples_per_second": 21.872,
-      "eval_steps_per_second": 5.468,
-      "step": 200
-    },
-    {
-      "epoch": 1.6325036603221084,
-      "grad_norm": 277886.28125,
-      "learning_rate": 8.359375000000001e-05,
-      "loss": 2136.5822,
-      "step": 210
-    },
-    {
-      "epoch": 1.6325036603221084,
-      "eval_runtime": 19.746,
-      "eval_samples_per_second": 21.878,
-      "eval_steps_per_second": 5.469,
-      "step": 210
-    },
-    {
-      "epoch": 1.710590531966813,
-      "grad_norm": 322902.34375,
-      "learning_rate": 8.28125e-05,
-      "loss": 2078.6055,
-      "step": 220
-    },
-    {
-      "epoch": 1.710590531966813,
-      "eval_runtime": 19.7299,
-      "eval_samples_per_second": 21.896,
-      "eval_steps_per_second": 5.474,
-      "step": 220
-    },
-    {
-      "epoch": 1.7886774036115178,
-      "grad_norm": 453730.34375,
-      "learning_rate": 8.203125e-05,
-      "loss": 2769.8313,
-      "step": 230
-    },
-    {
-      "epoch": 1.7886774036115178,
-      "eval_runtime": 19.7557,
-      "eval_samples_per_second": 21.867,
-      "eval_steps_per_second": 5.467,
-      "step": 230
-    },
-    {
-      "epoch": 1.8667642752562226,
-      "grad_norm": 267086.625,
-      "learning_rate": 8.125000000000001e-05,
-      "loss": 1964.433,
-      "step": 240
-    },
-    {
-      "epoch": 1.8667642752562226,
-      "eval_runtime": 19.7438,
-      "eval_samples_per_second": 21.88,
-      "eval_steps_per_second": 5.47,
-      "step": 240
-    },
-    {
-      "epoch": 1.9448511469009273,
-      "grad_norm": 587362.4375,
-      "learning_rate": 8.046875e-05,
-      "loss": 1856.9432,
-      "step": 250
-    },
-    {
-      "epoch": 1.9448511469009273,
-      "eval_runtime": 19.8026,
-      "eval_samples_per_second": 21.815,
-      "eval_steps_per_second": 5.454,
-      "step": 250
-    },
-    {
-      "epoch": 2.015617374328941,
-      "grad_norm": 502681.75,
-      "learning_rate": 7.96875e-05,
-      "loss": 3382.1129,
-      "step": 260
-    },
-    {
-      "epoch": 2.015617374328941,
-      "eval_runtime": 19.6846,
-      "eval_samples_per_second": 21.946,
-      "eval_steps_per_second": 5.487,
-      "step": 260
-    },
-    {
-      "epoch": 2.0937042459736457,
-      "grad_norm": 191029.828125,
-      "learning_rate": 7.890625000000001e-05,
-      "loss": 2202.6236,
-      "step": 270
-    },
-    {
-      "epoch": 2.0937042459736457,
-      "eval_runtime": 19.7242,
-      "eval_samples_per_second": 21.902,
-      "eval_steps_per_second": 5.476,
-      "step": 270
-    },
-    {
-      "epoch": 2.1717911176183504,
-      "grad_norm": 262116.109375,
-      "learning_rate": 7.8125e-05,
-      "loss": 1782.3984,
-      "step": 280
-    },
-    {
-      "epoch": 2.1717911176183504,
-      "eval_runtime": 19.7531,
-      "eval_samples_per_second": 21.87,
-      "eval_steps_per_second": 5.467,
-      "step": 280
-    },
-    {
-      "epoch": 2.249877989263055,
-      "grad_norm": 389979.4375,
-      "learning_rate": 7.734375e-05,
-      "loss": 1784.0506,
-      "step": 290
-    },
-    {
-      "epoch": 2.249877989263055,
-      "eval_runtime": 19.7431,
-      "eval_samples_per_second": 21.881,
-      "eval_steps_per_second": 5.47,
-      "step": 290
-    },
-    {
-      "epoch": 2.32796486090776,
-      "grad_norm": 392025.96875,
-      "learning_rate": 7.65625e-05,
-      "loss": 1743.6416,
-      "step": 300
-    },
-    {
-      "epoch": 2.32796486090776,
-      "eval_runtime": 19.7493,
-      "eval_samples_per_second": 21.874,
-      "eval_steps_per_second": 5.469,
-      "step": 300
-    },
-    {
-      "epoch": 2.4060517325524646,
-      "grad_norm": 424892.03125,
-      "learning_rate": 7.578125e-05,
-      "loss": 1824.1576,
-      "step": 310
-    },
-    {
-      "epoch": 2.4060517325524646,
-      "eval_runtime": 19.7454,
-      "eval_samples_per_second": 21.879,
-      "eval_steps_per_second": 5.47,
-      "step": 310
-    },
-    {
-      "epoch": 2.4841386041971694,
-      "grad_norm": 319042.1875,
-      "learning_rate": 7.500000000000001e-05,
-      "loss": 1743.5293,
-      "step": 320
-    },
-    {
-      "epoch": 2.4841386041971694,
-      "eval_runtime": 19.756,
-      "eval_samples_per_second": 21.867,
-      "eval_steps_per_second": 5.467,
-      "step": 320
-    },
-    {
-      "epoch": 2.562225475841874,
-      "grad_norm": 519256.40625,
-      "learning_rate": 7.421875e-05,
-      "loss": 1764.0594,
-      "step": 330
-    },
-    {
-      "epoch": 2.562225475841874,
-      "eval_runtime": 19.7543,
-      "eval_samples_per_second": 21.869,
-      "eval_steps_per_second": 5.467,
-      "step": 330
-    },
-    {
-      "epoch": 2.640312347486579,
-      "grad_norm": 210543.75,
-      "learning_rate": 7.34375e-05,
-      "loss": 1172.6759,
-      "step": 340
-    },
-    {
-      "epoch": 2.640312347486579,
-      "eval_runtime": 19.7374,
-      "eval_samples_per_second": 21.887,
-      "eval_steps_per_second": 5.472,
-      "step": 340
-    },
-    {
-      "epoch": 2.7183992191312836,
-      "grad_norm": 259726.9375,
-      "learning_rate": 7.265625000000001e-05,
-      "loss": 1670.5373,
-      "step": 350
-    },
-    {
-      "epoch": 2.7183992191312836,
-      "eval_runtime": 19.7387,
-      "eval_samples_per_second": 21.886,
-      "eval_steps_per_second": 5.471,
-      "step": 350
-    },
-    {
-      "epoch": 2.7964860907759883,
-      "grad_norm": 575974.4375,
-      "learning_rate": 7.1875e-05,
-      "loss": 2305.6137,
-      "step": 360
-    },
-    {
-      "epoch": 2.7964860907759883,
-      "eval_runtime": 19.7355,
-      "eval_samples_per_second": 21.889,
-      "eval_steps_per_second": 5.472,
-      "step": 360
-    },
-    {
-      "epoch": 2.874572962420693,
-      "grad_norm": 529809.125,
-      "learning_rate": 7.109375e-05,
-      "loss": 2236.2371,
-      "step": 370
-    },
-    {
-      "epoch": 2.874572962420693,
-      "eval_runtime": 19.7607,
-      "eval_samples_per_second": 21.862,
-      "eval_steps_per_second": 5.465,
-      "step": 370
-    },
-    {
-      "epoch": 2.952659834065398,
-      "grad_norm": 649306.875,
-      "learning_rate": 7.031250000000001e-05,
-      "loss": 1477.9074,
-      "step": 380
-    },
-    {
-      "epoch": 2.952659834065398,
-      "eval_runtime": 19.7461,
-      "eval_samples_per_second": 21.878,
-      "eval_steps_per_second": 5.469,
-      "step": 380
-    },
-    {
-      "epoch": 3.0234260614934114,
-      "grad_norm": 468387.1875,
-      "learning_rate": 6.953125e-05,
-      "loss": 1111.9008,
-      "step": 390
-    },
-    {
-      "epoch": 3.0234260614934114,
-      "eval_runtime": 19.6555,
-      "eval_samples_per_second": 21.979,
-      "eval_steps_per_second": 5.495,
-      "step": 390
-    },
-    {
-      "epoch": 3.101512933138116,
-      "grad_norm": 396892.71875,
-      "learning_rate": 6.875e-05,
-      "loss": 1161.8062,
-      "step": 400
-    },
-    {
-      "epoch": 3.101512933138116,
-      "eval_runtime": 19.6988,
-      "eval_samples_per_second": 21.93,
-      "eval_steps_per_second": 5.483,
-      "step": 400
-    },
-    {
-      "epoch": 3.179599804782821,
-      "grad_norm": 267550.6875,
-      "learning_rate": 6.796875000000001e-05,
-      "loss": 1332.8658,
-      "step": 410
-    },
-    {
-      "epoch": 3.179599804782821,
-      "eval_runtime": 19.7594,
-      "eval_samples_per_second": 21.863,
-      "eval_steps_per_second": 5.466,
-      "step": 410
-    },
-    {
-      "epoch": 3.2576866764275256,
-      "grad_norm": 383417.75,
-      "learning_rate": 6.71875e-05,
-      "loss": 1149.9299,
-      "step": 420
-    },
-    {
-      "epoch": 3.2576866764275256,
-      "eval_runtime": 19.7802,
-      "eval_samples_per_second": 21.84,
-      "eval_steps_per_second": 5.46,
-      "step": 420
-    },
-    {
-      "epoch": 3.3357735480722304,
-      "grad_norm": 197298.359375,
-      "learning_rate": 6.640625e-05,
-      "loss": 1427.1258,
-      "step": 430
-    },
-    {
-      "epoch": 3.3357735480722304,
-      "eval_runtime": 19.7807,
-      "eval_samples_per_second": 21.84,
-      "eval_steps_per_second": 5.46,
-      "step": 430
-    },
-    {
-      "epoch": 3.413860419716935,
-      "grad_norm": 196738.484375,
-      "learning_rate": 6.562500000000001e-05,
-      "loss": 1029.203,
-      "step": 440
-    },
-    {
-      "epoch": 3.413860419716935,
-      "eval_runtime": 19.7502,
-      "eval_samples_per_second": 21.873,
-      "eval_steps_per_second": 5.468,
-      "step": 440
-    },
-    {
-      "epoch": 3.49194729136164,
-      "grad_norm": 415209.96875,
-      "learning_rate": 6.484375e-05,
-      "loss": 1040.8042,
-      "step": 450
-    },
-    {
-      "epoch": 3.49194729136164,
-      "eval_runtime": 19.7611,
-      "eval_samples_per_second": 21.861,
-      "eval_steps_per_second": 5.465,
-      "step": 450
-    },
-    {
-      "epoch": 3.5700341630063446,
-      "grad_norm": 328070.78125,
-      "learning_rate": 6.40625e-05,
-      "loss": 977.6191,
-      "step": 460
-    },
-    {
-      "epoch": 3.5700341630063446,
-      "eval_runtime": 19.7543,
-      "eval_samples_per_second": 21.869,
-      "eval_steps_per_second": 5.467,
-      "step": 460
-    },
-    {
-      "epoch": 3.6481210346510493,
-      "grad_norm": 327954.34375,
-      "learning_rate": 6.328125e-05,
-      "loss": 893.5069,
-      "step": 470
-    },
-    {
-      "epoch": 3.6481210346510493,
-      "eval_runtime": 19.7609,
-      "eval_samples_per_second": 21.861,
-      "eval_steps_per_second": 5.465,
-      "step": 470
-    },
-    {
-      "epoch": 3.726207906295754,
-      "grad_norm": 429292.5625,
-      "learning_rate": 6.25e-05,
-      "loss": 982.0832,
-      "step": 480
-    },
-    {
-      "epoch": 3.726207906295754,
-      "eval_runtime": 19.7484,
-      "eval_samples_per_second": 21.875,
-      "eval_steps_per_second": 5.469,
-      "step": 480
-    },
-    {
-      "epoch": 3.804294777940459,
-      "grad_norm": 388092.28125,
-      "learning_rate": 6.171875e-05,
-      "loss": 849.4025,
-      "step": 490
-    },
-    {
-      "epoch": 3.804294777940459,
-      "eval_runtime": 19.7469,
-      "eval_samples_per_second": 21.877,
-      "eval_steps_per_second": 5.469,
-      "step": 490
-    },
-    {
-      "epoch": 3.8823816495851635,
-      "grad_norm": 240416.734375,
-      "learning_rate": 6.0937500000000004e-05,
-      "loss": 1007.4567,
-      "step": 500
-    },
-    {
-      "epoch": 3.8823816495851635,
-      "eval_runtime": 19.7422,
-      "eval_samples_per_second": 21.882,
-      "eval_steps_per_second": 5.471,
-      "step": 500
-    },
-    {
-      "epoch": 3.9604685212298683,
-      "grad_norm": 309579.21875,
-      "learning_rate": 6.015625e-05,
-      "loss": 960.0591,
-      "step": 510
-    },
-    {
-      "epoch": 3.9604685212298683,
-      "eval_runtime": 19.7662,
-      "eval_samples_per_second": 21.855,
-      "eval_steps_per_second": 5.464,
-      "step": 510
-    },
-    {
-      "epoch": 4.031234748657882,
-      "grad_norm": 484968.46875,
-      "learning_rate": 5.9375e-05,
-      "loss": 1164.3749,
-      "step": 520
-    },
-    {
-      "epoch": 4.031234748657882,
-      "eval_runtime": 19.6732,
-      "eval_samples_per_second": 21.959,
-      "eval_steps_per_second": 5.49,
-      "step": 520
-    },
-    {
-      "epoch": 4.109321620302587,
-      "grad_norm": 329296.75,
-      "learning_rate": 5.8593750000000005e-05,
-      "loss": 1631.9979,
-      "step": 530
-    },
-    {
-      "epoch": 4.109321620302587,
-      "eval_runtime": 19.7244,
-      "eval_samples_per_second": 21.902,
-      "eval_steps_per_second": 5.475,
-      "step": 530
-    },
-    {
-      "epoch": 4.187408491947291,
-      "grad_norm": 554537.125,
-      "learning_rate": 5.78125e-05,
-      "loss": 1570.2684,
-      "step": 540
-    },
-    {
-      "epoch": 4.187408491947291,
-      "eval_runtime": 19.7495,
-      "eval_samples_per_second": 21.874,
-      "eval_steps_per_second": 5.468,
-      "step": 540
-    },
-    {
-      "epoch": 4.265495363591996,
-      "grad_norm": 417775.03125,
-      "learning_rate": 5.703125e-05,
-      "loss": 1599.58,
-      "step": 550
-    },
-    {
-      "epoch": 4.265495363591996,
-      "eval_runtime": 19.7438,
-      "eval_samples_per_second": 21.88,
-      "eval_steps_per_second": 5.47,
-      "step": 550
-    },
-    {
-      "epoch": 4.343582235236701,
-      "grad_norm": 308738.78125,
-      "learning_rate": 5.6250000000000005e-05,
-      "loss": 1184.2381,
-      "step": 560
-    },
-    {
-      "epoch": 4.343582235236701,
-      "eval_runtime": 19.7443,
-      "eval_samples_per_second": 21.88,
-      "eval_steps_per_second": 5.47,
-      "step": 560
-    },
-    {
-      "epoch": 4.421669106881406,
-      "grad_norm": 281127.5625,
-      "learning_rate": 5.546875e-05,
-      "loss": 969.7674,
-      "step": 570
-    },
-    {
-      "epoch": 4.421669106881406,
-      "eval_runtime": 19.7635,
-      "eval_samples_per_second": 21.858,
-      "eval_steps_per_second": 5.465,
-      "step": 570
-    },
-    {
-      "epoch": 4.49975597852611,
-      "grad_norm": 343310.84375,
-      "learning_rate": 5.46875e-05,
-      "loss": 938.8365,
-      "step": 580
-    },
-    {
-      "epoch": 4.49975597852611,
-      "eval_runtime": 19.7819,
-      "eval_samples_per_second": 21.838,
-      "eval_steps_per_second": 5.46,
-      "step": 580
-    },
-    {
-      "epoch": 4.577842850170815,
-      "grad_norm": 274241.34375,
-      "learning_rate": 5.3906250000000006e-05,
-      "loss": 1338.7786,
-      "step": 590
-    },
-    {
-      "epoch": 4.577842850170815,
-      "eval_runtime": 19.7579,
-      "eval_samples_per_second": 21.865,
-      "eval_steps_per_second": 5.466,
-      "step": 590
-    },
-    {
-      "epoch": 4.65592972181552,
-      "grad_norm": 416818.875,
-      "learning_rate": 5.3125000000000004e-05,
-      "loss": 1180.1237,
-      "step": 600
-    },
-    {
-      "epoch": 4.65592972181552,
-      "eval_runtime": 19.7618,
-      "eval_samples_per_second": 21.86,
-      "eval_steps_per_second": 5.465,
-      "step": 600
-    },
-    {
-      "epoch": 4.7340165934602245,
-      "grad_norm": 292501.71875,
-      "learning_rate": 5.234375e-05,
-      "loss": 1117.2909,
-      "step": 610
-    },
-    {
-      "epoch": 4.7340165934602245,
-      "eval_runtime": 19.7565,
-      "eval_samples_per_second": 21.866,
-      "eval_steps_per_second": 5.467,
-      "step": 610
-    },
-    {
-      "epoch": 4.812103465104929,
-      "grad_norm": 415090.75,
-      "learning_rate": 5.15625e-05,
-      "loss": 1297.7303,
-      "step": 620
-    },
-    {
-      "epoch": 4.812103465104929,
-      "eval_runtime": 19.7543,
-      "eval_samples_per_second": 21.869,
-      "eval_steps_per_second": 5.467,
-      "step": 620
-    },
-    {
-      "epoch": 4.890190336749634,
-      "grad_norm": 481957.6875,
-      "learning_rate": 5.0781250000000004e-05,
-      "loss": 1024.6031,
-      "step": 630
-    },
-    {
-      "epoch": 4.890190336749634,
-      "eval_runtime": 19.7456,
-      "eval_samples_per_second": 21.878,
-      "eval_steps_per_second": 5.47,
-      "step": 630
-    },
-    {
-      "epoch": 4.968277208394339,
-      "grad_norm": 760376.8125,
-      "learning_rate": 5e-05,
-      "loss": 1106.1675,
-      "step": 640
-    },
-    {
-      "epoch": 4.968277208394339,
-      "eval_runtime": 19.7415,
-      "eval_samples_per_second": 21.883,
-      "eval_steps_per_second": 5.471,
-      "step": 640
     }
   ],
-  "logging_steps": 10,
   "max_steps": 1280,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
+  "eval_steps": 50,
+  "global_step": 129,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.3904343582235237,
+      "grad_norm": 316011.5625,
       "learning_rate": 9.609375e-05,
+      "loss": 14505.3388,
       "step": 50
     },
     {
       "epoch": 0.3904343582235237,
+      "eval_runtime": 19.78,
+      "eval_samples_per_second": 21.84,
+      "eval_steps_per_second": 5.46,
       "step": 50
     },
     {
       "epoch": 0.7808687164470474,
+      "grad_norm": 484251.53125,
       "learning_rate": 9.21875e-05,
+      "loss": 4453.3172,
       "step": 100
     },
     {
       "epoch": 0.7808687164470474,
+      "eval_runtime": 19.7737,
+      "eval_samples_per_second": 21.847,
       "eval_steps_per_second": 5.462,
+      "step": 100
     }
   ],
+  "logging_steps": 50,
   "max_steps": 1280,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00e1815a75e87f99681c46c6d470e12a833e128941d3a562bbcb63c47c459934
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:92b5f8d0521197ff491c9441a0c4a83340523a4da4d855bb0373622873120eb0
 size 5368