Training in progress, epoch 0, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +50 -785
last-checkpoint/training_args.bin +1 -1

last-checkpoint/config.json CHANGED Viewed

@@ -16,6 +16,6 @@
   "norm_eps": 1e-05,
   "swiglu_multiple_of": 256,
   "torch_dtype": "float32",
-  "transformers_version": "4.47.0",
   "vocab_size": 37
 }

   "norm_eps": 1e-05,
   "swiglu_multiple_of": 256,
   "torch_dtype": "float32",
+  "transformers_version": "4.49.0",
   "vocab_size": 37
 }

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:99e82e82f374c2673ef04a502ab788d5b3699ba02ae9cbb612822d23f1048aaa
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:0d8e1016a9b1bb6828135669bed415800d12ec729a55e57ed78cb1ee7ab1bbc2
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11a72e36fd2dbdba8586fcbf48397a69a66a780b5217bacb7a4c129bba516b9e
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:cd973e6941dbfc054a82a8fc125c7daff458020cf56c2f24a45ed7a61ec17d74
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2168e6be520a803e330b14854aa047c840fbbc36e1cd7f9a8956c981c5afc55f
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:08baa7817becd0350efcb73cd20230a3510c2a4c44eabb35442e644589d91b4e
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6602c18a1ebe894c1d51ce5c9cea3744db091c466423f123d4fa8b7754d9378a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8196dfb311939b1d2d31afb1d2e2c773958196863e2aef7e228bd8c79258297b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,826 +1,91 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.966800689259047,
   "eval_steps": 50,
-  "global_step": 2720,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.18380241240666284,
-      "grad_norm": 96.95903778076172,
-      "learning_rate": 9.816176470588235e-05,
-      "loss": 1.4053,
       "step": 50
     },
     {
-      "epoch": 0.18380241240666284,
-      "eval_loss": 1.357384204864502,
-      "eval_runtime": 116.0223,
-      "eval_samples_per_second": 41.595,
-      "eval_steps_per_second": 20.798,
       "step": 50
     },
     {
-      "epoch": 0.3676048248133257,
-      "grad_norm": 62.13881301879883,
-      "learning_rate": 9.632352941176472e-05,
-      "loss": 1.3129,
       "step": 100
     },
     {
-      "epoch": 0.3676048248133257,
-      "eval_loss": 1.3342629671096802,
-      "eval_runtime": 116.0756,
-      "eval_samples_per_second": 41.576,
-      "eval_steps_per_second": 20.788,
       "step": 100
     },
     {
-      "epoch": 0.5514072372199885,
-      "grad_norm": 94.01299285888672,
-      "learning_rate": 9.448529411764707e-05,
-      "loss": 1.2775,
       "step": 150
     },
     {
-      "epoch": 0.5514072372199885,
-      "eval_loss": 1.315340280532837,
-      "eval_runtime": 116.2655,
-      "eval_samples_per_second": 41.508,
-      "eval_steps_per_second": 20.754,
       "step": 150
     },
     {
-      "epoch": 0.7352096496266514,
-      "grad_norm": 106.19926452636719,
-      "learning_rate": 9.264705882352942e-05,
-      "loss": 1.2405,
       "step": 200
     },
     {
-      "epoch": 0.7352096496266514,
-      "eval_loss": 1.3019272089004517,
-      "eval_runtime": 116.2502,
-      "eval_samples_per_second": 41.514,
-      "eval_steps_per_second": 20.757,
       "step": 200
     },
     {
-      "epoch": 0.9190120620333142,
-      "grad_norm": 65.5792465209961,
-      "learning_rate": 9.080882352941177e-05,
-      "loss": 1.2157,
       "step": 250
     },
     {
-      "epoch": 0.9190120620333142,
-      "eval_loss": 1.290924310684204,
-      "eval_runtime": 116.1975,
-      "eval_samples_per_second": 41.533,
-      "eval_steps_per_second": 20.766,
       "step": 250
-    },
-    {
-      "epoch": 1.0992533026995979,
-      "grad_norm": 54.570987701416016,
-      "learning_rate": 8.897058823529412e-05,
-      "loss": 1.1632,
-      "step": 300
-    },
-    {
-      "epoch": 1.0992533026995979,
-      "eval_loss": 1.2854100465774536,
-      "eval_runtime": 116.058,
-      "eval_samples_per_second": 41.583,
-      "eval_steps_per_second": 20.791,
-      "step": 300
-    },
-    {
-      "epoch": 1.2830557151062607,
-      "grad_norm": 62.69035720825195,
-      "learning_rate": 8.713235294117648e-05,
-      "loss": 1.1598,
-      "step": 350
-    },
-    {
-      "epoch": 1.2830557151062607,
-      "eval_loss": 1.2804261445999146,
-      "eval_runtime": 116.1289,
-      "eval_samples_per_second": 41.557,
-      "eval_steps_per_second": 20.779,
-      "step": 350
-    },
-    {
-      "epoch": 1.4668581275129235,
-      "grad_norm": 66.37086486816406,
-      "learning_rate": 8.529411764705883e-05,
-      "loss": 1.1419,
-      "step": 400
-    },
-    {
-      "epoch": 1.4668581275129235,
-      "eval_loss": 1.272080898284912,
-      "eval_runtime": 116.1097,
-      "eval_samples_per_second": 41.564,
-      "eval_steps_per_second": 20.782,
-      "step": 400
-    },
-    {
-      "epoch": 1.6506605399195864,
-      "grad_norm": 55.69127655029297,
-      "learning_rate": 8.345588235294118e-05,
-      "loss": 1.1256,
-      "step": 450
-    },
-    {
-      "epoch": 1.6506605399195864,
-      "eval_loss": 1.2628560066223145,
-      "eval_runtime": 116.0668,
-      "eval_samples_per_second": 41.58,
-      "eval_steps_per_second": 20.79,
-      "step": 450
-    },
-    {
-      "epoch": 1.8344629523262492,
-      "grad_norm": 84.45687103271484,
-      "learning_rate": 8.161764705882353e-05,
-      "loss": 1.1115,
-      "step": 500
-    },
-    {
-      "epoch": 1.8344629523262492,
-      "eval_loss": 1.2613238096237183,
-      "eval_runtime": 116.2349,
-      "eval_samples_per_second": 41.519,
-      "eval_steps_per_second": 20.76,
-      "step": 500
-    },
-    {
-      "epoch": 2.014704192992533,
-      "grad_norm": 66.61148834228516,
-      "learning_rate": 7.977941176470589e-05,
-      "loss": 1.0706,
-      "step": 550
-    },
-    {
-      "epoch": 2.014704192992533,
-      "eval_loss": 1.2579104900360107,
-      "eval_runtime": 117.3176,
-      "eval_samples_per_second": 41.136,
-      "eval_steps_per_second": 20.568,
-      "step": 550
-    },
-    {
-      "epoch": 2.1985066053991957,
-      "grad_norm": 83.05467987060547,
-      "learning_rate": 7.794117647058824e-05,
-      "loss": 1.0691,
-      "step": 600
-    },
-    {
-      "epoch": 2.1985066053991957,
-      "eval_loss": 1.2582261562347412,
-      "eval_runtime": 116.1323,
-      "eval_samples_per_second": 41.556,
-      "eval_steps_per_second": 20.778,
-      "step": 600
-    },
-    {
-      "epoch": 2.382309017805859,
-      "grad_norm": 71.0223617553711,
-      "learning_rate": 7.610294117647059e-05,
-      "loss": 1.0573,
-      "step": 650
-    },
-    {
-      "epoch": 2.382309017805859,
-      "eval_loss": 1.2502797842025757,
-      "eval_runtime": 116.1247,
-      "eval_samples_per_second": 41.559,
-      "eval_steps_per_second": 20.779,
-      "step": 650
-    },
-    {
-      "epoch": 2.5661114302125214,
-      "grad_norm": 64.11682891845703,
-      "learning_rate": 7.426470588235294e-05,
-      "loss": 1.0459,
-      "step": 700
-    },
-    {
-      "epoch": 2.5661114302125214,
-      "eval_loss": 1.2464367151260376,
-      "eval_runtime": 116.0733,
-      "eval_samples_per_second": 41.577,
-      "eval_steps_per_second": 20.789,
-      "step": 700
-    },
-    {
-      "epoch": 2.7499138426191845,
-      "grad_norm": 90.718505859375,
-      "learning_rate": 7.242647058823529e-05,
-      "loss": 1.0444,
-      "step": 750
-    },
-    {
-      "epoch": 2.7499138426191845,
-      "eval_loss": 1.238742470741272,
-      "eval_runtime": 116.1005,
-      "eval_samples_per_second": 41.567,
-      "eval_steps_per_second": 20.784,
-      "step": 750
-    },
-    {
-      "epoch": 2.933716255025847,
-      "grad_norm": 52.93131637573242,
-      "learning_rate": 7.058823529411765e-05,
-      "loss": 1.033,
-      "step": 800
-    },
-    {
-      "epoch": 2.933716255025847,
-      "eval_loss": 1.2367525100708008,
-      "eval_runtime": 115.9357,
-      "eval_samples_per_second": 41.627,
-      "eval_steps_per_second": 20.813,
-      "step": 800
-    },
-    {
-      "epoch": 3.113957495692131,
-      "grad_norm": 47.737281799316406,
-      "learning_rate": 6.875e-05,
-      "loss": 0.9902,
-      "step": 850
-    },
-    {
-      "epoch": 3.113957495692131,
-      "eval_loss": 1.2378348112106323,
-      "eval_runtime": 115.9587,
-      "eval_samples_per_second": 41.618,
-      "eval_steps_per_second": 20.809,
-      "step": 850
-    },
-    {
-      "epoch": 3.2977599080987936,
-      "grad_norm": 64.8248519897461,
-      "learning_rate": 6.691176470588235e-05,
-      "loss": 0.9991,
-      "step": 900
-    },
-    {
-      "epoch": 3.2977599080987936,
-      "eval_loss": 1.2380481958389282,
-      "eval_runtime": 116.1261,
-      "eval_samples_per_second": 41.558,
-      "eval_steps_per_second": 20.779,
-      "step": 900
-    },
-    {
-      "epoch": 3.4815623205054567,
-      "grad_norm": 44.85393524169922,
-      "learning_rate": 6.507352941176472e-05,
-      "loss": 0.9954,
-      "step": 950
-    },
-    {
-      "epoch": 3.4815623205054567,
-      "eval_loss": 1.2317270040512085,
-      "eval_runtime": 116.1731,
-      "eval_samples_per_second": 41.541,
-      "eval_steps_per_second": 20.771,
-      "step": 950
-    },
-    {
-      "epoch": 3.6653647329121197,
-      "grad_norm": 95.18327331542969,
-      "learning_rate": 6.323529411764705e-05,
-      "loss": 0.9896,
-      "step": 1000
-    },
-    {
-      "epoch": 3.6653647329121197,
-      "eval_loss": 1.2345850467681885,
-      "eval_runtime": 116.2127,
-      "eval_samples_per_second": 41.527,
-      "eval_steps_per_second": 20.764,
-      "step": 1000
-    },
-    {
-      "epoch": 3.8491671453187823,
-      "grad_norm": 53.003849029541016,
-      "learning_rate": 6.139705882352942e-05,
-      "loss": 0.9786,
-      "step": 1050
-    },
-    {
-      "epoch": 3.8491671453187823,
-      "eval_loss": 1.235013723373413,
-      "eval_runtime": 116.1383,
-      "eval_samples_per_second": 41.554,
-      "eval_steps_per_second": 20.777,
-      "step": 1050
-    },
-    {
-      "epoch": 4.029408385985066,
-      "grad_norm": 60.95920181274414,
-      "learning_rate": 5.9558823529411766e-05,
-      "loss": 0.953,
-      "step": 1100
-    },
-    {
-      "epoch": 4.029408385985066,
-      "eval_loss": 1.2303814888000488,
-      "eval_runtime": 116.9283,
-      "eval_samples_per_second": 41.273,
-      "eval_steps_per_second": 20.637,
-      "step": 1100
-    },
-    {
-      "epoch": 4.213210798391729,
-      "grad_norm": 94.7210922241211,
-      "learning_rate": 5.7720588235294116e-05,
-      "loss": 0.9526,
-      "step": 1150
-    },
-    {
-      "epoch": 4.213210798391729,
-      "eval_loss": 1.2337546348571777,
-      "eval_runtime": 116.1668,
-      "eval_samples_per_second": 41.544,
-      "eval_steps_per_second": 20.772,
-      "step": 1150
-    },
-    {
-      "epoch": 4.3970132107983915,
-      "grad_norm": 42.170989990234375,
-      "learning_rate": 5.588235294117647e-05,
-      "loss": 0.9448,
-      "step": 1200
-    },
-    {
-      "epoch": 4.3970132107983915,
-      "eval_loss": 1.228541612625122,
-      "eval_runtime": 116.2415,
-      "eval_samples_per_second": 41.517,
-      "eval_steps_per_second": 20.759,
-      "step": 1200
-    },
-    {
-      "epoch": 4.580815623205055,
-      "grad_norm": 60.85408401489258,
-      "learning_rate": 5.404411764705882e-05,
-      "loss": 0.9408,
-      "step": 1250
-    },
-    {
-      "epoch": 4.580815623205055,
-      "eval_loss": 1.2270257472991943,
-      "eval_runtime": 116.2096,
-      "eval_samples_per_second": 41.528,
-      "eval_steps_per_second": 20.764,
-      "step": 1250
-    },
-    {
-      "epoch": 4.764618035611718,
-      "grad_norm": 59.16058349609375,
-      "learning_rate": 5.2205882352941185e-05,
-      "loss": 0.9364,
-      "step": 1300
-    },
-    {
-      "epoch": 4.764618035611718,
-      "eval_loss": 1.2274161577224731,
-      "eval_runtime": 116.2519,
-      "eval_samples_per_second": 41.513,
-      "eval_steps_per_second": 20.757,
-      "step": 1300
-    },
-    {
-      "epoch": 4.94842044801838,
-      "grad_norm": 94.78569030761719,
-      "learning_rate": 5.036764705882353e-05,
-      "loss": 0.9319,
-      "step": 1350
-    },
-    {
-      "epoch": 4.94842044801838,
-      "eval_loss": 1.228610873222351,
-      "eval_runtime": 116.0677,
-      "eval_samples_per_second": 41.579,
-      "eval_steps_per_second": 20.79,
-      "step": 1350
-    },
-    {
-      "epoch": 5.128661688684664,
-      "grad_norm": 56.210121154785156,
-      "learning_rate": 4.8529411764705885e-05,
-      "loss": 0.9023,
-      "step": 1400
-    },
-    {
-      "epoch": 5.128661688684664,
-      "eval_loss": 1.2338696718215942,
-      "eval_runtime": 116.0945,
-      "eval_samples_per_second": 41.57,
-      "eval_steps_per_second": 20.785,
-      "step": 1400
-    },
-    {
-      "epoch": 5.312464101091327,
-      "grad_norm": 54.96003723144531,
-      "learning_rate": 4.669117647058824e-05,
-      "loss": 0.9067,
-      "step": 1450
-    },
-    {
-      "epoch": 5.312464101091327,
-      "eval_loss": 1.231054663658142,
-      "eval_runtime": 115.9656,
-      "eval_samples_per_second": 41.616,
-      "eval_steps_per_second": 20.808,
-      "step": 1450
-    },
-    {
-      "epoch": 5.496266513497989,
-      "grad_norm": 45.37810516357422,
-      "learning_rate": 4.485294117647059e-05,
-      "loss": 0.9032,
-      "step": 1500
-    },
-    {
-      "epoch": 5.496266513497989,
-      "eval_loss": 1.2278664112091064,
-      "eval_runtime": 116.0475,
-      "eval_samples_per_second": 41.586,
-      "eval_steps_per_second": 20.793,
-      "step": 1500
-    },
-    {
-      "epoch": 5.680068925904653,
-      "grad_norm": 51.236480712890625,
-      "learning_rate": 4.301470588235295e-05,
-      "loss": 0.9032,
-      "step": 1550
-    },
-    {
-      "epoch": 5.680068925904653,
-      "eval_loss": 1.2236429452896118,
-      "eval_runtime": 116.3342,
-      "eval_samples_per_second": 41.484,
-      "eval_steps_per_second": 20.742,
-      "step": 1550
-    },
-    {
-      "epoch": 5.8638713383113155,
-      "grad_norm": 40.550933837890625,
-      "learning_rate": 4.11764705882353e-05,
-      "loss": 0.896,
-      "step": 1600
-    },
-    {
-      "epoch": 5.8638713383113155,
-      "eval_loss": 1.2268708944320679,
-      "eval_runtime": 116.1038,
-      "eval_samples_per_second": 41.566,
-      "eval_steps_per_second": 20.783,
-      "step": 1600
-    },
-    {
-      "epoch": 6.044112578977599,
-      "grad_norm": 59.42768859863281,
-      "learning_rate": 3.933823529411765e-05,
-      "loss": 0.8781,
-      "step": 1650
-    },
-    {
-      "epoch": 6.044112578977599,
-      "eval_loss": 1.233597993850708,
-      "eval_runtime": 117.1571,
-      "eval_samples_per_second": 41.193,
-      "eval_steps_per_second": 20.596,
-      "step": 1650
-    },
-    {
-      "epoch": 6.227914991384262,
-      "grad_norm": 68.26610565185547,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.8804,
-      "step": 1700
-    },
-    {
-      "epoch": 6.227914991384262,
-      "eval_loss": 1.2279460430145264,
-      "eval_runtime": 116.1011,
-      "eval_samples_per_second": 41.567,
-      "eval_steps_per_second": 20.784,
-      "step": 1700
-    },
-    {
-      "epoch": 6.411717403790925,
-      "grad_norm": 77.21823120117188,
-      "learning_rate": 3.566176470588235e-05,
-      "loss": 0.8733,
-      "step": 1750
-    },
-    {
-      "epoch": 6.411717403790925,
-      "eval_loss": 1.2353451251983643,
-      "eval_runtime": 116.0518,
-      "eval_samples_per_second": 41.585,
-      "eval_steps_per_second": 20.792,
-      "step": 1750
-    },
-    {
-      "epoch": 6.595519816197587,
-      "grad_norm": 49.22051239013672,
-      "learning_rate": 3.382352941176471e-05,
-      "loss": 0.875,
-      "step": 1800
-    },
-    {
-      "epoch": 6.595519816197587,
-      "eval_loss": 1.2324572801589966,
-      "eval_runtime": 116.0982,
-      "eval_samples_per_second": 41.568,
-      "eval_steps_per_second": 20.784,
-      "step": 1800
-    },
-    {
-      "epoch": 6.779322228604251,
-      "grad_norm": 61.27114486694336,
-      "learning_rate": 3.198529411764706e-05,
-      "loss": 0.8634,
-      "step": 1850
-    },
-    {
-      "epoch": 6.779322228604251,
-      "eval_loss": 1.2263100147247314,
-      "eval_runtime": 116.0582,
-      "eval_samples_per_second": 41.583,
-      "eval_steps_per_second": 20.791,
-      "step": 1850
-    },
-    {
-      "epoch": 6.963124641010913,
-      "grad_norm": 53.27342224121094,
-      "learning_rate": 3.0147058823529413e-05,
-      "loss": 0.8647,
-      "step": 1900
-    },
-    {
-      "epoch": 6.963124641010913,
-      "eval_loss": 1.2306259870529175,
-      "eval_runtime": 116.21,
-      "eval_samples_per_second": 41.528,
-      "eval_steps_per_second": 20.764,
-      "step": 1900
-    },
-    {
-      "epoch": 7.143365881677197,
-      "grad_norm": 56.99700927734375,
-      "learning_rate": 2.8308823529411766e-05,
-      "loss": 0.8335,
-      "step": 1950
-    },
-    {
-      "epoch": 7.143365881677197,
-      "eval_loss": 1.2323832511901855,
-      "eval_runtime": 116.0282,
-      "eval_samples_per_second": 41.593,
-      "eval_steps_per_second": 20.797,
-      "step": 1950
-    },
-    {
-      "epoch": 7.32716829408386,
-      "grad_norm": 111.48177337646484,
-      "learning_rate": 2.647058823529412e-05,
-      "loss": 0.8489,
-      "step": 2000
-    },
-    {
-      "epoch": 7.32716829408386,
-      "eval_loss": 1.2314597368240356,
-      "eval_runtime": 116.1391,
-      "eval_samples_per_second": 41.554,
-      "eval_steps_per_second": 20.777,
-      "step": 2000
-    },
-    {
-      "epoch": 7.5109707064905225,
-      "grad_norm": 44.07224655151367,
-      "learning_rate": 2.4632352941176472e-05,
-      "loss": 0.8473,
-      "step": 2050
-    },
-    {
-      "epoch": 7.5109707064905225,
-      "eval_loss": 1.2360129356384277,
-      "eval_runtime": 116.3906,
-      "eval_samples_per_second": 41.464,
-      "eval_steps_per_second": 20.732,
-      "step": 2050
-    },
-    {
-      "epoch": 7.694773118897185,
-      "grad_norm": 58.74856948852539,
-      "learning_rate": 2.2794117647058825e-05,
-      "loss": 0.8422,
-      "step": 2100
-    },
-    {
-      "epoch": 7.694773118897185,
-      "eval_loss": 1.23045015335083,
-      "eval_runtime": 116.4238,
-      "eval_samples_per_second": 41.452,
-      "eval_steps_per_second": 20.726,
-      "step": 2100
-    },
-    {
-      "epoch": 7.878575531303849,
-      "grad_norm": 42.6165771484375,
-      "learning_rate": 2.0955882352941178e-05,
-      "loss": 0.8414,
-      "step": 2150
-    },
-    {
-      "epoch": 7.878575531303849,
-      "eval_loss": 1.232067346572876,
-      "eval_runtime": 115.9906,
-      "eval_samples_per_second": 41.607,
-      "eval_steps_per_second": 20.803,
-      "step": 2150
-    },
-    {
-      "epoch": 8.058816771970132,
-      "grad_norm": 80.5433349609375,
-      "learning_rate": 1.9117647058823528e-05,
-      "loss": 0.8227,
-      "step": 2200
-    },
-    {
-      "epoch": 8.058816771970132,
-      "eval_loss": 1.2389429807662964,
-      "eval_runtime": 117.23,
-      "eval_samples_per_second": 41.167,
-      "eval_steps_per_second": 20.583,
-      "step": 2200
-    },
-    {
-      "epoch": 8.242619184376794,
-      "grad_norm": 45.97893142700195,
-      "learning_rate": 1.7279411764705884e-05,
-      "loss": 0.8316,
-      "step": 2250
-    },
-    {
-      "epoch": 8.242619184376794,
-      "eval_loss": 1.2351105213165283,
-      "eval_runtime": 116.2345,
-      "eval_samples_per_second": 41.52,
-      "eval_steps_per_second": 20.76,
-      "step": 2250
-    },
-    {
-      "epoch": 8.426421596783458,
-      "grad_norm": 68.8030014038086,
-      "learning_rate": 1.5441176470588237e-05,
-      "loss": 0.8299,
-      "step": 2300
-    },
-    {
-      "epoch": 8.426421596783458,
-      "eval_loss": 1.2383313179016113,
-      "eval_runtime": 115.9203,
-      "eval_samples_per_second": 41.632,
-      "eval_steps_per_second": 20.816,
-      "step": 2300
-    },
-    {
-      "epoch": 8.610224009190121,
-      "grad_norm": 48.16875076293945,
-      "learning_rate": 1.3602941176470587e-05,
-      "loss": 0.822,
-      "step": 2350
-    },
-    {
-      "epoch": 8.610224009190121,
-      "eval_loss": 1.2370705604553223,
-      "eval_runtime": 116.2999,
-      "eval_samples_per_second": 41.496,
-      "eval_steps_per_second": 20.748,
-      "step": 2350
-    },
-    {
-      "epoch": 8.794026421596783,
-      "grad_norm": 49.53213119506836,
-      "learning_rate": 1.1764705882352942e-05,
-      "loss": 0.8251,
-      "step": 2400
-    },
-    {
-      "epoch": 8.794026421596783,
-      "eval_loss": 1.2367668151855469,
-      "eval_runtime": 116.3102,
-      "eval_samples_per_second": 41.493,
-      "eval_steps_per_second": 20.746,
-      "step": 2400
-    },
-    {
-      "epoch": 8.977828834003446,
-      "grad_norm": 42.136714935302734,
-      "learning_rate": 9.926470588235293e-06,
-      "loss": 0.8225,
-      "step": 2450
-    },
-    {
-      "epoch": 8.977828834003446,
-      "eval_loss": 1.2319527864456177,
-      "eval_runtime": 116.086,
-      "eval_samples_per_second": 41.573,
-      "eval_steps_per_second": 20.786,
-      "step": 2450
-    },
-    {
-      "epoch": 9.15807007466973,
-      "grad_norm": 55.69232940673828,
-      "learning_rate": 8.088235294117648e-06,
-      "loss": 0.7995,
-      "step": 2500
-    },
-    {
-      "epoch": 9.15807007466973,
-      "eval_loss": 1.2360199689865112,
-      "eval_runtime": 116.0847,
-      "eval_samples_per_second": 41.573,
-      "eval_steps_per_second": 20.787,
-      "step": 2500
-    },
-    {
-      "epoch": 9.341872487076392,
-      "grad_norm": 62.24937438964844,
-      "learning_rate": 6.25e-06,
-      "loss": 0.8149,
-      "step": 2550
-    },
-    {
-      "epoch": 9.341872487076392,
-      "eval_loss": 1.2363650798797607,
-      "eval_runtime": 116.0508,
-      "eval_samples_per_second": 41.585,
-      "eval_steps_per_second": 20.793,
-      "step": 2550
-    },
-    {
-      "epoch": 9.525674899483056,
-      "grad_norm": 50.01460266113281,
-      "learning_rate": 4.411764705882353e-06,
-      "loss": 0.8146,
-      "step": 2600
-    },
-    {
-      "epoch": 9.525674899483056,
-      "eval_loss": 1.2402119636535645,
-      "eval_runtime": 116.1442,
-      "eval_samples_per_second": 41.552,
-      "eval_steps_per_second": 20.776,
-      "step": 2600
-    },
-    {
-      "epoch": 9.709477311889719,
-      "grad_norm": 60.61581802368164,
-      "learning_rate": 2.573529411764706e-06,
-      "loss": 0.8075,
-      "step": 2650
-    },
-    {
-      "epoch": 9.709477311889719,
-      "eval_loss": 1.2341493368148804,
-      "eval_runtime": 116.3546,
-      "eval_samples_per_second": 41.477,
-      "eval_steps_per_second": 20.738,
-      "step": 2650
-    },
-    {
-      "epoch": 9.89327972429638,
-      "grad_norm": 54.73764419555664,
-      "learning_rate": 7.352941176470589e-07,
-      "loss": 0.8108,
-      "step": 2700
-    },
-    {
-      "epoch": 9.89327972429638,
-      "eval_loss": 1.2355538606643677,
-      "eval_runtime": 116.1282,
-      "eval_samples_per_second": 41.558,
-      "eval_steps_per_second": 20.779,
-      "step": 2700
     }
   ],
   "logging_steps": 50,
-  "max_steps": 2720,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
@@ -831,12 +96,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 6.99559007609684e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9972065305108946,
   "eval_steps": 50,
+  "global_step": 251,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.1986467192252778,
+      "grad_norm": 1.6958907842636108,
+      "learning_rate": 9.800796812749005e-05,
+      "loss": 1.6362,
       "step": 50
     },
     {
+      "epoch": 0.1986467192252778,
+      "eval_loss": 1.5567175149917603,
+      "eval_runtime": 14.8041,
+      "eval_samples_per_second": 57.281,
+      "eval_steps_per_second": 28.641,
       "step": 50
     },
     {
+      "epoch": 0.3972934384505556,
+      "grad_norm": 1.6160608530044556,
+      "learning_rate": 9.601593625498009e-05,
+      "loss": 1.5283,
       "step": 100
     },
     {
+      "epoch": 0.3972934384505556,
+      "eval_loss": 1.5002830028533936,
+      "eval_runtime": 14.7266,
+      "eval_samples_per_second": 57.583,
+      "eval_steps_per_second": 28.792,
       "step": 100
     },
     {
+      "epoch": 0.5959401576758334,
+      "grad_norm": 1.500954270362854,
+      "learning_rate": 9.402390438247013e-05,
+      "loss": 1.4825,
       "step": 150
     },
     {
+      "epoch": 0.5959401576758334,
+      "eval_loss": 1.4542008638381958,
+      "eval_runtime": 14.5669,
+      "eval_samples_per_second": 58.214,
+      "eval_steps_per_second": 29.107,
       "step": 150
     },
     {
+      "epoch": 0.7945868769011112,
+      "grad_norm": 0.8321912884712219,
+      "learning_rate": 9.203187250996016e-05,
+      "loss": 1.4431,
       "step": 200
     },
     {
+      "epoch": 0.7945868769011112,
+      "eval_loss": 1.4306951761245728,
+      "eval_runtime": 14.563,
+      "eval_samples_per_second": 58.23,
+      "eval_steps_per_second": 29.115,
       "step": 200
     },
     {
+      "epoch": 0.993233596126389,
+      "grad_norm": 1.2672511339187622,
+      "learning_rate": 9.00398406374502e-05,
+      "loss": 1.4083,
       "step": 250
     },
     {
+      "epoch": 0.993233596126389,
+      "eval_loss": 1.3854182958602905,
+      "eval_runtime": 14.6247,
+      "eval_samples_per_second": 57.984,
+      "eval_steps_per_second": 28.992,
       "step": 250
     }
   ],
   "logging_steps": 50,
+  "max_steps": 2510,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 500,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.004589805030605e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba3ba4c9440deaddd402fb37b83a2039f6da0a755f6ddc398099f7184d4f6b4e
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:d60cd4fa81843b4806dea3364d37d3df9835095733d168d051c0b135e77b91aa
 size 5368