Training in progress, epoch 0, checkpoint

Browse files

Files changed (7) hide show

last-checkpoint/config.json +1 -1
last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +60 -780
last-checkpoint/training_args.bin +2 -2

last-checkpoint/config.json CHANGED Viewed

@@ -16,6 +16,6 @@
   "norm_eps": 1e-05,
   "swiglu_multiple_of": 256,
   "torch_dtype": "float32",
-  "transformers_version": "4.46.3",
   "vocab_size": 37
 }

   "norm_eps": 1e-05,
   "swiglu_multiple_of": 256,
   "torch_dtype": "float32",
+  "transformers_version": "4.47.0",
   "vocab_size": 37
 }

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5a664102d1b3ac5fecaadaaf9968da194c74be4d99b0e5648fc5ba6e5edbbd53
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:359f03565ffde72ca2ba79491c705fe79c6910e9bd98dc4da3c2d72dd984114c
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d77595fb689b5c663dc6d92d024119a8b254d933443aff4cf5d2c4e893f1277
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:9048fafeb2aa676460e8ea091a11b1525206d19f4ef4961093c98af204315634
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecdbbc81f1577c58564d520539f0ecd1e3c63b150d117eedae0016db0ec8a85c
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb357d1fd873b2e9e783702e673b2d6f1de3e1b1f85efe7ccee99b69a6a7abc9
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6602c18a1ebe894c1d51ce5c9cea3744db091c466423f123d4fa8b7754d9378a
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fec4fd6bb533b427a0a9db7b7fd25ac543921c09d5d0a518d007b072a567e94
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,828 +1,108 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.998851234922459,
   "eval_steps": 50,
-  "global_step": 2720,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.18380241240666284,
-      "grad_norm": 96.79701232910156,
-      "learning_rate": 9.816176470588235e-05,
-      "loss": 1.4053,
       "step": 50
     },
     {
-      "epoch": 0.18380241240666284,
-      "eval_loss": 1.3573765754699707,
-      "eval_runtime": 116.0267,
-      "eval_samples_per_second": 41.594,
-      "eval_steps_per_second": 20.797,
       "step": 50
     },
     {
-      "epoch": 0.3676048248133257,
-      "grad_norm": 61.9161491394043,
-      "learning_rate": 9.632352941176472e-05,
-      "loss": 1.3129,
       "step": 100
     },
     {
-      "epoch": 0.3676048248133257,
-      "eval_loss": 1.3341882228851318,
-      "eval_runtime": 115.8791,
-      "eval_samples_per_second": 41.647,
-      "eval_steps_per_second": 20.823,
       "step": 100
     },
     {
-      "epoch": 0.5514072372199885,
-      "grad_norm": 96.54769134521484,
-      "learning_rate": 9.448529411764707e-05,
-      "loss": 1.2777,
       "step": 150
     },
     {
-      "epoch": 0.5514072372199885,
-      "eval_loss": 1.3152097463607788,
-      "eval_runtime": 115.9906,
-      "eval_samples_per_second": 41.607,
-      "eval_steps_per_second": 20.803,
       "step": 150
     },
     {
-      "epoch": 0.7352096496266514,
-      "grad_norm": 106.12042999267578,
-      "learning_rate": 9.264705882352942e-05,
-      "loss": 1.2403,
       "step": 200
     },
     {
-      "epoch": 0.7352096496266514,
-      "eval_loss": 1.3023375272750854,
-      "eval_runtime": 116.029,
-      "eval_samples_per_second": 41.593,
-      "eval_steps_per_second": 20.797,
       "step": 200
     },
     {
-      "epoch": 0.9190120620333142,
-      "grad_norm": 67.17801666259766,
-      "learning_rate": 9.080882352941177e-05,
-      "loss": 1.2155,
       "step": 250
     },
     {
-      "epoch": 0.9190120620333142,
-      "eval_loss": 1.2906817197799683,
-      "eval_runtime": 115.9297,
-      "eval_samples_per_second": 41.629,
-      "eval_steps_per_second": 20.814,
       "step": 250
     },
     {
-      "epoch": 1.102814474439977,
-      "grad_norm": 57.83748245239258,
-      "learning_rate": 8.897058823529412e-05,
-      "loss": 1.1858,
       "step": 300
     },
     {
-      "epoch": 1.102814474439977,
-      "eval_loss": 1.2834607362747192,
-      "eval_runtime": 115.7904,
-      "eval_samples_per_second": 41.679,
-      "eval_steps_per_second": 20.839,
       "step": 300
-    },
-    {
-      "epoch": 1.2866168868466399,
-      "grad_norm": 104.54215240478516,
-      "learning_rate": 8.713235294117648e-05,
-      "loss": 1.1591,
-      "step": 350
-    },
-    {
-      "epoch": 1.2866168868466399,
-      "eval_loss": 1.274283766746521,
-      "eval_runtime": 116.0184,
-      "eval_samples_per_second": 41.597,
-      "eval_steps_per_second": 20.798,
-      "step": 350
-    },
-    {
-      "epoch": 1.4704192992533027,
-      "grad_norm": 85.3061294555664,
-      "learning_rate": 8.529411764705883e-05,
-      "loss": 1.1408,
-      "step": 400
-    },
-    {
-      "epoch": 1.4704192992533027,
-      "eval_loss": 1.2692538499832153,
-      "eval_runtime": 116.0932,
-      "eval_samples_per_second": 41.57,
-      "eval_steps_per_second": 20.785,
-      "step": 400
-    },
-    {
-      "epoch": 1.6542217116599656,
-      "grad_norm": 72.23489379882812,
-      "learning_rate": 8.345588235294118e-05,
-      "loss": 1.1256,
-      "step": 450
-    },
-    {
-      "epoch": 1.6542217116599656,
-      "eval_loss": 1.2617342472076416,
-      "eval_runtime": 116.0634,
-      "eval_samples_per_second": 41.581,
-      "eval_steps_per_second": 20.79,
-      "step": 450
-    },
-    {
-      "epoch": 1.8380241240666284,
-      "grad_norm": 65.63114929199219,
-      "learning_rate": 8.161764705882353e-05,
-      "loss": 1.1098,
-      "step": 500
-    },
-    {
-      "epoch": 1.8380241240666284,
-      "eval_loss": 1.2621153593063354,
-      "eval_runtime": 115.9613,
-      "eval_samples_per_second": 41.617,
-      "eval_steps_per_second": 20.809,
-      "step": 500
-    },
-    {
-      "epoch": 2.021826536473291,
-      "grad_norm": 45.61464309692383,
-      "learning_rate": 7.977941176470589e-05,
-      "loss": 1.0919,
-      "step": 550
-    },
-    {
-      "epoch": 2.021826536473291,
-      "eval_loss": 1.2552005052566528,
-      "eval_runtime": 117.239,
-      "eval_samples_per_second": 41.164,
-      "eval_steps_per_second": 20.582,
-      "step": 550
-    },
-    {
-      "epoch": 2.205628948879954,
-      "grad_norm": 59.019195556640625,
-      "learning_rate": 7.794117647058824e-05,
-      "loss": 1.0693,
-      "step": 600
-    },
-    {
-      "epoch": 2.205628948879954,
-      "eval_loss": 1.2541062831878662,
-      "eval_runtime": 115.9595,
-      "eval_samples_per_second": 41.618,
-      "eval_steps_per_second": 20.809,
-      "step": 600
-    },
-    {
-      "epoch": 2.3894313612866167,
-      "grad_norm": 43.13253402709961,
-      "learning_rate": 7.610294117647059e-05,
-      "loss": 1.0562,
-      "step": 650
-    },
-    {
-      "epoch": 2.3894313612866167,
-      "eval_loss": 1.2531682252883911,
-      "eval_runtime": 116.101,
-      "eval_samples_per_second": 41.567,
-      "eval_steps_per_second": 20.784,
-      "step": 650
-    },
-    {
-      "epoch": 2.5732337736932798,
-      "grad_norm": 59.197181701660156,
-      "learning_rate": 7.426470588235294e-05,
-      "loss": 1.048,
-      "step": 700
-    },
-    {
-      "epoch": 2.5732337736932798,
-      "eval_loss": 1.2469751834869385,
-      "eval_runtime": 115.9924,
-      "eval_samples_per_second": 41.606,
-      "eval_steps_per_second": 20.803,
-      "step": 700
-    },
-    {
-      "epoch": 2.757036186099943,
-      "grad_norm": 75.58405303955078,
-      "learning_rate": 7.242647058823529e-05,
-      "loss": 1.0436,
-      "step": 750
-    },
-    {
-      "epoch": 2.757036186099943,
-      "eval_loss": 1.2442747354507446,
-      "eval_runtime": 116.1229,
-      "eval_samples_per_second": 41.559,
-      "eval_steps_per_second": 20.78,
-      "step": 750
-    },
-    {
-      "epoch": 2.9408385985066055,
-      "grad_norm": 80.94259643554688,
-      "learning_rate": 7.058823529411765e-05,
-      "loss": 1.0327,
-      "step": 800
-    },
-    {
-      "epoch": 2.9408385985066055,
-      "eval_loss": 1.2350915670394897,
-      "eval_runtime": 116.1113,
-      "eval_samples_per_second": 41.564,
-      "eval_steps_per_second": 20.782,
-      "step": 800
-    },
-    {
-      "epoch": 3.124641010913268,
-      "grad_norm": 48.83946990966797,
-      "learning_rate": 6.875e-05,
-      "loss": 1.0081,
-      "step": 850
-    },
-    {
-      "epoch": 3.124641010913268,
-      "eval_loss": 1.2360025644302368,
-      "eval_runtime": 116.1076,
-      "eval_samples_per_second": 41.565,
-      "eval_steps_per_second": 20.782,
-      "step": 850
-    },
-    {
-      "epoch": 3.308443423319931,
-      "grad_norm": 59.597232818603516,
-      "learning_rate": 6.691176470588235e-05,
-      "loss": 0.9992,
-      "step": 900
-    },
-    {
-      "epoch": 3.308443423319931,
-      "eval_loss": 1.2394022941589355,
-      "eval_runtime": 115.8965,
-      "eval_samples_per_second": 41.641,
-      "eval_steps_per_second": 20.82,
-      "step": 900
-    },
-    {
-      "epoch": 3.4922458357265938,
-      "grad_norm": 49.224666595458984,
-      "learning_rate": 6.507352941176472e-05,
-      "loss": 0.9943,
-      "step": 950
-    },
-    {
-      "epoch": 3.4922458357265938,
-      "eval_loss": 1.235238790512085,
-      "eval_runtime": 116.2683,
-      "eval_samples_per_second": 41.507,
-      "eval_steps_per_second": 20.754,
-      "step": 950
-    },
-    {
-      "epoch": 3.676048248133257,
-      "grad_norm": 65.07023620605469,
-      "learning_rate": 6.323529411764705e-05,
-      "loss": 0.9868,
-      "step": 1000
-    },
-    {
-      "epoch": 3.676048248133257,
-      "eval_loss": 1.23443603515625,
-      "eval_runtime": 116.2562,
-      "eval_samples_per_second": 41.512,
-      "eval_steps_per_second": 20.756,
-      "step": 1000
-    },
-    {
-      "epoch": 3.8598506605399194,
-      "grad_norm": 49.963409423828125,
-      "learning_rate": 6.139705882352942e-05,
-      "loss": 0.9781,
-      "step": 1050
-    },
-    {
-      "epoch": 3.8598506605399194,
-      "eval_loss": 1.232906460762024,
-      "eval_runtime": 116.0309,
-      "eval_samples_per_second": 41.592,
-      "eval_steps_per_second": 20.796,
-      "step": 1050
-    },
-    {
-      "epoch": 4.043653072946582,
-      "grad_norm": 57.1251335144043,
-      "learning_rate": 5.9558823529411766e-05,
-      "loss": 0.9697,
-      "step": 1100
-    },
-    {
-      "epoch": 4.043653072946582,
-      "eval_loss": 1.2329473495483398,
-      "eval_runtime": 117.8798,
-      "eval_samples_per_second": 40.94,
-      "eval_steps_per_second": 20.47,
-      "step": 1100
-    },
-    {
-      "epoch": 4.227455485353246,
-      "grad_norm": 47.962928771972656,
-      "learning_rate": 5.7720588235294116e-05,
-      "loss": 0.9499,
-      "step": 1150
-    },
-    {
-      "epoch": 4.227455485353246,
-      "eval_loss": 1.2345472574234009,
-      "eval_runtime": 115.8584,
-      "eval_samples_per_second": 41.654,
-      "eval_steps_per_second": 20.827,
-      "step": 1150
-    },
-    {
-      "epoch": 4.411257897759908,
-      "grad_norm": 43.172767639160156,
-      "learning_rate": 5.588235294117647e-05,
-      "loss": 0.9447,
-      "step": 1200
-    },
-    {
-      "epoch": 4.411257897759908,
-      "eval_loss": 1.2309461832046509,
-      "eval_runtime": 116.0943,
-      "eval_samples_per_second": 41.57,
-      "eval_steps_per_second": 20.785,
-      "step": 1200
-    },
-    {
-      "epoch": 4.595060310166571,
-      "grad_norm": 89.4483413696289,
-      "learning_rate": 5.404411764705882e-05,
-      "loss": 0.9384,
-      "step": 1250
-    },
-    {
-      "epoch": 4.595060310166571,
-      "eval_loss": 1.2274333238601685,
-      "eval_runtime": 116.0025,
-      "eval_samples_per_second": 41.603,
-      "eval_steps_per_second": 20.801,
-      "step": 1250
-    },
-    {
-      "epoch": 4.778862722573233,
-      "grad_norm": 61.61293029785156,
-      "learning_rate": 5.2205882352941185e-05,
-      "loss": 0.9369,
-      "step": 1300
-    },
-    {
-      "epoch": 4.778862722573233,
-      "eval_loss": 1.2256300449371338,
-      "eval_runtime": 115.8928,
-      "eval_samples_per_second": 41.642,
-      "eval_steps_per_second": 20.821,
-      "step": 1300
-    },
-    {
-      "epoch": 4.962665134979897,
-      "grad_norm": 73.70500946044922,
-      "learning_rate": 5.036764705882353e-05,
-      "loss": 0.9301,
-      "step": 1350
-    },
-    {
-      "epoch": 4.962665134979897,
-      "eval_loss": 1.2280672788619995,
-      "eval_runtime": 116.1193,
-      "eval_samples_per_second": 41.561,
-      "eval_steps_per_second": 20.78,
-      "step": 1350
-    },
-    {
-      "epoch": 5.1464675473865595,
-      "grad_norm": 71.07781219482422,
-      "learning_rate": 4.8529411764705885e-05,
-      "loss": 0.9172,
-      "step": 1400
-    },
-    {
-      "epoch": 5.1464675473865595,
-      "eval_loss": 1.2280040979385376,
-      "eval_runtime": 116.2535,
-      "eval_samples_per_second": 41.513,
-      "eval_steps_per_second": 20.756,
-      "step": 1400
-    },
-    {
-      "epoch": 5.330269959793222,
-      "grad_norm": 59.39795684814453,
-      "learning_rate": 4.669117647058824e-05,
-      "loss": 0.9067,
-      "step": 1450
-    },
-    {
-      "epoch": 5.330269959793222,
-      "eval_loss": 1.2288336753845215,
-      "eval_runtime": 115.8973,
-      "eval_samples_per_second": 41.64,
-      "eval_steps_per_second": 20.82,
-      "step": 1450
-    },
-    {
-      "epoch": 5.514072372199885,
-      "grad_norm": 55.501617431640625,
-      "learning_rate": 4.485294117647059e-05,
-      "loss": 0.9004,
-      "step": 1500
-    },
-    {
-      "epoch": 5.514072372199885,
-      "eval_loss": 1.2262146472930908,
-      "eval_runtime": 115.9478,
-      "eval_samples_per_second": 41.622,
-      "eval_steps_per_second": 20.811,
-      "step": 1500
-    },
-    {
-      "epoch": 5.697874784606548,
-      "grad_norm": 69.02213287353516,
-      "learning_rate": 4.301470588235295e-05,
-      "loss": 0.9035,
-      "step": 1550
-    },
-    {
-      "epoch": 5.697874784606548,
-      "eval_loss": 1.2236130237579346,
-      "eval_runtime": 116.1221,
-      "eval_samples_per_second": 41.56,
-      "eval_steps_per_second": 20.78,
-      "step": 1550
-    },
-    {
-      "epoch": 5.881677197013211,
-      "grad_norm": 45.09730529785156,
-      "learning_rate": 4.11764705882353e-05,
-      "loss": 0.8962,
-      "step": 1600
-    },
-    {
-      "epoch": 5.881677197013211,
-      "eval_loss": 1.2278504371643066,
-      "eval_runtime": 115.9916,
-      "eval_samples_per_second": 41.606,
-      "eval_steps_per_second": 20.803,
-      "step": 1600
-    },
-    {
-      "epoch": 6.0654796094198735,
-      "grad_norm": 47.59389877319336,
-      "learning_rate": 3.933823529411765e-05,
-      "loss": 0.8925,
-      "step": 1650
-    },
-    {
-      "epoch": 6.0654796094198735,
-      "eval_loss": 1.2326780557632446,
-      "eval_runtime": 116.7248,
-      "eval_samples_per_second": 41.345,
-      "eval_steps_per_second": 20.673,
-      "step": 1650
-    },
-    {
-      "epoch": 6.249282021826536,
-      "grad_norm": 45.18083190917969,
-      "learning_rate": 3.7500000000000003e-05,
-      "loss": 0.8771,
-      "step": 1700
-    },
-    {
-      "epoch": 6.249282021826536,
-      "eval_loss": 1.2302526235580444,
-      "eval_runtime": 115.8769,
-      "eval_samples_per_second": 41.648,
-      "eval_steps_per_second": 20.824,
-      "step": 1700
-    },
-    {
-      "epoch": 6.4330844342332,
-      "grad_norm": 40.455318450927734,
-      "learning_rate": 3.566176470588235e-05,
-      "loss": 0.8743,
-      "step": 1750
-    },
-    {
-      "epoch": 6.4330844342332,
-      "eval_loss": 1.2299398183822632,
-      "eval_runtime": 115.9106,
-      "eval_samples_per_second": 41.636,
-      "eval_steps_per_second": 20.818,
-      "step": 1750
-    },
-    {
-      "epoch": 6.616886846639862,
-      "grad_norm": 61.713111877441406,
-      "learning_rate": 3.382352941176471e-05,
-      "loss": 0.8735,
-      "step": 1800
-    },
-    {
-      "epoch": 6.616886846639862,
-      "eval_loss": 1.2240906953811646,
-      "eval_runtime": 116.0411,
-      "eval_samples_per_second": 41.589,
-      "eval_steps_per_second": 20.794,
-      "step": 1800
-    },
-    {
-      "epoch": 6.800689259046525,
-      "grad_norm": 69.22649383544922,
-      "learning_rate": 3.198529411764706e-05,
-      "loss": 0.8648,
-      "step": 1850
-    },
-    {
-      "epoch": 6.800689259046525,
-      "eval_loss": 1.2253305912017822,
-      "eval_runtime": 115.8996,
-      "eval_samples_per_second": 41.639,
-      "eval_steps_per_second": 20.82,
-      "step": 1850
-    },
-    {
-      "epoch": 6.9844916714531875,
-      "grad_norm": 65.4384994506836,
-      "learning_rate": 3.0147058823529413e-05,
-      "loss": 0.8649,
-      "step": 1900
-    },
-    {
-      "epoch": 6.9844916714531875,
-      "eval_loss": 1.2292358875274658,
-      "eval_runtime": 116.0285,
-      "eval_samples_per_second": 41.593,
-      "eval_steps_per_second": 20.797,
-      "step": 1900
-    },
-    {
-      "epoch": 7.168294083859851,
-      "grad_norm": 46.392173767089844,
-      "learning_rate": 2.8308823529411766e-05,
-      "loss": 0.8475,
-      "step": 1950
-    },
-    {
-      "epoch": 7.168294083859851,
-      "eval_loss": 1.2355010509490967,
-      "eval_runtime": 116.0581,
-      "eval_samples_per_second": 41.583,
-      "eval_steps_per_second": 20.791,
-      "step": 1950
-    },
-    {
-      "epoch": 7.352096496266514,
-      "grad_norm": 64.82035827636719,
-      "learning_rate": 2.647058823529412e-05,
-      "loss": 0.8496,
-      "step": 2000
-    },
-    {
-      "epoch": 7.352096496266514,
-      "eval_loss": 1.2320975065231323,
-      "eval_runtime": 115.9151,
-      "eval_samples_per_second": 41.634,
-      "eval_steps_per_second": 20.817,
-      "step": 2000
-    },
-    {
-      "epoch": 7.535898908673176,
-      "grad_norm": 46.27527618408203,
-      "learning_rate": 2.4632352941176472e-05,
-      "loss": 0.8452,
-      "step": 2050
-    },
-    {
-      "epoch": 7.535898908673176,
-      "eval_loss": 1.2323057651519775,
-      "eval_runtime": 115.981,
-      "eval_samples_per_second": 41.61,
-      "eval_steps_per_second": 20.805,
-      "step": 2050
-    },
-    {
-      "epoch": 7.719701321079839,
-      "grad_norm": 52.665435791015625,
-      "learning_rate": 2.2794117647058825e-05,
-      "loss": 0.8423,
-      "step": 2100
-    },
-    {
-      "epoch": 7.719701321079839,
-      "eval_loss": 1.2322068214416504,
-      "eval_runtime": 115.9188,
-      "eval_samples_per_second": 41.633,
-      "eval_steps_per_second": 20.816,
-      "step": 2100
-    },
-    {
-      "epoch": 7.903503733486502,
-      "grad_norm": 74.63914489746094,
-      "learning_rate": 2.0955882352941178e-05,
-      "loss": 0.8421,
-      "step": 2150
-    },
-    {
-      "epoch": 7.903503733486502,
-      "eval_loss": 1.2284280061721802,
-      "eval_runtime": 115.8808,
-      "eval_samples_per_second": 41.646,
-      "eval_steps_per_second": 20.823,
-      "step": 2150
-    },
-    {
-      "epoch": 8.087306145893164,
-      "grad_norm": 45.93680191040039,
-      "learning_rate": 1.9117647058823528e-05,
-      "loss": 0.8363,
-      "step": 2200
-    },
-    {
-      "epoch": 8.087306145893164,
-      "eval_loss": 1.2366794347763062,
-      "eval_runtime": 115.7882,
-      "eval_samples_per_second": 41.68,
-      "eval_steps_per_second": 20.84,
-      "step": 2200
-    },
-    {
-      "epoch": 8.271108558299828,
-      "grad_norm": 73.48126983642578,
-      "learning_rate": 1.7279411764705884e-05,
-      "loss": 0.8333,
-      "step": 2250
-    },
-    {
-      "epoch": 8.271108558299828,
-      "eval_loss": 1.2330245971679688,
-      "eval_runtime": 115.848,
-      "eval_samples_per_second": 41.658,
-      "eval_steps_per_second": 20.829,
-      "step": 2250
-    },
-    {
-      "epoch": 8.454910970706491,
-      "grad_norm": 76.98050689697266,
-      "learning_rate": 1.5441176470588237e-05,
-      "loss": 0.8267,
-      "step": 2300
-    },
-    {
-      "epoch": 8.454910970706491,
-      "eval_loss": 1.2376160621643066,
-      "eval_runtime": 115.9174,
-      "eval_samples_per_second": 41.633,
-      "eval_steps_per_second": 20.817,
-      "step": 2300
-    },
-    {
-      "epoch": 8.638713383113153,
-      "grad_norm": 128.97714233398438,
-      "learning_rate": 1.3602941176470587e-05,
-      "loss": 0.8217,
-      "step": 2350
-    },
-    {
-      "epoch": 8.638713383113153,
-      "eval_loss": 1.2340155839920044,
-      "eval_runtime": 115.9099,
-      "eval_samples_per_second": 41.636,
-      "eval_steps_per_second": 20.818,
-      "step": 2350
-    },
-    {
-      "epoch": 8.822515795519816,
-      "grad_norm": 55.4945182800293,
-      "learning_rate": 1.1764705882352942e-05,
-      "loss": 0.8221,
-      "step": 2400
-    },
-    {
-      "epoch": 8.822515795519816,
-      "eval_loss": 1.2404063940048218,
-      "eval_runtime": 116.0058,
-      "eval_samples_per_second": 41.601,
-      "eval_steps_per_second": 20.801,
-      "step": 2400
-    },
-    {
-      "epoch": 9.00631820792648,
-      "grad_norm": 69.84994506835938,
-      "learning_rate": 9.926470588235293e-06,
-      "loss": 0.8202,
-      "step": 2450
-    },
-    {
-      "epoch": 9.00631820792648,
-      "eval_loss": 1.2383702993392944,
-      "eval_runtime": 116.7345,
-      "eval_samples_per_second": 41.342,
-      "eval_steps_per_second": 20.671,
-      "step": 2450
-    },
-    {
-      "epoch": 9.190120620333142,
-      "grad_norm": 75.23961639404297,
-      "learning_rate": 8.088235294117648e-06,
-      "loss": 0.8143,
-      "step": 2500
-    },
-    {
-      "epoch": 9.190120620333142,
-      "eval_loss": 1.236066460609436,
-      "eval_runtime": 115.996,
-      "eval_samples_per_second": 41.605,
-      "eval_steps_per_second": 20.802,
-      "step": 2500
-    },
-    {
-      "epoch": 9.373923032739805,
-      "grad_norm": 62.9267692565918,
-      "learning_rate": 6.25e-06,
-      "loss": 0.8106,
-      "step": 2550
-    },
-    {
-      "epoch": 9.373923032739805,
-      "eval_loss": 1.23640775680542,
-      "eval_runtime": 115.848,
-      "eval_samples_per_second": 41.658,
-      "eval_steps_per_second": 20.829,
-      "step": 2550
-    },
-    {
-      "epoch": 9.557725445146467,
-      "grad_norm": 54.76566696166992,
-      "learning_rate": 4.411764705882353e-06,
-      "loss": 0.8144,
-      "step": 2600
-    },
-    {
-      "epoch": 9.557725445146467,
-      "eval_loss": 1.2419943809509277,
-      "eval_runtime": 116.0232,
-      "eval_samples_per_second": 41.595,
-      "eval_steps_per_second": 20.798,
-      "step": 2600
-    },
-    {
-      "epoch": 9.74152785755313,
-      "grad_norm": 51.20401382446289,
-      "learning_rate": 2.573529411764706e-06,
-      "loss": 0.8061,
-      "step": 2650
-    },
-    {
-      "epoch": 9.74152785755313,
-      "eval_loss": 1.2368206977844238,
-      "eval_runtime": 116.069,
-      "eval_samples_per_second": 41.579,
-      "eval_steps_per_second": 20.789,
-      "step": 2650
-    },
-    {
-      "epoch": 9.925330269959794,
-      "grad_norm": 52.51292419433594,
-      "learning_rate": 7.352941176470589e-07,
-      "loss": 0.8122,
-      "step": 2700
-    },
-    {
-      "epoch": 9.925330269959794,
-      "eval_loss": 1.2355531454086304,
-      "eval_runtime": 116.1057,
-      "eval_samples_per_second": 41.566,
-      "eval_steps_per_second": 20.783,
-      "step": 2700
     }
   ],
   "logging_steps": 50,
-  "max_steps": 2720,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 10,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -831,12 +111,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": true
       },
       "attributes": {}
     }
   },
-  "total_flos": 7.018175725001769e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.9979996362975087,
   "eval_steps": 50,
+  "global_step": 343,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.14548099654482632,
+      "grad_norm": 92.38280487060547,
+      "learning_rate": 9.927113702623908e-05,
+      "loss": 1.3958,
       "step": 50
     },
     {
+      "epoch": 0.14548099654482632,
+      "eval_loss": 1.3268945217132568,
+      "eval_runtime": 116.5998,
+      "eval_samples_per_second": 41.389,
+      "eval_steps_per_second": 20.695,
       "step": 50
     },
     {
+      "epoch": 0.29096199308965265,
+      "grad_norm": 75.30126190185547,
+      "learning_rate": 9.854227405247813e-05,
+      "loss": 1.3228,
       "step": 100
     },
     {
+      "epoch": 0.29096199308965265,
+      "eval_loss": 1.2796554565429688,
+      "eval_runtime": 116.9514,
+      "eval_samples_per_second": 41.265,
+      "eval_steps_per_second": 20.633,
       "step": 100
     },
     {
+      "epoch": 0.436442989634479,
+      "grad_norm": 113.90583038330078,
+      "learning_rate": 9.781341107871722e-05,
+      "loss": 1.2818,
       "step": 150
     },
     {
+      "epoch": 0.436442989634479,
+      "eval_loss": 1.2467392683029175,
+      "eval_runtime": 116.7421,
+      "eval_samples_per_second": 41.339,
+      "eval_steps_per_second": 20.669,
       "step": 150
     },
     {
+      "epoch": 0.5819239861793053,
+      "grad_norm": 75.85360717773438,
+      "learning_rate": 9.708454810495627e-05,
+      "loss": 1.255,
       "step": 200
     },
     {
+      "epoch": 0.5819239861793053,
+      "eval_loss": 1.2072206735610962,
+      "eval_runtime": 116.5054,
+      "eval_samples_per_second": 41.423,
+      "eval_steps_per_second": 20.711,
       "step": 200
     },
     {
+      "epoch": 0.7274049827241317,
+      "grad_norm": 62.863895416259766,
+      "learning_rate": 9.635568513119534e-05,
+      "loss": 1.2329,
       "step": 250
     },
     {
+      "epoch": 0.7274049827241317,
+      "eval_loss": 1.1830443143844604,
+      "eval_runtime": 116.5694,
+      "eval_samples_per_second": 41.4,
+      "eval_steps_per_second": 20.7,
       "step": 250
     },
     {
+      "epoch": 0.872885979268958,
+      "grad_norm": 67.02438354492188,
+      "learning_rate": 9.56268221574344e-05,
+      "loss": 1.2113,
       "step": 300
     },
     {
+      "epoch": 0.872885979268958,
+      "eval_loss": 1.1557544469833374,
+      "eval_runtime": 116.6632,
+      "eval_samples_per_second": 41.367,
+      "eval_steps_per_second": 20.683,
       "step": 300
     }
   ],
   "logging_steps": 50,
+  "max_steps": 6860,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 20,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": false
       },
       "attributes": {}
     }
   },
+  "total_flos": 8.9337717422293e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dd647ab4c4e535f0fc2ef28d563af1b5f95fbaaecd78a15f29102b61aeb873fd
-size 5304

 version https://git-lfs.github.com/spec/v1
+oid sha256:e7fd3757bfae30126ccb3f467f9722223f1ea2ad8678404c8edb0c2dfc443523
+size 5368