Training in progress, step 400, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +90 -90
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2890a7c9c349cc54b08bb1067e45648aae5178ba7b5b689e7e542c3a68e936f4
 size 4939116424

 version https://git-lfs.github.com/spec/v1
+oid sha256:5cb968af799165acf1cfa9ded37b1ef66cc0c047f680efd9d3f9e0669cb5f0c1
 size 4939116424

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3493f19fd05596dae6151541c026205404d8b2b7c8fed01a83e22b6587ea33a
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:52fe44bbdbc149f43a4a3f05f9cfada2db0985da8fa1554981ed6616e0a9c909
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88c96aff5845bfc03c4ad5b80136c5fd92f4a893b3b58bbe93f65a260e543582
 size 3590619888

 version https://git-lfs.github.com/spec/v1
+oid sha256:5abe838d9f785fd0a874716143de87fdbdc4b78e71af4464450a4d88e1861857
 size 3590619888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7daecd97d03a3d015286d858048a8e26142c44057ccf54bfff3907d7baae1da9
 size 13688025904

 version https://git-lfs.github.com/spec/v1
+oid sha256:2684d4a6449589eb2588954ce7795dbbb7a2529fddfe312248de6713f57bd5a6
 size 13688025904

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -11,305 +11,305 @@
     {
       "epoch": 0.0001479946721918011,
       "eval_loss": 2.158451557159424,
-      "eval_runtime": 154.2969,
-      "eval_samples_per_second": 9.734,
-      "eval_steps_per_second": 4.867,
       "step": 1
     },
     {
       "epoch": 0.001479946721918011,
-      "grad_norm": 16.0,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 1.8762,
       "step": 10
     },
     {
       "epoch": 0.002959893443836022,
-      "grad_norm": 13.625,
       "learning_rate": 3.2000000000000005e-05,
-      "loss": 1.8953,
       "step": 20
     },
     {
       "epoch": 0.0044398401657540325,
-      "grad_norm": 18.625,
       "learning_rate": 4.8e-05,
-      "loss": 1.6935,
       "step": 30
     },
     {
       "epoch": 0.005919786887672044,
-      "grad_norm": 26.125,
       "learning_rate": 6.400000000000001e-05,
-      "loss": 1.7842,
       "step": 40
     },
     {
       "epoch": 0.007399733609590055,
-      "grad_norm": 32.25,
       "learning_rate": 8e-05,
-      "loss": 1.4802,
       "step": 50
     },
     {
       "epoch": 0.008879680331508065,
-      "grad_norm": 7.03125,
       "learning_rate": 9.6e-05,
-      "loss": 1.9513,
       "step": 60
     },
     {
       "epoch": 0.010359627053426078,
-      "grad_norm": 12.6875,
       "learning_rate": 0.00011200000000000001,
-      "loss": 2.0826,
       "step": 70
     },
     {
       "epoch": 0.011839573775344088,
-      "grad_norm": 15.0,
       "learning_rate": 0.00012800000000000002,
-      "loss": 1.5773,
       "step": 80
     },
     {
       "epoch": 0.0133195204972621,
-      "grad_norm": 63.5,
       "learning_rate": 0.000144,
-      "loss": 2.2998,
       "step": 90
     },
     {
       "epoch": 0.01479946721918011,
-      "grad_norm": 145.0,
       "learning_rate": 0.00016,
-      "loss": 2.2177,
       "step": 100
     },
     {
       "epoch": 0.01627941394109812,
-      "grad_norm": 31.0,
       "learning_rate": 0.00017600000000000002,
-      "loss": 2.2641,
       "step": 110
     },
     {
       "epoch": 0.01775936066301613,
-      "grad_norm": 197.0,
       "learning_rate": 0.000192,
-      "loss": 2.6,
       "step": 120
     },
     {
       "epoch": 0.01923930738493414,
-      "grad_norm": 19.625,
       "learning_rate": 0.0001999978128380225,
-      "loss": 2.6408,
       "step": 130
     },
     {
       "epoch": 0.020719254106852155,
-      "grad_norm": 27.5,
       "learning_rate": 0.0001999803161162393,
-      "loss": 2.6586,
       "step": 140
     },
     {
       "epoch": 0.022199200828770166,
       "grad_norm": 80.0,
       "learning_rate": 0.00019994532573409262,
-      "loss": 3.8429,
       "step": 150
     },
     {
       "epoch": 0.023679147550688177,
-      "grad_norm": 15.875,
       "learning_rate": 0.00019989284781388617,
-      "loss": 3.2117,
       "step": 160
     },
     {
       "epoch": 0.025159094272606188,
-      "grad_norm": 17.625,
       "learning_rate": 0.00019982289153773646,
-      "loss": 3.104,
       "step": 170
     },
     {
       "epoch": 0.0266390409945242,
-      "grad_norm": 18.375,
       "learning_rate": 0.00019973546914596623,
-      "loss": 3.2409,
       "step": 180
     },
     {
       "epoch": 0.02811898771644221,
-      "grad_norm": 106.5,
       "learning_rate": 0.00019963059593496268,
-      "loss": 3.0179,
       "step": 190
     },
     {
       "epoch": 0.02959893443836022,
-      "grad_norm": 56.25,
       "learning_rate": 0.00019950829025450114,
-      "loss": 4.9345,
       "step": 200
     },
     {
       "epoch": 0.02959893443836022,
-      "eval_loss": 4.852846622467041,
-      "eval_runtime": 153.9378,
-      "eval_samples_per_second": 9.757,
-      "eval_steps_per_second": 4.879,
       "step": 200
     },
     {
       "epoch": 0.03107888116027823,
-      "grad_norm": 32.0,
       "learning_rate": 0.0001993685735045343,
-      "loss": 4.0935,
       "step": 210
     },
     {
       "epoch": 0.03255882788219624,
-      "grad_norm": 15.3125,
       "learning_rate": 0.0001992114701314478,
-      "loss": 3.4115,
       "step": 220
     },
     {
       "epoch": 0.03403877460411425,
-      "grad_norm": 17.875,
       "learning_rate": 0.000199037007623783,
-      "loss": 3.4007,
       "step": 230
     },
     {
       "epoch": 0.03551872132603226,
-      "grad_norm": 89.0,
       "learning_rate": 0.00019884521650742715,
-      "loss": 3.7179,
       "step": 240
     },
     {
       "epoch": 0.036998668047950274,
-      "grad_norm": 53.5,
       "learning_rate": 0.00019863613034027224,
-      "loss": 8.52,
       "step": 250
     },
     {
       "epoch": 0.03847861476986828,
-      "grad_norm": 9.4375,
       "learning_rate": 0.0001984097857063434,
-      "loss": 7.4323,
       "step": 260
     },
     {
       "epoch": 0.039958561491786296,
-      "grad_norm": 10.75,
       "learning_rate": 0.0001981662222093976,
-      "loss": 7.4798,
       "step": 270
     },
     {
       "epoch": 0.04143850821370431,
-      "grad_norm": 11.6875,
       "learning_rate": 0.00019790548246599447,
-      "loss": 7.5858,
       "step": 280
     },
     {
       "epoch": 0.04291845493562232,
-      "grad_norm": 16.875,
       "learning_rate": 0.00019762761209803927,
-      "loss": 7.6681,
       "step": 290
     },
     {
       "epoch": 0.04439840165754033,
-      "grad_norm": 29.875,
       "learning_rate": 0.0001973326597248006,
-      "loss": 7.706,
       "step": 300
     },
     {
       "epoch": 0.04587834837945834,
-      "grad_norm": 6.3125,
       "learning_rate": 0.00019702067695440332,
-      "loss": 7.8319,
       "step": 310
     },
     {
       "epoch": 0.04735829510137635,
-      "grad_norm": 6.625,
       "learning_rate": 0.00019669171837479873,
-      "loss": 7.7578,
       "step": 320
     },
     {
       "epoch": 0.04883824182329436,
-      "grad_norm": 7.375,
       "learning_rate": 0.00019634584154421317,
-      "loss": 7.6797,
       "step": 330
     },
     {
       "epoch": 0.050318188545212375,
-      "grad_norm": 11.1875,
       "learning_rate": 0.00019598310698107702,
-      "loss": 7.3542,
       "step": 340
     },
     {
       "epoch": 0.05179813526713038,
-      "grad_norm": 21.0,
       "learning_rate": 0.00019560357815343577,
-      "loss": 7.4582,
       "step": 350
     },
     {
       "epoch": 0.0532780819890484,
-      "grad_norm": 8.25,
       "learning_rate": 0.00019520732146784491,
-      "loss": 7.4186,
       "step": 360
     },
     {
       "epoch": 0.054758028710966404,
-      "grad_norm": 8.625,
       "learning_rate": 0.0001947944062577507,
-      "loss": 7.4621,
       "step": 370
     },
     {
       "epoch": 0.05623797543288442,
-      "grad_norm": 9.75,
       "learning_rate": 0.00019436490477135878,
-      "loss": 7.6531,
       "step": 380
     },
     {
       "epoch": 0.057717922154802426,
-      "grad_norm": 8.5625,
       "learning_rate": 0.00019391889215899299,
-      "loss": 7.494,
       "step": 390
     },
     {
       "epoch": 0.05919786887672044,
-      "grad_norm": 18.125,
       "learning_rate": 0.0001934564464599461,
-      "loss": 7.3832,
       "step": 400
     },
     {
       "epoch": 0.05919786887672044,
-      "eval_loss": 7.497010707855225,
-      "eval_runtime": 154.964,
-      "eval_samples_per_second": 9.693,
-      "eval_steps_per_second": 4.846,
       "step": 400
     }
   ],

     {
       "epoch": 0.0001479946721918011,
       "eval_loss": 2.158451557159424,
+      "eval_runtime": 109.9644,
+      "eval_samples_per_second": 13.659,
+      "eval_steps_per_second": 6.829,
       "step": 1
     },
     {
       "epoch": 0.001479946721918011,
+      "grad_norm": 19.0,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 1.8755,
       "step": 10
     },
     {
       "epoch": 0.002959893443836022,
+      "grad_norm": 15.75,
       "learning_rate": 3.2000000000000005e-05,
+      "loss": 1.8991,
       "step": 20
     },
     {
       "epoch": 0.0044398401657540325,
+      "grad_norm": 20.5,
       "learning_rate": 4.8e-05,
+      "loss": 1.6921,
       "step": 30
     },
     {
       "epoch": 0.005919786887672044,
+      "grad_norm": 21.25,
       "learning_rate": 6.400000000000001e-05,
+      "loss": 1.7869,
       "step": 40
     },
     {
       "epoch": 0.007399733609590055,
+      "grad_norm": 29.0,
       "learning_rate": 8e-05,
+      "loss": 1.2968,
       "step": 50
     },
     {
       "epoch": 0.008879680331508065,
+      "grad_norm": 7.1875,
       "learning_rate": 9.6e-05,
+      "loss": 1.9665,
       "step": 60
     },
     {
       "epoch": 0.010359627053426078,
+      "grad_norm": 14.5625,
       "learning_rate": 0.00011200000000000001,
+      "loss": 2.0639,
       "step": 70
     },
     {
       "epoch": 0.011839573775344088,
+      "grad_norm": 21.25,
       "learning_rate": 0.00012800000000000002,
+      "loss": 1.5221,
       "step": 80
     },
     {
       "epoch": 0.0133195204972621,
+      "grad_norm": 20.75,
       "learning_rate": 0.000144,
+      "loss": 2.3197,
       "step": 90
     },
     {
       "epoch": 0.01479946721918011,
+      "grad_norm": 132.0,
       "learning_rate": 0.00016,
+      "loss": 2.2097,
       "step": 100
     },
     {
       "epoch": 0.01627941394109812,
+      "grad_norm": 21.0,
       "learning_rate": 0.00017600000000000002,
+      "loss": 2.2899,
       "step": 110
     },
     {
       "epoch": 0.01775936066301613,
+      "grad_norm": 15.625,
       "learning_rate": 0.000192,
+      "loss": 2.4378,
       "step": 120
     },
     {
       "epoch": 0.01923930738493414,
+      "grad_norm": 25.625,
       "learning_rate": 0.0001999978128380225,
+      "loss": 2.581,
       "step": 130
     },
     {
       "epoch": 0.020719254106852155,
+      "grad_norm": 27.75,
       "learning_rate": 0.0001999803161162393,
+      "loss": 2.7093,
       "step": 140
     },
     {
       "epoch": 0.022199200828770166,
       "grad_norm": 80.0,
       "learning_rate": 0.00019994532573409262,
+      "loss": 3.7613,
       "step": 150
     },
     {
       "epoch": 0.023679147550688177,
+      "grad_norm": 26.0,
       "learning_rate": 0.00019989284781388617,
+      "loss": 3.2043,
       "step": 160
     },
     {
       "epoch": 0.025159094272606188,
+      "grad_norm": 16.125,
       "learning_rate": 0.00019982289153773646,
+      "loss": 2.9456,
       "step": 170
     },
     {
       "epoch": 0.0266390409945242,
+      "grad_norm": 18.25,
       "learning_rate": 0.00019973546914596623,
+      "loss": 3.1087,
       "step": 180
     },
     {
       "epoch": 0.02811898771644221,
+      "grad_norm": 16.125,
       "learning_rate": 0.00019963059593496268,
+      "loss": 2.9073,
       "step": 190
     },
     {
       "epoch": 0.02959893443836022,
+      "grad_norm": 55.5,
       "learning_rate": 0.00019950829025450114,
+      "loss": 4.5937,
       "step": 200
     },
     {
       "epoch": 0.02959893443836022,
+      "eval_loss": 3.860623359680176,
+      "eval_runtime": 106.7132,
+      "eval_samples_per_second": 14.075,
+      "eval_steps_per_second": 7.038,
       "step": 200
     },
     {
       "epoch": 0.03107888116027823,
+      "grad_norm": 13.625,
       "learning_rate": 0.0001993685735045343,
+      "loss": 3.8042,
       "step": 210
     },
     {
       "epoch": 0.03255882788219624,
+      "grad_norm": 23.375,
       "learning_rate": 0.0001992114701314478,
+      "loss": 3.0563,
       "step": 220
     },
     {
       "epoch": 0.03403877460411425,
+      "grad_norm": 20.125,
       "learning_rate": 0.000199037007623783,
+      "loss": 3.5398,
       "step": 230
     },
     {
       "epoch": 0.03551872132603226,
+      "grad_norm": 44.75,
       "learning_rate": 0.00019884521650742715,
+      "loss": 3.8845,
       "step": 240
     },
     {
       "epoch": 0.036998668047950274,
+      "grad_norm": 17.625,
       "learning_rate": 0.00019863613034027224,
+      "loss": 3.6043,
       "step": 250
     },
     {
       "epoch": 0.03847861476986828,
+      "grad_norm": 13.375,
       "learning_rate": 0.0001984097857063434,
+      "loss": 3.5133,
       "step": 260
     },
     {
       "epoch": 0.039958561491786296,
+      "grad_norm": 43.25,
       "learning_rate": 0.0001981662222093976,
+      "loss": 3.1527,
       "step": 270
     },
     {
       "epoch": 0.04143850821370431,
+      "grad_norm": 26.625,
       "learning_rate": 0.00019790548246599447,
+      "loss": 3.2272,
       "step": 280
     },
     {
       "epoch": 0.04291845493562232,
+      "grad_norm": 31.625,
       "learning_rate": 0.00019762761209803927,
+      "loss": 3.7942,
       "step": 290
     },
     {
       "epoch": 0.04439840165754033,
+      "grad_norm": 70.0,
       "learning_rate": 0.0001973326597248006,
+      "loss": 4.5742,
       "step": 300
     },
     {
       "epoch": 0.04587834837945834,
+      "grad_norm": 20.125,
       "learning_rate": 0.00019702067695440332,
+      "loss": 3.939,
       "step": 310
     },
     {
       "epoch": 0.04735829510137635,
+      "grad_norm": 22.25,
       "learning_rate": 0.00019669171837479873,
+      "loss": 3.4604,
       "step": 320
     },
     {
       "epoch": 0.04883824182329436,
+      "grad_norm": 14.8125,
       "learning_rate": 0.00019634584154421317,
+      "loss": 3.731,
       "step": 330
     },
     {
       "epoch": 0.050318188545212375,
+      "grad_norm": 23.75,
       "learning_rate": 0.00019598310698107702,
+      "loss": 3.3564,
       "step": 340
     },
     {
       "epoch": 0.05179813526713038,
+      "grad_norm": 31.875,
       "learning_rate": 0.00019560357815343577,
+      "loss": 3.7669,
       "step": 350
     },
     {
       "epoch": 0.0532780819890484,
+      "grad_norm": 7.40625,
       "learning_rate": 0.00019520732146784491,
+      "loss": 3.9271,
       "step": 360
     },
     {
       "epoch": 0.054758028710966404,
+      "grad_norm": 12.8125,
       "learning_rate": 0.0001947944062577507,
+      "loss": 3.8324,
       "step": 370
     },
     {
       "epoch": 0.05623797543288442,
+      "grad_norm": 20.5,
       "learning_rate": 0.00019436490477135878,
+      "loss": 3.7409,
       "step": 380
     },
     {
       "epoch": 0.057717922154802426,
+      "grad_norm": 82.5,
       "learning_rate": 0.00019391889215899299,
+      "loss": 3.8351,
       "step": 390
     },
     {
       "epoch": 0.05919786887672044,
+      "grad_norm": 40.0,
       "learning_rate": 0.0001934564464599461,
+      "loss": 4.4515,
       "step": 400
     },
     {
       "epoch": 0.05919786887672044,
+      "eval_loss": 4.6751227378845215,
+      "eval_runtime": 106.1002,
+      "eval_samples_per_second": 14.156,
+      "eval_steps_per_second": 7.078,
       "step": 400
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3308be13432f9edeb5f5c57029431c629b091dbfc5066d71856db44c0ec64f97
 size 6840

 version https://git-lfs.github.com/spec/v1
+oid sha256:2bf6f06544da4fe32a2b63dd4d1f2f74f2cd1ba39da1c617fe85338c0397a8ef
 size 6840