Training in progress, step 200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +46 -46
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2c7f2f332787e46fd7e5b4bfc3ab7da69e6670f1e6feff08bdf9008ef8c58b44
 size 4988025760

 version https://git-lfs.github.com/spec/v1
+oid sha256:c83a0dc846d32f7d7a3d780fe4a230d16ee0e139636eebdf8f49d19cd998205c
 size 4988025760

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7074557b22dbdac5bcaaaa27ad7a16f0b87a8a3db0e2c3a5b2b4aeb4cdc0b591
 size 240691728

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a34ed505e907c9e0a1dbecda8d5d6f310b44db3b745a0e73ac6aa6b3977ed6f
 size 240691728

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37303399386e49ea69f1fff77632cfb6cb34c03ba45651cda3244cf99c030874
 size 5312107146

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee781a3efb3210dceca33646beddc15e4531fff8487306a1a730d5abf521ce28
 size 5312107146

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -11,157 +11,157 @@
     {
       "epoch": 0.03225806451612903,
       "eval_loss": 2.5740277767181396,
-      "eval_runtime": 31.6988,
-      "eval_samples_per_second": 47.352,
-      "eval_steps_per_second": 1.987,
       "step": 1
     },
     {
       "epoch": 0.3225806451612903,
-      "grad_norm": 2.609375,
       "learning_rate": 8e-05,
-      "loss": 1.99,
       "step": 10
     },
     {
       "epoch": 0.6451612903225806,
-      "grad_norm": 2.421875,
       "learning_rate": 0.00016,
-      "loss": 2.0933,
       "step": 20
     },
     {
       "epoch": 0.967741935483871,
-      "grad_norm": 2.375,
       "learning_rate": 0.00019994532573409262,
-      "loss": 2.3015,
       "step": 30
     },
     {
       "epoch": 1.2903225806451613,
-      "grad_norm": 2.546875,
       "learning_rate": 0.00019950829025450114,
-      "loss": 1.3956,
       "step": 40
     },
     {
       "epoch": 1.6129032258064515,
-      "grad_norm": 2.25,
       "learning_rate": 0.00019863613034027224,
-      "loss": 1.2746,
       "step": 50
     },
     {
       "epoch": 1.935483870967742,
-      "grad_norm": 2.265625,
       "learning_rate": 0.0001973326597248006,
-      "loss": 1.3742,
       "step": 60
     },
     {
       "epoch": 2.258064516129032,
-      "grad_norm": 2.140625,
       "learning_rate": 0.00019560357815343577,
-      "loss": 0.8139,
       "step": 70
     },
     {
       "epoch": 2.5806451612903225,
-      "grad_norm": 2.109375,
       "learning_rate": 0.0001934564464599461,
-      "loss": 0.7252,
       "step": 80
     },
     {
       "epoch": 2.903225806451613,
-      "grad_norm": 2.078125,
       "learning_rate": 0.00019090065350491626,
-      "loss": 0.8052,
       "step": 90
     },
     {
       "epoch": 3.225806451612903,
-      "grad_norm": 1.515625,
       "learning_rate": 0.0001879473751206489,
-      "loss": 0.4985,
       "step": 100
     },
     {
       "epoch": 3.5483870967741935,
-      "grad_norm": 2.640625,
       "learning_rate": 0.00018460952524209355,
-      "loss": 0.4285,
       "step": 110
     },
     {
       "epoch": 3.870967741935484,
-      "grad_norm": 1.765625,
       "learning_rate": 0.00018090169943749476,
-      "loss": 0.4885,
       "step": 120
     },
     {
       "epoch": 4.193548387096774,
-      "grad_norm": 1.34375,
       "learning_rate": 0.00017684011108568592,
-      "loss": 0.3478,
       "step": 130
     },
     {
       "epoch": 4.516129032258064,
-      "grad_norm": 3.390625,
       "learning_rate": 0.00017244252047910892,
-      "loss": 0.2943,
       "step": 140
     },
     {
       "epoch": 4.838709677419355,
-      "grad_norm": 1.4296875,
       "learning_rate": 0.00016772815716257412,
-      "loss": 0.3338,
       "step": 150
     },
     {
       "epoch": 5.161290322580645,
-      "grad_norm": 1.3984375,
       "learning_rate": 0.0001627176358473537,
-      "loss": 0.2627,
       "step": 160
     },
     {
       "epoch": 5.483870967741936,
       "grad_norm": 1.1875,
       "learning_rate": 0.00015743286626829437,
-      "loss": 0.1906,
       "step": 170
     },
     {
       "epoch": 5.806451612903226,
-      "grad_norm": 1.2578125,
       "learning_rate": 0.00015189695737812152,
-      "loss": 0.216,
       "step": 180
     },
     {
       "epoch": 6.129032258064516,
-      "grad_norm": 0.921875,
       "learning_rate": 0.0001461341162978688,
-      "loss": 0.1814,
       "step": 190
     },
     {
       "epoch": 6.451612903225806,
-      "grad_norm": 0.9921875,
       "learning_rate": 0.00014016954246529696,
-      "loss": 0.1305,
       "step": 200
     },
     {
       "epoch": 6.451612903225806,
-      "eval_loss": 4.707674980163574,
-      "eval_runtime": 32.054,
-      "eval_samples_per_second": 46.827,
-      "eval_steps_per_second": 1.965,
       "step": 200
     }
   ],

     {
       "epoch": 0.03225806451612903,
       "eval_loss": 2.5740277767181396,
+      "eval_runtime": 31.6195,
+      "eval_samples_per_second": 47.471,
+      "eval_steps_per_second": 1.992,
       "step": 1
     },
     {
       "epoch": 0.3225806451612903,
+      "grad_norm": 2.625,
       "learning_rate": 8e-05,
+      "loss": 1.9901,
       "step": 10
     },
     {
       "epoch": 0.6451612903225806,
+      "grad_norm": 2.28125,
       "learning_rate": 0.00016,
+      "loss": 2.0923,
       "step": 20
     },
     {
       "epoch": 0.967741935483871,
+      "grad_norm": 2.5625,
       "learning_rate": 0.00019994532573409262,
+      "loss": 2.3185,
       "step": 30
     },
     {
       "epoch": 1.2903225806451613,
+      "grad_norm": 2.03125,
       "learning_rate": 0.00019950829025450114,
+      "loss": 1.3841,
       "step": 40
     },
     {
       "epoch": 1.6129032258064515,
+      "grad_norm": 2.28125,
       "learning_rate": 0.00019863613034027224,
+      "loss": 1.2813,
       "step": 50
     },
     {
       "epoch": 1.935483870967742,
+      "grad_norm": 2.15625,
       "learning_rate": 0.0001973326597248006,
+      "loss": 1.3828,
       "step": 60
     },
     {
       "epoch": 2.258064516129032,
+      "grad_norm": 2.046875,
       "learning_rate": 0.00019560357815343577,
+      "loss": 0.8247,
       "step": 70
     },
     {
       "epoch": 2.5806451612903225,
+      "grad_norm": 2.140625,
       "learning_rate": 0.0001934564464599461,
+      "loss": 0.7192,
       "step": 80
     },
     {
       "epoch": 2.903225806451613,
+      "grad_norm": 2.109375,
       "learning_rate": 0.00019090065350491626,
+      "loss": 0.7919,
       "step": 90
     },
     {
       "epoch": 3.225806451612903,
+      "grad_norm": 1.53125,
       "learning_rate": 0.0001879473751206489,
+      "loss": 0.4979,
       "step": 100
     },
     {
       "epoch": 3.5483870967741935,
+      "grad_norm": 2.140625,
       "learning_rate": 0.00018460952524209355,
+      "loss": 0.435,
       "step": 110
     },
     {
       "epoch": 3.870967741935484,
+      "grad_norm": 1.6953125,
       "learning_rate": 0.00018090169943749476,
+      "loss": 0.4868,
       "step": 120
     },
     {
       "epoch": 4.193548387096774,
+      "grad_norm": 1.328125,
       "learning_rate": 0.00017684011108568592,
+      "loss": 0.3416,
       "step": 130
     },
     {
       "epoch": 4.516129032258064,
+      "grad_norm": 2.0,
       "learning_rate": 0.00017244252047910892,
+      "loss": 0.29,
       "step": 140
     },
     {
       "epoch": 4.838709677419355,
+      "grad_norm": 1.4453125,
       "learning_rate": 0.00016772815716257412,
+      "loss": 0.3182,
       "step": 150
     },
     {
       "epoch": 5.161290322580645,
+      "grad_norm": 1.234375,
       "learning_rate": 0.0001627176358473537,
+      "loss": 0.2422,
       "step": 160
     },
     {
       "epoch": 5.483870967741936,
       "grad_norm": 1.1875,
       "learning_rate": 0.00015743286626829437,
+      "loss": 0.1847,
       "step": 170
     },
     {
       "epoch": 5.806451612903226,
+      "grad_norm": 1.234375,
       "learning_rate": 0.00015189695737812152,
+      "loss": 0.2181,
       "step": 180
     },
     {
       "epoch": 6.129032258064516,
+      "grad_norm": 1.03125,
       "learning_rate": 0.0001461341162978688,
+      "loss": 0.1774,
       "step": 190
     },
     {
       "epoch": 6.451612903225806,
+      "grad_norm": 1.03125,
       "learning_rate": 0.00014016954246529696,
+      "loss": 0.1334,
       "step": 200
     },
     {
       "epoch": 6.451612903225806,
+      "eval_loss": 4.735217571258545,
+      "eval_runtime": 31.1163,
+      "eval_samples_per_second": 48.238,
+      "eval_steps_per_second": 2.025,
       "step": 200
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16019f9ad32f51ad10b2ada2a95135cbd7d155d3f50ced87b24386e937a6ea29
 size 6840

 version https://git-lfs.github.com/spec/v1
+oid sha256:c17c73604510f9212fcca9673c3d2b9005a05f81f6edff7cdd4512ba6b5a571c
 size 6840