Training in progress, step 200, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/trainer_state.json +42 -42
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:80719f65a4c76f5f9549a9ff6b40c12ab753baa9b2dede5200e8eaf0ee485610
 size 4939116424

 version https://git-lfs.github.com/spec/v1
+oid sha256:05892289ddfd47cdb290eb264c0e9ac1f4d1f52f5efdc814b3f1cdff71abeb74
 size 4939116424

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:93baeb991618ed9cb503e7afa440c283da11219662d8b7e72afa7c5cdb049e3e
 size 4947390880

 version https://git-lfs.github.com/spec/v1
+oid sha256:b49a551a8085a707f46ccf005a352e325a1294037da9ee9a682ebf7aeab3d8bd
 size 4947390880

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8870def62712246e10267b52717c3817d3f0bf0bebf0ca06ac04e24b91d2483
 size 3590619888

 version https://git-lfs.github.com/spec/v1
+oid sha256:a089d1fa77b8b345d63790bca5266840ffa56d0420cc5438bf35cc500aec571d
 size 3590619888

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:098efa6a35bbc23a589b905879b46e073faae5dd61dbde4fc20125cfc535b2c8
 size 13688025584

 version https://git-lfs.github.com/spec/v1
+oid sha256:75861319dfa262f99dc73a2cae7161456f7f0b9874dd0ed60c20a4b07fb095c3
 size 13688025584

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -11,157 +11,157 @@
     {
       "epoch": 0.009259259259259259,
       "eval_loss": 2.1662161350250244,
-      "eval_runtime": 31.5566,
-      "eval_samples_per_second": 47.565,
-      "eval_steps_per_second": 5.958,
       "step": 1
     },
     {
       "epoch": 0.09259259259259259,
-      "grad_norm": 1.75,
       "learning_rate": 6.666666666666667e-05,
-      "loss": 1.857,
       "step": 10
     },
     {
       "epoch": 0.18518518518518517,
-      "grad_norm": 2.390625,
       "learning_rate": 0.00013333333333333334,
-      "loss": 1.8324,
       "step": 20
     },
     {
       "epoch": 0.2777777777777778,
-      "grad_norm": 1.515625,
       "learning_rate": 0.0002,
-      "loss": 1.866,
       "step": 30
     },
     {
       "epoch": 0.37037037037037035,
-      "grad_norm": 1.421875,
       "learning_rate": 0.00019984815164333163,
-      "loss": 1.974,
       "step": 40
     },
     {
       "epoch": 0.46296296296296297,
-      "grad_norm": 1.28125,
       "learning_rate": 0.00019939306773179497,
-      "loss": 2.0103,
       "step": 50
     },
     {
       "epoch": 0.5555555555555556,
-      "grad_norm": 1.296875,
       "learning_rate": 0.00019863613034027224,
-      "loss": 2.0427,
       "step": 60
     },
     {
       "epoch": 0.6481481481481481,
       "grad_norm": 1.3125,
       "learning_rate": 0.00019757963826274357,
-      "loss": 2.0967,
       "step": 70
     },
     {
       "epoch": 0.7407407407407407,
-      "grad_norm": 1.3515625,
       "learning_rate": 0.00019622680003092503,
-      "loss": 2.1174,
       "step": 80
     },
     {
       "epoch": 0.8333333333333334,
-      "grad_norm": 1.3515625,
       "learning_rate": 0.00019458172417006347,
-      "loss": 2.109,
       "step": 90
     },
     {
       "epoch": 0.9259259259259259,
-      "grad_norm": 1.25,
       "learning_rate": 0.00019264940672148018,
-      "loss": 2.1218,
       "step": 100
     },
     {
       "epoch": 1.0185185185185186,
       "grad_norm": 1.40625,
       "learning_rate": 0.00019043571606975777,
-      "loss": 1.8774,
       "step": 110
     },
     {
       "epoch": 1.1111111111111112,
-      "grad_norm": 1.21875,
       "learning_rate": 0.0001879473751206489,
-      "loss": 0.9755,
       "step": 120
     },
     {
       "epoch": 1.2037037037037037,
-      "grad_norm": 1.1484375,
       "learning_rate": 0.00018519194088383273,
-      "loss": 0.9357,
       "step": 130
     },
     {
       "epoch": 1.2962962962962963,
       "grad_norm": 1.234375,
       "learning_rate": 0.0001821777815225245,
-      "loss": 0.9453,
       "step": 140
     },
     {
       "epoch": 1.3888888888888888,
       "grad_norm": 1.1796875,
       "learning_rate": 0.00017891405093963938,
-      "loss": 0.9413,
       "step": 150
     },
     {
       "epoch": 1.4814814814814814,
-      "grad_norm": 1.203125,
       "learning_rate": 0.00017541066097768963,
-      "loss": 0.9678,
       "step": 160
     },
     {
       "epoch": 1.574074074074074,
-      "grad_norm": 1.0703125,
       "learning_rate": 0.00017167825131684513,
-      "loss": 0.9576,
       "step": 170
     },
     {
       "epoch": 1.6666666666666665,
-      "grad_norm": 1.1484375,
       "learning_rate": 0.00016772815716257412,
-      "loss": 0.9958,
       "step": 180
     },
     {
       "epoch": 1.7592592592592593,
       "grad_norm": 1.1953125,
       "learning_rate": 0.00016357237482099684,
-      "loss": 0.9805,
       "step": 190
     },
     {
       "epoch": 1.8518518518518519,
-      "grad_norm": 1.1875,
       "learning_rate": 0.00015922352526649803,
-      "loss": 1.0055,
       "step": 200
     },
     {
       "epoch": 1.8518518518518519,
-      "eval_loss": 2.0688600540161133,
-      "eval_runtime": 26.9652,
-      "eval_samples_per_second": 55.664,
-      "eval_steps_per_second": 6.972,
       "step": 200
     }
   ],

     {
       "epoch": 0.009259259259259259,
       "eval_loss": 2.1662161350250244,
+      "eval_runtime": 26.9869,
+      "eval_samples_per_second": 55.62,
+      "eval_steps_per_second": 6.966,
       "step": 1
     },
     {
       "epoch": 0.09259259259259259,
+      "grad_norm": 3.96875,
       "learning_rate": 6.666666666666667e-05,
+      "loss": 1.8577,
       "step": 10
     },
     {
       "epoch": 0.18518518518518517,
+      "grad_norm": 1.4453125,
       "learning_rate": 0.00013333333333333334,
+      "loss": 1.8326,
       "step": 20
     },
     {
       "epoch": 0.2777777777777778,
+      "grad_norm": 1.609375,
       "learning_rate": 0.0002,
+      "loss": 1.8689,
       "step": 30
     },
     {
       "epoch": 0.37037037037037035,
+      "grad_norm": 1.40625,
       "learning_rate": 0.00019984815164333163,
+      "loss": 1.983,
       "step": 40
     },
     {
       "epoch": 0.46296296296296297,
+      "grad_norm": 1.25,
       "learning_rate": 0.00019939306773179497,
+      "loss": 2.0149,
       "step": 50
     },
     {
       "epoch": 0.5555555555555556,
+      "grad_norm": 1.234375,
       "learning_rate": 0.00019863613034027224,
+      "loss": 2.0506,
       "step": 60
     },
     {
       "epoch": 0.6481481481481481,
       "grad_norm": 1.3125,
       "learning_rate": 0.00019757963826274357,
+      "loss": 2.0991,
       "step": 70
     },
     {
       "epoch": 0.7407407407407407,
+      "grad_norm": 1.328125,
       "learning_rate": 0.00019622680003092503,
+      "loss": 2.1253,
       "step": 80
     },
     {
       "epoch": 0.8333333333333334,
+      "grad_norm": 2.1875,
       "learning_rate": 0.00019458172417006347,
+      "loss": 2.1094,
       "step": 90
     },
     {
       "epoch": 0.9259259259259259,
+      "grad_norm": 1.2265625,
       "learning_rate": 0.00019264940672148018,
+      "loss": 2.1243,
       "step": 100
     },
     {
       "epoch": 1.0185185185185186,
       "grad_norm": 1.40625,
       "learning_rate": 0.00019043571606975777,
+      "loss": 1.8817,
       "step": 110
     },
     {
       "epoch": 1.1111111111111112,
+      "grad_norm": 1.203125,
       "learning_rate": 0.0001879473751206489,
+      "loss": 0.9706,
       "step": 120
     },
     {
       "epoch": 1.2037037037037037,
+      "grad_norm": 1.1171875,
       "learning_rate": 0.00018519194088383273,
+      "loss": 0.9351,
       "step": 130
     },
     {
       "epoch": 1.2962962962962963,
       "grad_norm": 1.234375,
       "learning_rate": 0.0001821777815225245,
+      "loss": 0.9448,
       "step": 140
     },
     {
       "epoch": 1.3888888888888888,
       "grad_norm": 1.1796875,
       "learning_rate": 0.00017891405093963938,
+      "loss": 0.9423,
       "step": 150
     },
     {
       "epoch": 1.4814814814814814,
+      "grad_norm": 1.109375,
       "learning_rate": 0.00017541066097768963,
+      "loss": 0.9714,
       "step": 160
     },
     {
       "epoch": 1.574074074074074,
+      "grad_norm": 1.0546875,
       "learning_rate": 0.00017167825131684513,
+      "loss": 0.9688,
       "step": 170
     },
     {
       "epoch": 1.6666666666666665,
+      "grad_norm": 1.1328125,
       "learning_rate": 0.00016772815716257412,
+      "loss": 1.0031,
       "step": 180
     },
     {
       "epoch": 1.7592592592592593,
       "grad_norm": 1.1953125,
       "learning_rate": 0.00016357237482099684,
+      "loss": 0.987,
       "step": 190
     },
     {
       "epoch": 1.8518518518518519,
+      "grad_norm": 1.1796875,
       "learning_rate": 0.00015922352526649803,
+      "loss": 1.0077,
       "step": 200
     },
     {
       "epoch": 1.8518518518518519,
+      "eval_loss": 2.0790088176727295,
+      "eval_runtime": 27.2846,
+      "eval_samples_per_second": 55.013,
+      "eval_steps_per_second": 6.89,
       "step": 200
     }
   ],

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba673725c24b475995eb203939e8d5642b3dae413ae05b5e3595152a67bc2b87
 size 6840

 version https://git-lfs.github.com/spec/v1
+oid sha256:4c029846f6fb9c3ae91e0698f3c0de129ef546e5e382583ccba72acb82f010ef
 size 6840