Training in progress, step 21340, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +257 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e2345f93cb689f8d7f41eab40d0cef18241e972878e7fb6948d71f1371719ca8
 size 613004648

 version https://git-lfs.github.com/spec/v1
+oid sha256:f542db4dc4bdfef70ff8a6ef414b9efe0e9422b96365de4fab56a2eb00cf0528
 size 613004648

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88aacbb6072c3cfcd0a072fac3b759771484a894347ed77a4b36afa5c1d0bc3b
 size 1226096954

 version https://git-lfs.github.com/spec/v1
+oid sha256:8d39973e68bd2ab323de4ccae017a93bc78950b3db9a2f7db5ee5b9e19e93cb2
 size 1226096954

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28d77b9708e785984189dd87311c593d951d08be1862b45c82e09f23e0a264bc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:94eef74bedfbfbaf29c17e811e443f9ec61d689a2aeb015aed498e7127930e57
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9a12c30886420598486baa82bdd0616396462f1a93af3275146e2f56424c6d27
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:237512d340213f3c8e92a41e3f1546a67ec9ffb4ffbb161bf53b27ba33f0fe09
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 9.840674789128398,
   "eval_steps": 250,
-  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -16051,6 +16051,260 @@
       "eval_spearman_manhattan": 0.7463752489757238,
       "eval_steps_per_second": 35.33,
       "step": 21000
     }
   ],
   "logging_steps": 10,
@@ -16065,7 +16319,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 10.0,
   "eval_steps": 250,
+  "global_step": 21340,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.7463752489757238,
       "eval_steps_per_second": 35.33,
       "step": 21000
+    },
+    {
+      "epoch": 9.845360824742269,
+      "grad_norm": 1.0928393602371216,
+      "learning_rate": 8.769329896907216e-06,
+      "loss": 0.0467,
+      "step": 21010
+    },
+    {
+      "epoch": 9.850046860356139,
+      "grad_norm": 1.111713171005249,
+      "learning_rate": 8.768744142455483e-06,
+      "loss": 0.0621,
+      "step": 21020
+    },
+    {
+      "epoch": 9.85473289597001,
+      "grad_norm": 1.0577993392944336,
+      "learning_rate": 8.768158388003749e-06,
+      "loss": 0.0547,
+      "step": 21030
+    },
+    {
+      "epoch": 9.85941893158388,
+      "grad_norm": 1.453430414199829,
+      "learning_rate": 8.767572633552015e-06,
+      "loss": 0.0476,
+      "step": 21040
+    },
+    {
+      "epoch": 9.86410496719775,
+      "grad_norm": 1.527876377105713,
+      "learning_rate": 8.766986879100282e-06,
+      "loss": 0.0476,
+      "step": 21050
+    },
+    {
+      "epoch": 9.868791002811621,
+      "grad_norm": 1.6117839813232422,
+      "learning_rate": 8.766401124648548e-06,
+      "loss": 0.06,
+      "step": 21060
+    },
+    {
+      "epoch": 9.873477038425492,
+      "grad_norm": 1.4520413875579834,
+      "learning_rate": 8.765815370196815e-06,
+      "loss": 0.049,
+      "step": 21070
+    },
+    {
+      "epoch": 9.878163074039362,
+      "grad_norm": 0.7348192930221558,
+      "learning_rate": 8.76522961574508e-06,
+      "loss": 0.0531,
+      "step": 21080
+    },
+    {
+      "epoch": 9.882849109653232,
+      "grad_norm": 2.0447332859039307,
+      "learning_rate": 8.764643861293347e-06,
+      "loss": 0.0499,
+      "step": 21090
+    },
+    {
+      "epoch": 9.887535145267105,
+      "grad_norm": 1.4770324230194092,
+      "learning_rate": 8.764058106841614e-06,
+      "loss": 0.0467,
+      "step": 21100
+    },
+    {
+      "epoch": 9.892221180880975,
+      "grad_norm": 2.313798189163208,
+      "learning_rate": 8.763472352389879e-06,
+      "loss": 0.0553,
+      "step": 21110
+    },
+    {
+      "epoch": 9.896907216494846,
+      "grad_norm": 1.1835334300994873,
+      "learning_rate": 8.762886597938146e-06,
+      "loss": 0.0554,
+      "step": 21120
+    },
+    {
+      "epoch": 9.901593252108716,
+      "grad_norm": 1.580556035041809,
+      "learning_rate": 8.762300843486411e-06,
+      "loss": 0.0507,
+      "step": 21130
+    },
+    {
+      "epoch": 9.906279287722587,
+      "grad_norm": 0.9451290965080261,
+      "learning_rate": 8.761715089034676e-06,
+      "loss": 0.0451,
+      "step": 21140
+    },
+    {
+      "epoch": 9.910965323336457,
+      "grad_norm": 1.0342776775360107,
+      "learning_rate": 8.761129334582945e-06,
+      "loss": 0.0497,
+      "step": 21150
+    },
+    {
+      "epoch": 9.915651358950328,
+      "grad_norm": 1.1484373807907104,
+      "learning_rate": 8.76054358013121e-06,
+      "loss": 0.0466,
+      "step": 21160
+    },
+    {
+      "epoch": 9.920337394564198,
+      "grad_norm": 2.1361167430877686,
+      "learning_rate": 8.759957825679475e-06,
+      "loss": 0.0631,
+      "step": 21170
+    },
+    {
+      "epoch": 9.925023430178069,
+      "grad_norm": 1.0633893013000488,
+      "learning_rate": 8.759372071227742e-06,
+      "loss": 0.0468,
+      "step": 21180
+    },
+    {
+      "epoch": 9.929709465791941,
+      "grad_norm": 2.109058380126953,
+      "learning_rate": 8.758786316776007e-06,
+      "loss": 0.0572,
+      "step": 21190
+    },
+    {
+      "epoch": 9.934395501405811,
+      "grad_norm": 1.6682454347610474,
+      "learning_rate": 8.758200562324274e-06,
+      "loss": 0.0542,
+      "step": 21200
+    },
+    {
+      "epoch": 9.939081537019682,
+      "grad_norm": 1.6142311096191406,
+      "learning_rate": 8.757614807872541e-06,
+      "loss": 0.0508,
+      "step": 21210
+    },
+    {
+      "epoch": 9.943767572633552,
+      "grad_norm": 1.564691424369812,
+      "learning_rate": 8.757029053420806e-06,
+      "loss": 0.0518,
+      "step": 21220
+    },
+    {
+      "epoch": 9.948453608247423,
+      "grad_norm": 1.526147723197937,
+      "learning_rate": 8.756443298969073e-06,
+      "loss": 0.0541,
+      "step": 21230
+    },
+    {
+      "epoch": 9.953139643861293,
+      "grad_norm": 1.049249291419983,
+      "learning_rate": 8.755857544517339e-06,
+      "loss": 0.0564,
+      "step": 21240
+    },
+    {
+      "epoch": 9.957825679475164,
+      "grad_norm": 2.233095407485962,
+      "learning_rate": 8.755271790065605e-06,
+      "loss": 0.0406,
+      "step": 21250
+    },
+    {
+      "epoch": 9.957825679475164,
+      "eval_loss": 0.03874640911817551,
+      "eval_pearson_cosine": 0.7823759183217831,
+      "eval_pearson_dot": 0.6362060503787177,
+      "eval_pearson_euclidean": 0.7337201116603183,
+      "eval_pearson_manhattan": 0.7335170834683709,
+      "eval_runtime": 42.9733,
+      "eval_samples_per_second": 34.905,
+      "eval_spearman_cosine": 0.7845387476571652,
+      "eval_spearman_dot": 0.6531911497158578,
+      "eval_spearman_euclidean": 0.7463049410965222,
+      "eval_spearman_manhattan": 0.7460162771900863,
+      "eval_steps_per_second": 34.905,
+      "step": 21250
+    },
+    {
+      "epoch": 9.962511715089034,
+      "grad_norm": 1.1485975980758667,
+      "learning_rate": 8.754686035613872e-06,
+      "loss": 0.0483,
+      "step": 21260
+    },
+    {
+      "epoch": 9.967197750702905,
+      "grad_norm": 1.0608566999435425,
+      "learning_rate": 8.754100281162138e-06,
+      "loss": 0.0488,
+      "step": 21270
+    },
+    {
+      "epoch": 9.971883786316775,
+      "grad_norm": 2.202392339706421,
+      "learning_rate": 8.753514526710405e-06,
+      "loss": 0.0559,
+      "step": 21280
+    },
+    {
+      "epoch": 9.976569821930646,
+      "grad_norm": 1.6414839029312134,
+      "learning_rate": 8.75292877225867e-06,
+      "loss": 0.064,
+      "step": 21290
+    },
+    {
+      "epoch": 9.981255857544518,
+      "grad_norm": 1.7389216423034668,
+      "learning_rate": 8.752343017806935e-06,
+      "loss": 0.0464,
+      "step": 21300
+    },
+    {
+      "epoch": 9.985941893158389,
+      "grad_norm": 1.7043269872665405,
+      "learning_rate": 8.751757263355202e-06,
+      "loss": 0.0473,
+      "step": 21310
+    },
+    {
+      "epoch": 9.990627928772259,
+      "grad_norm": 1.5085012912750244,
+      "learning_rate": 8.751171508903469e-06,
+      "loss": 0.0496,
+      "step": 21320
+    },
+    {
+      "epoch": 9.99531396438613,
+      "grad_norm": 1.686661720275879,
+      "learning_rate": 8.750585754451734e-06,
+      "loss": 0.051,
+      "step": 21330
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 1.0168319940567017,
+      "learning_rate": 8.750000000000001e-06,
+      "loss": 0.0477,
+      "step": 21340
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }