Training in progress, step 4268, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +217 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92c7c2466e9547634a505ccaf2590f9e4d9d15d2f31d94aa4c0cfe5f155dc10b
 size 737580392

 version https://git-lfs.github.com/spec/v1
+oid sha256:6655c6985e492e8d6919382548a7effa0be42aa4ce41de6a3afb623371f715b6
 size 737580392

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05b07ba25a847922c59fe9c0ee222039fd2b55eb27e7164ec80572760094d906
 size 1475248442

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4d24494f3685341ff655be78dd4d6b804adf234b56e7ca404f9eb06e1b340b6
 size 1475248442

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b8a0379bdd10765d4926325b17779ba084884beedfbdf271680e1d1bd136b43
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5a736126bf032a05408714e9a6309ebf595d5e8e36aa317f7cb41422c442e7ab
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea8c56402fe28ab6610db127ee707a0d7bbb7e8371ebb7f77b59566a41c7f5ef
 size 1000

 version https://git-lfs.github.com/spec/v1
+oid sha256:bdfd054ee415a43775ee6882ba10b5080791cd5c9e7e77c4915c3e4fc9fe5d58
 size 1000

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.8744142455482662,
   "eval_steps": 100,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3447,6 +3447,220 @@
       "eval_spearman_manhattan": 0.8198041702608989,
       "eval_steps_per_second": 13.426,
       "step": 4000
     }
   ],
   "logging_steps": 10,
@@ -3461,7 +3675,7 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 2.0,
   "eval_steps": 100,
+  "global_step": 4268,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_spearman_manhattan": 0.8198041702608989,
       "eval_steps_per_second": 13.426,
       "step": 4000
+    },
+    {
+      "epoch": 1.879100281162137,
+      "grad_norm": 1.8194371461868286,
+      "learning_rate": 4.4127811621368325e-05,
+      "loss": 0.1598,
+      "step": 4010
+    },
+    {
+      "epoch": 1.8837863167760074,
+      "grad_norm": 1.2515980005264282,
+      "learning_rate": 4.411316776007498e-05,
+      "loss": 0.1872,
+      "step": 4020
+    },
+    {
+      "epoch": 1.8884723523898783,
+      "grad_norm": 1.4522411823272705,
+      "learning_rate": 4.409852389878163e-05,
+      "loss": 0.1906,
+      "step": 4030
+    },
+    {
+      "epoch": 1.8931583880037488,
+      "grad_norm": 1.3392481803894043,
+      "learning_rate": 4.408388003748829e-05,
+      "loss": 0.1947,
+      "step": 4040
+    },
+    {
+      "epoch": 1.8978444236176195,
+      "grad_norm": 1.1387908458709717,
+      "learning_rate": 4.406923617619494e-05,
+      "loss": 0.1719,
+      "step": 4050
+    },
+    {
+      "epoch": 1.9025304592314902,
+      "grad_norm": 1.7648086547851562,
+      "learning_rate": 4.4054592314901596e-05,
+      "loss": 0.2144,
+      "step": 4060
+    },
+    {
+      "epoch": 1.9072164948453607,
+      "grad_norm": 1.774842381477356,
+      "learning_rate": 4.403994845360825e-05,
+      "loss": 0.1973,
+      "step": 4070
+    },
+    {
+      "epoch": 1.9119025304592316,
+      "grad_norm": 1.3129111528396606,
+      "learning_rate": 4.4025304592314905e-05,
+      "loss": 0.1723,
+      "step": 4080
+    },
+    {
+      "epoch": 1.9165885660731021,
+      "grad_norm": 1.311933159828186,
+      "learning_rate": 4.401066073102156e-05,
+      "loss": 0.1768,
+      "step": 4090
+    },
+    {
+      "epoch": 1.9212746016869728,
+      "grad_norm": 1.510150671005249,
+      "learning_rate": 4.399601686972821e-05,
+      "loss": 0.1679,
+      "step": 4100
+    },
+    {
+      "epoch": 1.9212746016869728,
+      "eval_loss": 0.034906383603811264,
+      "eval_pearson_cosine": 0.8238323682543012,
+      "eval_pearson_dot": 0.75607099937789,
+      "eval_pearson_euclidean": 0.8097449943516324,
+      "eval_pearson_manhattan": 0.8109217792674599,
+      "eval_runtime": 7.5129,
+      "eval_samples_per_second": 199.657,
+      "eval_spearman_cosine": 0.824907875327154,
+      "eval_spearman_dot": 0.7550909354777231,
+      "eval_spearman_euclidean": 0.8187348127942441,
+      "eval_spearman_manhattan": 0.8200370653936264,
+      "eval_steps_per_second": 12.512,
+      "step": 4100
+    },
+    {
+      "epoch": 1.9259606373008435,
+      "grad_norm": 1.644677996635437,
+      "learning_rate": 4.398137300843487e-05,
+      "loss": 0.1961,
+      "step": 4110
+    },
+    {
+      "epoch": 1.930646672914714,
+      "grad_norm": 1.508178472518921,
+      "learning_rate": 4.396672914714152e-05,
+      "loss": 0.1841,
+      "step": 4120
+    },
+    {
+      "epoch": 1.935332708528585,
+      "grad_norm": 1.5336145162582397,
+      "learning_rate": 4.3952085285848176e-05,
+      "loss": 0.1637,
+      "step": 4130
+    },
+    {
+      "epoch": 1.9400187441424555,
+      "grad_norm": 1.7044395208358765,
+      "learning_rate": 4.3937441424554824e-05,
+      "loss": 0.2063,
+      "step": 4140
+    },
+    {
+      "epoch": 1.9447047797563262,
+      "grad_norm": 1.6980154514312744,
+      "learning_rate": 4.392279756326148e-05,
+      "loss": 0.2118,
+      "step": 4150
+    },
+    {
+      "epoch": 1.9493908153701969,
+      "grad_norm": 1.833633542060852,
+      "learning_rate": 4.390815370196814e-05,
+      "loss": 0.171,
+      "step": 4160
+    },
+    {
+      "epoch": 1.9540768509840674,
+      "grad_norm": 1.7349201440811157,
+      "learning_rate": 4.389350984067479e-05,
+      "loss": 0.1885,
+      "step": 4170
+    },
+    {
+      "epoch": 1.9587628865979383,
+      "grad_norm": 2.3254284858703613,
+      "learning_rate": 4.387886597938145e-05,
+      "loss": 0.1843,
+      "step": 4180
+    },
+    {
+      "epoch": 1.9634489222118088,
+      "grad_norm": 1.1924229860305786,
+      "learning_rate": 4.38642221180881e-05,
+      "loss": 0.1862,
+      "step": 4190
+    },
+    {
+      "epoch": 1.9681349578256795,
+      "grad_norm": 1.5753990411758423,
+      "learning_rate": 4.3849578256794756e-05,
+      "loss": 0.1699,
+      "step": 4200
+    },
+    {
+      "epoch": 1.9681349578256795,
+      "eval_loss": 0.03551472723484039,
+      "eval_pearson_cosine": 0.8273878707711191,
+      "eval_pearson_dot": 0.7646820898603437,
+      "eval_pearson_euclidean": 0.8112987734110177,
+      "eval_pearson_manhattan": 0.8125188338482303,
+      "eval_runtime": 5.9715,
+      "eval_samples_per_second": 251.194,
+      "eval_spearman_cosine": 0.8298080691919564,
+      "eval_spearman_dot": 0.7648333772102188,
+      "eval_spearman_euclidean": 0.8214596205940881,
+      "eval_spearman_manhattan": 0.8226861322419045,
+      "eval_steps_per_second": 15.742,
+      "step": 4200
+    },
+    {
+      "epoch": 1.9728209934395502,
+      "grad_norm": 1.7450155019760132,
+      "learning_rate": 4.383493439550141e-05,
+      "loss": 0.2132,
+      "step": 4210
+    },
+    {
+      "epoch": 1.9775070290534207,
+      "grad_norm": 2.049828290939331,
+      "learning_rate": 4.3820290534208064e-05,
+      "loss": 0.2,
+      "step": 4220
+    },
+    {
+      "epoch": 1.9821930646672916,
+      "grad_norm": 1.8437615633010864,
+      "learning_rate": 4.380564667291472e-05,
+      "loss": 0.1787,
+      "step": 4230
+    },
+    {
+      "epoch": 1.986879100281162,
+      "grad_norm": 1.3667303323745728,
+      "learning_rate": 4.3791002811621366e-05,
+      "loss": 0.1995,
+      "step": 4240
+    },
+    {
+      "epoch": 1.9915651358950328,
+      "grad_norm": 1.3837028741836548,
+      "learning_rate": 4.377635895032802e-05,
+      "loss": 0.2021,
+      "step": 4250
+    },
+    {
+      "epoch": 1.9962511715089035,
+      "grad_norm": 1.6766111850738525,
+      "learning_rate": 4.3761715089034675e-05,
+      "loss": 0.1918,
+      "step": 4260
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }