Training in progress, step 10, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +19 -34
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c06f7160f22fbde4b0edd532ca852a26d78a7b89e74befb3ee87df81ead89bef
 size 136989964

 version https://git-lfs.github.com/spec/v1
+oid sha256:9cea0765bd8f0b9a1e12ea0a8b17600537a8a8aa9b31d6b035239ebbbf9f671b
 size 136989964

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:457b61c538c6fd492b78ddcd5ec0971d7e5783c294246d6ffc856b88b8f6597f
 size 274102522

 version https://git-lfs.github.com/spec/v1
+oid sha256:09d211561c9300b084ee1c67ccc50eb7ccc587eb35c5a98716831bd475c56b01
 size 274102522

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:39faad36473fe7ccd1d8b3cc1d38b7677f89aa6a9fa89752e8cf76ccfeb6b6fa
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:15d1dcbcac9056d8a037e6e4a22324a07fd3a0a6e510aab60137760c5db6e4b6
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f0835ee1c22f84165c30215666e7b398add56dfc6181de2afa3282c5c633579
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c977fb38c051b92c0da24652d501a434592fa15ac6055c06154f25847bf8d87
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,49 +1,34 @@
 {
-  "best_metric": 0.09355609118938446,
-  "best_model_checkpoint": "mgh6/TCS_Pair_base/checkpoint-50",
-  "epoch": 0.6514657980456026,
-  "eval_steps": 50,
-  "global_step": 100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.3257328990228013,
-      "grad_norm": 0.0015510329976677895,
-      "learning_rate": 0.0009673202614379086,
-      "loss": 1.4376,
-      "step": 50
     },
     {
-      "epoch": 0.3257328990228013,
-      "eval_loss": 0.09355609118938446,
-      "eval_runtime": 0.1701,
-      "eval_samples_per_second": 235.183,
-      "eval_steps_per_second": 5.88,
-      "step": 50
-    },
-    {
-      "epoch": 0.6514657980456026,
-      "grad_norm": 0.005515442695468664,
-      "learning_rate": 0.000934640522875817,
-      "loss": 0.0635,
-      "step": 100
-    },
-    {
-      "epoch": 0.6514657980456026,
-      "eval_loss": 0.10034115612506866,
-      "eval_runtime": 0.1666,
-      "eval_samples_per_second": 240.085,
-      "eval_steps_per_second": 6.002,
-      "step": 100
     }
   ],
-  "logging_steps": 50,
   "max_steps": 1530,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
-  "save_steps": 50,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
@@ -51,7 +36,7 @@
         "early_stopping_threshold": 0.0
       },
       "attributes": {
-        "early_stopping_patience_counter": 1
       }
     },
     "TrainerControl": {

 {
+  "best_metric": 0.11874232441186905,
+  "best_model_checkpoint": "mgh6/TCS_Pair_base/checkpoint-10",
+  "epoch": 0.06514657980456026,
+  "eval_steps": 10,
+  "global_step": 10,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.06514657980456026,
+      "grad_norm": 2.679584264755249,
+      "learning_rate": 0.0009934640522875817,
+      "loss": 6.8323,
+      "step": 10
     },
     {
+      "epoch": 0.06514657980456026,
+      "eval_loss": 0.11874232441186905,
+      "eval_runtime": 0.1734,
+      "eval_samples_per_second": 230.735,
+      "eval_steps_per_second": 5.768,
+      "step": 10
     }
   ],
+  "logging_steps": 10,
   "max_steps": 1530,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
+  "save_steps": 10,
   "stateful_callbacks": {
     "EarlyStoppingCallback": {
       "args": {
         "early_stopping_threshold": 0.0
       },
       "attributes": {
+        "early_stopping_patience_counter": 0
       }
     },
     "TrainerControl": {

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed8892a6ebe12874b1e27051fb6dccb01d1190c645673e179ca706515b004c6e
 size 5240

 version https://git-lfs.github.com/spec/v1
+oid sha256:5beade62aada710acad234d8207eb11ac44f66d433b38da8f5e0430bdedea5fc
 size 5240