Training in progress, step 1400, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +42 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:73a10ff5eb3169db4be2445ff7800df6ca56baf41d13df8beabc8dbd49758ae1
 size 69782384

 version https://git-lfs.github.com/spec/v1
+oid sha256:451ebae1b7f378f28693bb6805c9d2a93630612c77e99bdb73fa9c9edfe30db6
 size 69782384

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2eae897c01400a9b8db73e8dccb20a5cf751422c61f8a0f8ea7fa2d6cb6a973b
 size 139790651

 version https://git-lfs.github.com/spec/v1
+oid sha256:f91cf4feaebc2ba5b127eb9e0ec545a5d00e2dbe0d14025bd5b07dfcf7a65438
 size 139790651

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e0747b8c0f8a4ac9c7c69f279af311715abe07e1d91c1c29f20fdd8f88956b7
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:2cf7b0988afb384dddecf96a63fb78047758fa9ead514308fc2fc5f66072f899
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e82b50b2ea56f39b6747507c52624e7d162a635e82738b894c21d143ffb08c1
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:85998f717c2646507a73441adc7d553a890ecbe1f11ba2e9fab5ee2dce5ce5f0
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 1200,
-  "best_metric": 2.21370530128479,
-  "best_model_checkpoint": "./outputs/checkpoint-1200",
-  "epoch": 1.3029315960912053,
   "eval_steps": 200,
-  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -224,6 +224,42 @@
       "eval_samples_per_second": 81.833,
       "eval_steps_per_second": 2.583,
       "step": 1200
     }
   ],
   "logging_steps": 50,
@@ -252,7 +288,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.361352657491722e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 1400,
+  "best_metric": 2.2031383514404297,
+  "best_model_checkpoint": "./outputs/checkpoint-1400",
+  "epoch": 1.520086862106406,
   "eval_steps": 200,
+  "global_step": 1400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 81.833,
       "eval_steps_per_second": 2.583,
       "step": 1200
+    },
+    {
+      "epoch": 1.3572204125950054,
+      "grad_norm": 0.824234664440155,
+      "learning_rate": 0.00011813720269038712,
+      "loss": 2.1931,
+      "step": 1250
+    },
+    {
+      "epoch": 1.4115092290988056,
+      "grad_norm": 0.8461474776268005,
+      "learning_rate": 0.00011241613230933439,
+      "loss": 2.1755,
+      "step": 1300
+    },
+    {
+      "epoch": 1.4657980456026058,
+      "grad_norm": 0.8048629760742188,
+      "learning_rate": 0.00010665345121389123,
+      "loss": 2.186,
+      "step": 1350
+    },
+    {
+      "epoch": 1.520086862106406,
+      "grad_norm": 0.7822412848472595,
+      "learning_rate": 0.00010086847212328548,
+      "loss": 2.1949,
+      "step": 1400
+    },
+    {
+      "epoch": 1.520086862106406,
+      "eval_loss": 2.2031383514404297,
+      "eval_runtime": 7.3421,
+      "eval_samples_per_second": 81.993,
+      "eval_steps_per_second": 2.588,
+      "step": 1400
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 3.921549791849349e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null