Training in progress, epoch 1

Browse files

Files changed (5) hide show

all_results.json +4 -24
model.safetensors +1 -1
train_results.json +4 -4
trainer_state.json +63 -63
training_args.bin +1 -1

all_results.json CHANGED Viewed

@@ -1,29 +1,9 @@
 {
     "epoch": 5.0,
-    "eval_gen_len": 1.0,
-    "eval_loss": 0.5082412362098694,
-    "eval_rouge1": 0.3572,
-    "eval_rouge2": 0.0,
-    "eval_rougeL": 0.3545,
-    "eval_rougeLsum": 0.3557,
-    "eval_runtime": 333.3038,
-    "eval_samples": 750,
-    "eval_samples_per_second": 2.25,
-    "eval_steps_per_second": 0.282,
-    "predict_gen_len": 1.0,
-    "predict_loss": 0.5292530655860901,
-    "predict_rouge1": 0.4599,
-    "predict_rouge2": 0.0,
-    "predict_rougeL": 0.4593,
-    "predict_rougeLsum": 0.4589,
-    "predict_runtime": 1669.4106,
-    "predict_samples": 3762,
-    "predict_samples_per_second": 2.253,
-    "predict_steps_per_second": 0.282,
     "total_flos": 4.883004680306688e+16,
-    "train_loss": 0.6658353641871583,
-    "train_runtime": 6067.5028,
     "train_samples": 14262,
-    "train_samples_per_second": 11.753,
-    "train_steps_per_second": 1.469
 }

 {
     "epoch": 5.0,
     "total_flos": 4.883004680306688e+16,
+    "train_loss": 0.5858162473670036,
+    "train_runtime": 4314.6222,
     "train_samples": 14262,
+    "train_samples_per_second": 16.528,
+    "train_steps_per_second": 1.034
 }

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a1b965ed5a0be9f18a29eff195e5de1a3f18783eb847a4fb561d2bf10ea64d6e
 size 990345064

 version https://git-lfs.github.com/spec/v1
+oid sha256:92d4830afbcee7cdf28a040dc4ee04de1fba9155ae1a9cf5ae4af9ba57d199ae
 size 990345064

train_results.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
     "epoch": 5.0,
     "total_flos": 4.883004680306688e+16,
-    "train_loss": 0.6658353641871583,
-    "train_runtime": 6067.5028,
     "train_samples": 14262,
-    "train_samples_per_second": 11.753,
-    "train_steps_per_second": 1.469
 }

 {
     "epoch": 5.0,
     "total_flos": 4.883004680306688e+16,
+    "train_loss": 0.5858162473670036,
+    "train_runtime": 4314.6222,
     "train_samples": 14262,
+    "train_samples_per_second": 16.528,
+    "train_steps_per_second": 1.034
 }

trainer_state.json CHANGED Viewed

@@ -3,128 +3,128 @@
   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
-  "global_step": 8915,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
-      "grad_norm": 0.9904735088348389,
       "learning_rate": 0.0008,
-      "loss": 1.3499,
-      "step": 1783
     },
     {
       "epoch": 1.0,
       "eval_gen_len": 1.0,
-      "eval_loss": 0.8387730121612549,
-      "eval_rouge1": 0.6751,
       "eval_rouge2": 0.0,
-      "eval_rougeL": 0.6714,
-      "eval_rougeLsum": 0.6724,
-      "eval_runtime": 39.1228,
-      "eval_samples_per_second": 19.17,
-      "eval_steps_per_second": 0.613,
-      "step": 1783
     },
     {
       "epoch": 2.0,
-      "grad_norm": 1.0084079504013062,
       "learning_rate": 0.0006,
-      "loss": 0.7508,
-      "step": 3566
     },
     {
       "epoch": 2.0,
       "eval_gen_len": 1.0,
-      "eval_loss": 0.7121184468269348,
-      "eval_rouge1": 0.7129,
       "eval_rouge2": 0.0,
-      "eval_rougeL": 0.7106,
-      "eval_rougeLsum": 0.7091,
-      "eval_runtime": 38.4298,
-      "eval_samples_per_second": 19.516,
-      "eval_steps_per_second": 0.625,
-      "step": 3566
     },
     {
       "epoch": 3.0,
-      "grad_norm": 0.5230709314346313,
       "learning_rate": 0.0004,
-      "loss": 0.5557,
-      "step": 5349
     },
     {
       "epoch": 3.0,
       "eval_gen_len": 1.0,
-      "eval_loss": 0.6559586524963379,
-      "eval_rouge1": 0.6716,
       "eval_rouge2": 0.0,
-      "eval_rougeL": 0.6666,
-      "eval_rougeLsum": 0.6669,
-      "eval_runtime": 38.324,
-      "eval_samples_per_second": 19.57,
-      "eval_steps_per_second": 0.626,
-      "step": 5349
     },
     {
       "epoch": 4.0,
-      "grad_norm": 0.795143723487854,
       "learning_rate": 0.0002,
-      "loss": 0.4087,
-      "step": 7132
     },
     {
       "epoch": 4.0,
       "eval_gen_len": 1.0,
-      "eval_loss": 0.6574313640594482,
-      "eval_rouge1": 0.7079,
       "eval_rouge2": 0.0,
-      "eval_rougeL": 0.7053,
-      "eval_rougeLsum": 0.7064,
-      "eval_runtime": 38.2923,
-      "eval_samples_per_second": 19.586,
-      "eval_steps_per_second": 0.627,
-      "step": 7132
     },
     {
       "epoch": 5.0,
-      "grad_norm": 0.5503818988800049,
       "learning_rate": 0.0,
-      "loss": 0.2641,
-      "step": 8915
     },
     {
       "epoch": 5.0,
       "eval_gen_len": 1.0,
-      "eval_loss": 0.7164290547370911,
-      "eval_rouge1": 0.6602,
       "eval_rouge2": 0.0,
-      "eval_rougeL": 0.6558,
-      "eval_rougeLsum": 0.6584,
-      "eval_runtime": 38.3942,
-      "eval_samples_per_second": 19.534,
-      "eval_steps_per_second": 0.625,
-      "step": 8915
     },
     {
       "epoch": 5.0,
-      "step": 8915,
       "total_flos": 4.883004680306688e+16,
-      "train_loss": 0.6658353641871583,
-      "train_runtime": 6067.5028,
-      "train_samples_per_second": 11.753,
-      "train_steps_per_second": 1.469
     }
   ],
   "logging_steps": 500,
-  "max_steps": 8915,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 4.883004680306688e+16,
-  "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null
 }

   "best_model_checkpoint": null,
   "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 4460,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 1.0,
+      "grad_norm": 1.152057409286499,
       "learning_rate": 0.0008,
+      "loss": 1.2189,
+      "step": 892
     },
     {
       "epoch": 1.0,
       "eval_gen_len": 1.0,
+      "eval_loss": 0.7781817317008972,
+      "eval_rouge1": 0.6456,
       "eval_rouge2": 0.0,
+      "eval_rougeL": 0.6409,
+      "eval_rougeLsum": 0.6449,
+      "eval_runtime": 32.4225,
+      "eval_samples_per_second": 23.132,
+      "eval_steps_per_second": 0.37,
+      "step": 892
     },
     {
       "epoch": 2.0,
+      "grad_norm": 1.0295380353927612,
       "learning_rate": 0.0006,
+      "loss": 0.6795,
+      "step": 1784
     },
     {
       "epoch": 2.0,
       "eval_gen_len": 1.0,
+      "eval_loss": 0.6559634804725647,
+      "eval_rouge1": 0.6574,
       "eval_rouge2": 0.0,
+      "eval_rougeL": 0.6553,
+      "eval_rougeLsum": 0.6569,
+      "eval_runtime": 30.8201,
+      "eval_samples_per_second": 24.335,
+      "eval_steps_per_second": 0.389,
+      "step": 1784
     },
     {
       "epoch": 3.0,
+      "grad_norm": 0.5640166401863098,
       "learning_rate": 0.0004,
+      "loss": 0.4861,
+      "step": 2676
     },
     {
       "epoch": 3.0,
       "eval_gen_len": 1.0,
+      "eval_loss": 0.624487578868866,
+      "eval_rouge1": 0.6717,
       "eval_rouge2": 0.0,
+      "eval_rougeL": 0.6667,
+      "eval_rougeLsum": 0.6691,
+      "eval_runtime": 30.8362,
+      "eval_samples_per_second": 24.322,
+      "eval_steps_per_second": 0.389,
+      "step": 2676
     },
     {
       "epoch": 4.0,
+      "grad_norm": 0.5083895921707153,
       "learning_rate": 0.0002,
+      "loss": 0.3405,
+      "step": 3568
     },
     {
       "epoch": 4.0,
       "eval_gen_len": 1.0,
+      "eval_loss": 0.6442595720291138,
+      "eval_rouge1": 0.6974,
       "eval_rouge2": 0.0,
+      "eval_rougeL": 0.6969,
+      "eval_rougeLsum": 0.6948,
+      "eval_runtime": 33.2196,
+      "eval_samples_per_second": 22.577,
+      "eval_steps_per_second": 0.361,
+      "step": 3568
     },
     {
       "epoch": 5.0,
+      "grad_norm": 0.669092059135437,
       "learning_rate": 0.0,
+      "loss": 0.2041,
+      "step": 4460
     },
     {
       "epoch": 5.0,
       "eval_gen_len": 1.0,
+      "eval_loss": 0.7147085666656494,
+      "eval_rouge1": 0.677,
       "eval_rouge2": 0.0,
+      "eval_rougeL": 0.6766,
+      "eval_rougeLsum": 0.6756,
+      "eval_runtime": 30.7781,
+      "eval_samples_per_second": 24.368,
+      "eval_steps_per_second": 0.39,
+      "step": 4460
     },
     {
       "epoch": 5.0,
+      "step": 4460,
       "total_flos": 4.883004680306688e+16,
+      "train_loss": 0.5858162473670036,
+      "train_runtime": 4314.6222,
+      "train_samples_per_second": 16.528,
+      "train_steps_per_second": 1.034
     }
   ],
   "logging_steps": 500,
+  "max_steps": 4460,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 5,
   "save_steps": 500,
   "total_flos": 4.883004680306688e+16,
+  "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null
 }

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:583dd8f4fcf4686f0dc00115470013479a64268d00a5c586484114d4d75040b1
 size 5176

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c472aad5e6371b3568f57fdda5fb9ebab151488459970e3d10d23d6061b17b8
 size 5176