End of training

Browse files

Files changed (5) hide show

all_results.json +11 -6
eval_results.json +8 -0
runs/Apr09_20-24-58_4fe294af0ba5/events.out.tfevents.1712694513.4fe294af0ba5.34.2 +3 -0
train_results.json +6 -6
trainer_state.json +51 -35

all_results.json CHANGED Viewed

@@ -1,8 +1,13 @@
 {
-    "epoch": 2.95,
-    "total_flos": 4.128884221330391e+17,
-    "train_loss": 1.5558896859486897,
-    "train_runtime": 188.9978,
-    "train_samples_per_second": 28.572,
-    "train_steps_per_second": 0.127
 }

 {
+    "epoch": 3.93,
+    "eval_accuracy": 0.865,
+    "eval_loss": 1.028597354888916,
+    "eval_runtime": 2.3005,
+    "eval_samples_per_second": 86.936,
+    "eval_steps_per_second": 3.043,
+    "total_flos": 5.498979435916001e+17,
+    "train_loss": 1.2344711497426033,
+    "train_runtime": 175.6186,
+    "train_samples_per_second": 40.998,
+    "train_steps_per_second": 0.182
 }

eval_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.93,
+    "eval_accuracy": 0.865,
+    "eval_loss": 1.028597354888916,
+    "eval_runtime": 2.3005,
+    "eval_samples_per_second": 86.936,
+    "eval_steps_per_second": 3.043
+}

runs/Apr09_20-24-58_4fe294af0ba5/events.out.tfevents.1712694513.4fe294af0ba5.34.2 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:0fc9878db27b97fef5d5e2d1eb329937640a4248096bc335340b7b3dc5807005
+size 1039

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.95,
-    "total_flos": 4.128884221330391e+17,
-    "train_loss": 1.5558896859486897,
-    "train_runtime": 188.9978,
-    "train_samples_per_second": 28.572,
-    "train_steps_per_second": 0.127
 }

 {
+    "epoch": 3.93,
+    "total_flos": 5.498979435916001e+17,
+    "train_loss": 1.2344711497426033,
+    "train_runtime": 175.6186,
+    "train_samples_per_second": 40.998,
+    "train_steps_per_second": 0.182
 }

trainer_state.json CHANGED Viewed

@@ -1,70 +1,86 @@
 {
-  "best_metric": 0.435,
-  "best_model_checkpoint": "final-run/checkpoint-24",
-  "epoch": 2.9473684210526314,
   "eval_steps": 500,
-  "global_step": 24,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.98,
-      "eval_accuracy": 0.305,
-      "eval_loss": 1.5488276481628418,
-      "eval_runtime": 2.2778,
-      "eval_samples_per_second": 87.805,
-      "eval_steps_per_second": 3.073,
       "step": 8
     },
     {
       "epoch": 1.23,
-      "grad_norm": 1.9612401723861694,
-      "learning_rate": 6.666666666666667e-06,
-      "loss": 1.6543,
       "step": 10
     },
     {
       "epoch": 1.96,
-      "eval_accuracy": 0.31,
-      "eval_loss": 1.4750585556030273,
-      "eval_runtime": 2.273,
-      "eval_samples_per_second": 87.989,
-      "eval_steps_per_second": 3.08,
       "step": 16
     },
     {
       "epoch": 2.46,
-      "grad_norm": 2.8159549236297607,
-      "learning_rate": 1.904761904761905e-06,
-      "loss": 1.5,
       "step": 20
     },
     {
       "epoch": 2.95,
-      "eval_accuracy": 0.435,
-      "eval_loss": 1.436577320098877,
-      "eval_runtime": 2.2765,
-      "eval_samples_per_second": 87.855,
-      "eval_steps_per_second": 3.075,
       "step": 24
     },
     {
-      "epoch": 2.95,
-      "step": 24,
-      "total_flos": 4.128884221330391e+17,
-      "train_loss": 1.5558896859486897,
-      "train_runtime": 188.9978,
-      "train_samples_per_second": 28.572,
-      "train_steps_per_second": 0.127
     }
   ],
   "logging_steps": 10,
-  "max_steps": 24,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
   "save_steps": 500,
-  "total_flos": 4.128884221330391e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.865,
+  "best_model_checkpoint": "final-run/checkpoint-32",
+  "epoch": 3.9298245614035086,
   "eval_steps": 500,
+  "global_step": 32,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
       "epoch": 0.98,
+      "eval_accuracy": 0.71,
+      "eval_loss": 1.295009970664978,
+      "eval_runtime": 2.2823,
+      "eval_samples_per_second": 87.632,
+      "eval_steps_per_second": 3.067,
       "step": 8
     },
     {
       "epoch": 1.23,
+      "grad_norm": 2.336587429046631,
+      "learning_rate": 7.857142857142858e-06,
+      "loss": 1.383,
       "step": 10
     },
     {
       "epoch": 1.96,
+      "eval_accuracy": 0.815,
+      "eval_loss": 1.1531453132629395,
+      "eval_runtime": 2.2842,
+      "eval_samples_per_second": 87.558,
+      "eval_steps_per_second": 3.065,
       "step": 16
     },
     {
       "epoch": 2.46,
+      "grad_norm": 2.422740936279297,
+      "learning_rate": 4.2857142857142855e-06,
+      "loss": 1.2243,
       "step": 20
     },
     {
       "epoch": 2.95,
+      "eval_accuracy": 0.86,
+      "eval_loss": 1.0636448860168457,
+      "eval_runtime": 2.3294,
+      "eval_samples_per_second": 85.86,
+      "eval_steps_per_second": 3.005,
       "step": 24
     },
     {
+      "epoch": 3.68,
+      "grad_norm": 2.130319356918335,
+      "learning_rate": 7.142857142857143e-07,
+      "loss": 1.1189,
+      "step": 30
+    },
+    {
+      "epoch": 3.93,
+      "eval_accuracy": 0.865,
+      "eval_loss": 1.028597354888916,
+      "eval_runtime": 2.2993,
+      "eval_samples_per_second": 86.984,
+      "eval_steps_per_second": 3.044,
+      "step": 32
+    },
+    {
+      "epoch": 3.93,
+      "step": 32,
+      "total_flos": 5.498979435916001e+17,
+      "train_loss": 1.2344711497426033,
+      "train_runtime": 175.6186,
+      "train_samples_per_second": 40.998,
+      "train_steps_per_second": 0.182
     }
   ],
   "logging_steps": 10,
+  "max_steps": 32,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
   "save_steps": 500,
+  "total_flos": 5.498979435916001e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null