End of training

Browse files

Files changed (5) hide show

all_results.json +11 -11
eval_results.json +7 -7
runs/Oct27_22-21-52_7e534512710f/events.out.tfevents.1761658635.7e534512710f.2586.3 +3 -0
train_results.json +5 -5
trainer_state.json +31 -10

all_results.json CHANGED Viewed

@@ -1,15 +1,15 @@
 {
-    "epoch": 2.2506963788300833,
-    "eval_entropy": 0.4378464198247953,
-    "eval_loss": 0.43301182985305786,
-    "eval_mean_token_accuracy": 0.8880459434026248,
-    "eval_num_tokens": 14684160.0,
-    "eval_runtime": 1046.0416,
-    "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.294,
-    "total_flos": 6.266922890113843e+17,
-    "train_loss": 0.04690098939118562,
-    "train_runtime": 4798.2939,
-    "train_samples_per_second": 7.18,
     "train_steps_per_second": 0.15
 }

 {
+    "epoch": 2.501392757660167,
+    "eval_entropy": 0.43805627868353547,
+    "eval_loss": 0.4330117106437683,
+    "eval_mean_token_accuracy": 0.887996860912868,
+    "eval_num_tokens": 16158720.0,
+    "eval_runtime": 1046.2012,
+    "eval_samples_per_second": 2.352,
     "eval_steps_per_second": 0.294,
+    "total_flos": 6.896237322593894e+17,
+    "train_loss": 0.04248945871988932,
+    "train_runtime": 4807.6761,
+    "train_samples_per_second": 7.166,
     "train_steps_per_second": 0.15
 }

eval_results.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-    "epoch": 2.2506963788300833,
-    "eval_entropy": 0.4378464198247953,
-    "eval_loss": 0.43301182985305786,
-    "eval_mean_token_accuracy": 0.8880459434026248,
-    "eval_num_tokens": 14684160.0,
-    "eval_runtime": 1046.0416,
-    "eval_samples_per_second": 2.353,
     "eval_steps_per_second": 0.294
 }

 {
+    "epoch": 2.501392757660167,
+    "eval_entropy": 0.43805627868353547,
+    "eval_loss": 0.4330117106437683,
+    "eval_mean_token_accuracy": 0.887996860912868,
+    "eval_num_tokens": 16158720.0,
+    "eval_runtime": 1046.2012,
+    "eval_samples_per_second": 2.352,
     "eval_steps_per_second": 0.294
 }

runs/Oct27_22-21-52_7e534512710f/events.out.tfevents.1761658635.7e534512710f.2586.3 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:6d2587d42020e9994d2db4b9b718fd697cad9b722ed51835f797fc7f5ad3c9bc
+size 527

train_results.json CHANGED Viewed

@@ -1,8 +1,8 @@
 {
-    "epoch": 2.2506963788300833,
-    "total_flos": 6.266922890113843e+17,
-    "train_loss": 0.04690098939118562,
-    "train_runtime": 4798.2939,
-    "train_samples_per_second": 7.18,
     "train_steps_per_second": 0.15
 }

 {
+    "epoch": 2.501392757660167,
+    "total_flos": 6.896237322593894e+17,
+    "train_loss": 0.04248945871988932,
+    "train_runtime": 4807.6761,
+    "train_samples_per_second": 7.166,
     "train_steps_per_second": 0.15
 }

trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 540,
   "best_metric": 0.43301182985305786,
   "best_model_checkpoint": "Mistral-7B-v0.1/r4/checkpoint-540",
-  "epoch": 2.2506963788300833,
   "eval_steps": 60,
-  "global_step": 540,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -199,12 +199,33 @@
       "step": 540
     },
     {
-      "epoch": 2.2506963788300833,
-      "step": 540,
-      "total_flos": 6.266922890113843e+17,
-      "train_loss": 0.04690098939118562,
-      "train_runtime": 4798.2939,
-      "train_samples_per_second": 7.18,
       "train_steps_per_second": 0.15
     }
   ],
@@ -220,7 +241,7 @@
         "early_stopping_threshold": 0.01
       },
       "attributes": {
-        "early_stopping_patience_counter": 7
       }
     },
     "TrainerControl": {
@@ -234,7 +255,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.266922890113843e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 540,
   "best_metric": 0.43301182985305786,
   "best_model_checkpoint": "Mistral-7B-v0.1/r4/checkpoint-540",
+  "epoch": 2.501392757660167,
   "eval_steps": 60,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "step": 540
     },
     {
+      "entropy": 0.4391553503357702,
+      "epoch": 2.501392757660167,
+      "grad_norm": 0.630813479423523,
+      "learning_rate": 8.903840820084096e-06,
+      "loss": 0.4249,
+      "mean_token_accuracy": 0.8895656656887796,
+      "num_tokens": 16158720.0,
+      "step": 600
+    },
+    {
+      "epoch": 2.501392757660167,
+      "eval_entropy": 0.4278067753880055,
+      "eval_loss": 0.4333657920360565,
+      "eval_mean_token_accuracy": 0.8881023328799706,
+      "eval_num_tokens": 16158720.0,
+      "eval_runtime": 1045.4866,
+      "eval_samples_per_second": 2.354,
+      "eval_steps_per_second": 0.295,
+      "step": 600
+    },
+    {
+      "epoch": 2.501392757660167,
+      "step": 600,
+      "total_flos": 6.896237322593894e+17,
+      "train_loss": 0.04248945871988932,
+      "train_runtime": 4807.6761,
+      "train_samples_per_second": 7.166,
       "train_steps_per_second": 0.15
     }
   ],
         "early_stopping_threshold": 0.01
       },
       "attributes": {
+        "early_stopping_patience_counter": 9
       }
     },
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 6.896237322593894e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null