Training in progress, step 1000

Browse files

Files changed (7) hide show

model.safetensors +1 -1
run-0/checkpoint-1000/model.safetensors +1 -1
run-0/checkpoint-1000/optimizer.pt +1 -1
run-0/checkpoint-1000/scheduler.pt +1 -1
run-0/checkpoint-1000/trainer_state.json +50 -50
run-0/checkpoint-1000/training_args.bin +1 -1
runs/Sep28_10-21-38_bb2384aee55a/events.out.tfevents.1759054927.bb2384aee55a.76.1 +2 -2

model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e457f27461b2483b852da76fe894d68c3544c2ae66ba9545672834917c367150
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c93d681696ed3445c446a7b2e66b7998d98302e5f7b397e53af0ecf449cee1e
 size 598898116

run-0/checkpoint-1000/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3968e1b921312e34b6af204e89f578af594570e7f013fb0b5d7a0cc0f48eed92
 size 598898116

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c93d681696ed3445c446a7b2e66b7998d98302e5f7b397e53af0ecf449cee1e
 size 598898116

run-0/checkpoint-1000/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bf78e2c6f4f050744c7babc85326d5ad15003ef16d976da1de97fceea9812414
 size 1197884026

 version https://git-lfs.github.com/spec/v1
+oid sha256:212305b2b0de4dcf577037010c70ea29a5181579846dccb1f434c7565db13925
 size 1197884026

run-0/checkpoint-1000/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f125fa33a5ddf9a6263576bd35ad82a77abf349001c5cbe06d69a6e3bbe3bf28
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:c32bdbd7d3ec7581d6659ed0a44478218265d8d53be00c083550f24c6010954b
 size 1064

run-0/checkpoint-1000/trainer_state.json CHANGED Viewed

@@ -11,98 +11,98 @@
   "log_history": [
     {
       "epoch": 1.0,
-      "eval_accuracy": 0.7422580645161291,
-      "eval_loss": 2.6352736949920654,
-      "eval_runtime": 20.1609,
-      "eval_samples_per_second": 153.763,
-      "eval_steps_per_second": 1.637,
       "step": 159
     },
     {
       "epoch": 1.2578616352201257,
-      "grad_norm": 4.528295516967773,
-      "learning_rate": 1.7218728162124388e-05,
-      "loss": 3.9909,
       "step": 200
     },
     {
       "epoch": 2.0,
-      "eval_accuracy": 0.917741935483871,
-      "eval_loss": 1.4726468324661255,
-      "eval_runtime": 20.7041,
-      "eval_samples_per_second": 149.729,
-      "eval_steps_per_second": 1.594,
       "step": 318
     },
     {
       "epoch": 2.5157232704402515,
-      "grad_norm": 4.496422290802002,
-      "learning_rate": 1.4423480083857445e-05,
-      "loss": 1.6,
       "step": 400
     },
     {
       "epoch": 3.0,
-      "eval_accuracy": 0.9419354838709677,
-      "eval_loss": 1.0404900312423706,
-      "eval_runtime": 20.139,
-      "eval_samples_per_second": 153.93,
-      "eval_steps_per_second": 1.639,
       "step": 477
     },
     {
       "epoch": 3.7735849056603774,
-      "grad_norm": 3.2070181369781494,
-      "learning_rate": 1.1628232005590496e-05,
-      "loss": 0.9245,
       "step": 600
     },
     {
       "epoch": 4.0,
-      "eval_accuracy": 0.9496774193548387,
-      "eval_loss": 0.8541080355644226,
-      "eval_runtime": 20.1419,
-      "eval_samples_per_second": 153.908,
-      "eval_steps_per_second": 1.638,
       "step": 636
     },
     {
       "epoch": 5.0,
-      "eval_accuracy": 0.9551612903225807,
-      "eval_loss": 0.7533753514289856,
-      "eval_runtime": 20.1364,
-      "eval_samples_per_second": 153.95,
-      "eval_steps_per_second": 1.639,
       "step": 795
     },
     {
       "epoch": 5.031446540880503,
-      "grad_norm": 2.5381293296813965,
-      "learning_rate": 8.832983927323551e-06,
-      "loss": 0.6759,
       "step": 800
     },
     {
       "epoch": 6.0,
-      "eval_accuracy": 0.9548387096774194,
-      "eval_loss": 0.697773277759552,
-      "eval_runtime": 20.2811,
-      "eval_samples_per_second": 152.851,
-      "eval_steps_per_second": 1.627,
       "step": 954
     },
     {
       "epoch": 6.289308176100629,
-      "grad_norm": 2.103200674057007,
-      "learning_rate": 6.037735849056604e-06,
-      "loss": 0.5553,
       "step": 1000
     }
   ],
   "logging_steps": 200,
-  "max_steps": 1431,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 9,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
@@ -116,12 +116,12 @@
       "attributes": {}
     }
   },
-  "total_flos": 1537764459796332.0,
   "train_batch_size": 96,
   "trial_name": null,
   "trial_params": {
-    "alpha": 0.2851183254926115,
-    "num_train_epochs": 9,
     "temperature": 13
   }
 }

   "log_history": [
     {
       "epoch": 1.0,
+      "eval_accuracy": 0.7464516129032258,
+      "eval_loss": 2.6676511764526367,
+      "eval_runtime": 26.5969,
+      "eval_samples_per_second": 116.555,
+      "eval_steps_per_second": 1.241,
       "step": 159
     },
     {
       "epoch": 1.2578616352201257,
+      "grad_norm": 4.724590301513672,
+      "learning_rate": 1.6871069182389938e-05,
+      "loss": 4.0219,
       "step": 200
     },
     {
       "epoch": 2.0,
+      "eval_accuracy": 0.9209677419354839,
+      "eval_loss": 1.4983173608779907,
+      "eval_runtime": 22.9577,
+      "eval_samples_per_second": 135.031,
+      "eval_steps_per_second": 1.437,
       "step": 318
     },
     {
       "epoch": 2.5157232704402515,
+      "grad_norm": 4.552013397216797,
+      "learning_rate": 1.3726415094339625e-05,
+      "loss": 1.6317,
       "step": 400
     },
     {
       "epoch": 3.0,
+      "eval_accuracy": 0.9432258064516129,
+      "eval_loss": 1.065486192703247,
+      "eval_runtime": 22.9055,
+      "eval_samples_per_second": 135.339,
+      "eval_steps_per_second": 1.441,
       "step": 477
     },
     {
       "epoch": 3.7735849056603774,
+      "grad_norm": 2.870781183242798,
+      "learning_rate": 1.0581761006289309e-05,
+      "loss": 0.9522,
       "step": 600
     },
     {
       "epoch": 4.0,
+      "eval_accuracy": 0.9483870967741935,
+      "eval_loss": 0.8771675229072571,
+      "eval_runtime": 22.9315,
+      "eval_samples_per_second": 135.185,
+      "eval_steps_per_second": 1.439,
       "step": 636
     },
     {
       "epoch": 5.0,
+      "eval_accuracy": 0.954516129032258,
+      "eval_loss": 0.781271755695343,
+      "eval_runtime": 22.8478,
+      "eval_samples_per_second": 135.681,
+      "eval_steps_per_second": 1.444,
       "step": 795
     },
     {
       "epoch": 5.031446540880503,
+      "grad_norm": 2.469351291656494,
+      "learning_rate": 7.437106918238994e-06,
+      "loss": 0.7022,
       "step": 800
     },
     {
       "epoch": 6.0,
+      "eval_accuracy": 0.9554838709677419,
+      "eval_loss": 0.7265329957008362,
+      "eval_runtime": 22.9211,
+      "eval_samples_per_second": 135.247,
+      "eval_steps_per_second": 1.44,
       "step": 954
     },
     {
       "epoch": 6.289308176100629,
+      "grad_norm": 2.1010658740997314,
+      "learning_rate": 4.29245283018868e-06,
+      "loss": 0.5869,
       "step": 1000
     }
   ],
   "logging_steps": 200,
+  "max_steps": 1272,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
   "save_steps": 500,
   "stateful_callbacks": {
     "TrainerControl": {
       "attributes": {}
     }
   },
+  "total_flos": 1735586846963244.0,
   "train_batch_size": 96,
   "trial_name": null,
   "trial_params": {
+    "alpha": 0.9713674411299632,
+    "num_train_epochs": 8,
     "temperature": 13
   }
 }

run-0/checkpoint-1000/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24328dab82c8f44c9479f6ea68413bde6277bd3d515c5aa473bf282bd0ce474a
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:c1b5ead62771fb4a133ea7812d8458dd760625e18862235c9bfe1d87fb1d371e
 size 5368

runs/Sep28_10-21-38_bb2384aee55a/events.out.tfevents.1759054927.bb2384aee55a.76.1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8c55ff104bb86552772b59785b9901ff4ca17990bc3273b258c2a48bd9dfaf55
-size 27551

 version https://git-lfs.github.com/spec/v1
+oid sha256:1a8beb8393214e32bd7130b57292c4b0881f1e809312759f4d2821485964c5b8
+size 29153