Training in progress, step 5250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b8241d490cf7c6d73daa6e58d1e953d37a78b29a116a5819c07ede09f2a18a6
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:ce8cb0c1636a06b1e76c546c4b0282f02b71ccad43c283d3d33d43185c64edec
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8a28d22fdc04db2c35d665a1ac5cb8cd349b54d05fc00d81df4548b08481678c
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:70afac3958025bed818f692a236ab6bf6b28db45140796294f475309149762a5
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:67c6f49cb50d8b09b0f2e9704dcb4986f8fc63f53d3b695322fdb8756b868c02
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a7de188e422eb0da886da3c865f1df00995a0a219ebff0d43a41d74c3b9d38d5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:736f4102e80c412e5bd9ae55e7c4ee4195aa9541999b56cf808f798e57d982a7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:7cc08ef7615af7896731786745ca416272561837649d6bc1ff644d72a48c9b0d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 221.7391304347826,
   "eval_steps": 150,
-  "global_step": 5100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -4937,6 +4937,151 @@
       "EMA_steps_per_second": 22.619,
       "epoch": 221.7391304347826,
       "step": 5100
     }
   ],
   "logging_steps": 10,
@@ -4956,7 +5101,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.3106424730691174e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7166205048561096,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 228.2608695652174,
   "eval_steps": 150,
+  "global_step": 5250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 22.619,
       "epoch": 221.7391304347826,
       "step": 5100
+    },
+    {
+      "epoch": 222.17391304347825,
+      "grad_norm": 2.351990222930908,
+      "learning_rate": 1.528980386974772e-06,
+      "loss": 0.2432,
+      "step": 5110
+    },
+    {
+      "epoch": 222.6086956521739,
+      "grad_norm": 2.001265287399292,
+      "learning_rate": 1.5289556856653922e-06,
+      "loss": 0.2269,
+      "step": 5120
+    },
+    {
+      "epoch": 223.04347826086956,
+      "grad_norm": 2.3239283561706543,
+      "learning_rate": 1.5289306815434077e-06,
+      "loss": 0.2179,
+      "step": 5130
+    },
+    {
+      "epoch": 223.47826086956522,
+      "grad_norm": 2.3948585987091064,
+      "learning_rate": 1.528905374618729e-06,
+      "loss": 0.2354,
+      "step": 5140
+    },
+    {
+      "epoch": 223.91304347826087,
+      "grad_norm": 1.9040113687515259,
+      "learning_rate": 1.5288797649013872e-06,
+      "loss": 0.2289,
+      "step": 5150
+    },
+    {
+      "epoch": 224.34782608695653,
+      "grad_norm": 2.0223822593688965,
+      "learning_rate": 1.5288538524015332e-06,
+      "loss": 0.2192,
+      "step": 5160
+    },
+    {
+      "epoch": 224.7826086956522,
+      "grad_norm": 1.7613234519958496,
+      "learning_rate": 1.5288276371294373e-06,
+      "loss": 0.2122,
+      "step": 5170
+    },
+    {
+      "epoch": 225.2173913043478,
+      "grad_norm": 1.8648544549942017,
+      "learning_rate": 1.5288011190954913e-06,
+      "loss": 0.2038,
+      "step": 5180
+    },
+    {
+      "epoch": 225.65217391304347,
+      "grad_norm": 1.9111838340759277,
+      "learning_rate": 1.5287742983102055e-06,
+      "loss": 0.1973,
+      "step": 5190
+    },
+    {
+      "epoch": 226.08695652173913,
+      "grad_norm": 2.3617441654205322,
+      "learning_rate": 1.5287471747842112e-06,
+      "loss": 0.2629,
+      "step": 5200
+    },
+    {
+      "epoch": 226.52173913043478,
+      "grad_norm": 1.7532709836959839,
+      "learning_rate": 1.5287197485282586e-06,
+      "loss": 0.2078,
+      "step": 5210
+    },
+    {
+      "epoch": 226.95652173913044,
+      "grad_norm": 2.7147057056427,
+      "learning_rate": 1.5286920195532195e-06,
+      "loss": 0.2379,
+      "step": 5220
+    },
+    {
+      "epoch": 227.3913043478261,
+      "grad_norm": 1.9578685760498047,
+      "learning_rate": 1.528663987870084e-06,
+      "loss": 0.2432,
+      "step": 5230
+    },
+    {
+      "epoch": 227.82608695652175,
+      "grad_norm": 3.356194019317627,
+      "learning_rate": 1.5286356534899634e-06,
+      "loss": 0.2264,
+      "step": 5240
+    },
+    {
+      "epoch": 228.2608695652174,
+      "grad_norm": 1.8712825775146484,
+      "learning_rate": 1.5286070164240883e-06,
+      "loss": 0.2185,
+      "step": 5250
+    },
+    {
+      "epoch": 228.2608695652174,
+      "eval_loss": 0.9829781651496887,
+      "eval_runtime": 0.3975,
+      "eval_samples_per_second": 25.156,
+      "eval_steps_per_second": 25.156,
+      "step": 5250
+    },
+    {
+      "Start_State_loss": 0.8609819412231445,
+      "Start_State_runtime": 0.3894,
+      "Start_State_samples_per_second": 25.682,
+      "Start_State_steps_per_second": 25.682,
+      "epoch": 228.2608695652174,
+      "step": 5250
+    },
+    {
+      "Raw_Model_loss": 0.9829781651496887,
+      "Raw_Model_runtime": 0.391,
+      "Raw_Model_samples_per_second": 25.574,
+      "Raw_Model_steps_per_second": 25.574,
+      "epoch": 228.2608695652174,
+      "step": 5250
+    },
+    {
+      "SWA_loss": 0.8260501027107239,
+      "SWA_runtime": 0.4158,
+      "SWA_samples_per_second": 24.051,
+      "SWA_steps_per_second": 24.051,
+      "epoch": 228.2608695652174,
+      "step": 5250
+    },
+    {
+      "EMA_loss": 0.8600662350654602,
+      "EMA_runtime": 0.3878,
+      "EMA_samples_per_second": 25.783,
+      "EMA_steps_per_second": 25.783,
+      "epoch": 228.2608695652174,
+      "step": 5250
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.3495580841170534e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null