Training in progress, step 3900, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7586d4afd9fadcaa6083460f8f6841b5a702dba00cbd480cc156933cd79c41b2
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:f298dd0a7b849bb55a6d5cb7290507c8064f9b006406a664a429001d19e0e48c
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:474241a6101d37df838210445f01853e23b11101c165e76bd69cf2cda41699a2
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:6668a3d3adb3a86f62c6ef423882ea9f2f598f32ad5045f34c14199b38fb689f
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:da0e93581e91c352d5ee493f505f8757c94a31fb5b16f71a9d85577535431525
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:488cbcf14a0f8a4794af20845693e7c92cc4e0193e27f71cfb8b870a8f1fae2d
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cea37f66b9478389c6f1b54e20d4b883ef028f78a1a1497fe4ee340f7d291f09
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d162883f1a66ee54c1f60afa7c5bed405d62515f1f02173124202a7368b03a7d
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 163.04347826086956,
   "eval_steps": 150,
-  "global_step": 3750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3632,6 +3632,151 @@
       "EMA_steps_per_second": 23.833,
       "epoch": 163.04347826086956,
       "step": 3750
     }
   ],
   "logging_steps": 10,
@@ -3651,7 +3796,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.668631592798618e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 169.56521739130434,
   "eval_steps": 150,
+  "global_step": 3900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 23.833,
       "epoch": 163.04347826086956,
       "step": 3750
+    },
+    {
+      "epoch": 163.47826086956522,
+      "grad_norm": 1.9908124208450317,
+      "learning_rate": 2.5138358813815557e-06,
+      "loss": 0.2365,
+      "step": 3760
+    },
+    {
+      "epoch": 163.91304347826087,
+      "grad_norm": 2.154146194458008,
+      "learning_rate": 2.5138251698949603e-06,
+      "loss": 0.2379,
+      "step": 3770
+    },
+    {
+      "epoch": 164.34782608695653,
+      "grad_norm": 1.2993087768554688,
+      "learning_rate": 2.5138139602322698e-06,
+      "loss": 0.2233,
+      "step": 3780
+    },
+    {
+      "epoch": 164.7826086956522,
+      "grad_norm": 2.012446641921997,
+      "learning_rate": 2.513802252397927e-06,
+      "loss": 0.2327,
+      "step": 3790
+    },
+    {
+      "epoch": 165.2173913043478,
+      "grad_norm": 2.131314277648926,
+      "learning_rate": 2.513790046396573e-06,
+      "loss": 0.261,
+      "step": 3800
+    },
+    {
+      "epoch": 165.65217391304347,
+      "grad_norm": 1.9400966167449951,
+      "learning_rate": 2.5137773422330448e-06,
+      "loss": 0.2375,
+      "step": 3810
+    },
+    {
+      "epoch": 166.08695652173913,
+      "grad_norm": 2.3741443157196045,
+      "learning_rate": 2.5137641399123794e-06,
+      "loss": 0.1815,
+      "step": 3820
+    },
+    {
+      "epoch": 166.52173913043478,
+      "grad_norm": 2.0041890144348145,
+      "learning_rate": 2.5137504394398086e-06,
+      "loss": 0.2567,
+      "step": 3830
+    },
+    {
+      "epoch": 166.95652173913044,
+      "grad_norm": 1.6475896835327148,
+      "learning_rate": 2.5137362408207634e-06,
+      "loss": 0.2357,
+      "step": 3840
+    },
+    {
+      "epoch": 167.3913043478261,
+      "grad_norm": 2.971357583999634,
+      "learning_rate": 2.5137215440608716e-06,
+      "loss": 0.2192,
+      "step": 3850
+    },
+    {
+      "epoch": 167.82608695652175,
+      "grad_norm": 3.0954818725585938,
+      "learning_rate": 2.5137063491659585e-06,
+      "loss": 0.218,
+      "step": 3860
+    },
+    {
+      "epoch": 168.2608695652174,
+      "grad_norm": 2.0101890563964844,
+      "learning_rate": 2.513690656142047e-06,
+      "loss": 0.2871,
+      "step": 3870
+    },
+    {
+      "epoch": 168.69565217391303,
+      "grad_norm": 1.8766013383865356,
+      "learning_rate": 2.513674464995357e-06,
+      "loss": 0.2125,
+      "step": 3880
+    },
+    {
+      "epoch": 169.1304347826087,
+      "grad_norm": 2.223860025405884,
+      "learning_rate": 2.5136577757323066e-06,
+      "loss": 0.1979,
+      "step": 3890
+    },
+    {
+      "epoch": 169.56521739130434,
+      "grad_norm": 1.864652395248413,
+      "learning_rate": 2.5136405883595107e-06,
+      "loss": 0.2454,
+      "step": 3900
+    },
+    {
+      "epoch": 169.56521739130434,
+      "eval_loss": 0.967199444770813,
+      "eval_runtime": 0.4027,
+      "eval_samples_per_second": 24.832,
+      "eval_steps_per_second": 24.832,
+      "step": 3900
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.4115,
+      "Start_State_samples_per_second": 24.298,
+      "Start_State_steps_per_second": 24.298,
+      "epoch": 169.56521739130434,
+      "step": 3900
+    },
+    {
+      "Raw_Model_loss": 0.967199444770813,
+      "Raw_Model_runtime": 0.4276,
+      "Raw_Model_samples_per_second": 23.385,
+      "Raw_Model_steps_per_second": 23.385,
+      "epoch": 169.56521739130434,
+      "step": 3900
+    },
+    {
+      "SWA_loss": 0.7983330488204956,
+      "SWA_runtime": 0.4151,
+      "SWA_samples_per_second": 24.09,
+      "SWA_steps_per_second": 24.09,
+      "epoch": 169.56521739130434,
+      "step": 3900
+    },
+    {
+      "EMA_loss": 0.8598569631576538,
+      "EMA_runtime": 0.4151,
+      "EMA_samples_per_second": 24.093,
+      "EMA_steps_per_second": 24.093,
+      "epoch": 169.56521739130434,
+      "step": 3900
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0061040993472512e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null