Training in progress, step 3750, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +148 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5fcde8fff671a9e3943a7206216f5aa93c2c1394ad15e27c488e3a5ce5334895
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:7586d4afd9fadcaa6083460f8f6841b5a702dba00cbd480cc156933cd79c41b2
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efd66e2f145ff8ba7f09e1ad5b11fdf963e4fd8ce95a14181fab94269e9fb8ca
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:474241a6101d37df838210445f01853e23b11101c165e76bd69cf2cda41699a2
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44222b1bb3193020a7e558d8efc91533b7bf22b40de2edd049f9d11da894b760
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:da0e93581e91c352d5ee493f505f8757c94a31fb5b16f71a9d85577535431525
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3293218b6796a13a9f95a7300ab605072092402c0dbdc9fe7b53627646555830
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:cea37f66b9478389c6f1b54e20d4b883ef028f78a1a1497fe4ee340f7d291f09
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 156.52173913043478,
   "eval_steps": 150,
-  "global_step": 3600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3487,6 +3487,151 @@
       "EMA_steps_per_second": 24.982,
       "epoch": 156.52173913043478,
       "step": 3600
     }
   ],
   "logging_steps": 10,
@@ -3506,7 +3651,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.28760054861906e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.7177689671516418,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 163.04347826086956,
   "eval_steps": 150,
+  "global_step": 3750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 24.982,
       "epoch": 156.52173913043478,
       "step": 3600
+    },
+    {
+      "epoch": 156.95652173913044,
+      "grad_norm": 2.5946836471557617,
+      "learning_rate": 2.513936770131954e-06,
+      "loss": 0.1973,
+      "step": 3610
+    },
+    {
+      "epoch": 157.3913043478261,
+      "grad_norm": 1.8816180229187012,
+      "learning_rate": 2.5139335316856892e-06,
+      "loss": 0.2551,
+      "step": 3620
+    },
+    {
+      "epoch": 157.82608695652175,
+      "grad_norm": 1.969436764717102,
+      "learning_rate": 2.5139297950203775e-06,
+      "loss": 0.2349,
+      "step": 3630
+    },
+    {
+      "epoch": 158.2608695652174,
+      "grad_norm": 2.1921560764312744,
+      "learning_rate": 2.5139255601375007e-06,
+      "loss": 0.2243,
+      "step": 3640
+    },
+    {
+      "epoch": 158.69565217391303,
+      "grad_norm": 3.598989725112915,
+      "learning_rate": 2.513920827038737e-06,
+      "loss": 0.2276,
+      "step": 3650
+    },
+    {
+      "epoch": 159.1304347826087,
+      "grad_norm": 2.583705186843872,
+      "learning_rate": 2.513915595725963e-06,
+      "loss": 0.2528,
+      "step": 3660
+    },
+    {
+      "epoch": 159.56521739130434,
+      "grad_norm": 1.8946772813796997,
+      "learning_rate": 2.5139098662012514e-06,
+      "loss": 0.2368,
+      "step": 3670
+    },
+    {
+      "epoch": 160.0,
+      "grad_norm": 2.685317039489746,
+      "learning_rate": 2.513903638466874e-06,
+      "loss": 0.2026,
+      "step": 3680
+    },
+    {
+      "epoch": 160.43478260869566,
+      "grad_norm": 1.9969098567962646,
+      "learning_rate": 2.5138969125252985e-06,
+      "loss": 0.228,
+      "step": 3690
+    },
+    {
+      "epoch": 160.8695652173913,
+      "grad_norm": 1.5398179292678833,
+      "learning_rate": 2.5138896883791913e-06,
+      "loss": 0.2437,
+      "step": 3700
+    },
+    {
+      "epoch": 161.30434782608697,
+      "grad_norm": 1.6144198179244995,
+      "learning_rate": 2.5138819660314154e-06,
+      "loss": 0.2764,
+      "step": 3710
+    },
+    {
+      "epoch": 161.7391304347826,
+      "grad_norm": 2.053276777267456,
+      "learning_rate": 2.513873745485033e-06,
+      "loss": 0.2278,
+      "step": 3720
+    },
+    {
+      "epoch": 162.17391304347825,
+      "grad_norm": 2.3131282329559326,
+      "learning_rate": 2.513865026743301e-06,
+      "loss": 0.2157,
+      "step": 3730
+    },
+    {
+      "epoch": 162.6086956521739,
+      "grad_norm": 2.0463197231292725,
+      "learning_rate": 2.5138558098096753e-06,
+      "loss": 0.2233,
+      "step": 3740
+    },
+    {
+      "epoch": 163.04347826086956,
+      "grad_norm": 2.3754689693450928,
+      "learning_rate": 2.51384609468781e-06,
+      "loss": 0.2231,
+      "step": 3750
+    },
+    {
+      "epoch": 163.04347826086956,
+      "eval_loss": 0.9596047401428223,
+      "eval_runtime": 0.4563,
+      "eval_samples_per_second": 21.916,
+      "eval_steps_per_second": 21.916,
+      "step": 3750
+    },
+    {
+      "Start_State_loss": 0.861186683177948,
+      "Start_State_runtime": 0.456,
+      "Start_State_samples_per_second": 21.93,
+      "Start_State_steps_per_second": 21.93,
+      "epoch": 163.04347826086956,
+      "step": 3750
+    },
+    {
+      "Raw_Model_loss": 0.9596047401428223,
+      "Raw_Model_runtime": 0.4822,
+      "Raw_Model_samples_per_second": 20.737,
+      "Raw_Model_steps_per_second": 20.737,
+      "epoch": 163.04347826086956,
+      "step": 3750
+    },
+    {
+      "SWA_loss": 0.7939289808273315,
+      "SWA_runtime": 0.4295,
+      "SWA_samples_per_second": 23.281,
+      "SWA_steps_per_second": 23.281,
+      "epoch": 163.04347826086956,
+      "step": 3750
+    },
+    {
+      "EMA_loss": 0.8596266508102417,
+      "EMA_runtime": 0.4196,
+      "EMA_samples_per_second": 23.833,
+      "EMA_steps_per_second": 23.833,
+      "epoch": 163.04347826086956,
+      "step": 3750
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 9.668631592798618e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null