Training in progress, step 4050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +438 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7a7db4ae93951b0eb394bb0a363f73cd5df34f9278223503ea607797313cdef9
 size 527048968

 version https://git-lfs.github.com/spec/v1
+oid sha256:93acfdd5cdd6ef89b1ed91c73d19149a93a528cd9738fccb13d443f45881ee04
 size 527048968

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:550ddc0253077b9ade8068188ab7383f87735a416196347e817b58cdd6eecfa7
 size 1054135994

 version https://git-lfs.github.com/spec/v1
+oid sha256:beb77df5cad9d7d40202a2e651689ae053bffaaee0955f5237af06baab810e66
 size 1054135994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:79ae35034e3077f87418b20f4a24e69590c4f56a313fa0284d685c7f3a1b03d8
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:13bbe2b3622d3ee43d6da056e5089821b40ad6dddafb42e72943c6257b2fb9fb
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:92a0ba1807c4ff64f4d8fc6d84a7a517689523073c7ea31a60948b80a14d9e61
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:0a3a16384602460333a9f0cd2b323d7cca6df1f8b990046ccd0e2a05526d44a1
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.717534065246582,
   "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 156.52173913043478,
   "eval_steps": 150,
-  "global_step": 3600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3447,6 +3447,441 @@
       "EMA_steps_per_second": 24.896,
       "epoch": 156.52173913043478,
       "step": 3600
     }
   ],
   "logging_steps": 10,
@@ -3466,7 +3901,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 9.28760054861906e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.717534065246582,
   "best_model_checkpoint": "./output/checkpoint-450",
+  "epoch": 176.08695652173913,
   "eval_steps": 150,
+  "global_step": 4050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "EMA_steps_per_second": 24.896,
       "epoch": 156.52173913043478,
       "step": 3600
+    },
+    {
+      "epoch": 156.95652173913044,
+      "grad_norm": 2.645265579223633,
+      "learning_rate": 2.4671994267584554e-06,
+      "loss": 0.198,
+      "step": 3610
+    },
+    {
+      "epoch": 157.3913043478261,
+      "grad_norm": 1.8821053504943848,
+      "learning_rate": 2.467196248519105e-06,
+      "loss": 0.2556,
+      "step": 3620
+    },
+    {
+      "epoch": 157.82608695652175,
+      "grad_norm": 1.9857944250106812,
+      "learning_rate": 2.467192581323245e-06,
+      "loss": 0.2351,
+      "step": 3630
+    },
+    {
+      "epoch": 158.2608695652174,
+      "grad_norm": 2.166137218475342,
+      "learning_rate": 2.4671884251723307e-06,
+      "loss": 0.2247,
+      "step": 3640
+    },
+    {
+      "epoch": 158.69565217391303,
+      "grad_norm": 3.4636070728302,
+      "learning_rate": 2.467183780068008e-06,
+      "loss": 0.2279,
+      "step": 3650
+    },
+    {
+      "epoch": 159.1304347826087,
+      "grad_norm": 2.6010055541992188,
+      "learning_rate": 2.46717864601212e-06,
+      "loss": 0.2532,
+      "step": 3660
+    },
+    {
+      "epoch": 159.56521739130434,
+      "grad_norm": 1.8783644437789917,
+      "learning_rate": 2.4671730230067e-06,
+      "loss": 0.2374,
+      "step": 3670
+    },
+    {
+      "epoch": 160.0,
+      "grad_norm": 2.6553757190704346,
+      "learning_rate": 2.467166911053978e-06,
+      "loss": 0.2033,
+      "step": 3680
+    },
+    {
+      "epoch": 160.43478260869566,
+      "grad_norm": 2.024184465408325,
+      "learning_rate": 2.467160310156375e-06,
+      "loss": 0.2283,
+      "step": 3690
+    },
+    {
+      "epoch": 160.8695652173913,
+      "grad_norm": 1.5430588722229004,
+      "learning_rate": 2.4671532203165083e-06,
+      "loss": 0.2442,
+      "step": 3700
+    },
+    {
+      "epoch": 161.30434782608697,
+      "grad_norm": 1.56803560256958,
+      "learning_rate": 2.4671456415371886e-06,
+      "loss": 0.277,
+      "step": 3710
+    },
+    {
+      "epoch": 161.7391304347826,
+      "grad_norm": 2.1057708263397217,
+      "learning_rate": 2.4671375738214194e-06,
+      "loss": 0.2282,
+      "step": 3720
+    },
+    {
+      "epoch": 162.17391304347825,
+      "grad_norm": 2.3112103939056396,
+      "learning_rate": 2.4671290171723985e-06,
+      "loss": 0.2158,
+      "step": 3730
+    },
+    {
+      "epoch": 162.6086956521739,
+      "grad_norm": 2.1062066555023193,
+      "learning_rate": 2.467119971593517e-06,
+      "loss": 0.2238,
+      "step": 3740
+    },
+    {
+      "epoch": 163.04347826086956,
+      "grad_norm": 2.408543586730957,
+      "learning_rate": 2.4671104370883605e-06,
+      "loss": 0.2239,
+      "step": 3750
+    },
+    {
+      "epoch": 163.04347826086956,
+      "eval_loss": 0.9615678787231445,
+      "eval_runtime": 0.5503,
+      "eval_samples_per_second": 18.171,
+      "eval_steps_per_second": 18.171,
+      "step": 3750
+    },
+    {
+      "Start_State_loss": 0.7309322357177734,
+      "Start_State_runtime": 0.5599,
+      "Start_State_samples_per_second": 17.861,
+      "Start_State_steps_per_second": 17.861,
+      "epoch": 163.04347826086956,
+      "step": 3750
+    },
+    {
+      "Raw_Model_loss": 0.9615678787231445,
+      "Raw_Model_runtime": 0.5603,
+      "Raw_Model_samples_per_second": 17.847,
+      "Raw_Model_steps_per_second": 17.847,
+      "epoch": 163.04347826086956,
+      "step": 3750
+    },
+    {
+      "SWA_loss": 0.8130480051040649,
+      "SWA_runtime": 0.5108,
+      "SWA_samples_per_second": 19.577,
+      "SWA_steps_per_second": 19.577,
+      "epoch": 163.04347826086956,
+      "step": 3750
+    },
+    {
+      "EMA_loss": 0.7312911748886108,
+      "EMA_runtime": 0.4587,
+      "EMA_samples_per_second": 21.799,
+      "EMA_steps_per_second": 21.799,
+      "epoch": 163.04347826086956,
+      "step": 3750
+    },
+    {
+      "epoch": 163.47826086956522,
+      "grad_norm": 1.994370698928833,
+      "learning_rate": 2.467100413660709e-06,
+      "loss": 0.2369,
+      "step": 3760
+    },
+    {
+      "epoch": 163.91304347826087,
+      "grad_norm": 2.161099672317505,
+      "learning_rate": 2.467089901314535e-06,
+      "loss": 0.2382,
+      "step": 3770
+    },
+    {
+      "epoch": 164.34782608695653,
+      "grad_norm": 1.2869818210601807,
+      "learning_rate": 2.467078900054005e-06,
+      "loss": 0.2242,
+      "step": 3780
+    },
+    {
+      "epoch": 164.7826086956522,
+      "grad_norm": 2.0708134174346924,
+      "learning_rate": 2.4670674098834794e-06,
+      "loss": 0.2331,
+      "step": 3790
+    },
+    {
+      "epoch": 165.2173913043478,
+      "grad_norm": 2.1501667499542236,
+      "learning_rate": 2.467055430807513e-06,
+      "loss": 0.2612,
+      "step": 3800
+    },
+    {
+      "epoch": 165.65217391304347,
+      "grad_norm": 1.9154974222183228,
+      "learning_rate": 2.4670429628308534e-06,
+      "loss": 0.2377,
+      "step": 3810
+    },
+    {
+      "epoch": 166.08695652173913,
+      "grad_norm": 2.9878361225128174,
+      "learning_rate": 2.4670300059584434e-06,
+      "loss": 0.1821,
+      "step": 3820
+    },
+    {
+      "epoch": 166.52173913043478,
+      "grad_norm": 2.1303274631500244,
+      "learning_rate": 2.4670165601954175e-06,
+      "loss": 0.2576,
+      "step": 3830
+    },
+    {
+      "epoch": 166.95652173913044,
+      "grad_norm": 1.6496716737747192,
+      "learning_rate": 2.467002625547106e-06,
+      "loss": 0.236,
+      "step": 3840
+    },
+    {
+      "epoch": 167.3913043478261,
+      "grad_norm": 2.8413376808166504,
+      "learning_rate": 2.466988202019032e-06,
+      "loss": 0.2196,
+      "step": 3850
+    },
+    {
+      "epoch": 167.82608695652175,
+      "grad_norm": 3.063800096511841,
+      "learning_rate": 2.4669732896169126e-06,
+      "loss": 0.2183,
+      "step": 3860
+    },
+    {
+      "epoch": 168.2608695652174,
+      "grad_norm": 2.015465259552002,
+      "learning_rate": 2.4669578883466584e-06,
+      "loss": 0.2874,
+      "step": 3870
+    },
+    {
+      "epoch": 168.69565217391303,
+      "grad_norm": 1.853532314300537,
+      "learning_rate": 2.466941998214374e-06,
+      "loss": 0.2132,
+      "step": 3880
+    },
+    {
+      "epoch": 169.1304347826087,
+      "grad_norm": 2.128767251968384,
+      "learning_rate": 2.466925619226358e-06,
+      "loss": 0.1985,
+      "step": 3890
+    },
+    {
+      "epoch": 169.56521739130434,
+      "grad_norm": 1.844394564628601,
+      "learning_rate": 2.466908751389102e-06,
+      "loss": 0.2458,
+      "step": 3900
+    },
+    {
+      "epoch": 169.56521739130434,
+      "eval_loss": 0.9633600115776062,
+      "eval_runtime": 0.5853,
+      "eval_samples_per_second": 17.085,
+      "eval_steps_per_second": 17.085,
+      "step": 3900
+    },
+    {
+      "Start_State_loss": 0.7309322357177734,
+      "Start_State_runtime": 0.4434,
+      "Start_State_samples_per_second": 22.551,
+      "Start_State_steps_per_second": 22.551,
+      "epoch": 169.56521739130434,
+      "step": 3900
+    },
+    {
+      "Raw_Model_loss": 0.9633600115776062,
+      "Raw_Model_runtime": 0.5336,
+      "Raw_Model_samples_per_second": 18.74,
+      "Raw_Model_steps_per_second": 18.74,
+      "epoch": 169.56521739130434,
+      "step": 3900
+    },
+    {
+      "SWA_loss": 0.8171514272689819,
+      "SWA_runtime": 0.5299,
+      "SWA_samples_per_second": 18.872,
+      "SWA_steps_per_second": 18.872,
+      "epoch": 169.56521739130434,
+      "step": 3900
+    },
+    {
+      "EMA_loss": 0.7304112315177917,
+      "EMA_runtime": 0.4785,
+      "EMA_samples_per_second": 20.898,
+      "EMA_steps_per_second": 20.898,
+      "epoch": 169.56521739130434,
+      "step": 3900
+    },
+    {
+      "epoch": 170.0,
+      "grad_norm": 3.224315881729126,
+      "learning_rate": 2.4668913947092922e-06,
+      "loss": 0.2318,
+      "step": 3910
+    },
+    {
+      "epoch": 170.43478260869566,
+      "grad_norm": 1.8782731294631958,
+      "learning_rate": 2.466873549193808e-06,
+      "loss": 0.2355,
+      "step": 3920
+    },
+    {
+      "epoch": 170.8695652173913,
+      "grad_norm": 2.6162474155426025,
+      "learning_rate": 2.4668552148497236e-06,
+      "loss": 0.2346,
+      "step": 3930
+    },
+    {
+      "epoch": 171.30434782608697,
+      "grad_norm": 2.095191478729248,
+      "learning_rate": 2.466836391684305e-06,
+      "loss": 0.2302,
+      "step": 3940
+    },
+    {
+      "epoch": 171.7391304347826,
+      "grad_norm": 1.8082070350646973,
+      "learning_rate": 2.4668170797050144e-06,
+      "loss": 0.2509,
+      "step": 3950
+    },
+    {
+      "epoch": 172.17391304347825,
+      "grad_norm": 2.0523226261138916,
+      "learning_rate": 2.466797278919505e-06,
+      "loss": 0.2415,
+      "step": 3960
+    },
+    {
+      "epoch": 172.6086956521739,
+      "grad_norm": 2.007352352142334,
+      "learning_rate": 2.466776989335626e-06,
+      "loss": 0.2341,
+      "step": 3970
+    },
+    {
+      "epoch": 173.04347826086956,
+      "grad_norm": 1.9718679189682007,
+      "learning_rate": 2.4667562109614197e-06,
+      "loss": 0.2143,
+      "step": 3980
+    },
+    {
+      "epoch": 173.47826086956522,
+      "grad_norm": 2.318025827407837,
+      "learning_rate": 2.466734943805121e-06,
+      "loss": 0.2391,
+      "step": 3990
+    },
+    {
+      "epoch": 173.91304347826087,
+      "grad_norm": 2.0616047382354736,
+      "learning_rate": 2.466713187875161e-06,
+      "loss": 0.2474,
+      "step": 4000
+    },
+    {
+      "epoch": 174.34782608695653,
+      "grad_norm": 2.416261672973633,
+      "learning_rate": 2.4666909431801617e-06,
+      "loss": 0.2285,
+      "step": 4010
+    },
+    {
+      "epoch": 174.7826086956522,
+      "grad_norm": 2.434659719467163,
+      "learning_rate": 2.466668209728941e-06,
+      "loss": 0.2296,
+      "step": 4020
+    },
+    {
+      "epoch": 175.2173913043478,
+      "grad_norm": 1.9978010654449463,
+      "learning_rate": 2.46664498753051e-06,
+      "loss": 0.2333,
+      "step": 4030
+    },
+    {
+      "epoch": 175.65217391304347,
+      "grad_norm": 2.245964765548706,
+      "learning_rate": 2.466621276594072e-06,
+      "loss": 0.2148,
+      "step": 4040
+    },
+    {
+      "epoch": 176.08695652173913,
+      "grad_norm": 1.842283010482788,
+      "learning_rate": 2.466597076929027e-06,
+      "loss": 0.2419,
+      "step": 4050
+    },
+    {
+      "epoch": 176.08695652173913,
+      "eval_loss": 0.97156822681427,
+      "eval_runtime": 0.4085,
+      "eval_samples_per_second": 24.483,
+      "eval_steps_per_second": 24.483,
+      "step": 4050
+    },
+    {
+      "Start_State_loss": 0.7309322357177734,
+      "Start_State_runtime": 0.397,
+      "Start_State_samples_per_second": 25.187,
+      "Start_State_steps_per_second": 25.187,
+      "epoch": 176.08695652173913,
+      "step": 4050
+    },
+    {
+      "Raw_Model_loss": 0.97156822681427,
+      "Raw_Model_runtime": 0.4199,
+      "Raw_Model_samples_per_second": 23.816,
+      "Raw_Model_steps_per_second": 23.816,
+      "epoch": 176.08695652173913,
+      "step": 4050
+    },
+    {
+      "SWA_loss": 0.8219975233078003,
+      "SWA_runtime": 0.4136,
+      "SWA_samples_per_second": 24.176,
+      "SWA_steps_per_second": 24.176,
+      "epoch": 176.08695652173913,
+      "step": 4050
+    },
+    {
+      "EMA_loss": 0.7310546040534973,
+      "EMA_runtime": 0.3998,
+      "EMA_samples_per_second": 25.013,
+      "EMA_steps_per_second": 25.013,
+      "epoch": 176.08695652173913,
+      "step": 4050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.0440404596622131e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null