Training in progress, step 1050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +231 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1f565cb9d9aa20d3fc0c4cf21dc1af5220363606104db9abb5d4f89f7001196b
 size 1047100024

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f30fd72029c85ef1034060b6a05f13a18f6f374cbcf84ea05e5ac07059de9bf
 size 1047100024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:52ac987815df5e61bc63573356f0459dfb09134d5989cd7a883ac3b44f899fa6
 size 2027092538

 version https://git-lfs.github.com/spec/v1
+oid sha256:edbbe1503e5f2d7f92e8091c19d5b8613b3fca14aaa57a6dfe7ff45fbf26731a
 size 2027092538

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5c834ec5bbb245414ce634f25cb531bf19a3d11dbafca153709906b07ea0138c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:c4a8c6500d1d10db1384ce2cca16f709390d5090ab3697e89287dc445b9fabd4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0967ac1f523632f67d95657fd1fbf687c0e98c17b5efba20ddfc48b60eebb9ed
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:1fed480f2c3a03c35e03e4ee1faa1f3587e2694d78b3b9e74d3abb3f0e0a5d9b
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.3061332702636719,
-  "best_model_checkpoint": "./output/checkpoint-750",
-  "epoch": 1.7162471395881007,
   "eval_steps": 150,
-  "global_step": 750,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -572,6 +572,232 @@
       "eval_samples_per_second": 12.975,
       "eval_steps_per_second": 12.975,
       "step": 750
     }
   ],
   "logging_steps": 10,
@@ -591,7 +817,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.88467426249769e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.3020451068878174,
+  "best_model_checkpoint": "./output/checkpoint-1050",
+  "epoch": 2.402745995423341,
   "eval_steps": 150,
+  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.975,
       "eval_steps_per_second": 12.975,
       "step": 750
+    },
+    {
+      "epoch": 1.7391304347826086,
+      "grad_norm": 3.9558420181274414,
+      "learning_rate": 7.647194453650227e-06,
+      "loss": 1.2581,
+      "step": 760
+    },
+    {
+      "epoch": 1.7620137299771166,
+      "grad_norm": 4.010689735412598,
+      "learning_rate": 7.636588493358299e-06,
+      "loss": 1.2551,
+      "step": 770
+    },
+    {
+      "epoch": 1.7848970251716247,
+      "grad_norm": 3.8898725509643555,
+      "learning_rate": 7.625833047156952e-06,
+      "loss": 1.2165,
+      "step": 780
+    },
+    {
+      "epoch": 1.8077803203661327,
+      "grad_norm": 2.9613306522369385,
+      "learning_rate": 7.614928557160453e-06,
+      "loss": 1.2551,
+      "step": 790
+    },
+    {
+      "epoch": 1.8306636155606406,
+      "grad_norm": 7.471399784088135,
+      "learning_rate": 7.6038754716096755e-06,
+      "loss": 1.2807,
+      "step": 800
+    },
+    {
+      "epoch": 1.8535469107551488,
+      "grad_norm": 2.4937212467193604,
+      "learning_rate": 7.592674244853676e-06,
+      "loss": 1.1959,
+      "step": 810
+    },
+    {
+      "epoch": 1.8764302059496567,
+      "grad_norm": 3.251375675201416,
+      "learning_rate": 7.5813253373310125e-06,
+      "loss": 1.1757,
+      "step": 820
+    },
+    {
+      "epoch": 1.8993135011441646,
+      "grad_norm": 4.890213489532471,
+      "learning_rate": 7.5698292155508235e-06,
+      "loss": 1.2003,
+      "step": 830
+    },
+    {
+      "epoch": 1.9221967963386728,
+      "grad_norm": 2.9511072635650635,
+      "learning_rate": 7.558186352073647e-06,
+      "loss": 1.2203,
+      "step": 840
+    },
+    {
+      "epoch": 1.9450800915331807,
+      "grad_norm": 3.5382401943206787,
+      "learning_rate": 7.546397225492001e-06,
+      "loss": 1.146,
+      "step": 850
+    },
+    {
+      "epoch": 1.9679633867276887,
+      "grad_norm": 3.678964138031006,
+      "learning_rate": 7.534462320410701e-06,
+      "loss": 1.1553,
+      "step": 860
+    },
+    {
+      "epoch": 1.9908466819221968,
+      "grad_norm": 3.4112305641174316,
+      "learning_rate": 7.5223821274269514e-06,
+      "loss": 1.3744,
+      "step": 870
+    },
+    {
+      "epoch": 2.013729977116705,
+      "grad_norm": 4.165940761566162,
+      "learning_rate": 7.510157143110172e-06,
+      "loss": 1.2193,
+      "step": 880
+    },
+    {
+      "epoch": 2.0366132723112127,
+      "grad_norm": 3.76263165473938,
+      "learning_rate": 7.497787869981582e-06,
+      "loss": 1.1421,
+      "step": 890
+    },
+    {
+      "epoch": 2.059496567505721,
+      "grad_norm": 4.58417272567749,
+      "learning_rate": 7.485274816493557e-06,
+      "loss": 1.3133,
+      "step": 900
+    },
+    {
+      "epoch": 2.059496567505721,
+      "eval_loss": 1.3053786754608154,
+      "eval_runtime": 15.8699,
+      "eval_samples_per_second": 12.224,
+      "eval_steps_per_second": 12.224,
+      "step": 900
+    },
+    {
+      "epoch": 2.082379862700229,
+      "grad_norm": 3.815793752670288,
+      "learning_rate": 7.472618497008713e-06,
+      "loss": 1.2318,
+      "step": 910
+    },
+    {
+      "epoch": 2.1052631578947367,
+      "grad_norm": 3.645143747329712,
+      "learning_rate": 7.459819431778774e-06,
+      "loss": 1.1741,
+      "step": 920
+    },
+    {
+      "epoch": 2.128146453089245,
+      "grad_norm": 5.823740005493164,
+      "learning_rate": 7.4468781469231794e-06,
+      "loss": 1.1319,
+      "step": 930
+    },
+    {
+      "epoch": 2.151029748283753,
+      "grad_norm": 4.464242458343506,
+      "learning_rate": 7.433795174407464e-06,
+      "loss": 1.2388,
+      "step": 940
+    },
+    {
+      "epoch": 2.1739130434782608,
+      "grad_norm": 3.9899096488952637,
+      "learning_rate": 7.420571052021385e-06,
+      "loss": 1.1491,
+      "step": 950
+    },
+    {
+      "epoch": 2.196796338672769,
+      "grad_norm": 3.726358652114868,
+      "learning_rate": 7.407206323356817e-06,
+      "loss": 1.2732,
+      "step": 960
+    },
+    {
+      "epoch": 2.219679633867277,
+      "grad_norm": 3.940854787826538,
+      "learning_rate": 7.39370153778541e-06,
+      "loss": 1.1286,
+      "step": 970
+    },
+    {
+      "epoch": 2.242562929061785,
+      "grad_norm": 4.5767107009887695,
+      "learning_rate": 7.380057250436005e-06,
+      "loss": 1.1473,
+      "step": 980
+    },
+    {
+      "epoch": 2.265446224256293,
+      "grad_norm": 3.9847497940063477,
+      "learning_rate": 7.366274022171812e-06,
+      "loss": 1.1198,
+      "step": 990
+    },
+    {
+      "epoch": 2.288329519450801,
+      "grad_norm": 4.3240838050842285,
+      "learning_rate": 7.352352419567362e-06,
+      "loss": 1.1236,
+      "step": 1000
+    },
+    {
+      "epoch": 2.311212814645309,
+      "grad_norm": 3.4978835582733154,
+      "learning_rate": 7.33829301488521e-06,
+      "loss": 1.0911,
+      "step": 1010
+    },
+    {
+      "epoch": 2.334096109839817,
+      "grad_norm": 3.878068447113037,
+      "learning_rate": 7.324096386052415e-06,
+      "loss": 1.1133,
+      "step": 1020
+    },
+    {
+      "epoch": 2.356979405034325,
+      "grad_norm": 5.018012523651123,
+      "learning_rate": 7.309763116636785e-06,
+      "loss": 1.1869,
+      "step": 1030
+    },
+    {
+      "epoch": 2.379862700228833,
+      "grad_norm": 3.2581946849823,
+      "learning_rate": 7.295293795822886e-06,
+      "loss": 1.076,
+      "step": 1040
+    },
+    {
+      "epoch": 2.402745995423341,
+      "grad_norm": 5.764566421508789,
+      "learning_rate": 7.280689018387823e-06,
+      "loss": 1.2117,
+      "step": 1050
+    },
+    {
+      "epoch": 2.402745995423341,
+      "eval_loss": 1.3020451068878174,
+      "eval_runtime": 15.0321,
+      "eval_samples_per_second": 12.906,
+      "eval_steps_per_second": 12.906,
+      "step": 1050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.438212807302758e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null