Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:991f10c981f9592387dd7753b36c43b21c6c2af47814597501b8296c5914daa7
 size 669617872

 version https://git-lfs.github.com/spec/v1
+oid sha256:bc300f720c52ce6f3cd18b320232dea68406fcf133e08011500c5f512f789da1
 size 669617872

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9bb66faa951bc7aca6dba91f0673552ec3ccf8f61efc7d57cc9c47eb06178a7e
 size 1320908538

 version https://git-lfs.github.com/spec/v1
+oid sha256:a04644459eff389650195ca99eb4a8bb847ef98b8429328f8e274f35cb977ec7
 size 1320908538

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f7e925c713f0d6846b5c9763a1639e269b3beca389e894b85a658f539d66716
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:a3c92af5e941d9081ad40d95b82eb20070bde831678358994cc336d0b329ec34
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94a369128c5b93a4b43c8e66197ae4ca667e5997fbbafe1d1355adecc3c6ef0f
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:f242c3383ac7154df1ed246b8a5975289a3670034ee2643ea1b5bdc78340f806
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.6936928629875183,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 0.11656143759106362,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 9.972,
       "eval_steps_per_second": 9.972,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5.530457526439772e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.6936842203140259,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 0.12020398251578436,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.972,
       "eval_steps_per_second": 9.972,
       "step": 4800
+    },
+    {
+      "epoch": 0.11680427391937834,
+      "grad_norm": 14.187041282653809,
+      "learning_rate": 5.028799785689844e-08,
+      "loss": 0.6897,
+      "step": 4810
+    },
+    {
+      "epoch": 0.11704711024769306,
+      "grad_norm": 14.955177307128906,
+      "learning_rate": 4.513954848714541e-08,
+      "loss": 0.7353,
+      "step": 4820
+    },
+    {
+      "epoch": 0.11728994657600778,
+      "grad_norm": 13.828136444091797,
+      "learning_rate": 4.026819129878247e-08,
+      "loss": 0.7186,
+      "step": 4830
+    },
+    {
+      "epoch": 0.11753278290432248,
+      "grad_norm": 14.279440879821777,
+      "learning_rate": 3.5674126534224215e-08,
+      "loss": 0.7437,
+      "step": 4840
+    },
+    {
+      "epoch": 0.1177756192326372,
+      "grad_norm": 14.531624794006348,
+      "learning_rate": 3.135754303747901e-08,
+      "loss": 0.7275,
+      "step": 4850
+    },
+    {
+      "epoch": 0.11801845556095192,
+      "grad_norm": 15.192167282104492,
+      "learning_rate": 2.7318618246387424e-08,
+      "loss": 0.7829,
+      "step": 4860
+    },
+    {
+      "epoch": 0.11826129188926664,
+      "grad_norm": 14.022039413452148,
+      "learning_rate": 2.3557518185328572e-08,
+      "loss": 0.7444,
+      "step": 4870
+    },
+    {
+      "epoch": 0.11850412821758136,
+      "grad_norm": 15.658608436584473,
+      "learning_rate": 2.007439745839503e-08,
+      "loss": 0.7373,
+      "step": 4880
+    },
+    {
+      "epoch": 0.11874696454589606,
+      "grad_norm": 14.228999137878418,
+      "learning_rate": 1.686939924303638e-08,
+      "loss": 0.707,
+      "step": 4890
+    },
+    {
+      "epoch": 0.11898980087421078,
+      "grad_norm": 14.242233276367188,
+      "learning_rate": 1.3942655284176649e-08,
+      "loss": 0.7373,
+      "step": 4900
+    },
+    {
+      "epoch": 0.1192326372025255,
+      "grad_norm": 13.022191047668457,
+      "learning_rate": 1.1294285888797343e-08,
+      "loss": 0.6695,
+      "step": 4910
+    },
+    {
+      "epoch": 0.11947547353084022,
+      "grad_norm": 15.798416137695312,
+      "learning_rate": 8.924399920989856e-09,
+      "loss": 0.7065,
+      "step": 4920
+    },
+    {
+      "epoch": 0.11971830985915492,
+      "grad_norm": 15.76127815246582,
+      "learning_rate": 6.8330947974862936e-09,
+      "loss": 0.7246,
+      "step": 4930
+    },
+    {
+      "epoch": 0.11996114618746964,
+      "grad_norm": 13.73786735534668,
+      "learning_rate": 5.020456483646842e-09,
+      "loss": 0.7168,
+      "step": 4940
+    },
+    {
+      "epoch": 0.12020398251578436,
+      "grad_norm": 15.974238395690918,
+      "learning_rate": 3.486559489934608e-09,
+      "loss": 0.7356,
+      "step": 4950
+    },
+    {
+      "epoch": 0.12020398251578436,
+      "eval_loss": 0.6936842203140259,
+      "eval_runtime": 49.6215,
+      "eval_samples_per_second": 10.076,
+      "eval_steps_per_second": 10.076,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5.70332684353536e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null