Training in progress, step 2100, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b0c6ba386b6c9ac14076b04c23768d4a01b00f7ed5d433cf7482534886d5a076
 size 1130395064

 version https://git-lfs.github.com/spec/v1
+oid sha256:d6e8b8c1e9c0bce3f00131df71d272a082ce5dcf2d99759019d2b0659c78315e
 size 1130395064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:13c817bad7985c8c2675399e52d5193079cac5653e43895457ed1a8c377c6c4e
 size 2260919034

 version https://git-lfs.github.com/spec/v1
+oid sha256:6188e4d76c0b4e37ea00b0a3b23f5b7084262ecb5f16dd3e7bcbf521356872ef
 size 2260919034

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ecd50ddad6b79517b1a64ad33a7b62461119e1f341649c526af1be9253918f09
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:347168a1ca5a3d3959109211d8471dcf62bcaa6f64d8a927b670d1eeeb82ee9c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:289c7e0141bb9f3ce06cf36b41817dc5543309cbcea37abb63a612bfb66d7221
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb8d370aad2d5fbcf199f24dc52e08b4648a77d17fa77f60c7ea0dbb61e6a008
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.7938833236694336,
   "best_model_checkpoint": "./output/checkpoint-750",
-  "epoch": 2.4904214559386975,
   "eval_steps": 150,
-  "global_step": 1950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1476,6 +1476,119 @@
       "eval_samples_per_second": 10.82,
       "eval_steps_per_second": 10.82,
       "step": 1950
     }
   ],
   "logging_steps": 10,
@@ -1495,7 +1608,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.110663884391588e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.7938833236694336,
   "best_model_checkpoint": "./output/checkpoint-750",
+  "epoch": 2.681992337164751,
   "eval_steps": 150,
+  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.82,
       "eval_steps_per_second": 10.82,
       "step": 1950
+    },
+    {
+      "epoch": 2.503192848020434,
+      "grad_norm": 4.016136646270752,
+      "learning_rate": 7.553069430743865e-06,
+      "loss": 1.4328,
+      "step": 1960
+    },
+    {
+      "epoch": 2.5159642401021713,
+      "grad_norm": 3.8296611309051514,
+      "learning_rate": 7.552060297199744e-06,
+      "loss": 1.4755,
+      "step": 1970
+    },
+    {
+      "epoch": 2.528735632183908,
+      "grad_norm": 4.180707931518555,
+      "learning_rate": 7.5508960240322795e-06,
+      "loss": 1.448,
+      "step": 1980
+    },
+    {
+      "epoch": 2.541507024265645,
+      "grad_norm": 4.346092700958252,
+      "learning_rate": 7.549576659100182e-06,
+      "loss": 1.4674,
+      "step": 1990
+    },
+    {
+      "epoch": 2.554278416347382,
+      "grad_norm": 4.5013298988342285,
+      "learning_rate": 7.548102256637375e-06,
+      "loss": 1.4986,
+      "step": 2000
+    },
+    {
+      "epoch": 2.5670498084291187,
+      "grad_norm": 4.069826602935791,
+      "learning_rate": 7.546472877250771e-06,
+      "loss": 1.4708,
+      "step": 2010
+    },
+    {
+      "epoch": 2.579821200510856,
+      "grad_norm": 4.403062343597412,
+      "learning_rate": 7.544688587917772e-06,
+      "loss": 1.4648,
+      "step": 2020
+    },
+    {
+      "epoch": 2.5925925925925926,
+      "grad_norm": 4.398291110992432,
+      "learning_rate": 7.542749461983527e-06,
+      "loss": 1.4526,
+      "step": 2030
+    },
+    {
+      "epoch": 2.6053639846743293,
+      "grad_norm": 4.199296951293945,
+      "learning_rate": 7.540655579157906e-06,
+      "loss": 1.5017,
+      "step": 2040
+    },
+    {
+      "epoch": 2.6181353767560664,
+      "grad_norm": 4.818760871887207,
+      "learning_rate": 7.53840702551223e-06,
+      "loss": 1.4936,
+      "step": 2050
+    },
+    {
+      "epoch": 2.630906768837803,
+      "grad_norm": 4.557876110076904,
+      "learning_rate": 7.536003893475734e-06,
+      "loss": 1.4164,
+      "step": 2060
+    },
+    {
+      "epoch": 2.6436781609195403,
+      "grad_norm": 3.823756456375122,
+      "learning_rate": 7.533446281831764e-06,
+      "loss": 1.3971,
+      "step": 2070
+    },
+    {
+      "epoch": 2.656449553001277,
+      "grad_norm": 4.311744213104248,
+      "learning_rate": 7.530734295713717e-06,
+      "loss": 1.4762,
+      "step": 2080
+    },
+    {
+      "epoch": 2.6692209450830138,
+      "grad_norm": 4.65121603012085,
+      "learning_rate": 7.527868046600719e-06,
+      "loss": 1.5513,
+      "step": 2090
+    },
+    {
+      "epoch": 2.681992337164751,
+      "grad_norm": 4.508437156677246,
+      "learning_rate": 7.524847652313045e-06,
+      "loss": 1.41,
+      "step": 2100
+    },
+    {
+      "epoch": 2.681992337164751,
+      "eval_loss": 1.8178269863128662,
+      "eval_runtime": 45.2353,
+      "eval_samples_per_second": 11.053,
+      "eval_steps_per_second": 11.053,
+      "step": 2100
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.2711771292829696e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null