Training in progress, epoch 13, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +108 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9273b0b5b72839b135e5ba3d001ba6d7289e641b1303d533d3f16dcafb32b4ac
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:3e47f1cdc6bb30de3a42755c5e856705a84b91db75b58534b95cf4e4f4bf5059
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f523e103b2aa541067a3a863044f1b45be43e5156c2986397eee07006ae38a5
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:12fb571ddaddabec29d8df0695efe3813dca0abe64dc223bcca27d75770eef43
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2f1e7cc261bf54ef1e547376788ce8abb284b4d32ff4f5a42cd1d1aecd5e3670
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:613d74de19e0fb35eeea5689475f5e1332f3b307a0a9c8eeaa1e3e8d8c5fe1aa
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ac558eb50fb0d07f8ffcf509322d18bbb69a3f968f832820a9d4adbe07047818
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:962ad854d2adfe879aa22d99e411b4b35f04f8c2df9821494bc2d1fe0b1197ed
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 12.997999636297509,
   "eval_steps": 50,
-  "global_step": 4459,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1342,6 +1342,111 @@
       "eval_samples_per_second": 41.463,
       "eval_steps_per_second": 20.731,
       "step": 4450
     }
   ],
   "logging_steps": 50,
@@ -1361,7 +1466,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1614435613679288e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 13.997999636297509,
   "eval_steps": 50,
+  "global_step": 4802,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.463,
       "eval_steps_per_second": 20.731,
       "step": 4450
+    },
+    {
+      "epoch": 13.119294417166758,
+      "grad_norm": 64.73822021484375,
+      "learning_rate": 3.4402332361516035e-05,
+      "loss": 0.7291,
+      "step": 4500
+    },
+    {
+      "epoch": 13.119294417166758,
+      "eval_loss": 0.705399751663208,
+      "eval_runtime": 116.3819,
+      "eval_samples_per_second": 41.467,
+      "eval_steps_per_second": 20.733,
+      "step": 4500
+    },
+    {
+      "epoch": 13.264775413711584,
+      "grad_norm": 48.628440856933594,
+      "learning_rate": 3.36734693877551e-05,
+      "loss": 0.726,
+      "step": 4550
+    },
+    {
+      "epoch": 13.264775413711584,
+      "eval_loss": 0.6991727352142334,
+      "eval_runtime": 116.4083,
+      "eval_samples_per_second": 41.458,
+      "eval_steps_per_second": 20.729,
+      "step": 4550
+    },
+    {
+      "epoch": 13.41025641025641,
+      "grad_norm": 42.37076187133789,
+      "learning_rate": 3.294460641399417e-05,
+      "loss": 0.7257,
+      "step": 4600
+    },
+    {
+      "epoch": 13.41025641025641,
+      "eval_loss": 0.6997016668319702,
+      "eval_runtime": 116.654,
+      "eval_samples_per_second": 41.37,
+      "eval_steps_per_second": 20.685,
+      "step": 4600
+    },
+    {
+      "epoch": 13.555737406801237,
+      "grad_norm": 54.22138977050781,
+      "learning_rate": 3.221574344023324e-05,
+      "loss": 0.721,
+      "step": 4650
+    },
+    {
+      "epoch": 13.555737406801237,
+      "eval_loss": 0.6972126960754395,
+      "eval_runtime": 116.6938,
+      "eval_samples_per_second": 41.356,
+      "eval_steps_per_second": 20.678,
+      "step": 4650
+    },
+    {
+      "epoch": 13.701218403346063,
+      "grad_norm": 70.08407592773438,
+      "learning_rate": 3.148688046647231e-05,
+      "loss": 0.7219,
+      "step": 4700
+    },
+    {
+      "epoch": 13.701218403346063,
+      "eval_loss": 0.697705864906311,
+      "eval_runtime": 116.8913,
+      "eval_samples_per_second": 41.286,
+      "eval_steps_per_second": 20.643,
+      "step": 4700
+    },
+    {
+      "epoch": 13.84669939989089,
+      "grad_norm": 59.16844177246094,
+      "learning_rate": 3.0758017492711373e-05,
+      "loss": 0.7206,
+      "step": 4750
+    },
+    {
+      "epoch": 13.84669939989089,
+      "eval_loss": 0.6945058107376099,
+      "eval_runtime": 117.2096,
+      "eval_samples_per_second": 41.174,
+      "eval_steps_per_second": 20.587,
+      "step": 4750
+    },
+    {
+      "epoch": 13.992180396435716,
+      "grad_norm": 70.3475112915039,
+      "learning_rate": 3.0029154518950437e-05,
+      "loss": 0.7173,
+      "step": 4800
+    },
+    {
+      "epoch": 13.992180396435716,
+      "eval_loss": 0.692059338092804,
+      "eval_runtime": 116.7938,
+      "eval_samples_per_second": 41.321,
+      "eval_steps_per_second": 20.66,
+      "step": 4800
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.250799370400432e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null