Training in progress, step 1500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/lora_top/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/lora_top/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc3a67f4de1685ce6a0fced5c481b644514ade913e29a302672e9588e575aaad
 size 6299784

 version https://git-lfs.github.com/spec/v1
+oid sha256:4836b545a1e7dda6e59a106bd77a5c159f54e80e28ff1bcbf794b726c912e64f
 size 6299784

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c3361d74875a43ac74d1859dc2aa87429b4f648ae5c9304cdab88e987b01c49
 size 12623930

 version https://git-lfs.github.com/spec/v1
+oid sha256:dae80422e7904b9ec35f17973a2f911c29752998c955d59a093db85783e326c5
 size 12623930

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d242322c5678470cae524c621709ef41118946651d32e327740afb650f163702
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:89d743de80481e3c9d0faa475c7d9b8f3460af5726c846f23b5880691f9ad6d5
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d682cfc5aa181fdf75f0f7c385234b0db148db5e71a3fbb7d749d518ba02734f
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:88686af0f5ff2cda3047db0918a626e92cc1249b4aba5b7793fa657eb12e8226
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 4.089999198913574,
-  "best_model_checkpoint": "./output/checkpoint-1350",
-  "epoch": 2.0833333333333335,
   "eval_steps": 150,
-  "global_step": 1350,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1024,6 +1024,119 @@
       "eval_samples_per_second": 37.248,
       "eval_steps_per_second": 37.248,
       "step": 1350
     }
   ],
   "logging_steps": 10,
@@ -1043,7 +1156,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5153548116885504.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 4.045746803283691,
+  "best_model_checkpoint": "./output/checkpoint-1500",
+  "epoch": 2.314814814814815,
   "eval_steps": 150,
+  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 37.248,
       "eval_steps_per_second": 37.248,
       "step": 1350
+    },
+    {
+      "epoch": 2.0987654320987654,
+      "grad_norm": 3.1429619789123535,
+      "learning_rate": 8.455313244934322e-05,
+      "loss": 4.0394,
+      "step": 1360
+    },
+    {
+      "epoch": 2.1141975308641974,
+      "grad_norm": 3.6172502040863037,
+      "learning_rate": 8.432071702457251e-05,
+      "loss": 3.8239,
+      "step": 1370
+    },
+    {
+      "epoch": 2.1296296296296298,
+      "grad_norm": 4.0605573654174805,
+      "learning_rate": 8.408689080954995e-05,
+      "loss": 3.9563,
+      "step": 1380
+    },
+    {
+      "epoch": 2.1450617283950617,
+      "grad_norm": 2.4950709342956543,
+      "learning_rate": 8.385166341595547e-05,
+      "loss": 3.8381,
+      "step": 1390
+    },
+    {
+      "epoch": 2.1604938271604937,
+      "grad_norm": 4.008175849914551,
+      "learning_rate": 8.361504451306582e-05,
+      "loss": 3.7534,
+      "step": 1400
+    },
+    {
+      "epoch": 2.175925925925926,
+      "grad_norm": 3.574023723602295,
+      "learning_rate": 8.337704382735738e-05,
+      "loss": 3.8082,
+      "step": 1410
+    },
+    {
+      "epoch": 2.191358024691358,
+      "grad_norm": 3.903048276901245,
+      "learning_rate": 8.313767114210614e-05,
+      "loss": 3.9183,
+      "step": 1420
+    },
+    {
+      "epoch": 2.20679012345679,
+      "grad_norm": 3.0344271659851074,
+      "learning_rate": 8.289693629698562e-05,
+      "loss": 3.9951,
+      "step": 1430
+    },
+    {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 4.642614364624023,
+      "learning_rate": 8.265484918766241e-05,
+      "loss": 3.8322,
+      "step": 1440
+    },
+    {
+      "epoch": 2.2376543209876543,
+      "grad_norm": 2.3817903995513916,
+      "learning_rate": 8.241141976538941e-05,
+      "loss": 3.7852,
+      "step": 1450
+    },
+    {
+      "epoch": 2.253086419753086,
+      "grad_norm": 3.2333765029907227,
+      "learning_rate": 8.216665803659669e-05,
+      "loss": 3.8552,
+      "step": 1460
+    },
+    {
+      "epoch": 2.2685185185185186,
+      "grad_norm": 3.2392756938934326,
+      "learning_rate": 8.192057406248027e-05,
+      "loss": 3.9154,
+      "step": 1470
+    },
+    {
+      "epoch": 2.2839506172839505,
+      "grad_norm": 3.9679174423217773,
+      "learning_rate": 8.167317795858849e-05,
+      "loss": 3.834,
+      "step": 1480
+    },
+    {
+      "epoch": 2.299382716049383,
+      "grad_norm": 4.692811489105225,
+      "learning_rate": 8.142447989440615e-05,
+      "loss": 3.7553,
+      "step": 1490
+    },
+    {
+      "epoch": 2.314814814814815,
+      "grad_norm": 3.6301052570343018,
+      "learning_rate": 8.117449009293666e-05,
+      "loss": 3.8343,
+      "step": 1500
+    },
+    {
+      "epoch": 2.314814814814815,
+      "eval_loss": 4.045746803283691,
+      "eval_runtime": 13.3599,
+      "eval_samples_per_second": 37.425,
+      "eval_steps_per_second": 37.425,
+      "step": 1500
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 5736850563072000.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null