Training in progress, step 600, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/lora_top/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/lora_top/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:81a3e1ce388fbb04bcc402f98b97bdba57b483a337fa2db42078ad43f1180290
 size 12591264

 version https://git-lfs.github.com/spec/v1
+oid sha256:74c935a4db11d9954248a9ac8c7f1ed129a2d53ead6a4137b79d300258c6b6fd
 size 12591264

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e52720f955729f297c3cd82dd0dc7537ca06ad2f31133e703e5376940771e590
 size 25206586

 version https://git-lfs.github.com/spec/v1
+oid sha256:c794acd8ed44a50952d429716499bc5f43af1db5a3592ccabf56d02c4146e251
 size 25206586

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:51cb429aa9ea83b39fbadd5af13147f084df52d8164a214fef2929a47c6ac353
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe75e0f6d5068d897d45b2b460d1ca19c86e7c11996a5acadcd9e0af782efe20
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce61aeb6f544a7922e9c19d6f330ea70f32eaee2533d00b2d71d15e1a48daef0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e6f142d93dbd6e62ebe01d74ed2ceb68210344a36e52cda5c9422f1f0eeb827
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 3.8206655979156494,
-  "best_model_checkpoint": "./output/checkpoint-450",
-  "epoch": 0.6944444444444444,
   "eval_steps": 150,
-  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -346,6 +346,119 @@
       "eval_samples_per_second": 38.779,
       "eval_steps_per_second": 38.779,
       "step": 450
     }
   ],
   "logging_steps": 10,
@@ -365,7 +478,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1716594654314496.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 3.631777286529541,
+  "best_model_checkpoint": "./output/checkpoint-600",
+  "epoch": 0.9259259259259259,
   "eval_steps": 150,
+  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 38.779,
       "eval_steps_per_second": 38.779,
       "step": 450
+    },
+    {
+      "epoch": 0.7098765432098766,
+      "grad_norm": 2.024686813354492,
+      "learning_rate": 0.0002960221815726757,
+      "loss": 3.69,
+      "step": 460
+    },
+    {
+      "epoch": 0.7253086419753086,
+      "grad_norm": 2.0512404441833496,
+      "learning_rate": 0.00029579917391812314,
+      "loss": 3.6132,
+      "step": 470
+    },
+    {
+      "epoch": 0.7407407407407407,
+      "grad_norm": 2.0870227813720703,
+      "learning_rate": 0.0002955701730305872,
+      "loss": 3.6681,
+      "step": 480
+    },
+    {
+      "epoch": 0.7561728395061729,
+      "grad_norm": 2.38336443901062,
+      "learning_rate": 0.00029533518832339727,
+      "loss": 3.5982,
+      "step": 490
+    },
+    {
+      "epoch": 0.7716049382716049,
+      "grad_norm": 3.0686960220336914,
+      "learning_rate": 0.0002950942294558544,
+      "loss": 3.7158,
+      "step": 500
+    },
+    {
+      "epoch": 0.7870370370370371,
+      "grad_norm": 1.8391352891921997,
+      "learning_rate": 0.0002948473063328338,
+      "loss": 3.4874,
+      "step": 510
+    },
+    {
+      "epoch": 0.8024691358024691,
+      "grad_norm": 3.0002377033233643,
+      "learning_rate": 0.00029459442910437797,
+      "loss": 3.5523,
+      "step": 520
+    },
+    {
+      "epoch": 0.8179012345679012,
+      "grad_norm": 2.9197888374328613,
+      "learning_rate": 0.0002943356081652793,
+      "loss": 3.5964,
+      "step": 530
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 2.4608469009399414,
+      "learning_rate": 0.0002940708541546529,
+      "loss": 3.6013,
+      "step": 540
+    },
+    {
+      "epoch": 0.8487654320987654,
+      "grad_norm": 2.6457505226135254,
+      "learning_rate": 0.00029380017795549906,
+      "loss": 3.5637,
+      "step": 550
+    },
+    {
+      "epoch": 0.8641975308641975,
+      "grad_norm": 2.789729356765747,
+      "learning_rate": 0.0002935235906942563,
+      "loss": 3.6736,
+      "step": 560
+    },
+    {
+      "epoch": 0.8796296296296297,
+      "grad_norm": 2.2199699878692627,
+      "learning_rate": 0.00029324110374034354,
+      "loss": 3.6183,
+      "step": 570
+    },
+    {
+      "epoch": 0.8950617283950617,
+      "grad_norm": 2.9708974361419678,
+      "learning_rate": 0.00029295272870569303,
+      "loss": 3.4817,
+      "step": 580
+    },
+    {
+      "epoch": 0.9104938271604939,
+      "grad_norm": 2.5598032474517822,
+      "learning_rate": 0.00029265847744427303,
+      "loss": 3.3191,
+      "step": 590
+    },
+    {
+      "epoch": 0.9259259259259259,
+      "grad_norm": 2.723311424255371,
+      "learning_rate": 0.0002923583620516003,
+      "loss": 3.6747,
+      "step": 600
+    },
+    {
+      "epoch": 0.9259259259259259,
+      "eval_loss": 3.631777286529541,
+      "eval_runtime": 14.5253,
+      "eval_samples_per_second": 34.423,
+      "eval_steps_per_second": 34.423,
+      "step": 600
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2268906529357824.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null