Training in progress, step 1200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/lora_top/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/lora_top/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:445dfc8c9a44767a9d29209856d539d1af1c5ffbfea88ff27342cc41a2123780
 size 6299784

 version https://git-lfs.github.com/spec/v1
+oid sha256:544243a4ad2d25dac28345763c4b1a3a8c1739a2bc60868444f3034f5c58a1e6
 size 6299784

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:015db8111d5fb0b2719936aa426d41571826aa24cdb6e8099ed8132fa831fed6
 size 12623930

 version https://git-lfs.github.com/spec/v1
+oid sha256:d0e5b197894eaf041b41b2f6fb6f957116cc9a9b767ef8d77107f2a93d846965
 size 12623930

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:494ad52bdfa5ee43ee076b397c9e670106a4c42645a5460ea78ea0cc6f64f64d
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:5dc19b6e4aa6d96d209bc3cde10ac40343788cc8e21e98e8b0ad66316abe87b9
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40989f422992086de56b7ab56f6bba81cac547e6785f52be59f14989b370dd0e
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:80737f34367bed0f31ec1eeecad8be2c3717a20421ad2a8f693a5747cb780b5c
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 4.179497241973877,
-  "best_model_checkpoint": "./output/checkpoint-1050",
-  "epoch": 1.6203703703703702,
   "eval_steps": 150,
-  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -798,6 +798,119 @@
       "eval_samples_per_second": 40.024,
       "eval_steps_per_second": 40.024,
       "step": 1050
     }
   ],
   "logging_steps": 10,
@@ -817,7 +930,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4032037194940416.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 4.128114223480225,
+  "best_model_checkpoint": "./output/checkpoint-1200",
+  "epoch": 1.8518518518518519,
   "eval_steps": 150,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 40.024,
       "eval_steps_per_second": 40.024,
       "step": 1050
+    },
+    {
+      "epoch": 1.6358024691358026,
+      "grad_norm": 2.5124268531799316,
+      "learning_rate": 9.082436730845992e-05,
+      "loss": 4.0174,
+      "step": 1060
+    },
+    {
+      "epoch": 1.6512345679012346,
+      "grad_norm": 2.7575981616973877,
+      "learning_rate": 9.063844375723012e-05,
+      "loss": 4.0652,
+      "step": 1070
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 2.8286046981811523,
+      "learning_rate": 9.045084971874735e-05,
+      "loss": 3.9928,
+      "step": 1080
+    },
+    {
+      "epoch": 1.682098765432099,
+      "grad_norm": 3.8293561935424805,
+      "learning_rate": 9.026159290426779e-05,
+      "loss": 4.1342,
+      "step": 1090
+    },
+    {
+      "epoch": 1.6975308641975309,
+      "grad_norm": 3.0728299617767334,
+      "learning_rate": 9.007068109339781e-05,
+      "loss": 4.0104,
+      "step": 1100
+    },
+    {
+      "epoch": 1.7129629629629628,
+      "grad_norm": 3.8225083351135254,
+      "learning_rate": 8.987812213377421e-05,
+      "loss": 4.0686,
+      "step": 1110
+    },
+    {
+      "epoch": 1.7283950617283952,
+      "grad_norm": 3.5748400688171387,
+      "learning_rate": 8.968392394074161e-05,
+      "loss": 4.0517,
+      "step": 1120
+    },
+    {
+      "epoch": 1.7438271604938271,
+      "grad_norm": 3.027132272720337,
+      "learning_rate": 8.94880944970271e-05,
+      "loss": 4.0448,
+      "step": 1130
+    },
+    {
+      "epoch": 1.7592592592592593,
+      "grad_norm": 3.1220285892486572,
+      "learning_rate": 8.92906418524121e-05,
+      "loss": 3.9604,
+      "step": 1140
+    },
+    {
+      "epoch": 1.7746913580246915,
+      "grad_norm": 2.573742151260376,
+      "learning_rate": 8.909157412340148e-05,
+      "loss": 4.0411,
+      "step": 1150
+    },
+    {
+      "epoch": 1.7901234567901234,
+      "grad_norm": 2.7320876121520996,
+      "learning_rate": 8.889089949288984e-05,
+      "loss": 4.0438,
+      "step": 1160
+    },
+    {
+      "epoch": 1.8055555555555556,
+      "grad_norm": 3.434393882751465,
+      "learning_rate": 8.868862620982532e-05,
+      "loss": 4.0672,
+      "step": 1170
+    },
+    {
+      "epoch": 1.8209876543209877,
+      "grad_norm": 2.5772244930267334,
+      "learning_rate": 8.848476258887028e-05,
+      "loss": 3.9226,
+      "step": 1180
+    },
+    {
+      "epoch": 1.8364197530864197,
+      "grad_norm": 4.394677639007568,
+      "learning_rate": 8.827931701005971e-05,
+      "loss": 3.9469,
+      "step": 1190
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "grad_norm": 3.7775449752807617,
+      "learning_rate": 8.80722979184567e-05,
+      "loss": 4.0099,
+      "step": 1200
+    },
+    {
+      "epoch": 1.8518518518518519,
+      "eval_loss": 4.128114223480225,
+      "eval_runtime": 12.8017,
+      "eval_samples_per_second": 39.057,
+      "eval_steps_per_second": 39.057,
+      "step": 1200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4599042483142656.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null