Training in progress, step 1050, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/lora_top/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/lora_top/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccb49d5271c7b037d22265d5e378c053f9675b00afee51edf29fbed95fb5adc2
 size 6299784

 version https://git-lfs.github.com/spec/v1
+oid sha256:445dfc8c9a44767a9d29209856d539d1af1c5ffbfea88ff27342cc41a2123780
 size 6299784

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:44602cc112706b95fd2b9283dfbb0b273ed1485a42866dd738c66879694b2f35
 size 12623930

 version https://git-lfs.github.com/spec/v1
+oid sha256:015db8111d5fb0b2719936aa426d41571826aa24cdb6e8099ed8132fa831fed6
 size 12623930

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:252022ef9767c17747fa4dd69ffdfd1cd40ac5486666b3d512fd26da71aae964
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:494ad52bdfa5ee43ee076b397c9e670106a4c42645a5460ea78ea0cc6f64f64d
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb3c381fb6d3e2736d65db7e2c8174fa727eb1f4bfb816b1d696eaf8cf976d72
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:40989f422992086de56b7ab56f6bba81cac547e6785f52be59f14989b370dd0e
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 4.2297749519348145,
-  "best_model_checkpoint": "./output/checkpoint-900",
-  "epoch": 1.3888888888888888,
   "eval_steps": 150,
-  "global_step": 900,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -685,6 +685,119 @@
       "eval_samples_per_second": 40.027,
       "eval_steps_per_second": 40.027,
       "step": 900
     }
   ],
   "logging_steps": 10,
@@ -704,7 +817,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3448026176667648.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 4.179497241973877,
+  "best_model_checkpoint": "./output/checkpoint-1050",
+  "epoch": 1.6203703703703702,
   "eval_steps": 150,
+  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 40.027,
       "eval_steps_per_second": 40.027,
       "step": 900
+    },
+    {
+      "epoch": 1.404320987654321,
+      "grad_norm": 2.6041247844696045,
+      "learning_rate": 9.34077312126089e-05,
+      "loss": 3.9427,
+      "step": 910
+    },
+    {
+      "epoch": 1.4197530864197532,
+      "grad_norm": 2.9636037349700928,
+      "learning_rate": 9.324774289723465e-05,
+      "loss": 4.0945,
+      "step": 920
+    },
+    {
+      "epoch": 1.4351851851851851,
+      "grad_norm": 3.2570748329162598,
+      "learning_rate": 9.308597683653974e-05,
+      "loss": 4.0807,
+      "step": 930
+    },
+    {
+      "epoch": 1.4506172839506173,
+      "grad_norm": 3.080496072769165,
+      "learning_rate": 9.292243968009328e-05,
+      "loss": 4.0598,
+      "step": 940
+    },
+    {
+      "epoch": 1.4660493827160495,
+      "grad_norm": 2.9787585735321045,
+      "learning_rate": 9.27571381502673e-05,
+      "loss": 4.1266,
+      "step": 950
+    },
+    {
+      "epoch": 1.4814814814814814,
+      "grad_norm": 2.558279514312744,
+      "learning_rate": 9.25900790419602e-05,
+      "loss": 4.1626,
+      "step": 960
+    },
+    {
+      "epoch": 1.4969135802469136,
+      "grad_norm": 3.3579540252685547,
+      "learning_rate": 9.24212692223176e-05,
+      "loss": 4.0621,
+      "step": 970
+    },
+    {
+      "epoch": 1.5123456790123457,
+      "grad_norm": 2.9373960494995117,
+      "learning_rate": 9.225071563045005e-05,
+      "loss": 4.0351,
+      "step": 980
+    },
+    {
+      "epoch": 1.5277777777777777,
+      "grad_norm": 2.6689186096191406,
+      "learning_rate": 9.207842527714764e-05,
+      "loss": 4.076,
+      "step": 990
+    },
+    {
+      "epoch": 1.5432098765432098,
+      "grad_norm": 3.0218076705932617,
+      "learning_rate": 9.1904405244592e-05,
+      "loss": 3.9422,
+      "step": 1000
+    },
+    {
+      "epoch": 1.558641975308642,
+      "grad_norm": 3.2610349655151367,
+      "learning_rate": 9.172866268606511e-05,
+      "loss": 4.0026,
+      "step": 1010
+    },
+    {
+      "epoch": 1.574074074074074,
+      "grad_norm": 2.5781984329223633,
+      "learning_rate": 9.155120482565518e-05,
+      "loss": 4.0294,
+      "step": 1020
+    },
+    {
+      "epoch": 1.5895061728395061,
+      "grad_norm": 2.750657320022583,
+      "learning_rate": 9.13720389579598e-05,
+      "loss": 4.0155,
+      "step": 1030
+    },
+    {
+      "epoch": 1.6049382716049383,
+      "grad_norm": 2.2791829109191895,
+      "learning_rate": 9.119117244778605e-05,
+      "loss": 4.1632,
+      "step": 1040
+    },
+    {
+      "epoch": 1.6203703703703702,
+      "grad_norm": 3.793689012527466,
+      "learning_rate": 9.100861272984777e-05,
+      "loss": 4.1136,
+      "step": 1050
+    },
+    {
+      "epoch": 1.6203703703703702,
+      "eval_loss": 4.179497241973877,
+      "eval_runtime": 12.4924,
+      "eval_samples_per_second": 40.024,
+      "eval_steps_per_second": 40.024,
+      "step": 1050
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 4032037194940416.0,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null