Training in progress, step 450, checkpoint

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:94d812befd8cbd0b1f981f04d8b2411bd46748c41bb793e6d1c612ce1ccdade4
 size 1912664024

 version https://git-lfs.github.com/spec/v1
+oid sha256:9fe3155abb44418ad3ec5aab27c9a471f9149f7e00d67b2bda22953d7553f200
 size 1912664024

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38b00b644b97eeaf0b015fab55c74c65a50fefb85d66e9404fce42857214d8aa
 size 958697812

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d7b8617fe9900b0db6ad49b6444c1394a7b5269449f30267908e3da6ced93a3
 size 958697812

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:72e45582261b53d7ecaa35c88e1eccb7713c6d0eb5a23b772caf206808bfa0b5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6844cd586de68a6e1a4752382bd60051acd338bfb31d133b33aba14fbb697dfc
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ba62e0fa7ba080474fb13c3d90e298617ab5527a5910d99933271a91cf05a7b9
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fb632d0e7d322b6e88da441db58b5c2d007cbabbb9a0c6e908d28d2b74fb4de2
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.024541382906926805,
   "eval_steps": 20,
-  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -307,6 +307,36 @@
       "eval_samples_per_second": 4.233,
       "eval_steps_per_second": 0.55,
       "step": 400
     }
   ],
   "logging_steps": 20,
@@ -314,7 +344,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,
-  "total_flos": 2.93118341999616e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.027609055770292656,
   "eval_steps": 20,
+  "global_step": 450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.233,
       "eval_steps_per_second": 0.55,
       "step": 400
+    },
+    {
+      "epoch": 0.025768452052273145,
+      "grad_norm": 0.15288175642490387,
+      "learning_rate": 0.00019490610040505708,
+      "loss": 1.5829,
+      "step": 420
+    },
+    {
+      "epoch": 0.025768452052273145,
+      "eval_loss": 1.4994325637817383,
+      "eval_runtime": 23.6368,
+      "eval_samples_per_second": 4.231,
+      "eval_steps_per_second": 0.55,
+      "step": 420
+    },
+    {
+      "epoch": 0.026995521197619485,
+      "grad_norm": 0.13319191336631775,
+      "learning_rate": 0.0001946606112679514,
+      "loss": 1.5523,
+      "step": 440
+    },
+    {
+      "epoch": 0.026995521197619485,
+      "eval_loss": 1.4956778287887573,
+      "eval_runtime": 23.6921,
+      "eval_samples_per_second": 4.221,
+      "eval_steps_per_second": 0.549,
+      "step": 440
     }
   ],
   "logging_steps": 20,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 50,
+  "total_flos": 3.28358598672384e+16,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null