Training in progress, step 3300, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7054dae448868986c0f118e3e47c0a5ab15cfa132036ca06a5b797e381a4661
 size 943004768

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c5e3e5b6e9a9841f3c38ec65ab929aac3efcce069fdaeb1d1a933cedef6d197
 size 943004768

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:401fde0568e720f388a485ec947c21ccef64d7cb1f6e9cc78bd08148b8a5bc9c
 size 1807338490

 version https://git-lfs.github.com/spec/v1
+oid sha256:811ca9cb0c040c15f78f49bc0f526fee796e613b88cc6427995ea0b72bc02162
 size 1807338490

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ed81e810753563a6fbc9f1f0a3b4142ae00b55e848ba086a0cc852ae4d403b3d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b67164c1bb8be00156b461f1da94ff5ae272c2934b635de5082bdb2afa9539b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0b6ed03755f1f007ee85b64b904d40a40500f6db0bf4f4736b8d1fae0d51f7d3
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa72ca4314eb7860ade352ab52d28713bfc1b286396d413d45893a04bd168889
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.006907718721777201,
   "best_model_checkpoint": "./output/checkpoint-2400",
-  "epoch": 0.5268439538384345,
   "eval_steps": 150,
-  "global_step": 3150,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2380,6 +2380,119 @@
       "eval_samples_per_second": 9.753,
       "eval_steps_per_second": 9.753,
       "step": 3150
     }
   ],
   "logging_steps": 10,
@@ -2399,7 +2512,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.0397278605688832e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.006907718721777201,
   "best_model_checkpoint": "./output/checkpoint-2400",
+  "epoch": 0.5519317611640743,
   "eval_steps": 150,
+  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 9.753,
       "eval_steps_per_second": 9.753,
       "step": 3150
+    },
+    {
+      "epoch": 0.5285164743268105,
+      "grad_norm": 0.00785563699901104,
+      "learning_rate": 1.3613553844641483e-05,
+      "loss": 0.0004,
+      "step": 3160
+    },
+    {
+      "epoch": 0.5301889948151864,
+      "grad_norm": 0.0006820244598202407,
+      "learning_rate": 1.3483326530583184e-05,
+      "loss": 0.0005,
+      "step": 3170
+    },
+    {
+      "epoch": 0.5318615153035625,
+      "grad_norm": 0.006723721977323294,
+      "learning_rate": 1.3353449303613682e-05,
+      "loss": 0.0003,
+      "step": 3180
+    },
+    {
+      "epoch": 0.5335340357919385,
+      "grad_norm": 0.00332651031203568,
+      "learning_rate": 1.3223927502477084e-05,
+      "loss": 0.0001,
+      "step": 3190
+    },
+    {
+      "epoch": 0.5352065562803144,
+      "grad_norm": 0.002680362667888403,
+      "learning_rate": 1.3094766451307336e-05,
+      "loss": 0.0003,
+      "step": 3200
+    },
+    {
+      "epoch": 0.5368790767686904,
+      "grad_norm": 0.0007611092296428978,
+      "learning_rate": 1.2965971459409366e-05,
+      "loss": 0.0007,
+      "step": 3210
+    },
+    {
+      "epoch": 0.5385515972570664,
+      "grad_norm": 0.03528850898146629,
+      "learning_rate": 1.2837547821040825e-05,
+      "loss": 0.0034,
+      "step": 3220
+    },
+    {
+      "epoch": 0.5402241177454424,
+      "grad_norm": 0.02707619220018387,
+      "learning_rate": 1.2709500815194487e-05,
+      "loss": 0.0129,
+      "step": 3230
+    },
+    {
+      "epoch": 0.5418966382338184,
+      "grad_norm": 0.4840797185897827,
+      "learning_rate": 1.2581835705381243e-05,
+      "loss": 0.0046,
+      "step": 3240
+    },
+    {
+      "epoch": 0.5435691587221944,
+      "grad_norm": 0.027722898870706558,
+      "learning_rate": 1.2454557739413722e-05,
+      "loss": 0.0003,
+      "step": 3250
+    },
+    {
+      "epoch": 0.5452416792105703,
+      "grad_norm": 0.0002542615111451596,
+      "learning_rate": 1.2327672149190595e-05,
+      "loss": 0.0002,
+      "step": 3260
+    },
+    {
+      "epoch": 0.5469141996989463,
+      "grad_norm": 0.29150494933128357,
+      "learning_rate": 1.2201184150481497e-05,
+      "loss": 0.006,
+      "step": 3270
+    },
+    {
+      "epoch": 0.5485867201873222,
+      "grad_norm": 0.01146694552153349,
+      "learning_rate": 1.2075098942712635e-05,
+      "loss": 0.001,
+      "step": 3280
+    },
+    {
+      "epoch": 0.5502592406756983,
+      "grad_norm": 0.15940113365650177,
+      "learning_rate": 1.1949421708753062e-05,
+      "loss": 0.016,
+      "step": 3290
+    },
+    {
+      "epoch": 0.5519317611640743,
+      "grad_norm": 0.000170723840710707,
+      "learning_rate": 1.1824157614701629e-05,
+      "loss": 0.0007,
+      "step": 3300
+    },
+    {
+      "epoch": 0.5519317611640743,
+      "eval_loss": 0.00781547836959362,
+      "eval_runtime": 57.4069,
+      "eval_samples_per_second": 8.727,
+      "eval_steps_per_second": 8.727,
+      "step": 3300
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.1405275369668608e+17,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null