Training in progress, step 3450, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a32a7f2a18fd02b5a784b7de9c35953dc8eed4dec1cdb5ae4e32e720e9314ce3
 size 1439199808

 version https://git-lfs.github.com/spec/v1
+oid sha256:6f1bcd8236a991dd015bc000d8db154dfb1ab38aa55bbc13be7fc78bd1888b7d
 size 1439199808

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2541760ad8140d78334f44ffdbdde5fa426cfe8d489fee70ae2942932b1fbecf
 size 2746271162

 version https://git-lfs.github.com/spec/v1
+oid sha256:f5be81d5f3a8e665425eeafba440a547e141c9f7fd542ab92f841751e1f2a8d4
 size 2746271162

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:06eacf4beac2f87634932b7784d96f580eb7673fd7aa2ddeca9382968e9ad7a2
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:2b94f628e4c41aea4f7b0ab86aa7e78fa8398f6aeb08d3f097d04ff5471c1532
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:48383a39b3b26acc46de2d6a247f92cd1459e51652dd3ef90c9ec324e3a206b4
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:cbc64161a220321c09f919ba59daaf2e36f5d33bd28e64db671f20f3cea3cf35
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.059717416763305664,
   "best_model_checkpoint": "./output/checkpoint-2550",
-  "epoch": 6.088560885608856,
   "eval_steps": 150,
-  "global_step": 3300,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2493,6 +2493,119 @@
       "eval_samples_per_second": 10.6,
       "eval_steps_per_second": 10.6,
       "step": 3300
     }
   ],
   "logging_steps": 10,
@@ -2512,7 +2625,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6990246793751552e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.059717416763305664,
   "best_model_checkpoint": "./output/checkpoint-2550",
+  "epoch": 6.365313653136531,
   "eval_steps": 150,
+  "global_step": 3450,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 10.6,
       "eval_steps_per_second": 10.6,
       "step": 3300
+    },
+    {
+      "epoch": 6.107011070110701,
+      "grad_norm": 0.5109656453132629,
+      "learning_rate": 2.127147601759018e-05,
+      "loss": 0.011,
+      "step": 3310
+    },
+    {
+      "epoch": 6.125461254612546,
+      "grad_norm": 0.3670618236064911,
+      "learning_rate": 2.1045253501080058e-05,
+      "loss": 0.0115,
+      "step": 3320
+    },
+    {
+      "epoch": 6.143911439114391,
+      "grad_norm": 0.21240659058094025,
+      "learning_rate": 2.081981013995785e-05,
+      "loss": 0.0071,
+      "step": 3330
+    },
+    {
+      "epoch": 6.162361623616236,
+      "grad_norm": 0.25418519973754883,
+      "learning_rate": 2.0595155201317115e-05,
+      "loss": 0.0143,
+      "step": 3340
+    },
+    {
+      "epoch": 6.180811808118081,
+      "grad_norm": 0.8638357520103455,
+      "learning_rate": 2.03712979198425e-05,
+      "loss": 0.009,
+      "step": 3350
+    },
+    {
+      "epoch": 6.199261992619927,
+      "grad_norm": 0.047012124210596085,
+      "learning_rate": 2.0148247497430012e-05,
+      "loss": 0.0109,
+      "step": 3360
+    },
+    {
+      "epoch": 6.217712177121771,
+      "grad_norm": 0.6433148384094238,
+      "learning_rate": 1.992601310280891e-05,
+      "loss": 0.014,
+      "step": 3370
+    },
+    {
+      "epoch": 6.236162361623617,
+      "grad_norm": 0.10094081610441208,
+      "learning_rate": 1.970460387116472e-05,
+      "loss": 0.009,
+      "step": 3380
+    },
+    {
+      "epoch": 6.254612546125461,
+      "grad_norm": 0.28598272800445557,
+      "learning_rate": 1.948402890376376e-05,
+      "loss": 0.0089,
+      "step": 3390
+    },
+    {
+      "epoch": 6.273062730627307,
+      "grad_norm": 0.1534859538078308,
+      "learning_rate": 1.9264297267579e-05,
+      "loss": 0.0179,
+      "step": 3400
+    },
+    {
+      "epoch": 6.291512915129151,
+      "grad_norm": 0.00930574256926775,
+      "learning_rate": 1.904541799491738e-05,
+      "loss": 0.0067,
+      "step": 3410
+    },
+    {
+      "epoch": 6.3099630996309966,
+      "grad_norm": 0.23130927979946136,
+      "learning_rate": 1.8827400083048503e-05,
+      "loss": 0.0143,
+      "step": 3420
+    },
+    {
+      "epoch": 6.328413284132841,
+      "grad_norm": 0.19890816509723663,
+      "learning_rate": 1.8610252493834814e-05,
+      "loss": 0.0249,
+      "step": 3430
+    },
+    {
+      "epoch": 6.3468634686346865,
+      "grad_norm": 0.34883108735084534,
+      "learning_rate": 1.8393984153363203e-05,
+      "loss": 0.0127,
+      "step": 3440
+    },
+    {
+      "epoch": 6.365313653136531,
+      "grad_norm": 0.6582930088043213,
+      "learning_rate": 1.8178603951578057e-05,
+      "loss": 0.0132,
+      "step": 3450
+    },
+    {
+      "epoch": 6.365313653136531,
+      "eval_loss": 0.07403679937124252,
+      "eval_runtime": 44.152,
+      "eval_samples_per_second": 10.917,
+      "eval_steps_per_second": 10.917,
+      "step": 3450
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.7764962206435942e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null