Training in progress, step 1200, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:74db2edb2bb7d5966ecd238b31e38d161d7744310a78858e222ce71d8abbe6e7
 size 1915531480

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d9b30bda357abdba7c56881cb473af624f526c1fa92c929f215a5a1c3ec5bfe
 size 1915531480

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c22f510185b0831925cf2c4bf9605a61ab290fb97c9ac16e83e64c3ecf870cd
-size 3761523194

 version https://git-lfs.github.com/spec/v1
+oid sha256:0626b5e2d2857482f77fe19fa9ab9e0eb0d23c7780df49d50411dd6f20322277
+size 3761523130

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e14813183765fc0f4336c434df24ebab953e59767926fe3ae139a286b91e9fe8
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:44798913ce397550afc33e1198d628e5e41733da0f10c09d54f8ee2a125aafd1
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:727df53dab712245494b1b638425e795c38c402a21cd3cf2e025bb43ae55143e
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:a799972fe88eb05dc54d00b44d244a2e51dfd9acb5e73d838820e223c42bb941
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.5633396506309509,
   "best_model_checkpoint": "./output/checkpoint-300",
-  "epoch": 2.9577464788732395,
   "eval_steps": 150,
-  "global_step": 1050,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -798,6 +798,119 @@
       "eval_samples_per_second": 7.732,
       "eval_steps_per_second": 7.732,
       "step": 1050
     }
   ],
   "logging_steps": 10,
@@ -817,7 +930,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.50702459664171e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.5633396506309509,
   "best_model_checkpoint": "./output/checkpoint-300",
+  "epoch": 3.380281690140845,
   "eval_steps": 150,
+  "global_step": 1200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 7.732,
       "eval_steps_per_second": 7.732,
       "step": 1050
+    },
+    {
+      "epoch": 2.9859154929577465,
+      "grad_norm": 6.66109561920166,
+      "learning_rate": 1.505165945489438e-05,
+      "loss": 0.306,
+      "step": 1060
+    },
+    {
+      "epoch": 3.0140845070422535,
+      "grad_norm": 5.485683441162109,
+      "learning_rate": 1.5020847701829796e-05,
+      "loss": 0.2564,
+      "step": 1070
+    },
+    {
+      "epoch": 3.0422535211267605,
+      "grad_norm": 5.308038234710693,
+      "learning_rate": 1.4989759111105884e-05,
+      "loss": 0.1924,
+      "step": 1080
+    },
+    {
+      "epoch": 3.0704225352112675,
+      "grad_norm": 4.971621513366699,
+      "learning_rate": 1.4958394960652847e-05,
+      "loss": 0.2002,
+      "step": 1090
+    },
+    {
+      "epoch": 3.0985915492957745,
+      "grad_norm": 7.283688068389893,
+      "learning_rate": 1.4926756539728063e-05,
+      "loss": 0.1983,
+      "step": 1100
+    },
+    {
+      "epoch": 3.1267605633802815,
+      "grad_norm": 7.20900297164917,
+      "learning_rate": 1.4894845148863101e-05,
+      "loss": 0.2034,
+      "step": 1110
+    },
+    {
+      "epoch": 3.1549295774647885,
+      "grad_norm": 6.557058334350586,
+      "learning_rate": 1.4862662099810248e-05,
+      "loss": 0.2055,
+      "step": 1120
+    },
+    {
+      "epoch": 3.183098591549296,
+      "grad_norm": 7.073098182678223,
+      "learning_rate": 1.4830208715488596e-05,
+      "loss": 0.2159,
+      "step": 1130
+    },
+    {
+      "epoch": 3.211267605633803,
+      "grad_norm": 5.674464702606201,
+      "learning_rate": 1.4797486329929669e-05,
+      "loss": 0.2116,
+      "step": 1140
+    },
+    {
+      "epoch": 3.23943661971831,
+      "grad_norm": 5.907012939453125,
+      "learning_rate": 1.4764496288222567e-05,
+      "loss": 0.2048,
+      "step": 1150
+    },
+    {
+      "epoch": 3.267605633802817,
+      "grad_norm": 6.804496765136719,
+      "learning_rate": 1.4731239946458692e-05,
+      "loss": 0.2055,
+      "step": 1160
+    },
+    {
+      "epoch": 3.295774647887324,
+      "grad_norm": 6.147552013397217,
+      "learning_rate": 1.4697718671676005e-05,
+      "loss": 0.1937,
+      "step": 1170
+    },
+    {
+      "epoch": 3.323943661971831,
+      "grad_norm": 7.037655353546143,
+      "learning_rate": 1.4663933841802809e-05,
+      "loss": 0.2237,
+      "step": 1180
+    },
+    {
+      "epoch": 3.352112676056338,
+      "grad_norm": 6.545534133911133,
+      "learning_rate": 1.4629886845601138e-05,
+      "loss": 0.2172,
+      "step": 1190
+    },
+    {
+      "epoch": 3.380281690140845,
+      "grad_norm": 7.699334621429443,
+      "learning_rate": 1.4595579082609653e-05,
+      "loss": 0.2238,
+      "step": 1200
+    },
+    {
+      "epoch": 3.380281690140845,
+      "eval_loss": 0.6862347722053528,
+      "eval_runtime": 37.5485,
+      "eval_samples_per_second": 8.389,
+      "eval_steps_per_second": 8.389,
+      "step": 1200
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.7258996702482022e+17,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null