Track the final version of the model

Files changed (6) hide show

optimizer.pt +1 -1
pytorch_model.bin +1 -1
rng_state.pth +2 -2
scheduler.pt +1 -1
trainer_state.json +262 -40
training_args.bin +1 -1

optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2059e171b8ca906f726d479158ee4f07b65da57fdc9c29aaf26100d1d2ae122
 size 1298159621

 version https://git-lfs.github.com/spec/v1
+oid sha256:dc0454bac094eb9bcfc5225a1906cb99c102336172ef9e7bafc8054a4c830871
 size 1298159621

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91bf355a8399a307cd076db691b31d1a372fc086273e419228901f1c397f683a
 size 649093613

 version https://git-lfs.github.com/spec/v1
+oid sha256:7ff85dba579bca3aa2ae6faff5086f9422af9dfca51f08c249c6ddf177bc7771
 size 649093613

rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f113467ba153437377d3cca21247a1bf13d5ec4199ee15a4ce0dbae7ce2c1608
-size 17641

 version https://git-lfs.github.com/spec/v1
+oid sha256:4e69904db53ae4ac2e537fe1ecca98d908ffe407b7bf84009f7869243dbb2d8b
+size 14575

scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:37a0fbb9478949421cddae7297acf773062e367b83de55aa1d3cf8ac35dd5ed9
 size 627

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f7f223e541d8ca8282c09e6f4666d154f61e406961790c043b389c95e9eedcc
 size 627

trainer_state.json CHANGED Viewed

@@ -2,75 +2,297 @@
   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
-  "global_step": 795,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.38,
-      "eval_loss": 0.2512435019016266,
-      "eval_runtime": 8.34,
-      "eval_samples_per_second": 133.813,
-      "eval_steps_per_second": 4.197,
       "step": 100
     },
     {
-      "epoch": 0.75,
-      "eval_loss": 0.2268657237291336,
-      "eval_runtime": 8.3466,
-      "eval_samples_per_second": 133.707,
-      "eval_steps_per_second": 4.193,
       "step": 200
     },
     {
-      "epoch": 1.13,
-      "eval_loss": 0.23051245510578156,
-      "eval_runtime": 8.3417,
-      "eval_samples_per_second": 133.786,
-      "eval_steps_per_second": 4.196,
       "step": 300
     },
     {
-      "epoch": 1.51,
-      "eval_loss": 0.2245202660560608,
-      "eval_runtime": 8.337,
-      "eval_samples_per_second": 133.862,
-      "eval_steps_per_second": 4.198,
       "step": 400
     },
     {
-      "epoch": 1.89,
-      "learning_rate": 1.8553459119496856e-05,
-      "loss": 0.2119,
       "step": 500
     },
     {
-      "epoch": 1.89,
-      "eval_loss": 0.22478941082954407,
-      "eval_runtime": 8.3391,
-      "eval_samples_per_second": 133.828,
-      "eval_steps_per_second": 4.197,
       "step": 500
     },
     {
-      "epoch": 2.26,
-      "eval_loss": 0.2384825348854065,
-      "eval_runtime": 8.3396,
-      "eval_samples_per_second": 133.819,
-      "eval_steps_per_second": 4.197,
       "step": 600
     },
     {
-      "epoch": 2.64,
-      "eval_loss": 0.23830106854438782,
-      "eval_runtime": 8.3367,
-      "eval_samples_per_second": 133.866,
-      "eval_steps_per_second": 4.198,
       "step": 700
     }
   ],
-  "max_steps": 795,
   "num_train_epochs": 3,
   "total_flos": 6635087188033536.0,
   "trial_name": null,

   "best_metric": null,
   "best_model_checkpoint": null,
   "epoch": 3.0,
+  "global_step": 3174,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.09,
+      "eval_loss": 0.291690856218338,
+      "eval_runtime": 11.8699,
+      "eval_samples_per_second": 94.019,
+      "eval_steps_per_second": 11.795,
       "step": 100
     },
     {
+      "epoch": 0.19,
+      "eval_loss": 0.2913290560245514,
+      "eval_runtime": 11.9204,
+      "eval_samples_per_second": 93.621,
+      "eval_steps_per_second": 11.745,
       "step": 200
     },
     {
+      "epoch": 0.28,
+      "eval_loss": 0.27973252534866333,
+      "eval_runtime": 11.9409,
+      "eval_samples_per_second": 93.46,
+      "eval_steps_per_second": 11.724,
       "step": 300
     },
     {
+      "epoch": 0.38,
+      "eval_loss": 0.25020790100097656,
+      "eval_runtime": 11.9448,
+      "eval_samples_per_second": 93.43,
+      "eval_steps_per_second": 11.721,
       "step": 400
     },
     {
+      "epoch": 0.47,
+      "learning_rate": 4.2123503465658476e-05,
+      "loss": 0.3052,
       "step": 500
     },
     {
+      "epoch": 0.47,
+      "eval_loss": 0.2535267770290375,
+      "eval_runtime": 11.9395,
+      "eval_samples_per_second": 93.471,
+      "eval_steps_per_second": 11.726,
       "step": 500
     },
     {
+      "epoch": 0.57,
+      "eval_loss": 0.29139193892478943,
+      "eval_runtime": 11.942,
+      "eval_samples_per_second": 93.452,
+      "eval_steps_per_second": 11.723,
       "step": 600
     },
     {
+      "epoch": 0.66,
+      "eval_loss": 0.2721957862377167,
+      "eval_runtime": 11.936,
+      "eval_samples_per_second": 93.498,
+      "eval_steps_per_second": 11.729,
       "step": 700
+    },
+    {
+      "epoch": 0.76,
+      "eval_loss": 0.24325571954250336,
+      "eval_runtime": 11.9084,
+      "eval_samples_per_second": 93.716,
+      "eval_steps_per_second": 11.756,
+      "step": 800
+    },
+    {
+      "epoch": 0.85,
+      "eval_loss": 0.2575836777687073,
+      "eval_runtime": 11.9447,
+      "eval_samples_per_second": 93.43,
+      "eval_steps_per_second": 11.721,
+      "step": 900
+    },
+    {
+      "epoch": 0.95,
+      "learning_rate": 3.424700693131695e-05,
+      "loss": 0.2236,
+      "step": 1000
+    },
+    {
+      "epoch": 0.95,
+      "eval_loss": 0.2607925832271576,
+      "eval_runtime": 11.9435,
+      "eval_samples_per_second": 93.44,
+      "eval_steps_per_second": 11.722,
+      "step": 1000
+    },
+    {
+      "epoch": 1.04,
+      "eval_loss": 0.2817261815071106,
+      "eval_runtime": 11.9296,
+      "eval_samples_per_second": 93.549,
+      "eval_steps_per_second": 11.735,
+      "step": 1100
+    },
+    {
+      "epoch": 1.13,
+      "eval_loss": 0.24339333176612854,
+      "eval_runtime": 11.9423,
+      "eval_samples_per_second": 93.449,
+      "eval_steps_per_second": 11.723,
+      "step": 1200
+    },
+    {
+      "epoch": 1.23,
+      "eval_loss": 0.24544629454612732,
+      "eval_runtime": 11.9445,
+      "eval_samples_per_second": 93.432,
+      "eval_steps_per_second": 11.721,
+      "step": 1300
+    },
+    {
+      "epoch": 1.32,
+      "eval_loss": 0.23857346177101135,
+      "eval_runtime": 11.9479,
+      "eval_samples_per_second": 93.406,
+      "eval_steps_per_second": 11.718,
+      "step": 1400
+    },
+    {
+      "epoch": 1.42,
+      "learning_rate": 2.637051039697543e-05,
+      "loss": 0.1449,
+      "step": 1500
+    },
+    {
+      "epoch": 1.42,
+      "eval_loss": 0.2612239718437195,
+      "eval_runtime": 11.947,
+      "eval_samples_per_second": 93.413,
+      "eval_steps_per_second": 11.718,
+      "step": 1500
+    },
+    {
+      "epoch": 1.51,
+      "eval_loss": 0.264009565114975,
+      "eval_runtime": 11.9446,
+      "eval_samples_per_second": 93.431,
+      "eval_steps_per_second": 11.721,
+      "step": 1600
+    },
+    {
+      "epoch": 1.61,
+      "eval_loss": 0.23957186937332153,
+      "eval_runtime": 11.9459,
+      "eval_samples_per_second": 93.421,
+      "eval_steps_per_second": 11.72,
+      "step": 1700
+    },
+    {
+      "epoch": 1.7,
+      "eval_loss": 0.23903459310531616,
+      "eval_runtime": 11.9432,
+      "eval_samples_per_second": 93.443,
+      "eval_steps_per_second": 11.722,
+      "step": 1800
+    },
+    {
+      "epoch": 1.8,
+      "eval_loss": 0.22416594624519348,
+      "eval_runtime": 11.944,
+      "eval_samples_per_second": 93.436,
+      "eval_steps_per_second": 11.721,
+      "step": 1900
+    },
+    {
+      "epoch": 1.89,
+      "learning_rate": 1.8494013862633903e-05,
+      "loss": 0.1408,
+      "step": 2000
+    },
+    {
+      "epoch": 1.89,
+      "eval_loss": 0.2341969758272171,
+      "eval_runtime": 11.9399,
+      "eval_samples_per_second": 93.468,
+      "eval_steps_per_second": 11.725,
+      "step": 2000
+    },
+    {
+      "epoch": 1.98,
+      "eval_loss": 0.23950397968292236,
+      "eval_runtime": 11.9383,
+      "eval_samples_per_second": 93.481,
+      "eval_steps_per_second": 11.727,
+      "step": 2100
+    },
+    {
+      "epoch": 2.08,
+      "eval_loss": 0.285567045211792,
+      "eval_runtime": 11.9279,
+      "eval_samples_per_second": 93.562,
+      "eval_steps_per_second": 11.737,
+      "step": 2200
+    },
+    {
+      "epoch": 2.17,
+      "eval_loss": 0.2656622529029846,
+      "eval_runtime": 11.9385,
+      "eval_samples_per_second": 93.479,
+      "eval_steps_per_second": 11.727,
+      "step": 2300
+    },
+    {
+      "epoch": 2.27,
+      "eval_loss": 0.25764182209968567,
+      "eval_runtime": 11.9434,
+      "eval_samples_per_second": 93.44,
+      "eval_steps_per_second": 11.722,
+      "step": 2400
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 1.0617517328292375e-05,
+      "loss": 0.0893,
+      "step": 2500
+    },
+    {
+      "epoch": 2.36,
+      "eval_loss": 0.26884153485298157,
+      "eval_runtime": 11.9443,
+      "eval_samples_per_second": 93.434,
+      "eval_steps_per_second": 11.721,
+      "step": 2500
+    },
+    {
+      "epoch": 2.46,
+      "eval_loss": 0.2657739520072937,
+      "eval_runtime": 11.9455,
+      "eval_samples_per_second": 93.425,
+      "eval_steps_per_second": 11.72,
+      "step": 2600
+    },
+    {
+      "epoch": 2.55,
+      "eval_loss": 0.2614665925502777,
+      "eval_runtime": 11.9422,
+      "eval_samples_per_second": 93.45,
+      "eval_steps_per_second": 11.723,
+      "step": 2700
+    },
+    {
+      "epoch": 2.65,
+      "eval_loss": 0.27043506503105164,
+      "eval_runtime": 11.9429,
+      "eval_samples_per_second": 93.445,
+      "eval_steps_per_second": 11.722,
+      "step": 2800
+    },
+    {
+      "epoch": 2.74,
+      "eval_loss": 0.2741823196411133,
+      "eval_runtime": 11.9422,
+      "eval_samples_per_second": 93.45,
+      "eval_steps_per_second": 11.723,
+      "step": 2900
+    },
+    {
+      "epoch": 2.84,
+      "learning_rate": 2.741020793950851e-06,
+      "loss": 0.0668,
+      "step": 3000
+    },
+    {
+      "epoch": 2.84,
+      "eval_loss": 0.2574303448200226,
+      "eval_runtime": 11.9428,
+      "eval_samples_per_second": 93.445,
+      "eval_steps_per_second": 11.723,
+      "step": 3000
+    },
+    {
+      "epoch": 2.93,
+      "eval_loss": 0.2549898028373718,
+      "eval_runtime": 11.9436,
+      "eval_samples_per_second": 93.439,
+      "eval_steps_per_second": 11.722,
+      "step": 3100
     }
   ],
+  "max_steps": 3174,
   "num_train_epochs": 3,
   "total_flos": 6635087188033536.0,
   "trial_name": null,

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:016e178b54b4499d7401b710ae361f0d803cad1f54a717ede8cfa3bf9199ee13
 size 3515

 version https://git-lfs.github.com/spec/v1
+oid sha256:4bb3243e713170949466998e8a474a592be4c2bf750567ed9f5e8fd61388dc92
 size 3515