Training in progress, step 4500, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +115 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315dd3d1be5cd5aad93e16d6cfd64f1bb9fe3d28b4bf1a28890a1a22e06b4268
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:0673723b6fea73b97632e58ff883b0fcedfe7c681e3b064768751625f89426b0
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c2aded1500c0a4e0686d69b68e13b1d801287a27d997750ae1545e6654570347
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c6a5cfafd84b1b27fd2b7eb7cde6b07d68bac4292ccc06119a3b5fcbffec4d1
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:448b3e60abf19a367f627475ea9fd93123102153c10bf14e51ba3e6e1e24bd8e
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b65d52be0a01d1387b6ab5b94c8d85e39f197ebf9d2ff39d8953e7c1331a8faf
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:11165328e3ed53c81315a2b3c898e1767b47d1d7722e15ceb97f24911d09fdce
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:2af37ede7aaba01e654492d7c7cd23480899eab3274bf26dc98e9ba5f8aeadfb
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.20224925875663757,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-4000",
-  "epoch": 2.8099754127151386,
   "eval_steps": 100,
-  "global_step": 4000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -887,6 +887,116 @@
       "eval_samples_per_second": 66.71,
       "eval_steps_per_second": 2.094,
       "step": 4000
     }
   ],
   "logging_steps": 50,
@@ -906,7 +1016,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.89687378116608e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.20200392603874207,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-4500",
+  "epoch": 3.161222339304531,
   "eval_steps": 100,
+  "global_step": 4500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 66.71,
       "eval_steps_per_second": 2.094,
       "step": 4000
+    },
+    {
+      "epoch": 2.845100105374078,
+      "grad_norm": 60070.58984375,
+      "learning_rate": 8.65425158116655e-06,
+      "loss": 0.1969,
+      "step": 4050
+    },
+    {
+      "epoch": 2.880224798033017,
+      "grad_norm": 20594.654296875,
+      "learning_rate": 8.390723822909348e-06,
+      "loss": 0.2009,
+      "step": 4100
+    },
+    {
+      "epoch": 2.880224798033017,
+      "eval_loss": 0.20173698663711548,
+      "eval_runtime": 66.8679,
+      "eval_samples_per_second": 66.699,
+      "eval_steps_per_second": 2.094,
+      "step": 4100
+    },
+    {
+      "epoch": 2.9153494906919564,
+      "grad_norm": 22764.1640625,
+      "learning_rate": 8.127196064652143e-06,
+      "loss": 0.1939,
+      "step": 4150
+    },
+    {
+      "epoch": 2.9504741833508956,
+      "grad_norm": 22604.9375,
+      "learning_rate": 7.86366830639494e-06,
+      "loss": 0.1991,
+      "step": 4200
+    },
+    {
+      "epoch": 2.9504741833508956,
+      "eval_loss": 0.20178209245204926,
+      "eval_runtime": 67.157,
+      "eval_samples_per_second": 66.412,
+      "eval_steps_per_second": 2.085,
+      "step": 4200
+    },
+    {
+      "epoch": 2.985598876009835,
+      "grad_norm": 23427.0,
+      "learning_rate": 7.600140548137737e-06,
+      "loss": 0.1982,
+      "step": 4250
+    },
+    {
+      "epoch": 3.020723568668774,
+      "grad_norm": 22872.943359375,
+      "learning_rate": 7.336612789880535e-06,
+      "loss": 0.1905,
+      "step": 4300
+    },
+    {
+      "epoch": 3.020723568668774,
+      "eval_loss": 0.20212285220623016,
+      "eval_runtime": 66.9569,
+      "eval_samples_per_second": 66.61,
+      "eval_steps_per_second": 2.091,
+      "step": 4300
+    },
+    {
+      "epoch": 3.0558482613277134,
+      "grad_norm": 20360.029296875,
+      "learning_rate": 7.073085031623331e-06,
+      "loss": 0.2011,
+      "step": 4350
+    },
+    {
+      "epoch": 3.0909729539866526,
+      "grad_norm": 26769.02734375,
+      "learning_rate": 6.809557273366128e-06,
+      "loss": 0.1939,
+      "step": 4400
+    },
+    {
+      "epoch": 3.0909729539866526,
+      "eval_loss": 0.20202863216400146,
+      "eval_runtime": 66.9701,
+      "eval_samples_per_second": 66.597,
+      "eval_steps_per_second": 2.09,
+      "step": 4400
+    },
+    {
+      "epoch": 3.126097646645592,
+      "grad_norm": 34976.171875,
+      "learning_rate": 6.546029515108924e-06,
+      "loss": 0.1912,
+      "step": 4450
+    },
+    {
+      "epoch": 3.161222339304531,
+      "grad_norm": 50123.8671875,
+      "learning_rate": 6.282501756851722e-06,
+      "loss": 0.1934,
+      "step": 4500
+    },
+    {
+      "epoch": 3.161222339304531,
+      "eval_loss": 0.20200392603874207,
+      "eval_runtime": 66.9822,
+      "eval_samples_per_second": 66.585,
+      "eval_steps_per_second": 2.09,
+      "step": 4500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 4.38381173440512e+16,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null