Training in progress, step 1000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ad7916a81359ab5b4226a1ab72be6b2228c15e30de2ed5879e873658c83762cf
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:7a3f5e731113e9730efd9113f5f29cb905a8f1f2743b49cc72502432ddfbbe98
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:65e5dd7dd2ef90c715a95b9ee2a8378cf7dfd7ee8657b5c21908390c2840c23d
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:05b6c8071744fb730c3cce8cd6e59b3af98553013a5f6fbdbbd538f8a35c093e
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc4298e9edcb656016358af558d6c772b28e948010f2354b376d1262b4c07284
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7412027fc58c1194bc8c7a74232f8612760d1fd20879b38d561f816aa317c25b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b7f4ce68b4d7117d38efd858cf52dfea3470ac03752843d3eae3752443533c02
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:34f558efbd4b52e03122b68bd1359b214dd840998b95d355abf0602295ddb8a5
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.09441258758306503,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-500",
-  "epoch": 0.04,
   "eval_steps": 500,
-  "global_step": 500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -85,6 +85,84 @@
       "eval_samples_per_second": 22.722,
       "eval_steps_per_second": 5.681,
       "step": 500
     }
   ],
   "logging_steps": 50,
@@ -104,7 +182,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1217915781120000.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.09160277992486954,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-1000",
+  "epoch": 0.08,
   "eval_steps": 500,
+  "global_step": 1000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.722,
       "eval_steps_per_second": 5.681,
       "step": 500
+    },
+    {
+      "epoch": 0.044,
+      "grad_norm": 0.1859619915485382,
+      "learning_rate": 2.9341200000000003e-05,
+      "loss": 0.077,
+      "step": 550
+    },
+    {
+      "epoch": 0.048,
+      "grad_norm": 0.11936317384243011,
+      "learning_rate": 2.92812e-05,
+      "loss": 0.0727,
+      "step": 600
+    },
+    {
+      "epoch": 0.052,
+      "grad_norm": 0.2207396775484085,
+      "learning_rate": 2.92212e-05,
+      "loss": 0.0743,
+      "step": 650
+    },
+    {
+      "epoch": 0.056,
+      "grad_norm": 0.18488994240760803,
+      "learning_rate": 2.91612e-05,
+      "loss": 0.0824,
+      "step": 700
+    },
+    {
+      "epoch": 0.06,
+      "grad_norm": 0.22228538990020752,
+      "learning_rate": 2.9101200000000002e-05,
+      "loss": 0.0716,
+      "step": 750
+    },
+    {
+      "epoch": 0.064,
+      "grad_norm": 0.24138867855072021,
+      "learning_rate": 2.9041200000000002e-05,
+      "loss": 0.0814,
+      "step": 800
+    },
+    {
+      "epoch": 0.068,
+      "grad_norm": 0.25113552808761597,
+      "learning_rate": 2.89812e-05,
+      "loss": 0.076,
+      "step": 850
+    },
+    {
+      "epoch": 0.072,
+      "grad_norm": 0.8853724598884583,
+      "learning_rate": 2.89212e-05,
+      "loss": 0.0781,
+      "step": 900
+    },
+    {
+      "epoch": 0.076,
+      "grad_norm": 0.1753206104040146,
+      "learning_rate": 2.88612e-05,
+      "loss": 0.084,
+      "step": 950
+    },
+    {
+      "epoch": 0.08,
+      "grad_norm": 0.1704334318637848,
+      "learning_rate": 2.88012e-05,
+      "loss": 0.0769,
+      "step": 1000
+    },
+    {
+      "epoch": 0.08,
+      "eval_loss": 0.09160277992486954,
+      "eval_runtime": 88.0495,
+      "eval_samples_per_second": 22.714,
+      "eval_steps_per_second": 5.679,
+      "step": 1000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2435831562240000.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null