Training in progress, step 18000, checkpoint

Files changed (5) hide show

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59ca63e739c086dc23275c2c5079539d3187e56bee6925af1cb0015a9d019bc3
 size 567860028

 version https://git-lfs.github.com/spec/v1
+oid sha256:0c363a1a59fc93c3321875d7f58013a2f10c3aab12f3af0076dff096e82ffb9c
 size 567860028

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:04093ee821b9d615247867d2bac4f899594c0d9aa7b3314cf38273cd1397133c
 size 1135783354

 version https://git-lfs.github.com/spec/v1
+oid sha256:c2f24ddbe795a6b5a789b92a1ca3088daece7124054a836e4ca83341f355e4ec
 size 1135783354

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:05fb8219401a347a541ffd89848ab026f78ecd34f13335c1313ca6b42f94154c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:32a2a6418efcb48342a1dc67d0b88b496c3ab628f281d571af1360b4d0af05a5
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:865e288c245b395ede96990302d49b324d892d7a26b3b287023faac63c631eb0
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:189a7468f8c95c103f6fc6f9a588f85a4d6a2cdd577f74ddb50948dbca31a23b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.036032263189554214,
-  "best_model_checkpoint": "doc-topic-model_eval-00_train-01/checkpoint-16000",
-  "epoch": 8.382642998027613,
   "eval_steps": 1000,
-  "global_step": 17000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -449,6 +449,32 @@
       "eval_samples_per_second": 307.212,
       "eval_steps_per_second": 19.205,
       "step": 17000
     }
   ],
   "logging_steps": 500,
@@ -468,7 +494,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 384458650453980.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.035977210849523544,
+  "best_model_checkpoint": "doc-topic-model_eval-00_train-01/checkpoint-18000",
+  "epoch": 8.875739644970414,
   "eval_steps": 1000,
+  "global_step": 18000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 307.212,
       "eval_steps_per_second": 19.205,
       "step": 17000
+    },
+    {
+      "epoch": 8.629191321499015,
+      "grad_norm": 0.4935995936393738,
+      "learning_rate": 2.7416173570019726e-06,
+      "loss": 0.0243,
+      "step": 17500
+    },
+    {
+      "epoch": 8.875739644970414,
+      "grad_norm": 0.5695288181304932,
+      "learning_rate": 2.2485207100591717e-06,
+      "loss": 0.0247,
+      "step": 18000
+    },
+    {
+      "epoch": 8.875739644970414,
+      "eval_accuracy": 0.9878693822016242,
+      "eval_f1": 0.6174748603351955,
+      "eval_loss": 0.035977210849523544,
+      "eval_precision": 0.7429554742955474,
+      "eval_recall": 0.5282557161428462,
+      "eval_runtime": 26.442,
+      "eval_samples_per_second": 306.709,
+      "eval_steps_per_second": 19.174,
+      "step": 18000
     }
   ],
   "logging_steps": 500,
       "attributes": {}
     }
   },
+  "total_flos": 407138463972036.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null