Training in progress, step 10000, checkpoint

Files changed (5) hide show

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ddf1bfc49f8bed6aad2e4c5016354cc52549731b7590469d2197858f225c5564
 size 567860028

 version https://git-lfs.github.com/spec/v1
+oid sha256:acf0b2d1d26bf33682e967b6b91bdcf5446cccfd49cd15453c916d790a9c6982
 size 567860028

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ad805ac9e0aa08c68c3b2e9a1b4c67ed8df59df43feba14474fa385fa188e3f
 size 1135783354

 version https://git-lfs.github.com/spec/v1
+oid sha256:36ec8f59145b666c3d41dfe265796bfa85e7e9c39ccccbc992c0bab0d8337d19
 size 1135783354

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1e38a40d1825dfd9a57552feb8e16f14cff45e73fbdbac837799c9b3f9b3eb3
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:1b3034c5b6516d233c5af2fea54728bfff878bec317e58b6d92ba886ec31a21b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:32298e2a33ad8a6cba203d5a5a0739432575ab280ab1aeeb554c098456f66de4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:dcd4f053ce950a9e578d4e070881875c02e1cb9a7028bdaed37519a73ac227e9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.03682604432106018,
-  "best_model_checkpoint": "doc-topic-model/checkpoint-9000",
-  "epoch": 1.1096042411539884,
   "eval_steps": 1000,
-  "global_step": 9000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -241,6 +241,32 @@
       "eval_samples_per_second": 308.114,
       "eval_steps_per_second": 19.26,
       "step": 9000
     }
   ],
   "logging_steps": 500,
@@ -248,7 +274,7 @@
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 1000,
-  "total_flos": 203560680801816.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.03590531274676323,
+  "best_model_checkpoint": "doc-topic-model/checkpoint-10000",
+  "epoch": 1.2328936012822094,
   "eval_steps": 1000,
+  "global_step": 10000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 308.114,
       "eval_steps_per_second": 19.26,
       "step": 9000
+    },
+    {
+      "epoch": 1.171248921218099,
+      "grad_norm": 0.5498178601264954,
+      "learning_rate": 1.7657502157563805e-05,
+      "loss": 0.0374,
+      "step": 9500
+    },
+    {
+      "epoch": 1.2328936012822094,
+      "grad_norm": 0.5045135021209717,
+      "learning_rate": 1.7534212797435582e-05,
+      "loss": 0.038,
+      "step": 10000
+    },
+    {
+      "epoch": 1.2328936012822094,
+      "eval_accuracy": 0.9875761170086883,
+      "eval_f1": 0.5866377481257956,
+      "eval_loss": 0.03590531274676323,
+      "eval_precision": 0.765190651906519,
+      "eval_recall": 0.4756479853199786,
+      "eval_runtime": 26.7199,
+      "eval_samples_per_second": 303.556,
+      "eval_steps_per_second": 18.975,
+      "step": 10000
     }
   ],
   "logging_steps": 500,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 10,
   "save_steps": 1000,
+  "total_flos": 226142026138152.0,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null