Training in progress, step 21000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +83 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9f364037fe3d6208b2c05dda635ce09c71590d8662e232f0b7b434a1610e5c6b
 size 891558696

 version https://git-lfs.github.com/spec/v1
+oid sha256:a93f403a198a0abf134a3fd5cbeca3aa8c16276f10e0b35daa2bc2bf8a2a6957
 size 891558696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b999ec0e9bc401face62bc16ac08f4e745f2cd6b0ffba6a9f05615f8c9650e5f
 size 1783272762

 version https://git-lfs.github.com/spec/v1
+oid sha256:18372560aadc54215809cfae0eaf7225bb168ffc940aa3b172c422f28f9cfff5
 size 1783272762

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91d0e4637157719f5fcffcd5d4a99e903acaab012174cc7599b33a508d13c5ca
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:6d9c5f7443e1222c25c8a224aeec2cab3e754343ab09e424a8f337440ada3c79
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d3a5ed47396b325271b233c59cffa14dc5086d4af5c552b3c7216a7a0ac3fa86
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:67a88db37888ba561bfce26ae8fef54113ba48b68f86826f4ed7d7cb198ed4fd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 0.08186879754066467,
-  "best_model_checkpoint": "./fine-tuned/checkpoint-19000",
-  "epoch": 1.6400000000000001,
   "eval_steps": 500,
-  "global_step": 20500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3205,6 +3205,84 @@
       "eval_samples_per_second": 22.729,
       "eval_steps_per_second": 5.682,
       "step": 20500
     }
   ],
   "logging_steps": 50,
@@ -3224,7 +3302,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.993454702592e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 0.0817028358578682,
+  "best_model_checkpoint": "./fine-tuned/checkpoint-21000",
+  "epoch": 1.6800000000000002,
   "eval_steps": 500,
+  "global_step": 21000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 22.729,
       "eval_steps_per_second": 5.682,
       "step": 20500
+    },
+    {
+      "epoch": 1.6440000000000001,
+      "grad_norm": 0.13027295470237732,
+      "learning_rate": 5.3472e-06,
+      "loss": 0.0551,
+      "step": 20550
+    },
+    {
+      "epoch": 1.6480000000000001,
+      "grad_norm": 0.1394919753074646,
+      "learning_rate": 5.2872e-06,
+      "loss": 0.054,
+      "step": 20600
+    },
+    {
+      "epoch": 1.6520000000000001,
+      "grad_norm": 0.16753709316253662,
+      "learning_rate": 5.2272000000000005e-06,
+      "loss": 0.0501,
+      "step": 20650
+    },
+    {
+      "epoch": 1.6560000000000001,
+      "grad_norm": 0.1509876549243927,
+      "learning_rate": 5.1672e-06,
+      "loss": 0.0527,
+      "step": 20700
+    },
+    {
+      "epoch": 1.6600000000000001,
+      "grad_norm": 0.13625292479991913,
+      "learning_rate": 5.1072e-06,
+      "loss": 0.0508,
+      "step": 20750
+    },
+    {
+      "epoch": 1.6640000000000001,
+      "grad_norm": 0.1552583873271942,
+      "learning_rate": 5.0472000000000006e-06,
+      "loss": 0.0548,
+      "step": 20800
+    },
+    {
+      "epoch": 1.6680000000000001,
+      "grad_norm": 0.1763962060213089,
+      "learning_rate": 4.9872e-06,
+      "loss": 0.0585,
+      "step": 20850
+    },
+    {
+      "epoch": 1.6720000000000002,
+      "grad_norm": 0.11216771602630615,
+      "learning_rate": 4.9272e-06,
+      "loss": 0.0567,
+      "step": 20900
+    },
+    {
+      "epoch": 1.6760000000000002,
+      "grad_norm": 0.08550629019737244,
+      "learning_rate": 4.8672e-06,
+      "loss": 0.0523,
+      "step": 20950
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "grad_norm": 0.11488083750009537,
+      "learning_rate": 4.8072e-06,
+      "loss": 0.0503,
+      "step": 21000
+    },
+    {
+      "epoch": 1.6800000000000002,
+      "eval_loss": 0.0817028358578682,
+      "eval_runtime": 88.097,
+      "eval_samples_per_second": 22.702,
+      "eval_steps_per_second": 5.676,
+      "step": 21000
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 5.115246280704e+16,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null