Training in progress, step 337, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +74 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ac2bcbbdf28f59e9963abe1a59b0c0659f6c4be33bfe161a5ed3f7b76d9e94d
 size 236389544

 version https://git-lfs.github.com/spec/v1
+oid sha256:93d73df98fff4a6a3ad97281f90e353cb111656a20d495d6939da7e25d1982b1
 size 236389544

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bbbea3f8084ad3123aa70919061dfa938e07874f198c10eec228fe7a53a9c79c
 size 240875493

 version https://git-lfs.github.com/spec/v1
+oid sha256:990731e03e5cbb36e6dff976bf6f6985fab555d8421e9deb16696b1bbedf82ee
 size 240875493

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9237fb57361c151ad1e37bec4bb4c44c5b2ef0e256e986c35085ab8e53aa5926
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:9b5f15ebf8e577db037305eb705a1d1879ee91fe3964c8447f5e62bd02ac498d
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40f7b8536bd5b6bc0a13650e01d6ffbcfec0028c433b2309611b4ba8d5238928
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4f415dd60d9062452c191c523239bdb24a31ba70d99049aa2c8e6d4eb18f951
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.9040892193308551,
   "eval_steps": 500,
-  "global_step": 304,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -608,6 +608,76 @@
       "mean_token_accuracy": 0.8706730246543884,
       "num_tokens": 9716187.0,
       "step": 300
     }
   ],
   "logging_steps": 5,
@@ -622,12 +692,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.7777614771395625e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.0,
   "eval_steps": 500,
+  "global_step": 337,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "mean_token_accuracy": 0.8706730246543884,
       "num_tokens": 9716187.0,
       "step": 300
+    },
+    {
+      "entropy": 0.4898031514137983,
+      "epoch": 0.9070631970260223,
+      "grad_norm": 0.0205078125,
+      "learning_rate": 6.453662433477136e-06,
+      "loss": 0.4925398826599121,
+      "mean_token_accuracy": 0.8753444463014602,
+      "num_tokens": 9879023.0,
+      "step": 305
+    },
+    {
+      "entropy": 0.45501707717776296,
+      "epoch": 0.9219330855018587,
+      "grad_norm": 0.0203857421875,
+      "learning_rate": 4.660360794506946e-06,
+      "loss": 0.4548198699951172,
+      "mean_token_accuracy": 0.8821182236075401,
+      "num_tokens": 10041800.0,
+      "step": 310
+    },
+    {
+      "entropy": 0.5240208253264427,
+      "epoch": 0.9368029739776952,
+      "grad_norm": 0.0233154296875,
+      "learning_rate": 3.1525821236119577e-06,
+      "loss": 0.5236988067626953,
+      "mean_token_accuracy": 0.8641670763492584,
+      "num_tokens": 10204694.0,
+      "step": 315
+    },
+    {
+      "entropy": 0.538949977979064,
+      "epoch": 0.9516728624535316,
+      "grad_norm": 0.0220947265625,
+      "learning_rate": 1.934841913455032e-06,
+      "loss": 0.5439452648162841,
+      "mean_token_accuracy": 0.8550667986273766,
+      "num_tokens": 10366660.0,
+      "step": 320
+    },
+    {
+      "entropy": 0.5102543152868748,
+      "epoch": 0.966542750929368,
+      "grad_norm": 0.018310546875,
+      "learning_rate": 1.010787050074835e-06,
+      "loss": 0.5104735374450684,
+      "mean_token_accuracy": 0.8640209168195725,
+      "num_tokens": 10529304.0,
+      "step": 325
+    },
+    {
+      "entropy": 0.4799253273755312,
+      "epoch": 0.9814126394052045,
+      "grad_norm": 0.019287109375,
+      "learning_rate": 3.831848911984959e-07,
+      "loss": 0.47628107070922854,
+      "mean_token_accuracy": 0.8758200943470001,
+      "num_tokens": 10692105.0,
+      "step": 330
+    },
+    {
+      "entropy": 0.45510734170675277,
+      "epoch": 0.9962825278810409,
+      "grad_norm": 0.0213623046875,
+      "learning_rate": 5.391497856399585e-08,
+      "loss": 0.4581630229949951,
+      "mean_token_accuracy": 0.8793978497385979,
+      "num_tokens": 10854094.0,
+      "step": 335
     }
   ],
   "logging_steps": 5,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.965993164065407e+18,
   "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null