Training in progress, step 800, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +42 -6

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8f12882e795e48b5e34ae38b2a3dc13d970ae8ed794446b433b285dcae5e4b45
 size 69782384

 version https://git-lfs.github.com/spec/v1
+oid sha256:aac60fa61b1371f0628e4cdce110bd39a12e57e9c460d701427e8c58e754e7e9
 size 69782384

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0f41bf5ac8dd82b27bccf99bb00806066e352c1bf853a1398026d130ed323742
 size 139790651

 version https://git-lfs.github.com/spec/v1
+oid sha256:a63b11235c95638e0ee559b2345b5d8f7a103f5995eca48cb715fe2ba2cac47e
 size 139790651

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1b5b7c38c3608ce56ea60cd8715a5aebe62a252c04517ce9587d7d3c27fbbbdf
 size 14645

 version https://git-lfs.github.com/spec/v1
+oid sha256:bb0516b0656c487c351bad1057295186b5e3e00c79529207cd235ce5be6a5d40
 size 14645

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b60382b672a7ee5b1056446dd64188b841f33ae83dfad90e6f0c3d3114911f38
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:e4f1426694c38acbbdcb00f1a570a9712c4816b9dc6fb937a5303ba759aa3ab7
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,10 +1,10 @@
 {
-  "best_global_step": 600,
-  "best_metric": 2.2626566886901855,
-  "best_model_checkpoint": "./outputs/checkpoint-600",
-  "epoch": 0.6514657980456026,
   "eval_steps": 200,
-  "global_step": 600,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -116,6 +116,42 @@
       "eval_samples_per_second": 82.072,
       "eval_steps_per_second": 2.59,
       "step": 600
     }
   ],
   "logging_steps": 50,
@@ -144,7 +180,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6793449133565542e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_global_step": 800,
+  "best_metric": 2.2396719455718994,
+  "best_model_checkpoint": "./outputs/checkpoint-800",
+  "epoch": 0.8686210640608035,
   "eval_steps": 200,
+  "global_step": 800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 82.072,
       "eval_steps_per_second": 2.59,
       "step": 600
+    },
+    {
+      "epoch": 0.7057546145494028,
+      "grad_norm": 0.6320544481277466,
+      "learning_rate": 0.00017689312963021044,
+      "loss": 2.2678,
+      "step": 650
+    },
+    {
+      "epoch": 0.760043431053203,
+      "grad_norm": 0.7033542990684509,
+      "learning_rate": 0.00017306469320835707,
+      "loss": 2.2667,
+      "step": 700
+    },
+    {
+      "epoch": 0.8143322475570033,
+      "grad_norm": 0.6568920612335205,
+      "learning_rate": 0.00016899139196021397,
+      "loss": 2.2727,
+      "step": 750
+    },
+    {
+      "epoch": 0.8686210640608035,
+      "grad_norm": 0.7634288668632507,
+      "learning_rate": 0.00016468687691418833,
+      "loss": 2.2482,
+      "step": 800
+    },
+    {
+      "epoch": 0.8686210640608035,
+      "eval_loss": 2.2396719455718994,
+      "eval_runtime": 7.3506,
+      "eval_samples_per_second": 81.898,
+      "eval_steps_per_second": 2.585,
+      "step": 800
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 2.2399365411628646e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null