Training in progress, step 1650, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7aae9277305b2d9df700cc34a8dc037a2298180d61d92eaa796ca7ab56c96e70
 size 774409936

 version https://git-lfs.github.com/spec/v1
+oid sha256:28336134bd8ddf70906cb764611ebfea3bf5a3afbbb671af041067ff337967be
 size 774409936

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d01c11ea6c82e90ff3fdc15ad57126864459f35e1e55a3ddd0317f43edbf73a
 size 1523152378

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa156338fd8ccab5e360df667036f1d13c9e2b05480fa56217dae09e08607ec1
 size 1523152378

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b61492d4d4ac91c8cb36a91bca94c844935c290540b245b381a00010d48d1faa
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3c21eb9bef4a8e7d6925d09fa075fb777907e1fbbb9ec2100dea9bbc025fe2a
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:073f2a20599562712b5ae80345a1a15f5aa5830fa2fbb7867b2023b24249dfcf
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:10c5d4556cbcaf5ad023a1f296eb2ae31f296155e6ce44fd3bf46ac6d504e69b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 0.00036135767004452646,
   "best_model_checkpoint": "./output/checkpoint-750",
-  "epoch": 1.5151515151515151,
   "eval_steps": 150,
-  "global_step": 1500,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1137,6 +1137,119 @@
       "eval_samples_per_second": 11.254,
       "eval_steps_per_second": 11.254,
       "step": 1500
     }
   ],
   "logging_steps": 10,
@@ -1156,7 +1269,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.4154040493133005e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 0.00036135767004452646,
   "best_model_checkpoint": "./output/checkpoint-750",
+  "epoch": 1.6666666666666665,
   "eval_steps": 150,
+  "global_step": 1650,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.254,
       "eval_steps_per_second": 11.254,
       "step": 1500
+    },
+    {
+      "epoch": 1.5252525252525253,
+      "grad_norm": 0.060537345707416534,
+      "learning_rate": 4.046160941514079e-06,
+      "loss": 0.0001,
+      "step": 1510
+    },
+    {
+      "epoch": 1.5353535353535355,
+      "grad_norm": 0.011248580180108547,
+      "learning_rate": 4.033533821760917e-06,
+      "loss": 0.0001,
+      "step": 1520
+    },
+    {
+      "epoch": 1.5454545454545454,
+      "grad_norm": 0.005074686370790005,
+      "learning_rate": 4.020843664438783e-06,
+      "loss": 0.0001,
+      "step": 1530
+    },
+    {
+      "epoch": 1.5555555555555556,
+      "grad_norm": 0.003374485531821847,
+      "learning_rate": 4.008090991190341e-06,
+      "loss": 0.0001,
+      "step": 1540
+    },
+    {
+      "epoch": 1.5656565656565657,
+      "grad_norm": 0.008233348838984966,
+      "learning_rate": 3.99527632622804e-06,
+      "loss": 0.0003,
+      "step": 1550
+    },
+    {
+      "epoch": 1.5757575757575757,
+      "grad_norm": 0.8828936219215393,
+      "learning_rate": 3.982400196312565e-06,
+      "loss": 0.0002,
+      "step": 1560
+    },
+    {
+      "epoch": 1.5858585858585859,
+      "grad_norm": 0.07183331996202469,
+      "learning_rate": 3.969463130731183e-06,
+      "loss": 0.0006,
+      "step": 1570
+    },
+    {
+      "epoch": 1.595959595959596,
+      "grad_norm": 0.022035278379917145,
+      "learning_rate": 3.9564656612759904e-06,
+      "loss": 0.0001,
+      "step": 1580
+    },
+    {
+      "epoch": 1.606060606060606,
+      "grad_norm": 0.012215990573167801,
+      "learning_rate": 3.943408322222049e-06,
+      "loss": 0.0001,
+      "step": 1590
+    },
+    {
+      "epoch": 1.6161616161616161,
+      "grad_norm": 0.006953661795705557,
+      "learning_rate": 3.930291650305424e-06,
+      "loss": 0.0006,
+      "step": 1600
+    },
+    {
+      "epoch": 1.6262626262626263,
+      "grad_norm": 0.01029939018189907,
+      "learning_rate": 3.917116184701125e-06,
+      "loss": 0.0001,
+      "step": 1610
+    },
+    {
+      "epoch": 1.6363636363636362,
+      "grad_norm": 0.007781410124152899,
+      "learning_rate": 3.903882467000938e-06,
+      "loss": 0.0005,
+      "step": 1620
+    },
+    {
+      "epoch": 1.6464646464646466,
+      "grad_norm": 0.2221326380968094,
+      "learning_rate": 3.890591041191162e-06,
+      "loss": 0.0001,
+      "step": 1630
+    },
+    {
+      "epoch": 1.6565656565656566,
+      "grad_norm": 0.024798329919576645,
+      "learning_rate": 3.8772424536302565e-06,
+      "loss": 0.0001,
+      "step": 1640
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 0.013180619105696678,
+      "learning_rate": 3.863837253026372e-06,
+      "loss": 0.0001,
+      "step": 1650
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "eval_loss": 0.0007805961649864912,
+      "eval_runtime": 44.2223,
+      "eval_samples_per_second": 11.307,
+      "eval_steps_per_second": 11.307,
+      "step": 1650
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.5561419544251597e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null