Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c2dc8ea30ad64fba63d33f5827c16a7fd8310cf667fca376b2b308373face0a
 size 682425696

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b68d0b9dd424adf12403762c11684230484cf5fcb1e99e25e48d38bc31dd41b
 size 682425696

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:19e68b2f08581a4162dcbd81a7a6beadc5ab2186649acf7ba528e9191d3ed481
 size 1286409530

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fd8ee5a5186000dfb0ba7e98f65842f2cbeacd0b9edaeed7724dd1e9e3994d7
 size 1286409530

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0356963977564df8a8cce0aab1f0da31bba4518f9f0e2c6e2ab658649f2662e9
 size 14180

 version https://git-lfs.github.com/spec/v1
+oid sha256:148d29791dcce8c8f1b746dbfe5a5918fe4ddfdc771e478fdd6742f1268be399
 size 14180

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:40e90e2223ff2c7ae70ba3b595790f41997f446b5fed8742eb4eecd8d1c96aed
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:b2786f10edc62c6468aaba4027f9b5395a026ade9759e1b2908beee8dcad71ab
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.2195546627044678,
-  "best_model_checkpoint": "./output/checkpoint-4800",
-  "epoch": 0.874476225177628,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 12.319,
       "eval_steps_per_second": 12.319,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 6.409302751352586e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.219112515449524,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 0.9018036072144289,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 12.319,
       "eval_steps_per_second": 12.319,
       "step": 4800
+    },
+    {
+      "epoch": 0.876298050646748,
+      "grad_norm": 8.378396987915039,
+      "learning_rate": 2.4152175047355394e-07,
+      "loss": 1.4257,
+      "step": 4810
+    },
+    {
+      "epoch": 0.8781198761158681,
+      "grad_norm": 8.41342544555664,
+      "learning_rate": 2.167949258434371e-07,
+      "loss": 1.3146,
+      "step": 4820
+    },
+    {
+      "epoch": 0.8799417015849882,
+      "grad_norm": 9.183294296264648,
+      "learning_rate": 1.93398911576507e-07,
+      "loss": 1.3722,
+      "step": 4830
+    },
+    {
+      "epoch": 0.8817635270541082,
+      "grad_norm": 7.7415032386779785,
+      "learning_rate": 1.71334669391276e-07,
+      "loss": 1.335,
+      "step": 4840
+    },
+    {
+      "epoch": 0.8835853525232282,
+      "grad_norm": 7.920373439788818,
+      "learning_rate": 1.5060310626231875e-07,
+      "loss": 1.3037,
+      "step": 4850
+    },
+    {
+      "epoch": 0.8854071779923484,
+      "grad_norm": 8.295755386352539,
+      "learning_rate": 1.3120507438299515e-07,
+      "loss": 1.3009,
+      "step": 4860
+    },
+    {
+      "epoch": 0.8872290034614684,
+      "grad_norm": 8.303937911987305,
+      "learning_rate": 1.1314137113042047e-07,
+      "loss": 1.4086,
+      "step": 4870
+    },
+    {
+      "epoch": 0.8890508289305884,
+      "grad_norm": 8.988426208496094,
+      "learning_rate": 9.641273903268614e-08,
+      "loss": 1.3072,
+      "step": 4880
+    },
+    {
+      "epoch": 0.8908726543997085,
+      "grad_norm": 7.895501613616943,
+      "learning_rate": 8.101986573833107e-08,
+      "loss": 1.2669,
+      "step": 4890
+    },
+    {
+      "epoch": 0.8926944798688285,
+      "grad_norm": 8.405040740966797,
+      "learning_rate": 6.696338398808907e-08,
+      "loss": 1.3165,
+      "step": 4900
+    },
+    {
+      "epoch": 0.8945163053379486,
+      "grad_norm": 8.549430847167969,
+      "learning_rate": 5.4243871588872467e-08,
+      "loss": 1.476,
+      "step": 4910
+    },
+    {
+      "epoch": 0.8963381308070687,
+      "grad_norm": 9.408004760742188,
+      "learning_rate": 4.286185139000989e-08,
+      "loss": 1.3516,
+      "step": 4920
+    },
+    {
+      "epoch": 0.8981599562761887,
+      "grad_norm": 8.471065521240234,
+      "learning_rate": 3.281779126178181e-08,
+      "loss": 1.3644,
+      "step": 4930
+    },
+    {
+      "epoch": 0.8999817817453089,
+      "grad_norm": 8.612995147705078,
+      "learning_rate": 2.411210407614891e-08,
+      "loss": 1.2891,
+      "step": 4940
+    },
+    {
+      "epoch": 0.9018036072144289,
+      "grad_norm": 8.340274810791016,
+      "learning_rate": 1.6745147689821428e-08,
+      "loss": 1.4353,
+      "step": 4950
+    },
+    {
+      "epoch": 0.9018036072144289,
+      "eval_loss": 1.219112515449524,
+      "eval_runtime": 41.6946,
+      "eval_samples_per_second": 11.992,
+      "eval_steps_per_second": 11.992,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 6.608928786071224e+17,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null