Training in progress, step 3160, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +1 -1
last-checkpoint/rng_state_1.pth +1 -1
last-checkpoint/rng_state_2.pth +1 -1
last-checkpoint/rng_state_3.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +235 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ccc31b325ea5e97de26962f9c363d36c8f7bcc9b2c483acfd04d8b25473fb030
 size 778096664

 version https://git-lfs.github.com/spec/v1
+oid sha256:c78c8e751c48b040746199c31e75d4feef561d8684dffb5fcab27976fb39c540
 size 778096664

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6714b7aef17f2794052715fb1d2a91d01de4d8f1caf070386b5c9090d1706b18
 size 395561780

 version https://git-lfs.github.com/spec/v1
+oid sha256:c99fe2c15f38fcdc70c5b58aeb7a136875edf29121b459165ec343854635f422
 size 395561780

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27aa5a04d0e71b37e8a012539a9ef09b35c45f10549e842573fcadd937bdbda6
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3928ccf2665d8a8f3c5df0c8d51a1eb19cd2344599c97853e6f5d312bbb405f
 size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:935ce3c1f9a7c99c1a2b10dd4d0a70e52329d509a97359b0a5e2dd28db2a0c7e
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:7592e1462fd4ef7cdf5cfb2001145c35bf845f4d92dab45be159a6b9ee3ebede
 size 15024

last-checkpoint/rng_state_2.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4d4fa2b8adc56b8f314255d4d4174130680b175366a89e510095e6ebf1d963bb
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:08890ef963c10a9a7237efd117c8a94e5bd2fcf389061bead891541b89553427
 size 15024

last-checkpoint/rng_state_3.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b9f58c145b7dd21968ed9e8d6c7e6466a650ad919a266febaa45d71dd3b08d06
 size 15024

 version https://git-lfs.github.com/spec/v1
+oid sha256:3913c6f063ebbf405426bd1b09789ed429fc38cb3d4f60751f4a61b49df23be0
 size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:28319ed5c95ef1c1c3a582aaf767f4eabd6950a5f91539e533e9bb21d7f70a19
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:51411024d8c787642cc454881d33eeea730ff1d5a51ba77cdf08351edff87c13
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.23509933774834438,
   "eval_steps": 320,
-  "global_step": 2840,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -2067,6 +2067,238 @@
       "learning_rate": 3.420445597436056e-06,
       "loss": 1.4729,
       "step": 2840
     }
   ],
   "logging_steps": 10,
@@ -2086,7 +2318,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2618773495157883e+18,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.26158940397350994,
   "eval_steps": 320,
+  "global_step": 3160,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "learning_rate": 3.420445597436056e-06,
       "loss": 1.4729,
       "step": 2840
+    },
+    {
+      "epoch": 0.2359271523178808,
+      "grad_norm": 0.680798351764679,
+      "learning_rate": 3.2351082041623125e-06,
+      "loss": 1.5296,
+      "step": 2850
+    },
+    {
+      "epoch": 0.2367549668874172,
+      "grad_norm": 0.7416069507598877,
+      "learning_rate": 3.054765042128521e-06,
+      "loss": 1.4074,
+      "step": 2860
+    },
+    {
+      "epoch": 0.23758278145695363,
+      "grad_norm": 1.013679027557373,
+      "learning_rate": 2.8794353709848178e-06,
+      "loss": 1.5031,
+      "step": 2870
+    },
+    {
+      "epoch": 0.23841059602649006,
+      "grad_norm": 0.684421956539154,
+      "learning_rate": 2.7091379149682685e-06,
+      "loss": 1.4008,
+      "step": 2880
+    },
+    {
+      "epoch": 0.23841059602649006,
+      "eval_loss": 1.778387188911438,
+      "eval_runtime": 379.3466,
+      "eval_samples_per_second": 45.721,
+      "eval_steps_per_second": 3.812,
+      "step": 2880
+    },
+    {
+      "epoch": 0.2392384105960265,
+      "grad_norm": 0.6681047081947327,
+      "learning_rate": 2.5438908609032698e-06,
+      "loss": 1.37,
+      "step": 2890
+    },
+    {
+      "epoch": 0.24006622516556292,
+      "grad_norm": 0.5961506366729736,
+      "learning_rate": 2.3837118562592797e-06,
+      "loss": 1.4046,
+      "step": 2900
+    },
+    {
+      "epoch": 0.24089403973509935,
+      "grad_norm": 0.5972995758056641,
+      "learning_rate": 2.22861800726617e-06,
+      "loss": 1.5898,
+      "step": 2910
+    },
+    {
+      "epoch": 0.24172185430463577,
+      "grad_norm": 0.7544158697128296,
+      "learning_rate": 2.0786258770873647e-06,
+      "loss": 1.4093,
+      "step": 2920
+    },
+    {
+      "epoch": 0.24254966887417218,
+      "grad_norm": 0.5568986535072327,
+      "learning_rate": 1.933751484051027e-06,
+      "loss": 1.5618,
+      "step": 2930
+    },
+    {
+      "epoch": 0.2433774834437086,
+      "grad_norm": 0.6362126469612122,
+      "learning_rate": 1.7940102999393194e-06,
+      "loss": 1.4395,
+      "step": 2940
+    },
+    {
+      "epoch": 0.24420529801324503,
+      "grad_norm": 0.6483564376831055,
+      "learning_rate": 1.6594172483361758e-06,
+      "loss": 1.3861,
+      "step": 2950
+    },
+    {
+      "epoch": 0.24503311258278146,
+      "grad_norm": 0.6191815137863159,
+      "learning_rate": 1.5299867030334814e-06,
+      "loss": 1.4288,
+      "step": 2960
+    },
+    {
+      "epoch": 0.2458609271523179,
+      "grad_norm": 0.7167540788650513,
+      "learning_rate": 1.4057324864960975e-06,
+      "loss": 1.4678,
+      "step": 2970
+    },
+    {
+      "epoch": 0.24668874172185432,
+      "grad_norm": 0.7405688762664795,
+      "learning_rate": 1.286667868385627e-06,
+      "loss": 1.3775,
+      "step": 2980
+    },
+    {
+      "epoch": 0.24751655629139072,
+      "grad_norm": 0.7301118969917297,
+      "learning_rate": 1.172805564143359e-06,
+      "loss": 1.5456,
+      "step": 2990
+    },
+    {
+      "epoch": 0.24834437086092714,
+      "grad_norm": 0.8688226938247681,
+      "learning_rate": 1.064157733632276e-06,
+      "loss": 1.4586,
+      "step": 3000
+    },
+    {
+      "epoch": 0.24917218543046357,
+      "grad_norm": 0.7074631452560425,
+      "learning_rate": 9.607359798384785e-07,
+      "loss": 1.4873,
+      "step": 3010
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 0.7328817844390869,
+      "learning_rate": 8.62551347632029e-07,
+      "loss": 1.4613,
+      "step": 3020
+    },
+    {
+      "epoch": 0.2508278145695364,
+      "grad_norm": 0.7635940909385681,
+      "learning_rate": 7.696143225874475e-07,
+      "loss": 1.4208,
+      "step": 3030
+    },
+    {
+      "epoch": 0.25165562913907286,
+      "grad_norm": 0.6220166683197021,
+      "learning_rate": 6.819348298638839e-07,
+      "loss": 1.4609,
+      "step": 3040
+    },
+    {
+      "epoch": 0.25248344370860926,
+      "grad_norm": 0.7133238911628723,
+      "learning_rate": 5.995222331451722e-07,
+      "loss": 1.4993,
+      "step": 3050
+    },
+    {
+      "epoch": 0.2533112582781457,
+      "grad_norm": 0.697382390499115,
+      "learning_rate": 5.223853336398632e-07,
+      "loss": 1.4244,
+      "step": 3060
+    },
+    {
+      "epoch": 0.2541390728476821,
+      "grad_norm": 0.7835958003997803,
+      "learning_rate": 4.505323691412711e-07,
+      "loss": 1.5133,
+      "step": 3070
+    },
+    {
+      "epoch": 0.25496688741721857,
+      "grad_norm": 0.6556974053382874,
+      "learning_rate": 3.839710131477492e-07,
+      "loss": 1.4107,
+      "step": 3080
+    },
+    {
+      "epoch": 0.25579470198675497,
+      "grad_norm": 0.8099976181983948,
+      "learning_rate": 3.2270837404318464e-07,
+      "loss": 1.4708,
+      "step": 3090
+    },
+    {
+      "epoch": 0.25662251655629137,
+      "grad_norm": 0.7530120015144348,
+      "learning_rate": 2.667509943378721e-07,
+      "loss": 1.4437,
+      "step": 3100
+    },
+    {
+      "epoch": 0.2574503311258278,
+      "grad_norm": 0.6962845921516418,
+      "learning_rate": 2.161048499698115e-07,
+      "loss": 1.504,
+      "step": 3110
+    },
+    {
+      "epoch": 0.2582781456953642,
+      "grad_norm": 0.6753128170967102,
+      "learning_rate": 1.7077534966650766e-07,
+      "loss": 1.4186,
+      "step": 3120
+    },
+    {
+      "epoch": 0.2591059602649007,
+      "grad_norm": 0.6573652625083923,
+      "learning_rate": 1.3076733436734322e-07,
+      "loss": 1.4241,
+      "step": 3130
+    },
+    {
+      "epoch": 0.2599337748344371,
+      "grad_norm": 0.6068715453147888,
+      "learning_rate": 9.60850767065924e-08,
+      "loss": 1.3682,
+      "step": 3140
+    },
+    {
+      "epoch": 0.26076158940397354,
+      "grad_norm": 0.7726837396621704,
+      "learning_rate": 6.673228055715241e-08,
+      "loss": 1.5453,
+      "step": 3150
+    },
+    {
+      "epoch": 0.26158940397350994,
+      "grad_norm": 0.6201027035713196,
+      "learning_rate": 4.2712080634949024e-08,
+      "loss": 1.4545,
+      "step": 3160
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 1.404060712841511e+18,
   "train_batch_size": 3,
   "trial_name": null,
   "trial_params": null