Training in progress, step 4950, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +118 -5

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d55348a9427418f6fcd874e4e9a2cf4dfc58f952df8a9a1237d7eec015c1241a
 size 918437272

 version https://git-lfs.github.com/spec/v1
+oid sha256:2a6abac8183d48782a38621b2ad02b41281d7e7b824e001c22ef0be73bd895a5
 size 918437272

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ab601705d8ea4b42405f0e2d2fae54934e9007897252aeabf39c53e8ac5c905
 size 1818047994

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8b5dd798ae4fbfaf573921b92ccf701de69c314246a18e7ee1cc6127f7b3d8f
 size 1818047994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:14d5fdc75d44b7288864d2d3f27b5970fbeed813742ef392f50012c3498b13b8
 size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:41eccae4808322faff27fc16d79d422aaed6499b9187acc8a51eb7ec539f0033
 size 14308

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:eac5f39cff78dbcb4d12b97b9e8b1e16624c544af38c507e787f6f6a19013821
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:388b33af9ccc80fdb83f03a3a59d7426230bca392fb13bf15fe996173ee1addc
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
-  "best_metric": 1.7718878984451294,
-  "best_model_checkpoint": "./output/checkpoint-4650",
-  "epoch": 0.1947261663286004,
   "eval_steps": 150,
-  "global_step": 4800,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -3623,6 +3623,119 @@
       "eval_samples_per_second": 4.69,
       "eval_steps_per_second": 4.69,
       "step": 4800
     }
   ],
   "logging_steps": 10,
@@ -3642,7 +3755,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.073711448778097e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
+  "best_metric": 1.771836519241333,
+  "best_model_checkpoint": "./output/checkpoint-4950",
+  "epoch": 0.20081135902636918,
   "eval_steps": 150,
+  "global_step": 4950,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 4.69,
       "eval_steps_per_second": 4.69,
       "step": 4800
+    },
+    {
+      "epoch": 0.195131845841785,
+      "grad_norm": 1.9514738321304321,
+      "learning_rate": 1.6303105993536925e-07,
+      "loss": 1.782,
+      "step": 4810
+    },
+    {
+      "epoch": 0.19553752535496957,
+      "grad_norm": 2.278503656387329,
+      "learning_rate": 1.4634005624572287e-07,
+      "loss": 1.7479,
+      "step": 4820
+    },
+    {
+      "epoch": 0.19594320486815417,
+      "grad_norm": 1.350433349609375,
+      "learning_rate": 1.3054737092143243e-07,
+      "loss": 1.7898,
+      "step": 4830
+    },
+    {
+      "epoch": 0.19634888438133874,
+      "grad_norm": 1.5180749893188477,
+      "learning_rate": 1.1565365313793708e-07,
+      "loss": 1.6663,
+      "step": 4840
+    },
+    {
+      "epoch": 0.19675456389452334,
+      "grad_norm": 1.4074867963790894,
+      "learning_rate": 1.0165951511763893e-07,
+      "loss": 1.6728,
+      "step": 4850
+    },
+    {
+      "epoch": 0.1971602434077079,
+      "grad_norm": 1.7931207418441772,
+      "learning_rate": 8.856553210474049e-08,
+      "loss": 1.8813,
+      "step": 4860
+    },
+    {
+      "epoch": 0.1975659229208925,
+      "grad_norm": 1.8366204500198364,
+      "learning_rate": 7.637224234159889e-08,
+      "loss": 1.7086,
+      "step": 4870
+    },
+    {
+      "epoch": 0.19797160243407708,
+      "grad_norm": 2.0244340896606445,
+      "learning_rate": 6.508014704659936e-08,
+      "loss": 1.8715,
+      "step": 4880
+    },
+    {
+      "epoch": 0.19837728194726167,
+      "grad_norm": 1.8429874181747437,
+      "learning_rate": 5.4689710393547974e-08,
+      "loss": 1.8055,
+      "step": 4890
+    },
+    {
+      "epoch": 0.19878296146044624,
+      "grad_norm": 1.819106936454773,
+      "learning_rate": 4.520135949260062e-08,
+      "loss": 1.702,
+      "step": 4900
+    },
+    {
+      "epoch": 0.19918864097363084,
+      "grad_norm": 1.1902400255203247,
+      "learning_rate": 3.661548437270157e-08,
+      "loss": 1.7083,
+      "step": 4910
+    },
+    {
+      "epoch": 0.1995943204868154,
+      "grad_norm": 1.9737108945846558,
+      "learning_rate": 2.8932437965543568e-08,
+      "loss": 1.7031,
+      "step": 4920
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 1.748837947845459,
+      "learning_rate": 2.2152536091079032e-08,
+      "loss": 1.7721,
+      "step": 4930
+    },
+    {
+      "epoch": 0.20040567951318458,
+      "grad_norm": 1.635393500328064,
+      "learning_rate": 1.6276057444511328e-08,
+      "loss": 1.7482,
+      "step": 4940
+    },
+    {
+      "epoch": 0.20081135902636918,
+      "grad_norm": 1.5101112127304077,
+      "learning_rate": 1.130324358486634e-08,
+      "loss": 1.8713,
+      "step": 4950
+    },
+    {
+      "epoch": 0.20081135902636918,
+      "eval_loss": 1.771836519241333,
+      "eval_runtime": 106.6443,
+      "eval_samples_per_second": 4.688,
+      "eval_steps_per_second": 4.688,
+      "step": 4950
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 8.323438292140032e+17,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null