Training in progress, step 2250, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +116 -3

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d6e8b8c1e9c0bce3f00131df71d272a082ce5dcf2d99759019d2b0659c78315e
 size 1130395064

 version https://git-lfs.github.com/spec/v1
+oid sha256:30fe7e1571759f904f96e96e35fb771537a64a4595d3f408a3013c5e45ab7675
 size 1130395064

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6188e4d76c0b4e37ea00b0a3b23f5b7084262ecb5f16dd3e7bcbf521356872ef
 size 2260919034

 version https://git-lfs.github.com/spec/v1
+oid sha256:825681975624fe9e5a6487a56696a7029ffc7f55b92c5278918c1e8004acefda
 size 2260919034

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:347168a1ca5a3d3959109211d8471dcf62bcaa6f64d8a927b670d1eeeb82ee9c
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:077c0ad5fe3c016a80345ab1197859150afba028dca4b16043c90b58d29ddacd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb8d370aad2d5fbcf199f24dc52e08b4648a77d17fa77f60c7ea0dbb61e6a008
 size 1256

 version https://git-lfs.github.com/spec/v1
+oid sha256:91fe12062159a4c96d50e57746d4f5b13fabfbae70b7575964aa5efb771f8a0a
 size 1256

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": 1.7938833236694336,
   "best_model_checkpoint": "./output/checkpoint-750",
-  "epoch": 2.681992337164751,
   "eval_steps": 150,
-  "global_step": 2100,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1589,6 +1589,119 @@
       "eval_samples_per_second": 11.053,
       "eval_steps_per_second": 11.053,
       "step": 2100
     }
   ],
   "logging_steps": 10,
@@ -1608,7 +1721,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.2711771292829696e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": 1.7938833236694336,
   "best_model_checkpoint": "./output/checkpoint-750",
+  "epoch": 2.873563218390805,
   "eval_steps": 150,
+  "global_step": 2250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 11.053,
       "eval_steps_per_second": 11.053,
       "step": 2100
+    },
+    {
+      "epoch": 2.694763729246488,
+      "grad_norm": 4.319637775421143,
+      "learning_rate": 7.521673237007275e-06,
+      "loss": 1.5039,
+      "step": 2110
+    },
+    {
+      "epoch": 2.707535121328225,
+      "grad_norm": 4.250217914581299,
+      "learning_rate": 7.518344931171188e-06,
+      "loss": 1.4429,
+      "step": 2120
+    },
+    {
+      "epoch": 2.7203065134099615,
+      "grad_norm": 4.189040184020996,
+      "learning_rate": 7.5148628716184005e-06,
+      "loss": 1.4521,
+      "step": 2130
+    },
+    {
+      "epoch": 2.7330779054916987,
+      "grad_norm": 4.170867919921875,
+      "learning_rate": 7.5112272014827445e-06,
+      "loss": 1.4094,
+      "step": 2140
+    },
+    {
+      "epoch": 2.7458492975734354,
+      "grad_norm": 4.322047233581543,
+      "learning_rate": 7.507438070212378e-06,
+      "loss": 1.4112,
+      "step": 2150
+    },
+    {
+      "epoch": 2.7586206896551726,
+      "grad_norm": 3.8870387077331543,
+      "learning_rate": 7.5034956335636445e-06,
+      "loss": 1.4716,
+      "step": 2160
+    },
+    {
+      "epoch": 2.7713920817369093,
+      "grad_norm": 4.1431474685668945,
+      "learning_rate": 7.499400053594676e-06,
+      "loss": 1.4712,
+      "step": 2170
+    },
+    {
+      "epoch": 2.784163473818646,
+      "grad_norm": 4.3033599853515625,
+      "learning_rate": 7.495151498658724e-06,
+      "loss": 1.4473,
+      "step": 2180
+    },
+    {
+      "epoch": 2.796934865900383,
+      "grad_norm": 4.849308013916016,
+      "learning_rate": 7.490750143397239e-06,
+      "loss": 1.5007,
+      "step": 2190
+    },
+    {
+      "epoch": 2.80970625798212,
+      "grad_norm": 4.182689189910889,
+      "learning_rate": 7.486196168732699e-06,
+      "loss": 1.4584,
+      "step": 2200
+    },
+    {
+      "epoch": 2.822477650063857,
+      "grad_norm": 4.407222270965576,
+      "learning_rate": 7.481489761861165e-06,
+      "loss": 1.4464,
+      "step": 2210
+    },
+    {
+      "epoch": 2.835249042145594,
+      "grad_norm": 4.179383754730225,
+      "learning_rate": 7.476631116244589e-06,
+      "loss": 1.4528,
+      "step": 2220
+    },
+    {
+      "epoch": 2.8480204342273305,
+      "grad_norm": 4.344815731048584,
+      "learning_rate": 7.471620431602864e-06,
+      "loss": 1.441,
+      "step": 2230
+    },
+    {
+      "epoch": 2.8607918263090677,
+      "grad_norm": 4.661447525024414,
+      "learning_rate": 7.466457913905607e-06,
+      "loss": 1.4779,
+      "step": 2240
+    },
+    {
+      "epoch": 2.873563218390805,
+      "grad_norm": 4.431833744049072,
+      "learning_rate": 7.461143775363704e-06,
+      "loss": 1.4027,
+      "step": 2250
+    },
+    {
+      "epoch": 2.873563218390805,
+      "eval_loss": 1.819319248199463,
+      "eval_runtime": 46.1899,
+      "eval_samples_per_second": 10.825,
+      "eval_steps_per_second": 10.825,
+      "step": 2250
     }
   ],
   "logging_steps": 10,
       "attributes": {}
     }
   },
+  "total_flos": 2.435145735461806e+17,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null