Training in progress, step 256, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/trainer_state.json +243 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5f766264a80af3c2e0386eedf3905edbf56634837a038ce95c6038d7405eedfe
 size 4969539560

 version https://git-lfs.github.com/spec/v1
+oid sha256:53050572e6d32d87f418fb11be50520f613885e4b0708517cfa6e2215b947ed7
 size 4969539560

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b6e24e7e534a14d518b12200bfaba3ba2cedbbafce9b0fbda9c2aca6057ce604
 size 1912795688

 version https://git-lfs.github.com/spec/v1
+oid sha256:4f7432c6c2d81986a5ed02165a3855e35a452015578c47719de803e320276e4e
 size 1912795688

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 56.0,
   "eval_steps": 16,
-  "global_step": 224,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1688,6 +1688,246 @@
       "eval_samples_per_second": 17.427,
       "eval_steps_per_second": 17.427,
       "step": 224
     }
   ],
   "logging_steps": 1,
@@ -1707,7 +1947,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 7.512584016494592e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 64.0,
   "eval_steps": 16,
+  "global_step": 256,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 17.427,
       "eval_steps_per_second": 17.427,
       "step": 224
+    },
+    {
+      "epoch": 56.29090909090909,
+      "grad_norm": 4.434227466583252,
+      "learning_rate": 5.342952264838747e-08,
+      "loss": 0.7395,
+      "step": 225
+    },
+    {
+      "epoch": 56.58181818181818,
+      "grad_norm": 4.03561544418335,
+      "learning_rate": 5.303712756855988e-08,
+      "loss": 0.7176,
+      "step": 226
+    },
+    {
+      "epoch": 56.872727272727275,
+      "grad_norm": 3.4329726696014404,
+      "learning_rate": 5.264488196906752e-08,
+      "loss": 0.5565,
+      "step": 227
+    },
+    {
+      "epoch": 57.0,
+      "grad_norm": 3.6157584190368652,
+      "learning_rate": 5.225281572093143e-08,
+      "loss": 0.7052,
+      "step": 228
+    },
+    {
+      "epoch": 57.29090909090909,
+      "grad_norm": 3.654561996459961,
+      "learning_rate": 5.1860958681514355e-08,
+      "loss": 0.6931,
+      "step": 229
+    },
+    {
+      "epoch": 57.58181818181818,
+      "grad_norm": 3.4616754055023193,
+      "learning_rate": 5.1469340692246985e-08,
+      "loss": 0.6126,
+      "step": 230
+    },
+    {
+      "epoch": 57.872727272727275,
+      "grad_norm": 4.538090229034424,
+      "learning_rate": 5.107799157635537e-08,
+      "loss": 0.7149,
+      "step": 231
+    },
+    {
+      "epoch": 58.0,
+      "grad_norm": 3.8424854278564453,
+      "learning_rate": 5.068694113658992e-08,
+      "loss": 0.6564,
+      "step": 232
+    },
+    {
+      "epoch": 58.29090909090909,
+      "grad_norm": 3.360053777694702,
+      "learning_rate": 5.02962191529556e-08,
+      "loss": 0.6657,
+      "step": 233
+    },
+    {
+      "epoch": 58.58181818181818,
+      "grad_norm": 4.166203022003174,
+      "learning_rate": 4.9905855380444194e-08,
+      "loss": 0.7461,
+      "step": 234
+    },
+    {
+      "epoch": 58.872727272727275,
+      "grad_norm": 3.4333815574645996,
+      "learning_rate": 4.9515879546768366e-08,
+      "loss": 0.5924,
+      "step": 235
+    },
+    {
+      "epoch": 59.0,
+      "grad_norm": 4.719890594482422,
+      "learning_rate": 4.912632135009769e-08,
+      "loss": 0.6793,
+      "step": 236
+    },
+    {
+      "epoch": 59.29090909090909,
+      "grad_norm": 3.6366472244262695,
+      "learning_rate": 4.873721045679706e-08,
+      "loss": 0.6648,
+      "step": 237
+    },
+    {
+      "epoch": 59.58181818181818,
+      "grad_norm": 4.29836893081665,
+      "learning_rate": 4.8348576499167516e-08,
+      "loss": 0.6871,
+      "step": 238
+    },
+    {
+      "epoch": 59.872727272727275,
+      "grad_norm": 3.3436715602874756,
+      "learning_rate": 4.7960449073189604e-08,
+      "loss": 0.6136,
+      "step": 239
+    },
+    {
+      "epoch": 60.0,
+      "grad_norm": 3.974397897720337,
+      "learning_rate": 4.75728577362695e-08,
+      "loss": 0.7364,
+      "step": 240
+    },
+    {
+      "epoch": 60.0,
+      "eval_loss": 0.6488688588142395,
+      "eval_runtime": 0.7429,
+      "eval_samples_per_second": 17.5,
+      "eval_steps_per_second": 17.5,
+      "step": 240
+    },
+    {
+      "epoch": 60.29090909090909,
+      "grad_norm": 4.133732318878174,
+      "learning_rate": 4.718583200498813e-08,
+      "loss": 0.7386,
+      "step": 241
+    },
+    {
+      "epoch": 60.58181818181818,
+      "grad_norm": 3.358363151550293,
+      "learning_rate": 4.6799401352853365e-08,
+      "loss": 0.6255,
+      "step": 242
+    },
+    {
+      "epoch": 60.872727272727275,
+      "grad_norm": 3.73943829536438,
+      "learning_rate": 4.641359520805548e-08,
+      "loss": 0.6834,
+      "step": 243
+    },
+    {
+      "epoch": 61.0,
+      "grad_norm": 3.680448532104492,
+      "learning_rate": 4.6028442951226135e-08,
+      "loss": 0.5903,
+      "step": 244
+    },
+    {
+      "epoch": 61.29090909090909,
+      "grad_norm": 3.3045241832733154,
+      "learning_rate": 4.564397391320084e-08,
+      "loss": 0.5871,
+      "step": 245
+    },
+    {
+      "epoch": 61.58181818181818,
+      "grad_norm": 3.690742015838623,
+      "learning_rate": 4.526021737278537e-08,
+      "loss": 0.6913,
+      "step": 246
+    },
+    {
+      "epoch": 61.872727272727275,
+      "grad_norm": 4.233401775360107,
+      "learning_rate": 4.4877202554526084e-08,
+      "loss": 0.7115,
+      "step": 247
+    },
+    {
+      "epoch": 62.0,
+      "grad_norm": 3.5080771446228027,
+      "learning_rate": 4.449495862648427e-08,
+      "loss": 0.687,
+      "step": 248
+    },
+    {
+      "epoch": 62.29090909090909,
+      "grad_norm": 3.3871119022369385,
+      "learning_rate": 4.4113514698014955e-08,
+      "loss": 0.6901,
+      "step": 249
+    },
+    {
+      "epoch": 62.58181818181818,
+      "grad_norm": 3.6088693141937256,
+      "learning_rate": 4.373289981755013e-08,
+      "loss": 0.631,
+      "step": 250
+    },
+    {
+      "epoch": 62.872727272727275,
+      "grad_norm": 3.743149518966675,
+      "learning_rate": 4.335314297038656e-08,
+      "loss": 0.6351,
+      "step": 251
+    },
+    {
+      "epoch": 63.0,
+      "grad_norm": 4.030084133148193,
+      "learning_rate": 4.297427307647844e-08,
+      "loss": 0.7212,
+      "step": 252
+    },
+    {
+      "epoch": 63.29090909090909,
+      "grad_norm": 3.458228349685669,
+      "learning_rate": 4.2596318988235035e-08,
+      "loss": 0.629,
+      "step": 253
+    },
+    {
+      "epoch": 63.58181818181818,
+      "grad_norm": 4.063506126403809,
+      "learning_rate": 4.2219309488323486e-08,
+      "loss": 0.6565,
+      "step": 254
+    },
+    {
+      "epoch": 63.872727272727275,
+      "grad_norm": 3.257892370223999,
+      "learning_rate": 4.184327328747685e-08,
+      "loss": 0.6644,
+      "step": 255
+    },
+    {
+      "epoch": 64.0,
+      "grad_norm": 3.964184284210205,
+      "learning_rate": 4.1468239022307716e-08,
+      "loss": 0.7706,
+      "step": 256
+    },
+    {
+      "epoch": 64.0,
+      "eval_loss": 0.6460027694702148,
+      "eval_runtime": 0.7572,
+      "eval_samples_per_second": 17.168,
+      "eval_steps_per_second": 17.168,
+      "step": 256
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 8.585810304565248e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null