Training in progress, step 48, checkpoint

Browse files

Files changed (3) hide show

last-checkpoint/model-00001-of-00002.safetensors +1 -1
last-checkpoint/model-00002-of-00002.safetensors +1 -1
last-checkpoint/trainer_state.json +243 -3

last-checkpoint/model-00001-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5e7da2c9aef8f35f6786cbf06af70258ed692543ecd8515c205ebddc810fd910
 size 4969539560

 version https://git-lfs.github.com/spec/v1
+oid sha256:1c38008e3916fec8e8f62afa5a3bd98fe7c5d26d66abc6e96d2d4af4fff2c184
 size 4969539560

last-checkpoint/model-00002-of-00002.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:16af573dbb77b92352dc7d86e3ffabc1ab8f05af70d970bb7737f8c187b8c429
 size 1912795688

 version https://git-lfs.github.com/spec/v1
+oid sha256:9482d36f512837bb053f4653e6c9613c71d822c8b455d0f012e909689a04544a
 size 1912795688

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 4.0,
   "eval_steps": 16,
-  "global_step": 16,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -128,6 +128,246 @@
       "eval_samples_per_second": 18.005,
       "eval_steps_per_second": 18.005,
       "step": 16
     }
   ],
   "logging_steps": 1,
@@ -147,7 +387,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 5366131440353280.0,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 12.0,
   "eval_steps": 16,
+  "global_step": 48,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 18.005,
       "eval_steps_per_second": 18.005,
       "step": 16
+    },
+    {
+      "epoch": 4.290909090909091,
+      "grad_norm": 9.95614242553711,
+      "learning_rate": 4e-08,
+      "loss": 0.7785,
+      "step": 17
+    },
+    {
+      "epoch": 4.581818181818182,
+      "grad_norm": 11.356291770935059,
+      "learning_rate": 4.25e-08,
+      "loss": 0.8645,
+      "step": 18
+    },
+    {
+      "epoch": 4.872727272727273,
+      "grad_norm": 10.108142852783203,
+      "learning_rate": 4.5e-08,
+      "loss": 0.7834,
+      "step": 19
+    },
+    {
+      "epoch": 5.0,
+      "grad_norm": 10.209877014160156,
+      "learning_rate": 4.7499999999999995e-08,
+      "loss": 0.7744,
+      "step": 20
+    },
+    {
+      "epoch": 5.290909090909091,
+      "grad_norm": 9.586356163024902,
+      "learning_rate": 5e-08,
+      "loss": 0.7433,
+      "step": 21
+    },
+    {
+      "epoch": 5.581818181818182,
+      "grad_norm": 10.589778900146484,
+      "learning_rate": 5.25e-08,
+      "loss": 0.818,
+      "step": 22
+    },
+    {
+      "epoch": 5.872727272727273,
+      "grad_norm": 10.28813362121582,
+      "learning_rate": 5.5e-08,
+      "loss": 0.8245,
+      "step": 23
+    },
+    {
+      "epoch": 6.0,
+      "grad_norm": 13.027183532714844,
+      "learning_rate": 5.749999999999999e-08,
+      "loss": 0.8331,
+      "step": 24
+    },
+    {
+      "epoch": 6.290909090909091,
+      "grad_norm": 10.363873481750488,
+      "learning_rate": 6e-08,
+      "loss": 0.8331,
+      "step": 25
+    },
+    {
+      "epoch": 6.581818181818182,
+      "grad_norm": 9.84264850616455,
+      "learning_rate": 6.25e-08,
+      "loss": 0.755,
+      "step": 26
+    },
+    {
+      "epoch": 6.872727272727273,
+      "grad_norm": 10.973934173583984,
+      "learning_rate": 6.5e-08,
+      "loss": 0.8372,
+      "step": 27
+    },
+    {
+      "epoch": 7.0,
+      "grad_norm": 10.278410911560059,
+      "learning_rate": 6.75e-08,
+      "loss": 0.7442,
+      "step": 28
+    },
+    {
+      "epoch": 7.290909090909091,
+      "grad_norm": 10.205405235290527,
+      "learning_rate": 6.999999999999999e-08,
+      "loss": 0.7851,
+      "step": 29
+    },
+    {
+      "epoch": 7.581818181818182,
+      "grad_norm": 10.862798690795898,
+      "learning_rate": 7.25e-08,
+      "loss": 0.7962,
+      "step": 30
+    },
+    {
+      "epoch": 7.872727272727273,
+      "grad_norm": 9.971634864807129,
+      "learning_rate": 7.5e-08,
+      "loss": 0.79,
+      "step": 31
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 10.8460111618042,
+      "learning_rate": 7.75e-08,
+      "loss": 0.9105,
+      "step": 32
+    },
+    {
+      "epoch": 8.0,
+      "eval_loss": 0.7589532136917114,
+      "eval_runtime": 0.7554,
+      "eval_samples_per_second": 17.21,
+      "eval_steps_per_second": 17.21,
+      "step": 32
+    },
+    {
+      "epoch": 8.290909090909091,
+      "grad_norm": 10.4276704788208,
+      "learning_rate": 8e-08,
+      "loss": 0.7914,
+      "step": 33
+    },
+    {
+      "epoch": 8.581818181818182,
+      "grad_norm": 9.807103157043457,
+      "learning_rate": 8.249999999999999e-08,
+      "loss": 0.8344,
+      "step": 34
+    },
+    {
+      "epoch": 8.872727272727273,
+      "grad_norm": 9.850166320800781,
+      "learning_rate": 8.5e-08,
+      "loss": 0.7419,
+      "step": 35
+    },
+    {
+      "epoch": 9.0,
+      "grad_norm": 12.547399520874023,
+      "learning_rate": 8.75e-08,
+      "loss": 0.8597,
+      "step": 36
+    },
+    {
+      "epoch": 9.290909090909091,
+      "grad_norm": 10.39106559753418,
+      "learning_rate": 9e-08,
+      "loss": 0.7911,
+      "step": 37
+    },
+    {
+      "epoch": 9.581818181818182,
+      "grad_norm": 10.728227615356445,
+      "learning_rate": 9.25e-08,
+      "loss": 0.852,
+      "step": 38
+    },
+    {
+      "epoch": 9.872727272727273,
+      "grad_norm": 10.104507446289062,
+      "learning_rate": 9.499999999999999e-08,
+      "loss": 0.7942,
+      "step": 39
+    },
+    {
+      "epoch": 10.0,
+      "grad_norm": 9.163139343261719,
+      "learning_rate": 9.749999999999999e-08,
+      "loss": 0.7006,
+      "step": 40
+    },
+    {
+      "epoch": 10.290909090909091,
+      "grad_norm": 9.795455932617188,
+      "learning_rate": 1e-07,
+      "loss": 0.7496,
+      "step": 41
+    },
+    {
+      "epoch": 10.581818181818182,
+      "grad_norm": 9.88698959350586,
+      "learning_rate": 9.99982865378877e-08,
+      "loss": 0.7978,
+      "step": 42
+    },
+    {
+      "epoch": 10.872727272727273,
+      "grad_norm": 10.60831069946289,
+      "learning_rate": 9.99931462820376e-08,
+      "loss": 0.8437,
+      "step": 43
+    },
+    {
+      "epoch": 11.0,
+      "grad_norm": 10.177803039550781,
+      "learning_rate": 9.998457962390006e-08,
+      "loss": 0.7926,
+      "step": 44
+    },
+    {
+      "epoch": 11.290909090909091,
+      "grad_norm": 9.594599723815918,
+      "learning_rate": 9.997258721585931e-08,
+      "loss": 0.7521,
+      "step": 45
+    },
+    {
+      "epoch": 11.581818181818182,
+      "grad_norm": 9.713711738586426,
+      "learning_rate": 9.99571699711836e-08,
+      "loss": 0.7497,
+      "step": 46
+    },
+    {
+      "epoch": 11.872727272727273,
+      "grad_norm": 10.672869682312012,
+      "learning_rate": 9.993832906395581e-08,
+      "loss": 0.8709,
+      "step": 47
+    },
+    {
+      "epoch": 12.0,
+      "grad_norm": 10.758075714111328,
+      "learning_rate": 9.991606592898401e-08,
+      "loss": 0.8193,
+      "step": 48
+    },
+    {
+      "epoch": 12.0,
+      "eval_loss": 0.7549822926521301,
+      "eval_runtime": 0.7468,
+      "eval_samples_per_second": 17.407,
+      "eval_steps_per_second": 17.407,
+      "step": 48
     }
   ],
   "logging_steps": 1,
       "attributes": {}
     }
   },
+  "total_flos": 1.609839432105984e+16,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null