Training in progress, epoch 18, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +108 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:659e1a6a1ff1a9fbec759df1d78ad027f1d391213c1a217bf5b92f48ccb3b2a7
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa112d7382802b71b92578187eb839ff8484215e39cd2eebf633f2cdf07840b3
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5d5e4710df7ed104bcaa0a9051033613a80b4363c6f76bae6c58a4863fa30ad
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:36e264601b26cf4f05d8d9b8bf2be8d4c0837531e47c0482bd376cbd5b8441a5
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:acb524c16816d50e3851812f08ed31af0f04d2253498b52b5121962571f22c75
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:00a1f49e04dfd6249428b9586875a339bc93164dac6605e82474c6ccf8f127eb
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee6db23f5e321edc29e923809ce0b3dff2a73c49bba17a4de22c710250ea7d6e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:fbcba6a24d9c72c080feefc697485672e2b8856f539e65accd7175f3e99dc162
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 17.997999636297507,
   "eval_steps": 50,
-  "global_step": 6174,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1852,6 +1852,111 @@
       "eval_samples_per_second": 41.452,
       "eval_steps_per_second": 20.726,
       "step": 6150
     }
   ],
   "logging_steps": 50,
@@ -1871,7 +1976,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.6080269119827476e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 18.997999636297507,
   "eval_steps": 50,
+  "global_step": 6517,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.452,
       "eval_steps_per_second": 20.726,
       "step": 6150
+    },
+    {
+      "epoch": 18.07565011820331,
+      "grad_norm": 74.32230377197266,
+      "learning_rate": 9.620991253644314e-06,
+      "loss": 0.6763,
+      "step": 6200
+    },
+    {
+      "epoch": 18.07565011820331,
+      "eval_loss": 0.6560296416282654,
+      "eval_runtime": 116.3284,
+      "eval_samples_per_second": 41.486,
+      "eval_steps_per_second": 20.743,
+      "step": 6200
+    },
+    {
+      "epoch": 18.221131114748136,
+      "grad_norm": 62.084503173828125,
+      "learning_rate": 8.892128279883383e-06,
+      "loss": 0.6667,
+      "step": 6250
+    },
+    {
+      "epoch": 18.221131114748136,
+      "eval_loss": 0.6540623903274536,
+      "eval_runtime": 116.3245,
+      "eval_samples_per_second": 41.487,
+      "eval_steps_per_second": 20.744,
+      "step": 6250
+    },
+    {
+      "epoch": 18.366612111292962,
+      "grad_norm": 43.38812255859375,
+      "learning_rate": 8.163265306122448e-06,
+      "loss": 0.6761,
+      "step": 6300
+    },
+    {
+      "epoch": 18.366612111292962,
+      "eval_loss": 0.6527947187423706,
+      "eval_runtime": 116.5368,
+      "eval_samples_per_second": 41.412,
+      "eval_steps_per_second": 20.706,
+      "step": 6300
+    },
+    {
+      "epoch": 18.51209310783779,
+      "grad_norm": 81.97037506103516,
+      "learning_rate": 7.434402332361516e-06,
+      "loss": 0.6708,
+      "step": 6350
+    },
+    {
+      "epoch": 18.51209310783779,
+      "eval_loss": 0.656480073928833,
+      "eval_runtime": 116.5086,
+      "eval_samples_per_second": 41.422,
+      "eval_steps_per_second": 20.711,
+      "step": 6350
+    },
+    {
+      "epoch": 18.657574104382615,
+      "grad_norm": 60.97893524169922,
+      "learning_rate": 6.705539358600584e-06,
+      "loss": 0.6704,
+      "step": 6400
+    },
+    {
+      "epoch": 18.657574104382615,
+      "eval_loss": 0.6558669209480286,
+      "eval_runtime": 116.735,
+      "eval_samples_per_second": 41.342,
+      "eval_steps_per_second": 20.671,
+      "step": 6400
+    },
+    {
+      "epoch": 18.80305510092744,
+      "grad_norm": 75.70346069335938,
+      "learning_rate": 5.97667638483965e-06,
+      "loss": 0.6695,
+      "step": 6450
+    },
+    {
+      "epoch": 18.80305510092744,
+      "eval_loss": 0.6515429615974426,
+      "eval_runtime": 116.3122,
+      "eval_samples_per_second": 41.492,
+      "eval_steps_per_second": 20.746,
+      "step": 6450
+    },
+    {
+      "epoch": 18.948536097472267,
+      "grad_norm": 49.48427963256836,
+      "learning_rate": 5.247813411078718e-06,
+      "loss": 0.6716,
+      "step": 6500
+    },
+    {
+      "epoch": 18.948536097472267,
+      "eval_loss": 0.6520217061042786,
+      "eval_runtime": 116.8293,
+      "eval_samples_per_second": 41.308,
+      "eval_steps_per_second": 20.654,
+      "step": 6500
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.697366505768878e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null