Training in progress, epoch 17, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +108 -3

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:85a37ab425a5bb455eb5138be42e451b4f6504a4ec63d8c4323c617cb3ebc33e
 size 2682482800

 version https://git-lfs.github.com/spec/v1
+oid sha256:659e1a6a1ff1a9fbec759df1d78ad027f1d391213c1a217bf5b92f48ccb3b2a7
 size 2682482800

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fb0e7b73e702883e0aea72dd82fc77ae713a9e1e0ea8fae495ef88376c79291d
 size 5365108834

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5d5e4710df7ed104bcaa0a9051033613a80b4363c6f76bae6c58a4863fa30ad
 size 5365108834

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d2f665ad4a75c89f6711748909d7b7bdbe353d41461e39d9efde1e7c8c122662
 size 15006

 version https://git-lfs.github.com/spec/v1
+oid sha256:acb524c16816d50e3851812f08ed31af0f04d2253498b52b5121962571f22c75
 size 15006

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8db07ed3922379a7896753ff18d75baed592f87392b70da4afc38e708f68e8df
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ee6db23f5e321edc29e923809ce0b3dff2a73c49bba17a4de22c710250ea7d6e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,9 +1,9 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 16.997999636297507,
   "eval_steps": 50,
-  "global_step": 5831,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1747,6 +1747,111 @@
       "eval_samples_per_second": 41.458,
       "eval_steps_per_second": 20.729,
       "step": 5800
     }
   ],
   "logging_steps": 50,
@@ -1766,7 +1871,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.5187665302784573e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 17.997999636297507,
   "eval_steps": 50,
+  "global_step": 6174,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 41.458,
       "eval_steps_per_second": 20.729,
       "step": 5800
+    },
+    {
+      "epoch": 17.055282778687033,
+      "grad_norm": 69.1272201538086,
+      "learning_rate": 1.4723032069970846e-05,
+      "loss": 0.686,
+      "step": 5850
+    },
+    {
+      "epoch": 17.055282778687033,
+      "eval_loss": 0.662264883518219,
+      "eval_runtime": 116.5098,
+      "eval_samples_per_second": 41.421,
+      "eval_steps_per_second": 20.711,
+      "step": 5850
+    },
+    {
+      "epoch": 17.20076377523186,
+      "grad_norm": 46.41282653808594,
+      "learning_rate": 1.3994169096209913e-05,
+      "loss": 0.678,
+      "step": 5900
+    },
+    {
+      "epoch": 17.20076377523186,
+      "eval_loss": 0.6592727899551392,
+      "eval_runtime": 116.359,
+      "eval_samples_per_second": 41.475,
+      "eval_steps_per_second": 20.738,
+      "step": 5900
+    },
+    {
+      "epoch": 17.346244771776686,
+      "grad_norm": 69.46429443359375,
+      "learning_rate": 1.3265306122448982e-05,
+      "loss": 0.6799,
+      "step": 5950
+    },
+    {
+      "epoch": 17.346244771776686,
+      "eval_loss": 0.6556416153907776,
+      "eval_runtime": 116.5416,
+      "eval_samples_per_second": 41.41,
+      "eval_steps_per_second": 20.705,
+      "step": 5950
+    },
+    {
+      "epoch": 17.491725768321512,
+      "grad_norm": 53.518436431884766,
+      "learning_rate": 1.2536443148688048e-05,
+      "loss": 0.6783,
+      "step": 6000
+    },
+    {
+      "epoch": 17.491725768321512,
+      "eval_loss": 0.6580107808113098,
+      "eval_runtime": 116.1219,
+      "eval_samples_per_second": 41.56,
+      "eval_steps_per_second": 20.78,
+      "step": 6000
+    },
+    {
+      "epoch": 17.637206764866338,
+      "grad_norm": 57.20518493652344,
+      "learning_rate": 1.1807580174927114e-05,
+      "loss": 0.6784,
+      "step": 6050
+    },
+    {
+      "epoch": 17.637206764866338,
+      "eval_loss": 0.6599807143211365,
+      "eval_runtime": 116.2815,
+      "eval_samples_per_second": 41.503,
+      "eval_steps_per_second": 20.751,
+      "step": 6050
+    },
+    {
+      "epoch": 17.782687761411164,
+      "grad_norm": 49.93397521972656,
+      "learning_rate": 1.1078717201166182e-05,
+      "loss": 0.676,
+      "step": 6100
+    },
+    {
+      "epoch": 17.782687761411164,
+      "eval_loss": 0.6560738682746887,
+      "eval_runtime": 116.7097,
+      "eval_samples_per_second": 41.35,
+      "eval_steps_per_second": 20.675,
+      "step": 6100
+    },
+    {
+      "epoch": 17.92816875795599,
+      "grad_norm": 48.3265495300293,
+      "learning_rate": 1.0349854227405248e-05,
+      "loss": 0.6778,
+      "step": 6150
+    },
+    {
+      "epoch": 17.92816875795599,
+      "eval_loss": 0.6563200950622559,
+      "eval_runtime": 116.4229,
+      "eval_samples_per_second": 41.452,
+      "eval_steps_per_second": 20.726,
+      "step": 6150
     }
   ],
   "logging_steps": 50,
       "attributes": {}
     }
   },
+  "total_flos": 1.6080269119827476e+18,
   "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null