Training in progress, step 61000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c3d4eb10327c6f996a0988361f6ad9bbab09e394aba34b1a396d7082da2216c0
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:4dc1817a301fc24319ca1c05c92090e28d0ab00a3a5d43949da4772ff52fcf2b
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f1da98e221b67155367bda2e5baaef41263bc46b4743e333b4e678859da5c6df
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:3c0576570955fbd0c77602fddc48b3da384f1445f3f7054045594138138a2617
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e6a4cb233f004dcf5c1bd7310c625e6acfeb53e49f5aa9a513759dc7631fff0b
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a8ee7735caca4437694ef1fa1c7821cadab81eb5dba9c8318224d8baee7f9384
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:be823a58640077d89dc450d2caf77b9f9c93851d1d9a6e787b2d5f1c9c9930be
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:88c7ed774bb0bea4c8451805c5254d2a8728348d14f02b8481173830b417e9b0
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.2862015097129637,
   "eval_steps": 500,
-  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10688,11 +10688,189 @@
       "eval_steps_per_second": 23.327,
       "num_input_tokens_seen": 15728635456,
       "step": 60000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 15728635456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -10707,7 +10885,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.2075634959620506e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.29097153487484645,
   "eval_steps": 500,
+  "global_step": 61000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.327,
       "num_input_tokens_seen": 15728635456,
       "step": 60000
+    },
+    {
+      "epoch": 0.28644001097105787,
+      "grad_norm": 0.25951045751571655,
+      "learning_rate": 0.0008073393063582386,
+      "loss": 2.5946,
+      "num_input_tokens_seen": 15741742656,
+      "step": 60050
+    },
+    {
+      "epoch": 0.286678512229152,
+      "grad_norm": 0.22712726891040802,
+      "learning_rate": 0.00080289502192041,
+      "loss": 2.5882,
+      "num_input_tokens_seen": 15754849856,
+      "step": 60100
+    },
+    {
+      "epoch": 0.28691701348724613,
+      "grad_norm": 0.2236946076154709,
+      "learning_rate": 0.0007984126070912518,
+      "loss": 2.5854,
+      "num_input_tokens_seen": 15767957056,
+      "step": 60150
+    },
+    {
+      "epoch": 0.2871555147453403,
+      "grad_norm": 0.3175867795944214,
+      "learning_rate": 0.0007938926261462366,
+      "loss": 2.5855,
+      "num_input_tokens_seen": 15781064256,
+      "step": 60200
+    },
+    {
+      "epoch": 0.2873940160034344,
+      "grad_norm": 0.22954128682613373,
+      "learning_rate": 0.000789335648089903,
+      "loss": 2.595,
+      "num_input_tokens_seen": 15794171456,
+      "step": 60250
+    },
+    {
+      "epoch": 0.28763251726152855,
+      "grad_norm": 0.23379147052764893,
+      "learning_rate": 0.000784742246584226,
+      "loss": 2.5872,
+      "num_input_tokens_seen": 15807278656,
+      "step": 60300
+    },
+    {
+      "epoch": 0.2878710185196227,
+      "grad_norm": 0.22107115387916565,
+      "learning_rate": 0.0007801129998764014,
+      "loss": 2.5704,
+      "num_input_tokens_seen": 15820385856,
+      "step": 60350
+    },
+    {
+      "epoch": 0.2881095197777168,
+      "grad_norm": 0.21197494864463806,
+      "learning_rate": 0.0007754484907260512,
+      "loss": 2.5751,
+      "num_input_tokens_seen": 15833493056,
+      "step": 60400
+    },
+    {
+      "epoch": 0.288348021035811,
+      "grad_norm": 0.21372662484645844,
+      "learning_rate": 0.0007707493063318629,
+      "loss": 2.5901,
+      "num_input_tokens_seen": 15846600256,
+      "step": 60450
+    },
+    {
+      "epoch": 0.2885865222939051,
+      "grad_norm": 0.23300603032112122,
+      "learning_rate": 0.0007660160382576683,
+      "loss": 2.5888,
+      "num_input_tokens_seen": 15859707456,
+      "step": 60500
+    },
+    {
+      "epoch": 0.2885865222939051,
+      "eval_loss": 2.463745355606079,
+      "eval_runtime": 53.032,
+      "eval_samples_per_second": 94.283,
+      "eval_steps_per_second": 23.571,
+      "num_input_tokens_seen": 15859707456,
+      "step": 60500
+    },
+    {
+      "epoch": 0.28882502355199924,
+      "grad_norm": 0.2108684778213501,
+      "learning_rate": 0.0007612492823579744,
+      "loss": 2.5965,
+      "num_input_tokens_seen": 15872814656,
+      "step": 60550
+    },
+    {
+      "epoch": 0.2890635248100934,
+      "grad_norm": 0.20625820755958557,
+      "learning_rate": 0.0007564496387029531,
+      "loss": 2.5615,
+      "num_input_tokens_seen": 15885921856,
+      "step": 60600
+    },
+    {
+      "epoch": 0.2893020260681875,
+      "grad_norm": 0.22595694661140442,
+      "learning_rate": 0.0007516177115029001,
+      "loss": 2.5871,
+      "num_input_tokens_seen": 15899029056,
+      "step": 60650
+    },
+    {
+      "epoch": 0.28954052732628166,
+      "grad_norm": 0.2095574140548706,
+      "learning_rate": 0.0007467541090321735,
+      "loss": 2.5867,
+      "num_input_tokens_seen": 15912136256,
+      "step": 60700
+    },
+    {
+      "epoch": 0.28977902858437576,
+      "grad_norm": 0.1979990303516388,
+      "learning_rate": 0.00074185944355262,
+      "loss": 2.586,
+      "num_input_tokens_seen": 15925243456,
+      "step": 60750
+    },
+    {
+      "epoch": 0.2900175298424699,
+      "grad_norm": 0.3573000431060791,
+      "learning_rate": 0.0007369343312364993,
+      "loss": 2.5807,
+      "num_input_tokens_seen": 15938350656,
+      "step": 60800
+    },
+    {
+      "epoch": 0.2902560311005641,
+      "grad_norm": 0.2209523618221283,
+      "learning_rate": 0.0007319793920889171,
+      "loss": 2.5867,
+      "num_input_tokens_seen": 15951457856,
+      "step": 60850
+    },
+    {
+      "epoch": 0.2904945323586582,
+      "grad_norm": 0.1979866325855255,
+      "learning_rate": 0.0007269952498697733,
+      "loss": 2.5679,
+      "num_input_tokens_seen": 15964565056,
+      "step": 60900
+    },
+    {
+      "epoch": 0.29073303361675235,
+      "grad_norm": 0.2013344019651413,
+      "learning_rate": 0.0007219825320152411,
+      "loss": 2.5842,
+      "num_input_tokens_seen": 15977672256,
+      "step": 60950
+    },
+    {
+      "epoch": 0.29097153487484645,
+      "grad_norm": 0.20511233806610107,
+      "learning_rate": 0.0007169418695587791,
+      "loss": 2.5864,
+      "num_input_tokens_seen": 15990779456,
+      "step": 61000
+    },
+    {
+      "epoch": 0.29097153487484645,
+      "eval_loss": 2.4598097801208496,
+      "eval_runtime": 53.5493,
+      "eval_samples_per_second": 93.372,
+      "eval_steps_per_second": 23.343,
+      "num_input_tokens_seen": 15990779456,
+      "step": 61000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 15990779456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.2776895744874906e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null