Training in progress, step 135000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9d56ac5cac24a22412473f2135127ddabb38b319ea83b674e986a42239b250e9
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:079464073c9724ceb804666b522429a90a4928e290e5da217f3ad8b9d68b8886
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4d6a881e9f26105deee08c944e754ddbf4c77f455ab89089e93e0141d4bbc5a
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:6fd285cfac8e5c0f6d1266cf8e23ce20a797130dac2828587dcc5345232fa441
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24b5f8b02f183c01b91dfb927bcee2fd08e29422009a0f8c863f42c2374d464d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:874cf93e738f75197422ec1e62b162ef1e398b581422e23932b758446980a6af
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f96155b98d632c68f19e59b549aa9343e95b0d1b8978f18da42e6a70e5498d0e
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8e1e7a01b81e1907abf43be3318a5c567fc57f95dbaef634f44d30b341186326
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2783691283971523,
   "eval_steps": 500,
-  "global_step": 134000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -23860,11 +23860,189 @@
       "eval_steps_per_second": 15.134,
       "num_input_tokens_seen": 70243253472,
       "step": 134000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 70243253472,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -23879,7 +24057,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.243177462760067e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2879091787209178,
   "eval_steps": 500,
+  "global_step": 135000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.134,
       "num_input_tokens_seen": 70243253472,
       "step": 134000
+    },
+    {
+      "epoch": 1.2788461309133405,
+      "grad_norm": 0.12490282952785492,
+      "learning_rate": 0.00010734153455962764,
+      "loss": 2.0308,
+      "num_input_tokens_seen": 70269466208,
+      "step": 134050
+    },
+    {
+      "epoch": 1.279323133429529,
+      "grad_norm": 0.12396061420440674,
+      "learning_rate": 0.00010561116804955451,
+      "loss": 2.036,
+      "num_input_tokens_seen": 70295676096,
+      "step": 134100
+    },
+    {
+      "epoch": 1.2798001359457172,
+      "grad_norm": 0.12122515588998795,
+      "learning_rate": 0.00010389321369363636,
+      "loss": 2.0424,
+      "num_input_tokens_seen": 70321882272,
+      "step": 134150
+    },
+    {
+      "epoch": 1.2802771384619054,
+      "grad_norm": 0.12559206783771515,
+      "learning_rate": 0.00010218772555910954,
+      "loss": 2.0456,
+      "num_input_tokens_seen": 70348095808,
+      "step": 134200
+    },
+    {
+      "epoch": 1.2807541409780936,
+      "grad_norm": 0.11915505677461624,
+      "learning_rate": 0.0001004947573208756,
+      "loss": 2.0412,
+      "num_input_tokens_seen": 70374304800,
+      "step": 134250
+    },
+    {
+      "epoch": 1.2812311434942818,
+      "grad_norm": 0.12196268141269684,
+      "learning_rate": 9.881436225981105e-05,
+      "loss": 2.0386,
+      "num_input_tokens_seen": 70400510976,
+      "step": 134300
+    },
+    {
+      "epoch": 1.2817081460104702,
+      "grad_norm": 0.12415535002946854,
+      "learning_rate": 9.714659326109137e-05,
+      "loss": 2.0448,
+      "num_input_tokens_seen": 70426725376,
+      "step": 134350
+    },
+    {
+      "epoch": 1.2821851485266584,
+      "grad_norm": 0.12361661344766617,
+      "learning_rate": 9.549150281252633e-05,
+      "loss": 2.0371,
+      "num_input_tokens_seen": 70452929792,
+      "step": 134400
+    },
+    {
+      "epoch": 1.2826621510428469,
+      "grad_norm": 0.12377167493104935,
+      "learning_rate": 9.384914300290748e-05,
+      "loss": 2.0344,
+      "num_input_tokens_seen": 70479144192,
+      "step": 134450
+    },
+    {
+      "epoch": 1.283139153559035,
+      "grad_norm": 0.11863281577825546,
+      "learning_rate": 9.221956552036992e-05,
+      "loss": 2.0393,
+      "num_input_tokens_seen": 70505353504,
+      "step": 134500
+    },
+    {
+      "epoch": 1.283139153559035,
+      "eval_loss": 1.9545812606811523,
+      "eval_runtime": 82.3767,
+      "eval_samples_per_second": 60.697,
+      "eval_steps_per_second": 15.174,
+      "num_input_tokens_seen": 70505353504,
+      "step": 134500
+    },
+    {
+      "epoch": 1.2836161560752233,
+      "grad_norm": 0.12550202012062073,
+      "learning_rate": 9.060282165076461e-05,
+      "loss": 2.0483,
+      "num_input_tokens_seen": 70531564640,
+      "step": 134550
+    },
+    {
+      "epoch": 1.2840931585914115,
+      "grad_norm": 0.12165137380361557,
+      "learning_rate": 8.899896227604509e-05,
+      "loss": 2.034,
+      "num_input_tokens_seen": 70557777824,
+      "step": 134600
+    },
+    {
+      "epoch": 1.2845701611076,
+      "grad_norm": 0.12417840212583542,
+      "learning_rate": 8.740803787266521e-05,
+      "loss": 2.0381,
+      "num_input_tokens_seen": 70583987456,
+      "step": 134650
+    },
+    {
+      "epoch": 1.2850471636237881,
+      "grad_norm": 0.12609820067882538,
+      "learning_rate": 8.58300985099918e-05,
+      "loss": 2.0369,
+      "num_input_tokens_seen": 70610189152,
+      "step": 134700
+    },
+    {
+      "epoch": 1.2855241661399763,
+      "grad_norm": 0.1163376122713089,
+      "learning_rate": 8.426519384872733e-05,
+      "loss": 2.0236,
+      "num_input_tokens_seen": 70636401088,
+      "step": 134750
+    },
+    {
+      "epoch": 1.2860011686561648,
+      "grad_norm": 0.11958843469619751,
+      "learning_rate": 8.271337313934868e-05,
+      "loss": 2.0465,
+      "num_input_tokens_seen": 70662608672,
+      "step": 134800
+    },
+    {
+      "epoch": 1.286478171172353,
+      "grad_norm": 0.12234240025281906,
+      "learning_rate": 8.117468522055577e-05,
+      "loss": 2.0384,
+      "num_input_tokens_seen": 70688820640,
+      "step": 134850
+    },
+    {
+      "epoch": 1.2869551736885412,
+      "grad_norm": 0.11501733213663101,
+      "learning_rate": 7.964917851773496e-05,
+      "loss": 2.0343,
+      "num_input_tokens_seen": 70715035040,
+      "step": 134900
+    },
+    {
+      "epoch": 1.2874321762047294,
+      "grad_norm": 0.12062328308820724,
+      "learning_rate": 7.813690104143555e-05,
+      "loss": 2.0211,
+      "num_input_tokens_seen": 70741249088,
+      "step": 134950
+    },
+    {
+      "epoch": 1.2879091787209178,
+      "grad_norm": 0.11405592411756516,
+      "learning_rate": 7.663790038585794e-05,
+      "loss": 2.0401,
+      "num_input_tokens_seen": 70767457344,
+      "step": 135000
+    },
+    {
+      "epoch": 1.2879091787209178,
+      "eval_loss": 1.9541493654251099,
+      "eval_runtime": 82.5619,
+      "eval_samples_per_second": 60.561,
+      "eval_steps_per_second": 15.14,
+      "num_input_tokens_seen": 70767457344,
+      "step": 135000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 70767457344,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2524549151466045e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null