Training in progress, step 128000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f9d1695bc9de636b5aaeaf2dd7d5f58cbc5a682eb69ac9b38095e92d54ec5937
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:d8c3d49b98bfff4ce201de8fd57e1cb46f198541be8429619ddab0ad9d2161b3
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4dc4491cbd42db47871ad0a656d153441e2ea2d0c5e68c9fdfe29f91fdedede3
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:29a7f0ec5937d8a36844081698ed35de214589f8d2c33900c6101538c2a4386f
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8542f0951d699465323349728bdecbda5c5f0e8274e699cbba04806de2fddeeb
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:065d5f05cf0a782fa5b97e409b16ef2b4cf8c6102c4a9437ad899a13c927398f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:27a3a16e476801029c30325a569467f804e448c3ecc89accd2bd78b3749ec27f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9d00381a4191263086f00c86313941ab13504158fdcedfcfacd5f658d7b3729
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2115887761307942,
   "eval_steps": 500,
-  "global_step": 127000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -22614,11 +22614,189 @@
       "eval_steps_per_second": 15.182,
       "num_input_tokens_seen": 66573856704,
       "step": 127000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 66573856704,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -22633,7 +22811,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1782358329461719e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2211288264545597,
   "eval_steps": 500,
+  "global_step": 128000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.182,
       "num_input_tokens_seen": 66573856704,
       "step": 127000
+    },
+    {
+      "epoch": 1.2120657786469824,
+      "grad_norm": 0.13154049217700958,
+      "learning_rate": 0.00044123130127108126,
+      "loss": 2.0525,
+      "num_input_tokens_seen": 66600067712,
+      "step": 127050
+    },
+    {
+      "epoch": 1.2125427811631706,
+      "grad_norm": 0.13129626214504242,
+      "learning_rate": 0.00043844669015467863,
+      "loss": 2.0411,
+      "num_input_tokens_seen": 66626274400,
+      "step": 127100
+    },
+    {
+      "epoch": 1.2130197836793588,
+      "grad_norm": 0.12721647322177887,
+      "learning_rate": 0.0004356640162360581,
+      "loss": 2.0469,
+      "num_input_tokens_seen": 66652487040,
+      "step": 127150
+    },
+    {
+      "epoch": 1.2134967861955472,
+      "grad_norm": 0.1383296549320221,
+      "learning_rate": 0.0004328833670911724,
+      "loss": 2.0578,
+      "num_input_tokens_seen": 66678700288,
+      "step": 127200
+    },
+    {
+      "epoch": 1.2139737887117354,
+      "grad_norm": 0.12966816127300262,
+      "learning_rate": 0.00043010483023225046,
+      "loss": 2.0544,
+      "num_input_tokens_seen": 66704910336,
+      "step": 127250
+    },
+    {
+      "epoch": 1.2144507912279237,
+      "grad_norm": 0.13144998252391815,
+      "learning_rate": 0.0004273284931050438,
+      "loss": 2.061,
+      "num_input_tokens_seen": 66731122112,
+      "step": 127300
+    },
+    {
+      "epoch": 1.214927793744112,
+      "grad_norm": 0.13422222435474396,
+      "learning_rate": 0.0004245544430860743,
+      "loss": 2.062,
+      "num_input_tokens_seen": 66757331872,
+      "step": 127350
+    },
+    {
+      "epoch": 1.2154047962603003,
+      "grad_norm": 0.1333204060792923,
+      "learning_rate": 0.0004217827674798845,
+      "loss": 2.0538,
+      "num_input_tokens_seen": 66783545248,
+      "step": 127400
+    },
+    {
+      "epoch": 1.2158817987764885,
+      "grad_norm": 0.13239559531211853,
+      "learning_rate": 0.0004190135535162894,
+      "loss": 2.0545,
+      "num_input_tokens_seen": 66809758656,
+      "step": 127450
+    },
+    {
+      "epoch": 1.2163588012926767,
+      "grad_norm": 0.13535359501838684,
+      "learning_rate": 0.00041624688834763184,
+      "loss": 2.0625,
+      "num_input_tokens_seen": 66835970592,
+      "step": 127500
+    },
+    {
+      "epoch": 1.2163588012926767,
+      "eval_loss": 1.9728902578353882,
+      "eval_runtime": 82.272,
+      "eval_samples_per_second": 60.774,
+      "eval_steps_per_second": 15.194,
+      "num_input_tokens_seen": 66835970592,
+      "step": 127500
+    },
+    {
+      "epoch": 1.2168358038088651,
+      "grad_norm": 0.1306886225938797,
+      "learning_rate": 0.0004134828590460387,
+      "loss": 2.0548,
+      "num_input_tokens_seen": 66862174016,
+      "step": 127550
+    },
+    {
+      "epoch": 1.2173128063250533,
+      "grad_norm": 0.1322244554758072,
+      "learning_rate": 0.0004107215526006817,
+      "loss": 2.0544,
+      "num_input_tokens_seen": 66888384224,
+      "step": 127600
+    },
+    {
+      "epoch": 1.2177898088412416,
+      "grad_norm": 0.13241881132125854,
+      "learning_rate": 0.0004079630559150391,
+      "loss": 2.0646,
+      "num_input_tokens_seen": 66914597888,
+      "step": 127650
+    },
+    {
+      "epoch": 1.21826681135743,
+      "grad_norm": 0.12745130062103271,
+      "learning_rate": 0.0004052074558041608,
+      "loss": 2.0554,
+      "num_input_tokens_seen": 66940807552,
+      "step": 127700
+    },
+    {
+      "epoch": 1.2187438138736182,
+      "grad_norm": 0.13167862594127655,
+      "learning_rate": 0.00040245483899193594,
+      "loss": 2.0449,
+      "num_input_tokens_seen": 66967017376,
+      "step": 127750
+    },
+    {
+      "epoch": 1.2192208163898064,
+      "grad_norm": 0.1641312688589096,
+      "learning_rate": 0.00039970529210836363,
+      "loss": 2.0438,
+      "num_input_tokens_seen": 66993229600,
+      "step": 127800
+    },
+    {
+      "epoch": 1.2196978189059948,
+      "grad_norm": 0.1290162205696106,
+      "learning_rate": 0.00039695890168682686,
+      "loss": 2.0633,
+      "num_input_tokens_seen": 67019433984,
+      "step": 127850
+    },
+    {
+      "epoch": 1.220174821422183,
+      "grad_norm": 0.12822365760803223,
+      "learning_rate": 0.0003942157541613686,
+      "loss": 2.0477,
+      "num_input_tokens_seen": 67045643168,
+      "step": 127900
+    },
+    {
+      "epoch": 1.2206518239383712,
+      "grad_norm": 0.13961108028888702,
+      "learning_rate": 0.0003914759358639719,
+      "loss": 2.063,
+      "num_input_tokens_seen": 67071854592,
+      "step": 127950
+    },
+    {
+      "epoch": 1.2211288264545597,
+      "grad_norm": 0.13082347810268402,
+      "learning_rate": 0.00038873953302184284,
+      "loss": 2.0557,
+      "num_input_tokens_seen": 67098059328,
+      "step": 128000
+    },
+    {
+      "epoch": 1.2211288264545597,
+      "eval_loss": 1.9715449810028076,
+      "eval_runtime": 83.7065,
+      "eval_samples_per_second": 59.733,
+      "eval_steps_per_second": 14.933,
+      "num_input_tokens_seen": 67098059328,
+      "step": 128000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 67098059328,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1875132632453857e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null