Training in progress, step 129000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d8c3d49b98bfff4ce201de8fd57e1cb46f198541be8429619ddab0ad9d2161b3
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:857ead76dd55a0ff132114f3566b2633c2c5cdde85ae73d0787d641584b91007
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:29a7f0ec5937d8a36844081698ed35de214589f8d2c33900c6101538c2a4386f
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:4d51187329bb716afa734f026372750945e338e23b7c661997a4d4207a6fd698
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:065d5f05cf0a782fa5b97e409b16ef2b4cf8c6102c4a9437ad899a13c927398f
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:01c311980c8b0da96dd9e638e23b1e84aa50fb6a11433bc22a347279b706965b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a9d00381a4191263086f00c86313941ab13504158fdcedfcfacd5f658d7b3729
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:60a157573f4024c9cf3f191281f1d04ef870f25b0126e228157b25abffaa2ebf
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2211288264545597,
   "eval_steps": 500,
-  "global_step": 128000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -22792,11 +22792,189 @@
       "eval_steps_per_second": 14.933,
       "num_input_tokens_seen": 67098059328,
       "step": 128000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 67098059328,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -22811,7 +22989,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1875132632453857e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.230668876778325,
   "eval_steps": 500,
+  "global_step": 129000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 14.933,
       "num_input_tokens_seen": 67098059328,
       "step": 128000
+    },
+    {
+      "epoch": 1.2216058289707479,
+      "grad_norm": 0.13075117766857147,
+      "learning_rate": 0.00038600663175469667,
+      "loss": 2.0582,
+      "num_input_tokens_seen": 67124264448,
+      "step": 128050
+    },
+    {
+      "epoch": 1.222082831486936,
+      "grad_norm": 0.1297282576560974,
+      "learning_rate": 0.00038327731807204744,
+      "loss": 2.0595,
+      "num_input_tokens_seen": 67150472320,
+      "step": 128100
+    },
+    {
+      "epoch": 1.2225598340031243,
+      "grad_norm": 0.12640318274497986,
+      "learning_rate": 0.00038055167787050134,
+      "loss": 2.0525,
+      "num_input_tokens_seen": 67176672192,
+      "step": 128150
+    },
+    {
+      "epoch": 1.2230368365193127,
+      "grad_norm": 0.1315733790397644,
+      "learning_rate": 0.00037782979693105293,
+      "loss": 2.0499,
+      "num_input_tokens_seen": 67202877408,
+      "step": 128200
+    },
+    {
+      "epoch": 1.223513839035501,
+      "grad_norm": 0.12865200638771057,
+      "learning_rate": 0.0003751117609163865,
+      "loss": 2.051,
+      "num_input_tokens_seen": 67229091168,
+      "step": 128250
+    },
+    {
+      "epoch": 1.2239908415516891,
+      "grad_norm": 0.1271800547838211,
+      "learning_rate": 0.00037239765536817873,
+      "loss": 2.0555,
+      "num_input_tokens_seen": 67255304768,
+      "step": 128300
+    },
+    {
+      "epoch": 1.2244678440678776,
+      "grad_norm": 0.13572408258914948,
+      "learning_rate": 0.0003696875657044073,
+      "loss": 2.0622,
+      "num_input_tokens_seen": 67281509184,
+      "step": 128350
+    },
+    {
+      "epoch": 1.2249448465840658,
+      "grad_norm": 0.12558363378047943,
+      "learning_rate": 0.0003669815772166625,
+      "loss": 2.0548,
+      "num_input_tokens_seen": 67307717088,
+      "step": 128400
+    },
+    {
+      "epoch": 1.225421849100254,
+      "grad_norm": 0.13062912225723267,
+      "learning_rate": 0.0003642797750674629,
+      "loss": 2.0473,
+      "num_input_tokens_seen": 67333928800,
+      "step": 128450
+    },
+    {
+      "epoch": 1.2258988516164422,
+      "grad_norm": 0.1351100355386734,
+      "learning_rate": 0.00036158224428757535,
+      "loss": 2.0475,
+      "num_input_tokens_seen": 67360131616,
+      "step": 128500
+    },
+    {
+      "epoch": 1.2258988516164422,
+      "eval_loss": 1.9701597690582275,
+      "eval_runtime": 82.4081,
+      "eval_samples_per_second": 60.674,
+      "eval_steps_per_second": 15.168,
+      "num_input_tokens_seen": 67360131616,
+      "step": 128500
+    },
+    {
+      "epoch": 1.2263758541326306,
+      "grad_norm": 0.13211333751678467,
+      "learning_rate": 0.00035888906977333857,
+      "loss": 2.0622,
+      "num_input_tokens_seen": 67386344736,
+      "step": 128550
+    },
+    {
+      "epoch": 1.2268528566488188,
+      "grad_norm": 0.12648384273052216,
+      "learning_rate": 0.0003562003362839914,
+      "loss": 2.051,
+      "num_input_tokens_seen": 67412555520,
+      "step": 128600
+    },
+    {
+      "epoch": 1.227329859165007,
+      "grad_norm": 0.13109999895095825,
+      "learning_rate": 0.00035351612843900553,
+      "loss": 2.0529,
+      "num_input_tokens_seen": 67438769504,
+      "step": 128650
+    },
+    {
+      "epoch": 1.2278068616811955,
+      "grad_norm": 0.12981992959976196,
+      "learning_rate": 0.000350836530715422,
+      "loss": 2.045,
+      "num_input_tokens_seen": 67464972864,
+      "step": 128700
+    },
+    {
+      "epoch": 1.2282838641973837,
+      "grad_norm": 0.1246839389204979,
+      "learning_rate": 0.00034816162744519263,
+      "loss": 2.0569,
+      "num_input_tokens_seen": 67491186176,
+      "step": 128750
+    },
+    {
+      "epoch": 1.2287608667135719,
+      "grad_norm": 0.13077682256698608,
+      "learning_rate": 0.00034549150281252633,
+      "loss": 2.0461,
+      "num_input_tokens_seen": 67517399168,
+      "step": 128800
+    },
+    {
+      "epoch": 1.22923786922976,
+      "grad_norm": 0.12939219176769257,
+      "learning_rate": 0.000342826240851239,
+      "loss": 2.047,
+      "num_input_tokens_seen": 67543606592,
+      "step": 128850
+    },
+    {
+      "epoch": 1.2297148717459485,
+      "grad_norm": 0.12711487710475922,
+      "learning_rate": 0.00034016592544210936,
+      "loss": 2.0411,
+      "num_input_tokens_seen": 67569807488,
+      "step": 128900
+    },
+    {
+      "epoch": 1.2301918742621367,
+      "grad_norm": 0.13154172897338867,
+      "learning_rate": 0.00033751064031023887,
+      "loss": 2.0536,
+      "num_input_tokens_seen": 67596020896,
+      "step": 128950
+    },
+    {
+      "epoch": 1.230668876778325,
+      "grad_norm": 0.1312495321035385,
+      "learning_rate": 0.00033486046902241664,
+      "loss": 2.0558,
+      "num_input_tokens_seen": 67622231264,
+      "step": 129000
+    },
+    {
+      "epoch": 1.230668876778325,
+      "eval_loss": 1.9686726331710815,
+      "eval_runtime": 82.3322,
+      "eval_samples_per_second": 60.73,
+      "eval_steps_per_second": 15.182,
+      "num_input_tokens_seen": 67622231264,
+      "step": 129000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 67622231264,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1967901504229745e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null