Training in progress, step 117000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:88eb3f94bc7241f618e5c9770b54c115b258d914f67d481780ad17863ab32c2e
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:0ccf8d1ee3da4942ba95f7a3a54578d6c16809257e74ad1be0b26812641e3056
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ead16386e0cfae3ee1c925e0e05a55f093ed2c84207e3beb26950f24f2d0edd3
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f1a7487954ffb44d1bab57c681b14f7a5680ded0c52a6c8bb015865beff7ed1
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:315a996739a8cfadd830b0d25c5fc7336620692744591af847d9b45121986328
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:48498b576bbabf1971bbdc1b63e18da5e5d6ff6ee2d2893d269ddf346414745c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4f9c807b963b46c441b7e935adcacbb554bdd0c85992b7453ee29eed159b81fb
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:3f7ac3b8ebf1c0d4bfd4f038411c119a54a5a538a834ebe005f085cdf984be31
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1066482225693741,
   "eval_steps": 500,
-  "global_step": 116000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -20656,11 +20656,189 @@
       "eval_steps_per_second": 15.098,
       "num_input_tokens_seen": 60807636160,
       "step": 116000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 60807636160,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -20675,7 +20853,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.0761842469036442e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1161882728931396,
   "eval_steps": 500,
+  "global_step": 117000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.098,
       "num_input_tokens_seen": 60807636160,
       "step": 116000
+    },
+    {
+      "epoch": 1.1071252250855623,
+      "grad_norm": 0.13944968581199646,
+      "learning_rate": 0.0009492603104988907,
+      "loss": 2.1028,
+      "num_input_tokens_seen": 60833850560,
+      "step": 116050
+    },
+    {
+      "epoch": 1.1076022276017505,
+      "grad_norm": 0.14454355835914612,
+      "learning_rate": 0.0009480220479843627,
+      "loss": 2.0995,
+      "num_input_tokens_seen": 60860064224,
+      "step": 116100
+    },
+    {
+      "epoch": 1.108079230117939,
+      "grad_norm": 0.1737418919801712,
+      "learning_rate": 0.0009467696853780625,
+      "loss": 2.0841,
+      "num_input_tokens_seen": 60886278080,
+      "step": 116150
+    },
+    {
+      "epoch": 1.1085562326341272,
+      "grad_norm": 0.1442703902721405,
+      "learning_rate": 0.0009455032620941839,
+      "loss": 2.0847,
+      "num_input_tokens_seen": 60912488608,
+      "step": 116200
+    },
+    {
+      "epoch": 1.1090332351503154,
+      "grad_norm": 0.14151588082313538,
+      "learning_rate": 0.0009442228179894363,
+      "loss": 2.0939,
+      "num_input_tokens_seen": 60938699264,
+      "step": 116250
+    },
+    {
+      "epoch": 1.1095102376665036,
+      "grad_norm": 0.12823954224586487,
+      "learning_rate": 0.00094292839336179,
+      "loss": 2.0911,
+      "num_input_tokens_seen": 60964913664,
+      "step": 116300
+    },
+    {
+      "epoch": 1.109987240182692,
+      "grad_norm": 0.1551038920879364,
+      "learning_rate": 0.0009416200289492091,
+      "loss": 2.0905,
+      "num_input_tokens_seen": 60991126176,
+      "step": 116350
+    },
+    {
+      "epoch": 1.1104642426988802,
+      "grad_norm": 0.14844666421413422,
+      "learning_rate": 0.000940297765928369,
+      "loss": 2.0853,
+      "num_input_tokens_seen": 61017336640,
+      "step": 116400
+    },
+    {
+      "epoch": 1.1109412452150684,
+      "grad_norm": 0.14786940813064575,
+      "learning_rate": 0.0009389616459133597,
+      "loss": 2.0948,
+      "num_input_tokens_seen": 61043543488,
+      "step": 116450
+    },
+    {
+      "epoch": 1.1114182477312569,
+      "grad_norm": 0.1404752880334854,
+      "learning_rate": 0.0009376117109543769,
+      "loss": 2.0889,
+      "num_input_tokens_seen": 61069752768,
+      "step": 116500
+    },
+    {
+      "epoch": 1.1114182477312569,
+      "eval_loss": 2.007530450820923,
+      "eval_runtime": 83.3145,
+      "eval_samples_per_second": 60.014,
+      "eval_steps_per_second": 15.003,
+      "num_input_tokens_seen": 61069752768,
+      "step": 116500
+    },
+    {
+      "epoch": 1.111895250247445,
+      "grad_norm": 0.14887551963329315,
+      "learning_rate": 0.0009362480035363986,
+      "loss": 2.0906,
+      "num_input_tokens_seen": 61095967168,
+      "step": 116550
+    },
+    {
+      "epoch": 1.1123722527636333,
+      "grad_norm": 0.1436939537525177,
+      "learning_rate": 0.0009348705665778478,
+      "loss": 2.0857,
+      "num_input_tokens_seen": 61122178400,
+      "step": 116600
+    },
+    {
+      "epoch": 1.1128492552798217,
+      "grad_norm": 0.15015645325183868,
+      "learning_rate": 0.0009334794434292415,
+      "loss": 2.0877,
+      "num_input_tokens_seen": 61148383936,
+      "step": 116650
+    },
+    {
+      "epoch": 1.11332625779601,
+      "grad_norm": 0.15639320015907288,
+      "learning_rate": 0.0009320746778718274,
+      "loss": 2.082,
+      "num_input_tokens_seen": 61174590560,
+      "step": 116700
+    },
+    {
+      "epoch": 1.1138032603121981,
+      "grad_norm": 0.1376616209745407,
+      "learning_rate": 0.0009306563141162046,
+      "loss": 2.0893,
+      "num_input_tokens_seen": 61200799104,
+      "step": 116750
+    },
+    {
+      "epoch": 1.1142802628283863,
+      "grad_norm": 0.13897264003753662,
+      "learning_rate": 0.000929224396800933,
+      "loss": 2.0885,
+      "num_input_tokens_seen": 61227004960,
+      "step": 116800
+    },
+    {
+      "epoch": 1.1147572653445748,
+      "grad_norm": 0.16240862011909485,
+      "learning_rate": 0.0009277789709911291,
+      "loss": 2.0772,
+      "num_input_tokens_seen": 61253214976,
+      "step": 116850
+    },
+    {
+      "epoch": 1.115234267860763,
+      "grad_norm": 0.13620969653129578,
+      "learning_rate": 0.0009263200821770461,
+      "loss": 2.0815,
+      "num_input_tokens_seen": 61279425344,
+      "step": 116900
+    },
+    {
+      "epoch": 1.1157112703769512,
+      "grad_norm": 0.13625779747962952,
+      "learning_rate": 0.0009248477762726437,
+      "loss": 2.0834,
+      "num_input_tokens_seen": 61305623936,
+      "step": 116950
+    },
+    {
+      "epoch": 1.1161882728931396,
+      "grad_norm": 0.1379876434803009,
+      "learning_rate": 0.0009233620996141421,
+      "loss": 2.0879,
+      "num_input_tokens_seen": 61331831488,
+      "step": 117000
+    },
+    {
+      "epoch": 1.1161882728931396,
+      "eval_loss": 2.0054421424865723,
+      "eval_runtime": 82.7611,
+      "eval_samples_per_second": 60.415,
+      "eval_steps_per_second": 15.104,
+      "num_input_tokens_seen": 61331831488,
+      "step": 117000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 61331831488,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.0854615480769659e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null