Training in progress, step 68000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2b6d95b7e811d1f68b64bc7cb8a6aa2be60af9ae27cf26bbdeedecc87fc96939
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:88085ee37b0edacc225a0fb86ed3cfd9ddce1ecb2e83ddb9feeeb81a70bb80bd
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4764d7e2e901d9dd421188980b44c73e20159a2b530b5e58e042540dbd4ca383
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:0b2f336afb5813ccf452282223e763afdce040692a315590bb908f2063975a3f
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2f0aa502d64898ee3e50486c039d0e2439e7552237090a80d559862b18540a7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb3d1fb9e8324a04c98053fb02a6fde8d1a865fd7ced6a674f76811c1bbb259f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c8f163bf0d684bb1f1d6d058d310158a309f623a594242fc874446ccea1105f8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:215e906fb9e492afed15b6bbd2ab828199f0238620feca89e4e09f3e2ffc4109
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4506754245682008,
   "eval_steps": 500,
-  "global_step": 67000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11934,11 +11934,189 @@
       "eval_steps_per_second": 23.475,
       "num_input_tokens_seen": 17563648000,
       "step": 67000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 17563648000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11953,7 +12131,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.69844726120448e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4574019234423531,
   "eval_steps": 500,
+  "global_step": 68000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.475,
       "num_input_tokens_seen": 17563648000,
       "step": 67000
+    },
+    {
+      "epoch": 0.4510117495119084,
+      "grad_norm": 0.14675357937812805,
+      "learning_rate": 8.155812334579532e-05,
+      "loss": 2.9682,
+      "num_input_tokens_seen": 17576755200,
+      "step": 67050
+    },
+    {
+      "epoch": 0.45134807445561603,
+      "grad_norm": 0.14341385662555695,
+      "learning_rate": 7.889138314185678e-05,
+      "loss": 2.9749,
+      "num_input_tokens_seen": 17589862400,
+      "step": 67100
+    },
+    {
+      "epoch": 0.45168439939932364,
+      "grad_norm": 0.1442009061574936,
+      "learning_rate": 7.626523026288279e-05,
+      "loss": 2.9637,
+      "num_input_tokens_seen": 17602969600,
+      "step": 67150
+    },
+    {
+      "epoch": 0.45202072434303125,
+      "grad_norm": 0.14580078423023224,
+      "learning_rate": 7.367991782295391e-05,
+      "loss": 2.9636,
+      "num_input_tokens_seen": 17616076800,
+      "step": 67200
+    },
+    {
+      "epoch": 0.45235704928673887,
+      "grad_norm": 0.13888555765151978,
+      "learning_rate": 7.1135694999864e-05,
+      "loss": 2.9737,
+      "num_input_tokens_seen": 17629184000,
+      "step": 67250
+    },
+    {
+      "epoch": 0.4526933742304465,
+      "grad_norm": 0.14820803701877594,
+      "learning_rate": 6.863280701110408e-05,
+      "loss": 2.9778,
+      "num_input_tokens_seen": 17642291200,
+      "step": 67300
+    },
+    {
+      "epoch": 0.4530296991741541,
+      "grad_norm": 0.14933691918849945,
+      "learning_rate": 6.617149509022808e-05,
+      "loss": 2.9667,
+      "num_input_tokens_seen": 17655398400,
+      "step": 67350
+    },
+    {
+      "epoch": 0.4533660241178617,
+      "grad_norm": 0.14829853177070618,
+      "learning_rate": 6.375199646360142e-05,
+      "loss": 2.9691,
+      "num_input_tokens_seen": 17668505600,
+      "step": 67400
+    },
+    {
+      "epoch": 0.4537023490615693,
+      "grad_norm": 0.14731477200984955,
+      "learning_rate": 6.137454432753797e-05,
+      "loss": 2.9731,
+      "num_input_tokens_seen": 17681612800,
+      "step": 67450
+    },
+    {
+      "epoch": 0.4540386740052769,
+      "grad_norm": 0.14357906579971313,
+      "learning_rate": 5.903936782582253e-05,
+      "loss": 2.9785,
+      "num_input_tokens_seen": 17694720000,
+      "step": 67500
+    },
+    {
+      "epoch": 0.4540386740052769,
+      "eval_loss": 2.867840528488159,
+      "eval_runtime": 53.8197,
+      "eval_samples_per_second": 92.903,
+      "eval_steps_per_second": 23.226,
+      "num_input_tokens_seen": 17694720000,
+      "step": 67500
+    },
+    {
+      "epoch": 0.45437499894898453,
+      "grad_norm": 0.1438903659582138,
+      "learning_rate": 5.6746692027626835e-05,
+      "loss": 2.9733,
+      "num_input_tokens_seen": 17707827200,
+      "step": 67550
+    },
+    {
+      "epoch": 0.45471132389269214,
+      "grad_norm": 0.14171506464481354,
+      "learning_rate": 5.449673790581611e-05,
+      "loss": 2.9637,
+      "num_input_tokens_seen": 17720934400,
+      "step": 67600
+    },
+    {
+      "epoch": 0.45504764883639975,
+      "grad_norm": 0.1645549088716507,
+      "learning_rate": 5.2289722315651546e-05,
+      "loss": 2.9668,
+      "num_input_tokens_seen": 17734041600,
+      "step": 67650
+    },
+    {
+      "epoch": 0.45538397378010737,
+      "grad_norm": 0.1390199065208435,
+      "learning_rate": 5.0125857973889355e-05,
+      "loss": 2.9762,
+      "num_input_tokens_seen": 17747148800,
+      "step": 67700
+    },
+    {
+      "epoch": 0.455720298723815,
+      "grad_norm": 0.14667369425296783,
+      "learning_rate": 4.800535343827833e-05,
+      "loss": 2.9724,
+      "num_input_tokens_seen": 17760256000,
+      "step": 67750
+    },
+    {
+      "epoch": 0.4560566236675226,
+      "grad_norm": 0.14203302562236786,
+      "learning_rate": 4.592841308745932e-05,
+      "loss": 2.9679,
+      "num_input_tokens_seen": 17773363200,
+      "step": 67800
+    },
+    {
+      "epoch": 0.45639294861123025,
+      "grad_norm": 0.1517883837223053,
+      "learning_rate": 4.389523710126619e-05,
+      "loss": 2.9723,
+      "num_input_tokens_seen": 17786470400,
+      "step": 67850
+    },
+    {
+      "epoch": 0.45672927355493786,
+      "grad_norm": 0.1438019722700119,
+      "learning_rate": 4.190602144143207e-05,
+      "loss": 2.973,
+      "num_input_tokens_seen": 17799577600,
+      "step": 67900
+    },
+    {
+      "epoch": 0.4570655984986455,
+      "grad_norm": 0.14281606674194336,
+      "learning_rate": 3.9960957832702595e-05,
+      "loss": 2.9733,
+      "num_input_tokens_seen": 17812684800,
+      "step": 67950
+    },
+    {
+      "epoch": 0.4574019234423531,
+      "grad_norm": 0.14911025762557983,
+      "learning_rate": 3.806023374435663e-05,
+      "loss": 2.9724,
+      "num_input_tokens_seen": 17825792000,
+      "step": 68000
+    },
+    {
+      "epoch": 0.4574019234423531,
+      "eval_loss": 2.8663442134857178,
+      "eval_runtime": 53.8853,
+      "eval_samples_per_second": 92.79,
+      "eval_steps_per_second": 23.197,
+      "num_input_tokens_seen": 17825792000,
+      "step": 68000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 17825792000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.76857333972992e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null