Training in progress, step 124000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cef5b67a6a8ef1b7b03d42987cf14119de3a2a743fc8652bcc28538e2c6f502f
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:6da59dcdd189ba50995bfaca6dfb3c1f07cec1d39f2b04e6b589b61aa33bf008
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:03925e5e99d9cbfffe2f6300cf8385c7fca65c8ed5a96f6e0b64b1da83665e80
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:c0a4aebfce2ae0e56c21f66beb3519294df5637c5928eb84133802b9a02f01ec
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:057702d02e4981608a0b19960ab61ff20cc438831297a4986309cdb565b1c450
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:98f0ee0fd151b13dc8525e6639746bb04660a2a355f86970459a4f08c593ef0a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e98c7489b04ae19323aa5fe9264a9e2511b478d8f623351ee3b05babc6a227f
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f4c196ff888110afc03a5fac8e049987b043db46c6b51b50b9a63aa8569f2b7f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1734285748357323,
   "eval_steps": 500,
-  "global_step": 123000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -21902,11 +21902,189 @@
       "eval_steps_per_second": 15.061,
       "num_input_tokens_seen": 64477051392,
       "step": 123000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 64477051392,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -21921,7 +22099,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.141126203496661e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1829686251594977,
   "eval_steps": 500,
+  "global_step": 124000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.061,
       "num_input_tokens_seen": 64477051392,
       "step": 123000
+    },
+    {
+      "epoch": 1.1739055773519205,
+      "grad_norm": 0.14069771766662598,
+      "learning_rate": 0.0006624893596897613,
+      "loss": 2.0767,
+      "num_input_tokens_seen": 64503259872,
+      "step": 123050
+    },
+    {
+      "epoch": 1.174382579868109,
+      "grad_norm": 0.14180107414722443,
+      "learning_rate": 0.0006598340745578908,
+      "loss": 2.0611,
+      "num_input_tokens_seen": 64529460896,
+      "step": 123100
+    },
+    {
+      "epoch": 1.174859582384297,
+      "grad_norm": 0.14584094285964966,
+      "learning_rate": 0.000657173759148761,
+      "loss": 2.0693,
+      "num_input_tokens_seen": 64555675296,
+      "step": 123150
+    },
+    {
+      "epoch": 1.1753365849004853,
+      "grad_norm": 0.1269799768924713,
+      "learning_rate": 0.0006545084971874737,
+      "loss": 2.0615,
+      "num_input_tokens_seen": 64581882720,
+      "step": 123200
+    },
+    {
+      "epoch": 1.1758135874166737,
+      "grad_norm": 0.15073458850383759,
+      "learning_rate": 0.0006518383725548074,
+      "loss": 2.083,
+      "num_input_tokens_seen": 64608088736,
+      "step": 123250
+    },
+    {
+      "epoch": 1.176290589932862,
+      "grad_norm": 0.12902715802192688,
+      "learning_rate": 0.000649163469284578,
+      "loss": 2.0579,
+      "num_input_tokens_seen": 64634299936,
+      "step": 123300
+    },
+    {
+      "epoch": 1.1767675924490502,
+      "grad_norm": 0.13666096329689026,
+      "learning_rate": 0.0006464838715609945,
+      "loss": 2.0673,
+      "num_input_tokens_seen": 64660511904,
+      "step": 123350
+    },
+    {
+      "epoch": 1.1772445949652384,
+      "grad_norm": 0.13477379083633423,
+      "learning_rate": 0.0006437996637160086,
+      "loss": 2.0752,
+      "num_input_tokens_seen": 64686718272,
+      "step": 123400
+    },
+    {
+      "epoch": 1.1777215974814268,
+      "grad_norm": 0.13596594333648682,
+      "learning_rate": 0.0006411109302266615,
+      "loss": 2.0606,
+      "num_input_tokens_seen": 64712932256,
+      "step": 123450
+    },
+    {
+      "epoch": 1.178198599997615,
+      "grad_norm": 0.1400011032819748,
+      "learning_rate": 0.0006384177557124247,
+      "loss": 2.066,
+      "num_input_tokens_seen": 64739145440,
+      "step": 123500
+    },
+    {
+      "epoch": 1.178198599997615,
+      "eval_loss": 1.986546516418457,
+      "eval_runtime": 82.7963,
+      "eval_samples_per_second": 60.389,
+      "eval_steps_per_second": 15.097,
+      "num_input_tokens_seen": 64739145440,
+      "step": 123500
+    },
+    {
+      "epoch": 1.1786756025138032,
+      "grad_norm": 0.13023069500923157,
+      "learning_rate": 0.0006357202249325371,
+      "loss": 2.0727,
+      "num_input_tokens_seen": 64765359840,
+      "step": 123550
+    },
+    {
+      "epoch": 1.1791526050299916,
+      "grad_norm": 0.13744056224822998,
+      "learning_rate": 0.0006330184227833376,
+      "loss": 2.0603,
+      "num_input_tokens_seen": 64791573504,
+      "step": 123600
+    },
+    {
+      "epoch": 1.1796296075461798,
+      "grad_norm": 0.1399419903755188,
+      "learning_rate": 0.0006303124342955927,
+      "loss": 2.0699,
+      "num_input_tokens_seen": 64817787904,
+      "step": 123650
+    },
+    {
+      "epoch": 1.180106610062368,
+      "grad_norm": 0.13453304767608643,
+      "learning_rate": 0.0006276023446318213,
+      "loss": 2.0764,
+      "num_input_tokens_seen": 64844002304,
+      "step": 123700
+    },
+    {
+      "epoch": 1.1805836125785563,
+      "grad_norm": 0.13495005667209625,
+      "learning_rate": 0.0006248882390836135,
+      "loss": 2.0629,
+      "num_input_tokens_seen": 64870216704,
+      "step": 123750
+    },
+    {
+      "epoch": 1.1810606150947447,
+      "grad_norm": 0.14330346882343292,
+      "learning_rate": 0.000622170203068947,
+      "loss": 2.0677,
+      "num_input_tokens_seen": 64896426784,
+      "step": 123800
+    },
+    {
+      "epoch": 1.181537617610933,
+      "grad_norm": 0.13179130852222443,
+      "learning_rate": 0.0006194483221294988,
+      "loss": 2.0568,
+      "num_input_tokens_seen": 64922636000,
+      "step": 123850
+    },
+    {
+      "epoch": 1.182014620127121,
+      "grad_norm": 0.12518762052059174,
+      "learning_rate": 0.0006167226819279528,
+      "loss": 2.0604,
+      "num_input_tokens_seen": 64948840416,
+      "step": 123900
+    },
+    {
+      "epoch": 1.1824916226433095,
+      "grad_norm": 0.12823528051376343,
+      "learning_rate": 0.0006139933682453035,
+      "loss": 2.0683,
+      "num_input_tokens_seen": 64975054816,
+      "step": 123950
+    },
+    {
+      "epoch": 1.1829686251594977,
+      "grad_norm": 0.1308305859565735,
+      "learning_rate": 0.0006112604669781572,
+      "loss": 2.0639,
+      "num_input_tokens_seen": 65001257824,
+      "step": 124000
+    },
+    {
+      "epoch": 1.1829686251594977,
+      "eval_loss": 1.9843353033065796,
+      "eval_runtime": 82.7751,
+      "eval_samples_per_second": 60.405,
+      "eval_steps_per_second": 15.101,
+      "num_input_tokens_seen": 65001257824,
+      "step": 124000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 65001257824,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.150403701190529e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null