Training in progress, step 47000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:aa89571eb3340eba1a67ab65cc95a52de52c688ab135a582ba9671de6b4b9b2b
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:0f4e08ed2a6d62d28d840192a090317a05ca939879ecf26aa2b319d9c763f735
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ee8593e17fbb590b6be9983a2252f2eb629b591782e538eabf2da48b5e3443f7
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:8b2e15feb0f7f3fe2709a8b7d31a3a5c543a260dee03048851f465de58a0a6ac
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3fdfef9e83b1fd0865026b3e547285feb0ce1b439ee58282cde4fbaa3e21a682
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:ef6d6c68b31cc97d3a7886b7338b6c21c45d7ba1c6c1b89db7e0a3456d53ecda
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c85b77405559b6f9d3b974ee441baee89ea00505d86e9a6015f23da9cbeb2cb5
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:30a691323d967d54c1c0f6fb771a9863c3def8ea94c66492bb5dbdffa3e83798
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.21942115744660554,
   "eval_steps": 500,
-  "global_step": 46000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -8196,11 +8196,189 @@
       "eval_steps_per_second": 24.661,
       "num_input_tokens_seen": 12058619456,
       "step": 46000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 12058619456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -8215,7 +8393,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.2257983966058906e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.22419118260848825,
   "eval_steps": 500,
+  "global_step": 47000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 24.661,
       "num_input_tokens_seen": 12058619456,
       "step": 46000
+    },
+    {
+      "epoch": 0.21965965870469967,
+      "grad_norm": 0.19492709636688232,
+      "learning_rate": 0.001,
+      "loss": 2.6196,
+      "num_input_tokens_seen": 12071726656,
+      "step": 46050
+    },
+    {
+      "epoch": 0.2198981599627938,
+      "grad_norm": 0.19643568992614746,
+      "learning_rate": 0.001,
+      "loss": 2.6108,
+      "num_input_tokens_seen": 12084833856,
+      "step": 46100
+    },
+    {
+      "epoch": 0.22013666122088793,
+      "grad_norm": 0.18720099329948425,
+      "learning_rate": 0.001,
+      "loss": 2.6181,
+      "num_input_tokens_seen": 12097941056,
+      "step": 46150
+    },
+    {
+      "epoch": 0.2203751624789821,
+      "grad_norm": 0.1929876208305359,
+      "learning_rate": 0.001,
+      "loss": 2.6152,
+      "num_input_tokens_seen": 12111048256,
+      "step": 46200
+    },
+    {
+      "epoch": 0.22061366373707622,
+      "grad_norm": 0.19732603430747986,
+      "learning_rate": 0.001,
+      "loss": 2.6267,
+      "num_input_tokens_seen": 12124155456,
+      "step": 46250
+    },
+    {
+      "epoch": 0.22085216499517035,
+      "grad_norm": 0.1964132934808731,
+      "learning_rate": 0.001,
+      "loss": 2.605,
+      "num_input_tokens_seen": 12137262656,
+      "step": 46300
+    },
+    {
+      "epoch": 0.22109066625326448,
+      "grad_norm": 0.1927288919687271,
+      "learning_rate": 0.001,
+      "loss": 2.6178,
+      "num_input_tokens_seen": 12150369856,
+      "step": 46350
+    },
+    {
+      "epoch": 0.22132916751135862,
+      "grad_norm": 0.17873398959636688,
+      "learning_rate": 0.001,
+      "loss": 2.6033,
+      "num_input_tokens_seen": 12163477056,
+      "step": 46400
+    },
+    {
+      "epoch": 0.22156766876945275,
+      "grad_norm": 0.24716190993785858,
+      "learning_rate": 0.001,
+      "loss": 2.6141,
+      "num_input_tokens_seen": 12176584256,
+      "step": 46450
+    },
+    {
+      "epoch": 0.2218061700275469,
+      "grad_norm": 0.2021339386701584,
+      "learning_rate": 0.001,
+      "loss": 2.6259,
+      "num_input_tokens_seen": 12189691456,
+      "step": 46500
+    },
+    {
+      "epoch": 0.2218061700275469,
+      "eval_loss": 2.4975087642669678,
+      "eval_runtime": 50.8921,
+      "eval_samples_per_second": 98.247,
+      "eval_steps_per_second": 24.562,
+      "num_input_tokens_seen": 12189691456,
+      "step": 46500
+    },
+    {
+      "epoch": 0.22204467128564104,
+      "grad_norm": 0.20796166360378265,
+      "learning_rate": 0.001,
+      "loss": 2.6211,
+      "num_input_tokens_seen": 12202798656,
+      "step": 46550
+    },
+    {
+      "epoch": 0.22228317254373517,
+      "grad_norm": 0.20472556352615356,
+      "learning_rate": 0.001,
+      "loss": 2.6123,
+      "num_input_tokens_seen": 12215905856,
+      "step": 46600
+    },
+    {
+      "epoch": 0.2225216738018293,
+      "grad_norm": 0.20017485320568085,
+      "learning_rate": 0.001,
+      "loss": 2.6037,
+      "num_input_tokens_seen": 12229013056,
+      "step": 46650
+    },
+    {
+      "epoch": 0.22276017505992343,
+      "grad_norm": 0.2037762850522995,
+      "learning_rate": 0.001,
+      "loss": 2.6155,
+      "num_input_tokens_seen": 12242120256,
+      "step": 46700
+    },
+    {
+      "epoch": 0.2229986763180176,
+      "grad_norm": 0.19346804916858673,
+      "learning_rate": 0.001,
+      "loss": 2.601,
+      "num_input_tokens_seen": 12255227456,
+      "step": 46750
+    },
+    {
+      "epoch": 0.22323717757611172,
+      "grad_norm": 0.18640096485614777,
+      "learning_rate": 0.001,
+      "loss": 2.6168,
+      "num_input_tokens_seen": 12268334656,
+      "step": 46800
+    },
+    {
+      "epoch": 0.22347567883420585,
+      "grad_norm": 0.20295055210590363,
+      "learning_rate": 0.001,
+      "loss": 2.6221,
+      "num_input_tokens_seen": 12281441856,
+      "step": 46850
+    },
+    {
+      "epoch": 0.22371418009229999,
+      "grad_norm": 0.20705671608448029,
+      "learning_rate": 0.001,
+      "loss": 2.6202,
+      "num_input_tokens_seen": 12294549056,
+      "step": 46900
+    },
+    {
+      "epoch": 0.22395268135039412,
+      "grad_norm": 0.18724282085895538,
+      "learning_rate": 0.001,
+      "loss": 2.6061,
+      "num_input_tokens_seen": 12307656256,
+      "step": 46950
+    },
+    {
+      "epoch": 0.22419118260848825,
+      "grad_norm": 0.18210910260677338,
+      "learning_rate": 0.001,
+      "loss": 2.6045,
+      "num_input_tokens_seen": 12320763456,
+      "step": 47000
+    },
+    {
+      "epoch": 0.22419118260848825,
+      "eval_loss": 2.497344493865967,
+      "eval_runtime": 51.17,
+      "eval_samples_per_second": 97.713,
+      "eval_steps_per_second": 24.428,
+      "num_input_tokens_seen": 12320763456,
+      "step": 47000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 12320763456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.2959244751313306e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null