Training in progress, step 53000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:17f79bfd92c936c07be11debb700728ae4b7e0771937dc9aee38748f4dc80dc3
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:76223d6bdee171cffd4cda1d9c4bbbab95942f789f412cecdfbcec4b8715383c
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fdcb0e96beb98fcdfd50cc3b612cd068e544f01ef0961afbf353f3d6eabba3ce
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:2e3b0c1d87658be3018021f1815500a16d4cf88fae3993a3710e48c97c61995c
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:746267b8ba996549a033d105e363328c635034a7afa0e3070ea8447957aaca5a
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:b5f53c01b35d1753a4f571c1ddd2b16976530a7b71c320877f1fbd74ce1de4ed
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:24b3fcbecd3d55078c913506015bb6e1182f04ee52bf4c0845fc043823a61161
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:f3771019f4815646a43bbc09acce698c65d4ba61e6cbb0516a172314f7fbb077
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.34977794145591706,
   "eval_steps": 500,
-  "global_step": 52000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9264,11 +9264,189 @@
       "eval_steps_per_second": 23.525,
       "num_input_tokens_seen": 13631488000,
       "step": 52000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
-  "num_input_tokens_seen": 13631488000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9283,7 +9461,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.64655608332288e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3565044403300693,
   "eval_steps": 500,
+  "global_step": 53000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.525,
       "num_input_tokens_seen": 13631488000,
       "step": 52000
+    },
+    {
+      "epoch": 0.3501142663996247,
+      "grad_norm": 0.22132734954357147,
+      "learning_rate": 0.001,
+      "loss": 3.0564,
+      "num_input_tokens_seen": 13644595200,
+      "step": 52050
+    },
+    {
+      "epoch": 0.3504505913433323,
+      "grad_norm": 0.19554653763771057,
+      "learning_rate": 0.001,
+      "loss": 3.0457,
+      "num_input_tokens_seen": 13657702400,
+      "step": 52100
+    },
+    {
+      "epoch": 0.3507869162870399,
+      "grad_norm": 0.23935073614120483,
+      "learning_rate": 0.001,
+      "loss": 3.0465,
+      "num_input_tokens_seen": 13670809600,
+      "step": 52150
+    },
+    {
+      "epoch": 0.3511232412307475,
+      "grad_norm": 0.2895826995372772,
+      "learning_rate": 0.001,
+      "loss": 3.0509,
+      "num_input_tokens_seen": 13683916800,
+      "step": 52200
+    },
+    {
+      "epoch": 0.3514595661744551,
+      "grad_norm": 0.24599236249923706,
+      "learning_rate": 0.001,
+      "loss": 3.0385,
+      "num_input_tokens_seen": 13697024000,
+      "step": 52250
+    },
+    {
+      "epoch": 0.35179589111816273,
+      "grad_norm": 0.19500850141048431,
+      "learning_rate": 0.001,
+      "loss": 3.0523,
+      "num_input_tokens_seen": 13710131200,
+      "step": 52300
+    },
+    {
+      "epoch": 0.35213221606187034,
+      "grad_norm": 0.20790818333625793,
+      "learning_rate": 0.001,
+      "loss": 3.0547,
+      "num_input_tokens_seen": 13723238400,
+      "step": 52350
+    },
+    {
+      "epoch": 0.35246854100557795,
+      "grad_norm": 0.18653196096420288,
+      "learning_rate": 0.001,
+      "loss": 3.0545,
+      "num_input_tokens_seen": 13736345600,
+      "step": 52400
+    },
+    {
+      "epoch": 0.35280486594928556,
+      "grad_norm": 0.22097791731357574,
+      "learning_rate": 0.001,
+      "loss": 3.0573,
+      "num_input_tokens_seen": 13749452800,
+      "step": 52450
+    },
+    {
+      "epoch": 0.3531411908929932,
+      "grad_norm": 0.22931267321109772,
+      "learning_rate": 0.001,
+      "loss": 3.0478,
+      "num_input_tokens_seen": 13762560000,
+      "step": 52500
+    },
+    {
+      "epoch": 0.3531411908929932,
+      "eval_loss": 2.9459915161132812,
+      "eval_runtime": 52.6495,
+      "eval_samples_per_second": 94.968,
+      "eval_steps_per_second": 23.742,
+      "num_input_tokens_seen": 13762560000,
+      "step": 52500
+    },
+    {
+      "epoch": 0.3534775158367008,
+      "grad_norm": 0.31109049916267395,
+      "learning_rate": 0.001,
+      "loss": 3.0462,
+      "num_input_tokens_seen": 13775667200,
+      "step": 52550
+    },
+    {
+      "epoch": 0.3538138407804084,
+      "grad_norm": 1.7297276258468628,
+      "learning_rate": 0.001,
+      "loss": 3.0629,
+      "num_input_tokens_seen": 13788774400,
+      "step": 52600
+    },
+    {
+      "epoch": 0.354150165724116,
+      "grad_norm": 0.4056268334388733,
+      "learning_rate": 0.001,
+      "loss": 3.0763,
+      "num_input_tokens_seen": 13801881600,
+      "step": 52650
+    },
+    {
+      "epoch": 0.3544864906678236,
+      "grad_norm": 0.3694227635860443,
+      "learning_rate": 0.001,
+      "loss": 3.099,
+      "num_input_tokens_seen": 13814988800,
+      "step": 52700
+    },
+    {
+      "epoch": 0.35482281561153123,
+      "grad_norm": 0.2708556056022644,
+      "learning_rate": 0.001,
+      "loss": 3.0985,
+      "num_input_tokens_seen": 13828096000,
+      "step": 52750
+    },
+    {
+      "epoch": 0.35515914055523884,
+      "grad_norm": 0.27150145173072815,
+      "learning_rate": 0.001,
+      "loss": 3.0694,
+      "num_input_tokens_seen": 13841203200,
+      "step": 52800
+    },
+    {
+      "epoch": 0.35549546549894645,
+      "grad_norm": 0.2626855969429016,
+      "learning_rate": 0.001,
+      "loss": 3.0642,
+      "num_input_tokens_seen": 13854310400,
+      "step": 52850
+    },
+    {
+      "epoch": 0.35583179044265406,
+      "grad_norm": 0.20539118349552155,
+      "learning_rate": 0.001,
+      "loss": 3.059,
+      "num_input_tokens_seen": 13867417600,
+      "step": 52900
+    },
+    {
+      "epoch": 0.35616811538636167,
+      "grad_norm": 0.21489828824996948,
+      "learning_rate": 0.001,
+      "loss": 3.054,
+      "num_input_tokens_seen": 13880524800,
+      "step": 52950
+    },
+    {
+      "epoch": 0.3565044403300693,
+      "grad_norm": 0.263488233089447,
+      "learning_rate": 0.001,
+      "loss": 3.044,
+      "num_input_tokens_seen": 13893632000,
+      "step": 53000
+    },
+    {
+      "epoch": 0.3565044403300693,
+      "eval_loss": 2.9570043087005615,
+      "eval_runtime": 53.2194,
+      "eval_samples_per_second": 93.951,
+      "eval_steps_per_second": 23.488,
+      "num_input_tokens_seen": 13893632000,
+      "step": 53000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
+  "num_input_tokens_seen": 13893632000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.71668216184832e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null