Training in progress, step 33000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f3efdd22645edf9b27968c44325394fb2b759ab91da7c8ce83b3d5624316247
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:b4d3f9e40108aa240d3ccb2dec6c98e3c8dee794d5b181e301f16cb825f4f24c
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cdf80f22e7a0541c733f265b4f922632311af4702895a6489cc3c6583b1b00ec
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:34f35e26a2da9f3a49992a7401bf48035da49e1863e9c12106da901a102fce6c
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:26f742dd126d572747f29fd7ba88348146ec68ecb2ae0d2effd91de53bff9d0d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f916fc54175e9c81473454541a77405165ddc25577e0b82acf56f2d60728d556
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3b45d7a8e84e284c770af40e442ab0efb2fec2b035c2481cdfd246cdf35d0dd1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:281c918d3dcf25df4f5a9bbf64a4fd88f0fa5c69087d3374f9f2ce6266f988a9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7029133837728602,
   "eval_steps": 500,
-  "global_step": 32000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5704,11 +5704,189 @@
       "eval_steps_per_second": 18.716,
       "num_input_tokens_seen": 33554428160,
       "step": 32000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 33554428160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -5723,7 +5901,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.9109492723969556e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.724879427015762,
   "eval_steps": 500,
+  "global_step": 33000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.716,
       "num_input_tokens_seen": 33554428160,
       "step": 32000
+    },
+    {
+      "epoch": 0.7040116859350052,
+      "grad_norm": 0.15333816409111023,
+      "learning_rate": 0.001,
+      "loss": 2.6605,
+      "num_input_tokens_seen": 33606856960,
+      "step": 32050
+    },
+    {
+      "epoch": 0.7051099880971503,
+      "grad_norm": 0.14965052902698517,
+      "learning_rate": 0.001,
+      "loss": 2.6551,
+      "num_input_tokens_seen": 33659285760,
+      "step": 32100
+    },
+    {
+      "epoch": 0.7062082902592954,
+      "grad_norm": 0.1994074285030365,
+      "learning_rate": 0.001,
+      "loss": 2.6652,
+      "num_input_tokens_seen": 33711714560,
+      "step": 32150
+    },
+    {
+      "epoch": 0.7073065924214406,
+      "grad_norm": 0.3089894652366638,
+      "learning_rate": 0.001,
+      "loss": 2.6814,
+      "num_input_tokens_seen": 33764143360,
+      "step": 32200
+    },
+    {
+      "epoch": 0.7084048945835856,
+      "grad_norm": 0.14903652667999268,
+      "learning_rate": 0.001,
+      "loss": 2.6834,
+      "num_input_tokens_seen": 33816572160,
+      "step": 32250
+    },
+    {
+      "epoch": 0.7095031967457307,
+      "grad_norm": 0.17594854533672333,
+      "learning_rate": 0.001,
+      "loss": 2.6618,
+      "num_input_tokens_seen": 33869000960,
+      "step": 32300
+    },
+    {
+      "epoch": 0.7106014989078758,
+      "grad_norm": 0.15634667873382568,
+      "learning_rate": 0.001,
+      "loss": 2.6663,
+      "num_input_tokens_seen": 33921429760,
+      "step": 32350
+    },
+    {
+      "epoch": 0.7116998010700208,
+      "grad_norm": 0.13893702626228333,
+      "learning_rate": 0.001,
+      "loss": 2.67,
+      "num_input_tokens_seen": 33973858560,
+      "step": 32400
+    },
+    {
+      "epoch": 0.712798103232166,
+      "grad_norm": 0.16974663734436035,
+      "learning_rate": 0.001,
+      "loss": 2.6686,
+      "num_input_tokens_seen": 34026287360,
+      "step": 32450
+    },
+    {
+      "epoch": 0.7138964053943111,
+      "grad_norm": 0.15336968004703522,
+      "learning_rate": 0.001,
+      "loss": 2.6703,
+      "num_input_tokens_seen": 34078716160,
+      "step": 32500
+    },
+    {
+      "epoch": 0.7138964053943111,
+      "eval_loss": 2.5648574829101562,
+      "eval_runtime": 66.0796,
+      "eval_samples_per_second": 75.666,
+      "eval_steps_per_second": 18.917,
+      "num_input_tokens_seen": 34078716160,
+      "step": 32500
+    },
+    {
+      "epoch": 0.7149947075564561,
+      "grad_norm": 1.428727626800537,
+      "learning_rate": 0.001,
+      "loss": 2.8433,
+      "num_input_tokens_seen": 34131144960,
+      "step": 32550
+    },
+    {
+      "epoch": 0.7160930097186012,
+      "grad_norm": 0.1666879504919052,
+      "learning_rate": 0.001,
+      "loss": 2.7236,
+      "num_input_tokens_seen": 34183573760,
+      "step": 32600
+    },
+    {
+      "epoch": 0.7171913118807464,
+      "grad_norm": 0.16038021445274353,
+      "learning_rate": 0.001,
+      "loss": 2.6876,
+      "num_input_tokens_seen": 34236002560,
+      "step": 32650
+    },
+    {
+      "epoch": 0.7182896140428915,
+      "grad_norm": 0.1514110267162323,
+      "learning_rate": 0.001,
+      "loss": 2.6717,
+      "num_input_tokens_seen": 34288431360,
+      "step": 32700
+    },
+    {
+      "epoch": 0.7193879162050365,
+      "grad_norm": 0.13304661214351654,
+      "learning_rate": 0.001,
+      "loss": 2.6664,
+      "num_input_tokens_seen": 34340860160,
+      "step": 32750
+    },
+    {
+      "epoch": 0.7204862183671816,
+      "grad_norm": 0.15957415103912354,
+      "learning_rate": 0.001,
+      "loss": 2.6683,
+      "num_input_tokens_seen": 34393288960,
+      "step": 32800
+    },
+    {
+      "epoch": 0.7215845205293268,
+      "grad_norm": 0.14532499015331268,
+      "learning_rate": 0.001,
+      "loss": 2.6632,
+      "num_input_tokens_seen": 34445717760,
+      "step": 32850
+    },
+    {
+      "epoch": 0.7226828226914718,
+      "grad_norm": 0.1402454972267151,
+      "learning_rate": 0.001,
+      "loss": 2.6631,
+      "num_input_tokens_seen": 34498146560,
+      "step": 32900
+    },
+    {
+      "epoch": 0.7237811248536169,
+      "grad_norm": 0.17248420417308807,
+      "learning_rate": 0.001,
+      "loss": 2.6743,
+      "num_input_tokens_seen": 34550575360,
+      "step": 32950
+    },
+    {
+      "epoch": 0.724879427015762,
+      "grad_norm": 0.1455400288105011,
+      "learning_rate": 0.001,
+      "loss": 2.6598,
+      "num_input_tokens_seen": 34603004160,
+      "step": 33000
+    },
+    {
+      "epoch": 0.724879427015762,
+      "eval_loss": 2.5639312267303467,
+      "eval_runtime": 66.9575,
+      "eval_samples_per_second": 74.674,
+      "eval_steps_per_second": 18.669,
+      "num_input_tokens_seen": 34603004160,
+      "step": 33000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 34603004160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.9706664439934484e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null