Training in progress, step 30000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +183 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8189eaf6ceb4528bf3c0dab262ec5edb992db88ed01c3b7194410d43f95eccb4
 size 563074920

 version https://git-lfs.github.com/spec/v1
+oid sha256:fc13ffa23a1f5210f44d10669aa87f3ec7bfb7a2664786f76ce56132b042639e
 size 563074920

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e394ade7b3b72772b5bf25ed828cc65b1ad4f5ea3415308e4d9dfe69c0f2dcc1
 size 1125916346

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c2acc68a1693942d243837338503be83794d69c0b95c32e490c2e11f4c4406e
 size 1125916346

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b35f118514fc0f516065715cf3b60710d0e7202cdecbb2634a8a2ee950df7fdc
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:a5f9d2ea250bcd3507c62c8571a114db63d14fdd2d31f9df1da7534fe6e55434
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e9da9c4f38246d3405fbdd73a148fe885c434414b1445bf2d8246988599b4525
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:492390519daa872425f50793597ce5e74ef972fc3d656ffa5ca614e3b949a837
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.19506846735041528,
   "eval_steps": 500,
-  "global_step": 29000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -5170,11 +5170,189 @@
       "eval_steps_per_second": 8.742,
       "num_input_tokens_seen": 7602176000,
       "step": 29000
     }
   ],
   "logging_steps": 50,
   "max_steps": 30000,
-  "num_input_tokens_seen": 7602176000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -5184,12 +5362,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.84423791280128e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.20179496622456752,
   "eval_steps": 500,
+  "global_step": 30000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 8.742,
       "num_input_tokens_seen": 7602176000,
       "step": 29000
+    },
+    {
+      "epoch": 0.1954047922941229,
+      "grad_norm": 0.6069262027740479,
+      "learning_rate": 1.5444383180638342e-06,
+      "loss": 11.9314,
+      "num_input_tokens_seen": 7615283200,
+      "step": 29050
+    },
+    {
+      "epoch": 0.1957411172378305,
+      "grad_norm": 0.628108561038971,
+      "learning_rate": 1.3862661152405309e-06,
+      "loss": 11.9151,
+      "num_input_tokens_seen": 7628390400,
+      "step": 29100
+    },
+    {
+      "epoch": 0.1960774421815381,
+      "grad_norm": 0.6232333779335022,
+      "learning_rate": 1.236618116485233e-06,
+      "loss": 11.8887,
+      "num_input_tokens_seen": 7641497600,
+      "step": 29150
+    },
+    {
+      "epoch": 0.19641376712524572,
+      "grad_norm": 0.6372972726821899,
+      "learning_rate": 1.0954985936379223e-06,
+      "loss": 11.8873,
+      "num_input_tokens_seen": 7654604800,
+      "step": 29200
+    },
+    {
+      "epoch": 0.19675009206895333,
+      "grad_norm": 0.5991822481155396,
+      "learning_rate": 9.6291157508529e-07,
+      "loss": 11.9405,
+      "num_input_tokens_seen": 7667712000,
+      "step": 29250
+    },
+    {
+      "epoch": 0.19708641701266094,
+      "grad_norm": 0.6108511686325073,
+      "learning_rate": 8.388608456459612e-07,
+      "loss": 11.9085,
+      "num_input_tokens_seen": 7680819200,
+      "step": 29300
+    },
+    {
+      "epoch": 0.19742274195636855,
+      "grad_norm": 0.6104913949966431,
+      "learning_rate": 7.23349946462215e-07,
+      "loss": 11.8859,
+      "num_input_tokens_seen": 7693926400,
+      "step": 29350
+    },
+    {
+      "epoch": 0.1977590669000762,
+      "grad_norm": 0.6084222197532654,
+      "learning_rate": 6.163821748990994e-07,
+      "loss": 11.9059,
+      "num_input_tokens_seen": 7707033600,
+      "step": 29400
+    },
+    {
+      "epoch": 0.1980953918437838,
+      "grad_norm": 0.633105993270874,
+      "learning_rate": 5.179605844501388e-07,
+      "loss": 11.9174,
+      "num_input_tokens_seen": 7720140800,
+      "step": 29450
+    },
+    {
+      "epoch": 0.1984317167874914,
+      "grad_norm": 0.6088514924049377,
+      "learning_rate": 4.280879846503049e-07,
+      "loss": 11.9125,
+      "num_input_tokens_seen": 7733248000,
+      "step": 29500
+    },
+    {
+      "epoch": 0.1984317167874914,
+      "eval_loss": 2.8849411010742188,
+      "eval_runtime": 143.8146,
+      "eval_samples_per_second": 34.767,
+      "eval_steps_per_second": 8.692,
+      "num_input_tokens_seen": 7733248000,
+      "step": 29500
+    },
+    {
+      "epoch": 0.19876804173119902,
+      "grad_norm": 0.6054402589797974,
+      "learning_rate": 3.467669409957463e-07,
+      "loss": 11.9468,
+      "num_input_tokens_seen": 7746355200,
+      "step": 29550
+    },
+    {
+      "epoch": 0.19910436667490664,
+      "grad_norm": 0.6133595705032349,
+      "learning_rate": 2.7399977487051473e-07,
+      "loss": 11.9368,
+      "num_input_tokens_seen": 7759462400,
+      "step": 29600
+    },
+    {
+      "epoch": 0.19944069161861425,
+      "grad_norm": 0.6098650693893433,
+      "learning_rate": 2.097885634804175e-07,
+      "loss": 11.8971,
+      "num_input_tokens_seen": 7772569600,
+      "step": 29650
+    },
+    {
+      "epoch": 0.19977701656232186,
+      "grad_norm": 0.6231054663658142,
+      "learning_rate": 1.541351397936319e-07,
+      "loss": 11.9546,
+      "num_input_tokens_seen": 7785676800,
+      "step": 29700
+    },
+    {
+      "epoch": 0.20011334150602947,
+      "grad_norm": 0.6323234438896179,
+      "learning_rate": 1.0704109248838022e-07,
+      "loss": 11.8848,
+      "num_input_tokens_seen": 7798784000,
+      "step": 29750
+    },
+    {
+      "epoch": 0.20044966644973708,
+      "grad_norm": 0.6294256448745728,
+      "learning_rate": 6.850776590763274e-08,
+      "loss": 11.9027,
+      "num_input_tokens_seen": 7811891200,
+      "step": 29800
+    },
+    {
+      "epoch": 0.2007859913934447,
+      "grad_norm": 0.6184135675430298,
+      "learning_rate": 3.853626002063848e-08,
+      "loss": 11.9454,
+      "num_input_tokens_seen": 7824998400,
+      "step": 29850
+    },
+    {
+      "epoch": 0.2011223163371523,
+      "grad_norm": 0.6376939415931702,
+      "learning_rate": 1.7127430391683516e-08,
+      "loss": 11.8928,
+      "num_input_tokens_seen": 7838105600,
+      "step": 29900
+    },
+    {
+      "epoch": 0.2014586412808599,
+      "grad_norm": 0.6745944619178772,
+      "learning_rate": 4.281888155543978e-09,
+      "loss": 11.9315,
+      "num_input_tokens_seen": 7851212800,
+      "step": 29950
+    },
+    {
+      "epoch": 0.20179496622456752,
+      "grad_norm": 0.6381050944328308,
+      "learning_rate": 0.0,
+      "loss": 11.9242,
+      "num_input_tokens_seen": 7864320000,
+      "step": 30000
+    },
+    {
+      "epoch": 0.20179496622456752,
+      "eval_loss": 2.8848958015441895,
+      "eval_runtime": 142.697,
+      "eval_samples_per_second": 35.039,
+      "eval_steps_per_second": 8.76,
+      "num_input_tokens_seen": 7864320000,
+      "step": 30000
     }
   ],
   "logging_steps": 50,
   "max_steps": 30000,
+  "num_input_tokens_seen": 7864320000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 5.0112805994496e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null