Training in progress, step 67000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:91b3f88ddbda82d579d7e857e17e157a938e94cf97682c36dea7a9e8ddcf3d14
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:4df562358f0b3d93fdb48e67f5210b057adeffd8b788222cd6d30c1e17d16a45
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1773eecaec3a2d8883e5d344c33d10650e6ebcee793cb11cc46ab81989c4cf9e
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:095f32100e867e0fe913cd1c8e425177cd1f66e07c341665a191649c37a86bd3
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5506f8ab70fc0520e3fcff77fee663d3576573119296fd847d8ec1a26a45a3cf
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:f2f0aa502d64898ee3e50486c039d0e2439e7552237090a80d559862b18540a7
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4a07bef738a41ab3ac6ef10bbe9890f379f768870bcb200cb24b86bcef1753cd
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:00a7e117096eaa1f05b475c020696dc81b37bf94c840c6a7b407a88337130d26
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3148216606842601,
   "eval_steps": 500,
-  "global_step": 66000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11756,11 +11756,189 @@
       "eval_steps_per_second": 23.453,
       "num_input_tokens_seen": 17301499456,
       "step": 66000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 17301499456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11775,7 +11953,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.628319967114691e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.31959168584614284,
   "eval_steps": 500,
+  "global_step": 67000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.453,
       "num_input_tokens_seen": 17301499456,
       "step": 66000
+    },
+    {
+      "epoch": 0.31506016194235426,
+      "grad_norm": 0.16586218774318695,
+      "learning_rate": 0.00018388874897104518,
+      "loss": 2.5468,
+      "num_input_tokens_seen": 17314606656,
+      "step": 66050
+    },
+    {
+      "epoch": 0.31529866320044836,
+      "grad_norm": 0.1646813303232193,
+      "learning_rate": 0.00017956219300748795,
+      "loss": 2.5352,
+      "num_input_tokens_seen": 17327713856,
+      "step": 66100
+    },
+    {
+      "epoch": 0.3155371644585425,
+      "grad_norm": 0.18712937831878662,
+      "learning_rate": 0.00017527597583490823,
+      "loss": 2.5412,
+      "num_input_tokens_seen": 17340821056,
+      "step": 66150
+    },
+    {
+      "epoch": 0.3157756657166367,
+      "grad_norm": 0.1631355583667755,
+      "learning_rate": 0.00017103063703014372,
+      "loss": 2.5272,
+      "num_input_tokens_seen": 17353928256,
+      "step": 66200
+    },
+    {
+      "epoch": 0.3160141669747308,
+      "grad_norm": 0.15910203754901886,
+      "learning_rate": 0.00016682671102399805,
+      "loss": 2.5333,
+      "num_input_tokens_seen": 17367035456,
+      "step": 66250
+    },
+    {
+      "epoch": 0.31625266823282494,
+      "grad_norm": 0.5742849707603455,
+      "learning_rate": 0.00016266472703396284,
+      "loss": 2.5463,
+      "num_input_tokens_seen": 17380142656,
+      "step": 66300
+    },
+    {
+      "epoch": 0.31649116949091904,
+      "grad_norm": 0.17517830431461334,
+      "learning_rate": 0.00015854520899759655,
+      "loss": 2.5511,
+      "num_input_tokens_seen": 17393249856,
+      "step": 66350
+    },
+    {
+      "epoch": 0.3167296707490132,
+      "grad_norm": 0.6962131857872009,
+      "learning_rate": 0.00015446867550656767,
+      "loss": 2.5452,
+      "num_input_tokens_seen": 17406357056,
+      "step": 66400
+    },
+    {
+      "epoch": 0.31696817200710736,
+      "grad_norm": 0.16677837073802948,
+      "learning_rate": 0.00015043563974137132,
+      "loss": 2.5392,
+      "num_input_tokens_seen": 17419464256,
+      "step": 66450
+    },
+    {
+      "epoch": 0.31720667326520147,
+      "grad_norm": 0.16235870122909546,
+      "learning_rate": 0.00014644660940672628,
+      "loss": 2.5125,
+      "num_input_tokens_seen": 17432571456,
+      "step": 66500
+    },
+    {
+      "epoch": 0.31720667326520147,
+      "eval_loss": 2.419802188873291,
+      "eval_runtime": 52.8641,
+      "eval_samples_per_second": 94.582,
+      "eval_steps_per_second": 23.646,
+      "num_input_tokens_seen": 17432571456,
+      "step": 66500
+    },
+    {
+      "epoch": 0.3174451745232956,
+      "grad_norm": 0.17308832705020905,
+      "learning_rate": 0.00014250208666766236,
+      "loss": 2.5349,
+      "num_input_tokens_seen": 17445678656,
+      "step": 66550
+    },
+    {
+      "epoch": 0.31768367578138973,
+      "grad_norm": 0.16299477219581604,
+      "learning_rate": 0.00013860256808630427,
+      "loss": 2.5277,
+      "num_input_tokens_seen": 17458785856,
+      "step": 66600
+    },
+    {
+      "epoch": 0.3179221770394839,
+      "grad_norm": 0.18277022242546082,
+      "learning_rate": 0.00013474854455936125,
+      "loss": 2.5203,
+      "num_input_tokens_seen": 17471893056,
+      "step": 66650
+    },
+    {
+      "epoch": 0.318160678297578,
+      "grad_norm": 0.16096614301204681,
+      "learning_rate": 0.00013094050125632973,
+      "loss": 2.535,
+      "num_input_tokens_seen": 17485000256,
+      "step": 66700
+    },
+    {
+      "epoch": 0.31839917955567215,
+      "grad_norm": 0.1723272204399109,
+      "learning_rate": 0.0001271789175584172,
+      "loss": 2.549,
+      "num_input_tokens_seen": 17498107456,
+      "step": 66750
+    },
+    {
+      "epoch": 0.3186376808137663,
+      "grad_norm": 0.15782694518566132,
+      "learning_rate": 0.00012346426699819457,
+      "loss": 2.5317,
+      "num_input_tokens_seen": 17511214656,
+      "step": 66800
+    },
+    {
+      "epoch": 0.3188761820718604,
+      "grad_norm": 0.1627569943666458,
+      "learning_rate": 0.00011979701719998454,
+      "loss": 2.5382,
+      "num_input_tokens_seen": 17524321856,
+      "step": 66850
+    },
+    {
+      "epoch": 0.3191146833299546,
+      "grad_norm": 0.16340333223342896,
+      "learning_rate": 0.00011617762982099444,
+      "loss": 2.5477,
+      "num_input_tokens_seen": 17537429056,
+      "step": 66900
+    },
+    {
+      "epoch": 0.3193531845880487,
+      "grad_norm": 0.15788671374320984,
+      "learning_rate": 0.00011260656049319957,
+      "loss": 2.537,
+      "num_input_tokens_seen": 17550536256,
+      "step": 66950
+    },
+    {
+      "epoch": 0.31959168584614284,
+      "grad_norm": 0.16191193461418152,
+      "learning_rate": 0.0001090842587659851,
+      "loss": 2.5394,
+      "num_input_tokens_seen": 17563643456,
+      "step": 67000
+    },
+    {
+      "epoch": 0.31959168584614284,
+      "eval_loss": 2.417813301086426,
+      "eval_runtime": 53.532,
+      "eval_samples_per_second": 93.402,
+      "eval_steps_per_second": 23.351,
+      "num_input_tokens_seen": 17563643456,
+      "step": 67000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 17563643456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.698446045640131e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null