Training in progress, step 66000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6ad9801ec7b3ea03c8febaf16be0cca903ae6c5e7ba16db1d0ab836be5805c8b
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:91b3f88ddbda82d579d7e857e17e157a938e94cf97682c36dea7a9e8ddcf3d14
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dcaa21f2d1112b5786bb6cb8a7af07df0a486ccdc4e343d067ea09aba3ebc0cf
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:1773eecaec3a2d8883e5d344c33d10650e6ebcee793cb11cc46ab81989c4cf9e
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5abe0ab18889dbab668e6d9fae1d62109a3226e616d0e681a91c9a668ea4330
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5506f8ab70fc0520e3fcff77fee663d3576573119296fd847d8ec1a26a45a3cf
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b166fab474c8d8470da4ff5d475f9ae65d65d8dd07f0e702e6e8c799bab73616
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4a07bef738a41ab3ac6ef10bbe9890f379f768870bcb200cb24b86bcef1753cd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.31005163552237736,
   "eval_steps": 500,
-  "global_step": 65000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11578,11 +11578,189 @@
       "eval_steps_per_second": 23.41,
       "num_input_tokens_seen": 17039355456,
       "step": 65000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 17039355456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11597,7 +11775,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.5581938885892506e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3148216606842601,
   "eval_steps": 500,
+  "global_step": 66000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.41,
       "num_input_tokens_seen": 17039355456,
       "step": 65000
+    },
+    {
+      "epoch": 0.3102901367804715,
+      "grad_norm": 0.17116400599479675,
+      "learning_rate": 0.000278017467984759,
+      "loss": 2.5504,
+      "num_input_tokens_seen": 17052462656,
+      "step": 65050
+    },
+    {
+      "epoch": 0.3105286380385657,
+      "grad_norm": 0.17055106163024902,
+      "learning_rate": 0.00027300475013022663,
+      "loss": 2.543,
+      "num_input_tokens_seen": 17065569856,
+      "step": 65100
+    },
+    {
+      "epoch": 0.3107671392966598,
+      "grad_norm": 0.17849299311637878,
+      "learning_rate": 0.000268020607911083,
+      "loss": 2.5476,
+      "num_input_tokens_seen": 17078677056,
+      "step": 65150
+    },
+    {
+      "epoch": 0.31100564055475394,
+      "grad_norm": 0.17608341574668884,
+      "learning_rate": 0.0002630656687635007,
+      "loss": 2.5452,
+      "num_input_tokens_seen": 17091784256,
+      "step": 65200
+    },
+    {
+      "epoch": 0.31124414181284804,
+      "grad_norm": 0.19086676836013794,
+      "learning_rate": 0.0002581405564473801,
+      "loss": 2.5562,
+      "num_input_tokens_seen": 17104891456,
+      "step": 65250
+    },
+    {
+      "epoch": 0.3114826430709422,
+      "grad_norm": 0.1721603125333786,
+      "learning_rate": 0.00025324589096782657,
+      "loss": 2.5402,
+      "num_input_tokens_seen": 17117998656,
+      "step": 65300
+    },
+    {
+      "epoch": 0.31172114432903636,
+      "grad_norm": 0.16727598011493683,
+      "learning_rate": 0.00024838228849709997,
+      "loss": 2.5253,
+      "num_input_tokens_seen": 17131105856,
+      "step": 65350
+    },
+    {
+      "epoch": 0.31195964558713046,
+      "grad_norm": 0.1664544939994812,
+      "learning_rate": 0.000243550361297047,
+      "loss": 2.5519,
+      "num_input_tokens_seen": 17144213056,
+      "step": 65400
+    },
+    {
+      "epoch": 0.3121981468452246,
+      "grad_norm": 0.17195752263069153,
+      "learning_rate": 0.00023875071764202561,
+      "loss": 2.5297,
+      "num_input_tokens_seen": 17157320256,
+      "step": 65450
+    },
+    {
+      "epoch": 0.3124366481033187,
+      "grad_norm": 0.19001176953315735,
+      "learning_rate": 0.00023398396174233177,
+      "loss": 2.5439,
+      "num_input_tokens_seen": 17170427456,
+      "step": 65500
+    },
+    {
+      "epoch": 0.3124366481033187,
+      "eval_loss": 2.426327705383301,
+      "eval_runtime": 53.7603,
+      "eval_samples_per_second": 93.005,
+      "eval_steps_per_second": 23.251,
+      "num_input_tokens_seen": 17170427456,
+      "step": 65500
+    },
+    {
+      "epoch": 0.3126751493614129,
+      "grad_norm": 0.17215538024902344,
+      "learning_rate": 0.00022925069366813716,
+      "loss": 2.5442,
+      "num_input_tokens_seen": 17183534656,
+      "step": 65550
+    },
+    {
+      "epoch": 0.31291365061950704,
+      "grad_norm": 0.16736114025115967,
+      "learning_rate": 0.0002245515092739488,
+      "loss": 2.5472,
+      "num_input_tokens_seen": 17196641856,
+      "step": 65600
+    },
+    {
+      "epoch": 0.31315215187760115,
+      "grad_norm": 0.1739792823791504,
+      "learning_rate": 0.00021988700012359863,
+      "loss": 2.5401,
+      "num_input_tokens_seen": 17209749056,
+      "step": 65650
+    },
+    {
+      "epoch": 0.3133906531356953,
+      "grad_norm": 0.17363224923610687,
+      "learning_rate": 0.00021525775341577403,
+      "loss": 2.5539,
+      "num_input_tokens_seen": 17222856256,
+      "step": 65700
+    },
+    {
+      "epoch": 0.3136291543937894,
+      "grad_norm": 0.16787610948085785,
+      "learning_rate": 0.00021066435191009715,
+      "loss": 2.5338,
+      "num_input_tokens_seen": 17235963456,
+      "step": 65750
+    },
+    {
+      "epoch": 0.31386765565188357,
+      "grad_norm": 0.17158125340938568,
+      "learning_rate": 0.00020610737385376348,
+      "loss": 2.5531,
+      "num_input_tokens_seen": 17249070656,
+      "step": 65800
+    },
+    {
+      "epoch": 0.3141061569099777,
+      "grad_norm": 0.1693524569272995,
+      "learning_rate": 0.00020158739290874821,
+      "loss": 2.5286,
+      "num_input_tokens_seen": 17262177856,
+      "step": 65850
+    },
+    {
+      "epoch": 0.31434465816807183,
+      "grad_norm": 0.1730414181947708,
+      "learning_rate": 0.0001971049780795901,
+      "loss": 2.5228,
+      "num_input_tokens_seen": 17275285056,
+      "step": 65900
+    },
+    {
+      "epoch": 0.314583159426166,
+      "grad_norm": 0.16220349073410034,
+      "learning_rate": 0.00019266069364176142,
+      "loss": 2.5445,
+      "num_input_tokens_seen": 17288392256,
+      "step": 65950
+    },
+    {
+      "epoch": 0.3148216606842601,
+      "grad_norm": 0.1605050265789032,
+      "learning_rate": 0.00018825509907063325,
+      "loss": 2.5491,
+      "num_input_tokens_seen": 17301499456,
+      "step": 66000
+    },
+    {
+      "epoch": 0.3148216606842601,
+      "eval_loss": 2.4224469661712646,
+      "eval_runtime": 53.2989,
+      "eval_samples_per_second": 93.811,
+      "eval_steps_per_second": 23.453,
+      "num_input_tokens_seen": 17301499456,
+      "step": 66000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 17301499456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.628319967114691e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null