Training in progress, step 64000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d0f52abb8596fb1c55e5609ec97ec3ea8479c701d5763f12612f03207baebfdc
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:567849b3336c60bd2ca86c0e32d8fa276a554db52049aae022ae3912ae149f08
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc42234c3f4bb7923a06f1e41810d1e801108c51e07feed1ea66a8af7c05bc5a
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:fe74b2d737ce2dc3386b2964624b6ffd7d46aa98c026d78df24bca83b7a5f473
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a97095234a7b82e99cd1b23ba4db26c35942b8b4622876b166d0ce65b7c7110
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f03ef68c121377c551657263f23acf972b60bf546b00ad9803912e5c78e5ecd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9ca0e8dbf69c9810c713183e067be8112924d576870302a9fb3c526f389826e7
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a987661a10dd2abc0dca231a45c2e361e0f28b82da18aba64a79545986bd62dc
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.4237694290715918,
   "eval_steps": 500,
-  "global_step": 63000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11222,11 +11222,189 @@
       "eval_steps_per_second": 23.421,
       "num_input_tokens_seen": 16515072000,
       "step": 63000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 16515072000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11241,7 +11419,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.41794294710272e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.43049592794574404,
   "eval_steps": 500,
+  "global_step": 64000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.421,
       "num_input_tokens_seen": 16515072000,
       "step": 63000
+    },
+    {
+      "epoch": 0.42410575401529943,
+      "grad_norm": 0.15995506942272186,
+      "learning_rate": 0.00039764519864531023,
+      "loss": 2.9898,
+      "num_input_tokens_seen": 16528179200,
+      "step": 63050
+    },
+    {
+      "epoch": 0.42444207895900704,
+      "grad_norm": 0.16034817695617676,
+      "learning_rate": 0.0003928454234674747,
+      "loss": 2.9884,
+      "num_input_tokens_seen": 16541286400,
+      "step": 63100
+    },
+    {
+      "epoch": 0.42477840390271465,
+      "grad_norm": 0.17681469023227692,
+      "learning_rate": 0.00038805597607075075,
+      "loss": 2.9952,
+      "num_input_tokens_seen": 16554393600,
+      "step": 63150
+    },
+    {
+      "epoch": 0.42511472884642226,
+      "grad_norm": 0.18527273833751678,
+      "learning_rate": 0.00038327731807204744,
+      "loss": 2.9947,
+      "num_input_tokens_seen": 16567500800,
+      "step": 63200
+    },
+    {
+      "epoch": 0.4254510537901299,
+      "grad_norm": 0.16262546181678772,
+      "learning_rate": 0.0003785099100483681,
+      "loss": 2.9972,
+      "num_input_tokens_seen": 16580608000,
+      "step": 63250
+    },
+    {
+      "epoch": 0.4257873787338375,
+      "grad_norm": 0.1709870994091034,
+      "learning_rate": 0.00037375421149242103,
+      "loss": 2.999,
+      "num_input_tokens_seen": 16593715200,
+      "step": 63300
+    },
+    {
+      "epoch": 0.4261237036775451,
+      "grad_norm": 0.1716383844614029,
+      "learning_rate": 0.0003690106807683313,
+      "loss": 2.9964,
+      "num_input_tokens_seen": 16606822400,
+      "step": 63350
+    },
+    {
+      "epoch": 0.4264600286212527,
+      "grad_norm": 0.18682868778705597,
+      "learning_rate": 0.0003642797750674629,
+      "loss": 3.0037,
+      "num_input_tokens_seen": 16619929600,
+      "step": 63400
+    },
+    {
+      "epoch": 0.4267963535649603,
+      "grad_norm": 0.16003596782684326,
+      "learning_rate": 0.00035956195036435405,
+      "loss": 2.9893,
+      "num_input_tokens_seen": 16633036800,
+      "step": 63450
+    },
+    {
+      "epoch": 0.42713267850866793,
+      "grad_norm": 0.17876048386096954,
+      "learning_rate": 0.0003548576613727689,
+      "loss": 3.0004,
+      "num_input_tokens_seen": 16646144000,
+      "step": 63500
+    },
+    {
+      "epoch": 0.42713267850866793,
+      "eval_loss": 2.8903579711914062,
+      "eval_runtime": 53.0482,
+      "eval_samples_per_second": 94.254,
+      "eval_steps_per_second": 23.563,
+      "num_input_tokens_seen": 16646144000,
+      "step": 63500
+    },
+    {
+      "epoch": 0.42746900345237554,
+      "grad_norm": 0.21229425072669983,
+      "learning_rate": 0.00035016736150187165,
+      "loss": 2.9925,
+      "num_input_tokens_seen": 16659251200,
+      "step": 63550
+    },
+    {
+      "epoch": 0.42780532839608315,
+      "grad_norm": 0.19477584958076477,
+      "learning_rate": 0.00034549150281252633,
+      "loss": 2.9892,
+      "num_input_tokens_seen": 16672358400,
+      "step": 63600
+    },
+    {
+      "epoch": 0.42814165333979076,
+      "grad_norm": 0.1866609901189804,
+      "learning_rate": 0.0003408305359737252,
+      "loss": 2.9913,
+      "num_input_tokens_seen": 16685465600,
+      "step": 63650
+    },
+    {
+      "epoch": 0.4284779782834984,
+      "grad_norm": 0.19487887620925903,
+      "learning_rate": 0.0003361849102191533,
+      "loss": 2.9875,
+      "num_input_tokens_seen": 16698572800,
+      "step": 63700
+    },
+    {
+      "epoch": 0.428814303227206,
+      "grad_norm": 0.15979841351509094,
+      "learning_rate": 0.00033155507330389,
+      "loss": 2.9894,
+      "num_input_tokens_seen": 16711680000,
+      "step": 63750
+    },
+    {
+      "epoch": 0.4291506281709136,
+      "grad_norm": 0.1749998778104782,
+      "learning_rate": 0.0003269414714612534,
+      "loss": 2.9945,
+      "num_input_tokens_seen": 16724787200,
+      "step": 63800
+    },
+    {
+      "epoch": 0.4294869531146212,
+      "grad_norm": 0.16839075088500977,
+      "learning_rate": 0.00032234454935979205,
+      "loss": 2.9989,
+      "num_input_tokens_seen": 16737894400,
+      "step": 63850
+    },
+    {
+      "epoch": 0.4298232780583288,
+      "grad_norm": 0.19226372241973877,
+      "learning_rate": 0.0003177647500604252,
+      "loss": 2.9854,
+      "num_input_tokens_seen": 16751001600,
+      "step": 63900
+    },
+    {
+      "epoch": 0.43015960300203643,
+      "grad_norm": 0.15530380606651306,
+      "learning_rate": 0.0003132025149737419,
+      "loss": 2.9903,
+      "num_input_tokens_seen": 16764108800,
+      "step": 63950
+    },
+    {
+      "epoch": 0.43049592794574404,
+      "grad_norm": 0.17773845791816711,
+      "learning_rate": 0.0003086582838174551,
+      "loss": 2.9839,
+      "num_input_tokens_seen": 16777216000,
+      "step": 64000
+    },
+    {
+      "epoch": 0.43049592794574404,
+      "eval_loss": 2.8860437870025635,
+      "eval_runtime": 53.1514,
+      "eval_samples_per_second": 94.071,
+      "eval_steps_per_second": 23.518,
+      "num_input_tokens_seen": 16777216000,
+      "step": 64000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 16777216000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.48806902562816e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null