Training in progress, step 64000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a92901e6dc98a2f43e5ab06e2e35886c7f4c68e401e8be0d01acd281cd82349c
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:a4464ecdd36ba9fcbb768fb530bac7125d2ebc3403bceccb2b1857ab10495094
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34104db96694bb116cf3048bcf68919612a7c6c79ff646c13c6e8d5a81aff8f6
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:ca3203148d8c928e5e1184f1534f1177f73f6ec7ebdc7acfe3b62c2af0779f9d
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1a97095234a7b82e99cd1b23ba4db26c35942b8b4622876b166d0ce65b7c7110
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:7f03ef68c121377c551657263f23acf972b60bf546b00ad9803912e5c78e5ecd
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d1de5c681ac3c8b6bb5235a71c5b6efd72fc9171aa2c9c6e093b8695c8a08b8
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8a5e9561ab6074dc857170aae9d2b27d70afb0686bb61ba701f52af71ad4d4a9
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.30051158519861193,
   "eval_steps": 500,
-  "global_step": 63000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11222,11 +11222,189 @@
       "eval_steps_per_second": 23.044,
       "num_input_tokens_seen": 16515067456,
       "step": 63000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 16515067456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11241,7 +11419,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.4179417315383706e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.30528161036049467,
   "eval_steps": 500,
+  "global_step": 64000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.044,
       "num_input_tokens_seen": 16515067456,
       "step": 63000
+    },
+    {
+      "epoch": 0.30075008645670603,
+      "grad_norm": 0.20152603089809418,
+      "learning_rate": 0.0004943901308226771,
+      "loss": 2.5562,
+      "num_input_tokens_seen": 16528174656,
+      "step": 63050
+    },
+    {
+      "epoch": 0.3009885877148002,
+      "grad_norm": 0.18534454703330994,
+      "learning_rate": 0.0004887809678520976,
+      "loss": 2.5559,
+      "num_input_tokens_seen": 16541281856,
+      "step": 63100
+    },
+    {
+      "epoch": 0.30122708897289435,
+      "grad_norm": 0.18770301342010498,
+      "learning_rate": 0.0004831732172061032,
+      "loss": 2.5538,
+      "num_input_tokens_seen": 16554389056,
+      "step": 63150
+    },
+    {
+      "epoch": 0.30146559023098846,
+      "grad_norm": 0.19565705955028534,
+      "learning_rate": 0.0004775675848247427,
+      "loss": 2.5593,
+      "num_input_tokens_seen": 16567496256,
+      "step": 63200
+    },
+    {
+      "epoch": 0.3017040914890826,
+      "grad_norm": 0.1954822540283203,
+      "learning_rate": 0.00047196477638140405,
+      "loss": 2.5694,
+      "num_input_tokens_seen": 16580603456,
+      "step": 63250
+    },
+    {
+      "epoch": 0.3019425927471767,
+      "grad_norm": 0.18120840191841125,
+      "learning_rate": 0.0004663654971939802,
+      "loss": 2.5622,
+      "num_input_tokens_seen": 16593710656,
+      "step": 63300
+    },
+    {
+      "epoch": 0.3021810940052709,
+      "grad_norm": 0.18100927770137787,
+      "learning_rate": 0.0004607704521360776,
+      "loss": 2.5437,
+      "num_input_tokens_seen": 16606817856,
+      "step": 63350
+    },
+    {
+      "epoch": 0.30241959526336504,
+      "grad_norm": 0.20565176010131836,
+      "learning_rate": 0.0004551803455482833,
+      "loss": 2.5463,
+      "num_input_tokens_seen": 16619925056,
+      "step": 63400
+    },
+    {
+      "epoch": 0.30265809652145914,
+      "grad_norm": 0.18989761173725128,
+      "learning_rate": 0.0004495958811494978,
+      "loss": 2.5609,
+      "num_input_tokens_seen": 16633032256,
+      "step": 63450
+    },
+    {
+      "epoch": 0.3028965977795533,
+      "grad_norm": 0.1870686262845993,
+      "learning_rate": 0.0004440177619483461,
+      "loss": 2.5554,
+      "num_input_tokens_seen": 16646139456,
+      "step": 63500
+    },
+    {
+      "epoch": 0.3028965977795533,
+      "eval_loss": 2.4395649433135986,
+      "eval_runtime": 53.4665,
+      "eval_samples_per_second": 93.516,
+      "eval_steps_per_second": 23.379,
+      "num_input_tokens_seen": 16646139456,
+      "step": 63500
+    },
+    {
+      "epoch": 0.3031350990376474,
+      "grad_norm": 0.1891048699617386,
+      "learning_rate": 0.00043844669015467863,
+      "loss": 2.5627,
+      "num_input_tokens_seen": 16659246656,
+      "step": 63550
+    },
+    {
+      "epoch": 0.30337360029574156,
+      "grad_norm": 0.18591411411762238,
+      "learning_rate": 0.0004328833670911724,
+      "loss": 2.5545,
+      "num_input_tokens_seen": 16672353856,
+      "step": 63600
+    },
+    {
+      "epoch": 0.3036121015538357,
+      "grad_norm": 0.18640951812267303,
+      "learning_rate": 0.0004273284931050438,
+      "loss": 2.5672,
+      "num_input_tokens_seen": 16685461056,
+      "step": 63650
+    },
+    {
+      "epoch": 0.3038506028119298,
+      "grad_norm": 0.1919756680727005,
+      "learning_rate": 0.0004217827674798845,
+      "loss": 2.5492,
+      "num_input_tokens_seen": 16698568256,
+      "step": 63700
+    },
+    {
+      "epoch": 0.304089104070024,
+      "grad_norm": 0.18388938903808594,
+      "learning_rate": 0.00041624688834763184,
+      "loss": 2.5487,
+      "num_input_tokens_seen": 16711675456,
+      "step": 63750
+    },
+    {
+      "epoch": 0.3043276053281181,
+      "grad_norm": 0.1851562261581421,
+      "learning_rate": 0.0004107215526006817,
+      "loss": 2.5539,
+      "num_input_tokens_seen": 16724782656,
+      "step": 63800
+    },
+    {
+      "epoch": 0.30456610658621225,
+      "grad_norm": 0.17315496504306793,
+      "learning_rate": 0.0004052074558041608,
+      "loss": 2.5544,
+      "num_input_tokens_seen": 16737889856,
+      "step": 63850
+    },
+    {
+      "epoch": 0.30480460784430635,
+      "grad_norm": 0.17985352873802185,
+      "learning_rate": 0.00039970529210836363,
+      "loss": 2.5511,
+      "num_input_tokens_seen": 16750997056,
+      "step": 63900
+    },
+    {
+      "epoch": 0.3050431091024005,
+      "grad_norm": 0.20455212891101837,
+      "learning_rate": 0.0003942157541613686,
+      "loss": 2.5593,
+      "num_input_tokens_seen": 16764104256,
+      "step": 63950
+    },
+    {
+      "epoch": 0.30528161036049467,
+      "grad_norm": 0.1965632140636444,
+      "learning_rate": 0.00038873953302184284,
+      "loss": 2.5599,
+      "num_input_tokens_seen": 16777211456,
+      "step": 64000
+    },
+    {
+      "epoch": 0.30528161036049467,
+      "eval_loss": 2.437380790710449,
+      "eval_runtime": 53.2524,
+      "eval_samples_per_second": 93.893,
+      "eval_steps_per_second": 23.473,
+      "num_input_tokens_seen": 16777211456,
+      "step": 64000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 16777211456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.4880678100638106e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null