Training in progress, step 37000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:efae6f25b472bb0e65dad8b999f6e73025004f81855c74ec54fc8ecdd3a25a3d
 size 517931840

 version https://git-lfs.github.com/spec/v1
+oid sha256:2ce938a644f0cf4d10d231b631256c1bcbd8d98d79787b20ca3ed148b88756be
 size 517931840

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bcd1e62e2d3104319cb00e159562f9ab40349a35045ca52ca467e6336a9d4925
 size 1035661434

 version https://git-lfs.github.com/spec/v1
+oid sha256:64656c8de22e45c2941d2ea854ec0d370243cfeea2920fb181966f363dd14777
 size 1035661434

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3105f55ffa4117a580fe7ec380b19db2b68da0c57679e9557361f205c3d7ca03
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:0451e520bbe84b70e4cd2907956e95cd6d56464539f21e68e26c043e5cf63b1e
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c5a2a9a97378c1b7631d78a28de277749231ad65f077c045df73323c2c2b85da
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:90815e584013ee668de6d5b656c515902fbacbb32f54a71d2d1d29e05110019f
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.7907775567444676,
   "eval_steps": 500,
-  "global_step": 36000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -6416,11 +6416,189 @@
       "eval_steps_per_second": 18.606,
       "num_input_tokens_seen": 37748732160,
       "step": 36000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
-  "num_input_tokens_seen": 37748732160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -6435,7 +6613,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 2.149817958782927e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.8127435999873696,
   "eval_steps": 500,
+  "global_step": 37000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 18.606,
       "num_input_tokens_seen": 37748732160,
       "step": 36000
+    },
+    {
+      "epoch": 0.7918758589066127,
+      "grad_norm": 0.16054154932498932,
+      "learning_rate": 0.001,
+      "loss": 2.6516,
+      "num_input_tokens_seen": 37801160960,
+      "step": 36050
+    },
+    {
+      "epoch": 0.7929741610687578,
+      "grad_norm": 0.15180550515651703,
+      "learning_rate": 0.001,
+      "loss": 2.6508,
+      "num_input_tokens_seen": 37853589760,
+      "step": 36100
+    },
+    {
+      "epoch": 0.794072463230903,
+      "grad_norm": 0.19564937055110931,
+      "learning_rate": 0.001,
+      "loss": 2.6532,
+      "num_input_tokens_seen": 37906018560,
+      "step": 36150
+    },
+    {
+      "epoch": 0.795170765393048,
+      "grad_norm": 0.15047501027584076,
+      "learning_rate": 0.001,
+      "loss": 2.6567,
+      "num_input_tokens_seen": 37958447360,
+      "step": 36200
+    },
+    {
+      "epoch": 0.7962690675551931,
+      "grad_norm": 0.1420314759016037,
+      "learning_rate": 0.001,
+      "loss": 2.6511,
+      "num_input_tokens_seen": 38010876160,
+      "step": 36250
+    },
+    {
+      "epoch": 0.7973673697173382,
+      "grad_norm": 0.14328153431415558,
+      "learning_rate": 0.001,
+      "loss": 2.6601,
+      "num_input_tokens_seen": 38063304960,
+      "step": 36300
+    },
+    {
+      "epoch": 0.7984656718794833,
+      "grad_norm": 0.15527622401714325,
+      "learning_rate": 0.001,
+      "loss": 2.6598,
+      "num_input_tokens_seen": 38115733760,
+      "step": 36350
+    },
+    {
+      "epoch": 0.7995639740416284,
+      "grad_norm": 0.15956974029541016,
+      "learning_rate": 0.001,
+      "loss": 2.6522,
+      "num_input_tokens_seen": 38168162560,
+      "step": 36400
+    },
+    {
+      "epoch": 0.8006622762037735,
+      "grad_norm": 0.15193034708499908,
+      "learning_rate": 0.001,
+      "loss": 2.6561,
+      "num_input_tokens_seen": 38220591360,
+      "step": 36450
+    },
+    {
+      "epoch": 0.8017605783659186,
+      "grad_norm": 0.1692439615726471,
+      "learning_rate": 0.001,
+      "loss": 2.653,
+      "num_input_tokens_seen": 38273020160,
+      "step": 36500
+    },
+    {
+      "epoch": 0.8017605783659186,
+      "eval_loss": 2.553743362426758,
+      "eval_runtime": 66.3488,
+      "eval_samples_per_second": 75.359,
+      "eval_steps_per_second": 18.84,
+      "num_input_tokens_seen": 38273020160,
+      "step": 36500
+    },
+    {
+      "epoch": 0.8028588805280636,
+      "grad_norm": 0.473707377910614,
+      "learning_rate": 0.001,
+      "loss": 2.6604,
+      "num_input_tokens_seen": 38325448960,
+      "step": 36550
+    },
+    {
+      "epoch": 0.8039571826902088,
+      "grad_norm": 0.16226574778556824,
+      "learning_rate": 0.001,
+      "loss": 2.6615,
+      "num_input_tokens_seen": 38377877760,
+      "step": 36600
+    },
+    {
+      "epoch": 0.8050554848523539,
+      "grad_norm": 0.17274035513401031,
+      "learning_rate": 0.001,
+      "loss": 2.6616,
+      "num_input_tokens_seen": 38430306560,
+      "step": 36650
+    },
+    {
+      "epoch": 0.8061537870144989,
+      "grad_norm": 0.14171990752220154,
+      "learning_rate": 0.001,
+      "loss": 2.6628,
+      "num_input_tokens_seen": 38482735360,
+      "step": 36700
+    },
+    {
+      "epoch": 0.807252089176644,
+      "grad_norm": 0.3828020989894867,
+      "learning_rate": 0.001,
+      "loss": 2.6717,
+      "num_input_tokens_seen": 38535164160,
+      "step": 36750
+    },
+    {
+      "epoch": 0.8083503913387892,
+      "grad_norm": 0.20836575329303741,
+      "learning_rate": 0.001,
+      "loss": 2.685,
+      "num_input_tokens_seen": 38587592960,
+      "step": 36800
+    },
+    {
+      "epoch": 0.8094486935009343,
+      "grad_norm": 0.14613227546215057,
+      "learning_rate": 0.001,
+      "loss": 2.6687,
+      "num_input_tokens_seen": 38640021760,
+      "step": 36850
+    },
+    {
+      "epoch": 0.8105469956630793,
+      "grad_norm": 0.16505028307437897,
+      "learning_rate": 0.001,
+      "loss": 2.6654,
+      "num_input_tokens_seen": 38692450560,
+      "step": 36900
+    },
+    {
+      "epoch": 0.8116452978252244,
+      "grad_norm": 0.15305323898792267,
+      "learning_rate": 0.001,
+      "loss": 2.6612,
+      "num_input_tokens_seen": 38744879360,
+      "step": 36950
+    },
+    {
+      "epoch": 0.8127435999873696,
+      "grad_norm": 0.2416296899318695,
+      "learning_rate": 0.001,
+      "loss": 2.6614,
+      "num_input_tokens_seen": 38797308160,
+      "step": 37000
+    },
+    {
+      "epoch": 0.8127435999873696,
+      "eval_loss": 2.5642571449279785,
+      "eval_runtime": 66.5631,
+      "eval_samples_per_second": 75.117,
+      "eval_steps_per_second": 18.779,
+      "num_input_tokens_seen": 38797308160,
+      "step": 37000
     }
   ],
   "logging_steps": 50,
   "max_steps": 200000,
+  "num_input_tokens_seen": 38797308160,
   "num_train_epochs": 5,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 2.2095351303794196e+19,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null