Training in progress, step 52000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:55cdd483825b29b30f7f81376356d5e2543f5fc8a3afa0e3b843e8665cf2d119
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:17f79bfd92c936c07be11debb700728ae4b7e0771937dc9aee38748f4dc80dc3
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e04bcdcff48abed6280a66dda32419f983e084885866d5f14e841f6587fe0aff
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:fdcb0e96beb98fcdfd50cc3b612cd068e544f01ef0961afbf353f3d6eabba3ce
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:871241677306799dd94bb012f99e77b35a49885274956fc7cf6b8c017fdd6180
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:746267b8ba996549a033d105e363328c635034a7afa0e3070ea8447957aaca5a
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:38e628546b6b3793b4db9c04b0c48bd7f457b5c91e760c9c29b133754fb90815
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:24b3fcbecd3d55078c913506015bb6e1182f04ee52bf4c0845fc043823a61161
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3430514425817648,
   "eval_steps": 500,
-  "global_step": 51000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9086,11 +9086,189 @@
       "eval_steps_per_second": 23.543,
       "num_input_tokens_seen": 13369344000,
       "step": 51000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
-  "num_input_tokens_seen": 13369344000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9105,7 +9283,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.57643000479744e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.34977794145591706,
   "eval_steps": 500,
+  "global_step": 52000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.543,
       "num_input_tokens_seen": 13369344000,
       "step": 51000
+    },
+    {
+      "epoch": 0.3433877675254724,
+      "grad_norm": 0.19399498403072357,
+      "learning_rate": 0.001,
+      "loss": 3.0583,
+      "num_input_tokens_seen": 13382451200,
+      "step": 51050
+    },
+    {
+      "epoch": 0.34372409246918,
+      "grad_norm": 0.19893072545528412,
+      "learning_rate": 0.001,
+      "loss": 3.0505,
+      "num_input_tokens_seen": 13395558400,
+      "step": 51100
+    },
+    {
+      "epoch": 0.3440604174128876,
+      "grad_norm": 0.17791305482387543,
+      "learning_rate": 0.001,
+      "loss": 3.0504,
+      "num_input_tokens_seen": 13408665600,
+      "step": 51150
+    },
+    {
+      "epoch": 0.34439674235659523,
+      "grad_norm": 0.7631425261497498,
+      "learning_rate": 0.001,
+      "loss": 3.0483,
+      "num_input_tokens_seen": 13421772800,
+      "step": 51200
+    },
+    {
+      "epoch": 0.34473306730030284,
+      "grad_norm": 0.22620978951454163,
+      "learning_rate": 0.001,
+      "loss": 3.0512,
+      "num_input_tokens_seen": 13434880000,
+      "step": 51250
+    },
+    {
+      "epoch": 0.34506939224401045,
+      "grad_norm": 0.219919815659523,
+      "learning_rate": 0.001,
+      "loss": 3.0415,
+      "num_input_tokens_seen": 13447987200,
+      "step": 51300
+    },
+    {
+      "epoch": 0.34540571718771806,
+      "grad_norm": 0.21654649078845978,
+      "learning_rate": 0.001,
+      "loss": 3.062,
+      "num_input_tokens_seen": 13461094400,
+      "step": 51350
+    },
+    {
+      "epoch": 0.3457420421314257,
+      "grad_norm": 0.2439095377922058,
+      "learning_rate": 0.001,
+      "loss": 3.0478,
+      "num_input_tokens_seen": 13474201600,
+      "step": 51400
+    },
+    {
+      "epoch": 0.3460783670751333,
+      "grad_norm": 0.19535380601882935,
+      "learning_rate": 0.001,
+      "loss": 3.0444,
+      "num_input_tokens_seen": 13487308800,
+      "step": 51450
+    },
+    {
+      "epoch": 0.3464146920188409,
+      "grad_norm": 0.1964534968137741,
+      "learning_rate": 0.001,
+      "loss": 3.049,
+      "num_input_tokens_seen": 13500416000,
+      "step": 51500
+    },
+    {
+      "epoch": 0.3464146920188409,
+      "eval_loss": 2.945749044418335,
+      "eval_runtime": 53.0447,
+      "eval_samples_per_second": 94.26,
+      "eval_steps_per_second": 23.565,
+      "num_input_tokens_seen": 13500416000,
+      "step": 51500
+    },
+    {
+      "epoch": 0.3467510169625485,
+      "grad_norm": 0.2085062563419342,
+      "learning_rate": 0.001,
+      "loss": 3.0582,
+      "num_input_tokens_seen": 13513523200,
+      "step": 51550
+    },
+    {
+      "epoch": 0.3470873419062562,
+      "grad_norm": 0.1903097778558731,
+      "learning_rate": 0.001,
+      "loss": 3.0488,
+      "num_input_tokens_seen": 13526630400,
+      "step": 51600
+    },
+    {
+      "epoch": 0.3474236668499638,
+      "grad_norm": 0.20101405680179596,
+      "learning_rate": 0.001,
+      "loss": 3.0573,
+      "num_input_tokens_seen": 13539737600,
+      "step": 51650
+    },
+    {
+      "epoch": 0.3477599917936714,
+      "grad_norm": 0.6418889164924622,
+      "learning_rate": 0.001,
+      "loss": 3.0513,
+      "num_input_tokens_seen": 13552844800,
+      "step": 51700
+    },
+    {
+      "epoch": 0.348096316737379,
+      "grad_norm": 0.22524093091487885,
+      "learning_rate": 0.001,
+      "loss": 3.0567,
+      "num_input_tokens_seen": 13565952000,
+      "step": 51750
+    },
+    {
+      "epoch": 0.3484326416810866,
+      "grad_norm": 0.21830599009990692,
+      "learning_rate": 0.001,
+      "loss": 3.0538,
+      "num_input_tokens_seen": 13579059200,
+      "step": 51800
+    },
+    {
+      "epoch": 0.34876896662479423,
+      "grad_norm": 0.6111611127853394,
+      "learning_rate": 0.001,
+      "loss": 3.0581,
+      "num_input_tokens_seen": 13592166400,
+      "step": 51850
+    },
+    {
+      "epoch": 0.34910529156850184,
+      "grad_norm": 0.3782864511013031,
+      "learning_rate": 0.001,
+      "loss": 3.0694,
+      "num_input_tokens_seen": 13605273600,
+      "step": 51900
+    },
+    {
+      "epoch": 0.34944161651220945,
+      "grad_norm": 0.23944802582263947,
+      "learning_rate": 0.001,
+      "loss": 3.0683,
+      "num_input_tokens_seen": 13618380800,
+      "step": 51950
+    },
+    {
+      "epoch": 0.34977794145591706,
+      "grad_norm": 0.20257577300071716,
+      "learning_rate": 0.001,
+      "loss": 3.0509,
+      "num_input_tokens_seen": 13631488000,
+      "step": 52000
+    },
+    {
+      "epoch": 0.34977794145591706,
+      "eval_loss": 2.94769287109375,
+      "eval_runtime": 53.1351,
+      "eval_samples_per_second": 94.1,
+      "eval_steps_per_second": 23.525,
+      "num_input_tokens_seen": 13631488000,
+      "step": 52000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
+  "num_input_tokens_seen": 13631488000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.64655608332288e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null