Training in progress, step 68000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:4df562358f0b3d93fdb48e67f5210b057adeffd8b788222cd6d30c1e17d16a45
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b26db7188c89cde52f93cc8f561f4529a8702aaa52ce9c883892b96769dd603
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:095f32100e867e0fe913cd1c8e425177cd1f66e07c341665a191649c37a86bd3
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:ec885f087630fd98da5aea6a3b9af5bf67a1e0daf9ab5c57e09d7f1ac7385946
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f2f0aa502d64898ee3e50486c039d0e2439e7552237090a80d559862b18540a7
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eb3d1fb9e8324a04c98053fb02a6fde8d1a865fd7ced6a674f76811c1bbb259f
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00a7e117096eaa1f05b475c020696dc81b37bf94c840c6a7b407a88337130d26
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4fb0106671a29e67305a03ecdd422ffd62f40cc2f3e19327fe3581d2d1603d90
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.31959168584614284,
   "eval_steps": 500,
-  "global_step": 67000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -11934,11 +11934,189 @@
       "eval_steps_per_second": 23.351,
       "num_input_tokens_seen": 17563643456,
       "step": 67000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 17563643456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -11953,7 +12131,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 4.698446045640131e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.3243617110080256,
   "eval_steps": 500,
+  "global_step": 68000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.351,
       "num_input_tokens_seen": 17563643456,
       "step": 67000
+    },
+    {
+      "epoch": 0.319830187104237,
+      "grad_norm": 0.1690913438796997,
+      "learning_rate": 0.00010561116804955451,
+      "loss": 2.5364,
+      "num_input_tokens_seen": 17576750656,
+      "step": 67050
+    },
+    {
+      "epoch": 0.3200686883623311,
+      "grad_norm": 0.16436229646205902,
+      "learning_rate": 0.00010218772555910954,
+      "loss": 2.5298,
+      "num_input_tokens_seen": 17589857856,
+      "step": 67100
+    },
+    {
+      "epoch": 0.32030718962042526,
+      "grad_norm": 0.15499907732009888,
+      "learning_rate": 9.881436225981105e-05,
+      "loss": 2.5484,
+      "num_input_tokens_seen": 17602965056,
+      "step": 67150
+    },
+    {
+      "epoch": 0.32054569087851936,
+      "grad_norm": 0.16237874329090118,
+      "learning_rate": 9.549150281252633e-05,
+      "loss": 2.5271,
+      "num_input_tokens_seen": 17616072256,
+      "step": 67200
+    },
+    {
+      "epoch": 0.3207841921366135,
+      "grad_norm": 0.16813968122005463,
+      "learning_rate": 9.221956552036992e-05,
+      "loss": 2.5295,
+      "num_input_tokens_seen": 17629179456,
+      "step": 67250
+    },
+    {
+      "epoch": 0.3210226933947077,
+      "grad_norm": 0.15672080218791962,
+      "learning_rate": 8.899896227604509e-05,
+      "loss": 2.528,
+      "num_input_tokens_seen": 17642286656,
+      "step": 67300
+    },
+    {
+      "epoch": 0.3212611946528018,
+      "grad_norm": 0.16523708403110504,
+      "learning_rate": 8.58300985099918e-05,
+      "loss": 2.5288,
+      "num_input_tokens_seen": 17655393856,
+      "step": 67350
+    },
+    {
+      "epoch": 0.32149969591089594,
+      "grad_norm": 0.16759687662124634,
+      "learning_rate": 8.271337313934868e-05,
+      "loss": 2.5431,
+      "num_input_tokens_seen": 17668501056,
+      "step": 67400
+    },
+    {
+      "epoch": 0.32173819716899005,
+      "grad_norm": 0.15507538616657257,
+      "learning_rate": 7.964917851773496e-05,
+      "loss": 2.5342,
+      "num_input_tokens_seen": 17681608256,
+      "step": 67450
+    },
+    {
+      "epoch": 0.3219766984270842,
+      "grad_norm": 0.1556961089372635,
+      "learning_rate": 7.663790038585794e-05,
+      "loss": 2.5189,
+      "num_input_tokens_seen": 17694715456,
+      "step": 67500
+    },
+    {
+      "epoch": 0.3219766984270842,
+      "eval_loss": 2.415555000305176,
+      "eval_runtime": 53.2935,
+      "eval_samples_per_second": 93.82,
+      "eval_steps_per_second": 23.455,
+      "num_input_tokens_seen": 17694715456,
+      "step": 67500
+    },
+    {
+      "epoch": 0.32221519968517837,
+      "grad_norm": 0.16804397106170654,
+      "learning_rate": 7.367991782295391e-05,
+      "loss": 2.5218,
+      "num_input_tokens_seen": 17707822656,
+      "step": 67550
+    },
+    {
+      "epoch": 0.32245370094327247,
+      "grad_norm": 0.15728074312210083,
+      "learning_rate": 7.077560319906695e-05,
+      "loss": 2.5261,
+      "num_input_tokens_seen": 17720929856,
+      "step": 67600
+    },
+    {
+      "epoch": 0.32269220220136663,
+      "grad_norm": 0.1641319841146469,
+      "learning_rate": 6.792532212817271e-05,
+      "loss": 2.5398,
+      "num_input_tokens_seen": 17734037056,
+      "step": 67650
+    },
+    {
+      "epoch": 0.32293070345946073,
+      "grad_norm": 0.1575596034526825,
+      "learning_rate": 6.512943342215233e-05,
+      "loss": 2.5211,
+      "num_input_tokens_seen": 17747144256,
+      "step": 67700
+    },
+    {
+      "epoch": 0.3231692047175549,
+      "grad_norm": 0.16352206468582153,
+      "learning_rate": 6.238828904562316e-05,
+      "loss": 2.5143,
+      "num_input_tokens_seen": 17760251456,
+      "step": 67750
+    },
+    {
+      "epoch": 0.323407705975649,
+      "grad_norm": 0.16303551197052002,
+      "learning_rate": 5.9702234071631e-05,
+      "loss": 2.5262,
+      "num_input_tokens_seen": 17773358656,
+      "step": 67800
+    },
+    {
+      "epoch": 0.32364620723374316,
+      "grad_norm": 0.15572308003902435,
+      "learning_rate": 5.7071606638210094e-05,
+      "loss": 2.5278,
+      "num_input_tokens_seen": 17786465856,
+      "step": 67850
+    },
+    {
+      "epoch": 0.3238847084918373,
+      "grad_norm": 0.15960544347763062,
+      "learning_rate": 5.449673790581611e-05,
+      "loss": 2.522,
+      "num_input_tokens_seen": 17799573056,
+      "step": 67900
+    },
+    {
+      "epoch": 0.3241232097499314,
+      "grad_norm": 0.15617695450782776,
+      "learning_rate": 5.197795201563743e-05,
+      "loss": 2.5151,
+      "num_input_tokens_seen": 17812680256,
+      "step": 67950
+    },
+    {
+      "epoch": 0.3243617110080256,
+      "grad_norm": 0.1527390033006668,
+      "learning_rate": 4.9515566048790485e-05,
+      "loss": 2.5213,
+      "num_input_tokens_seen": 17825787456,
+      "step": 68000
+    },
+    {
+      "epoch": 0.3243617110080256,
+      "eval_loss": 2.4139962196350098,
+      "eval_runtime": 53.933,
+      "eval_samples_per_second": 92.708,
+      "eval_steps_per_second": 23.177,
+      "num_input_tokens_seen": 17825787456,
+      "step": 68000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 17825787456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 4.768572124165571e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null