Training in progress, step 54000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:36284509c9073dd2ec02f720b116d0aa77896518dd97e6cb1b15bf18c5f1971e
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:aa0a1572ea481edcf54695292d1afeb45339e9d2c4b988649cdfc68bb148006f
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7d392d61f01d27253443cebf734042b0281783df28f92f8dae1e7a4619df1a45
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:88539436cc04b7ab674c4b703cc9d0b734fa709baeed11a8b4233a791dc8b00e
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b5f53c01b35d1753a4f571c1ddd2b16976530a7b71c320877f1fbd74ce1de4ed
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e516d1931a63763a7fdfb84f01f54aaada25beb218520b62969ba08ff897cee4
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f3771019f4815646a43bbc09acce698c65d4ba61e6cbb0516a172314f7fbb077
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4b89459823d581d70469027e8df5427d5b9a07aadbd42c55eac43368b994e74e
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.25281133357978464,
   "eval_steps": 500,
-  "global_step": 53000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -9442,11 +9442,189 @@
       "eval_steps_per_second": 23.269,
       "num_input_tokens_seen": 13893627456,
       "step": 53000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
-  "num_input_tokens_seen": 13893627456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -9461,7 +9639,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 3.7166809462839706e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.2575813587416674,
   "eval_steps": 500,
+  "global_step": 54000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.269,
       "num_input_tokens_seen": 13893627456,
       "step": 53000
+    },
+    {
+      "epoch": 0.2530498348378788,
+      "grad_norm": 0.20486177504062653,
+      "learning_rate": 0.001,
+      "loss": 2.5977,
+      "num_input_tokens_seen": 13906734656,
+      "step": 53050
+    },
+    {
+      "epoch": 0.2532883360959729,
+      "grad_norm": 0.18098385632038116,
+      "learning_rate": 0.001,
+      "loss": 2.5931,
+      "num_input_tokens_seen": 13919841856,
+      "step": 53100
+    },
+    {
+      "epoch": 0.25352683735406706,
+      "grad_norm": 0.1933833658695221,
+      "learning_rate": 0.001,
+      "loss": 2.6058,
+      "num_input_tokens_seen": 13932949056,
+      "step": 53150
+    },
+    {
+      "epoch": 0.25376533861216116,
+      "grad_norm": 0.29640141129493713,
+      "learning_rate": 0.001,
+      "loss": 2.5864,
+      "num_input_tokens_seen": 13946056256,
+      "step": 53200
+    },
+    {
+      "epoch": 0.2540038398702553,
+      "grad_norm": 0.2559553384780884,
+      "learning_rate": 0.001,
+      "loss": 2.6137,
+      "num_input_tokens_seen": 13959163456,
+      "step": 53250
+    },
+    {
+      "epoch": 0.2542423411283494,
+      "grad_norm": 0.21698619425296783,
+      "learning_rate": 0.001,
+      "loss": 2.6184,
+      "num_input_tokens_seen": 13972270656,
+      "step": 53300
+    },
+    {
+      "epoch": 0.2544808423864436,
+      "grad_norm": 0.19658173620700836,
+      "learning_rate": 0.001,
+      "loss": 2.5938,
+      "num_input_tokens_seen": 13985377856,
+      "step": 53350
+    },
+    {
+      "epoch": 0.25471934364453774,
+      "grad_norm": 0.2056342512369156,
+      "learning_rate": 0.001,
+      "loss": 2.5952,
+      "num_input_tokens_seen": 13998485056,
+      "step": 53400
+    },
+    {
+      "epoch": 0.25495784490263185,
+      "grad_norm": 0.1932424008846283,
+      "learning_rate": 0.001,
+      "loss": 2.6101,
+      "num_input_tokens_seen": 14011592256,
+      "step": 53450
+    },
+    {
+      "epoch": 0.255196346160726,
+      "grad_norm": 0.19347251951694489,
+      "learning_rate": 0.001,
+      "loss": 2.5976,
+      "num_input_tokens_seen": 14024699456,
+      "step": 53500
+    },
+    {
+      "epoch": 0.255196346160726,
+      "eval_loss": 2.4863245487213135,
+      "eval_runtime": 53.2426,
+      "eval_samples_per_second": 93.91,
+      "eval_steps_per_second": 23.477,
+      "num_input_tokens_seen": 14024699456,
+      "step": 53500
+    },
+    {
+      "epoch": 0.2554348474188201,
+      "grad_norm": 0.1986820101737976,
+      "learning_rate": 0.001,
+      "loss": 2.6066,
+      "num_input_tokens_seen": 14037806656,
+      "step": 53550
+    },
+    {
+      "epoch": 0.25567334867691427,
+      "grad_norm": 0.21295565366744995,
+      "learning_rate": 0.001,
+      "loss": 2.6107,
+      "num_input_tokens_seen": 14050913856,
+      "step": 53600
+    },
+    {
+      "epoch": 0.25591184993500843,
+      "grad_norm": 0.21585114300251007,
+      "learning_rate": 0.001,
+      "loss": 2.6077,
+      "num_input_tokens_seen": 14064021056,
+      "step": 53650
+    },
+    {
+      "epoch": 0.25615035119310253,
+      "grad_norm": 0.19424305856227875,
+      "learning_rate": 0.001,
+      "loss": 2.5931,
+      "num_input_tokens_seen": 14077128256,
+      "step": 53700
+    },
+    {
+      "epoch": 0.2563888524511967,
+      "grad_norm": 0.20265349745750427,
+      "learning_rate": 0.001,
+      "loss": 2.5901,
+      "num_input_tokens_seen": 14090235456,
+      "step": 53750
+    },
+    {
+      "epoch": 0.2566273537092908,
+      "grad_norm": 1.037636160850525,
+      "learning_rate": 0.001,
+      "loss": 2.5775,
+      "num_input_tokens_seen": 14103342656,
+      "step": 53800
+    },
+    {
+      "epoch": 0.25686585496738495,
+      "grad_norm": 0.32030293345451355,
+      "learning_rate": 0.001,
+      "loss": 2.6242,
+      "num_input_tokens_seen": 14116449856,
+      "step": 53850
+    },
+    {
+      "epoch": 0.2571043562254791,
+      "grad_norm": 0.2339978665113449,
+      "learning_rate": 0.001,
+      "loss": 2.6122,
+      "num_input_tokens_seen": 14129557056,
+      "step": 53900
+    },
+    {
+      "epoch": 0.2573428574835732,
+      "grad_norm": 0.22179783880710602,
+      "learning_rate": 0.001,
+      "loss": 2.6025,
+      "num_input_tokens_seen": 14142664256,
+      "step": 53950
+    },
+    {
+      "epoch": 0.2575813587416674,
+      "grad_norm": 0.22616736590862274,
+      "learning_rate": 0.001,
+      "loss": 2.5916,
+      "num_input_tokens_seen": 14155771456,
+      "step": 54000
+    },
+    {
+      "epoch": 0.2575813587416674,
+      "eval_loss": 2.4871394634246826,
+      "eval_runtime": 53.8695,
+      "eval_samples_per_second": 92.817,
+      "eval_steps_per_second": 23.204,
+      "num_input_tokens_seen": 14155771456,
+      "step": 54000
     }
   ],
   "logging_steps": 50,
   "max_steps": 70000,
+  "num_input_tokens_seen": 14155771456,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 3.7868070248094106e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null