Training in progress, step 133000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9e57d7de320997016d5d2199393f3c6d5ccbb8649da9e46ae713874cd8a8e24
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:92ad31cc8051a774ff84bf50a2f043b12568d60c659ab713450ad489e60ff067
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6f36f287a4da99bdaf6e0deca55af9eddec679234fd5785a93d74c5b7275a731
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:5f98fbf6f84fc645d4e9351e4872ab3409232339169c895981f2ca6168553f54
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3da6ad8ffd940afd42f47dbccd6a99fedee37b4e239b9c682223ad1635ee1326
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:eda9968c0f9e110957e79edd3603196e5c46bdd8acc1a9a916fa49100e905254
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:21aed170a2d0b5ca9750f891383cff878afad1161fd25ef679259c6d8c42258b
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:8c40f5e3cc10bc35190c452a89f96d672b73ffd5edfe6d4e72f9d0b88f5a7c9a
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2592890277496214,
   "eval_steps": 500,
-  "global_step": 132000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -23504,11 +23504,189 @@
       "eval_steps_per_second": 15.132,
       "num_input_tokens_seen": 69194840608,
       "step": 132000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 69194840608,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -23523,7 +23701,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.224622467372331e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.2688290780733869,
   "eval_steps": 500,
+  "global_step": 133000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.132,
       "num_input_tokens_seen": 69194840608,
       "step": 132000
+    },
+    {
+      "epoch": 1.2597660302658096,
+      "grad_norm": 0.11991748213768005,
+      "learning_rate": 0.0001860669839912626,
+      "loss": 2.0354,
+      "num_input_tokens_seen": 69221050496,
+      "step": 132050
+    },
+    {
+      "epoch": 1.260243032781998,
+      "grad_norm": 0.11859247088432312,
+      "learning_rate": 0.00018388874897104518,
+      "loss": 2.0449,
+      "num_input_tokens_seen": 69247257536,
+      "step": 132100
+    },
+    {
+      "epoch": 1.2607200352981862,
+      "grad_norm": 0.12269642949104309,
+      "learning_rate": 0.00018172046256311088,
+      "loss": 2.0427,
+      "num_input_tokens_seen": 69273469824,
+      "step": 132150
+    },
+    {
+      "epoch": 1.2611970378143744,
+      "grad_norm": 0.11893275380134583,
+      "learning_rate": 0.00017956219300748795,
+      "loss": 2.0366,
+      "num_input_tokens_seen": 69299684224,
+      "step": 132200
+    },
+    {
+      "epoch": 1.2616740403305626,
+      "grad_norm": 0.12191104143857956,
+      "learning_rate": 0.0001774140082289563,
+      "loss": 2.0393,
+      "num_input_tokens_seen": 69325894496,
+      "step": 132250
+    },
+    {
+      "epoch": 1.262151042846751,
+      "grad_norm": 0.12704069912433624,
+      "learning_rate": 0.00017527597583490823,
+      "loss": 2.0551,
+      "num_input_tokens_seen": 69352101952,
+      "step": 132300
+    },
+    {
+      "epoch": 1.2626280453629393,
+      "grad_norm": 0.12682849168777466,
+      "learning_rate": 0.00017314816311322218,
+      "loss": 2.0376,
+      "num_input_tokens_seen": 69378314752,
+      "step": 132350
+    },
+    {
+      "epoch": 1.2631050478791277,
+      "grad_norm": 0.1246429830789566,
+      "learning_rate": 0.00017103063703014372,
+      "loss": 2.0402,
+      "num_input_tokens_seen": 69404523776,
+      "step": 132400
+    },
+    {
+      "epoch": 1.263582050395316,
+      "grad_norm": 0.12006555497646332,
+      "learning_rate": 0.00016892346422817944,
+      "loss": 2.0383,
+      "num_input_tokens_seen": 69430732160,
+      "step": 132450
+    },
+    {
+      "epoch": 1.264059052911504,
+      "grad_norm": 0.12435656785964966,
+      "learning_rate": 0.00016682671102399805,
+      "loss": 2.0347,
+      "num_input_tokens_seen": 69456943424,
+      "step": 132500
+    },
+    {
+      "epoch": 1.264059052911504,
+      "eval_loss": 1.9590063095092773,
+      "eval_runtime": 82.7888,
+      "eval_samples_per_second": 60.395,
+      "eval_steps_per_second": 15.099,
+      "num_input_tokens_seen": 69456943424,
+      "step": 132500
+    },
+    {
+      "epoch": 1.2645360554276923,
+      "grad_norm": 0.12412598729133606,
+      "learning_rate": 0.0001647404434063447,
+      "loss": 2.0436,
+      "num_input_tokens_seen": 69483146688,
+      "step": 132550
+    },
+    {
+      "epoch": 1.2650130579438805,
+      "grad_norm": 0.12309623509645462,
+      "learning_rate": 0.00016266472703396284,
+      "loss": 2.028,
+      "num_input_tokens_seen": 69509359968,
+      "step": 132600
+    },
+    {
+      "epoch": 1.265490060460069,
+      "grad_norm": 0.12758532166481018,
+      "learning_rate": 0.0001605996272335291,
+      "loss": 2.041,
+      "num_input_tokens_seen": 69535568960,
+      "step": 132650
+    },
+    {
+      "epoch": 1.2659670629762572,
+      "grad_norm": 0.11922606080770493,
+      "learning_rate": 0.00015854520899759655,
+      "loss": 2.0308,
+      "num_input_tokens_seen": 69561777024,
+      "step": 132700
+    },
+    {
+      "epoch": 1.2664440654924456,
+      "grad_norm": 0.1239946112036705,
+      "learning_rate": 0.00015650153698254916,
+      "loss": 2.0336,
+      "num_input_tokens_seen": 69587981952,
+      "step": 132750
+    },
+    {
+      "epoch": 1.2669210680086338,
+      "grad_norm": 0.12584541738033295,
+      "learning_rate": 0.00015446867550656767,
+      "loss": 2.0376,
+      "num_input_tokens_seen": 69614192832,
+      "step": 132800
+    },
+    {
+      "epoch": 1.267398070524822,
+      "grad_norm": 0.12514598667621613,
+      "learning_rate": 0.00015244668854760458,
+      "loss": 2.0411,
+      "num_input_tokens_seen": 69640405600,
+      "step": 132850
+    },
+    {
+      "epoch": 1.2678750730410102,
+      "grad_norm": 0.12181352823972702,
+      "learning_rate": 0.00015043563974137132,
+      "loss": 2.0404,
+      "num_input_tokens_seen": 69666619040,
+      "step": 132900
+    },
+    {
+      "epoch": 1.2683520755571986,
+      "grad_norm": 0.11871461570262909,
+      "learning_rate": 0.00014843559237933475,
+      "loss": 2.0458,
+      "num_input_tokens_seen": 69692833440,
+      "step": 132950
+    },
+    {
+      "epoch": 1.2688290780733869,
+      "grad_norm": 0.12271245568990707,
+      "learning_rate": 0.00014644660940672628,
+      "loss": 2.0354,
+      "num_input_tokens_seen": 69719047840,
+      "step": 133000
+    },
+    {
+      "epoch": 1.2688290780733869,
+      "eval_loss": 1.9576880931854248,
+      "eval_runtime": 82.558,
+      "eval_samples_per_second": 60.564,
+      "eval_steps_per_second": 15.141,
+      "num_input_tokens_seen": 69719047840,
+      "step": 133000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 69719047840,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2338999792247398e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null