Training in progress, step 136000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:079464073c9724ceb804666b522429a90a4928e290e5da217f3ad8b9d68b8886
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:2fe644242ac85364957a221ecb3fda251252bbb21f78dcf32d44ddb45cee4b8c
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6fd285cfac8e5c0f6d1266cf8e23ce20a797130dac2828587dcc5345232fa441
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:9a0bb2637b2d27c703e80119c30822f6cacfac9cba885cfe1635772ce684b387
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:874cf93e738f75197422ec1e62b162ef1e398b581422e23932b758446980a6af
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:5c2ffcf5f582912b4a7016b15e29048dddaa402730efcd133059a2e08945301c
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:8e1e7a01b81e1907abf43be3318a5c567fc57f95dbaef634f44d30b341186326
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:ff50fa4a38896a05eab7dc1bfd456c8019098d112a942a25a411381c6596e51c
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.2879091787209178,
   "eval_steps": 500,
-  "global_step": 135000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -24038,11 +24038,189 @@
       "eval_steps_per_second": 15.14,
       "num_input_tokens_seen": 70767457344,
       "step": 135000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 70767457344,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -24057,7 +24235,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.2524549151466045e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.297449229044683,
   "eval_steps": 500,
+  "global_step": 136000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.14,
       "num_input_tokens_seen": 70767457344,
       "step": 135000
+    },
+    {
+      "epoch": 1.288386181237106,
+      "grad_norm": 0.1237749382853508,
+      "learning_rate": 7.515222372735647e-05,
+      "loss": 2.029,
+      "num_input_tokens_seen": 70793671744,
+      "step": 135050
+    },
+    {
+      "epoch": 1.2888631837532942,
+      "grad_norm": 0.11638092249631882,
+      "learning_rate": 7.367991782295391e-05,
+      "loss": 2.0171,
+      "num_input_tokens_seen": 70819879168,
+      "step": 135100
+    },
+    {
+      "epoch": 1.2893401862694827,
+      "grad_norm": 0.11938998103141785,
+      "learning_rate": 7.222102900887101e-05,
+      "loss": 2.0232,
+      "num_input_tokens_seen": 70846079616,
+      "step": 135150
+    },
+    {
+      "epoch": 1.2898171887856709,
+      "grad_norm": 0.11985292285680771,
+      "learning_rate": 7.077560319906695e-05,
+      "loss": 2.0387,
+      "num_input_tokens_seen": 70872294016,
+      "step": 135200
+    },
+    {
+      "epoch": 1.290294191301859,
+      "grad_norm": 0.12651756405830383,
+      "learning_rate": 6.934368588379552e-05,
+      "loss": 2.0345,
+      "num_input_tokens_seen": 70898498624,
+      "step": 135250
+    },
+    {
+      "epoch": 1.2907711938180473,
+      "grad_norm": 0.12012086063623428,
+      "learning_rate": 6.792532212817271e-05,
+      "loss": 2.0362,
+      "num_input_tokens_seen": 70924710048,
+      "step": 135300
+    },
+    {
+      "epoch": 1.2912481963342357,
+      "grad_norm": 0.12295469641685486,
+      "learning_rate": 6.652055657075845e-05,
+      "loss": 2.0338,
+      "num_input_tokens_seen": 70950915200,
+      "step": 135350
+    },
+    {
+      "epoch": 1.291725198850424,
+      "grad_norm": 0.12192966043949127,
+      "learning_rate": 6.512943342215233e-05,
+      "loss": 2.0311,
+      "num_input_tokens_seen": 70977118208,
+      "step": 135400
+    },
+    {
+      "epoch": 1.2922022013666123,
+      "grad_norm": 0.1188386008143425,
+      "learning_rate": 6.375199646360142e-05,
+      "loss": 2.0311,
+      "num_input_tokens_seen": 71003331520,
+      "step": 135450
+    },
+    {
+      "epoch": 1.2926792038828006,
+      "grad_norm": 0.11646123230457306,
+      "learning_rate": 6.238828904562316e-05,
+      "loss": 2.037,
+      "num_input_tokens_seen": 71029545920,
+      "step": 135500
+    },
+    {
+      "epoch": 1.2926792038828006,
+      "eval_loss": 1.9530843496322632,
+      "eval_runtime": 82.2362,
+      "eval_samples_per_second": 60.8,
+      "eval_steps_per_second": 15.2,
+      "num_input_tokens_seen": 71029545920,
+      "step": 135500
+    },
+    {
+      "epoch": 1.2931562063989888,
+      "grad_norm": 0.12359626591205597,
+      "learning_rate": 6.103835408664032e-05,
+      "loss": 2.0441,
+      "num_input_tokens_seen": 71055753312,
+      "step": 135550
+    },
+    {
+      "epoch": 1.293633208915177,
+      "grad_norm": 0.12097882479429245,
+      "learning_rate": 5.9702234071631e-05,
+      "loss": 2.0251,
+      "num_input_tokens_seen": 71081964480,
+      "step": 135600
+    },
+    {
+      "epoch": 1.2941102114313652,
+      "grad_norm": 0.11585067212581635,
+      "learning_rate": 5.83799710507909e-05,
+      "loss": 2.0352,
+      "num_input_tokens_seen": 71108163424,
+      "step": 135650
+    },
+    {
+      "epoch": 1.2945872139475536,
+      "grad_norm": 0.12164249271154404,
+      "learning_rate": 5.7071606638210094e-05,
+      "loss": 2.0314,
+      "num_input_tokens_seen": 71134375424,
+      "step": 135700
+    },
+    {
+      "epoch": 1.2950642164637418,
+      "grad_norm": 0.11601755023002625,
+      "learning_rate": 5.577718201056392e-05,
+      "loss": 2.0313,
+      "num_input_tokens_seen": 71160582688,
+      "step": 135750
+    },
+    {
+      "epoch": 1.2955412189799302,
+      "grad_norm": 0.11863810569047928,
+      "learning_rate": 5.449673790581611e-05,
+      "loss": 2.036,
+      "num_input_tokens_seen": 71186792800,
+      "step": 135800
+    },
+    {
+      "epoch": 1.2960182214961184,
+      "grad_norm": 0.12455905973911285,
+      "learning_rate": 5.3230314621937556e-05,
+      "loss": 2.0316,
+      "num_input_tokens_seen": 71213000416,
+      "step": 135850
+    },
+    {
+      "epoch": 1.2964952240123067,
+      "grad_norm": 0.11861378699541092,
+      "learning_rate": 5.197795201563743e-05,
+      "loss": 2.0334,
+      "num_input_tokens_seen": 71239212224,
+      "step": 135900
+    },
+    {
+      "epoch": 1.2969722265284949,
+      "grad_norm": 0.11894825845956802,
+      "learning_rate": 5.073968950110941e-05,
+      "loss": 2.028,
+      "num_input_tokens_seen": 71265425728,
+      "step": 135950
+    },
+    {
+      "epoch": 1.297449229044683,
+      "grad_norm": 0.11746333539485931,
+      "learning_rate": 4.9515566048790485e-05,
+      "loss": 2.0302,
+      "num_input_tokens_seen": 71291638272,
+      "step": 136000
+    },
+    {
+      "epoch": 1.297449229044683,
+      "eval_loss": 1.9527229070663452,
+      "eval_runtime": 82.9319,
+      "eval_samples_per_second": 60.29,
+      "eval_steps_per_second": 15.073,
+      "num_input_tokens_seen": 71291638272,
+      "step": 136000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 71291638272,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2617319614661919e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null