Training in progress, step 60000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +183 -5

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:59a706f60964ffe8cd2b221f9a7465c0f56181a98072bee3057047cce8e408cf
 size 301235464

 version https://git-lfs.github.com/spec/v1
+oid sha256:c41967e5432db5ed91bc1228a51744d8af764a94e341f801caf2cc8d0b340946
 size 301235464

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:5ef2119eabf69c54d09db0a76c3313d847c900937c3e2edb463f3eba3b1000af
 size 602335994

 version https://git-lfs.github.com/spec/v1
+oid sha256:70cad043527913fd0557530d296a1fe5bc45ca60997f5c855298840644081537
 size 602335994

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dfe4fcebd5141fdf7604535ed8dc60cda464d7e4d084d78ec5c9b7105325f9b5
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:e6a4cb233f004dcf5c1bd7310c625e6acfeb53e49f5aa9a513759dc7631fff0b
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:3e5b084cf754d7494e17fb8efe3747874197d5052ad1bcb013283a3027835137
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:9201fef1295387122e53aeeb3fe425d2797e674a7be3dba9faefda446e2071fd
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.3968634335749828,
   "eval_steps": 500,
-  "global_step": 59000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -10510,11 +10510,189 @@
       "eval_steps_per_second": 23.346,
       "num_input_tokens_seen": 15466496000,
       "step": 59000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
-  "num_input_tokens_seen": 15466496000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -10524,12 +10702,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 4.13743863300096e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.40358993244913505,
   "eval_steps": 500,
+  "global_step": 60000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 23.346,
       "num_input_tokens_seen": 15466496000,
       "step": 59000
+    },
+    {
+      "epoch": 0.39719975851869044,
+      "grad_norm": 0.14572475850582123,
+      "learning_rate": 6.059144366901737e-05,
+      "loss": 2.9861,
+      "num_input_tokens_seen": 15479603200,
+      "step": 59050
+    },
+    {
+      "epoch": 0.39753608346239805,
+      "grad_norm": 0.5027282238006592,
+      "learning_rate": 5.449673790581611e-05,
+      "loss": 2.9773,
+      "num_input_tokens_seen": 15492710400,
+      "step": 59100
+    },
+    {
+      "epoch": 0.39787240840610566,
+      "grad_norm": 0.192597895860672,
+      "learning_rate": 4.87073578250698e-05,
+      "loss": 2.9874,
+      "num_input_tokens_seen": 15505817600,
+      "step": 59150
+    },
+    {
+      "epoch": 0.39820873334981327,
+      "grad_norm": 0.15083667635917664,
+      "learning_rate": 4.322727117869951e-05,
+      "loss": 2.987,
+      "num_input_tokens_seen": 15518924800,
+      "step": 59200
+    },
+    {
+      "epoch": 0.3985450582935209,
+      "grad_norm": 0.14701534807682037,
+      "learning_rate": 3.806023374435663e-05,
+      "loss": 2.9858,
+      "num_input_tokens_seen": 15532032000,
+      "step": 59250
+    },
+    {
+      "epoch": 0.3988813832372285,
+      "grad_norm": 0.145115464925766,
+      "learning_rate": 3.3209786751399184e-05,
+      "loss": 2.9926,
+      "num_input_tokens_seen": 15545139200,
+      "step": 59300
+    },
+    {
+      "epoch": 0.3992177081809361,
+      "grad_norm": 0.15828457474708557,
+      "learning_rate": 2.8679254453910786e-05,
+      "loss": 2.9803,
+      "num_input_tokens_seen": 15558246400,
+      "step": 59350
+    },
+    {
+      "epoch": 0.3995540331246437,
+      "grad_norm": 0.14400678873062134,
+      "learning_rate": 2.4471741852423235e-05,
+      "loss": 2.9701,
+      "num_input_tokens_seen": 15571353600,
+      "step": 59400
+    },
+    {
+      "epoch": 0.3998903580683513,
+      "grad_norm": 0.14925344288349152,
+      "learning_rate": 2.0590132565903473e-05,
+      "loss": 2.989,
+      "num_input_tokens_seen": 15584460800,
+      "step": 59450
+    },
+    {
+      "epoch": 0.40022668301205894,
+      "grad_norm": 0.14081260561943054,
+      "learning_rate": 1.70370868554659e-05,
+      "loss": 2.9824,
+      "num_input_tokens_seen": 15597568000,
+      "step": 59500
+    },
+    {
+      "epoch": 0.40022668301205894,
+      "eval_loss": 2.882228136062622,
+      "eval_runtime": 53.7595,
+      "eval_samples_per_second": 93.007,
+      "eval_steps_per_second": 23.252,
+      "num_input_tokens_seen": 15597568000,
+      "step": 59500
+    },
+    {
+      "epoch": 0.40056300795576655,
+      "grad_norm": 0.13585136830806732,
+      "learning_rate": 1.3815039801161721e-05,
+      "loss": 2.9883,
+      "num_input_tokens_seen": 15610675200,
+      "step": 59550
+    },
+    {
+      "epoch": 0.40089933289947416,
+      "grad_norm": 0.1438748985528946,
+      "learning_rate": 1.0926199633097156e-05,
+      "loss": 2.9781,
+      "num_input_tokens_seen": 15623782400,
+      "step": 59600
+    },
+    {
+      "epoch": 0.40123565784318177,
+      "grad_norm": 0.3345394730567932,
+      "learning_rate": 8.372546218022748e-06,
+      "loss": 2.9869,
+      "num_input_tokens_seen": 15636889600,
+      "step": 59650
+    },
+    {
+      "epoch": 0.4015719827868894,
+      "grad_norm": 0.14581316709518433,
+      "learning_rate": 6.15582970243117e-06,
+      "loss": 2.9882,
+      "num_input_tokens_seen": 15649996800,
+      "step": 59700
+    },
+    {
+      "epoch": 0.401908307730597,
+      "grad_norm": 0.1409323662519455,
+      "learning_rate": 4.277569313094809e-06,
+      "loss": 2.9833,
+      "num_input_tokens_seen": 15663104000,
+      "step": 59750
+    },
+    {
+      "epoch": 0.4022446326743046,
+      "grad_norm": 0.1412041187286377,
+      "learning_rate": 2.739052315863355e-06,
+      "loss": 2.9835,
+      "num_input_tokens_seen": 15676211200,
+      "step": 59800
+    },
+    {
+      "epoch": 0.4025809576180122,
+      "grad_norm": 0.14011850953102112,
+      "learning_rate": 1.541333133436018e-06,
+      "loss": 2.9819,
+      "num_input_tokens_seen": 15689318400,
+      "step": 59850
+    },
+    {
+      "epoch": 0.4029172825617198,
+      "grad_norm": 0.14772015810012817,
+      "learning_rate": 6.852326227130834e-07,
+      "loss": 2.9855,
+      "num_input_tokens_seen": 15702425600,
+      "step": 59900
+    },
+    {
+      "epoch": 0.40325360750542744,
+      "grad_norm": 0.14281156659126282,
+      "learning_rate": 1.7133751222137007e-07,
+      "loss": 2.978,
+      "num_input_tokens_seen": 15715532800,
+      "step": 59950
+    },
+    {
+      "epoch": 0.40358993244913505,
+      "grad_norm": 0.14420129358768463,
+      "learning_rate": 0.0,
+      "loss": 2.9789,
+      "num_input_tokens_seen": 15728640000,
+      "step": 60000
+    },
+    {
+      "epoch": 0.40358993244913505,
+      "eval_loss": 2.8818726539611816,
+      "eval_runtime": 53.5982,
+      "eval_samples_per_second": 93.287,
+      "eval_steps_per_second": 23.322,
+      "num_input_tokens_seen": 15728640000,
+      "step": 60000
     }
   ],
   "logging_steps": 50,
   "max_steps": 60000,
+  "num_input_tokens_seen": 15728640000,
   "num_train_epochs": 1,
   "save_steps": 1000,
   "stateful_callbacks": {
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 4.2075647115264e+18,
   "train_batch_size": 64,
   "trial_name": null,
   "trial_params": null