Training in progress, step 122000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:71fae22dcd21758bd18c93255be6587d157b9938e670e9b4e1e58707f826293b
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:81b6085fb8cdb1171b74b00e5808748cf92ce0ddf8ba548a106b9e635e652ce5
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c78fd0c407d20f07636b49b2421a64b67521b73a2c07508922e8bab006631080
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:2584540bb683d62bf86744736defc5b1b50bc3492f528f85e121c6574fb37a99
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d05682589c4464dbd9ebcfc283944f7611626ce7745ad85f4042e5c5171b5198
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:3efcdbc541e421955fc1801cd719c72805694f44c64389ef735698f77e94dcbf
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e5601bca8adb9619336ad1a8f8dd5a3bb4b196a7ee7870568f8cb821d9554477
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:bd02e3ed8ffd9c6d891f91758bb97fdbe6142d1b35a6390b66d152313f44683b
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1543484741882013,
   "eval_steps": 500,
-  "global_step": 121000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -21546,11 +21546,189 @@
       "eval_steps_per_second": 15.103,
       "num_input_tokens_seen": 63428647904,
       "step": 121000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 63428647904,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -21565,7 +21743,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1225713740470231e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1638885245119668,
   "eval_steps": 500,
+  "global_step": 122000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.103,
       "num_input_tokens_seen": 63428647904,
       "step": 121000
+    },
+    {
+      "epoch": 1.1548254767043895,
+      "grad_norm": 0.1527141034603119,
+      "learning_rate": 0.000763636808879545,
+      "loss": 2.0812,
+      "num_input_tokens_seen": 63454858592,
+      "step": 121050
+    },
+    {
+      "epoch": 1.155302479220578,
+      "grad_norm": 0.14409616589546204,
+      "learning_rate": 0.0007612492823579744,
+      "loss": 2.0757,
+      "num_input_tokens_seen": 63481069536,
+      "step": 121100
+    },
+    {
+      "epoch": 1.1557794817367661,
+      "grad_norm": 0.1311630755662918,
+      "learning_rate": 0.0007588535338328816,
+      "loss": 2.0714,
+      "num_input_tokens_seen": 63507276640,
+      "step": 121150
+    },
+    {
+      "epoch": 1.1562564842529544,
+      "grad_norm": 0.12864112854003906,
+      "learning_rate": 0.0007564496387029531,
+      "loss": 2.0703,
+      "num_input_tokens_seen": 63533491040,
+      "step": 121200
+    },
+    {
+      "epoch": 1.1567334867691428,
+      "grad_norm": 0.1277550309896469,
+      "learning_rate": 0.0007540376726232647,
+      "loss": 2.0833,
+      "num_input_tokens_seen": 63559699712,
+      "step": 121250
+    },
+    {
+      "epoch": 1.157210489285331,
+      "grad_norm": 0.13141444325447083,
+      "learning_rate": 0.0007516177115029001,
+      "loss": 2.0755,
+      "num_input_tokens_seen": 63585905408,
+      "step": 121300
+    },
+    {
+      "epoch": 1.1576874918015192,
+      "grad_norm": 0.13436725735664368,
+      "learning_rate": 0.0007491898315025615,
+      "loss": 2.0716,
+      "num_input_tokens_seen": 63612116704,
+      "step": 121350
+    },
+    {
+      "epoch": 1.1581644943177074,
+      "grad_norm": 0.13668642938137054,
+      "learning_rate": 0.0007467541090321735,
+      "loss": 2.0766,
+      "num_input_tokens_seen": 63638330048,
+      "step": 121400
+    },
+    {
+      "epoch": 1.1586414968338958,
+      "grad_norm": 0.22589260339736938,
+      "learning_rate": 0.0007443106207484776,
+      "loss": 2.0793,
+      "num_input_tokens_seen": 63664542944,
+      "step": 121450
+    },
+    {
+      "epoch": 1.159118499350084,
+      "grad_norm": 0.14154261350631714,
+      "learning_rate": 0.00074185944355262,
+      "loss": 2.0938,
+      "num_input_tokens_seen": 63690757024,
+      "step": 121500
+    },
+    {
+      "epoch": 1.159118499350084,
+      "eval_loss": 1.9929685592651367,
+      "eval_runtime": 82.8366,
+      "eval_samples_per_second": 60.36,
+      "eval_steps_per_second": 15.09,
+      "num_input_tokens_seen": 63690757024,
+      "step": 121500
+    },
+    {
+      "epoch": 1.1595955018662722,
+      "grad_norm": 0.13303405046463013,
+      "learning_rate": 0.0007394006545877314,
+      "loss": 2.078,
+      "num_input_tokens_seen": 63716968288,
+      "step": 121550
+    },
+    {
+      "epoch": 1.1600725043824607,
+      "grad_norm": 0.12762907147407532,
+      "learning_rate": 0.0007369343312364993,
+      "loss": 2.0757,
+      "num_input_tokens_seen": 63743181728,
+      "step": 121600
+    },
+    {
+      "epoch": 1.1605495068986489,
+      "grad_norm": 0.160507932305336,
+      "learning_rate": 0.0007344605511187322,
+      "loss": 2.076,
+      "num_input_tokens_seen": 63769396128,
+      "step": 121650
+    },
+    {
+      "epoch": 1.161026509414837,
+      "grad_norm": 0.14160197973251343,
+      "learning_rate": 0.0007319793920889171,
+      "loss": 2.0762,
+      "num_input_tokens_seen": 63795607296,
+      "step": 121700
+    },
+    {
+      "epoch": 1.1615035119310255,
+      "grad_norm": 0.15858200192451477,
+      "learning_rate": 0.0007294909322337689,
+      "loss": 2.08,
+      "num_input_tokens_seen": 63821818336,
+      "step": 121750
+    },
+    {
+      "epoch": 1.1619805144472137,
+      "grad_norm": 0.13940422236919403,
+      "learning_rate": 0.0007269952498697733,
+      "loss": 2.0816,
+      "num_input_tokens_seen": 63848031552,
+      "step": 121800
+    },
+    {
+      "epoch": 1.162457516963402,
+      "grad_norm": 0.13600219786167145,
+      "learning_rate": 0.0007244924235407223,
+      "loss": 2.0757,
+      "num_input_tokens_seen": 63874245952,
+      "step": 121850
+    },
+    {
+      "epoch": 1.1629345194795904,
+      "grad_norm": 0.14759120345115662,
+      "learning_rate": 0.0007219825320152411,
+      "loss": 2.0883,
+      "num_input_tokens_seen": 63900453792,
+      "step": 121900
+    },
+    {
+      "epoch": 1.1634115219957786,
+      "grad_norm": 0.12860442698001862,
+      "learning_rate": 0.0007194656542843102,
+      "loss": 2.0802,
+      "num_input_tokens_seen": 63926661920,
+      "step": 121950
+    },
+    {
+      "epoch": 1.1638885245119668,
+      "grad_norm": 0.13766394555568695,
+      "learning_rate": 0.0007169418695587791,
+      "loss": 2.072,
+      "num_input_tokens_seen": 63952872768,
+      "step": 122000
+    },
+    {
+      "epoch": 1.1638885245119668,
+      "eval_loss": 1.991066813468933,
+      "eval_runtime": 82.2634,
+      "eval_samples_per_second": 60.78,
+      "eval_steps_per_second": 15.195,
+      "num_input_tokens_seen": 63952872768,
+      "step": 122000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 63952872768,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1318491979536712e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null