Training in progress, step 121000, checkpoint

Browse files

Files changed (5) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +182 -4

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7e70907b0d675ee2643842e014ed6c972c9663ac94c350f0ab42a0be8632152c
 size 1410301944

 version https://git-lfs.github.com/spec/v1
+oid sha256:71fae22dcd21758bd18c93255be6587d157b9938e670e9b4e1e58707f826293b
 size 1410301944

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:e3a65d04a4bb9bbc428894a0e56fe5a8ff86920144b87270537f75bf5b3558c9
 size 2820185786

 version https://git-lfs.github.com/spec/v1
+oid sha256:c78fd0c407d20f07636b49b2421a64b67521b73a2c07508922e8bab006631080
 size 2820185786

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1d8a9a435a8fb7efaea34ed653a04299793c4ab23d440f306a1001d1a5e2fe4d
 size 14244

 version https://git-lfs.github.com/spec/v1
+oid sha256:d05682589c4464dbd9ebcfc283944f7611626ce7745ad85f4042e5c5171b5198
 size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f14fb013cc682f88bd394d32631eff6723ea097f4e238bec79824a853a5616c4
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:e5601bca8adb9619336ad1a8f8dd5a3bb4b196a7ee7870568f8cb821d9554477
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.1448084238644358,
   "eval_steps": 500,
-  "global_step": 120000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -21368,11 +21368,189 @@
       "eval_steps_per_second": 15.087,
       "num_input_tokens_seen": 62904447680,
       "step": 120000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
-  "num_input_tokens_seen": 62904447680,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
@@ -21387,7 +21565,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.1132939862234317e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 1.1543484741882013,
   "eval_steps": 500,
+  "global_step": 121000,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_steps_per_second": 15.087,
       "num_input_tokens_seen": 62904447680,
       "step": 120000
+    },
+    {
+      "epoch": 1.1452854263806242,
+      "grad_norm": 0.15100175142288208,
+      "learning_rate": 0.0008095469746549171,
+      "loss": 2.0793,
+      "num_input_tokens_seen": 62930656352,
+      "step": 120050
+    },
+    {
+      "epoch": 1.1457624288968125,
+      "grad_norm": 0.14095434546470642,
+      "learning_rate": 0.0008073393063582386,
+      "loss": 2.0828,
+      "num_input_tokens_seen": 62956868576,
+      "step": 120100
+    },
+    {
+      "epoch": 1.1462394314130007,
+      "grad_norm": 0.15013264119625092,
+      "learning_rate": 0.0008051219655187818,
+      "loss": 2.0711,
+      "num_input_tokens_seen": 62983080544,
+      "step": 120150
+    },
+    {
+      "epoch": 1.146716433929189,
+      "grad_norm": 0.1443673074245453,
+      "learning_rate": 0.00080289502192041,
+      "loss": 2.0764,
+      "num_input_tokens_seen": 63009276608,
+      "step": 120200
+    },
+    {
+      "epoch": 1.1471934364453773,
+      "grad_norm": 0.13627703487873077,
+      "learning_rate": 0.0008006585456492029,
+      "loss": 2.0805,
+      "num_input_tokens_seen": 63035488032,
+      "step": 120250
+    },
+    {
+      "epoch": 1.1476704389615655,
+      "grad_norm": 0.14744721353054047,
+      "learning_rate": 0.0007984126070912518,
+      "loss": 2.0691,
+      "num_input_tokens_seen": 63061701600,
+      "step": 120300
+    },
+    {
+      "epoch": 1.1481474414777537,
+      "grad_norm": 0.14301970601081848,
+      "learning_rate": 0.0007961572769304437,
+      "loss": 2.0788,
+      "num_input_tokens_seen": 63087914624,
+      "step": 120350
+    },
+    {
+      "epoch": 1.1486244439939421,
+      "grad_norm": 0.13261480629444122,
+      "learning_rate": 0.0007938926261462366,
+      "loss": 2.0802,
+      "num_input_tokens_seen": 63114128096,
+      "step": 120400
+    },
+    {
+      "epoch": 1.1491014465101304,
+      "grad_norm": 0.14857733249664307,
+      "learning_rate": 0.0007916187260114262,
+      "loss": 2.0773,
+      "num_input_tokens_seen": 63140341024,
+      "step": 120450
+    },
+    {
+      "epoch": 1.1495784490263186,
+      "grad_norm": 0.13263733685016632,
+      "learning_rate": 0.000789335648089903,
+      "loss": 2.0796,
+      "num_input_tokens_seen": 63166554368,
+      "step": 120500
+    },
+    {
+      "epoch": 1.1495784490263186,
+      "eval_loss": 1.9961134195327759,
+      "eval_runtime": 82.5305,
+      "eval_samples_per_second": 60.584,
+      "eval_steps_per_second": 15.146,
+      "num_input_tokens_seen": 63166554368,
+      "step": 120500
+    },
+    {
+      "epoch": 1.150055451542507,
+      "grad_norm": 0.13879702985286713,
+      "learning_rate": 0.0007870434642343984,
+      "loss": 2.0783,
+      "num_input_tokens_seen": 63192764288,
+      "step": 120550
+    },
+    {
+      "epoch": 1.1505324540586952,
+      "grad_norm": 0.13164860010147095,
+      "learning_rate": 0.000784742246584226,
+      "loss": 2.081,
+      "num_input_tokens_seen": 63218969504,
+      "step": 120600
+    },
+    {
+      "epoch": 1.1510094565748834,
+      "grad_norm": 0.1406654268503189,
+      "learning_rate": 0.0007824320675630089,
+      "loss": 2.0704,
+      "num_input_tokens_seen": 63245179680,
+      "step": 120650
+    },
+    {
+      "epoch": 1.1514864590910716,
+      "grad_norm": 0.13722951710224152,
+      "learning_rate": 0.0007801129998764014,
+      "loss": 2.0693,
+      "num_input_tokens_seen": 63271389024,
+      "step": 120700
+    },
+    {
+      "epoch": 1.15196346160726,
+      "grad_norm": 0.15168820321559906,
+      "learning_rate": 0.0007777851165098011,
+      "loss": 2.0813,
+      "num_input_tokens_seen": 63297594624,
+      "step": 120750
+    },
+    {
+      "epoch": 1.1524404641234482,
+      "grad_norm": 0.13907547295093536,
+      "learning_rate": 0.0007754484907260512,
+      "loss": 2.0747,
+      "num_input_tokens_seen": 63323809024,
+      "step": 120800
+    },
+    {
+      "epoch": 1.1529174666396365,
+      "grad_norm": 0.13827022910118103,
+      "learning_rate": 0.0007731031960631354,
+      "loss": 2.079,
+      "num_input_tokens_seen": 63350015808,
+      "step": 120850
+    },
+    {
+      "epoch": 1.1533944691558249,
+      "grad_norm": 0.1326221376657486,
+      "learning_rate": 0.0007707493063318629,
+      "loss": 2.0856,
+      "num_input_tokens_seen": 63376227968,
+      "step": 120900
+    },
+    {
+      "epoch": 1.153871471672013,
+      "grad_norm": 0.13669894635677338,
+      "learning_rate": 0.000768386895613546,
+      "loss": 2.0691,
+      "num_input_tokens_seen": 63402433504,
+      "step": 120950
+    },
+    {
+      "epoch": 1.1543484741882013,
+      "grad_norm": 0.1403321623802185,
+      "learning_rate": 0.0007660160382576683,
+      "loss": 2.077,
+      "num_input_tokens_seen": 63428647904,
+      "step": 121000
+    },
+    {
+      "epoch": 1.1543484741882013,
+      "eval_loss": 1.9939944744110107,
+      "eval_runtime": 82.7663,
+      "eval_samples_per_second": 60.411,
+      "eval_steps_per_second": 15.103,
+      "num_input_tokens_seen": 63428647904,
+      "step": 121000
     }
   ],
   "logging_steps": 50,
   "max_steps": 140000,
+  "num_input_tokens_seen": 63428647904,
   "num_train_epochs": 2,
   "save_steps": 1000,
   "stateful_callbacks": {
       "attributes": {}
     }
   },
+  "total_flos": 1.1225713740470231e+20,
   "train_batch_size": 32,
   "trial_name": null,
   "trial_params": null