Training in progress, step 200, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +2 -2
last-checkpoint/rng_state_1.pth +2 -2
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +97 -164
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:57931ccc5ede5e9b408087ee39e0c8acfea478feb0db465454ea28f70f45fce8
 size 3086634632

 version https://git-lfs.github.com/spec/v1
+oid sha256:166fb3c7f81e1941b29aa434d5a62e1083fa93f3516c2edd871c14c0ee8ee1e7
 size 3086634632

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:a670ff016a28acc74aa8c9382b99fae9c30939c44c51045fb6b5702d079ab4d8
 size 3136004290

 version https://git-lfs.github.com/spec/v1
+oid sha256:35e6e5f44d44cd693465a1cf0aa7d39d1a46b29cfeba6b932788ffd8248551c9
 size 3136004290

last-checkpoint/rng_state_0.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:d9d2eb4230608a2e50c5e2e997035fa89b37c3a1f78cd2d086d678da431507f0
-size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:2f2762d792d815ec78151cdfb1183ff8fe6b1a4c5fcc050ac87b15dc66050802
+size 15024

last-checkpoint/rng_state_1.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:bc50388692076d892e9a6a3cc11b337ccbfc6d0655c35c5d50cb2003fe50a00f
-size 14512

 version https://git-lfs.github.com/spec/v1
+oid sha256:dbc1f875219f8ac3c776408d86b647fbc8462ad7ecb23ac468a078c2c50ec46e
+size 15024

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbcdba7bc63bee2e58552ca3df8d3d9521da29d066231bf49913479cc60a05a4
+size 15024

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ac162cf8f57eb46f3e3f12f50328cd5574b5384b6fe27493b80f0979cc8d636b
+size 15024

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:15ba0115447c74c421f2515daef64bb4b3b3b78267a7971a106df2ae18c0ebef
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:abcd078b1186023c3032f4652f953246e76b5f62233ca3f894e881ea9feb17b7
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,242 +1,175 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 6.756756756756757,
-  "eval_steps": 50,
-  "global_step": 250,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.02702702702702703,
-      "eval_loss": 3.023751735687256,
-      "eval_runtime": 36.6493,
-      "eval_samples_per_second": 40.956,
-      "eval_steps_per_second": 2.074,
       "step": 1
     },
     {
-      "epoch": 0.2702702702702703,
-      "grad_norm": 9.0625,
-      "learning_rate": 3.6363636363636364e-05,
-      "loss": 2.3049,
       "step": 10
     },
     {
-      "epoch": 0.5405405405405406,
-      "grad_norm": 2.375,
-      "learning_rate": 7.272727272727273e-05,
-      "loss": 2.0487,
       "step": 20
     },
     {
-      "epoch": 0.8108108108108109,
-      "grad_norm": 1.59375,
-      "learning_rate": 0.00010909090909090909,
-      "loss": 1.9946,
       "step": 30
     },
     {
-      "epoch": 1.0810810810810811,
-      "grad_norm": 2.8125,
-      "learning_rate": 0.00014545454545454546,
-      "loss": 1.9062,
       "step": 40
     },
     {
-      "epoch": 1.3513513513513513,
-      "grad_norm": 1.59375,
-      "learning_rate": 0.00018181818181818183,
-      "loss": 1.6039,
-      "step": 50
-    },
-    {
-      "epoch": 1.3513513513513513,
-      "eval_loss": 2.009673595428467,
-      "eval_runtime": 36.2182,
-      "eval_samples_per_second": 41.443,
-      "eval_steps_per_second": 2.098,
       "step": 50
     },
     {
-      "epoch": 1.6216216216216215,
-      "grad_norm": 1.6640625,
-      "learning_rate": 0.00019998870284726968,
-      "loss": 1.6751,
       "step": 60
     },
     {
-      "epoch": 1.8918918918918919,
-      "grad_norm": 1.4296875,
-      "learning_rate": 0.00019989834093992945,
-      "loss": 1.7299,
       "step": 70
     },
     {
-      "epoch": 2.1621621621621623,
-      "grad_norm": 1.59375,
-      "learning_rate": 0.00019971769878721743,
-      "loss": 1.272,
       "step": 80
     },
     {
-      "epoch": 2.4324324324324325,
-      "grad_norm": 1.453125,
-      "learning_rate": 0.00019944693963927092,
-      "loss": 0.9261,
       "step": 90
     },
     {
-      "epoch": 2.7027027027027026,
-      "grad_norm": 1.4921875,
-      "learning_rate": 0.00019908630818686338,
-      "loss": 0.9744,
       "step": 100
     },
     {
-      "epoch": 2.7027027027027026,
-      "eval_loss": 2.4561517238616943,
-      "eval_runtime": 36.7479,
-      "eval_samples_per_second": 40.846,
-      "eval_steps_per_second": 2.068,
-      "step": 100
-    },
-    {
-      "epoch": 2.972972972972973,
-      "grad_norm": 1.53125,
-      "learning_rate": 0.00019863613034027224,
-      "loss": 0.9624,
       "step": 110
     },
     {
-      "epoch": 3.2432432432432434,
-      "grad_norm": 1.1796875,
-      "learning_rate": 0.00019809681293474693,
-      "loss": 0.4856,
       "step": 120
     },
     {
-      "epoch": 3.5135135135135136,
-      "grad_norm": 2.359375,
-      "learning_rate": 0.00019746884336284317,
-      "loss": 0.4526,
       "step": 130
     },
     {
-      "epoch": 3.7837837837837838,
-      "grad_norm": 1.3203125,
-      "learning_rate": 0.00019675278913395606,
-      "loss": 0.4579,
       "step": 140
     },
     {
-      "epoch": 4.054054054054054,
-      "grad_norm": 0.87890625,
-      "learning_rate": 0.00019594929736144976,
-      "loss": 0.4416,
-      "step": 150
-    },
-    {
-      "epoch": 4.054054054054054,
-      "eval_loss": 3.037287473678589,
-      "eval_runtime": 36.5611,
-      "eval_samples_per_second": 41.055,
-      "eval_steps_per_second": 2.079,
       "step": 150
     },
     {
-      "epoch": 4.324324324324325,
-      "grad_norm": 1.5859375,
-      "learning_rate": 0.00019505909417784754,
-      "loss": 0.2196,
       "step": 160
     },
     {
-      "epoch": 4.594594594594595,
-      "grad_norm": 0.9921875,
-      "learning_rate": 0.00019408298407861042,
-      "loss": 0.2407,
       "step": 170
     },
     {
-      "epoch": 4.864864864864865,
-      "grad_norm": 1.03125,
-      "learning_rate": 0.00019302184919509755,
-      "loss": 0.2556,
       "step": 180
     },
     {
-      "epoch": 5.135135135135135,
-      "grad_norm": 0.734375,
-      "learning_rate": 0.0001918766484973654,
-      "loss": 0.1991,
       "step": 190
     },
     {
-      "epoch": 5.405405405405405,
-      "grad_norm": 0.828125,
-      "learning_rate": 0.0001906484169275263,
-      "loss": 0.1492,
       "step": 200
     },
     {
-      "epoch": 5.405405405405405,
-      "eval_loss": 3.3331992626190186,
-      "eval_runtime": 34.9671,
-      "eval_samples_per_second": 42.926,
-      "eval_steps_per_second": 2.173,
       "step": 200
-    },
-    {
-      "epoch": 5.675675675675675,
-      "grad_norm": 0.796875,
-      "learning_rate": 0.00018933826446444933,
-      "loss": 0.1548,
-      "step": 210
-    },
-    {
-      "epoch": 5.945945945945946,
-      "grad_norm": 1.1953125,
-      "learning_rate": 0.0001879473751206489,
-      "loss": 0.1538,
-      "step": 220
-    },
-    {
-      "epoch": 6.216216216216216,
-      "grad_norm": 0.546875,
-      "learning_rate": 0.0001864770058722676,
-      "loss": 0.0797,
-      "step": 230
-    },
-    {
-      "epoch": 6.486486486486487,
-      "grad_norm": 0.53515625,
-      "learning_rate": 0.00018492848552312014,
-      "loss": 0.0722,
-      "step": 240
-    },
-    {
-      "epoch": 6.756756756756757,
-      "grad_norm": 0.52734375,
-      "learning_rate": 0.00018330321350382544,
-      "loss": 0.0669,
-      "step": 250
-    },
-    {
-      "epoch": 6.756756756756757,
-      "eval_loss": 3.573293685913086,
-      "eval_runtime": 35.0908,
-      "eval_samples_per_second": 42.775,
-      "eval_steps_per_second": 2.166,
-      "step": 250
     }
   ],
   "logging_steps": 10,
-  "max_steps": 1100,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 30,
-  "save_steps": 50,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -249,7 +182,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 8.05073298915328e+16,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 11.11111111111111,
+  "eval_steps": 200,
+  "global_step": 200,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.05555555555555555,
+      "eval_loss": 3.0254549980163574,
+      "eval_runtime": 19.3939,
+      "eval_samples_per_second": 77.395,
+      "eval_steps_per_second": 1.959,
       "step": 1
     },
     {
+      "epoch": 0.5555555555555556,
+      "grad_norm": 1.7109375,
+      "learning_rate": 0.0001,
+      "loss": 2.2097,
       "step": 10
     },
     {
+      "epoch": 1.1111111111111112,
+      "grad_norm": 1.71875,
+      "learning_rate": 0.0002,
+      "loss": 1.9869,
       "step": 20
     },
     {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 1.3671875,
+      "learning_rate": 0.000199658449300667,
+      "loss": 1.6439,
       "step": 30
     },
     {
+      "epoch": 2.2222222222222223,
+      "grad_norm": 1.40625,
+      "learning_rate": 0.00019863613034027224,
+      "loss": 1.3908,
       "step": 40
     },
     {
+      "epoch": 2.7777777777777777,
+      "grad_norm": 0.98828125,
+      "learning_rate": 0.00019694002659393305,
+      "loss": 0.9319,
       "step": 50
     },
     {
+      "epoch": 3.3333333333333335,
+      "grad_norm": 0.99609375,
+      "learning_rate": 0.00019458172417006347,
+      "loss": 0.6271,
       "step": 60
     },
     {
+      "epoch": 3.888888888888889,
+      "grad_norm": 0.89453125,
+      "learning_rate": 0.00019157733266550575,
+      "loss": 0.4473,
       "step": 70
     },
     {
+      "epoch": 4.444444444444445,
+      "grad_norm": 0.76953125,
+      "learning_rate": 0.0001879473751206489,
+      "loss": 0.247,
       "step": 80
     },
     {
+      "epoch": 5.0,
+      "grad_norm": 0.74609375,
+      "learning_rate": 0.00018371664782625287,
+      "loss": 0.2054,
       "step": 90
     },
     {
+      "epoch": 5.555555555555555,
+      "grad_norm": 0.49609375,
+      "learning_rate": 0.00017891405093963938,
+      "loss": 0.096,
       "step": 100
     },
     {
+      "epoch": 6.111111111111111,
+      "grad_norm": 0.244140625,
+      "learning_rate": 0.00017357239106731317,
+      "loss": 0.0806,
       "step": 110
     },
     {
+      "epoch": 6.666666666666667,
+      "grad_norm": 0.41796875,
+      "learning_rate": 0.00016772815716257412,
+      "loss": 0.0332,
       "step": 120
     },
     {
+      "epoch": 7.222222222222222,
+      "grad_norm": 0.130859375,
+      "learning_rate": 0.0001614212712689668,
+      "loss": 0.0287,
       "step": 130
     },
     {
+      "epoch": 7.777777777777778,
+      "grad_norm": 0.283203125,
+      "learning_rate": 0.00015469481581224272,
+      "loss": 0.0125,
       "step": 140
     },
     {
+      "epoch": 8.333333333333334,
+      "grad_norm": 0.08740234375,
+      "learning_rate": 0.00014759473930370736,
+      "loss": 0.0085,
       "step": 150
     },
     {
+      "epoch": 8.88888888888889,
+      "grad_norm": 0.06591796875,
+      "learning_rate": 0.00014016954246529696,
+      "loss": 0.0051,
       "step": 160
     },
     {
+      "epoch": 9.444444444444445,
+      "grad_norm": 0.057861328125,
+      "learning_rate": 0.00013246994692046836,
+      "loss": 0.0036,
       "step": 170
     },
     {
+      "epoch": 10.0,
+      "grad_norm": 0.0322265625,
+      "learning_rate": 0.00012454854871407994,
+      "loss": 0.003,
       "step": 180
     },
     {
+      "epoch": 10.555555555555555,
+      "grad_norm": 0.05078125,
+      "learning_rate": 0.00011645945902807341,
+      "loss": 0.0026,
       "step": 190
     },
     {
+      "epoch": 11.11111111111111,
+      "grad_norm": 0.036865234375,
+      "learning_rate": 0.00010825793454723325,
+      "loss": 0.0026,
       "step": 200
     },
     {
+      "epoch": 11.11111111111111,
+      "eval_loss": 4.190612316131592,
+      "eval_runtime": 18.3153,
+      "eval_samples_per_second": 81.953,
+      "eval_steps_per_second": 2.075,
       "step": 200
     }
   ],
   "logging_steps": 10,
+  "max_steps": 400,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 23,
+  "save_steps": 200,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 1.2881172782645248e+17,
   "train_batch_size": 10,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:34e809989457dd9bfde4bf2b0182d58f9d3a5925b9457bf37508ace824c39b8b
 size 9144

 version https://git-lfs.github.com/spec/v1
+oid sha256:6c8cd09cbe4299841bcebbf82901e4817a1a9d47a163f032efe3abc4fb66766c
 size 9144