Training in progress, step 400, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +3 -0
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +290 -38
last-checkpoint/training_args.bin +2 -2

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea2ad4c7c610b5e4ef126bc494685c8d4930ad390366ab2e84a4faeb7d420766
 size 723674912

 version https://git-lfs.github.com/spec/v1
+oid sha256:19465df8c765c100b1ba5242ef17b58f9b637c549a87ac2747076fa42c39e0a6
 size 723674912

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6c39f051c45f03d6dcadc277c1454a36b0adc05bc85d9ce17d6a180588b3cad4
-size 735625370

 version https://git-lfs.github.com/spec/v1
+oid sha256:9552643304156bc0ff61539cee518c025cee2d6eea5aac4a16b479330d4d36b2
+size 735625626

last-checkpoint/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9feae33b2fec0a6229240e7adaee6ecc8f5cfdf1a8bd0e827b1d8a241424e3c0
+size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ea54818dbc15bd81d4941b71d5e2806c555d1a733f768c00c5f1a670e0a08fb1
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:a673aaf85c0fe6b6c29cb8f3e7dbd829eef637110e4ad9a775f3fcf001c92591
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,71 +1,323 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.047337278106508875,
-  "eval_steps": 20,
-  "global_step": 40,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.001183431952662722,
-      "eval_loss": 2.6000850200653076,
-      "eval_runtime": 4.9168,
-      "eval_samples_per_second": 305.481,
-      "eval_steps_per_second": 19.118,
       "step": 1
     },
     {
-      "epoch": 0.011834319526627219,
-      "grad_norm": 4.3125,
       "learning_rate": 1.6000000000000003e-05,
-      "loss": 2.4524,
       "step": 10
     },
     {
-      "epoch": 0.023668639053254437,
-      "grad_norm": 1.15625,
       "learning_rate": 3.2000000000000005e-05,
-      "loss": 2.4454,
       "step": 20
     },
     {
-      "epoch": 0.023668639053254437,
-      "eval_loss": 2.5929689407348633,
-      "eval_runtime": 5.1638,
-      "eval_samples_per_second": 290.869,
-      "eval_steps_per_second": 18.204,
-      "step": 20
-    },
-    {
-      "epoch": 0.03550295857988166,
-      "grad_norm": 4.0,
       "learning_rate": 4.8e-05,
-      "loss": 2.5904,
       "step": 30
     },
     {
-      "epoch": 0.047337278106508875,
-      "grad_norm": 1.5,
       "learning_rate": 6.400000000000001e-05,
-      "loss": 2.4156,
       "step": 40
     },
     {
-      "epoch": 0.047337278106508875,
-      "eval_loss": 2.5310535430908203,
-      "eval_runtime": 5.1508,
-      "eval_samples_per_second": 291.604,
-      "eval_steps_per_second": 18.249,
-      "step": 40
     }
   ],
   "logging_steps": 10,
   "max_steps": 2500,
   "num_input_tokens_seen": 0,
-  "num_train_epochs": 3,
-  "save_steps": 40,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
@@ -78,8 +330,8 @@
       "attributes": {}
     }
   },
-  "total_flos": 2489856831782912.0,
-  "train_batch_size": 2,
   "trial_name": null,
   "trial_params": null
 }

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.11837821840781296,
+  "eval_steps": 200,
+  "global_step": 400,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.0002959455460195324,
+      "eval_loss": 2.584977626800537,
+      "eval_runtime": 40.1016,
+      "eval_samples_per_second": 37.455,
+      "eval_steps_per_second": 9.376,
       "step": 1
     },
     {
+      "epoch": 0.002959455460195324,
+      "grad_norm": 2.125,
       "learning_rate": 1.6000000000000003e-05,
+      "loss": 2.3755,
       "step": 10
     },
     {
+      "epoch": 0.005918910920390648,
+      "grad_norm": 3.4375,
       "learning_rate": 3.2000000000000005e-05,
+      "loss": 2.4594,
       "step": 20
     },
     {
+      "epoch": 0.008878366380585973,
+      "grad_norm": 4.125,
       "learning_rate": 4.8e-05,
+      "loss": 2.2731,
       "step": 30
     },
     {
+      "epoch": 0.011837821840781295,
+      "grad_norm": 5.53125,
       "learning_rate": 6.400000000000001e-05,
+      "loss": 2.5809,
       "step": 40
     },
     {
+      "epoch": 0.01479727730097662,
+      "grad_norm": 19.25,
+      "learning_rate": 8e-05,
+      "loss": 2.646,
+      "step": 50
+    },
+    {
+      "epoch": 0.017756732761171946,
+      "grad_norm": 3.109375,
+      "learning_rate": 9.6e-05,
+      "loss": 2.186,
+      "step": 60
+    },
+    {
+      "epoch": 0.020716188221367268,
+      "grad_norm": 2.84375,
+      "learning_rate": 0.00011200000000000001,
+      "loss": 2.1367,
+      "step": 70
+    },
+    {
+      "epoch": 0.02367564368156259,
+      "grad_norm": 5.0,
+      "learning_rate": 0.00012800000000000002,
+      "loss": 2.205,
+      "step": 80
+    },
+    {
+      "epoch": 0.026635099141757917,
+      "grad_norm": 5.0625,
+      "learning_rate": 0.000144,
+      "loss": 2.0838,
+      "step": 90
+    },
+    {
+      "epoch": 0.02959455460195324,
+      "grad_norm": 15.25,
+      "learning_rate": 0.00016,
+      "loss": 2.5911,
+      "step": 100
+    },
+    {
+      "epoch": 0.032554010062148565,
+      "grad_norm": 2.703125,
+      "learning_rate": 0.00017600000000000002,
+      "loss": 2.3182,
+      "step": 110
+    },
+    {
+      "epoch": 0.03551346552234389,
+      "grad_norm": 2.984375,
+      "learning_rate": 0.000192,
+      "loss": 2.1551,
+      "step": 120
+    },
+    {
+      "epoch": 0.03847292098253921,
+      "grad_norm": 3.0,
+      "learning_rate": 0.0001999978128380225,
+      "loss": 2.2027,
+      "step": 130
+    },
+    {
+      "epoch": 0.041432376442734536,
+      "grad_norm": 5.78125,
+      "learning_rate": 0.0001999803161162393,
+      "loss": 2.1179,
+      "step": 140
+    },
+    {
+      "epoch": 0.04439183190292986,
+      "grad_norm": 17.875,
+      "learning_rate": 0.00019994532573409262,
+      "loss": 1.961,
+      "step": 150
+    },
+    {
+      "epoch": 0.04735128736312518,
+      "grad_norm": 2.890625,
+      "learning_rate": 0.00019989284781388617,
+      "loss": 2.2086,
+      "step": 160
+    },
+    {
+      "epoch": 0.05031074282332051,
+      "grad_norm": 2.703125,
+      "learning_rate": 0.00019982289153773646,
+      "loss": 2.1824,
+      "step": 170
+    },
+    {
+      "epoch": 0.053270198283515834,
+      "grad_norm": 4.25,
+      "learning_rate": 0.00019973546914596623,
+      "loss": 2.2988,
+      "step": 180
+    },
+    {
+      "epoch": 0.05622965374371116,
+      "grad_norm": 7.34375,
+      "learning_rate": 0.00019963059593496268,
+      "loss": 2.0762,
+      "step": 190
+    },
+    {
+      "epoch": 0.05918910920390648,
+      "grad_norm": 15.125,
+      "learning_rate": 0.00019950829025450114,
+      "loss": 2.3734,
+      "step": 200
+    },
+    {
+      "epoch": 0.05918910920390648,
+      "eval_loss": 2.1430797576904297,
+      "eval_runtime": 38.2752,
+      "eval_samples_per_second": 39.242,
+      "eval_steps_per_second": 9.824,
+      "step": 200
+    },
+    {
+      "epoch": 0.062148564664101805,
+      "grad_norm": 2.1875,
+      "learning_rate": 0.0001993685735045343,
+      "loss": 2.3072,
+      "step": 210
+    },
+    {
+      "epoch": 0.06510802012429713,
+      "grad_norm": 2.984375,
+      "learning_rate": 0.0001992114701314478,
+      "loss": 2.2552,
+      "step": 220
+    },
+    {
+      "epoch": 0.06806747558449246,
+      "grad_norm": 3.390625,
+      "learning_rate": 0.000199037007623783,
+      "loss": 2.1505,
+      "step": 230
+    },
+    {
+      "epoch": 0.07102693104468778,
+      "grad_norm": 5.6875,
+      "learning_rate": 0.00019884521650742715,
+      "loss": 2.0985,
+      "step": 240
+    },
+    {
+      "epoch": 0.0739863865048831,
+      "grad_norm": 20.75,
+      "learning_rate": 0.00019863613034027224,
+      "loss": 2.2629,
+      "step": 250
+    },
+    {
+      "epoch": 0.07694584196507842,
+      "grad_norm": 3.109375,
+      "learning_rate": 0.0001984097857063434,
+      "loss": 2.1071,
+      "step": 260
+    },
+    {
+      "epoch": 0.07990529742527375,
+      "grad_norm": 2.796875,
+      "learning_rate": 0.0001981662222093976,
+      "loss": 2.3024,
+      "step": 270
+    },
+    {
+      "epoch": 0.08286475288546907,
+      "grad_norm": 3.328125,
+      "learning_rate": 0.00019790548246599447,
+      "loss": 2.1493,
+      "step": 280
+    },
+    {
+      "epoch": 0.0858242083456644,
+      "grad_norm": 5.34375,
+      "learning_rate": 0.00019762761209803927,
+      "loss": 1.9502,
+      "step": 290
+    },
+    {
+      "epoch": 0.08878366380585972,
+      "grad_norm": 16.375,
+      "learning_rate": 0.0001973326597248006,
+      "loss": 2.0298,
+      "step": 300
+    },
+    {
+      "epoch": 0.09174311926605505,
+      "grad_norm": 2.84375,
+      "learning_rate": 0.00019702067695440332,
+      "loss": 2.3247,
+      "step": 310
+    },
+    {
+      "epoch": 0.09470257472625036,
+      "grad_norm": 3.0,
+      "learning_rate": 0.00019669171837479873,
+      "loss": 1.9503,
+      "step": 320
+    },
+    {
+      "epoch": 0.09766203018644569,
+      "grad_norm": 3.375,
+      "learning_rate": 0.00019634584154421317,
+      "loss": 2.1873,
+      "step": 330
+    },
+    {
+      "epoch": 0.10062148564664102,
+      "grad_norm": 4.5,
+      "learning_rate": 0.00019598310698107702,
+      "loss": 2.0046,
+      "step": 340
+    },
+    {
+      "epoch": 0.10358094110683634,
+      "grad_norm": 13.0625,
+      "learning_rate": 0.00019560357815343577,
+      "loss": 1.6711,
+      "step": 350
+    },
+    {
+      "epoch": 0.10654039656703167,
+      "grad_norm": 2.40625,
+      "learning_rate": 0.00019520732146784491,
+      "loss": 2.1939,
+      "step": 360
+    },
+    {
+      "epoch": 0.109499852027227,
+      "grad_norm": 3.171875,
+      "learning_rate": 0.0001947944062577507,
+      "loss": 1.9735,
+      "step": 370
+    },
+    {
+      "epoch": 0.11245930748742232,
+      "grad_norm": 4.4375,
+      "learning_rate": 0.00019436490477135878,
+      "loss": 2.1268,
+      "step": 380
+    },
+    {
+      "epoch": 0.11541876294761765,
+      "grad_norm": 5.625,
+      "learning_rate": 0.00019391889215899299,
+      "loss": 1.8559,
+      "step": 390
+    },
+    {
+      "epoch": 0.11837821840781296,
+      "grad_norm": 11.1875,
+      "learning_rate": 0.0001934564464599461,
+      "loss": 1.6074,
+      "step": 400
+    },
+    {
+      "epoch": 0.11837821840781296,
+      "eval_loss": 2.0911011695861816,
+      "eval_runtime": 37.9375,
+      "eval_samples_per_second": 39.591,
+      "eval_steps_per_second": 9.911,
+      "step": 400
     }
   ],
   "logging_steps": 10,
   "max_steps": 2500,
   "num_input_tokens_seen": 0,
+  "num_train_epochs": 1,
+  "save_steps": 400,
   "stateful_callbacks": {
     "TrainerControl": {
       "args": {
       "attributes": {}
     }
   },
+  "total_flos": 6216909638860800.0,
+  "train_batch_size": 4,
   "trial_name": null,
   "trial_params": null
 }

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f671da996f9974e01b0bb6a782a1b157ff77bf2c5559d84c73598d7fc8d1f978
-size 6712

 version https://git-lfs.github.com/spec/v1
+oid sha256:112b4c8284645a698146b4282cd59099e5d2d309ac0c12020a3a74886e780a25
+size 6840