Training in progress, epoch 3, checkpoint

Browse files

Files changed (8) hide show

last-checkpoint/model-00001-of-00003.safetensors +1 -1
last-checkpoint/model-00002-of-00003.safetensors +1 -1
last-checkpoint/model-00003-of-00003.safetensors +1 -1
last-checkpoint/optimizer.pt +2 -2
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +213 -161
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model-00001-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:1c94a575f649f1b53eb088a532b1755757f8761cdcae11831a2bca32fe97cd14
 size 4998420448

 version https://git-lfs.github.com/spec/v1
+oid sha256:bf52f10965e393b8e0899b7abd10f5b56344c60211b12e28c940ae3935f3645f
 size 4998420448

last-checkpoint/model-00002-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cfb41cc90197db04ef4fde551b6a8aa2c560c91c8966fefa517d34ad486048a2
 size 4983891952

 version https://git-lfs.github.com/spec/v1
+oid sha256:343d02b7c5678b0bf23ba6cfb7f1d78e9094c8049b00e4399dfcd9480ced5097
 size 4983891952

last-checkpoint/model-00003-of-00003.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:cca55f3b11ef3116929cf316e11ddff3ec7c9c2fa6bc791b6a3026f5ef7e4ccb
 size 1905111704

 version https://git-lfs.github.com/spec/v1
+oid sha256:3b0587b29a2c6056b7a55bcbd389dad6e8b4730d0f209a9485b9d9a3a642d86e
 size 1905111704

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:0aa22d5b5a9a33a92836abaaa824bc7daca7cca430c7f5eb9930c4a97092a2e4
-size 15344257558

 version https://git-lfs.github.com/spec/v1
+oid sha256:59f68e78e982909d4e878fb37ffc83266760fb6dae40dac940b403410ce90a97
+size 2536

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:6648495cda64bef1e1d053d107c48e5074edca604a5b9a2f219b35e47f3cacd4
-size 14308

 version https://git-lfs.github.com/spec/v1
+oid sha256:95b6047bd8cc6f4cdf7c46dea47edb8e542435510070c6cd1e0a7d9ccf5fd7da
+size 14244

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:7acac30208351d1ca8c3e665090883ff7723a00418637911eff12485d0ffbf91
 size 1064

 version https://git-lfs.github.com/spec/v1
+oid sha256:4933c471fb1e4ba81de00146ddd721361901645c866fd1d76662b6837ae85d16
 size 1064

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -1,233 +1,285 @@
 {
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 1.0,
   "eval_steps": 500,
-  "global_step": 314,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.03184713375796178,
-      "grad_norm": 450.0,
-      "learning_rate": 6.896551724137932e-06,
-      "loss": 16.8123,
-      "step": 10
     },
     {
-      "epoch": 0.06369426751592357,
-      "grad_norm": 288.0,
-      "learning_rate": 1.3793103448275863e-05,
-      "loss": 13.0617,
-      "step": 20
     },
     {
-      "epoch": 0.09554140127388536,
-      "grad_norm": 110.0,
-      "learning_rate": 1.9999940799174018e-05,
-      "loss": 9.2073,
-      "step": 30
     },
     {
-      "epoch": 0.12738853503184713,
-      "grad_norm": 31.25,
-      "learning_rate": 1.9992837548163315e-05,
-      "loss": 7.4672,
-      "step": 40
     },
     {
-      "epoch": 0.1592356687898089,
-      "grad_norm": 67.5,
-      "learning_rate": 1.9973903768108406e-05,
-      "loss": 7.0625,
-      "step": 50
     },
     {
-      "epoch": 0.1910828025477707,
-      "grad_norm": 57.75,
-      "learning_rate": 1.994316187472792e-05,
-      "loss": 6.8102,
-      "step": 60
     },
     {
-      "epoch": 0.2229299363057325,
-      "grad_norm": 61.25,
-      "learning_rate": 1.9900648263376108e-05,
-      "loss": 6.5759,
-      "step": 70
     },
     {
-      "epoch": 0.25477707006369427,
-      "grad_norm": 46.25,
-      "learning_rate": 1.9846413265954338e-05,
-      "loss": 6.4318,
-      "step": 80
     },
     {
-      "epoch": 0.28662420382165604,
-      "grad_norm": 35.5,
-      "learning_rate": 1.9780521091323124e-05,
-      "loss": 6.3965,
-      "step": 90
     },
     {
-      "epoch": 0.3184713375796178,
-      "grad_norm": 320.0,
-      "learning_rate": 1.970304974928518e-05,
-      "loss": 6.4524,
-      "step": 100
     },
     {
-      "epoch": 0.3503184713375796,
-      "grad_norm": 32.75,
-      "learning_rate": 1.961409095822957e-05,
-      "loss": 6.3121,
-      "step": 110
     },
     {
-      "epoch": 0.3821656050955414,
-      "grad_norm": 38.25,
-      "learning_rate": 1.9513750036546222e-05,
-      "loss": 6.1557,
-      "step": 120
     },
     {
-      "epoch": 0.4140127388535032,
-      "grad_norm": 32.25,
-      "learning_rate": 1.9402145777939374e-05,
-      "loss": 5.9113,
-      "step": 130
     },
     {
-      "epoch": 0.445859872611465,
-      "grad_norm": 34.5,
-      "learning_rate": 1.9279410310787638e-05,
-      "loss": 5.8595,
-      "step": 140
     },
     {
-      "epoch": 0.47770700636942676,
-      "grad_norm": 28.375,
-      "learning_rate": 1.9145688941717074e-05,
-      "loss": 6.0551,
-      "step": 150
     },
     {
-      "epoch": 0.5095541401273885,
-      "grad_norm": 26.5,
-      "learning_rate": 1.9001139983572554e-05,
-      "loss": 5.2247,
-      "step": 160
     },
     {
-      "epoch": 0.5414012738853503,
-      "grad_norm": 37.75,
-      "learning_rate": 1.8845934567991056e-05,
-      "loss": 5.8697,
-      "step": 170
     },
     {
-      "epoch": 0.5732484076433121,
-      "grad_norm": 27.875,
-      "learning_rate": 1.8680256442798756e-05,
-      "loss": 5.9877,
-      "step": 180
     },
     {
-      "epoch": 0.6050955414012739,
-      "grad_norm": 31.75,
-      "learning_rate": 1.8504301754471837e-05,
-      "loss": 5.892,
-      "step": 190
     },
     {
-      "epoch": 0.6369426751592356,
-      "grad_norm": 29.25,
-      "learning_rate": 1.8318278815918483e-05,
-      "loss": 5.8725,
-      "step": 200
     },
     {
-      "epoch": 0.6687898089171974,
-      "grad_norm": 26.875,
-      "learning_rate": 1.8122407859857064e-05,
-      "loss": 5.8386,
-      "step": 210
     },
     {
-      "epoch": 0.7006369426751592,
-      "grad_norm": 46.25,
-      "learning_rate": 1.791692077808242e-05,
-      "loss": 6.0679,
-      "step": 220
     },
     {
-      "epoch": 0.732484076433121,
-      "grad_norm": 26.75,
-      "learning_rate": 1.770206084692897e-05,
-      "loss": 5.4833,
-      "step": 230
     },
     {
-      "epoch": 0.7643312101910829,
-      "grad_norm": 64.0,
-      "learning_rate": 1.747808243925565e-05,
-      "loss": 5.6222,
-      "step": 240
     },
     {
-      "epoch": 0.7961783439490446,
-      "grad_norm": 41.75,
-      "learning_rate": 1.724525072329364e-05,
-      "loss": 5.8434,
-      "step": 250
     },
     {
-      "epoch": 0.8280254777070064,
-      "grad_norm": 35.5,
-      "learning_rate": 1.700384134871351e-05,
-      "loss": 5.8525,
-      "step": 260
     },
     {
-      "epoch": 0.8598726114649682,
-      "grad_norm": 22.875,
-      "learning_rate": 1.6754140120283295e-05,
-      "loss": 6.089,
-      "step": 270
     },
     {
-      "epoch": 0.89171974522293,
-      "grad_norm": 19.75,
-      "learning_rate": 1.6496442659504005e-05,
-      "loss": 5.203,
-      "step": 280
     },
     {
-      "epoch": 0.9235668789808917,
-      "grad_norm": 23.375,
-      "learning_rate": 1.6231054054623066e-05,
-      "loss": 6.0398,
-      "step": 290
     },
     {
-      "epoch": 0.9554140127388535,
-      "grad_norm": 28.75,
-      "learning_rate": 1.5958288499440075e-05,
-      "loss": 5.9388,
-      "step": 300
     },
     {
-      "epoch": 0.9872611464968153,
-      "grad_norm": 27.75,
-      "learning_rate": 1.56784689213325e-05,
-      "loss": 5.5168,
-      "step": 310
     }
   ],
-  "logging_steps": 10,
-  "max_steps": 942,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
@@ -238,12 +290,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.1679210169046016e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

 {
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 3.0,
   "eval_steps": 500,
+  "global_step": 894,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.08389261744966443,
+      "grad_norm": 0.0,
+      "learning_rate": 1.851851851851852e-05,
+      "loss": 4.5636,
+      "step": 25
     },
     {
+      "epoch": 0.16778523489932887,
+      "grad_norm": 0.0,
+      "learning_rate": 1.9965291500546865e-05,
+      "loss": 4.5267,
+      "step": 50
     },
     {
+      "epoch": 0.2516778523489933,
+      "grad_norm": 0.0,
+      "learning_rate": 1.984912443051131e-05,
+      "loss": 4.6574,
+      "step": 75
     },
     {
+      "epoch": 0.33557046979865773,
+      "grad_norm": 0.0,
+      "learning_rate": 1.965218883028299e-05,
+      "loss": 4.589,
+      "step": 100
     },
     {
+      "epoch": 0.41946308724832215,
+      "grad_norm": 0.0,
+      "learning_rate": 1.9376099685953836e-05,
+      "loss": 4.6256,
+      "step": 125
     },
     {
+      "epoch": 0.5033557046979866,
+      "grad_norm": 0.0,
+      "learning_rate": 1.9023121088565353e-05,
+      "loss": 4.4971,
+      "step": 150
     },
     {
+      "epoch": 0.587248322147651,
+      "grad_norm": 0.0,
+      "learning_rate": 1.8596147667249457e-05,
+      "loss": 4.7099,
+      "step": 175
     },
     {
+      "epoch": 0.6711409395973155,
+      "grad_norm": 0.0,
+      "learning_rate": 1.8098680851591538e-05,
+      "loss": 4.619,
+      "step": 200
     },
     {
+      "epoch": 0.7550335570469798,
+      "grad_norm": 0.0,
+      "learning_rate": 1.753480015787792e-05,
+      "loss": 4.6121,
+      "step": 225
     },
     {
+      "epoch": 0.8389261744966443,
+      "grad_norm": 0.0,
+      "learning_rate": 1.6909129734697306e-05,
+      "loss": 4.4854,
+      "step": 250
     },
     {
+      "epoch": 0.9228187919463087,
+      "grad_norm": 0.0,
+      "learning_rate": 1.6226800442241582e-05,
+      "loss": 4.6153,
+      "step": 275
     },
     {
+      "epoch": 1.0,
+      "eval_loss": 4.619876861572266,
+      "eval_runtime": 1.7691,
+      "eval_samples_per_second": 71.223,
+      "eval_steps_per_second": 9.044,
+      "step": 298
     },
     {
+      "epoch": 1.0067114093959733,
+      "grad_norm": 0.0,
+      "learning_rate": 1.54934077762777e-05,
+      "loss": 4.6071,
+      "step": 300
     },
     {
+      "epoch": 1.0906040268456376,
+      "grad_norm": 0.0,
+      "learning_rate": 1.4714965981838503e-05,
+      "loss": 4.5226,
+      "step": 325
     },
     {
+      "epoch": 1.174496644295302,
+      "grad_norm": 0.0,
+      "learning_rate": 1.3897858732926794e-05,
+      "loss": 4.4466,
+      "step": 350
     },
     {
+      "epoch": 1.2583892617449663,
+      "grad_norm": 0.0,
+      "learning_rate": 1.3048786782687706e-05,
+      "loss": 4.4967,
+      "step": 375
     },
     {
+      "epoch": 1.342281879194631,
+      "grad_norm": 0.0,
+      "learning_rate": 1.2174713013348227e-05,
+      "loss": 4.7321,
+      "step": 400
     },
     {
+      "epoch": 1.4261744966442953,
+      "grad_norm": 0.0,
+      "learning_rate": 1.128280533654637e-05,
+      "loss": 4.6957,
+      "step": 425
     },
     {
+      "epoch": 1.5100671140939599,
+      "grad_norm": 0.0,
+      "learning_rate": 1.0380377912300231e-05,
+      "loss": 4.5298,
+      "step": 450
     },
     {
+      "epoch": 1.5939597315436242,
+      "grad_norm": 0.0,
+      "learning_rate": 9.474831168655596e-06,
+      "loss": 4.359,
+      "step": 475
     },
     {
+      "epoch": 1.6778523489932886,
+      "grad_norm": 0.0,
+      "learning_rate": 8.573591113885695e-06,
+      "loss": 4.5875,
+      "step": 500
     },
     {
+      "epoch": 1.761744966442953,
+      "grad_norm": 0.0,
+      "learning_rate": 7.684048438918247e-06,
+      "loss": 4.6772,
+      "step": 525
     },
     {
+      "epoch": 1.8456375838926173,
+      "grad_norm": 0.0,
+      "learning_rate": 6.813497909385252e-06,
+      "loss": 4.5338,
+      "step": 550
     },
     {
+      "epoch": 1.929530201342282,
+      "grad_norm": 0.0,
+      "learning_rate": 5.969078544315747e-06,
+      "loss": 4.6363,
+      "step": 575
     },
     {
+      "epoch": 2.0,
+      "eval_loss": 4.619876861572266,
+      "eval_runtime": 2.1011,
+      "eval_samples_per_second": 59.968,
+      "eval_steps_per_second": 7.615,
+      "step": 596
     },
     {
+      "epoch": 2.0134228187919465,
+      "grad_norm": 0.0,
+      "learning_rate": 5.157715072041094e-06,
+      "loss": 4.6935,
+      "step": 600
     },
     {
+      "epoch": 2.097315436241611,
+      "grad_norm": 0.0,
+      "learning_rate": 4.386061143408135e-06,
+      "loss": 4.5611,
+      "step": 625
     },
     {
+      "epoch": 2.1812080536912752,
+      "grad_norm": 0.0,
+      "learning_rate": 3.660444767984911e-06,
+      "loss": 4.4651,
+      "step": 650
     },
     {
+      "epoch": 2.2651006711409396,
+      "grad_norm": 0.0,
+      "learning_rate": 2.986816420713662e-06,
+      "loss": 4.6059,
+      "step": 675
     },
     {
+      "epoch": 2.348993288590604,
+      "grad_norm": 0.0,
+      "learning_rate": 2.370700244566605e-06,
+      "loss": 4.4503,
+      "step": 700
+    },
+    {
+      "epoch": 2.4328859060402683,
+      "grad_norm": 0.0,
+      "learning_rate": 1.8171487493710337e-06,
+      "loss": 4.5825,
+      "step": 725
+    },
+    {
+      "epoch": 2.5167785234899327,
+      "grad_norm": 0.0,
+      "learning_rate": 1.3307013782996237e-06,
+      "loss": 4.6254,
+      "step": 750
+    },
+    {
+      "epoch": 2.600671140939597,
+      "grad_norm": 0.0,
+      "learning_rate": 9.153472818047627e-07,
+      "loss": 4.6237,
+      "step": 775
+    },
+    {
+      "epoch": 2.684563758389262,
+      "grad_norm": 0.0,
+      "learning_rate": 5.74492604272191e-07,
+      "loss": 4.4167,
+      "step": 800
+    },
+    {
+      "epoch": 2.7684563758389262,
+      "grad_norm": 0.0,
+      "learning_rate": 3.109325516623818e-07,
+      "loss": 4.6393,
+      "step": 825
+    },
+    {
+      "epoch": 2.8523489932885906,
+      "grad_norm": 0.0,
+      "learning_rate": 1.2682846920120228e-07,
+      "loss": 4.6915,
+      "step": 850
+    },
+    {
+      "epoch": 2.936241610738255,
+      "grad_norm": 0.0,
+      "learning_rate": 2.369011709604463e-08,
+      "loss": 4.7184,
+      "step": 875
     },
     {
+      "epoch": 3.0,
+      "eval_loss": 4.619876861572266,
+      "eval_runtime": 1.8875,
+      "eval_samples_per_second": 66.756,
+      "eval_steps_per_second": 8.477,
+      "step": 894
     }
   ],
+  "logging_steps": 25,
+  "max_steps": 894,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 3,
   "save_steps": 500,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 3.4434735820916736e+16,
   "train_batch_size": 8,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ca6eb23889ca18fbcd4c9269548b5b828e7fb6c6f42bcc3fffd9ed4e3b37c2fb
 size 5368

 version https://git-lfs.github.com/spec/v1
+oid sha256:b6697f2864903978d31dd6ca1fe39ca44ced565a75f65d198b42ce2ce420093a
 size 5368