Training in progress, epoch 5, checkpoint

Browse files

Files changed (6) hide show

last-checkpoint/adapter_model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state.pth +2 -2
last-checkpoint/scaler.pt +1 -1
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +456 -4

last-checkpoint/adapter_model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:549ff55c9b7df5d39243d500e1f9ca5c2d8f81fd61f01bad6e770df99cd4642c
 size 228140600

 version https://git-lfs.github.com/spec/v1
+oid sha256:c14b7d8a1648c56d9f25f88d48454e081b6bc178d61bd9f0aadd582257678003
 size 228140600

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:fa110d49454799444aa7af7da9fa9973fcb4b4d870df4a2d26b538cde1855661
 size 117931203

 version https://git-lfs.github.com/spec/v1
+oid sha256:ae997529af0fecd00cf9ea60649b8488f2fcad93e7d57149ed2055f7e443e81c
 size 117931203

last-checkpoint/rng_state.pth CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:c1327c263322022fd0e726fb88ce334f0d0abdf09e2e5d74868c8bdf3e82ffcd
-size 14709

 version https://git-lfs.github.com/spec/v1
+oid sha256:a806988fecdee5121c06d7240dec6e61421fb0008f39bed17de1e2ca05215f14
+size 14645

last-checkpoint/scaler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:00a9d243dd1642fdda05d571b569759bcdedafccf20291ff236e4fc0f24bd4ce
 size 1383

 version https://git-lfs.github.com/spec/v1
+oid sha256:dfca50dfc66d4be0e8bab60e1bfd495197005d876487c7e37b847562cfa51471
 size 1383

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:2a8c29a421e8a95f2d6d46e5ac0aa25be56966681afe38a5d47f15222c56ec6b
 size 1465

 version https://git-lfs.github.com/spec/v1
+oid sha256:7c8cc8d8f0165185e683fffb0aab5024d4cdc129dcf7f2bae80e3717e00f0c4e
 size 1465

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,9 +2,9 @@
   "best_global_step": 438,
   "best_metric": 1.2615772485733032,
   "best_model_checkpoint": "./adapter-phase2/checkpoint-438",
-  "epoch": 4.0,
   "eval_steps": 500,
-  "global_step": 1752,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
@@ -1806,6 +1806,458 @@
       "eval_samples_per_second": 3.172,
       "eval_steps_per_second": 0.795,
       "step": 1752
     }
   ],
   "logging_steps": 10,
@@ -1820,12 +2272,12 @@
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
-        "should_training_stop": false
       },
       "attributes": {}
     }
   },
-  "total_flos": 1.1760117320245248e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null

   "best_global_step": 438,
   "best_metric": 1.2615772485733032,
   "best_model_checkpoint": "./adapter-phase2/checkpoint-438",
+  "epoch": 5.0,
   "eval_steps": 500,
+  "global_step": 2190,
   "is_hyper_param_search": false,
   "is_local_process_zero": true,
   "is_world_process_zero": true,
       "eval_samples_per_second": 3.172,
       "eval_steps_per_second": 0.795,
       "step": 1752
+    },
+    {
+      "entropy": 0.5481636302643701,
+      "epoch": 4.018285714285715,
+      "grad_norm": 1.847604513168335,
+      "learning_rate": 1.9771689497716896e-06,
+      "loss": 0.5007,
+      "mean_token_accuracy": 0.8671465257280752,
+      "num_tokens": 434791.0,
+      "step": 1760
+    },
+    {
+      "entropy": 0.5742504514753819,
+      "epoch": 4.041142857142857,
+      "grad_norm": 2.2244632244110107,
+      "learning_rate": 1.931506849315069e-06,
+      "loss": 0.5271,
+      "mean_token_accuracy": 0.8591625761240721,
+      "num_tokens": 447092.0,
+      "step": 1770
+    },
+    {
+      "entropy": 0.6953230138868094,
+      "epoch": 4.064,
+      "grad_norm": 3.42199444770813,
+      "learning_rate": 1.8858447488584477e-06,
+      "loss": 0.6469,
+      "mean_token_accuracy": 0.8285580322146415,
+      "num_tokens": 456254.0,
+      "step": 1780
+    },
+    {
+      "entropy": 0.7736836820840836,
+      "epoch": 4.086857142857143,
+      "grad_norm": 3.351454257965088,
+      "learning_rate": 1.8401826484018268e-06,
+      "loss": 0.6909,
+      "mean_token_accuracy": 0.8115375626832246,
+      "num_tokens": 463064.0,
+      "step": 1790
+    },
+    {
+      "entropy": 0.771463468298316,
+      "epoch": 4.109714285714285,
+      "grad_norm": 4.134479522705078,
+      "learning_rate": 1.7945205479452058e-06,
+      "loss": 0.6807,
+      "mean_token_accuracy": 0.8126782298088073,
+      "num_tokens": 468431.0,
+      "step": 1800
+    },
+    {
+      "entropy": 0.5649335160851479,
+      "epoch": 4.132571428571429,
+      "grad_norm": 2.1762540340423584,
+      "learning_rate": 1.7488584474885847e-06,
+      "loss": 0.5221,
+      "mean_token_accuracy": 0.8567749988287687,
+      "num_tokens": 482534.0,
+      "step": 1810
+    },
+    {
+      "entropy": 0.5837410872802138,
+      "epoch": 4.155428571428572,
+      "grad_norm": 2.349236011505127,
+      "learning_rate": 1.7031963470319637e-06,
+      "loss": 0.5371,
+      "mean_token_accuracy": 0.8581233065575361,
+      "num_tokens": 494845.0,
+      "step": 1820
+    },
+    {
+      "entropy": 0.6922593496739864,
+      "epoch": 4.178285714285714,
+      "grad_norm": 2.9896738529205322,
+      "learning_rate": 1.6575342465753428e-06,
+      "loss": 0.6648,
+      "mean_token_accuracy": 0.8241277992725372,
+      "num_tokens": 504153.0,
+      "step": 1830
+    },
+    {
+      "entropy": 0.7702124075964093,
+      "epoch": 4.201142857142857,
+      "grad_norm": 3.322385549545288,
+      "learning_rate": 1.6118721461187218e-06,
+      "loss": 0.6712,
+      "mean_token_accuracy": 0.8188040722161531,
+      "num_tokens": 511101.0,
+      "step": 1840
+    },
+    {
+      "entropy": 0.8012370727956295,
+      "epoch": 4.224,
+      "grad_norm": 4.359086036682129,
+      "learning_rate": 1.5662100456621007e-06,
+      "loss": 0.6748,
+      "mean_token_accuracy": 0.8118188168853522,
+      "num_tokens": 516460.0,
+      "step": 1850
+    },
+    {
+      "entropy": 0.5523576781153678,
+      "epoch": 4.246857142857142,
+      "grad_norm": 2.107539176940918,
+      "learning_rate": 1.5205479452054797e-06,
+      "loss": 0.5081,
+      "mean_token_accuracy": 0.8673421230167151,
+      "num_tokens": 530848.0,
+      "step": 1860
+    },
+    {
+      "entropy": 0.5729602897539735,
+      "epoch": 4.269714285714286,
+      "grad_norm": 2.5580902099609375,
+      "learning_rate": 1.4748858447488584e-06,
+      "loss": 0.5319,
+      "mean_token_accuracy": 0.8585442833602428,
+      "num_tokens": 543148.0,
+      "step": 1870
+    },
+    {
+      "entropy": 0.6956869766116143,
+      "epoch": 4.292571428571429,
+      "grad_norm": 3.1137397289276123,
+      "learning_rate": 1.4292237442922373e-06,
+      "loss": 0.6509,
+      "mean_token_accuracy": 0.8259295519441366,
+      "num_tokens": 552615.0,
+      "step": 1880
+    },
+    {
+      "entropy": 0.7814504994079471,
+      "epoch": 4.315428571428572,
+      "grad_norm": 3.9837899208068848,
+      "learning_rate": 1.3835616438356165e-06,
+      "loss": 0.6732,
+      "mean_token_accuracy": 0.8206901982426643,
+      "num_tokens": 559644.0,
+      "step": 1890
+    },
+    {
+      "entropy": 0.8006520505994559,
+      "epoch": 4.338285714285714,
+      "grad_norm": 4.293622016906738,
+      "learning_rate": 1.3378995433789954e-06,
+      "loss": 0.687,
+      "mean_token_accuracy": 0.8162542518228293,
+      "num_tokens": 565049.0,
+      "step": 1900
+    },
+    {
+      "entropy": 0.5543251828290522,
+      "epoch": 4.361142857142857,
+      "grad_norm": 2.0004706382751465,
+      "learning_rate": 1.2922374429223744e-06,
+      "loss": 0.5105,
+      "mean_token_accuracy": 0.8651686757802963,
+      "num_tokens": 579511.0,
+      "step": 1910
+    },
+    {
+      "entropy": 0.5778749627992511,
+      "epoch": 4.384,
+      "grad_norm": 2.4198007583618164,
+      "learning_rate": 1.2465753424657535e-06,
+      "loss": 0.5216,
+      "mean_token_accuracy": 0.8559423860162496,
+      "num_tokens": 591873.0,
+      "step": 1920
+    },
+    {
+      "entropy": 0.6606394873932004,
+      "epoch": 4.406857142857143,
+      "grad_norm": 3.485213279724121,
+      "learning_rate": 1.2009132420091325e-06,
+      "loss": 0.6086,
+      "mean_token_accuracy": 0.8372324761003256,
+      "num_tokens": 601337.0,
+      "step": 1930
+    },
+    {
+      "entropy": 0.7576876068487763,
+      "epoch": 4.429714285714286,
+      "grad_norm": 3.3860034942626953,
+      "learning_rate": 1.1552511415525116e-06,
+      "loss": 0.7,
+      "mean_token_accuracy": 0.8150843985378742,
+      "num_tokens": 608326.0,
+      "step": 1940
+    },
+    {
+      "entropy": 0.7779752794653177,
+      "epoch": 4.452571428571429,
+      "grad_norm": 4.422528266906738,
+      "learning_rate": 1.1095890410958906e-06,
+      "loss": 0.6755,
+      "mean_token_accuracy": 0.8102645222097635,
+      "num_tokens": 613860.0,
+      "step": 1950
+    },
+    {
+      "entropy": 0.5644787142053247,
+      "epoch": 4.475428571428571,
+      "grad_norm": 2.2278542518615723,
+      "learning_rate": 1.0639269406392695e-06,
+      "loss": 0.5188,
+      "mean_token_accuracy": 0.8587661664932966,
+      "num_tokens": 627853.0,
+      "step": 1960
+    },
+    {
+      "entropy": 0.5740617036819458,
+      "epoch": 4.498285714285714,
+      "grad_norm": 2.4340105056762695,
+      "learning_rate": 1.0182648401826485e-06,
+      "loss": 0.5167,
+      "mean_token_accuracy": 0.8595852922648192,
+      "num_tokens": 640020.0,
+      "step": 1970
+    },
+    {
+      "entropy": 0.671654068864882,
+      "epoch": 4.521142857142857,
+      "grad_norm": 3.127539873123169,
+      "learning_rate": 9.726027397260274e-07,
+      "loss": 0.6331,
+      "mean_token_accuracy": 0.8256836850196123,
+      "num_tokens": 649058.0,
+      "step": 1980
+    },
+    {
+      "entropy": 0.7583655359223485,
+      "epoch": 4.5440000000000005,
+      "grad_norm": 3.5964298248291016,
+      "learning_rate": 9.269406392694065e-07,
+      "loss": 0.679,
+      "mean_token_accuracy": 0.8139733098447323,
+      "num_tokens": 655831.0,
+      "step": 1990
+    },
+    {
+      "entropy": 0.7816360153257846,
+      "epoch": 4.566857142857143,
+      "grad_norm": 4.389492511749268,
+      "learning_rate": 8.812785388127855e-07,
+      "loss": 0.6784,
+      "mean_token_accuracy": 0.8120625615119934,
+      "num_tokens": 661256.0,
+      "step": 2000
+    },
+    {
+      "entropy": 0.5732687024399639,
+      "epoch": 4.589714285714286,
+      "grad_norm": 2.0767221450805664,
+      "learning_rate": 8.356164383561644e-07,
+      "loss": 0.5335,
+      "mean_token_accuracy": 0.8624513667076826,
+      "num_tokens": 675612.0,
+      "step": 2010
+    },
+    {
+      "entropy": 0.5804870082065463,
+      "epoch": 4.612571428571428,
+      "grad_norm": 2.554534673690796,
+      "learning_rate": 7.899543378995435e-07,
+      "loss": 0.5238,
+      "mean_token_accuracy": 0.8590863507241011,
+      "num_tokens": 687684.0,
+      "step": 2020
+    },
+    {
+      "entropy": 0.6967678766697645,
+      "epoch": 4.635428571428571,
+      "grad_norm": 3.255140542984009,
+      "learning_rate": 7.442922374429224e-07,
+      "loss": 0.6487,
+      "mean_token_accuracy": 0.8244634248316288,
+      "num_tokens": 696675.0,
+      "step": 2030
+    },
+    {
+      "entropy": 0.7526340587064624,
+      "epoch": 4.658285714285714,
+      "grad_norm": 3.69323992729187,
+      "learning_rate": 6.986301369863015e-07,
+      "loss": 0.6719,
+      "mean_token_accuracy": 0.8216490592807532,
+      "num_tokens": 703456.0,
+      "step": 2040
+    },
+    {
+      "entropy": 0.7950498787686229,
+      "epoch": 4.6811428571428575,
+      "grad_norm": 4.715794563293457,
+      "learning_rate": 6.529680365296804e-07,
+      "loss": 0.6808,
+      "mean_token_accuracy": 0.8184644509106874,
+      "num_tokens": 708782.0,
+      "step": 2050
+    },
+    {
+      "entropy": 0.5505135927349329,
+      "epoch": 4.704,
+      "grad_norm": 2.3146073818206787,
+      "learning_rate": 6.073059360730594e-07,
+      "loss": 0.507,
+      "mean_token_accuracy": 0.8652824487537145,
+      "num_tokens": 723247.0,
+      "step": 2060
+    },
+    {
+      "entropy": 0.5807493371888995,
+      "epoch": 4.726857142857143,
+      "grad_norm": 2.615732192993164,
+      "learning_rate": 5.616438356164384e-07,
+      "loss": 0.5342,
+      "mean_token_accuracy": 0.854337964951992,
+      "num_tokens": 735283.0,
+      "step": 2070
+    },
+    {
+      "entropy": 0.7081154704093933,
+      "epoch": 4.749714285714286,
+      "grad_norm": 3.0795960426330566,
+      "learning_rate": 5.159817351598174e-07,
+      "loss": 0.6499,
+      "mean_token_accuracy": 0.8241405732929706,
+      "num_tokens": 744298.0,
+      "step": 2080
+    },
+    {
+      "entropy": 0.783203998953104,
+      "epoch": 4.772571428571428,
+      "grad_norm": 3.7807230949401855,
+      "learning_rate": 4.7031963470319636e-07,
+      "loss": 0.6948,
+      "mean_token_accuracy": 0.8167315106838942,
+      "num_tokens": 751212.0,
+      "step": 2090
+    },
+    {
+      "entropy": 0.7742167858406901,
+      "epoch": 4.795428571428571,
+      "grad_norm": 4.185308933258057,
+      "learning_rate": 4.2465753424657536e-07,
+      "loss": 0.6705,
+      "mean_token_accuracy": 0.8145616598427295,
+      "num_tokens": 756648.0,
+      "step": 2100
+    },
+    {
+      "entropy": 0.5554421614855528,
+      "epoch": 4.8182857142857145,
+      "grad_norm": 2.0456132888793945,
+      "learning_rate": 3.7899543378995436e-07,
+      "loss": 0.4982,
+      "mean_token_accuracy": 0.8656269229948521,
+      "num_tokens": 771047.0,
+      "step": 2110
+    },
+    {
+      "entropy": 0.5584687992930413,
+      "epoch": 4.841142857142858,
+      "grad_norm": 2.591322422027588,
+      "learning_rate": 3.3333333333333335e-07,
+      "loss": 0.5038,
+      "mean_token_accuracy": 0.8639244794845581,
+      "num_tokens": 783484.0,
+      "step": 2120
+    },
+    {
+      "entropy": 0.6443877406418324,
+      "epoch": 4.864,
+      "grad_norm": 3.1148664951324463,
+      "learning_rate": 2.8767123287671235e-07,
+      "loss": 0.5898,
+      "mean_token_accuracy": 0.8393101956695318,
+      "num_tokens": 793159.0,
+      "step": 2130
+    },
+    {
+      "entropy": 0.7694938328117132,
+      "epoch": 4.886857142857143,
+      "grad_norm": 3.860647201538086,
+      "learning_rate": 2.4200913242009135e-07,
+      "loss": 0.6661,
+      "mean_token_accuracy": 0.8193999473005533,
+      "num_tokens": 800322.0,
+      "step": 2140
+    },
+    {
+      "entropy": 0.7594648722559214,
+      "epoch": 4.909714285714285,
+      "grad_norm": 4.108844757080078,
+      "learning_rate": 1.9634703196347034e-07,
+      "loss": 0.6513,
+      "mean_token_accuracy": 0.820786502957344,
+      "num_tokens": 805782.0,
+      "step": 2150
+    },
+    {
+      "entropy": 0.5718974178656936,
+      "epoch": 4.932571428571428,
+      "grad_norm": 2.0961592197418213,
+      "learning_rate": 1.5068493150684934e-07,
+      "loss": 0.5321,
+      "mean_token_accuracy": 0.8587038304656744,
+      "num_tokens": 819399.0,
+      "step": 2160
+    },
+    {
+      "entropy": 0.6284356378018856,
+      "epoch": 4.9554285714285715,
+      "grad_norm": 2.863541841506958,
+      "learning_rate": 1.0502283105022832e-07,
+      "loss": 0.5916,
+      "mean_token_accuracy": 0.8409151379019022,
+      "num_tokens": 830244.0,
+      "step": 2170
+    },
+    {
+      "entropy": 0.7672561943531037,
+      "epoch": 4.978285714285715,
+      "grad_norm": 3.52964186668396,
+      "learning_rate": 5.936073059360731e-08,
+      "loss": 0.6968,
+      "mean_token_accuracy": 0.8189954232424498,
+      "num_tokens": 837492.0,
+      "step": 2180
+    },
+    {
+      "entropy": 0.7868584784630098,
+      "epoch": 5.0,
+      "grad_norm": 6.119595050811768,
+      "learning_rate": 1.3698630136986303e-08,
+      "loss": 0.6771,
+      "mean_token_accuracy": 0.8141911743502868,
+      "num_tokens": 842388.0,
+      "step": 2190
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.009840881272949817,
+      "eval_entropy": 0.8240771901193272,
+      "eval_loss": 1.5346653461456299,
+      "eval_mean_token_accuracy": 0.7217774188656605,
+      "eval_num_tokens": 842388.0,
+      "eval_runtime": 325.5092,
+      "eval_samples_per_second": 3.177,
+      "eval_steps_per_second": 0.796,
+      "step": 2190
     }
   ],
   "logging_steps": 10,
         "should_evaluate": false,
         "should_log": false,
         "should_save": true,
+        "should_training_stop": true
       },
       "attributes": {}
     }
   },
+  "total_flos": 1.470014665030656e+17,
   "train_batch_size": 1,
   "trial_name": null,
   "trial_params": null