Training in progress, step 100, checkpoint

Browse files

Files changed (9) hide show

last-checkpoint/model.safetensors +1 -1
last-checkpoint/optimizer.pt +1 -1
last-checkpoint/rng_state_0.pth +3 -0
last-checkpoint/rng_state_1.pth +3 -0
last-checkpoint/rng_state_2.pth +3 -0
last-checkpoint/rng_state_3.pth +3 -0
last-checkpoint/scheduler.pt +1 -1
last-checkpoint/trainer_state.json +406 -407
last-checkpoint/training_args.bin +1 -1

last-checkpoint/model.safetensors CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:9e709ea6f76b0776c7bbe5eae80a3e9178a1c043e233fbaa34cd9bde90c821e2
 size 373077376

 version https://git-lfs.github.com/spec/v1
+oid sha256:9192a84227fca2aac03205fb395d6ce7c4837e98cd36fa369ddb920a8bff5939
 size 373077376

last-checkpoint/optimizer.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:f03c53c4589c3d523b6a9c7c3fdc019f7639c483159414c7257ab70520689c15
 size 422377867

 version https://git-lfs.github.com/spec/v1
+oid sha256:591d7feb697303f84a724edf4dec4e8afa84368269c2c44266862f6235dde6a9
 size 422377867

last-checkpoint/rng_state_0.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:18bb6b6e7da6250d22c25b95c64287be4aea598d9d97ef67b0fd69b9be869ed7
+size 15365

last-checkpoint/rng_state_1.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3cff16289615ba210b601be2162794d1949cb1d62132099a4cf62330c43649a5
+size 15365

last-checkpoint/rng_state_2.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c6caa3980c911491b74ec2e96e48a78cd7c3365dd32116c61642a4b6839a2da1
+size 15365

last-checkpoint/rng_state_3.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4e93d0d6464a92d227e9235c134b2224cf28ea45ba375cf82e6949c632e2b0d5
+size 15365

last-checkpoint/scheduler.pt CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:124f55b960efe2a7ce3398d1651bd3ad09df81f13a3e39e6091a372c5c008d2c
 size 1401

 version https://git-lfs.github.com/spec/v1
+oid sha256:c8f74ef64bb62eb0db7b90ee83cd7b2ecc127cfca56e27af0bc348a6066ee6ce
 size 1401

last-checkpoint/trainer_state.json CHANGED Viewed

@@ -2,7 +2,7 @@
   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
-  "epoch": 0.10384215991692627,
   "eval_steps": 100,
   "global_step": 100,
   "is_hyper_param_search": false,
@@ -10,716 +10,715 @@
   "is_world_process_zero": true,
   "log_history": [
     {
-      "epoch": 0.0010384215991692627,
-      "grad_norm": 1.7265625,
       "learning_rate": 0.0,
-      "loss": 10.8665,
       "step": 1
     },
     {
-      "epoch": 0.0020768431983385254,
-      "grad_norm": 1.78125,
-      "learning_rate": 2.0408163265306123e-05,
-      "loss": 10.8771,
       "step": 2
     },
     {
-      "epoch": 0.003115264797507788,
-      "grad_norm": 1.71875,
-      "learning_rate": 4.0816326530612245e-05,
-      "loss": 10.8809,
       "step": 3
     },
     {
-      "epoch": 0.004153686396677051,
-      "grad_norm": 1.6953125,
-      "learning_rate": 6.122448979591836e-05,
-      "loss": 10.881,
       "step": 4
     },
     {
-      "epoch": 0.005192107995846314,
-      "grad_norm": 1.7109375,
-      "learning_rate": 8.163265306122449e-05,
-      "loss": 10.8689,
       "step": 5
     },
     {
-      "epoch": 0.006230529595015576,
-      "grad_norm": 1.6015625,
-      "learning_rate": 0.00010204081632653062,
-      "loss": 10.8573,
       "step": 6
     },
     {
-      "epoch": 0.007268951194184839,
-      "grad_norm": 1.5390625,
-      "learning_rate": 0.00012244897959183673,
-      "loss": 10.8544,
       "step": 7
     },
     {
-      "epoch": 0.008307372793354102,
-      "grad_norm": 1.5234375,
-      "learning_rate": 0.00014285714285714284,
-      "loss": 10.828,
       "step": 8
     },
     {
-      "epoch": 0.009345794392523364,
-      "grad_norm": 1.7421875,
-      "learning_rate": 0.00016326530612244898,
-      "loss": 10.8025,
       "step": 9
     },
     {
-      "epoch": 0.010384215991692628,
-      "grad_norm": 1.6484375,
-      "learning_rate": 0.00018367346938775512,
-      "loss": 10.7755,
       "step": 10
     },
     {
-      "epoch": 0.01142263759086189,
-      "grad_norm": 1.890625,
-      "learning_rate": 0.00020408163265306123,
-      "loss": 10.762,
       "step": 11
     },
     {
-      "epoch": 0.012461059190031152,
-      "grad_norm": 1.859375,
-      "learning_rate": 0.00022448979591836734,
-      "loss": 10.7136,
       "step": 12
     },
     {
-      "epoch": 0.013499480789200415,
-      "grad_norm": 1.921875,
-      "learning_rate": 0.00024489795918367346,
-      "loss": 10.652,
       "step": 13
     },
     {
-      "epoch": 0.014537902388369679,
-      "grad_norm": 2.125,
-      "learning_rate": 0.0002653061224489796,
-      "loss": 10.5645,
       "step": 14
     },
     {
-      "epoch": 0.01557632398753894,
-      "grad_norm": 2.296875,
-      "learning_rate": 0.0002857142857142857,
-      "loss": 10.4862,
       "step": 15
     },
     {
-      "epoch": 0.016614745586708203,
-      "grad_norm": 2.390625,
-      "learning_rate": 0.0003061224489795919,
-      "loss": 10.4193,
       "step": 16
     },
     {
-      "epoch": 0.017653167185877467,
-      "grad_norm": 2.5,
-      "learning_rate": 0.00032653061224489796,
-      "loss": 10.2264,
       "step": 17
     },
     {
-      "epoch": 0.018691588785046728,
-      "grad_norm": 2.546875,
-      "learning_rate": 0.0003469387755102041,
-      "loss": 10.1162,
       "step": 18
     },
     {
-      "epoch": 0.01973001038421599,
-      "grad_norm": 2.734375,
-      "learning_rate": 0.00036734693877551024,
-      "loss": 9.9658,
       "step": 19
     },
     {
-      "epoch": 0.020768431983385256,
-      "grad_norm": 2.40625,
-      "learning_rate": 0.0003877551020408163,
-      "loss": 9.7941,
       "step": 20
     },
     {
-      "epoch": 0.021806853582554516,
-      "grad_norm": 2.34375,
-      "learning_rate": 0.00040816326530612246,
-      "loss": 9.5882,
       "step": 21
     },
     {
-      "epoch": 0.02284527518172378,
-      "grad_norm": 2.28125,
-      "learning_rate": 0.00042857142857142855,
-      "loss": 9.4191,
       "step": 22
     },
     {
-      "epoch": 0.023883696780893044,
-      "grad_norm": 2.078125,
-      "learning_rate": 0.0004489795918367347,
-      "loss": 9.2386,
       "step": 23
     },
     {
-      "epoch": 0.024922118380062305,
-      "grad_norm": 1.6328125,
-      "learning_rate": 0.00046938775510204083,
-      "loss": 9.1101,
       "step": 24
     },
     {
-      "epoch": 0.02596053997923157,
-      "grad_norm": 1.2890625,
-      "learning_rate": 0.0004897959183673469,
-      "loss": 8.9569,
       "step": 25
     },
     {
-      "epoch": 0.02699896157840083,
-      "grad_norm": 1.3671875,
-      "learning_rate": 0.0005102040816326531,
-      "loss": 8.8046,
       "step": 26
     },
     {
-      "epoch": 0.028037383177570093,
-      "grad_norm": 0.98046875,
-      "learning_rate": 0.0005306122448979592,
-      "loss": 8.6394,
       "step": 27
     },
     {
-      "epoch": 0.029075804776739357,
-      "grad_norm": 0.7578125,
-      "learning_rate": 0.0005510204081632653,
-      "loss": 8.5832,
       "step": 28
     },
     {
-      "epoch": 0.030114226375908618,
-      "grad_norm": 0.79296875,
-      "learning_rate": 0.0005714285714285714,
-      "loss": 8.4092,
       "step": 29
     },
     {
-      "epoch": 0.03115264797507788,
-      "grad_norm": 0.66015625,
-      "learning_rate": 0.0005918367346938776,
-      "loss": 8.364,
       "step": 30
     },
     {
-      "epoch": 0.032191069574247146,
-      "grad_norm": 0.875,
-      "learning_rate": 0.0006122448979591838,
-      "loss": 8.2433,
       "step": 31
     },
     {
-      "epoch": 0.033229491173416406,
-      "grad_norm": 8.875,
-      "learning_rate": 0.0006326530612244898,
-      "loss": 8.5265,
       "step": 32
     },
     {
-      "epoch": 0.03426791277258567,
-      "grad_norm": 0.73046875,
-      "learning_rate": 0.0006530612244897959,
-      "loss": 8.2092,
       "step": 33
     },
     {
-      "epoch": 0.035306334371754934,
-      "grad_norm": 0.70703125,
-      "learning_rate": 0.000673469387755102,
-      "loss": 8.2644,
       "step": 34
     },
     {
-      "epoch": 0.036344755970924195,
-      "grad_norm": 0.671875,
-      "learning_rate": 0.0006938775510204082,
-      "loss": 8.3096,
       "step": 35
     },
     {
-      "epoch": 0.037383177570093455,
-      "grad_norm": 0.71484375,
-      "learning_rate": 0.0007142857142857143,
-      "loss": 8.2509,
       "step": 36
     },
     {
-      "epoch": 0.03842159916926272,
-      "grad_norm": 0.7109375,
-      "learning_rate": 0.0007346938775510205,
-      "loss": 8.3452,
       "step": 37
     },
     {
-      "epoch": 0.03946002076843198,
-      "grad_norm": 0.5625,
-      "learning_rate": 0.0007551020408163265,
-      "loss": 8.1782,
       "step": 38
     },
     {
-      "epoch": 0.040498442367601244,
-      "grad_norm": 0.5390625,
-      "learning_rate": 0.0007755102040816326,
-      "loss": 8.2422,
       "step": 39
     },
     {
-      "epoch": 0.04153686396677051,
-      "grad_norm": 0.6640625,
-      "learning_rate": 0.0007959183673469387,
-      "loss": 8.2454,
       "step": 40
     },
     {
-      "epoch": 0.04257528556593977,
-      "grad_norm": 0.6328125,
-      "learning_rate": 0.0008163265306122449,
-      "loss": 8.1751,
       "step": 41
     },
     {
-      "epoch": 0.04361370716510903,
-      "grad_norm": 0.4609375,
-      "learning_rate": 0.0008367346938775511,
-      "loss": 8.1872,
       "step": 42
     },
     {
-      "epoch": 0.0446521287642783,
-      "grad_norm": 6.03125,
-      "learning_rate": 0.0008571428571428571,
-      "loss": 8.0279,
       "step": 43
     },
     {
-      "epoch": 0.04569055036344756,
-      "grad_norm": 0.57421875,
-      "learning_rate": 0.0008775510204081633,
-      "loss": 8.1868,
       "step": 44
     },
     {
-      "epoch": 0.04672897196261682,
-      "grad_norm": 1.640625,
-      "learning_rate": 0.0008979591836734694,
-      "loss": 8.1969,
       "step": 45
     },
     {
-      "epoch": 0.04776739356178609,
-      "grad_norm": 1.25,
-      "learning_rate": 0.0009183673469387756,
-      "loss": 8.1478,
       "step": 46
     },
     {
-      "epoch": 0.04880581516095535,
-      "grad_norm": 0.8984375,
-      "learning_rate": 0.0009387755102040817,
-      "loss": 8.1154,
       "step": 47
     },
     {
-      "epoch": 0.04984423676012461,
-      "grad_norm": 1.109375,
-      "learning_rate": 0.0009591836734693877,
-      "loss": 8.1156,
       "step": 48
     },
     {
-      "epoch": 0.05088265835929388,
-      "grad_norm": 1.328125,
-      "learning_rate": 0.0009795918367346938,
-      "loss": 8.0631,
       "step": 49
     },
     {
-      "epoch": 0.05192107995846314,
-      "grad_norm": 0.82421875,
-      "learning_rate": 0.001,
-      "loss": 8.0943,
       "step": 50
     },
     {
-      "epoch": 0.0529595015576324,
-      "grad_norm": 0.9140625,
-      "learning_rate": 0.0009999970464322657,
-      "loss": 7.9754,
       "step": 51
     },
     {
-      "epoch": 0.05399792315680166,
-      "grad_norm": 0.6953125,
-      "learning_rate": 0.0009999881857639566,
-      "loss": 8.0153,
       "step": 52
     },
     {
-      "epoch": 0.055036344755970926,
-      "grad_norm": 0.53125,
-      "learning_rate": 0.0009999734180997555,
-      "loss": 7.9965,
       "step": 53
     },
     {
-      "epoch": 0.056074766355140186,
-      "grad_norm": 0.66796875,
-      "learning_rate": 0.0009999527436141311,
-      "loss": 7.911,
       "step": 54
     },
     {
-      "epoch": 0.05711318795430945,
-      "grad_norm": 0.82421875,
-      "learning_rate": 0.0009999261625513378,
-      "loss": 7.9039,
       "step": 55
     },
     {
-      "epoch": 0.058151609553478714,
-      "grad_norm": 0.7421875,
-      "learning_rate": 0.0009998936752254111,
-      "loss": 7.9147,
       "step": 56
     },
     {
-      "epoch": 0.059190031152647975,
-      "grad_norm": 0.80859375,
-      "learning_rate": 0.0009998552820201655,
-      "loss": 7.9948,
       "step": 57
     },
     {
-      "epoch": 0.060228452751817235,
-      "grad_norm": 1.0546875,
-      "learning_rate": 0.0009998109833891883,
-      "loss": 7.9213,
       "step": 58
     },
     {
-      "epoch": 0.0612668743509865,
-      "grad_norm": 0.84375,
-      "learning_rate": 0.0009997607798558359,
-      "loss": 7.8629,
       "step": 59
     },
     {
-      "epoch": 0.06230529595015576,
-      "grad_norm": 1.0546875,
-      "learning_rate": 0.0009997046720132262,
-      "loss": 7.8418,
       "step": 60
     },
     {
-      "epoch": 0.06334371754932502,
-      "grad_norm": 0.7265625,
-      "learning_rate": 0.0009996426605242323,
-      "loss": 7.9071,
       "step": 61
     },
     {
-      "epoch": 0.06438213914849429,
-      "grad_norm": 1.0078125,
-      "learning_rate": 0.0009995747461214752,
-      "loss": 7.8148,
       "step": 62
     },
     {
-      "epoch": 0.06542056074766354,
-      "grad_norm": 0.82421875,
-      "learning_rate": 0.0009995009296073138,
-      "loss": 7.8949,
       "step": 63
     },
     {
-      "epoch": 0.06645898234683281,
-      "grad_norm": 0.8515625,
-      "learning_rate": 0.0009994212118538365,
-      "loss": 7.7507,
       "step": 64
     },
     {
-      "epoch": 0.06749740394600208,
-      "grad_norm": 0.74609375,
-      "learning_rate": 0.00099933559380285,
-      "loss": 7.8288,
       "step": 65
     },
     {
-      "epoch": 0.06853582554517133,
-      "grad_norm": 0.75390625,
-      "learning_rate": 0.0009992440764658697,
-      "loss": 7.6728,
       "step": 66
     },
     {
-      "epoch": 0.0695742471443406,
-      "grad_norm": 0.8984375,
-      "learning_rate": 0.000999146660924106,
-      "loss": 7.65,
       "step": 67
     },
     {
-      "epoch": 0.07061266874350987,
-      "grad_norm": 1.2890625,
-      "learning_rate": 0.0009990433483284527,
-      "loss": 7.5908,
       "step": 68
     },
     {
-      "epoch": 0.07165109034267912,
-      "grad_norm": 0.7109375,
-      "learning_rate": 0.0009989341398994724,
-      "loss": 7.5341,
       "step": 69
     },
     {
-      "epoch": 0.07268951194184839,
-      "grad_norm": 0.9375,
-      "learning_rate": 0.0009988190369273832,
-      "loss": 7.4824,
       "step": 70
     },
     {
-      "epoch": 0.07372793354101766,
-      "grad_norm": 0.91015625,
-      "learning_rate": 0.000998698040772043,
-      "loss": 7.489,
       "step": 71
     },
     {
-      "epoch": 0.07476635514018691,
-      "grad_norm": 1.0546875,
-      "learning_rate": 0.000998571152862933,
-      "loss": 7.3756,
       "step": 72
     },
     {
-      "epoch": 0.07580477673935618,
-      "grad_norm": 0.5625,
-      "learning_rate": 0.0009984383746991417,
-      "loss": 7.3947,
       "step": 73
     },
     {
-      "epoch": 0.07684319833852545,
-      "grad_norm": 0.6171875,
-      "learning_rate": 0.0009982997078493456,
-      "loss": 7.3367,
       "step": 74
     },
     {
-      "epoch": 0.0778816199376947,
-      "grad_norm": 0.90625,
-      "learning_rate": 0.0009981551539517929,
-      "loss": 7.359,
       "step": 75
     },
     {
-      "epoch": 0.07892004153686397,
-      "grad_norm": 0.74609375,
-      "learning_rate": 0.0009980047147142824,
-      "loss": 7.1188,
       "step": 76
     },
     {
-      "epoch": 0.07995846313603323,
-      "grad_norm": 0.66796875,
-      "learning_rate": 0.0009978483919141441,
-      "loss": 7.3683,
       "step": 77
     },
     {
-      "epoch": 0.08099688473520249,
-      "grad_norm": 0.92578125,
-      "learning_rate": 0.0009976861873982176,
-      "loss": 7.2359,
       "step": 78
     },
     {
-      "epoch": 0.08203530633437175,
-      "grad_norm": 1.46875,
-      "learning_rate": 0.0009975181030828317,
-      "loss": 7.1375,
       "step": 79
     },
     {
-      "epoch": 0.08307372793354102,
-      "grad_norm": 0.52734375,
-      "learning_rate": 0.0009973441409537793,
-      "loss": 7.0958,
       "step": 80
     },
     {
-      "epoch": 0.08411214953271028,
-      "grad_norm": 0.62890625,
-      "learning_rate": 0.0009971643030662965,
-      "loss": 7.1365,
       "step": 81
     },
     {
-      "epoch": 0.08515057113187954,
-      "grad_norm": 0.8046875,
-      "learning_rate": 0.0009969785915450366,
-      "loss": 7.122,
       "step": 82
     },
     {
-      "epoch": 0.08618899273104881,
-      "grad_norm": 1.0546875,
-      "learning_rate": 0.0009967870085840463,
-      "loss": 7.0849,
       "step": 83
     },
     {
-      "epoch": 0.08722741433021806,
-      "grad_norm": 0.458984375,
-      "learning_rate": 0.000996589556446738,
-      "loss": 7.0815,
       "step": 84
     },
     {
-      "epoch": 0.08826583592938733,
-      "grad_norm": 0.72265625,
-      "learning_rate": 0.000996386237465865,
-      "loss": 7.109,
       "step": 85
     },
     {
-      "epoch": 0.0893042575285566,
-      "grad_norm": 0.7734375,
-      "learning_rate": 0.000996177054043493,
-      "loss": 6.9565,
       "step": 86
     },
     {
-      "epoch": 0.09034267912772585,
-      "grad_norm": 0.609375,
-      "learning_rate": 0.0009959620086509714,
-      "loss": 7.0025,
       "step": 87
     },
     {
-      "epoch": 0.09138110072689512,
-      "grad_norm": 0.546875,
-      "learning_rate": 0.0009957411038289047,
-      "loss": 7.002,
       "step": 88
     },
     {
-      "epoch": 0.09241952232606439,
-      "grad_norm": 0.5078125,
-      "learning_rate": 0.0009955143421871227,
-      "loss": 6.6959,
       "step": 89
     },
     {
-      "epoch": 0.09345794392523364,
-      "grad_norm": 0.53515625,
-      "learning_rate": 0.0009952817264046484,
-      "loss": 6.7453,
       "step": 90
     },
     {
-      "epoch": 0.09449636552440291,
-      "grad_norm": 0.5546875,
-      "learning_rate": 0.000995043259229668,
-      "loss": 6.734,
       "step": 91
     },
     {
-      "epoch": 0.09553478712357218,
-      "grad_norm": 0.52734375,
-      "learning_rate": 0.0009947989434794973,
-      "loss": 6.8088,
       "step": 92
     },
     {
-      "epoch": 0.09657320872274143,
-      "grad_norm": 0.80859375,
-      "learning_rate": 0.0009945487820405485,
-      "loss": 6.8563,
       "step": 93
     },
     {
-      "epoch": 0.0976116303219107,
-      "grad_norm": 0.7734375,
-      "learning_rate": 0.0009942927778682968,
-      "loss": 6.5181,
       "step": 94
     },
     {
-      "epoch": 0.09865005192107996,
-      "grad_norm": 0.60546875,
-      "learning_rate": 0.0009940309339872449,
-      "loss": 6.8268,
       "step": 95
     },
     {
-      "epoch": 0.09968847352024922,
-      "grad_norm": 0.625,
-      "learning_rate": 0.000993763253490887,
-      "loss": 6.7739,
       "step": 96
     },
     {
-      "epoch": 0.10072689511941849,
-      "grad_norm": 0.54296875,
-      "learning_rate": 0.0009934897395416737,
-      "loss": 6.6782,
       "step": 97
     },
     {
-      "epoch": 0.10176531671858775,
-      "grad_norm": 0.5625,
-      "learning_rate": 0.0009932103953709723,
-      "loss": 6.727,
       "step": 98
     },
     {
-      "epoch": 0.102803738317757,
-      "grad_norm": 0.5625,
-      "learning_rate": 0.0009929252242790309,
-      "loss": 6.7222,
       "step": 99
     },
     {
-      "epoch": 0.10384215991692627,
-      "grad_norm": 0.5234375,
-      "learning_rate": 0.0009926342296349379,
-      "loss": 6.5565,
       "step": 100
     },
     {
-      "epoch": 0.10384215991692627,
-      "eval_loss": 6.583271503448486,
-      "eval_runtime": 2.5831,
-      "eval_samples_per_second": 6.194,
-      "eval_steps_per_second": 0.774,
       "step": 100
     }
   ],
   "logging_steps": 1,
-  "max_steps": 963,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
@@ -735,7 +734,7 @@
       "attributes": {}
     }
   },
-  "total_flos": 1.27361819344896e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

   "best_global_step": null,
   "best_metric": null,
   "best_model_checkpoint": null,
+  "epoch": 0.4166666666666667,
   "eval_steps": 100,
   "global_step": 100,
   "is_hyper_param_search": false,
   "is_world_process_zero": true,
   "log_history": [
     {
+      "epoch": 0.004166666666666667,
+      "grad_norm": 1.1015625,
       "learning_rate": 0.0,
+      "loss": 10.881,
       "step": 1
     },
     {
+      "epoch": 0.008333333333333333,
+      "grad_norm": 1.0859375,
+      "learning_rate": 8.333333333333333e-05,
+      "loss": 10.8796,
       "step": 2
     },
     {
+      "epoch": 0.0125,
+      "grad_norm": 1.109375,
+      "learning_rate": 0.00016666666666666666,
+      "loss": 10.8717,
       "step": 3
     },
     {
+      "epoch": 0.016666666666666666,
+      "grad_norm": 1.1640625,
+      "learning_rate": 0.00025,
+      "loss": 10.8356,
       "step": 4
     },
     {
+      "epoch": 0.020833333333333332,
+      "grad_norm": 1.1640625,
+      "learning_rate": 0.0003333333333333333,
+      "loss": 10.7809,
       "step": 5
     },
     {
+      "epoch": 0.025,
+      "grad_norm": 1.4140625,
+      "learning_rate": 0.0004166666666666667,
+      "loss": 10.6851,
       "step": 6
     },
     {
+      "epoch": 0.029166666666666667,
+      "grad_norm": 1.828125,
+      "learning_rate": 0.0005,
+      "loss": 10.5276,
       "step": 7
     },
     {
+      "epoch": 0.03333333333333333,
+      "grad_norm": 3.0625,
+      "learning_rate": 0.0005833333333333334,
+      "loss": 10.3051,
       "step": 8
     },
     {
+      "epoch": 0.0375,
+      "grad_norm": 2.484375,
+      "learning_rate": 0.0006666666666666666,
+      "loss": 9.9923,
       "step": 9
     },
     {
+      "epoch": 0.041666666666666664,
+      "grad_norm": 2.171875,
+      "learning_rate": 0.00075,
+      "loss": 9.6341,
       "step": 10
     },
     {
+      "epoch": 0.04583333333333333,
+      "grad_norm": 1.78125,
+      "learning_rate": 0.0008333333333333334,
+      "loss": 9.2877,
       "step": 11
     },
     {
+      "epoch": 0.05,
+      "grad_norm": 1.21875,
+      "learning_rate": 0.0009166666666666666,
+      "loss": 8.9598,
       "step": 12
     },
     {
+      "epoch": 0.05416666666666667,
+      "grad_norm": 1.0625,
+      "learning_rate": 0.001,
+      "loss": 8.6453,
       "step": 13
     },
     {
+      "epoch": 0.058333333333333334,
+      "grad_norm": 1.921875,
+      "learning_rate": 0.0009999525361252997,
+      "loss": 8.3812,
       "step": 14
     },
     {
+      "epoch": 0.0625,
+      "grad_norm": 0.75,
+      "learning_rate": 0.0009998101535124758,
+      "loss": 8.3837,
       "step": 15
     },
     {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 0.65234375,
+      "learning_rate": 0.0009995728791936504,
+      "loss": 8.2473,
       "step": 16
     },
     {
+      "epoch": 0.07083333333333333,
+      "grad_norm": 0.65234375,
+      "learning_rate": 0.000999240758216658,
+      "loss": 8.2098,
       "step": 17
     },
     {
+      "epoch": 0.075,
+      "grad_norm": 0.59375,
+      "learning_rate": 0.0009988138536364923,
+      "loss": 8.2186,
       "step": 18
     },
     {
+      "epoch": 0.07916666666666666,
+      "grad_norm": 0.62109375,
+      "learning_rate": 0.000998292246503335,
+      "loss": 8.1986,
       "step": 19
     },
     {
+      "epoch": 0.08333333333333333,
+      "grad_norm": 0.75,
+      "learning_rate": 0.0009976760358471686,
+      "loss": 8.1657,
       "step": 20
     },
     {
+      "epoch": 0.0875,
+      "grad_norm": 1.2421875,
+      "learning_rate": 0.0009969653386589748,
+      "loss": 8.2456,
       "step": 21
     },
     {
+      "epoch": 0.09166666666666666,
+      "grad_norm": 1.171875,
+      "learning_rate": 0.0009961602898685225,
+      "loss": 8.2377,
       "step": 22
     },
     {
+      "epoch": 0.09583333333333334,
+      "grad_norm": 0.68359375,
+      "learning_rate": 0.0009952610423187517,
+      "loss": 8.2126,
       "step": 23
     },
     {
+      "epoch": 0.1,
+      "grad_norm": 1.0390625,
+      "learning_rate": 0.000994267766736754,
+      "loss": 8.1222,
       "step": 24
     },
     {
+      "epoch": 0.10416666666666667,
+      "grad_norm": 3.78125,
+      "learning_rate": 0.0009931806517013613,
+      "loss": 8.1486,
       "step": 25
     },
     {
+      "epoch": 0.10833333333333334,
+      "grad_norm": 0.8203125,
+      "learning_rate": 0.00099199990360734,
+      "loss": 8.0777,
       "step": 26
     },
     {
+      "epoch": 0.1125,
+      "grad_norm": 1.5859375,
+      "learning_rate": 0.000990725746626209,
+      "loss": 8.0794,
       "step": 27
     },
     {
+      "epoch": 0.11666666666666667,
+      "grad_norm": 1.078125,
+      "learning_rate": 0.0009893584226636774,
+      "loss": 8.0899,
       "step": 28
     },
     {
+      "epoch": 0.12083333333333333,
+      "grad_norm": 1.2265625,
+      "learning_rate": 0.0009878981913137178,
+      "loss": 8.0234,
       "step": 29
     },
     {
+      "epoch": 0.125,
+      "grad_norm": 0.9296875,
+      "learning_rate": 0.000986345329809282,
+      "loss": 7.9849,
       "step": 30
     },
     {
+      "epoch": 0.12916666666666668,
+      "grad_norm": 0.98828125,
+      "learning_rate": 0.0009847001329696653,
+      "loss": 7.9992,
       "step": 31
     },
     {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 0.9140625,
+      "learning_rate": 0.0009829629131445341,
+      "loss": 7.9987,
       "step": 32
     },
     {
+      "epoch": 0.1375,
+      "grad_norm": 0.87890625,
+      "learning_rate": 0.0009811340001546253,
+      "loss": 7.8286,
       "step": 33
     },
     {
+      "epoch": 0.14166666666666666,
+      "grad_norm": 0.65625,
+      "learning_rate": 0.0009792137412291265,
+      "loss": 7.906,
       "step": 34
     },
     {
+      "epoch": 0.14583333333333334,
+      "grad_norm": 0.890625,
+      "learning_rate": 0.0009772025009397538,
+      "loss": 7.9067,
       "step": 35
     },
     {
+      "epoch": 0.15,
+      "grad_norm": 1.0,
+      "learning_rate": 0.0009751006611315356,
+      "loss": 7.8334,
       "step": 36
     },
     {
+      "epoch": 0.15416666666666667,
+      "grad_norm": 0.83984375,
+      "learning_rate": 0.0009729086208503173,
+      "loss": 7.7849,
       "step": 37
     },
     {
+      "epoch": 0.15833333333333333,
+      "grad_norm": 0.8125,
+      "learning_rate": 0.0009706267962669998,
+      "loss": 7.8273,
       "step": 38
     },
     {
+      "epoch": 0.1625,
+      "grad_norm": 0.84765625,
+      "learning_rate": 0.0009682556205985273,
+      "loss": 7.8163,
       "step": 39
     },
     {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 0.83984375,
+      "learning_rate": 0.0009657955440256395,
+      "loss": 7.8286,
       "step": 40
     },
     {
+      "epoch": 0.17083333333333334,
+      "grad_norm": 0.765625,
+      "learning_rate": 0.0009632470336074008,
+      "loss": 7.6952,
       "step": 41
     },
     {
+      "epoch": 0.175,
+      "grad_norm": 0.8828125,
+      "learning_rate": 0.0009606105731925284,
+      "loss": 7.6126,
       "step": 42
     },
     {
+      "epoch": 0.17916666666666667,
+      "grad_norm": 0.73046875,
+      "learning_rate": 0.0009578866633275287,
+      "loss": 7.669,
       "step": 43
     },
     {
+      "epoch": 0.18333333333333332,
+      "grad_norm": 0.9296875,
+      "learning_rate": 0.0009550758211616684,
+      "loss": 7.6147,
       "step": 44
     },
     {
+      "epoch": 0.1875,
+      "grad_norm": 1.0234375,
+      "learning_rate": 0.0009521785803487888,
+      "loss": 7.5326,
       "step": 45
     },
     {
+      "epoch": 0.19166666666666668,
+      "grad_norm": 0.87109375,
+      "learning_rate": 0.0009491954909459895,
+      "loss": 7.6062,
       "step": 46
     },
     {
+      "epoch": 0.19583333333333333,
+      "grad_norm": 0.890625,
+      "learning_rate": 0.000946127119309197,
+      "loss": 7.5237,
       "step": 47
     },
     {
+      "epoch": 0.2,
+      "grad_norm": 0.9453125,
+      "learning_rate": 0.000942974047985639,
+      "loss": 7.3882,
       "step": 48
     },
     {
+      "epoch": 0.20416666666666666,
+      "grad_norm": 0.86328125,
+      "learning_rate": 0.0009397368756032445,
+      "loss": 7.3524,
       "step": 49
     },
     {
+      "epoch": 0.20833333333333334,
+      "grad_norm": 1.2109375,
+      "learning_rate": 0.0009364162167569907,
+      "loss": 7.3997,
       "step": 50
     },
     {
+      "epoch": 0.2125,
+      "grad_norm": 0.984375,
+      "learning_rate": 0.0009330127018922195,
+      "loss": 7.3773,
       "step": 51
     },
     {
+      "epoch": 0.21666666666666667,
+      "grad_norm": 1.0234375,
+      "learning_rate": 0.0009295269771849426,
+      "loss": 7.226,
       "step": 52
     },
     {
+      "epoch": 0.22083333333333333,
+      "grad_norm": 0.83203125,
+      "learning_rate": 0.0009259597044191636,
+      "loss": 7.1442,
       "step": 53
     },
     {
+      "epoch": 0.225,
+      "grad_norm": 0.7734375,
+      "learning_rate": 0.0009223115608612324,
+      "loss": 7.1719,
       "step": 54
     },
     {
+      "epoch": 0.22916666666666666,
+      "grad_norm": 0.70703125,
+      "learning_rate": 0.0009185832391312643,
+      "loss": 7.1881,
       "step": 55
     },
     {
+      "epoch": 0.23333333333333334,
+      "grad_norm": 0.7890625,
+      "learning_rate": 0.0009147754470716407,
+      "loss": 7.0652,
       "step": 56
     },
     {
+      "epoch": 0.2375,
+      "grad_norm": 0.90625,
+      "learning_rate": 0.0009108889076126225,
+      "loss": 7.0871,
       "step": 57
     },
     {
+      "epoch": 0.24166666666666667,
+      "grad_norm": 0.80859375,
+      "learning_rate": 0.0009069243586350975,
+      "loss": 7.0031,
       "step": 58
     },
     {
+      "epoch": 0.24583333333333332,
+      "grad_norm": 0.8984375,
+      "learning_rate": 0.0009028825528304891,
+      "loss": 6.9444,
       "step": 59
     },
     {
+      "epoch": 0.25,
+      "grad_norm": 0.83984375,
+      "learning_rate": 0.0008987642575578545,
+      "loss": 6.9711,
       "step": 60
     },
     {
+      "epoch": 0.25416666666666665,
+      "grad_norm": 0.78125,
+      "learning_rate": 0.0008945702546981969,
+      "loss": 6.9405,
       "step": 61
     },
     {
+      "epoch": 0.25833333333333336,
+      "grad_norm": 0.7421875,
+      "learning_rate": 0.0008903013405060211,
+      "loss": 6.8948,
       "step": 62
     },
     {
+      "epoch": 0.2625,
+      "grad_norm": 0.7890625,
+      "learning_rate": 0.0008859583254581605,
+      "loss": 6.7929,
       "step": 63
     },
     {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 0.62890625,
+      "learning_rate": 0.0008815420340999033,
+      "loss": 6.7925,
       "step": 64
     },
     {
+      "epoch": 0.2708333333333333,
+      "grad_norm": 0.60546875,
+      "learning_rate": 0.0008770533048884482,
+      "loss": 6.6973,
       "step": 65
     },
     {
+      "epoch": 0.275,
+      "grad_norm": 0.75,
+      "learning_rate": 0.0008724929900337185,
+      "loss": 6.6246,
       "step": 66
     },
     {
+      "epoch": 0.2791666666666667,
+      "grad_norm": 1.015625,
+      "learning_rate": 0.0008678619553365659,
+      "loss": 6.5833,
       "step": 67
     },
     {
+      "epoch": 0.2833333333333333,
+      "grad_norm": 0.8671875,
+      "learning_rate": 0.0008631610800243925,
+      "loss": 6.6018,
       "step": 68
     },
     {
+      "epoch": 0.2875,
+      "grad_norm": 0.78125,
+      "learning_rate": 0.0008583912565842257,
+      "loss": 6.5557,
       "step": 69
     },
     {
+      "epoch": 0.2916666666666667,
+      "grad_norm": 0.79296875,
+      "learning_rate": 0.0008535533905932737,
+      "loss": 6.6141,
       "step": 70
     },
     {
+      "epoch": 0.29583333333333334,
+      "grad_norm": 0.6171875,
+      "learning_rate": 0.0008486484005469976,
+      "loss": 6.562,
       "step": 71
     },
     {
+      "epoch": 0.3,
+      "grad_norm": 0.5703125,
+      "learning_rate": 0.0008436772176847294,
+      "loss": 6.5793,
       "step": 72
     },
     {
+      "epoch": 0.30416666666666664,
+      "grad_norm": 0.55078125,
+      "learning_rate": 0.0008386407858128706,
+      "loss": 6.433,
       "step": 73
     },
     {
+      "epoch": 0.30833333333333335,
+      "grad_norm": 0.67578125,
+      "learning_rate": 0.0008335400611257067,
+      "loss": 6.4203,
       "step": 74
     },
     {
+      "epoch": 0.3125,
+      "grad_norm": 0.6640625,
+      "learning_rate": 0.0008283760120238673,
+      "loss": 6.5618,
       "step": 75
     },
     {
+      "epoch": 0.31666666666666665,
+      "grad_norm": 0.609375,
+      "learning_rate": 0.0008231496189304704,
+      "loss": 6.4164,
       "step": 76
     },
     {
+      "epoch": 0.32083333333333336,
+      "grad_norm": 0.64453125,
+      "learning_rate": 0.0008178618741049842,
+      "loss": 6.3843,
       "step": 77
     },
     {
+      "epoch": 0.325,
+      "grad_norm": 0.625,
+      "learning_rate": 0.0008125137814548394,
+      "loss": 6.3645,
       "step": 78
     },
     {
+      "epoch": 0.32916666666666666,
+      "grad_norm": 0.53125,
+      "learning_rate": 0.000807106356344834,
+      "loss": 6.3801,
       "step": 79
     },
     {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 0.58203125,
+      "learning_rate": 0.0008016406254043594,
+      "loss": 6.3006,
       "step": 80
     },
     {
+      "epoch": 0.3375,
+      "grad_norm": 0.6015625,
+      "learning_rate": 0.00079611762633249,
+      "loss": 6.2757,
       "step": 81
     },
     {
+      "epoch": 0.3416666666666667,
+      "grad_norm": 1.0078125,
+      "learning_rate": 0.0007905384077009691,
+      "loss": 6.2913,
       "step": 82
     },
     {
+      "epoch": 0.3458333333333333,
+      "grad_norm": 0.462890625,
+      "learning_rate": 0.0007849040287551332,
+      "loss": 6.295,
       "step": 83
     },
     {
+      "epoch": 0.35,
+      "grad_norm": 0.66015625,
+      "learning_rate": 0.000779215559212807,
+      "loss": 6.2215,
       "step": 84
     },
     {
+      "epoch": 0.3541666666666667,
+      "grad_norm": 0.65234375,
+      "learning_rate": 0.0007734740790612135,
+      "loss": 6.2537,
       "step": 85
     },
     {
+      "epoch": 0.35833333333333334,
+      "grad_norm": 0.58984375,
+      "learning_rate": 0.0007676806783519304,
+      "loss": 6.2715,
       "step": 86
     },
     {
+      "epoch": 0.3625,
+      "grad_norm": 0.58984375,
+      "learning_rate": 0.000761836456993939,
+      "loss": 6.2149,
       "step": 87
     },
     {
+      "epoch": 0.36666666666666664,
+      "grad_norm": 0.59765625,
+      "learning_rate": 0.0007559425245448005,
+      "loss": 6.2037,
       "step": 88
     },
     {
+      "epoch": 0.37083333333333335,
+      "grad_norm": 0.67578125,
+      "learning_rate": 0.00075,
+      "loss": 6.2202,
       "step": 89
     },
     {
+      "epoch": 0.375,
+      "grad_norm": 0.65625,
+      "learning_rate": 0.0007440100115804991,
+      "loss": 6.2024,
       "step": 90
     },
     {
+      "epoch": 0.37916666666666665,
+      "grad_norm": 0.47265625,
+      "learning_rate": 0.0007379736965185368,
+      "loss": 6.2019,
       "step": 91
     },
     {
+      "epoch": 0.38333333333333336,
+      "grad_norm": 0.56640625,
+      "learning_rate": 0.0007318922008417203,
+      "loss": 6.1304,
       "step": 92
     },
     {
+      "epoch": 0.3875,
+      "grad_norm": 0.5390625,
+      "learning_rate": 0.0007257666791554447,
+      "loss": 6.0814,
       "step": 93
     },
     {
+      "epoch": 0.39166666666666666,
+      "grad_norm": 0.4921875,
+      "learning_rate": 0.0007195982944236852,
+      "loss": 6.1203,
       "step": 94
     },
     {
+      "epoch": 0.3958333333333333,
+      "grad_norm": 0.640625,
+      "learning_rate": 0.0007133882177482019,
+      "loss": 6.1719,
       "step": 95
     },
     {
+      "epoch": 0.4,
+      "grad_norm": 0.51953125,
+      "learning_rate": 0.0007071376281461994,
+      "loss": 5.9558,
       "step": 96
     },
     {
+      "epoch": 0.4041666666666667,
+      "grad_norm": 0.49609375,
+      "learning_rate": 0.0007008477123264848,
+      "loss": 6.1545,
       "step": 97
     },
     {
+      "epoch": 0.4083333333333333,
+      "grad_norm": 0.5234375,
+      "learning_rate": 0.000694519664464163,
+      "loss": 5.9916,
       "step": 98
     },
     {
+      "epoch": 0.4125,
+      "grad_norm": 0.453125,
+      "learning_rate": 0.0006881546859739178,
+      "loss": 6.0438,
       "step": 99
     },
     {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 0.515625,
+      "learning_rate": 0.0006817539852819149,
+      "loss": 6.001,
       "step": 100
     },
     {
+      "epoch": 0.4166666666666667,
+      "eval_runtime": 0.9237,
+      "eval_samples_per_second": 17.321,
+      "eval_steps_per_second": 1.083,
       "step": 100
     }
   ],
   "logging_steps": 1,
+  "max_steps": 240,
   "num_input_tokens_seen": 0,
   "num_train_epochs": 1,
   "save_steps": 100,
       "attributes": {}
     }
   },
+  "total_flos": 5.09447277379584e+16,
   "train_batch_size": 16,
   "trial_name": null,
   "trial_params": null

last-checkpoint/training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:dc5a31b8ae5225fca43733042563fe6dbbeacbc0f16c9eff3b3cd7db55c1e18c
 size 5777

 version https://git-lfs.github.com/spec/v1
+oid sha256:cb23c7ba2f5151957c796dd5ebc30696f031660827ec28f130d474ca43c7179c
 size 5777