Upload 7 files

Browse files

Files changed (7) hide show

optimizer.pt +3 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
scaler.pt +3 -0
scheduler.pt +3 -0
trainer_state.json +586 -0
training_args.bin +3 -0

optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:f2e27ab0db90b997191e7d352d944d8571c4fd920152f759c8ce6601388c6ad0
+size 1601097

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:06088d600ab897ea35f1de12d1433f29003109059a226ed588f9edc003201961
+size 2237807073

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7dcca3b6eb4053f38c8c7fb4503102e38721f47ce085c143396131dbcb619c9f
+size 14575

scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4de1953e106592c504542647f289ec200f3c7dac26299a9282d207b91425a599
+size 557

scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:337b18b568afc13246afed08c5bb9ab97a8856a74f298c5088eecdaa42af1968
+size 627

trainer_state.json ADDED Viewed

	@@ -0,0 +1,586 @@

+{
+  "best_metric": null,
+  "best_model_checkpoint": null,
+  "epoch": 0.07289804249572203,
+  "global_step": 9500,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00099,
+      "loss": 3.0632,
+      "step": 100
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0009901010101010103,
+      "loss": 2.9421,
+      "step": 200
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00098,
+      "loss": 2.9549,
+      "step": 300
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.00096989898989899,
+      "loss": 2.9156,
+      "step": 400
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0009597979797979798,
+      "loss": 2.9743,
+      "step": 500
+    },
+    {
+      "epoch": 0.0,
+      "learning_rate": 0.0009496969696969697,
+      "loss": 2.9801,
+      "step": 600
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0009395959595959597,
+      "loss": 2.9492,
+      "step": 700
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0009294949494949495,
+      "loss": 3.043,
+      "step": 800
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0009193939393939395,
+      "loss": 2.9186,
+      "step": 900
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0009092929292929293,
+      "loss": 2.8856,
+      "step": 1000
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0008992929292929293,
+      "loss": 2.947,
+      "step": 1100
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0008891919191919192,
+      "loss": 2.9986,
+      "step": 1200
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0008790909090909091,
+      "loss": 2.9525,
+      "step": 1300
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.000868989898989899,
+      "loss": 2.9203,
+      "step": 1400
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.000858888888888889,
+      "loss": 2.9795,
+      "step": 1500
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0008487878787878788,
+      "loss": 2.9549,
+      "step": 1600
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0008386868686868687,
+      "loss": 2.9033,
+      "step": 1700
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0008285858585858585,
+      "loss": 2.9117,
+      "step": 1800
+    },
+    {
+      "epoch": 0.01,
+      "learning_rate": 0.0008185858585858587,
+      "loss": 2.9674,
+      "step": 1900
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0008085858585858587,
+      "loss": 2.9492,
+      "step": 2000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007984848484848485,
+      "loss": 2.9526,
+      "step": 2100
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007883838383838384,
+      "loss": 2.9687,
+      "step": 2200
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007782828282828282,
+      "loss": 2.9783,
+      "step": 2300
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007681818181818182,
+      "loss": 2.9889,
+      "step": 2400
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007581818181818182,
+      "loss": 2.9141,
+      "step": 2500
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007480808080808081,
+      "loss": 2.9131,
+      "step": 2600
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.000737979797979798,
+      "loss": 2.9087,
+      "step": 2700
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007278787878787879,
+      "loss": 2.9485,
+      "step": 2800
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007177777777777778,
+      "loss": 2.8469,
+      "step": 2900
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0007076767676767677,
+      "loss": 2.8715,
+      "step": 3000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0006975757575757576,
+      "loss": 2.9388,
+      "step": 3100
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 0.0006874747474747474,
+      "loss": 2.9958,
+      "step": 3200
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006773737373737374,
+      "loss": 2.9552,
+      "step": 3300
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006672727272727273,
+      "loss": 2.9126,
+      "step": 3400
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006571717171717172,
+      "loss": 3.0015,
+      "step": 3500
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000647070707070707,
+      "loss": 2.9406,
+      "step": 3600
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006369696969696969,
+      "loss": 2.8848,
+      "step": 3700
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.000626868686868687,
+      "loss": 2.9598,
+      "step": 3800
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006167676767676768,
+      "loss": 2.8795,
+      "step": 3900
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0006066666666666667,
+      "loss": 2.9366,
+      "step": 4000
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0005965656565656565,
+      "loss": 2.9357,
+      "step": 4100
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0005864646464646464,
+      "loss": 2.8924,
+      "step": 4200
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0005763636363636365,
+      "loss": 2.8939,
+      "step": 4300
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0005662626262626263,
+      "loss": 2.8453,
+      "step": 4400
+    },
+    {
+      "epoch": 0.03,
+      "learning_rate": 0.0005561616161616162,
+      "loss": 2.8551,
+      "step": 4500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.000546060606060606,
+      "loss": 2.9476,
+      "step": 4600
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0005359595959595959,
+      "loss": 2.9256,
+      "step": 4700
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.000525858585858586,
+      "loss": 2.963,
+      "step": 4800
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0005157575757575758,
+      "loss": 2.8954,
+      "step": 4900
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0005056565656565657,
+      "loss": 2.8978,
+      "step": 5000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004955555555555556,
+      "loss": 2.8789,
+      "step": 5100
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004854545454545455,
+      "loss": 2.8757,
+      "step": 5200
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00047545454545454545,
+      "loss": 2.9107,
+      "step": 5300
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004653535353535354,
+      "loss": 2.8769,
+      "step": 5400
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00045525252525252524,
+      "loss": 2.8659,
+      "step": 5500
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00044515151515151516,
+      "loss": 2.8624,
+      "step": 5600
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.0004350505050505051,
+      "loss": 2.8672,
+      "step": 5700
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 0.00042494949494949495,
+      "loss": 2.8286,
+      "step": 5800
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00041484848484848487,
+      "loss": 2.9685,
+      "step": 5900
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00040474747474747474,
+      "loss": 2.9659,
+      "step": 6000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00039464646464646466,
+      "loss": 2.8937,
+      "step": 6100
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0003845454545454545,
+      "loss": 2.8521,
+      "step": 6200
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0003744444444444445,
+      "loss": 2.8721,
+      "step": 6300
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00036434343434343437,
+      "loss": 2.8664,
+      "step": 6400
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00035424242424242423,
+      "loss": 2.8925,
+      "step": 6500
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00034414141414141415,
+      "loss": 2.8477,
+      "step": 6600
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.000334040404040404,
+      "loss": 2.8804,
+      "step": 6700
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00032393939393939394,
+      "loss": 2.8661,
+      "step": 6800
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00031383838383838386,
+      "loss": 2.8934,
+      "step": 6900
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.0003037373737373738,
+      "loss": 2.9107,
+      "step": 7000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 0.00029363636363636365,
+      "loss": 2.8775,
+      "step": 7100
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002835353535353535,
+      "loss": 2.8849,
+      "step": 7200
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00027343434343434343,
+      "loss": 2.845,
+      "step": 7300
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002633333333333333,
+      "loss": 2.8441,
+      "step": 7400
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002532323232323233,
+      "loss": 2.8455,
+      "step": 7500
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00024313131313131314,
+      "loss": 2.8027,
+      "step": 7600
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00023303030303030304,
+      "loss": 2.8793,
+      "step": 7700
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00022292929292929293,
+      "loss": 2.8763,
+      "step": 7800
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00021282828282828285,
+      "loss": 2.8456,
+      "step": 7900
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00020272727272727274,
+      "loss": 2.8217,
+      "step": 8000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0001926262626262626,
+      "loss": 2.8026,
+      "step": 8100
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00018252525252525253,
+      "loss": 2.8486,
+      "step": 8200
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00017242424242424242,
+      "loss": 2.8023,
+      "step": 8300
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.00016232323232323232,
+      "loss": 2.8711,
+      "step": 8400
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00015222222222222224,
+      "loss": 2.9234,
+      "step": 8500
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00014212121212121213,
+      "loss": 2.8615,
+      "step": 8600
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00013202020202020203,
+      "loss": 2.8765,
+      "step": 8700
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00012191919191919192,
+      "loss": 2.891,
+      "step": 8800
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00011181818181818181,
+      "loss": 2.8735,
+      "step": 8900
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 0.00010171717171717172,
+      "loss": 2.7965,
+      "step": 9000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 9.161616161616161e-05,
+      "loss": 2.7891,
+      "step": 9100
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 8.151515151515152e-05,
+      "loss": 2.8796,
+      "step": 9200
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 7.141414141414141e-05,
+      "loss": 2.8947,
+      "step": 9300
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 6.141414141414142e-05,
+      "loss": 2.8773,
+      "step": 9400
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 5.131313131313131e-05,
+      "loss": 2.8241,
+      "step": 9500
+    }
+  ],
+  "max_steps": 10000,
+  "num_train_epochs": 1,
+  "total_flos": 3247836551823360.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dcf29fc7e85a1acb8526864d27fba08393b59c3d212d3cd405a771c787de7c84
+size 3899