Training in progress, step 200

Browse files

Files changed (12) hide show

all_results.json +20 -0
eval_results.json +9 -0
pytorch_model.bin +2 -2
runs/Feb01_01-41-55_node1/1643651046.7833238/events.out.tfevents.1643651046.node1 +3 -0
runs/Feb01_01-41-55_node1/events.out.tfevents.1643651046.node1 +3 -0
runs/Jan31_21-18-51_node1/events.out.tfevents.1643635211.node1 +2 -2
runs/Jan31_21-18-51_node1/events.out.tfevents.1643640886.node1 +3 -0
test_results.json +9 -0
train_results.json +8 -0
trainer_state.json +841 -0
training_args.bin +1 -1
training_config.json +1 -1

all_results.json ADDED Viewed

	@@ -0,0 +1,20 @@

+{
+    "epoch": 3.0,
+    "eval_average_metrics": 90.63138686131387,
+    "eval_em": 90.36496350364963,
+    "eval_f1": 90.89781021897811,
+    "eval_loss": 0.2141435146331787,
+    "eval_runtime": 15.7609,
+    "eval_samples_per_second": 86.924,
+    "test_average_metrics": 74.47490712152019,
+    "test_em": 73.99182920400632,
+    "test_f1": 74.95798503903406,
+    "test_loss": 0.48021578788757324,
+    "test_runtime": 161.768,
+    "test_samples_per_second": 93.813,
+    "train_loss": 0.3297047741756515,
+    "train_runtime": 5659.5381,
+    "train_samples": 137484,
+    "train_samples_per_second": 72.877,
+    "train_steps_per_second": 4.555
+}

eval_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "eval_average_metrics": 90.63138686131387,
+    "eval_em": 90.36496350364963,
+    "eval_f1": 90.89781021897811,
+    "eval_loss": 0.2141435146331787,
+    "eval_runtime": 15.7609,
+    "eval_samples_per_second": 86.924
+}

pytorch_model.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:82b380d1cfe0a641c6980c19f354db3c9cbe2d81e59b36f4fe76f62f04821a85
-size 1084131

 version https://git-lfs.github.com/spec/v1
+oid sha256:697ff0d656a9f6f3d37dede6c1c838d5f15888d87469d9928e6ec6074dfe795e
+size 7551621

runs/Feb01_01-41-55_node1/1643651046.7833238/events.out.tfevents.1643651046.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dbbcd9faac5e4993dcf01bf6ac455a92358d719291b762a30f5fab378511fae3
+size 5047

runs/Feb01_01-41-55_node1/events.out.tfevents.1643651046.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:63b5dc9b6a0c88a10fc9623f05948f0aa16f106821d7816c1ca7fc9670c2e518
+size 4697

runs/Jan31_21-18-51_node1/events.out.tfevents.1643635211.node1 CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:b4ee4f58db1cfbc83d01d86b982a273c527b17083dc8f737cdeb953318399429
-size 30625

 version https://git-lfs.github.com/spec/v1
+oid sha256:727d08a4747fbb17bdf0b16cc330708f4fa29121ddda29452ff97cdb175ca11f
+size 31354

runs/Jan31_21-18-51_node1/events.out.tfevents.1643640886.node1 ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7a782fda4e1bf1c1b52e696f156c6c097509af59397fe673f5bd30f45333b22d
+size 778

test_results.json ADDED Viewed

	@@ -0,0 +1,9 @@

+{
+    "epoch": 3.0,
+    "test_average_metrics": 74.47490712152019,
+    "test_em": 73.99182920400632,
+    "test_f1": 74.95798503903406,
+    "test_loss": 0.48021578788757324,
+    "test_runtime": 161.768,
+    "test_samples_per_second": 93.813
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "epoch": 3.0,
+    "train_loss": 0.3297047741756515,
+    "train_runtime": 5659.5381,
+    "train_samples": 137484,
+    "train_samples_per_second": 72.877,
+    "train_steps_per_second": 4.555
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,841 @@

+{
+  "best_metric": 90.63138686131387,
+  "best_model_checkpoint": "outputs/bitfit/t5-base/superglue-record/checkpoint-21500",
+  "epoch": 3.0,
+  "global_step": 25779,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "learning_rate": 0.0002941813103689049,
+      "loss": 0.3506,
+      "step": 500
+    },
+    {
+      "epoch": 0.06,
+      "eval_average_metrics": 90.1404240528328,
+      "eval_em": 89.85401459854015,
+      "eval_f1": 90.42683350712547,
+      "eval_loss": 0.23184123635292053,
+      "eval_runtime": 15.5789,
+      "eval_samples_per_second": 87.939,
+      "step": 500
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 0.0002883626207378098,
+      "loss": 0.3505,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12,
+      "eval_average_metrics": 89.19586374695865,
+      "eval_em": 88.75912408759125,
+      "eval_f1": 89.63260340632604,
+      "eval_loss": 0.2271701991558075,
+      "eval_runtime": 15.9901,
+      "eval_samples_per_second": 85.678,
+      "step": 1000
+    },
+    {
+      "epoch": 0.17,
+      "learning_rate": 0.00028254393110671474,
+      "loss": 0.3559,
+      "step": 1500
+    },
+    {
+      "epoch": 0.17,
+      "eval_average_metrics": 87.68126520681264,
+      "eval_em": 87.37226277372262,
+      "eval_f1": 87.99026763990267,
+      "eval_loss": 0.23542903363704681,
+      "eval_runtime": 15.5654,
+      "eval_samples_per_second": 88.016,
+      "step": 1500
+    },
+    {
+      "epoch": 0.23,
+      "learning_rate": 0.0002767252414756197,
+      "loss": 0.3487,
+      "step": 2000
+    },
+    {
+      "epoch": 0.23,
+      "eval_average_metrics": 88.3946819603754,
+      "eval_em": 87.95620437956204,
+      "eval_f1": 88.83315954118875,
+      "eval_loss": 0.23398332297801971,
+      "eval_runtime": 15.718,
+      "eval_samples_per_second": 87.161,
+      "step": 2000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 0.0002709065518445246,
+      "loss": 0.3461,
+      "step": 2500
+    },
+    {
+      "epoch": 0.29,
+      "eval_average_metrics": 88.34428223844282,
+      "eval_em": 88.02919708029196,
+      "eval_f1": 88.65936739659367,
+      "eval_loss": 0.23554831743240356,
+      "eval_runtime": 15.4728,
+      "eval_samples_per_second": 88.542,
+      "step": 2500
+    },
+    {
+      "epoch": 0.35,
+      "learning_rate": 0.0002650878622134295,
+      "loss": 0.3514,
+      "step": 3000
+    },
+    {
+      "epoch": 0.35,
+      "eval_average_metrics": 88.32290580465764,
+      "eval_em": 87.88321167883211,
+      "eval_f1": 88.76259993048315,
+      "eval_loss": 0.23650217056274414,
+      "eval_runtime": 15.254,
+      "eval_samples_per_second": 89.812,
+      "step": 3000
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 0.00025926917258233445,
+      "loss": 0.3468,
+      "step": 3500
+    },
+    {
+      "epoch": 0.41,
+      "eval_average_metrics": 89.25669099756689,
+      "eval_em": 88.97810218978101,
+      "eval_f1": 89.53527980535279,
+      "eval_loss": 0.22920837998390198,
+      "eval_runtime": 15.3356,
+      "eval_samples_per_second": 89.335,
+      "step": 3500
+    },
+    {
+      "epoch": 0.47,
+      "learning_rate": 0.0002534504829512394,
+      "loss": 0.3428,
+      "step": 4000
+    },
+    {
+      "epoch": 0.47,
+      "eval_average_metrics": 88.33211678832117,
+      "eval_em": 88.02919708029196,
+      "eval_f1": 88.63503649635038,
+      "eval_loss": 0.2317986935377121,
+      "eval_runtime": 15.4226,
+      "eval_samples_per_second": 88.831,
+      "step": 4000
+    },
+    {
+      "epoch": 0.52,
+      "learning_rate": 0.0002476317933201443,
+      "loss": 0.3485,
+      "step": 4500
+    },
+    {
+      "epoch": 0.52,
+      "eval_average_metrics": 87.90024330900243,
+      "eval_em": 87.66423357664233,
+      "eval_f1": 88.13625304136254,
+      "eval_loss": 0.23495055735111237,
+      "eval_runtime": 15.4567,
+      "eval_samples_per_second": 88.635,
+      "step": 4500
+    },
+    {
+      "epoch": 0.58,
+      "learning_rate": 0.0002418131036890492,
+      "loss": 0.3509,
+      "step": 5000
+    },
+    {
+      "epoch": 0.58,
+      "eval_average_metrics": 88.830900243309,
+      "eval_em": 88.61313868613139,
+      "eval_f1": 89.04866180048661,
+      "eval_loss": 0.2319142073392868,
+      "eval_runtime": 15.5322,
+      "eval_samples_per_second": 88.204,
+      "step": 5000
+    },
+    {
+      "epoch": 0.64,
+      "learning_rate": 0.0002359944140579541,
+      "loss": 0.3427,
+      "step": 5500
+    },
+    {
+      "epoch": 0.64,
+      "eval_average_metrics": 86.61678832116789,
+      "eval_em": 86.27737226277372,
+      "eval_f1": 86.95620437956205,
+      "eval_loss": 0.2410917580127716,
+      "eval_runtime": 15.3636,
+      "eval_samples_per_second": 89.172,
+      "step": 5500
+    },
+    {
+      "epoch": 0.7,
+      "learning_rate": 0.00023017572442685905,
+      "loss": 0.349,
+      "step": 6000
+    },
+    {
+      "epoch": 0.7,
+      "eval_average_metrics": 88.17570385818561,
+      "eval_em": 87.8102189781022,
+      "eval_f1": 88.54118873826903,
+      "eval_loss": 0.23763984441757202,
+      "eval_runtime": 15.6242,
+      "eval_samples_per_second": 87.684,
+      "step": 6000
+    },
+    {
+      "epoch": 0.76,
+      "learning_rate": 0.00022435703479576396,
+      "loss": 0.3404,
+      "step": 6500
+    },
+    {
+      "epoch": 0.76,
+      "eval_average_metrics": 88.27128953771289,
+      "eval_em": 88.02919708029196,
+      "eval_f1": 88.51338199513381,
+      "eval_loss": 0.23219799995422363,
+      "eval_runtime": 15.7753,
+      "eval_samples_per_second": 86.845,
+      "step": 6500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 0.0002185383451646689,
+      "loss": 0.3369,
+      "step": 7000
+    },
+    {
+      "epoch": 0.81,
+      "eval_average_metrics": 89.59054570733403,
+      "eval_em": 89.12408759124088,
+      "eval_f1": 90.05700382342718,
+      "eval_loss": 0.2249041497707367,
+      "eval_runtime": 15.3646,
+      "eval_samples_per_second": 89.166,
+      "step": 7000
+    },
+    {
+      "epoch": 0.87,
+      "learning_rate": 0.00021271965553357382,
+      "loss": 0.3348,
+      "step": 7500
+    },
+    {
+      "epoch": 0.87,
+      "eval_average_metrics": 89.87104622871047,
+      "eval_em": 89.56204379562044,
+      "eval_f1": 90.1800486618005,
+      "eval_loss": 0.22438949346542358,
+      "eval_runtime": 15.6922,
+      "eval_samples_per_second": 87.305,
+      "step": 7500
+    },
+    {
+      "epoch": 0.93,
+      "learning_rate": 0.00020690096590247876,
+      "loss": 0.34,
+      "step": 8000
+    },
+    {
+      "epoch": 0.93,
+      "eval_average_metrics": 87.99148418491484,
+      "eval_em": 87.66423357664233,
+      "eval_f1": 88.31873479318735,
+      "eval_loss": 0.23190169036388397,
+      "eval_runtime": 15.0876,
+      "eval_samples_per_second": 90.803,
+      "step": 8000
+    },
+    {
+      "epoch": 0.99,
+      "learning_rate": 0.00020108227627138367,
+      "loss": 0.3413,
+      "step": 8500
+    },
+    {
+      "epoch": 0.99,
+      "eval_average_metrics": 89.0498783454988,
+      "eval_em": 88.75912408759125,
+      "eval_f1": 89.34063260340633,
+      "eval_loss": 0.2290135771036148,
+      "eval_runtime": 15.6237,
+      "eval_samples_per_second": 87.688,
+      "step": 8500
+    },
+    {
+      "epoch": 1.05,
+      "learning_rate": 0.00019526358664028858,
+      "loss": 0.3207,
+      "step": 9000
+    },
+    {
+      "epoch": 1.05,
+      "eval_average_metrics": 89.54257907542579,
+      "eval_em": 89.34306569343066,
+      "eval_f1": 89.74209245742092,
+      "eval_loss": 0.22638055682182312,
+      "eval_runtime": 15.2056,
+      "eval_samples_per_second": 90.098,
+      "step": 9000
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 0.00018944489700919352,
+      "loss": 0.333,
+      "step": 9500
+    },
+    {
+      "epoch": 1.11,
+      "eval_average_metrics": 89.5912408759124,
+      "eval_em": 89.34306569343066,
+      "eval_f1": 89.83941605839416,
+      "eval_loss": 0.22846655547618866,
+      "eval_runtime": 15.7388,
+      "eval_samples_per_second": 87.046,
+      "step": 9500
+    },
+    {
+      "epoch": 1.16,
+      "learning_rate": 0.00018362620737809844,
+      "loss": 0.3313,
+      "step": 10000
+    },
+    {
+      "epoch": 1.16,
+      "eval_average_metrics": 88.52485227667711,
+      "eval_em": 88.17518248175182,
+      "eval_f1": 88.87452207160239,
+      "eval_loss": 0.23135380446910858,
+      "eval_runtime": 15.5843,
+      "eval_samples_per_second": 87.909,
+      "step": 10000
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 0.00017780751774700338,
+      "loss": 0.3326,
+      "step": 10500
+    },
+    {
+      "epoch": 1.22,
+      "eval_average_metrics": 89.61730969760167,
+      "eval_em": 89.12408759124088,
+      "eval_f1": 90.11053180396246,
+      "eval_loss": 0.22540691494941711,
+      "eval_runtime": 15.4318,
+      "eval_samples_per_second": 88.777,
+      "step": 10500
+    },
+    {
+      "epoch": 1.28,
+      "learning_rate": 0.0001719888281159083,
+      "loss": 0.3349,
+      "step": 11000
+    },
+    {
+      "epoch": 1.28,
+      "eval_average_metrics": 88.49808828640946,
+      "eval_em": 88.17518248175182,
+      "eval_f1": 88.82099409106708,
+      "eval_loss": 0.2274966984987259,
+      "eval_runtime": 15.7884,
+      "eval_samples_per_second": 86.773,
+      "step": 11000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 0.00016617013848481323,
+      "loss": 0.3268,
+      "step": 11500
+    },
+    {
+      "epoch": 1.34,
+      "eval_average_metrics": 90.12043795620437,
+      "eval_em": 89.7080291970803,
+      "eval_f1": 90.53284671532846,
+      "eval_loss": 0.22236795723438263,
+      "eval_runtime": 15.5257,
+      "eval_samples_per_second": 88.241,
+      "step": 11500
+    },
+    {
+      "epoch": 1.4,
+      "learning_rate": 0.00016035144885371815,
+      "loss": 0.3315,
+      "step": 12000
+    },
+    {
+      "epoch": 1.4,
+      "eval_average_metrics": 88.9403892944039,
+      "eval_em": 88.54014598540147,
+      "eval_f1": 89.34063260340633,
+      "eval_loss": 0.22285930812358856,
+      "eval_runtime": 15.103,
+      "eval_samples_per_second": 90.71,
+      "step": 12000
+    },
+    {
+      "epoch": 1.45,
+      "learning_rate": 0.00015453275922262303,
+      "loss": 0.3262,
+      "step": 12500
+    },
+    {
+      "epoch": 1.45,
+      "eval_average_metrics": 86.66718804310045,
+      "eval_em": 86.27737226277372,
+      "eval_f1": 87.0570038234272,
+      "eval_loss": 0.23210552334785461,
+      "eval_runtime": 15.5946,
+      "eval_samples_per_second": 87.851,
+      "step": 12500
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 0.00014871406959152797,
+      "loss": 0.3389,
+      "step": 13000
+    },
+    {
+      "epoch": 1.51,
+      "eval_average_metrics": 89.97445255474452,
+      "eval_em": 89.7080291970803,
+      "eval_f1": 90.24087591240875,
+      "eval_loss": 0.22476908564567566,
+      "eval_runtime": 15.3804,
+      "eval_samples_per_second": 89.075,
+      "step": 13000
+    },
+    {
+      "epoch": 1.57,
+      "learning_rate": 0.00014289537996043292,
+      "loss": 0.324,
+      "step": 13500
+    },
+    {
+      "epoch": 1.57,
+      "eval_average_metrics": 88.98470629127564,
+      "eval_em": 88.54014598540147,
+      "eval_f1": 89.42926659714982,
+      "eval_loss": 0.22203609347343445,
+      "eval_runtime": 15.4489,
+      "eval_samples_per_second": 88.679,
+      "step": 13500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 0.00013707669032933783,
+      "loss": 0.327,
+      "step": 14000
+    },
+    {
+      "epoch": 1.63,
+      "eval_average_metrics": 89.79370872436566,
+      "eval_em": 89.41605839416059,
+      "eval_f1": 90.17135905457073,
+      "eval_loss": 0.22265847027301788,
+      "eval_runtime": 15.2397,
+      "eval_samples_per_second": 89.897,
+      "step": 14000
+    },
+    {
+      "epoch": 1.69,
+      "learning_rate": 0.00013125800069824274,
+      "loss": 0.3315,
+      "step": 14500
+    },
+    {
+      "epoch": 1.69,
+      "eval_average_metrics": 89.11678832116787,
+      "eval_em": 88.83211678832117,
+      "eval_f1": 89.40145985401458,
+      "eval_loss": 0.22402139008045197,
+      "eval_runtime": 15.9941,
+      "eval_samples_per_second": 85.657,
+      "step": 14500
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 0.00012543931106714766,
+      "loss": 0.3236,
+      "step": 15000
+    },
+    {
+      "epoch": 1.75,
+      "eval_average_metrics": 89.00729927007299,
+      "eval_em": 88.6861313868613,
+      "eval_f1": 89.32846715328466,
+      "eval_loss": 0.22223517298698425,
+      "eval_runtime": 15.5255,
+      "eval_samples_per_second": 88.242,
+      "step": 15000
+    },
+    {
+      "epoch": 1.8,
+      "learning_rate": 0.00011962062143605258,
+      "loss": 0.3214,
+      "step": 15500
+    },
+    {
+      "epoch": 1.8,
+      "eval_average_metrics": 88.32603406326032,
+      "eval_em": 88.02919708029196,
+      "eval_f1": 88.6228710462287,
+      "eval_loss": 0.22402779757976532,
+      "eval_runtime": 15.9032,
+      "eval_samples_per_second": 86.146,
+      "step": 15500
+    },
+    {
+      "epoch": 1.86,
+      "learning_rate": 0.00011380193180495751,
+      "loss": 0.3254,
+      "step": 16000
+    },
+    {
+      "epoch": 1.86,
+      "eval_average_metrics": 89.72506082725062,
+      "eval_em": 89.48905109489051,
+      "eval_f1": 89.96107055961072,
+      "eval_loss": 0.21747739613056183,
+      "eval_runtime": 15.403,
+      "eval_samples_per_second": 88.944,
+      "step": 16000
+    },
+    {
+      "epoch": 1.92,
+      "learning_rate": 0.00010798324217386244,
+      "loss": 0.3216,
+      "step": 16500
+    },
+    {
+      "epoch": 1.92,
+      "eval_average_metrics": 90.24209245742091,
+      "eval_em": 90.0,
+      "eval_f1": 90.48418491484183,
+      "eval_loss": 0.21551567316055298,
+      "eval_runtime": 15.0664,
+      "eval_samples_per_second": 90.931,
+      "step": 16500
+    },
+    {
+      "epoch": 1.98,
+      "learning_rate": 0.00010216455254276737,
+      "loss": 0.327,
+      "step": 17000
+    },
+    {
+      "epoch": 1.98,
+      "eval_average_metrics": 89.62773722627736,
+      "eval_em": 89.34306569343066,
+      "eval_f1": 89.91240875912406,
+      "eval_loss": 0.22303573787212372,
+      "eval_runtime": 15.6955,
+      "eval_samples_per_second": 87.286,
+      "step": 17000
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 9.634586291167229e-05,
+      "loss": 0.3216,
+      "step": 17500
+    },
+    {
+      "epoch": 2.04,
+      "eval_average_metrics": 89.6581508515815,
+      "eval_em": 89.34306569343066,
+      "eval_f1": 89.97323600973235,
+      "eval_loss": 0.21931786835193634,
+      "eval_runtime": 16.0777,
+      "eval_samples_per_second": 85.211,
+      "step": 17500
+    },
+    {
+      "epoch": 2.09,
+      "learning_rate": 9.052717328057722e-05,
+      "loss": 0.3166,
+      "step": 18000
+    },
+    {
+      "epoch": 2.09,
+      "eval_average_metrics": 88.78397636426834,
+      "eval_em": 88.39416058394161,
+      "eval_f1": 89.17379214459508,
+      "eval_loss": 0.2221771478652954,
+      "eval_runtime": 15.5735,
+      "eval_samples_per_second": 87.97,
+      "step": 18000
+    },
+    {
+      "epoch": 2.15,
+      "learning_rate": 8.470848364948212e-05,
+      "loss": 0.321,
+      "step": 18500
+    },
+    {
+      "epoch": 2.15,
+      "eval_average_metrics": 90.1508515815085,
+      "eval_em": 89.92700729927007,
+      "eval_f1": 90.37469586374695,
+      "eval_loss": 0.2213568538427353,
+      "eval_runtime": 15.5146,
+      "eval_samples_per_second": 88.304,
+      "step": 18500
+    },
+    {
+      "epoch": 2.21,
+      "learning_rate": 7.888979401838705e-05,
+      "loss": 0.3099,
+      "step": 19000
+    },
+    {
+      "epoch": 2.21,
+      "eval_average_metrics": 90.41240875912409,
+      "eval_em": 90.14598540145985,
+      "eval_f1": 90.67883211678833,
+      "eval_loss": 0.21670033037662506,
+      "eval_runtime": 15.2815,
+      "eval_samples_per_second": 89.651,
+      "step": 19000
+    },
+    {
+      "epoch": 2.27,
+      "learning_rate": 7.307110438729197e-05,
+      "loss": 0.3178,
+      "step": 19500
+    },
+    {
+      "epoch": 2.27,
+      "eval_average_metrics": 89.41484184914842,
+      "eval_em": 89.19708029197079,
+      "eval_f1": 89.63260340632604,
+      "eval_loss": 0.21756400167942047,
+      "eval_runtime": 15.5668,
+      "eval_samples_per_second": 88.008,
+      "step": 19500
+    },
+    {
+      "epoch": 2.33,
+      "learning_rate": 6.72524147561969e-05,
+      "loss": 0.3082,
+      "step": 20000
+    },
+    {
+      "epoch": 2.33,
+      "eval_average_metrics": 90.38807785888078,
+      "eval_em": 90.14598540145985,
+      "eval_f1": 90.6301703163017,
+      "eval_loss": 0.213778555393219,
+      "eval_runtime": 15.3113,
+      "eval_samples_per_second": 89.476,
+      "step": 20000
+    },
+    {
+      "epoch": 2.39,
+      "learning_rate": 6.143372512510183e-05,
+      "loss": 0.3185,
+      "step": 20500
+    },
+    {
+      "epoch": 2.39,
+      "eval_average_metrics": 89.44091067083768,
+      "eval_em": 89.05109489051095,
+      "eval_f1": 89.83072645116441,
+      "eval_loss": 0.21920597553253174,
+      "eval_runtime": 15.0292,
+      "eval_samples_per_second": 91.156,
+      "step": 20500
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 5.561503549400675e-05,
+      "loss": 0.3214,
+      "step": 21000
+    },
+    {
+      "epoch": 2.44,
+      "eval_average_metrics": 89.58515815085158,
+      "eval_em": 89.27007299270073,
+      "eval_f1": 89.90024330900242,
+      "eval_loss": 0.21777711808681488,
+      "eval_runtime": 15.5974,
+      "eval_samples_per_second": 87.835,
+      "step": 21000
+    },
+    {
+      "epoch": 2.5,
+      "learning_rate": 4.9796345862911663e-05,
+      "loss": 0.3204,
+      "step": 21500
+    },
+    {
+      "epoch": 2.5,
+      "eval_average_metrics": 90.63138686131387,
+      "eval_em": 90.36496350364963,
+      "eval_f1": 90.89781021897811,
+      "eval_loss": 0.2141435146331787,
+      "eval_runtime": 15.7201,
+      "eval_samples_per_second": 87.149,
+      "step": 21500
+    },
+    {
+      "epoch": 2.56,
+      "learning_rate": 4.397765623181659e-05,
+      "loss": 0.3219,
+      "step": 22000
+    },
+    {
+      "epoch": 2.56,
+      "eval_average_metrics": 89.92579075425792,
+      "eval_em": 89.56204379562044,
+      "eval_f1": 90.28953771289538,
+      "eval_loss": 0.21593248844146729,
+      "eval_runtime": 15.5402,
+      "eval_samples_per_second": 88.158,
+      "step": 22000
+    },
+    {
+      "epoch": 2.62,
+      "learning_rate": 3.815896660072152e-05,
+      "loss": 0.3082,
+      "step": 22500
+    },
+    {
+      "epoch": 2.62,
+      "eval_average_metrics": 90.19343065693431,
+      "eval_em": 89.92700729927007,
+      "eval_f1": 90.45985401459853,
+      "eval_loss": 0.2151171863079071,
+      "eval_runtime": 15.4013,
+      "eval_samples_per_second": 88.953,
+      "step": 22500
+    },
+    {
+      "epoch": 2.68,
+      "learning_rate": 3.234027696962644e-05,
+      "loss": 0.3139,
+      "step": 23000
+    },
+    {
+      "epoch": 2.68,
+      "eval_average_metrics": 90.58272506082724,
+      "eval_em": 90.2919708029197,
+      "eval_f1": 90.8734793187348,
+      "eval_loss": 0.21431832015514374,
+      "eval_runtime": 15.4496,
+      "eval_samples_per_second": 88.675,
+      "step": 23000
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 2.6521587338531362e-05,
+      "loss": 0.3111,
+      "step": 23500
+    },
+    {
+      "epoch": 2.73,
+      "eval_average_metrics": 89.7433090024331,
+      "eval_em": 89.41605839416059,
+      "eval_f1": 90.0705596107056,
+      "eval_loss": 0.21385075151920319,
+      "eval_runtime": 15.7553,
+      "eval_samples_per_second": 86.955,
+      "step": 23500
+    },
+    {
+      "epoch": 2.79,
+      "learning_rate": 2.0702897707436283e-05,
+      "loss": 0.3168,
+      "step": 24000
+    },
+    {
+      "epoch": 2.79,
+      "eval_average_metrics": 89.81630170316302,
+      "eval_em": 89.56204379562044,
+      "eval_f1": 90.0705596107056,
+      "eval_loss": 0.2146376520395279,
+      "eval_runtime": 15.4091,
+      "eval_samples_per_second": 88.908,
+      "step": 24000
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.4884208076341207e-05,
+      "loss": 0.3115,
+      "step": 24500
+    },
+    {
+      "epoch": 2.85,
+      "eval_average_metrics": 89.26885644768856,
+      "eval_em": 88.97810218978101,
+      "eval_f1": 89.5596107055961,
+      "eval_loss": 0.21739177405834198,
+      "eval_runtime": 15.7449,
+      "eval_samples_per_second": 87.012,
+      "step": 24500
+    },
+    {
+      "epoch": 2.91,
+      "learning_rate": 9.065518445246129e-06,
+      "loss": 0.3144,
+      "step": 25000
+    },
+    {
+      "epoch": 2.91,
+      "eval_average_metrics": 90.08394160583941,
+      "eval_em": 89.78102189781022,
+      "eval_f1": 90.38686131386861,
+      "eval_loss": 0.21506215631961823,
+      "eval_runtime": 15.5375,
+      "eval_samples_per_second": 88.174,
+      "step": 25000
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 3.2468288141510528e-06,
+      "loss": 0.3119,
+      "step": 25500
+    },
+    {
+      "epoch": 2.97,
+      "eval_average_metrics": 90.10827250608273,
+      "eval_em": 89.85401459854015,
+      "eval_f1": 90.36253041362531,
+      "eval_loss": 0.21424712240695953,
+      "eval_runtime": 15.4741,
+      "eval_samples_per_second": 88.535,
+      "step": 25500
+    },
+    {
+      "epoch": 3.0,
+      "step": 25779,
+      "total_flos": 2.1011901579256954e+17,
+      "train_loss": 0.3297047741756515,
+      "train_runtime": 5659.5381,
+      "train_samples_per_second": 72.877,
+      "train_steps_per_second": 4.555
+    }
+  ],
+  "max_steps": 25779,
+  "num_train_epochs": 3,
+  "total_flos": 2.1011901579256954e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin CHANGED Viewed

@@ -1,3 +1,3 @@
 version https://git-lfs.github.com/spec/v1
-oid sha256:ce0cb9cad84f267ec0684a0f878731e2818ccf03f30e0e52668b64f1d347571b
 size 3183

 version https://git-lfs.github.com/spec/v1
+oid sha256:a9fc0b2c802946c2d87bb004854bb82ca322e9997328e616e2973d3f37a9dacc
 size 3183

training_config.json CHANGED Viewed

@@ -1 +1 @@

- {"dataset_config_name": ["en"], "delta_type": "~~bitfit~~", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "superglue-record", "eval_steps": ~~500~~, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 512, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 3, "output_dir": "outputs/bitfit/t5-base/superglue-record", "overwrite_output_dir": true, "per_device_eval_batch_size": 16, "per_device_train_batch_size": 16, "predict_with_generate": true, "push_to_hub": true, "save_steps": ~~500~~, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "superglue-record", "test_dataset_config_name": ["en"], "test_dataset_name": "superglue-record", "tokenizer_name": "../../../../plm_cache/t5-base", "warmup_steps": 0}

+ {"bottleneck_dim": 24, "dataset_config_name": ["en"], "delta_type": "adapter", "do_eval": true, "do_test": true, "do_train": true, "eval_dataset_config_name": ["en"], "eval_dataset_name": "superglue-record", "eval_steps": 200, "evaluation_strategy": "steps", "greater_is_better": true, "learning_rate": 0.0003, "load_best_model_at_end": true, "max_source_length": 512, "metric_for_best_model": "average_metrics", "model_name_or_path": "../../../../plm_cache/t5-base", "num_train_epochs": 3, "output_dir": "outputs/bitfit/t5-base/superglue-record", "overwrite_output_dir": true, "per_device_eval_batch_size": 16, "per_device_train_batch_size": 16, "predict_with_generate": true, "push_to_hub": true, "save_steps": 200, "save_strategy": "steps", "save_total_limit": 1, "seed": 42, "split_validation_test": true, "task_name": "superglue-record", "test_dataset_config_name": ["en"], "test_dataset_name": "superglue-record", "tokenizer_name": "../../../../plm_cache/t5-base", "unfrozen_modules": ["deltas", "layer_norm", "final_layer_norm"], "warmup_steps": 0}