jialicheng commited on Nov 11, 2025

Commit

ef299fb

verified ·

1 Parent(s): e15931b

Upload folder using huggingface_hub

Browse files

Files changed (38) hide show

all_results.json +41 -0
mnli-m_results.json +8 -0
mnli-mm_results.json +8 -0
ood_results.json +11 -0
pred_mnli-m.npz.npy +3 -0
pred_mnli-mm.npz.npy +3 -0
pred_ood.npz.npy +3 -0
pred_stress-antonym.npz.npy +3 -0
pred_stress-length_mismatch.npz.npy +3 -0
pred_stress-negation.npz.npy +3 -0
pred_stress-numerical_reasoning.npz.npy +3 -0
pred_stress-spelling_error.npz.npy +3 -0
pred_stress-word_overlap.npz.npy +3 -0
pred_transfer-qnli.npz.npy +3 -0
pred_transfer-snli.npz.npy +3 -0
pred_transfer.npz.npy +3 -0
pytorch_model.bin +3 -0
rep_mnli-m.pt +3 -0
rep_mnli-mm.pt +3 -0
rep_ood.npz +3 -0
rep_ood.pt +3 -0
special_tokens_map.json +7 -0
stress-antonym_results.json +8 -0
stress-length_mismatch_results.json +8 -0
stress-negation_results.json +8 -0
stress-numerical_reasoning_results.json +8 -0
stress-spelling_error_results.json +8 -0
stress-word_overlap_results.json +8 -0
test_results.json +17 -0
tokenizer.json +0 -0
tokenizer_config.json +15 -0
train_results.json +7 -0
trainer_state.json +967 -0
training_args.bin +3 -0
transfer-qnli_results.json +8 -0
transfer-snli_results.json +8 -0
transfer_results.json +8 -0
vocab.txt +0 -0

all_results.json ADDED Viewed

	@@ -0,0 +1,41 @@

+{
+    "ave/id": 0.6846805289640281,
+    "ave/ood": 0.5003333333333333,
+    "ave/stress": 44.38108067813665,
+    "ave/transfer": 0.5795570006096322,
+    "epoch": 6.0,
+    "eval_accuracy": 0.5795570006096322,
+    "eval_combined_score": 0.5795570006096322,
+    "eval_constituent_accuracy": 0.501,
+    "eval_lexical_overlap_accuracy": 0.5,
+    "eval_loss": 0.8794325590133667,
+    "eval_runtime": 3.9813,
+    "eval_samples_per_second": 2472.044,
+    "eval_steps_per_second": 9.796,
+    "eval_subsequence_accuracy": 0.5,
+    "gap/constituent": 0.1836805289640281,
+    "gap/lexical_overlap": 0.1846805289640281,
+    "gap/ood": 0.1843471956306948,
+    "gap/stress": 24.086972218266162,
+    "gap/subsequence": 0.1846805289640281,
+    "gap/transfer": 0.10512352835439587,
+    "mnli-m": 0.6798777381558838,
+    "mnli-mm": 0.6894833197721725,
+    "ood": 0.5003333333333333,
+    "ood/constituent": 0.501,
+    "ood/lexical_overlap": 0.5,
+    "ood/subsequence": 0.5,
+    "stress-antonym": 3.9077514413837284,
+    "stress-length_mismatch": 64.97198166072339,
+    "stress-negation": 44.11106590724166,
+    "stress-numerical_reasoning": 26.645602948920484,
+    "stress-spelling_error": 64.63828390062383,
+    "stress-word_overlap": 62.01179820992677,
+    "train_loss": 25.68384859034519,
+    "train_runtime": 8782.0618,
+    "train_samples_per_second": 268.298,
+    "train_steps_per_second": 8.384,
+    "transfer": 0.5795570006096322,
+    "transfer-qnli": 51.41863444993593,
+    "transfer-snli": 57.955700060963224
+}

mnli-m_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 0.6798777381558838,
+    "eval_combined_score": 0.6798777381558838,
+    "eval_loss": 0.7376300692558289,
+    "eval_runtime": 5.5973,
+    "eval_samples_per_second": 1753.515,
+    "eval_steps_per_second": 6.968
+}

mnli-mm_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 0.6894833197721725,
+    "eval_combined_score": 0.6894833197721725,
+    "eval_loss": 0.7218872308731079,
+    "eval_runtime": 4.8394,
+    "eval_samples_per_second": 2031.654,
+    "eval_steps_per_second": 8.059
+}

ood_results.json ADDED Viewed

	@@ -0,0 +1,11 @@

+{
+    "eval_accuracy": 0.5003333333333333,
+    "eval_combined_score": 0.5003333333333333,
+    "eval_constituent_accuracy": 0.501,
+    "eval_lexical_overlap_accuracy": 0.5,
+    "eval_loss": 1.8080086708068848,
+    "eval_runtime": 12.6642,
+    "eval_samples_per_second": 2368.885,
+    "eval_steps_per_second": 9.318,
+    "eval_subsequence_accuracy": 0.5
+}

pred_mnli-m.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:3c5ddc6af3689c94a05c13f3bf59d8d4ccdf69218ea745778d47f428716f68c7
+size 117908

pred_mnli-mm.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4c00f058b0804bab6bb84d5fcaf308d1c5053da183ad822bf39c978846e26c92
+size 118112

pred_ood.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:451a9f940b8f4c1423fde55a56e217eae50b8b63d7412c2c79ef1d336aabecad
+size 360128

pred_stress-antonym.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8c9701de6c0a54b2c028c04f700f1b773cae5139362aebc7728cec45234e6ff3
+size 18860

pred_stress-length_mismatch.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:131b0920ade0a227f6ac2b2a1119235dce0ca126f0f99646f6af733939773796
+size 117908

pred_stress-negation.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cbb8f501f413548e05b413f94e6c4418c4a5a214d7ab84ccf2cb9ab31412ccb
+size 118112

pred_stress-numerical_reasoning.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:09146ce32fd61db3189cbbde049704e44667aea372c70dc4de2348da253a3059
+size 91280

pred_stress-spelling_error.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2fb3da90e4533818d5cda6ea503fa9396aaecbc8270f540b8deae30001c5a2e8
+size 109772

pred_stress-word_overlap.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2cad405594e1605e1adb5fbbe2308c0e876d53445f9534816adb3ed074cd3e69
+size 118112

pred_transfer-qnli.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b352e0691b39e10d9bb4c8ce70c5d7fcdb93e9f480e81088a2acb7ae7c46a420
+size 65684

pred_transfer-snli.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c04f025341f5dc47b5d2dec9aacf4629936cf34c4c3551210f3a85fe8877b5b
+size 118232

pred_transfer.npz.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9c04f025341f5dc47b5d2dec9aacf4629936cf34c4c3551210f3a85fe8877b5b
+size 118232

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:810503c3572155335dd433785a8df6807142728e6d4eba9e01b7c03c0da5bb7b
+size 17586951

rep_mnli-m.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bebdd4f164a9c90921a5979d2c476211885104831ecfe071288b2674217269be
+size 10071842

rep_mnli-mm.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:42ba38c5df4a548665f885c11cf3adb3186f8738c9c688212d75a5b2b7665dc7
+size 10089332

rep_ood.npz ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:14df12bc490bfaa264f2d40422f025c53cbe29c09a2770e78daed6fd415b7af2
+size 7864386430

rep_ood.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bbaee8d83de4329ac58a759924c3ddd9ecf90bf8fa0ab8c5d3680c967068499c
+size 30782746

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+  "cls_token": "[CLS]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": "[UNK]"
+}

stress-antonym_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 3.9077514413837284,
+    "eval_combined_score": 3.9077514413837284,
+    "eval_loss": 2.7325708866119385,
+    "eval_runtime": 2.4997,
+    "eval_samples_per_second": 624.476,
+    "eval_steps_per_second": 2.8
+}

stress-length_mismatch_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 64.97198166072339,
+    "eval_combined_score": 64.97198166072339,
+    "eval_loss": 0.8164553046226501,
+    "eval_runtime": 16.0227,
+    "eval_samples_per_second": 612.569,
+    "eval_steps_per_second": 2.434
+}

stress-negation_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 44.11106590724166,
+    "eval_combined_score": 44.11106590724166,
+    "eval_loss": 1.2928410768508911,
+    "eval_runtime": 15.7558,
+    "eval_samples_per_second": 624.024,
+    "eval_steps_per_second": 2.475
+}

stress-numerical_reasoning_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 26.645602948920484,
+    "eval_combined_score": 26.645602948920484,
+    "eval_loss": 1.9905946254730225,
+    "eval_runtime": 12.3291,
+    "eval_samples_per_second": 616.105,
+    "eval_steps_per_second": 2.433
+}

stress-spelling_error_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 64.63828390062383,
+    "eval_combined_score": 64.63828390062383,
+    "eval_loss": 0.8153389692306519,
+    "eval_runtime": 14.6992,
+    "eval_samples_per_second": 621.599,
+    "eval_steps_per_second": 2.449
+}

stress-word_overlap_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 62.01179820992677,
+    "eval_combined_score": 62.01179820992677,
+    "eval_loss": 0.8358756303787231,
+    "eval_runtime": 15.8566,
+    "eval_samples_per_second": 620.058,
+    "eval_steps_per_second": 2.46
+}

test_results.json ADDED Viewed

	@@ -0,0 +1,17 @@

+{
+    "ave/id": 0.6846805289640281,
+    "ave/ood": 0.5003333333333333,
+    "ave/transfer": 0.5795570006096322,
+    "gap/constituent": 0.1836805289640281,
+    "gap/lexical_overlap": 0.1846805289640281,
+    "gap/ood": 0.1843471956306948,
+    "gap/subsequence": 0.1846805289640281,
+    "gap/transfer": 0.10512352835439587,
+    "mnli-m": 0.6798777381558838,
+    "mnli-mm": 0.6894833197721725,
+    "ood": 0.5003333333333333,
+    "ood/constituent": 0.501,
+    "ood/lexical_overlap": 0.5,
+    "ood/subsequence": 0.5,
+    "transfer": 0.5795570006096322
+}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "clean_up_tokenization_spaces": true,
+  "cls_token": "[CLS]",
+  "do_basic_tokenize": true,
+  "do_lower_case": true,
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "never_split": null,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

train_results.json ADDED Viewed

	@@ -0,0 +1,7 @@

+{
+    "epoch": 6.0,
+    "train_loss": 25.68384859034519,
+    "train_runtime": 8782.0618,
+    "train_samples_per_second": 268.298,
+    "train_steps_per_second": 8.384
+}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,967 @@

+{
+  "best_metric": 67.98777381558838,
+  "best_model_checkpoint": "outputs/bert-tiny/kw/mnli_21/checkpoint-61360",
+  "epoch": 6.0,
+  "global_step": 73632,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.04,
+      "learning_rate": 1.9864189482833552e-05,
+      "loss": 34.5409,
+      "step": 500
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.9728378965667103e-05,
+      "loss": 32.9539,
+      "step": 1000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 1.9592568448500654e-05,
+      "loss": 31.0086,
+      "step": 1500
+    },
+    {
+      "epoch": 0.16,
+      "learning_rate": 1.9456757931334205e-05,
+      "loss": 30.5966,
+      "step": 2000
+    },
+    {
+      "epoch": 0.2,
+      "learning_rate": 1.9320947414167756e-05,
+      "loss": 30.1725,
+      "step": 2500
+    },
+    {
+      "epoch": 0.24,
+      "learning_rate": 1.9185136897001307e-05,
+      "loss": 29.706,
+      "step": 3000
+    },
+    {
+      "epoch": 0.29,
+      "learning_rate": 1.9049326379834858e-05,
+      "loss": 29.5048,
+      "step": 3500
+    },
+    {
+      "epoch": 0.33,
+      "learning_rate": 1.8913515862668405e-05,
+      "loss": 29.1964,
+      "step": 4000
+    },
+    {
+      "epoch": 0.37,
+      "learning_rate": 1.8777705345501956e-05,
+      "loss": 28.8603,
+      "step": 4500
+    },
+    {
+      "epoch": 0.41,
+      "learning_rate": 1.8641894828335507e-05,
+      "loss": 28.7968,
+      "step": 5000
+    },
+    {
+      "epoch": 0.45,
+      "learning_rate": 1.8506084311169058e-05,
+      "loss": 28.7003,
+      "step": 5500
+    },
+    {
+      "epoch": 0.49,
+      "learning_rate": 1.837027379400261e-05,
+      "loss": 28.4954,
+      "step": 6000
+    },
+    {
+      "epoch": 0.53,
+      "learning_rate": 1.823446327683616e-05,
+      "loss": 28.24,
+      "step": 6500
+    },
+    {
+      "epoch": 0.57,
+      "learning_rate": 1.809865275966971e-05,
+      "loss": 28.1433,
+      "step": 7000
+    },
+    {
+      "epoch": 0.61,
+      "learning_rate": 1.796284224250326e-05,
+      "loss": 27.855,
+      "step": 7500
+    },
+    {
+      "epoch": 0.65,
+      "learning_rate": 1.7827031725336812e-05,
+      "loss": 27.8772,
+      "step": 8000
+    },
+    {
+      "epoch": 0.69,
+      "learning_rate": 1.7691221208170363e-05,
+      "loss": 27.862,
+      "step": 8500
+    },
+    {
+      "epoch": 0.73,
+      "learning_rate": 1.7555410691003914e-05,
+      "loss": 27.767,
+      "step": 9000
+    },
+    {
+      "epoch": 0.77,
+      "learning_rate": 1.7419600173837465e-05,
+      "loss": 27.6884,
+      "step": 9500
+    },
+    {
+      "epoch": 0.81,
+      "learning_rate": 1.7283789656671015e-05,
+      "loss": 27.593,
+      "step": 10000
+    },
+    {
+      "epoch": 0.86,
+      "learning_rate": 1.7147979139504566e-05,
+      "loss": 27.4518,
+      "step": 10500
+    },
+    {
+      "epoch": 0.9,
+      "learning_rate": 1.7012168622338114e-05,
+      "loss": 27.3718,
+      "step": 11000
+    },
+    {
+      "epoch": 0.94,
+      "learning_rate": 1.6876358105171665e-05,
+      "loss": 27.3435,
+      "step": 11500
+    },
+    {
+      "epoch": 0.98,
+      "learning_rate": 1.6740547588005215e-05,
+      "loss": 27.3723,
+      "step": 12000
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 63.87162506367804,
+      "eval_combined_score": 63.87162506367804,
+      "eval_loss": 0.8185800313949585,
+      "eval_runtime": 17.7384,
+      "eval_samples_per_second": 553.32,
+      "eval_steps_per_second": 2.199,
+      "step": 12272
+    },
+    {
+      "epoch": 1.02,
+      "learning_rate": 1.6604737070838766e-05,
+      "loss": 27.0058,
+      "step": 12500
+    },
+    {
+      "epoch": 1.06,
+      "learning_rate": 1.6468926553672317e-05,
+      "loss": 26.9092,
+      "step": 13000
+    },
+    {
+      "epoch": 1.1,
+      "learning_rate": 1.6333116036505868e-05,
+      "loss": 26.8185,
+      "step": 13500
+    },
+    {
+      "epoch": 1.14,
+      "learning_rate": 1.619730551933942e-05,
+      "loss": 26.6763,
+      "step": 14000
+    },
+    {
+      "epoch": 1.18,
+      "learning_rate": 1.606149500217297e-05,
+      "loss": 26.7073,
+      "step": 14500
+    },
+    {
+      "epoch": 1.22,
+      "learning_rate": 1.592568448500652e-05,
+      "loss": 26.7014,
+      "step": 15000
+    },
+    {
+      "epoch": 1.26,
+      "learning_rate": 1.578987396784007e-05,
+      "loss": 26.5431,
+      "step": 15500
+    },
+    {
+      "epoch": 1.3,
+      "learning_rate": 1.5654063450673622e-05,
+      "loss": 26.2987,
+      "step": 16000
+    },
+    {
+      "epoch": 1.34,
+      "learning_rate": 1.5518252933507173e-05,
+      "loss": 26.4723,
+      "step": 16500
+    },
+    {
+      "epoch": 1.39,
+      "learning_rate": 1.5382442416340724e-05,
+      "loss": 26.392,
+      "step": 17000
+    },
+    {
+      "epoch": 1.43,
+      "learning_rate": 1.5246631899174273e-05,
+      "loss": 26.1498,
+      "step": 17500
+    },
+    {
+      "epoch": 1.47,
+      "learning_rate": 1.5110821382007822e-05,
+      "loss": 26.1262,
+      "step": 18000
+    },
+    {
+      "epoch": 1.51,
+      "learning_rate": 1.4975010864841375e-05,
+      "loss": 26.1348,
+      "step": 18500
+    },
+    {
+      "epoch": 1.55,
+      "learning_rate": 1.4839200347674924e-05,
+      "loss": 26.0562,
+      "step": 19000
+    },
+    {
+      "epoch": 1.59,
+      "learning_rate": 1.4703389830508477e-05,
+      "loss": 26.2436,
+      "step": 19500
+    },
+    {
+      "epoch": 1.63,
+      "learning_rate": 1.4567579313342026e-05,
+      "loss": 26.1435,
+      "step": 20000
+    },
+    {
+      "epoch": 1.67,
+      "learning_rate": 1.4431768796175577e-05,
+      "loss": 26.1062,
+      "step": 20500
+    },
+    {
+      "epoch": 1.71,
+      "learning_rate": 1.4295958279009128e-05,
+      "loss": 25.9377,
+      "step": 21000
+    },
+    {
+      "epoch": 1.75,
+      "learning_rate": 1.4160147761842677e-05,
+      "loss": 26.3038,
+      "step": 21500
+    },
+    {
+      "epoch": 1.79,
+      "learning_rate": 1.402433724467623e-05,
+      "loss": 26.0764,
+      "step": 22000
+    },
+    {
+      "epoch": 1.83,
+      "learning_rate": 1.3888526727509778e-05,
+      "loss": 26.251,
+      "step": 22500
+    },
+    {
+      "epoch": 1.87,
+      "learning_rate": 1.3752716210343331e-05,
+      "loss": 25.9488,
+      "step": 23000
+    },
+    {
+      "epoch": 1.91,
+      "learning_rate": 1.361690569317688e-05,
+      "loss": 25.7248,
+      "step": 23500
+    },
+    {
+      "epoch": 1.96,
+      "learning_rate": 1.3481095176010431e-05,
+      "loss": 25.5771,
+      "step": 24000
+    },
+    {
+      "epoch": 2.0,
+      "learning_rate": 1.3345284658843982e-05,
+      "loss": 25.9028,
+      "step": 24500
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 65.73611818644932,
+      "eval_combined_score": 65.73611818644932,
+      "eval_loss": 0.7796743512153625,
+      "eval_runtime": 15.909,
+      "eval_samples_per_second": 616.945,
+      "eval_steps_per_second": 2.451,
+      "step": 24544
+    },
+    {
+      "epoch": 2.04,
+      "learning_rate": 1.3209474141677531e-05,
+      "loss": 25.5806,
+      "step": 25000
+    },
+    {
+      "epoch": 2.08,
+      "learning_rate": 1.3073663624511084e-05,
+      "loss": 25.5793,
+      "step": 25500
+    },
+    {
+      "epoch": 2.12,
+      "learning_rate": 1.2937853107344633e-05,
+      "loss": 25.0838,
+      "step": 26000
+    },
+    {
+      "epoch": 2.16,
+      "learning_rate": 1.2802042590178185e-05,
+      "loss": 25.2664,
+      "step": 26500
+    },
+    {
+      "epoch": 2.2,
+      "learning_rate": 1.2666232073011735e-05,
+      "loss": 25.4611,
+      "step": 27000
+    },
+    {
+      "epoch": 2.24,
+      "learning_rate": 1.2530421555845285e-05,
+      "loss": 25.336,
+      "step": 27500
+    },
+    {
+      "epoch": 2.28,
+      "learning_rate": 1.2394611038678836e-05,
+      "loss": 25.2676,
+      "step": 28000
+    },
+    {
+      "epoch": 2.32,
+      "learning_rate": 1.2258800521512385e-05,
+      "loss": 25.3788,
+      "step": 28500
+    },
+    {
+      "epoch": 2.36,
+      "learning_rate": 1.2122990004345938e-05,
+      "loss": 25.0569,
+      "step": 29000
+    },
+    {
+      "epoch": 2.4,
+      "learning_rate": 1.1987179487179487e-05,
+      "loss": 25.0311,
+      "step": 29500
+    },
+    {
+      "epoch": 2.44,
+      "learning_rate": 1.185136897001304e-05,
+      "loss": 24.9824,
+      "step": 30000
+    },
+    {
+      "epoch": 2.49,
+      "learning_rate": 1.1715558452846589e-05,
+      "loss": 25.2441,
+      "step": 30500
+    },
+    {
+      "epoch": 2.53,
+      "learning_rate": 1.157974793568014e-05,
+      "loss": 24.9861,
+      "step": 31000
+    },
+    {
+      "epoch": 2.57,
+      "learning_rate": 1.144393741851369e-05,
+      "loss": 24.7679,
+      "step": 31500
+    },
+    {
+      "epoch": 2.61,
+      "learning_rate": 1.130812690134724e-05,
+      "loss": 25.271,
+      "step": 32000
+    },
+    {
+      "epoch": 2.65,
+      "learning_rate": 1.1172316384180792e-05,
+      "loss": 24.9879,
+      "step": 32500
+    },
+    {
+      "epoch": 2.69,
+      "learning_rate": 1.1036505867014341e-05,
+      "loss": 24.9177,
+      "step": 33000
+    },
+    {
+      "epoch": 2.73,
+      "learning_rate": 1.0900695349847894e-05,
+      "loss": 25.384,
+      "step": 33500
+    },
+    {
+      "epoch": 2.77,
+      "learning_rate": 1.0764884832681443e-05,
+      "loss": 25.1108,
+      "step": 34000
+    },
+    {
+      "epoch": 2.81,
+      "learning_rate": 1.0629074315514994e-05,
+      "loss": 24.9601,
+      "step": 34500
+    },
+    {
+      "epoch": 2.85,
+      "learning_rate": 1.0493263798348545e-05,
+      "loss": 24.6376,
+      "step": 35000
+    },
+    {
+      "epoch": 2.89,
+      "learning_rate": 1.0357453281182096e-05,
+      "loss": 25.1261,
+      "step": 35500
+    },
+    {
+      "epoch": 2.93,
+      "learning_rate": 1.0221642764015647e-05,
+      "loss": 24.8459,
+      "step": 36000
+    },
+    {
+      "epoch": 2.97,
+      "learning_rate": 1.0085832246849196e-05,
+      "loss": 25.2014,
+      "step": 36500
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 66.64289353031076,
+      "eval_combined_score": 66.64289353031076,
+      "eval_loss": 0.7598663568496704,
+      "eval_runtime": 15.7255,
+      "eval_samples_per_second": 624.146,
+      "eval_steps_per_second": 2.48,
+      "step": 36816
+    },
+    {
+      "epoch": 3.01,
+      "learning_rate": 9.950021729682747e-06,
+      "loss": 24.7148,
+      "step": 37000
+    },
+    {
+      "epoch": 3.06,
+      "learning_rate": 9.814211212516298e-06,
+      "loss": 24.4617,
+      "step": 37500
+    },
+    {
+      "epoch": 3.1,
+      "learning_rate": 9.678400695349848e-06,
+      "loss": 24.7504,
+      "step": 38000
+    },
+    {
+      "epoch": 3.14,
+      "learning_rate": 9.5425901781834e-06,
+      "loss": 24.45,
+      "step": 38500
+    },
+    {
+      "epoch": 3.18,
+      "learning_rate": 9.40677966101695e-06,
+      "loss": 24.6057,
+      "step": 39000
+    },
+    {
+      "epoch": 3.22,
+      "learning_rate": 9.2709691438505e-06,
+      "loss": 24.3787,
+      "step": 39500
+    },
+    {
+      "epoch": 3.26,
+      "learning_rate": 9.13515862668405e-06,
+      "loss": 24.2096,
+      "step": 40000
+    },
+    {
+      "epoch": 3.3,
+      "learning_rate": 8.999348109517601e-06,
+      "loss": 24.5361,
+      "step": 40500
+    },
+    {
+      "epoch": 3.34,
+      "learning_rate": 8.863537592351152e-06,
+      "loss": 24.3345,
+      "step": 41000
+    },
+    {
+      "epoch": 3.38,
+      "learning_rate": 8.727727075184703e-06,
+      "loss": 24.364,
+      "step": 41500
+    },
+    {
+      "epoch": 3.42,
+      "learning_rate": 8.591916558018254e-06,
+      "loss": 24.2865,
+      "step": 42000
+    },
+    {
+      "epoch": 3.46,
+      "learning_rate": 8.456106040851804e-06,
+      "loss": 24.5307,
+      "step": 42500
+    },
+    {
+      "epoch": 3.5,
+      "learning_rate": 8.320295523685355e-06,
+      "loss": 24.5127,
+      "step": 43000
+    },
+    {
+      "epoch": 3.54,
+      "learning_rate": 8.184485006518904e-06,
+      "loss": 24.2719,
+      "step": 43500
+    },
+    {
+      "epoch": 3.59,
+      "learning_rate": 8.048674489352455e-06,
+      "loss": 24.2633,
+      "step": 44000
+    },
+    {
+      "epoch": 3.63,
+      "learning_rate": 7.912863972186006e-06,
+      "loss": 24.1562,
+      "step": 44500
+    },
+    {
+      "epoch": 3.67,
+      "learning_rate": 7.777053455019557e-06,
+      "loss": 24.1874,
+      "step": 45000
+    },
+    {
+      "epoch": 3.71,
+      "learning_rate": 7.641242937853108e-06,
+      "loss": 24.3553,
+      "step": 45500
+    },
+    {
+      "epoch": 3.75,
+      "learning_rate": 7.505432420686659e-06,
+      "loss": 24.549,
+      "step": 46000
+    },
+    {
+      "epoch": 3.79,
+      "learning_rate": 7.369621903520209e-06,
+      "loss": 24.538,
+      "step": 46500
+    },
+    {
+      "epoch": 3.83,
+      "learning_rate": 7.23381138635376e-06,
+      "loss": 24.141,
+      "step": 47000
+    },
+    {
+      "epoch": 3.87,
+      "learning_rate": 7.0980008691873105e-06,
+      "loss": 24.2314,
+      "step": 47500
+    },
+    {
+      "epoch": 3.91,
+      "learning_rate": 6.962190352020861e-06,
+      "loss": 24.7287,
+      "step": 48000
+    },
+    {
+      "epoch": 3.95,
+      "learning_rate": 6.826379834854412e-06,
+      "loss": 24.1801,
+      "step": 48500
+    },
+    {
+      "epoch": 3.99,
+      "learning_rate": 6.690569317687963e-06,
+      "loss": 24.3416,
+      "step": 49000
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 67.66174223127865,
+      "eval_combined_score": 67.66174223127865,
+      "eval_loss": 0.7413901090621948,
+      "eval_runtime": 15.9956,
+      "eval_samples_per_second": 613.605,
+      "eval_steps_per_second": 2.438,
+      "step": 49088
+    },
+    {
+      "epoch": 4.03,
+      "learning_rate": 6.554758800521513e-06,
+      "loss": 23.7173,
+      "step": 49500
+    },
+    {
+      "epoch": 4.07,
+      "learning_rate": 6.418948283355063e-06,
+      "loss": 24.159,
+      "step": 50000
+    },
+    {
+      "epoch": 4.12,
+      "learning_rate": 6.283137766188614e-06,
+      "loss": 23.9621,
+      "step": 50500
+    },
+    {
+      "epoch": 4.16,
+      "learning_rate": 6.147327249022165e-06,
+      "loss": 24.1423,
+      "step": 51000
+    },
+    {
+      "epoch": 4.2,
+      "learning_rate": 6.011516731855716e-06,
+      "loss": 24.0207,
+      "step": 51500
+    },
+    {
+      "epoch": 4.24,
+      "learning_rate": 5.8757062146892665e-06,
+      "loss": 24.076,
+      "step": 52000
+    },
+    {
+      "epoch": 4.28,
+      "learning_rate": 5.739895697522817e-06,
+      "loss": 24.0378,
+      "step": 52500
+    },
+    {
+      "epoch": 4.32,
+      "learning_rate": 5.6040851803563665e-06,
+      "loss": 24.0202,
+      "step": 53000
+    },
+    {
+      "epoch": 4.36,
+      "learning_rate": 5.468274663189917e-06,
+      "loss": 24.0662,
+      "step": 53500
+    },
+    {
+      "epoch": 4.4,
+      "learning_rate": 5.332464146023468e-06,
+      "loss": 24.0337,
+      "step": 54000
+    },
+    {
+      "epoch": 4.44,
+      "learning_rate": 5.196653628857019e-06,
+      "loss": 23.7662,
+      "step": 54500
+    },
+    {
+      "epoch": 4.48,
+      "learning_rate": 5.06084311169057e-06,
+      "loss": 23.6851,
+      "step": 55000
+    },
+    {
+      "epoch": 4.52,
+      "learning_rate": 4.92503259452412e-06,
+      "loss": 23.898,
+      "step": 55500
+    },
+    {
+      "epoch": 4.56,
+      "learning_rate": 4.789222077357671e-06,
+      "loss": 23.7756,
+      "step": 56000
+    },
+    {
+      "epoch": 4.6,
+      "learning_rate": 4.653411560191222e-06,
+      "loss": 23.9044,
+      "step": 56500
+    },
+    {
+      "epoch": 4.64,
+      "learning_rate": 4.5176010430247726e-06,
+      "loss": 24.0725,
+      "step": 57000
+    },
+    {
+      "epoch": 4.69,
+      "learning_rate": 4.381790525858323e-06,
+      "loss": 23.7794,
+      "step": 57500
+    },
+    {
+      "epoch": 4.73,
+      "learning_rate": 4.2459800086918734e-06,
+      "loss": 24.1247,
+      "step": 58000
+    },
+    {
+      "epoch": 4.77,
+      "learning_rate": 4.110169491525424e-06,
+      "loss": 24.2018,
+      "step": 58500
+    },
+    {
+      "epoch": 4.81,
+      "learning_rate": 3.974358974358974e-06,
+      "loss": 24.1887,
+      "step": 59000
+    },
+    {
+      "epoch": 4.85,
+      "learning_rate": 3.838548457192525e-06,
+      "loss": 24.0284,
+      "step": 59500
+    },
+    {
+      "epoch": 4.89,
+      "learning_rate": 3.702737940026076e-06,
+      "loss": 23.9692,
+      "step": 60000
+    },
+    {
+      "epoch": 4.93,
+      "learning_rate": 3.566927422859627e-06,
+      "loss": 23.8436,
+      "step": 60500
+    },
+    {
+      "epoch": 4.97,
+      "learning_rate": 3.431116905693177e-06,
+      "loss": 23.7877,
+      "step": 61000
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 67.98777381558838,
+      "eval_combined_score": 67.98777381558838,
+      "eval_loss": 0.7376300692558289,
+      "eval_runtime": 15.7227,
+      "eval_samples_per_second": 624.258,
+      "eval_steps_per_second": 2.48,
+      "step": 61360
+    },
+    {
+      "epoch": 5.01,
+      "learning_rate": 3.2953063885267278e-06,
+      "loss": 23.8127,
+      "step": 61500
+    },
+    {
+      "epoch": 5.05,
+      "learning_rate": 3.1594958713602786e-06,
+      "loss": 23.4685,
+      "step": 62000
+    },
+    {
+      "epoch": 5.09,
+      "learning_rate": 3.0236853541938286e-06,
+      "loss": 23.6626,
+      "step": 62500
+    },
+    {
+      "epoch": 5.13,
+      "learning_rate": 2.8878748370273795e-06,
+      "loss": 23.8414,
+      "step": 63000
+    },
+    {
+      "epoch": 5.17,
+      "learning_rate": 2.7520643198609304e-06,
+      "loss": 23.6328,
+      "step": 63500
+    },
+    {
+      "epoch": 5.22,
+      "learning_rate": 2.6162538026944812e-06,
+      "loss": 23.9316,
+      "step": 64000
+    },
+    {
+      "epoch": 5.26,
+      "learning_rate": 2.4804432855280312e-06,
+      "loss": 24.1051,
+      "step": 64500
+    },
+    {
+      "epoch": 5.3,
+      "learning_rate": 2.344632768361582e-06,
+      "loss": 23.7414,
+      "step": 65000
+    },
+    {
+      "epoch": 5.34,
+      "learning_rate": 2.2088222511951325e-06,
+      "loss": 23.8935,
+      "step": 65500
+    },
+    {
+      "epoch": 5.38,
+      "learning_rate": 2.0730117340286834e-06,
+      "loss": 23.6011,
+      "step": 66000
+    },
+    {
+      "epoch": 5.42,
+      "learning_rate": 1.937201216862234e-06,
+      "loss": 23.6583,
+      "step": 66500
+    },
+    {
+      "epoch": 5.46,
+      "learning_rate": 1.8013906996957845e-06,
+      "loss": 23.4516,
+      "step": 67000
+    },
+    {
+      "epoch": 5.5,
+      "learning_rate": 1.6655801825293353e-06,
+      "loss": 23.9621,
+      "step": 67500
+    },
+    {
+      "epoch": 5.54,
+      "learning_rate": 1.5297696653628858e-06,
+      "loss": 23.5286,
+      "step": 68000
+    },
+    {
+      "epoch": 5.58,
+      "learning_rate": 1.3939591481964364e-06,
+      "loss": 23.7543,
+      "step": 68500
+    },
+    {
+      "epoch": 5.62,
+      "learning_rate": 1.258148631029987e-06,
+      "loss": 23.961,
+      "step": 69000
+    },
+    {
+      "epoch": 5.66,
+      "learning_rate": 1.1223381138635377e-06,
+      "loss": 23.4363,
+      "step": 69500
+    },
+    {
+      "epoch": 5.7,
+      "learning_rate": 9.865275966970884e-07,
+      "loss": 23.5779,
+      "step": 70000
+    },
+    {
+      "epoch": 5.74,
+      "learning_rate": 8.507170795306389e-07,
+      "loss": 23.9706,
+      "step": 70500
+    },
+    {
+      "epoch": 5.79,
+      "learning_rate": 7.149065623641896e-07,
+      "loss": 23.6523,
+      "step": 71000
+    },
+    {
+      "epoch": 5.83,
+      "learning_rate": 5.790960451977402e-07,
+      "loss": 23.5014,
+      "step": 71500
+    },
+    {
+      "epoch": 5.87,
+      "learning_rate": 4.432855280312908e-07,
+      "loss": 23.6879,
+      "step": 72000
+    },
+    {
+      "epoch": 5.91,
+      "learning_rate": 3.074750108648414e-07,
+      "loss": 65.8195,
+      "step": 72500
+    },
+    {
+      "epoch": 5.95,
+      "learning_rate": 1.7166449369839202e-07,
+      "loss": 23.5878,
+      "step": 73000
+    },
+    {
+      "epoch": 5.99,
+      "learning_rate": 3.585397653194264e-08,
+      "loss": 23.5938,
+      "step": 73500
+    },
+    {
+      "epoch": 6.0,
+      "eval_accuracy": 67.77381558838512,
+      "eval_combined_score": 67.77381558838512,
+      "eval_loss": 0.7389720678329468,
+      "eval_runtime": 15.833,
+      "eval_samples_per_second": 619.906,
+      "eval_steps_per_second": 2.463,
+      "step": 73632
+    },
+    {
+      "epoch": 6.0,
+      "step": 73632,
+      "total_flos": 0.0,
+      "train_loss": 25.68384859034519,
+      "train_runtime": 8782.0618,
+      "train_samples_per_second": 268.298,
+      "train_steps_per_second": 8.384
+    }
+  ],
+  "max_steps": 73632,
+  "num_train_epochs": 6,
+  "total_flos": 0.0,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e969d308a6224c6afd8946c2f2c5e1ffcb51318a9a834f0a0c2ae4689bd018fd
+size 4283

transfer-qnli_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 51.41863444993593,
+    "eval_combined_score": 51.41863444993593,
+    "eval_loss": 1.8891557455062866,
+    "eval_runtime": 7.6329,
+    "eval_samples_per_second": 715.722,
+    "eval_steps_per_second": 2.882
+}

transfer-snli_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 57.955700060963224,
+    "eval_combined_score": 57.955700060963224,
+    "eval_loss": 0.8794325590133667,
+    "eval_runtime": 15.2962,
+    "eval_samples_per_second": 643.427,
+    "eval_steps_per_second": 2.55
+}

transfer_results.json ADDED Viewed

	@@ -0,0 +1,8 @@

+{
+    "eval_accuracy": 0.5795570006096322,
+    "eval_combined_score": 0.5795570006096322,
+    "eval_loss": 0.8794325590133667,
+    "eval_runtime": 3.9813,
+    "eval_samples_per_second": 2472.044,
+    "eval_steps_per_second": 9.796
+}

vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff