Upload 8 files

Browse files

Files changed (8) hide show

config.json +26 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
special_tokens_map.json +1 -0
tokenizer_config.json +1 -0
trainer_state.json +426 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,26 @@

+{
+  "_name_or_path": "/data/lyhe/SentenceGen/RankCSE-master/checkpoints/multicse-roberta-base-uncased",
+  "architectures": [
+    "RobertaForCL"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "transformers_version": "4.2.1",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e2eb5f5ddf6d661e96aefe7eb2f1c74b7d2364583a7e74f2b1eedd2126eeb85e
+size 498669738

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@

+ {"unk_token": {"content": "<unk>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "bos_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "eos_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "add_prefix_space": false, "errors": "replace", "sep_token": {"content": "</s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "cls_token": {"content": "<s>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "pad_token": {"content": "<pad>", "single_word": false, "lstrip": false, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": true, "__type": "AddedToken"}, "model_max_length": 512, "special_tokens_map_file": null, "name_or_path": "/data/lyhe/SentenceGen/RankCSE-master/checkpoints/multicse-roberta-base-uncased"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,426 @@

+{
+  "best_metric": 0.8533187120426406,
+  "best_model_checkpoint": "checkpoints/longgen-soft_sort-multicse-roberta-base-uncased-lr:3e-6-es:25-dw:0.5",
+  "epoch": 0.08715682002116666,
+  "global_step": 1400,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.06,
+      "eval_avg_sts": 0.7933545386236226,
+      "eval_sickr_spearman": 0.7452889947949065,
+      "eval_stsb_spearman": 0.8414200824523387,
+      "step": 25
+    },
+    {
+      "epoch": 0.11,
+      "eval_avg_sts": 0.8246845923550631,
+      "eval_sickr_spearman": 0.7947764472597243,
+      "eval_stsb_spearman": 0.8545927374504019,
+      "step": 50
+    },
+    {
+      "epoch": 0.17,
+      "eval_avg_sts": 0.831372297816624,
+      "eval_sickr_spearman": 0.7991409854163041,
+      "eval_stsb_spearman": 0.863603610216944,
+      "step": 75
+    },
+    {
+      "epoch": 0.22,
+      "eval_avg_sts": 0.8311033533020455,
+      "eval_sickr_spearman": 0.7968452428608664,
+      "eval_stsb_spearman": 0.8653614637432246,
+      "step": 100
+    },
+    {
+      "epoch": 0.28,
+      "eval_avg_sts": 0.8347302190626489,
+      "eval_sickr_spearman": 0.8026452865461272,
+      "eval_stsb_spearman": 0.8668151515791707,
+      "step": 125
+    },
+    {
+      "epoch": 0.33,
+      "eval_avg_sts": 0.8291379711550301,
+      "eval_sickr_spearman": 0.7935402227709101,
+      "eval_stsb_spearman": 0.8647357195391501,
+      "step": 150
+    },
+    {
+      "epoch": 0.39,
+      "eval_avg_sts": 0.8375071181348266,
+      "eval_sickr_spearman": 0.8121609682075389,
+      "eval_stsb_spearman": 0.8628532680621143,
+      "step": 175
+    },
+    {
+      "epoch": 0.44,
+      "eval_avg_sts": 0.8401116350055815,
+      "eval_sickr_spearman": 0.8101783404023766,
+      "eval_stsb_spearman": 0.8700449296087865,
+      "step": 200
+    },
+    {
+      "epoch": 0.5,
+      "eval_avg_sts": 0.8319177480289321,
+      "eval_sickr_spearman": 0.7987839222082131,
+      "eval_stsb_spearman": 0.8650515738496511,
+      "step": 225
+    },
+    {
+      "epoch": 0.55,
+      "eval_avg_sts": 0.8389465429116724,
+      "eval_sickr_spearman": 0.810887903863922,
+      "eval_stsb_spearman": 0.8670051819594228,
+      "step": 250
+    },
+    {
+      "epoch": 0.61,
+      "eval_avg_sts": 0.8427200181062976,
+      "eval_sickr_spearman": 0.8177831046930728,
+      "eval_stsb_spearman": 0.8676569315195224,
+      "step": 275
+    },
+    {
+      "epoch": 0.67,
+      "eval_avg_sts": 0.8463857988633654,
+      "eval_sickr_spearman": 0.8234845405270812,
+      "eval_stsb_spearman": 0.8692870571996496,
+      "step": 300
+    },
+    {
+      "epoch": 0.72,
+      "eval_avg_sts": 0.8427305224744921,
+      "eval_sickr_spearman": 0.8178719622307333,
+      "eval_stsb_spearman": 0.8675890827182509,
+      "step": 325
+    },
+    {
+      "epoch": 0.78,
+      "eval_avg_sts": 0.8421029268773901,
+      "eval_sickr_spearman": 0.8149265029661426,
+      "eval_stsb_spearman": 0.8692793507886375,
+      "step": 350
+    },
+    {
+      "epoch": 0.83,
+      "eval_avg_sts": 0.8477497237237577,
+      "eval_sickr_spearman": 0.8272267397023274,
+      "eval_stsb_spearman": 0.8682727077451879,
+      "step": 375
+    },
+    {
+      "epoch": 0.89,
+      "eval_avg_sts": 0.8442815051792503,
+      "eval_sickr_spearman": 0.821835440690305,
+      "eval_stsb_spearman": 0.8667275696681955,
+      "step": 400
+    },
+    {
+      "epoch": 0.94,
+      "eval_avg_sts": 0.8421091906691427,
+      "eval_sickr_spearman": 0.8156059028959847,
+      "eval_stsb_spearman": 0.8686124784423007,
+      "step": 425
+    },
+    {
+      "epoch": 1.0,
+      "eval_avg_sts": 0.8394955748362896,
+      "eval_sickr_spearman": 0.8169585547746848,
+      "eval_stsb_spearman": 0.8620325948978942,
+      "step": 450
+    },
+    {
+      "epoch": 1.05,
+      "eval_avg_sts": 0.8465826685429587,
+      "eval_sickr_spearman": 0.8285129165366373,
+      "eval_stsb_spearman": 0.86465242054928,
+      "step": 475
+    },
+    {
+      "epoch": 1.11,
+      "learning_rate": 3.152254249815226e-05,
+      "loss": 0.4875,
+      "step": 500
+    },
+    {
+      "epoch": 1.11,
+      "eval_avg_sts": 0.8509943622098309,
+      "eval_sickr_spearman": 0.8317867164106589,
+      "eval_stsb_spearman": 0.8702020080090029,
+      "step": 500
+    },
+    {
+      "epoch": 1.16,
+      "eval_avg_sts": 0.845221120650099,
+      "eval_sickr_spearman": 0.8256615501997637,
+      "eval_stsb_spearman": 0.8647806911004344,
+      "step": 525
+    },
+    {
+      "epoch": 1.22,
+      "eval_avg_sts": 0.84262665612863,
+      "eval_sickr_spearman": 0.8214538816204806,
+      "eval_stsb_spearman": 0.8637994306367793,
+      "step": 550
+    },
+    {
+      "epoch": 1.27,
+      "eval_avg_sts": 0.8424131248137818,
+      "eval_sickr_spearman": 0.8200806724303651,
+      "eval_stsb_spearman": 0.8647455771971985,
+      "step": 575
+    },
+    {
+      "epoch": 1.33,
+      "eval_avg_sts": 0.8456252822224128,
+      "eval_sickr_spearman": 0.8223322744035808,
+      "eval_stsb_spearman": 0.868918290041245,
+      "step": 600
+    },
+    {
+      "epoch": 1.39,
+      "eval_avg_sts": 0.8418597846725664,
+      "eval_sickr_spearman": 0.8187211040730578,
+      "eval_stsb_spearman": 0.8649984652720751,
+      "step": 625
+    },
+    {
+      "epoch": 1.44,
+      "eval_avg_sts": 0.8491621745286901,
+      "eval_sickr_spearman": 0.8251584244121993,
+      "eval_stsb_spearman": 0.8731659246451808,
+      "step": 650
+    },
+    {
+      "epoch": 1.5,
+      "eval_avg_sts": 0.8441242517008596,
+      "eval_sickr_spearman": 0.8207689100828717,
+      "eval_stsb_spearman": 0.8674795933188475,
+      "step": 675
+    },
+    {
+      "epoch": 1.55,
+      "eval_avg_sts": 0.8486831930599381,
+      "eval_sickr_spearman": 0.8272354813627892,
+      "eval_stsb_spearman": 0.8701309047570869,
+      "step": 700
+    },
+    {
+      "epoch": 1.61,
+      "eval_avg_sts": 0.8461637494650611,
+      "eval_sickr_spearman": 0.8234650879309988,
+      "eval_stsb_spearman": 0.8688624109991235,
+      "step": 725
+    },
+    {
+      "epoch": 1.66,
+      "eval_avg_sts": 0.8407491656841108,
+      "eval_sickr_spearman": 0.8176846409351248,
+      "eval_stsb_spearman": 0.863813690433097,
+      "step": 750
+    },
+    {
+      "epoch": 1.72,
+      "eval_avg_sts": 0.8437663221140155,
+      "eval_sickr_spearman": 0.8220878441283623,
+      "eval_stsb_spearman": 0.8654448000996685,
+      "step": 775
+    },
+    {
+      "epoch": 1.77,
+      "eval_avg_sts": 0.8461783409585929,
+      "eval_sickr_spearman": 0.8231578810062006,
+      "eval_stsb_spearman": 0.8691988009109852,
+      "step": 800
+    },
+    {
+      "epoch": 1.83,
+      "eval_avg_sts": 0.8405187952752955,
+      "eval_sickr_spearman": 0.8153428845845095,
+      "eval_stsb_spearman": 0.8656947059660813,
+      "step": 825
+    },
+    {
+      "epoch": 1.88,
+      "eval_avg_sts": 0.8427375515517908,
+      "eval_sickr_spearman": 0.8192698113758867,
+      "eval_stsb_spearman": 0.8662052917276947,
+      "step": 850
+    },
+    {
+      "epoch": 1.94,
+      "eval_avg_sts": 0.8433561035217969,
+      "eval_sickr_spearman": 0.8219217045484879,
+      "eval_stsb_spearman": 0.8647905024951058,
+      "step": 875
+    },
+    {
+      "epoch": 2.0,
+      "eval_avg_sts": 0.8422742315982205,
+      "eval_sickr_spearman": 0.8198740426319783,
+      "eval_stsb_spearman": 0.8646744205644626,
+      "step": 900
+    },
+    {
+      "epoch": 2.05,
+      "eval_avg_sts": 0.8450157787124789,
+      "eval_sickr_spearman": 0.8220855386354934,
+      "eval_stsb_spearman": 0.8679460187894644,
+      "step": 925
+    },
+    {
+      "epoch": 2.11,
+      "eval_avg_sts": 0.8433056158731305,
+      "eval_sickr_spearman": 0.8200347066662887,
+      "eval_stsb_spearman": 0.8665765250799722,
+      "step": 950
+    },
+    {
+      "epoch": 2.16,
+      "eval_avg_sts": 0.8406107657907074,
+      "eval_sickr_spearman": 0.8160642156659073,
+      "eval_stsb_spearman": 0.8651573159155074,
+      "step": 975
+    },
+    {
+      "epoch": 2.22,
+      "learning_rate": 1.3045084996304511e-05,
+      "loss": 0.2406,
+      "step": 1000
+    },
+    {
+      "epoch": 2.22,
+      "eval_avg_sts": 0.8441566677812831,
+      "eval_sickr_spearman": 0.819970921363579,
+      "eval_stsb_spearman": 0.8683424141989871,
+      "step": 1000
+    },
+    {
+      "epoch": 2.27,
+      "eval_avg_sts": 0.843133071876425,
+      "eval_sickr_spearman": 0.8194127519337666,
+      "eval_stsb_spearman": 0.8668533918190835,
+      "step": 1025
+    },
+    {
+      "epoch": 2.33,
+      "eval_avg_sts": 0.8427876550387465,
+      "eval_sickr_spearman": 0.818166056664839,
+      "eval_stsb_spearman": 0.8674092534126542,
+      "step": 1050
+    },
+    {
+      "epoch": 2.38,
+      "eval_avg_sts": 0.8430375455152233,
+      "eval_sickr_spearman": 0.8175366090804925,
+      "eval_stsb_spearman": 0.868538481949954,
+      "step": 1075
+    },
+    {
+      "epoch": 2.44,
+      "eval_avg_sts": 0.8419815162026707,
+      "eval_sickr_spearman": 0.8154516750292669,
+      "eval_stsb_spearman": 0.8685113573760747,
+      "step": 1100
+    },
+    {
+      "epoch": 2.49,
+      "eval_avg_sts": 0.8439982682941662,
+      "eval_sickr_spearman": 0.818244203266879,
+      "eval_stsb_spearman": 0.8697523333214534,
+      "step": 1125
+    },
+    {
+      "epoch": 2.55,
+      "eval_avg_sts": 0.8455002294336829,
+      "eval_sickr_spearman": 0.8215922111926224,
+      "eval_stsb_spearman": 0.8694082476747435,
+      "step": 1150
+    },
+    {
+      "epoch": 2.61,
+      "eval_avg_sts": 0.8415438728640847,
+      "eval_sickr_spearman": 0.8160743021972091,
+      "eval_stsb_spearman": 0.8670134435309604,
+      "step": 1175
+    },
+    {
+      "epoch": 2.66,
+      "eval_avg_sts": 0.8430556628773995,
+      "eval_sickr_spearman": 0.8172068275380184,
+      "eval_stsb_spearman": 0.8689044982167805,
+      "step": 1200
+    },
+    {
+      "epoch": 2.72,
+      "eval_avg_sts": 0.8426755323560923,
+      "eval_sickr_spearman": 0.8163431803030597,
+      "eval_stsb_spearman": 0.8690078844091248,
+      "step": 1225
+    },
+    {
+      "epoch": 2.77,
+      "eval_avg_sts": 0.8432975917391303,
+      "eval_sickr_spearman": 0.8183610149055763,
+      "eval_stsb_spearman": 0.8682341685726842,
+      "step": 1250
+    },
+    {
+      "epoch": 2.83,
+      "eval_avg_sts": 0.8435685574000784,
+      "eval_sickr_spearman": 0.8189177914334469,
+      "eval_stsb_spearman": 0.8682193233667098,
+      "step": 1275
+    },
+    {
+      "epoch": 2.88,
+      "eval_avg_sts": 0.8441294339312184,
+      "eval_sickr_spearman": 0.8195803804777856,
+      "eval_stsb_spearman": 0.8686784873846513,
+      "step": 1300
+    },
+    {
+      "epoch": 2.94,
+      "eval_avg_sts": 0.8438416918303956,
+      "eval_sickr_spearman": 0.8193592933178659,
+      "eval_stsb_spearman": 0.8683240903429252,
+      "step": 1325
+    },
+    {
+      "epoch": 2.99,
+      "eval_avg_sts": 0.8441351416286236,
+      "eval_sickr_spearman": 0.8197974330251845,
+      "eval_stsb_spearman": 0.8684728502320628,
+      "step": 1350
+    },
+    {
+      "epoch": 3.0,
+      "step": 1353,
+      "train_runtime": 2044.9965,
+      "train_samples_per_second": 0.662
+    },
+    {
+      "epoch": 0.09,
+      "eval_avg_sts": 0.8519068652662883,
+      "eval_sickr_spearman": 0.8324423889763906,
+      "eval_stsb_spearman": 0.8713713415561861,
+      "step": 1375
+    },
+    {
+      "epoch": 0.09,
+      "eval_avg_sts": 0.8533187120426406,
+      "eval_sickr_spearman": 0.8342147846505584,
+      "eval_stsb_spearman": 0.8724226394347229,
+      "step": 1400
+    }
+  ],
+  "max_steps": 8032,
+  "num_train_epochs": 1,
+  "total_flos": 130663234395930240,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:852624934ea43863ac502b42d2f8edc7fc0ad7f1eab4a8a9103468c6222ec370
+size 2744

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff