upload ipc_level1_G model

Browse files

Files changed (10) hide show

config.json +63 -0
merges.txt +0 -0
pytorch_model.bin +3 -0
rng_state.pth +3 -0
special_tokens_map.json +1 -0
tokenizer.json +0 -0
tokenizer_config.json +1 -0
trainer_state.json +220 -0
training_args.bin +3 -0
vocab.json +0 -0

config.json ADDED Viewed

	@@ -0,0 +1,63 @@

+{
+  "_name_or_path": "../models/roberta-large/",
+  "architectures": [
+    "RobertaForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "bos_token_id": 0,
+  "eos_token_id": 2,
+  "finetuning_task": "ipc1",
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 1024,
+  "id2label": {
+    "0": "01",
+    "1": "02",
+    "2": "03",
+    "3": "04",
+    "4": "05",
+    "5": "06",
+    "6": "07",
+    "7": "08",
+    "8": "09",
+    "9": "10",
+    "10": "11",
+    "11": "12",
+    "12": "16",
+    "13": "21",
+    "14": "99"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 4096,
+  "label2id": {
+    "01": 0,
+    "02": 1,
+    "03": 2,
+    "04": 3,
+    "05": 4,
+    "06": 5,
+    "07": 6,
+    "08": 7,
+    "09": 8,
+    "10": 9,
+    "11": 10,
+    "12": 11,
+    "16": 12,
+    "21": 13,
+    "99": 14
+  },
+  "layer_norm_eps": 1e-05,
+  "max_position_embeddings": 514,
+  "model_type": "roberta",
+  "num_attention_heads": 16,
+  "num_hidden_layers": 24,
+  "pad_token_id": 1,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.9.2",
+  "type_vocab_size": 1,
+  "use_cache": true,
+  "vocab_size": 50265
+}

merges.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

pytorch_model.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:da3a92db5bc9dfb55bf0b56cba33d7c91c72b198598f9819fbaa6ed580903b7b
+size 1421664557

rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:46df9fa0b0f11fbf3401de806fc1a967c7fd25b901534d06ed530221bf803d03
+size 15523

special_tokens_map.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"bos_token": "<s>", "eos_token": "</s>", "unk_token": "<unk>", "sep_token": "</s>", "pad_token": "<pad>", "cls_token": "<s>", "mask_token": {"content": "<mask>", "single_word": false, "lstrip": true, "rstrip": false, "normalized": false}}

tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

tokenizer_config.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"unk_token": "<unk>", "bos_token": "<s>", "eos_token": "</s>", "add_prefix_space": false, "errors": "replace", "sep_token": "</s>", "cls_token": "<s>", "pad_token": "<pad>", "mask_token": "<mask>", "special_tokens_map_file": null, "name_or_path": "../models/roberta-large/", "tokenizer_class": "RobertaTokenizer"}

trainer_state.json ADDED Viewed

	@@ -0,0 +1,220 @@

+{
+  "best_metric": 0.8754267260214113,
+  "best_model_checkpoint": "./output//roberta-large_ipc1_G_5_32_5e-6_0.01_0.06_07-08-22_06-40/checkpoint-24000",
+  "epoch": 0.14484881405033495,
+  "global_step": 24000,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.01,
+      "learning_rate": 2.0117890840324302e-07,
+      "loss": 0.4247,
+      "step": 2000
+    },
+    {
+      "epoch": 0.01,
+      "eval_accuracy": 0.03380152270937254,
+      "eval_f1": 0.0619012340183338,
+      "eval_loss": 0.20814624428749084,
+      "eval_roc_auc": 0.5159319239399485,
+      "eval_runtime": 8197.4985,
+      "eval_samples_per_second": 33.455,
+      "eval_steps_per_second": 2.091,
+      "step": 2000
+    },
+    {
+      "epoch": 0.02,
+      "learning_rate": 4.0235781680648604e-07,
+      "loss": 0.1716,
+      "step": 4000
+    },
+    {
+      "epoch": 0.02,
+      "eval_accuracy": 0.6045477086432718,
+      "eval_f1": 0.7149013381719211,
+      "eval_loss": 0.12680654227733612,
+      "eval_roc_auc": 0.7994218657046591,
+      "eval_runtime": 8196.5733,
+      "eval_samples_per_second": 33.459,
+      "eval_steps_per_second": 2.091,
+      "step": 4000
+    },
+    {
+      "epoch": 0.04,
+      "learning_rate": 6.03536725209729e-07,
+      "loss": 0.114,
+      "step": 6000
+    },
+    {
+      "epoch": 0.04,
+      "eval_accuracy": 0.7269478719990665,
+      "eval_f1": 0.8064969810911458,
+      "eval_loss": 0.09042555838823318,
+      "eval_roc_auc": 0.863152127136236,
+      "eval_runtime": 8195.1585,
+      "eval_samples_per_second": 33.465,
+      "eval_steps_per_second": 2.092,
+      "step": 6000
+    },
+    {
+      "epoch": 0.05,
+      "learning_rate": 8.047156336129721e-07,
+      "loss": 0.0865,
+      "step": 8000
+    },
+    {
+      "epoch": 0.05,
+      "eval_accuracy": 0.774762258977276,
+      "eval_f1": 0.8402673463726624,
+      "eval_loss": 0.07436466217041016,
+      "eval_roc_auc": 0.8920166546037435,
+      "eval_runtime": 8191.8248,
+      "eval_samples_per_second": 33.478,
+      "eval_steps_per_second": 2.092,
+      "step": 8000
+    },
+    {
+      "epoch": 0.06,
+      "learning_rate": 1.005894542016215e-06,
+      "loss": 0.0743,
+      "step": 10000
+    },
+    {
+      "epoch": 0.06,
+      "eval_accuracy": 0.7829883900703013,
+      "eval_f1": 0.8487029462020401,
+      "eval_loss": 0.06654931604862213,
+      "eval_roc_auc": 0.9001618402078589,
+      "eval_runtime": 8196.3415,
+      "eval_samples_per_second": 33.46,
+      "eval_steps_per_second": 2.091,
+      "step": 10000
+    },
+    {
+      "epoch": 0.07,
+      "learning_rate": 1.207073450419458e-06,
+      "loss": 0.0664,
+      "step": 12000
+    },
+    {
+      "epoch": 0.07,
+      "eval_accuracy": 0.794452466380794,
+      "eval_f1": 0.859163976123391,
+      "eval_loss": 0.061000920832157135,
+      "eval_roc_auc": 0.9083440937813021,
+      "eval_runtime": 8197.7585,
+      "eval_samples_per_second": 33.454,
+      "eval_steps_per_second": 2.091,
+      "step": 12000
+    },
+    {
+      "epoch": 0.08,
+      "learning_rate": 1.4082523588227012e-06,
+      "loss": 0.062,
+      "step": 14000
+    },
+    {
+      "epoch": 0.08,
+      "eval_accuracy": 0.7962172923777019,
+      "eval_f1": 0.8624403660379281,
+      "eval_loss": 0.05871045961976051,
+      "eval_roc_auc": 0.9133217347648154,
+      "eval_runtime": 8199.4678,
+      "eval_samples_per_second": 33.447,
+      "eval_steps_per_second": 2.091,
+      "step": 14000
+    },
+    {
+      "epoch": 0.1,
+      "learning_rate": 1.6094312672259442e-06,
+      "loss": 0.0599,
+      "step": 16000
+    },
+    {
+      "epoch": 0.1,
+      "eval_accuracy": 0.7979055453458184,
+      "eval_f1": 0.8656510165555269,
+      "eval_loss": 0.05596928298473358,
+      "eval_roc_auc": 0.9150237468241987,
+      "eval_runtime": 8200.3089,
+      "eval_samples_per_second": 33.444,
+      "eval_steps_per_second": 2.09,
+      "step": 16000
+    },
+    {
+      "epoch": 0.11,
+      "learning_rate": 1.8106101756291871e-06,
+      "loss": 0.0569,
+      "step": 18000
+    },
+    {
+      "epoch": 0.11,
+      "eval_accuracy": 0.8009939908404072,
+      "eval_f1": 0.8665697356924421,
+      "eval_loss": 0.05469416454434395,
+      "eval_roc_auc": 0.9135503362863645,
+      "eval_runtime": 8201.2258,
+      "eval_samples_per_second": 33.44,
+      "eval_steps_per_second": 2.09,
+      "step": 18000
+    },
+    {
+      "epoch": 0.12,
+      "learning_rate": 2.01178908403243e-06,
+      "loss": 0.0554,
+      "step": 20000
+    },
+    {
+      "epoch": 0.12,
+      "eval_accuracy": 0.8071891135031066,
+      "eval_f1": 0.8723540166082954,
+      "eval_loss": 0.052826616913080215,
+      "eval_roc_auc": 0.9192588608785235,
+      "eval_runtime": 8204.8057,
+      "eval_samples_per_second": 33.425,
+      "eval_steps_per_second": 2.089,
+      "step": 20000
+    },
+    {
+      "epoch": 0.13,
+      "learning_rate": 2.2129679924356733e-06,
+      "loss": 0.0541,
+      "step": 22000
+    },
+    {
+      "epoch": 0.13,
+      "eval_accuracy": 0.8054935678655816,
+      "eval_f1": 0.8706366827585739,
+      "eval_loss": 0.05298588052392006,
+      "eval_roc_auc": 0.9176729146649489,
+      "eval_runtime": 8206.5949,
+      "eval_samples_per_second": 33.418,
+      "eval_steps_per_second": 2.089,
+      "step": 22000
+    },
+    {
+      "epoch": 0.14,
+      "learning_rate": 2.414146900838916e-06,
+      "loss": 0.0522,
+      "step": 24000
+    },
+    {
+      "epoch": 0.14,
+      "eval_accuracy": 0.8137306379627198,
+      "eval_f1": 0.8754267260214113,
+      "eval_loss": 0.05081520974636078,
+      "eval_roc_auc": 0.9180724092422241,
+      "eval_runtime": 8275.6912,
+      "eval_samples_per_second": 33.139,
+      "eval_steps_per_second": 2.071,
+      "step": 24000
+    }
+  ],
+  "max_steps": 828450,
+  "num_train_epochs": 5,
+  "total_flos": 7.15754724655104e+17,
+  "trial_name": null,
+  "trial_params": null
+}

training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:34c37f67c21e6efe2882d0cdfa94321def51beccd3525adee20f2d06e4cb5a3b
+size 2735

vocab.json ADDED Viewed

The diff for this file is too large to render. See raw diff