CaffeineThief commited on Mar 19

Commit

a3c73e7

verified ·

1 Parent(s): 7f4dd2a

Upload saved model files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-104/config.json +152 -0
checkpoint-104/model.safetensors +3 -0
checkpoint-104/optimizer.pt +3 -0
checkpoint-104/rng_state.pth +3 -0
checkpoint-104/scaler.pt +3 -0
checkpoint-104/scheduler.pt +3 -0
checkpoint-104/special_tokens_map.json +37 -0
checkpoint-104/tokenizer.json +0 -0
checkpoint-104/tokenizer_config.json +56 -0
checkpoint-104/trainer_state.json +81 -0
checkpoint-104/training_args.bin +3 -0
checkpoint-104/vocab.txt +0 -0
checkpoint-1040/config.json +152 -0
checkpoint-1040/model.safetensors +3 -0
checkpoint-1040/optimizer.pt +3 -0
checkpoint-1040/rng_state.pth +3 -0
checkpoint-1040/scaler.pt +3 -0
checkpoint-1040/scheduler.pt +3 -0
checkpoint-1040/special_tokens_map.json +37 -0
checkpoint-1040/tokenizer.json +0 -0
checkpoint-1040/tokenizer_config.json +56 -0
checkpoint-1040/trainer_state.json +423 -0
checkpoint-1040/training_args.bin +3 -0
checkpoint-1040/vocab.txt +0 -0
checkpoint-1092/config.json +152 -0
checkpoint-1092/model.safetensors +3 -0
checkpoint-1092/optimizer.pt +3 -0
checkpoint-1092/rng_state.pth +3 -0
checkpoint-1092/scaler.pt +3 -0
checkpoint-1092/scheduler.pt +3 -0
checkpoint-1092/special_tokens_map.json +37 -0
checkpoint-1092/tokenizer.json +0 -0
checkpoint-1092/tokenizer_config.json +56 -0
checkpoint-1092/trainer_state.json +442 -0
checkpoint-1092/training_args.bin +3 -0
checkpoint-1092/vocab.txt +0 -0
checkpoint-1144/config.json +152 -0
checkpoint-1144/model.safetensors +3 -0
checkpoint-1144/optimizer.pt +3 -0
checkpoint-1144/rng_state.pth +3 -0
checkpoint-1144/scaler.pt +3 -0
checkpoint-1144/scheduler.pt +3 -0
checkpoint-1144/special_tokens_map.json +37 -0
checkpoint-1144/tokenizer.json +0 -0
checkpoint-1144/tokenizer_config.json +56 -0
checkpoint-1144/trainer_state.json +461 -0
checkpoint-1144/training_args.bin +3 -0
checkpoint-1144/vocab.txt +0 -0
checkpoint-1196/config.json +152 -0
checkpoint-1196/model.safetensors +3 -0

checkpoint-104/config.json ADDED Viewed

	@@ -0,0 +1,152 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "T1005",
+    "1": "T1021",
+    "2": "T1027",
+    "3": "T1033",
+    "4": "T1036",
+    "5": "T1041",
+    "6": "T1046",
+    "7": "T1048",
+    "8": "T1049",
+    "9": "T1053",
+    "10": "T1055",
+    "11": "T1056",
+    "12": "T1057",
+    "13": "T1059",
+    "14": "T1070",
+    "15": "T1071",
+    "16": "T1074",
+    "17": "T1078",
+    "18": "T1082",
+    "19": "T1083",
+    "20": "T1098",
+    "21": "T1102",
+    "22": "T1105",
+    "23": "T1110",
+    "24": "T1113",
+    "25": "T1114",
+    "26": "T1115",
+    "27": "T1132",
+    "28": "T1137",
+    "29": "T1140",
+    "30": "T1189",
+    "31": "T1190",
+    "32": "T1195",
+    "33": "T1203",
+    "34": "T1204",
+    "35": "T1218",
+    "36": "T1486",
+    "37": "T1491",
+    "38": "T1496",
+    "39": "T1497",
+    "40": "T1499",
+    "41": "T1528",
+    "42": "T1539",
+    "43": "T1547",
+    "44": "T1555",
+    "45": "T1557",
+    "46": "T1562",
+    "47": "T1564",
+    "48": "T1566",
+    "49": "T1567",
+    "50": "T1573",
+    "51": "T1574",
+    "52": "T1583",
+    "53": "T1586",
+    "54": "T1589",
+    "55": "T1606",
+    "56": "T1608",
+    "57": "T1614",
+    "58": "T1620",
+    "59": "T1623.001",
+    "60": "T1631.001"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "T1005": 0,
+    "T1021": 1,
+    "T1027": 2,
+    "T1033": 3,
+    "T1036": 4,
+    "T1041": 5,
+    "T1046": 6,
+    "T1048": 7,
+    "T1049": 8,
+    "T1053": 9,
+    "T1055": 10,
+    "T1056": 11,
+    "T1057": 12,
+    "T1059": 13,
+    "T1070": 14,
+    "T1071": 15,
+    "T1074": 16,
+    "T1078": 17,
+    "T1082": 18,
+    "T1083": 19,
+    "T1098": 20,
+    "T1102": 21,
+    "T1105": 22,
+    "T1110": 23,
+    "T1113": 24,
+    "T1114": 25,
+    "T1115": 26,
+    "T1132": 27,
+    "T1137": 28,
+    "T1140": 29,
+    "T1189": 30,
+    "T1190": 31,
+    "T1195": 32,
+    "T1203": 33,
+    "T1204": 34,
+    "T1218": 35,
+    "T1486": 36,
+    "T1491": 37,
+    "T1496": 38,
+    "T1497": 39,
+    "T1499": 40,
+    "T1528": 41,
+    "T1539": 42,
+    "T1547": 43,
+    "T1555": 44,
+    "T1557": 45,
+    "T1562": 46,
+    "T1564": 47,
+    "T1566": 48,
+    "T1567": 49,
+    "T1573": 50,
+    "T1574": 51,
+    "T1583": 52,
+    "T1586": 53,
+    "T1589": 54,
+    "T1606": 55,
+    "T1608": 56,
+    "T1614": 57,
+    "T1620": 58,
+    "T1623.001": 59,
+    "T1631.001": 60
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-104/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7df2fe92b1e0876a7c8d36194c053ae9bcbfd001ece2aa27e0155ad80d63eb4f
+size 438140132

checkpoint-104/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b6fc31b3eb14051342e97bf41918a5fdf23de8ad17d018cc2b365fee6382a97
+size 876401210

checkpoint-104/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:736858f0ba9663f7ef1e0de90df5597ae3a880c27538fc5eb96e2cb1485eb4e5
+size 14244

checkpoint-104/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-104/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:279117f7d4cc0f14fd1502f1e503dda0c2168ebe4feb368500cd5598d6b2c574
+size 1064

checkpoint-104/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-104/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-104/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-104/trainer_state.json ADDED Viewed

	@@ -0,0 +1,81 @@

+{
+  "best_global_step": 52,
+  "best_metric": 0.0,
+  "best_model_checkpoint": "./cysecbert-ttp-annoctr_step2/checkpoint-52",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 104,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 35970.37109375,
+      "learning_rate": 2.45e-05,
+      "loss": 0.5612,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.33502161502838135,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6495,
+      "eval_samples_per_second": 375.276,
+      "eval_steps_per_second": 15.763,
+      "step": 52
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 10958.1689453125,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.214,
+      "step": 100
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.09798076748847961,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6513,
+      "eval_samples_per_second": 374.861,
+      "eval_steps_per_second": 15.745,
+      "step": 104
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 1
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 653914080718848.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-104/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f05e8606862008bfc17115034db9429cc42bab3677cf65b2b782cae0ed9dfed
+size 5368

checkpoint-104/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1040/config.json ADDED Viewed

	@@ -0,0 +1,152 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "T1005",
+    "1": "T1021",
+    "2": "T1027",
+    "3": "T1033",
+    "4": "T1036",
+    "5": "T1041",
+    "6": "T1046",
+    "7": "T1048",
+    "8": "T1049",
+    "9": "T1053",
+    "10": "T1055",
+    "11": "T1056",
+    "12": "T1057",
+    "13": "T1059",
+    "14": "T1070",
+    "15": "T1071",
+    "16": "T1074",
+    "17": "T1078",
+    "18": "T1082",
+    "19": "T1083",
+    "20": "T1098",
+    "21": "T1102",
+    "22": "T1105",
+    "23": "T1110",
+    "24": "T1113",
+    "25": "T1114",
+    "26": "T1115",
+    "27": "T1132",
+    "28": "T1137",
+    "29": "T1140",
+    "30": "T1189",
+    "31": "T1190",
+    "32": "T1195",
+    "33": "T1203",
+    "34": "T1204",
+    "35": "T1218",
+    "36": "T1486",
+    "37": "T1491",
+    "38": "T1496",
+    "39": "T1497",
+    "40": "T1499",
+    "41": "T1528",
+    "42": "T1539",
+    "43": "T1547",
+    "44": "T1555",
+    "45": "T1557",
+    "46": "T1562",
+    "47": "T1564",
+    "48": "T1566",
+    "49": "T1567",
+    "50": "T1573",
+    "51": "T1574",
+    "52": "T1583",
+    "53": "T1586",
+    "54": "T1589",
+    "55": "T1606",
+    "56": "T1608",
+    "57": "T1614",
+    "58": "T1620",
+    "59": "T1623.001",
+    "60": "T1631.001"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "T1005": 0,
+    "T1021": 1,
+    "T1027": 2,
+    "T1033": 3,
+    "T1036": 4,
+    "T1041": 5,
+    "T1046": 6,
+    "T1048": 7,
+    "T1049": 8,
+    "T1053": 9,
+    "T1055": 10,
+    "T1056": 11,
+    "T1057": 12,
+    "T1059": 13,
+    "T1070": 14,
+    "T1071": 15,
+    "T1074": 16,
+    "T1078": 17,
+    "T1082": 18,
+    "T1083": 19,
+    "T1098": 20,
+    "T1102": 21,
+    "T1105": 22,
+    "T1110": 23,
+    "T1113": 24,
+    "T1114": 25,
+    "T1115": 26,
+    "T1132": 27,
+    "T1137": 28,
+    "T1140": 29,
+    "T1189": 30,
+    "T1190": 31,
+    "T1195": 32,
+    "T1203": 33,
+    "T1204": 34,
+    "T1218": 35,
+    "T1486": 36,
+    "T1491": 37,
+    "T1496": 38,
+    "T1497": 39,
+    "T1499": 40,
+    "T1528": 41,
+    "T1539": 42,
+    "T1547": 43,
+    "T1555": 44,
+    "T1557": 45,
+    "T1562": 46,
+    "T1564": 47,
+    "T1566": 48,
+    "T1567": 49,
+    "T1573": 50,
+    "T1574": 51,
+    "T1583": 52,
+    "T1586": 53,
+    "T1589": 54,
+    "T1606": 55,
+    "T1608": 56,
+    "T1614": 57,
+    "T1620": 58,
+    "T1623.001": 59,
+    "T1631.001": 60
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-1040/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b896e079d9638f588e023e01f960378b8d230266d7f5f4deea75180d814f7944
+size 438140132

checkpoint-1040/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:933df3f27a3b805d3c573fb31e6305a70b24efec69367e894738e2f1ce088a77
+size 876401210

checkpoint-1040/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ace5adf5b6afced75a55131c69efa38017a45543db99fff32a13305899ced141
+size 14244

checkpoint-1040/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-1040/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9dd306eccedd3d701a952a9eb783d3bc211c2cad0601f18a968e26cc19d0363b
+size 1064

checkpoint-1040/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1040/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1040/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1040/trainer_state.json ADDED Viewed

	@@ -0,0 +1,423 @@

+{
+  "best_global_step": 988,
+  "best_metric": 0.6585365853658537,
+  "best_model_checkpoint": "./cysecbert-ttp-annoctr_step2/checkpoint-988",
+  "epoch": 20.0,
+  "eval_steps": 500,
+  "global_step": 1040,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 35970.37109375,
+      "learning_rate": 2.45e-05,
+      "loss": 0.5612,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.33502161502838135,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6495,
+      "eval_samples_per_second": 375.276,
+      "eval_steps_per_second": 15.763,
+      "step": 52
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 10958.1689453125,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.214,
+      "step": 100
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.09798076748847961,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6513,
+      "eval_samples_per_second": 374.861,
+      "eval_steps_per_second": 15.745,
+      "step": 104
+    },
+    {
+      "epoch": 2.8846153846153846,
+      "grad_norm": 5634.60546875,
+      "learning_rate": 4.951960784313726e-05,
+      "loss": 0.0873,
+      "step": 150
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.07998213171958923,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6587,
+      "eval_samples_per_second": 373.195,
+      "eval_steps_per_second": 15.675,
+      "step": 156
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 6965.6220703125,
+      "learning_rate": 4.9029411764705883e-05,
+      "loss": 0.0791,
+      "step": 200
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.07983831316232681,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6476,
+      "eval_samples_per_second": 375.688,
+      "eval_steps_per_second": 15.78,
+      "step": 208
+    },
+    {
+      "epoch": 4.8076923076923075,
+      "grad_norm": 4831.40478515625,
+      "learning_rate": 4.8539215686274515e-05,
+      "loss": 0.0777,
+      "step": 250
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.07502060383558273,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6796,
+      "eval_samples_per_second": 368.535,
+      "eval_steps_per_second": 15.48,
+      "step": 260
+    },
+    {
+      "epoch": 5.769230769230769,
+      "grad_norm": 7363.94580078125,
+      "learning_rate": 4.804901960784314e-05,
+      "loss": 0.0716,
+      "step": 300
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1_macro": 0.038923099933562195,
+      "eval_f1_micro": 0.47416413373860183,
+      "eval_loss": 0.0661635547876358,
+      "eval_precision": 0.9069767441860465,
+      "eval_recall": 0.32098765432098764,
+      "eval_runtime": 1.6554,
+      "eval_samples_per_second": 373.937,
+      "eval_steps_per_second": 15.707,
+      "step": 312
+    },
+    {
+      "epoch": 6.730769230769231,
+      "grad_norm": 6673.61376953125,
+      "learning_rate": 4.7558823529411766e-05,
+      "loss": 0.0612,
+      "step": 350
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1_macro": 0.04364161045234521,
+      "eval_f1_micro": 0.502835538752363,
+      "eval_loss": 0.061204444617033005,
+      "eval_precision": 0.8085106382978723,
+      "eval_recall": 0.36488340192043894,
+      "eval_runtime": 1.6748,
+      "eval_samples_per_second": 369.593,
+      "eval_steps_per_second": 15.524,
+      "step": 364
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 6426.9541015625,
+      "learning_rate": 4.70686274509804e-05,
+      "loss": 0.0526,
+      "step": 400
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1_macro": 0.07288718124374782,
+      "eval_f1_micro": 0.5546522131887985,
+      "eval_loss": 0.05695081874728203,
+      "eval_precision": 0.8121693121693122,
+      "eval_recall": 0.42112482853223593,
+      "eval_runtime": 1.665,
+      "eval_samples_per_second": 371.782,
+      "eval_steps_per_second": 15.616,
+      "step": 416
+    },
+    {
+      "epoch": 8.653846153846153,
+      "grad_norm": 9758.2529296875,
+      "learning_rate": 4.6578431372549016e-05,
+      "loss": 0.0433,
+      "step": 450
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1_macro": 0.07471540750966602,
+      "eval_f1_micro": 0.545950864422202,
+      "eval_loss": 0.05365221947431564,
+      "eval_precision": 0.8108108108108109,
+      "eval_recall": 0.411522633744856,
+      "eval_runtime": 1.6749,
+      "eval_samples_per_second": 369.564,
+      "eval_steps_per_second": 15.523,
+      "step": 468
+    },
+    {
+      "epoch": 9.615384615384615,
+      "grad_norm": 3793.51953125,
+      "learning_rate": 4.608823529411765e-05,
+      "loss": 0.0397,
+      "step": 500
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1_macro": 0.12734138202225653,
+      "eval_f1_micro": 0.5939086294416244,
+      "eval_loss": 0.052679501473903656,
+      "eval_precision": 0.7748344370860927,
+      "eval_recall": 0.48148148148148145,
+      "eval_runtime": 1.6561,
+      "eval_samples_per_second": 373.762,
+      "eval_steps_per_second": 15.699,
+      "step": 520
+    },
+    {
+      "epoch": 10.576923076923077,
+      "grad_norm": 4446.76611328125,
+      "learning_rate": 4.559803921568628e-05,
+      "loss": 0.0329,
+      "step": 550
+    },
+    {
+      "epoch": 11.0,
+      "eval_f1_macro": 0.1493812021209619,
+      "eval_f1_micro": 0.609735269000854,
+      "eval_loss": 0.05011816695332527,
+      "eval_precision": 0.8076923076923077,
+      "eval_recall": 0.4897119341563786,
+      "eval_runtime": 1.6806,
+      "eval_samples_per_second": 368.324,
+      "eval_steps_per_second": 15.471,
+      "step": 572
+    },
+    {
+      "epoch": 11.538461538461538,
+      "grad_norm": 5606.7880859375,
+      "learning_rate": 4.51078431372549e-05,
+      "loss": 0.0286,
+      "step": 600
+    },
+    {
+      "epoch": 12.0,
+      "eval_f1_macro": 0.19655294907558352,
+      "eval_f1_micro": 0.6096959737058341,
+      "eval_loss": 0.05061562359333038,
+      "eval_precision": 0.7602459016393442,
+      "eval_recall": 0.5089163237311386,
+      "eval_runtime": 1.6713,
+      "eval_samples_per_second": 370.373,
+      "eval_steps_per_second": 15.557,
+      "step": 624
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 5415.85546875,
+      "learning_rate": 4.461764705882353e-05,
+      "loss": 0.0254,
+      "step": 650
+    },
+    {
+      "epoch": 13.0,
+      "eval_f1_macro": 0.20270281237441773,
+      "eval_f1_micro": 0.6230831315577078,
+      "eval_loss": 0.04895725101232529,
+      "eval_precision": 0.7568627450980392,
+      "eval_recall": 0.5294924554183813,
+      "eval_runtime": 2.2359,
+      "eval_samples_per_second": 276.851,
+      "eval_steps_per_second": 11.629,
+      "step": 676
+    },
+    {
+      "epoch": 13.461538461538462,
+      "grad_norm": 6214.2744140625,
+      "learning_rate": 4.412745098039216e-05,
+      "loss": 0.023,
+      "step": 700
+    },
+    {
+      "epoch": 14.0,
+      "eval_f1_macro": 0.21593787964288247,
+      "eval_f1_micro": 0.6309904153354633,
+      "eval_loss": 0.047714490443468094,
+      "eval_precision": 0.7552581261950286,
+      "eval_recall": 0.541838134430727,
+      "eval_runtime": 1.7054,
+      "eval_samples_per_second": 362.956,
+      "eval_steps_per_second": 15.245,
+      "step": 728
+    },
+    {
+      "epoch": 14.423076923076923,
+      "grad_norm": 5322.5205078125,
+      "learning_rate": 4.363725490196079e-05,
+      "loss": 0.0202,
+      "step": 750
+    },
+    {
+      "epoch": 15.0,
+      "eval_f1_macro": 0.2127885503653234,
+      "eval_f1_micro": 0.6297739672642245,
+      "eval_loss": 0.04875025525689125,
+      "eval_precision": 0.7292418772563177,
+      "eval_recall": 0.5541838134430727,
+      "eval_runtime": 1.6728,
+      "eval_samples_per_second": 370.029,
+      "eval_steps_per_second": 15.542,
+      "step": 780
+    },
+    {
+      "epoch": 15.384615384615385,
+      "grad_norm": 3209.152587890625,
+      "learning_rate": 4.3147058823529413e-05,
+      "loss": 0.0186,
+      "step": 800
+    },
+    {
+      "epoch": 16.0,
+      "eval_f1_macro": 0.2234013473846607,
+      "eval_f1_micro": 0.6476484194294526,
+      "eval_loss": 0.04788675159215927,
+      "eval_precision": 0.7394366197183099,
+      "eval_recall": 0.5761316872427984,
+      "eval_runtime": 1.6703,
+      "eval_samples_per_second": 370.591,
+      "eval_steps_per_second": 15.566,
+      "step": 832
+    },
+    {
+      "epoch": 16.346153846153847,
+      "grad_norm": 6189.79296875,
+      "learning_rate": 4.265686274509804e-05,
+      "loss": 0.0166,
+      "step": 850
+    },
+    {
+      "epoch": 17.0,
+      "eval_f1_macro": 0.2461245877407925,
+      "eval_f1_micro": 0.6392067124332571,
+      "eval_loss": 0.047994960099458694,
+      "eval_precision": 0.7199312714776632,
+      "eval_recall": 0.5747599451303155,
+      "eval_runtime": 1.6784,
+      "eval_samples_per_second": 368.8,
+      "eval_steps_per_second": 15.491,
+      "step": 884
+    },
+    {
+      "epoch": 17.307692307692307,
+      "grad_norm": 2584.114013671875,
+      "learning_rate": 4.216666666666667e-05,
+      "loss": 0.0148,
+      "step": 900
+    },
+    {
+      "epoch": 18.0,
+      "eval_f1_macro": 0.2672202679954545,
+      "eval_f1_micro": 0.6533742331288344,
+      "eval_loss": 0.04750063270330429,
+      "eval_precision": 0.7408695652173913,
+      "eval_recall": 0.5843621399176955,
+      "eval_runtime": 1.6744,
+      "eval_samples_per_second": 369.683,
+      "eval_steps_per_second": 15.528,
+      "step": 936
+    },
+    {
+      "epoch": 18.26923076923077,
+      "grad_norm": 2617.191650390625,
+      "learning_rate": 4.1676470588235296e-05,
+      "loss": 0.0128,
+      "step": 950
+    },
+    {
+      "epoch": 19.0,
+      "eval_f1_macro": 0.25478648592377506,
+      "eval_f1_micro": 0.6585365853658537,
+      "eval_loss": 0.04794125631451607,
+      "eval_precision": 0.7409948542024014,
+      "eval_recall": 0.5925925925925926,
+      "eval_runtime": 1.6751,
+      "eval_samples_per_second": 369.525,
+      "eval_steps_per_second": 15.521,
+      "step": 988
+    },
+    {
+      "epoch": 19.23076923076923,
+      "grad_norm": 2930.471923828125,
+      "learning_rate": 4.118627450980392e-05,
+      "loss": 0.0116,
+      "step": 1000
+    },
+    {
+      "epoch": 20.0,
+      "eval_f1_macro": 0.2563341548388003,
+      "eval_f1_micro": 0.6470143613000756,
+      "eval_loss": 0.04850601404905319,
+      "eval_precision": 0.7205387205387206,
+      "eval_recall": 0.5871056241426612,
+      "eval_runtime": 1.6688,
+      "eval_samples_per_second": 370.936,
+      "eval_steps_per_second": 15.58,
+      "step": 1040
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 1
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6539140807188480.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1040/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f05e8606862008bfc17115034db9429cc42bab3677cf65b2b782cae0ed9dfed
+size 5368

checkpoint-1040/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1092/config.json ADDED Viewed

	@@ -0,0 +1,152 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "T1005",
+    "1": "T1021",
+    "2": "T1027",
+    "3": "T1033",
+    "4": "T1036",
+    "5": "T1041",
+    "6": "T1046",
+    "7": "T1048",
+    "8": "T1049",
+    "9": "T1053",
+    "10": "T1055",
+    "11": "T1056",
+    "12": "T1057",
+    "13": "T1059",
+    "14": "T1070",
+    "15": "T1071",
+    "16": "T1074",
+    "17": "T1078",
+    "18": "T1082",
+    "19": "T1083",
+    "20": "T1098",
+    "21": "T1102",
+    "22": "T1105",
+    "23": "T1110",
+    "24": "T1113",
+    "25": "T1114",
+    "26": "T1115",
+    "27": "T1132",
+    "28": "T1137",
+    "29": "T1140",
+    "30": "T1189",
+    "31": "T1190",
+    "32": "T1195",
+    "33": "T1203",
+    "34": "T1204",
+    "35": "T1218",
+    "36": "T1486",
+    "37": "T1491",
+    "38": "T1496",
+    "39": "T1497",
+    "40": "T1499",
+    "41": "T1528",
+    "42": "T1539",
+    "43": "T1547",
+    "44": "T1555",
+    "45": "T1557",
+    "46": "T1562",
+    "47": "T1564",
+    "48": "T1566",
+    "49": "T1567",
+    "50": "T1573",
+    "51": "T1574",
+    "52": "T1583",
+    "53": "T1586",
+    "54": "T1589",
+    "55": "T1606",
+    "56": "T1608",
+    "57": "T1614",
+    "58": "T1620",
+    "59": "T1623.001",
+    "60": "T1631.001"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "T1005": 0,
+    "T1021": 1,
+    "T1027": 2,
+    "T1033": 3,
+    "T1036": 4,
+    "T1041": 5,
+    "T1046": 6,
+    "T1048": 7,
+    "T1049": 8,
+    "T1053": 9,
+    "T1055": 10,
+    "T1056": 11,
+    "T1057": 12,
+    "T1059": 13,
+    "T1070": 14,
+    "T1071": 15,
+    "T1074": 16,
+    "T1078": 17,
+    "T1082": 18,
+    "T1083": 19,
+    "T1098": 20,
+    "T1102": 21,
+    "T1105": 22,
+    "T1110": 23,
+    "T1113": 24,
+    "T1114": 25,
+    "T1115": 26,
+    "T1132": 27,
+    "T1137": 28,
+    "T1140": 29,
+    "T1189": 30,
+    "T1190": 31,
+    "T1195": 32,
+    "T1203": 33,
+    "T1204": 34,
+    "T1218": 35,
+    "T1486": 36,
+    "T1491": 37,
+    "T1496": 38,
+    "T1497": 39,
+    "T1499": 40,
+    "T1528": 41,
+    "T1539": 42,
+    "T1547": 43,
+    "T1555": 44,
+    "T1557": 45,
+    "T1562": 46,
+    "T1564": 47,
+    "T1566": 48,
+    "T1567": 49,
+    "T1573": 50,
+    "T1574": 51,
+    "T1583": 52,
+    "T1586": 53,
+    "T1589": 54,
+    "T1606": 55,
+    "T1608": 56,
+    "T1614": 57,
+    "T1620": 58,
+    "T1623.001": 59,
+    "T1631.001": 60
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-1092/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9fb7b7785f54b70538249b6e13313b0908ac89988469530be141016d608dfcd
+size 438140132

checkpoint-1092/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:cc910d9686defdb41ffd883291715f2b22578d048fb693839b20d4792359cac4
+size 876401210

checkpoint-1092/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5988312761947fb69c8c90536e0665fe3c0ab245c725afc50794702d835f93b2
+size 14244

checkpoint-1092/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-1092/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bdd7f8b20fb7f9669142e0bbf4b736114d8316d103a75f1eb23facb1d1d7569f
+size 1064

checkpoint-1092/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1092/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1092/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1092/trainer_state.json ADDED Viewed

	@@ -0,0 +1,442 @@

+{
+  "best_global_step": 988,
+  "best_metric": 0.6585365853658537,
+  "best_model_checkpoint": "./cysecbert-ttp-annoctr_step2/checkpoint-988",
+  "epoch": 21.0,
+  "eval_steps": 500,
+  "global_step": 1092,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 35970.37109375,
+      "learning_rate": 2.45e-05,
+      "loss": 0.5612,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.33502161502838135,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6495,
+      "eval_samples_per_second": 375.276,
+      "eval_steps_per_second": 15.763,
+      "step": 52
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 10958.1689453125,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.214,
+      "step": 100
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.09798076748847961,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6513,
+      "eval_samples_per_second": 374.861,
+      "eval_steps_per_second": 15.745,
+      "step": 104
+    },
+    {
+      "epoch": 2.8846153846153846,
+      "grad_norm": 5634.60546875,
+      "learning_rate": 4.951960784313726e-05,
+      "loss": 0.0873,
+      "step": 150
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.07998213171958923,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6587,
+      "eval_samples_per_second": 373.195,
+      "eval_steps_per_second": 15.675,
+      "step": 156
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 6965.6220703125,
+      "learning_rate": 4.9029411764705883e-05,
+      "loss": 0.0791,
+      "step": 200
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.07983831316232681,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6476,
+      "eval_samples_per_second": 375.688,
+      "eval_steps_per_second": 15.78,
+      "step": 208
+    },
+    {
+      "epoch": 4.8076923076923075,
+      "grad_norm": 4831.40478515625,
+      "learning_rate": 4.8539215686274515e-05,
+      "loss": 0.0777,
+      "step": 250
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.07502060383558273,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6796,
+      "eval_samples_per_second": 368.535,
+      "eval_steps_per_second": 15.48,
+      "step": 260
+    },
+    {
+      "epoch": 5.769230769230769,
+      "grad_norm": 7363.94580078125,
+      "learning_rate": 4.804901960784314e-05,
+      "loss": 0.0716,
+      "step": 300
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1_macro": 0.038923099933562195,
+      "eval_f1_micro": 0.47416413373860183,
+      "eval_loss": 0.0661635547876358,
+      "eval_precision": 0.9069767441860465,
+      "eval_recall": 0.32098765432098764,
+      "eval_runtime": 1.6554,
+      "eval_samples_per_second": 373.937,
+      "eval_steps_per_second": 15.707,
+      "step": 312
+    },
+    {
+      "epoch": 6.730769230769231,
+      "grad_norm": 6673.61376953125,
+      "learning_rate": 4.7558823529411766e-05,
+      "loss": 0.0612,
+      "step": 350
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1_macro": 0.04364161045234521,
+      "eval_f1_micro": 0.502835538752363,
+      "eval_loss": 0.061204444617033005,
+      "eval_precision": 0.8085106382978723,
+      "eval_recall": 0.36488340192043894,
+      "eval_runtime": 1.6748,
+      "eval_samples_per_second": 369.593,
+      "eval_steps_per_second": 15.524,
+      "step": 364
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 6426.9541015625,
+      "learning_rate": 4.70686274509804e-05,
+      "loss": 0.0526,
+      "step": 400
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1_macro": 0.07288718124374782,
+      "eval_f1_micro": 0.5546522131887985,
+      "eval_loss": 0.05695081874728203,
+      "eval_precision": 0.8121693121693122,
+      "eval_recall": 0.42112482853223593,
+      "eval_runtime": 1.665,
+      "eval_samples_per_second": 371.782,
+      "eval_steps_per_second": 15.616,
+      "step": 416
+    },
+    {
+      "epoch": 8.653846153846153,
+      "grad_norm": 9758.2529296875,
+      "learning_rate": 4.6578431372549016e-05,
+      "loss": 0.0433,
+      "step": 450
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1_macro": 0.07471540750966602,
+      "eval_f1_micro": 0.545950864422202,
+      "eval_loss": 0.05365221947431564,
+      "eval_precision": 0.8108108108108109,
+      "eval_recall": 0.411522633744856,
+      "eval_runtime": 1.6749,
+      "eval_samples_per_second": 369.564,
+      "eval_steps_per_second": 15.523,
+      "step": 468
+    },
+    {
+      "epoch": 9.615384615384615,
+      "grad_norm": 3793.51953125,
+      "learning_rate": 4.608823529411765e-05,
+      "loss": 0.0397,
+      "step": 500
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1_macro": 0.12734138202225653,
+      "eval_f1_micro": 0.5939086294416244,
+      "eval_loss": 0.052679501473903656,
+      "eval_precision": 0.7748344370860927,
+      "eval_recall": 0.48148148148148145,
+      "eval_runtime": 1.6561,
+      "eval_samples_per_second": 373.762,
+      "eval_steps_per_second": 15.699,
+      "step": 520
+    },
+    {
+      "epoch": 10.576923076923077,
+      "grad_norm": 4446.76611328125,
+      "learning_rate": 4.559803921568628e-05,
+      "loss": 0.0329,
+      "step": 550
+    },
+    {
+      "epoch": 11.0,
+      "eval_f1_macro": 0.1493812021209619,
+      "eval_f1_micro": 0.609735269000854,
+      "eval_loss": 0.05011816695332527,
+      "eval_precision": 0.8076923076923077,
+      "eval_recall": 0.4897119341563786,
+      "eval_runtime": 1.6806,
+      "eval_samples_per_second": 368.324,
+      "eval_steps_per_second": 15.471,
+      "step": 572
+    },
+    {
+      "epoch": 11.538461538461538,
+      "grad_norm": 5606.7880859375,
+      "learning_rate": 4.51078431372549e-05,
+      "loss": 0.0286,
+      "step": 600
+    },
+    {
+      "epoch": 12.0,
+      "eval_f1_macro": 0.19655294907558352,
+      "eval_f1_micro": 0.6096959737058341,
+      "eval_loss": 0.05061562359333038,
+      "eval_precision": 0.7602459016393442,
+      "eval_recall": 0.5089163237311386,
+      "eval_runtime": 1.6713,
+      "eval_samples_per_second": 370.373,
+      "eval_steps_per_second": 15.557,
+      "step": 624
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 5415.85546875,
+      "learning_rate": 4.461764705882353e-05,
+      "loss": 0.0254,
+      "step": 650
+    },
+    {
+      "epoch": 13.0,
+      "eval_f1_macro": 0.20270281237441773,
+      "eval_f1_micro": 0.6230831315577078,
+      "eval_loss": 0.04895725101232529,
+      "eval_precision": 0.7568627450980392,
+      "eval_recall": 0.5294924554183813,
+      "eval_runtime": 2.2359,
+      "eval_samples_per_second": 276.851,
+      "eval_steps_per_second": 11.629,
+      "step": 676
+    },
+    {
+      "epoch": 13.461538461538462,
+      "grad_norm": 6214.2744140625,
+      "learning_rate": 4.412745098039216e-05,
+      "loss": 0.023,
+      "step": 700
+    },
+    {
+      "epoch": 14.0,
+      "eval_f1_macro": 0.21593787964288247,
+      "eval_f1_micro": 0.6309904153354633,
+      "eval_loss": 0.047714490443468094,
+      "eval_precision": 0.7552581261950286,
+      "eval_recall": 0.541838134430727,
+      "eval_runtime": 1.7054,
+      "eval_samples_per_second": 362.956,
+      "eval_steps_per_second": 15.245,
+      "step": 728
+    },
+    {
+      "epoch": 14.423076923076923,
+      "grad_norm": 5322.5205078125,
+      "learning_rate": 4.363725490196079e-05,
+      "loss": 0.0202,
+      "step": 750
+    },
+    {
+      "epoch": 15.0,
+      "eval_f1_macro": 0.2127885503653234,
+      "eval_f1_micro": 0.6297739672642245,
+      "eval_loss": 0.04875025525689125,
+      "eval_precision": 0.7292418772563177,
+      "eval_recall": 0.5541838134430727,
+      "eval_runtime": 1.6728,
+      "eval_samples_per_second": 370.029,
+      "eval_steps_per_second": 15.542,
+      "step": 780
+    },
+    {
+      "epoch": 15.384615384615385,
+      "grad_norm": 3209.152587890625,
+      "learning_rate": 4.3147058823529413e-05,
+      "loss": 0.0186,
+      "step": 800
+    },
+    {
+      "epoch": 16.0,
+      "eval_f1_macro": 0.2234013473846607,
+      "eval_f1_micro": 0.6476484194294526,
+      "eval_loss": 0.04788675159215927,
+      "eval_precision": 0.7394366197183099,
+      "eval_recall": 0.5761316872427984,
+      "eval_runtime": 1.6703,
+      "eval_samples_per_second": 370.591,
+      "eval_steps_per_second": 15.566,
+      "step": 832
+    },
+    {
+      "epoch": 16.346153846153847,
+      "grad_norm": 6189.79296875,
+      "learning_rate": 4.265686274509804e-05,
+      "loss": 0.0166,
+      "step": 850
+    },
+    {
+      "epoch": 17.0,
+      "eval_f1_macro": 0.2461245877407925,
+      "eval_f1_micro": 0.6392067124332571,
+      "eval_loss": 0.047994960099458694,
+      "eval_precision": 0.7199312714776632,
+      "eval_recall": 0.5747599451303155,
+      "eval_runtime": 1.6784,
+      "eval_samples_per_second": 368.8,
+      "eval_steps_per_second": 15.491,
+      "step": 884
+    },
+    {
+      "epoch": 17.307692307692307,
+      "grad_norm": 2584.114013671875,
+      "learning_rate": 4.216666666666667e-05,
+      "loss": 0.0148,
+      "step": 900
+    },
+    {
+      "epoch": 18.0,
+      "eval_f1_macro": 0.2672202679954545,
+      "eval_f1_micro": 0.6533742331288344,
+      "eval_loss": 0.04750063270330429,
+      "eval_precision": 0.7408695652173913,
+      "eval_recall": 0.5843621399176955,
+      "eval_runtime": 1.6744,
+      "eval_samples_per_second": 369.683,
+      "eval_steps_per_second": 15.528,
+      "step": 936
+    },
+    {
+      "epoch": 18.26923076923077,
+      "grad_norm": 2617.191650390625,
+      "learning_rate": 4.1676470588235296e-05,
+      "loss": 0.0128,
+      "step": 950
+    },
+    {
+      "epoch": 19.0,
+      "eval_f1_macro": 0.25478648592377506,
+      "eval_f1_micro": 0.6585365853658537,
+      "eval_loss": 0.04794125631451607,
+      "eval_precision": 0.7409948542024014,
+      "eval_recall": 0.5925925925925926,
+      "eval_runtime": 1.6751,
+      "eval_samples_per_second": 369.525,
+      "eval_steps_per_second": 15.521,
+      "step": 988
+    },
+    {
+      "epoch": 19.23076923076923,
+      "grad_norm": 2930.471923828125,
+      "learning_rate": 4.118627450980392e-05,
+      "loss": 0.0116,
+      "step": 1000
+    },
+    {
+      "epoch": 20.0,
+      "eval_f1_macro": 0.2563341548388003,
+      "eval_f1_micro": 0.6470143613000756,
+      "eval_loss": 0.04850601404905319,
+      "eval_precision": 0.7205387205387206,
+      "eval_recall": 0.5871056241426612,
+      "eval_runtime": 1.6688,
+      "eval_samples_per_second": 370.936,
+      "eval_steps_per_second": 15.58,
+      "step": 1040
+    },
+    {
+      "epoch": 20.192307692307693,
+      "grad_norm": 2841.39111328125,
+      "learning_rate": 4.069607843137255e-05,
+      "loss": 0.0106,
+      "step": 1050
+    },
+    {
+      "epoch": 21.0,
+      "eval_f1_macro": 0.2594183553248198,
+      "eval_f1_micro": 0.6483600305110603,
+      "eval_loss": 0.04854930564761162,
+      "eval_precision": 0.7302405498281787,
+      "eval_recall": 0.5829903978052127,
+      "eval_runtime": 1.6818,
+      "eval_samples_per_second": 368.068,
+      "eval_steps_per_second": 15.46,
+      "step": 1092
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 2
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 6866097847547904.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1092/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f05e8606862008bfc17115034db9429cc42bab3677cf65b2b782cae0ed9dfed
+size 5368

checkpoint-1092/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1144/config.json ADDED Viewed

	@@ -0,0 +1,152 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "T1005",
+    "1": "T1021",
+    "2": "T1027",
+    "3": "T1033",
+    "4": "T1036",
+    "5": "T1041",
+    "6": "T1046",
+    "7": "T1048",
+    "8": "T1049",
+    "9": "T1053",
+    "10": "T1055",
+    "11": "T1056",
+    "12": "T1057",
+    "13": "T1059",
+    "14": "T1070",
+    "15": "T1071",
+    "16": "T1074",
+    "17": "T1078",
+    "18": "T1082",
+    "19": "T1083",
+    "20": "T1098",
+    "21": "T1102",
+    "22": "T1105",
+    "23": "T1110",
+    "24": "T1113",
+    "25": "T1114",
+    "26": "T1115",
+    "27": "T1132",
+    "28": "T1137",
+    "29": "T1140",
+    "30": "T1189",
+    "31": "T1190",
+    "32": "T1195",
+    "33": "T1203",
+    "34": "T1204",
+    "35": "T1218",
+    "36": "T1486",
+    "37": "T1491",
+    "38": "T1496",
+    "39": "T1497",
+    "40": "T1499",
+    "41": "T1528",
+    "42": "T1539",
+    "43": "T1547",
+    "44": "T1555",
+    "45": "T1557",
+    "46": "T1562",
+    "47": "T1564",
+    "48": "T1566",
+    "49": "T1567",
+    "50": "T1573",
+    "51": "T1574",
+    "52": "T1583",
+    "53": "T1586",
+    "54": "T1589",
+    "55": "T1606",
+    "56": "T1608",
+    "57": "T1614",
+    "58": "T1620",
+    "59": "T1623.001",
+    "60": "T1631.001"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "T1005": 0,
+    "T1021": 1,
+    "T1027": 2,
+    "T1033": 3,
+    "T1036": 4,
+    "T1041": 5,
+    "T1046": 6,
+    "T1048": 7,
+    "T1049": 8,
+    "T1053": 9,
+    "T1055": 10,
+    "T1056": 11,
+    "T1057": 12,
+    "T1059": 13,
+    "T1070": 14,
+    "T1071": 15,
+    "T1074": 16,
+    "T1078": 17,
+    "T1082": 18,
+    "T1083": 19,
+    "T1098": 20,
+    "T1102": 21,
+    "T1105": 22,
+    "T1110": 23,
+    "T1113": 24,
+    "T1114": 25,
+    "T1115": 26,
+    "T1132": 27,
+    "T1137": 28,
+    "T1140": 29,
+    "T1189": 30,
+    "T1190": 31,
+    "T1195": 32,
+    "T1203": 33,
+    "T1204": 34,
+    "T1218": 35,
+    "T1486": 36,
+    "T1491": 37,
+    "T1496": 38,
+    "T1497": 39,
+    "T1499": 40,
+    "T1528": 41,
+    "T1539": 42,
+    "T1547": 43,
+    "T1555": 44,
+    "T1557": 45,
+    "T1562": 46,
+    "T1564": 47,
+    "T1566": 48,
+    "T1567": 49,
+    "T1573": 50,
+    "T1574": 51,
+    "T1583": 52,
+    "T1586": 53,
+    "T1589": 54,
+    "T1606": 55,
+    "T1608": 56,
+    "T1614": 57,
+    "T1620": 58,
+    "T1623.001": 59,
+    "T1631.001": 60
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-1144/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:53292d8292e5eb8a125e883da4859b67e125c2bee626e465817107b0b47253db
+size 438140132

checkpoint-1144/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9b2648001073013c1199c297f7ad1e2eae82e586f6a7e90e534e4623fff849df
+size 876401210

checkpoint-1144/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:d08838643a7c90e6466d579ae7c80616e23efb3384b0f77a49923144d1295434
+size 14244

checkpoint-1144/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-1144/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:5fbc4ce20d003fb79e97683490de717af355afe30a4bbaf6a848254efd86ee97
+size 1064

checkpoint-1144/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1144/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1144/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1144/trainer_state.json ADDED Viewed

	@@ -0,0 +1,461 @@

+{
+  "best_global_step": 988,
+  "best_metric": 0.6585365853658537,
+  "best_model_checkpoint": "./cysecbert-ttp-annoctr_step2/checkpoint-988",
+  "epoch": 22.0,
+  "eval_steps": 500,
+  "global_step": 1144,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.9615384615384616,
+      "grad_norm": 35970.37109375,
+      "learning_rate": 2.45e-05,
+      "loss": 0.5612,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.33502161502838135,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6495,
+      "eval_samples_per_second": 375.276,
+      "eval_steps_per_second": 15.763,
+      "step": 52
+    },
+    {
+      "epoch": 1.9230769230769231,
+      "grad_norm": 10958.1689453125,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.214,
+      "step": 100
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.09798076748847961,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6513,
+      "eval_samples_per_second": 374.861,
+      "eval_steps_per_second": 15.745,
+      "step": 104
+    },
+    {
+      "epoch": 2.8846153846153846,
+      "grad_norm": 5634.60546875,
+      "learning_rate": 4.951960784313726e-05,
+      "loss": 0.0873,
+      "step": 150
+    },
+    {
+      "epoch": 3.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.07998213171958923,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6587,
+      "eval_samples_per_second": 373.195,
+      "eval_steps_per_second": 15.675,
+      "step": 156
+    },
+    {
+      "epoch": 3.8461538461538463,
+      "grad_norm": 6965.6220703125,
+      "learning_rate": 4.9029411764705883e-05,
+      "loss": 0.0791,
+      "step": 200
+    },
+    {
+      "epoch": 4.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.07983831316232681,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6476,
+      "eval_samples_per_second": 375.688,
+      "eval_steps_per_second": 15.78,
+      "step": 208
+    },
+    {
+      "epoch": 4.8076923076923075,
+      "grad_norm": 4831.40478515625,
+      "learning_rate": 4.8539215686274515e-05,
+      "loss": 0.0777,
+      "step": 250
+    },
+    {
+      "epoch": 5.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.07502060383558273,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 1.6796,
+      "eval_samples_per_second": 368.535,
+      "eval_steps_per_second": 15.48,
+      "step": 260
+    },
+    {
+      "epoch": 5.769230769230769,
+      "grad_norm": 7363.94580078125,
+      "learning_rate": 4.804901960784314e-05,
+      "loss": 0.0716,
+      "step": 300
+    },
+    {
+      "epoch": 6.0,
+      "eval_f1_macro": 0.038923099933562195,
+      "eval_f1_micro": 0.47416413373860183,
+      "eval_loss": 0.0661635547876358,
+      "eval_precision": 0.9069767441860465,
+      "eval_recall": 0.32098765432098764,
+      "eval_runtime": 1.6554,
+      "eval_samples_per_second": 373.937,
+      "eval_steps_per_second": 15.707,
+      "step": 312
+    },
+    {
+      "epoch": 6.730769230769231,
+      "grad_norm": 6673.61376953125,
+      "learning_rate": 4.7558823529411766e-05,
+      "loss": 0.0612,
+      "step": 350
+    },
+    {
+      "epoch": 7.0,
+      "eval_f1_macro": 0.04364161045234521,
+      "eval_f1_micro": 0.502835538752363,
+      "eval_loss": 0.061204444617033005,
+      "eval_precision": 0.8085106382978723,
+      "eval_recall": 0.36488340192043894,
+      "eval_runtime": 1.6748,
+      "eval_samples_per_second": 369.593,
+      "eval_steps_per_second": 15.524,
+      "step": 364
+    },
+    {
+      "epoch": 7.6923076923076925,
+      "grad_norm": 6426.9541015625,
+      "learning_rate": 4.70686274509804e-05,
+      "loss": 0.0526,
+      "step": 400
+    },
+    {
+      "epoch": 8.0,
+      "eval_f1_macro": 0.07288718124374782,
+      "eval_f1_micro": 0.5546522131887985,
+      "eval_loss": 0.05695081874728203,
+      "eval_precision": 0.8121693121693122,
+      "eval_recall": 0.42112482853223593,
+      "eval_runtime": 1.665,
+      "eval_samples_per_second": 371.782,
+      "eval_steps_per_second": 15.616,
+      "step": 416
+    },
+    {
+      "epoch": 8.653846153846153,
+      "grad_norm": 9758.2529296875,
+      "learning_rate": 4.6578431372549016e-05,
+      "loss": 0.0433,
+      "step": 450
+    },
+    {
+      "epoch": 9.0,
+      "eval_f1_macro": 0.07471540750966602,
+      "eval_f1_micro": 0.545950864422202,
+      "eval_loss": 0.05365221947431564,
+      "eval_precision": 0.8108108108108109,
+      "eval_recall": 0.411522633744856,
+      "eval_runtime": 1.6749,
+      "eval_samples_per_second": 369.564,
+      "eval_steps_per_second": 15.523,
+      "step": 468
+    },
+    {
+      "epoch": 9.615384615384615,
+      "grad_norm": 3793.51953125,
+      "learning_rate": 4.608823529411765e-05,
+      "loss": 0.0397,
+      "step": 500
+    },
+    {
+      "epoch": 10.0,
+      "eval_f1_macro": 0.12734138202225653,
+      "eval_f1_micro": 0.5939086294416244,
+      "eval_loss": 0.052679501473903656,
+      "eval_precision": 0.7748344370860927,
+      "eval_recall": 0.48148148148148145,
+      "eval_runtime": 1.6561,
+      "eval_samples_per_second": 373.762,
+      "eval_steps_per_second": 15.699,
+      "step": 520
+    },
+    {
+      "epoch": 10.576923076923077,
+      "grad_norm": 4446.76611328125,
+      "learning_rate": 4.559803921568628e-05,
+      "loss": 0.0329,
+      "step": 550
+    },
+    {
+      "epoch": 11.0,
+      "eval_f1_macro": 0.1493812021209619,
+      "eval_f1_micro": 0.609735269000854,
+      "eval_loss": 0.05011816695332527,
+      "eval_precision": 0.8076923076923077,
+      "eval_recall": 0.4897119341563786,
+      "eval_runtime": 1.6806,
+      "eval_samples_per_second": 368.324,
+      "eval_steps_per_second": 15.471,
+      "step": 572
+    },
+    {
+      "epoch": 11.538461538461538,
+      "grad_norm": 5606.7880859375,
+      "learning_rate": 4.51078431372549e-05,
+      "loss": 0.0286,
+      "step": 600
+    },
+    {
+      "epoch": 12.0,
+      "eval_f1_macro": 0.19655294907558352,
+      "eval_f1_micro": 0.6096959737058341,
+      "eval_loss": 0.05061562359333038,
+      "eval_precision": 0.7602459016393442,
+      "eval_recall": 0.5089163237311386,
+      "eval_runtime": 1.6713,
+      "eval_samples_per_second": 370.373,
+      "eval_steps_per_second": 15.557,
+      "step": 624
+    },
+    {
+      "epoch": 12.5,
+      "grad_norm": 5415.85546875,
+      "learning_rate": 4.461764705882353e-05,
+      "loss": 0.0254,
+      "step": 650
+    },
+    {
+      "epoch": 13.0,
+      "eval_f1_macro": 0.20270281237441773,
+      "eval_f1_micro": 0.6230831315577078,
+      "eval_loss": 0.04895725101232529,
+      "eval_precision": 0.7568627450980392,
+      "eval_recall": 0.5294924554183813,
+      "eval_runtime": 2.2359,
+      "eval_samples_per_second": 276.851,
+      "eval_steps_per_second": 11.629,
+      "step": 676
+    },
+    {
+      "epoch": 13.461538461538462,
+      "grad_norm": 6214.2744140625,
+      "learning_rate": 4.412745098039216e-05,
+      "loss": 0.023,
+      "step": 700
+    },
+    {
+      "epoch": 14.0,
+      "eval_f1_macro": 0.21593787964288247,
+      "eval_f1_micro": 0.6309904153354633,
+      "eval_loss": 0.047714490443468094,
+      "eval_precision": 0.7552581261950286,
+      "eval_recall": 0.541838134430727,
+      "eval_runtime": 1.7054,
+      "eval_samples_per_second": 362.956,
+      "eval_steps_per_second": 15.245,
+      "step": 728
+    },
+    {
+      "epoch": 14.423076923076923,
+      "grad_norm": 5322.5205078125,
+      "learning_rate": 4.363725490196079e-05,
+      "loss": 0.0202,
+      "step": 750
+    },
+    {
+      "epoch": 15.0,
+      "eval_f1_macro": 0.2127885503653234,
+      "eval_f1_micro": 0.6297739672642245,
+      "eval_loss": 0.04875025525689125,
+      "eval_precision": 0.7292418772563177,
+      "eval_recall": 0.5541838134430727,
+      "eval_runtime": 1.6728,
+      "eval_samples_per_second": 370.029,
+      "eval_steps_per_second": 15.542,
+      "step": 780
+    },
+    {
+      "epoch": 15.384615384615385,
+      "grad_norm": 3209.152587890625,
+      "learning_rate": 4.3147058823529413e-05,
+      "loss": 0.0186,
+      "step": 800
+    },
+    {
+      "epoch": 16.0,
+      "eval_f1_macro": 0.2234013473846607,
+      "eval_f1_micro": 0.6476484194294526,
+      "eval_loss": 0.04788675159215927,
+      "eval_precision": 0.7394366197183099,
+      "eval_recall": 0.5761316872427984,
+      "eval_runtime": 1.6703,
+      "eval_samples_per_second": 370.591,
+      "eval_steps_per_second": 15.566,
+      "step": 832
+    },
+    {
+      "epoch": 16.346153846153847,
+      "grad_norm": 6189.79296875,
+      "learning_rate": 4.265686274509804e-05,
+      "loss": 0.0166,
+      "step": 850
+    },
+    {
+      "epoch": 17.0,
+      "eval_f1_macro": 0.2461245877407925,
+      "eval_f1_micro": 0.6392067124332571,
+      "eval_loss": 0.047994960099458694,
+      "eval_precision": 0.7199312714776632,
+      "eval_recall": 0.5747599451303155,
+      "eval_runtime": 1.6784,
+      "eval_samples_per_second": 368.8,
+      "eval_steps_per_second": 15.491,
+      "step": 884
+    },
+    {
+      "epoch": 17.307692307692307,
+      "grad_norm": 2584.114013671875,
+      "learning_rate": 4.216666666666667e-05,
+      "loss": 0.0148,
+      "step": 900
+    },
+    {
+      "epoch": 18.0,
+      "eval_f1_macro": 0.2672202679954545,
+      "eval_f1_micro": 0.6533742331288344,
+      "eval_loss": 0.04750063270330429,
+      "eval_precision": 0.7408695652173913,
+      "eval_recall": 0.5843621399176955,
+      "eval_runtime": 1.6744,
+      "eval_samples_per_second": 369.683,
+      "eval_steps_per_second": 15.528,
+      "step": 936
+    },
+    {
+      "epoch": 18.26923076923077,
+      "grad_norm": 2617.191650390625,
+      "learning_rate": 4.1676470588235296e-05,
+      "loss": 0.0128,
+      "step": 950
+    },
+    {
+      "epoch": 19.0,
+      "eval_f1_macro": 0.25478648592377506,
+      "eval_f1_micro": 0.6585365853658537,
+      "eval_loss": 0.04794125631451607,
+      "eval_precision": 0.7409948542024014,
+      "eval_recall": 0.5925925925925926,
+      "eval_runtime": 1.6751,
+      "eval_samples_per_second": 369.525,
+      "eval_steps_per_second": 15.521,
+      "step": 988
+    },
+    {
+      "epoch": 19.23076923076923,
+      "grad_norm": 2930.471923828125,
+      "learning_rate": 4.118627450980392e-05,
+      "loss": 0.0116,
+      "step": 1000
+    },
+    {
+      "epoch": 20.0,
+      "eval_f1_macro": 0.2563341548388003,
+      "eval_f1_micro": 0.6470143613000756,
+      "eval_loss": 0.04850601404905319,
+      "eval_precision": 0.7205387205387206,
+      "eval_recall": 0.5871056241426612,
+      "eval_runtime": 1.6688,
+      "eval_samples_per_second": 370.936,
+      "eval_steps_per_second": 15.58,
+      "step": 1040
+    },
+    {
+      "epoch": 20.192307692307693,
+      "grad_norm": 2841.39111328125,
+      "learning_rate": 4.069607843137255e-05,
+      "loss": 0.0106,
+      "step": 1050
+    },
+    {
+      "epoch": 21.0,
+      "eval_f1_macro": 0.2594183553248198,
+      "eval_f1_micro": 0.6483600305110603,
+      "eval_loss": 0.04854930564761162,
+      "eval_precision": 0.7302405498281787,
+      "eval_recall": 0.5829903978052127,
+      "eval_runtime": 1.6818,
+      "eval_samples_per_second": 368.068,
+      "eval_steps_per_second": 15.46,
+      "step": 1092
+    },
+    {
+      "epoch": 21.153846153846153,
+      "grad_norm": 2682.0166015625,
+      "learning_rate": 4.020588235294118e-05,
+      "loss": 0.0096,
+      "step": 1100
+    },
+    {
+      "epoch": 22.0,
+      "eval_f1_macro": 0.2448587100305824,
+      "eval_f1_micro": 0.6454478164322723,
+      "eval_loss": 0.048451464623212814,
+      "eval_precision": 0.7009646302250804,
+      "eval_recall": 0.598079561042524,
+      "eval_runtime": 1.6836,
+      "eval_samples_per_second": 367.655,
+      "eval_steps_per_second": 15.443,
+      "step": 1144
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 5200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 100,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 5,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 3
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 7193054887907328.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-1144/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1f05e8606862008bfc17115034db9429cc42bab3677cf65b2b782cae0ed9dfed
+size 5368

checkpoint-1144/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1196/config.json ADDED Viewed

	@@ -0,0 +1,152 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "T1005",
+    "1": "T1021",
+    "2": "T1027",
+    "3": "T1033",
+    "4": "T1036",
+    "5": "T1041",
+    "6": "T1046",
+    "7": "T1048",
+    "8": "T1049",
+    "9": "T1053",
+    "10": "T1055",
+    "11": "T1056",
+    "12": "T1057",
+    "13": "T1059",
+    "14": "T1070",
+    "15": "T1071",
+    "16": "T1074",
+    "17": "T1078",
+    "18": "T1082",
+    "19": "T1083",
+    "20": "T1098",
+    "21": "T1102",
+    "22": "T1105",
+    "23": "T1110",
+    "24": "T1113",
+    "25": "T1114",
+    "26": "T1115",
+    "27": "T1132",
+    "28": "T1137",
+    "29": "T1140",
+    "30": "T1189",
+    "31": "T1190",
+    "32": "T1195",
+    "33": "T1203",
+    "34": "T1204",
+    "35": "T1218",
+    "36": "T1486",
+    "37": "T1491",
+    "38": "T1496",
+    "39": "T1497",
+    "40": "T1499",
+    "41": "T1528",
+    "42": "T1539",
+    "43": "T1547",
+    "44": "T1555",
+    "45": "T1557",
+    "46": "T1562",
+    "47": "T1564",
+    "48": "T1566",
+    "49": "T1567",
+    "50": "T1573",
+    "51": "T1574",
+    "52": "T1583",
+    "53": "T1586",
+    "54": "T1589",
+    "55": "T1606",
+    "56": "T1608",
+    "57": "T1614",
+    "58": "T1620",
+    "59": "T1623.001",
+    "60": "T1631.001"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "T1005": 0,
+    "T1021": 1,
+    "T1027": 2,
+    "T1033": 3,
+    "T1036": 4,
+    "T1041": 5,
+    "T1046": 6,
+    "T1048": 7,
+    "T1049": 8,
+    "T1053": 9,
+    "T1055": 10,
+    "T1056": 11,
+    "T1057": 12,
+    "T1059": 13,
+    "T1070": 14,
+    "T1071": 15,
+    "T1074": 16,
+    "T1078": 17,
+    "T1082": 18,
+    "T1083": 19,
+    "T1098": 20,
+    "T1102": 21,
+    "T1105": 22,
+    "T1110": 23,
+    "T1113": 24,
+    "T1114": 25,
+    "T1115": 26,
+    "T1132": 27,
+    "T1137": 28,
+    "T1140": 29,
+    "T1189": 30,
+    "T1190": 31,
+    "T1195": 32,
+    "T1203": 33,
+    "T1204": 34,
+    "T1218": 35,
+    "T1486": 36,
+    "T1491": 37,
+    "T1496": 38,
+    "T1497": 39,
+    "T1499": 40,
+    "T1528": 41,
+    "T1539": 42,
+    "T1547": 43,
+    "T1555": 44,
+    "T1557": 45,
+    "T1562": 46,
+    "T1564": 47,
+    "T1566": 48,
+    "T1567": 49,
+    "T1573": 50,
+    "T1574": 51,
+    "T1583": 52,
+    "T1586": 53,
+    "T1589": 54,
+    "T1606": 55,
+    "T1608": 56,
+    "T1614": 57,
+    "T1620": 58,
+    "T1623.001": 59,
+    "T1631.001": 60
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-1196/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:775d3d1a0bd8afff119f35e3fd6c8d5b7964891b3a9abbf7765ec715353f2f14
+size 438140132