CaffeineThief commited on Feb 3

Commit

bdf964e

verified ·

1 Parent(s): 539b6c1

Upload saved model files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-1080/config.json +130 -0
checkpoint-1080/model.safetensors +3 -0
checkpoint-1080/optimizer.pt +3 -0
checkpoint-1080/rng_state.pth +3 -0
checkpoint-1080/scaler.pt +3 -0
checkpoint-1080/scheduler.pt +3 -0
checkpoint-1080/special_tokens_map.json +37 -0
checkpoint-1080/tokenizer.json +0 -0
checkpoint-1080/tokenizer_config.json +56 -0
checkpoint-1080/trainer_state.json +0 -0
checkpoint-1080/training_args.bin +3 -0
checkpoint-1080/vocab.txt +0 -0
checkpoint-120/config.json +130 -0
checkpoint-120/model.safetensors +3 -0
checkpoint-120/optimizer.pt +3 -0
checkpoint-120/rng_state.pth +3 -0
checkpoint-120/scaler.pt +3 -0
checkpoint-120/scheduler.pt +3 -0
checkpoint-120/special_tokens_map.json +37 -0
checkpoint-120/tokenizer.json +0 -0
checkpoint-120/tokenizer_config.json +56 -0
checkpoint-120/trainer_state.json +886 -0
checkpoint-120/training_args.bin +3 -0
checkpoint-120/vocab.txt +0 -0
checkpoint-1200/config.json +130 -0
checkpoint-1200/model.safetensors +3 -0
checkpoint-1200/optimizer.pt +3 -0
checkpoint-1200/rng_state.pth +3 -0
checkpoint-1200/scaler.pt +3 -0
checkpoint-1200/scheduler.pt +3 -0
checkpoint-1200/special_tokens_map.json +37 -0
checkpoint-1200/tokenizer.json +0 -0
checkpoint-1200/tokenizer_config.json +56 -0
checkpoint-1200/trainer_state.json +0 -0
checkpoint-1200/training_args.bin +3 -0
checkpoint-1200/vocab.txt +0 -0
checkpoint-240/config.json +130 -0
checkpoint-240/model.safetensors +3 -0
checkpoint-240/optimizer.pt +3 -0
checkpoint-240/rng_state.pth +3 -0
checkpoint-240/scaler.pt +3 -0
checkpoint-240/scheduler.pt +3 -0
checkpoint-240/special_tokens_map.json +37 -0
checkpoint-240/tokenizer.json +0 -0
checkpoint-240/tokenizer_config.json +56 -0
checkpoint-240/trainer_state.json +1738 -0
checkpoint-240/training_args.bin +3 -0
checkpoint-240/vocab.txt +0 -0
checkpoint-360/config.json +130 -0
checkpoint-360/model.safetensors +3 -0

checkpoint-1080/config.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "T1003.001",
+    "1": "T1005",
+    "2": "T1012",
+    "3": "T1016",
+    "4": "T1021.001",
+    "5": "T1027",
+    "6": "T1033",
+    "7": "T1036.005",
+    "8": "T1041",
+    "9": "T1047",
+    "10": "T1053.005",
+    "11": "T1055",
+    "12": "T1056.001",
+    "13": "T1057",
+    "14": "T1059.003",
+    "15": "T1068",
+    "16": "T1070.004",
+    "17": "T1071.001",
+    "18": "T1072",
+    "19": "T1074.001",
+    "20": "T1078",
+    "21": "T1082",
+    "22": "T1083",
+    "23": "T1090",
+    "24": "T1095",
+    "25": "T1105",
+    "26": "T1106",
+    "27": "T1110",
+    "28": "T1112",
+    "29": "T1113",
+    "30": "T1140",
+    "31": "T1190",
+    "32": "T1204.002",
+    "33": "T1210",
+    "34": "T1218.011",
+    "35": "T1219",
+    "36": "T1484.001",
+    "37": "T1518.001",
+    "38": "T1543.003",
+    "39": "T1547.001",
+    "40": "T1548.002",
+    "41": "T1552.001",
+    "42": "T1557.001",
+    "43": "T1562.001",
+    "44": "T1564.001",
+    "45": "T1566.001",
+    "46": "T1569.002",
+    "47": "T1570",
+    "48": "T1573.001",
+    "49": "T1574.002"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "T1003.001": 0,
+    "T1005": 1,
+    "T1012": 2,
+    "T1016": 3,
+    "T1021.001": 4,
+    "T1027": 5,
+    "T1033": 6,
+    "T1036.005": 7,
+    "T1041": 8,
+    "T1047": 9,
+    "T1053.005": 10,
+    "T1055": 11,
+    "T1056.001": 12,
+    "T1057": 13,
+    "T1059.003": 14,
+    "T1068": 15,
+    "T1070.004": 16,
+    "T1071.001": 17,
+    "T1072": 18,
+    "T1074.001": 19,
+    "T1078": 20,
+    "T1082": 21,
+    "T1083": 22,
+    "T1090": 23,
+    "T1095": 24,
+    "T1105": 25,
+    "T1106": 26,
+    "T1110": 27,
+    "T1112": 28,
+    "T1113": 29,
+    "T1140": 30,
+    "T1190": 31,
+    "T1204.002": 32,
+    "T1210": 33,
+    "T1218.011": 34,
+    "T1219": 35,
+    "T1484.001": 36,
+    "T1518.001": 37,
+    "T1543.003": 38,
+    "T1547.001": 39,
+    "T1548.002": 40,
+    "T1552.001": 41,
+    "T1557.001": 42,
+    "T1562.001": 43,
+    "T1564.001": 44,
+    "T1566.001": 45,
+    "T1569.002": 46,
+    "T1570": 47,
+    "T1573.001": 48,
+    "T1574.002": 49
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-1080/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1ee15a5639bc3ad9397a2db7b850d0885be735d85fd524e828edcdce9f3316e5
+size 438106296

checkpoint-1080/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b3a9367b42d0899dd2cb9527d5fc098414b990cca7366393f5567ebff7490d32
+size 876333626

checkpoint-1080/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:a187c1f1cc6167177af92085f8231de15123eada48166c081f0e5a02659e76e5
+size 14244

checkpoint-1080/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-1080/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c2f4aee3d9e964f2973aaa9e847fd07b362f160f9383e94bb7d499346d0da15c
+size 1064

checkpoint-1080/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1080/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1080/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1080/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1080/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84b38cc83b3a41fa6c531ffc2fce557168d7eea296dc27400ca0cad58c63e8db
+size 5368

checkpoint-1080/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-120/config.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "T1003.001",
+    "1": "T1005",
+    "2": "T1012",
+    "3": "T1016",
+    "4": "T1021.001",
+    "5": "T1027",
+    "6": "T1033",
+    "7": "T1036.005",
+    "8": "T1041",
+    "9": "T1047",
+    "10": "T1053.005",
+    "11": "T1055",
+    "12": "T1056.001",
+    "13": "T1057",
+    "14": "T1059.003",
+    "15": "T1068",
+    "16": "T1070.004",
+    "17": "T1071.001",
+    "18": "T1072",
+    "19": "T1074.001",
+    "20": "T1078",
+    "21": "T1082",
+    "22": "T1083",
+    "23": "T1090",
+    "24": "T1095",
+    "25": "T1105",
+    "26": "T1106",
+    "27": "T1110",
+    "28": "T1112",
+    "29": "T1113",
+    "30": "T1140",
+    "31": "T1190",
+    "32": "T1204.002",
+    "33": "T1210",
+    "34": "T1218.011",
+    "35": "T1219",
+    "36": "T1484.001",
+    "37": "T1518.001",
+    "38": "T1543.003",
+    "39": "T1547.001",
+    "40": "T1548.002",
+    "41": "T1552.001",
+    "42": "T1557.001",
+    "43": "T1562.001",
+    "44": "T1564.001",
+    "45": "T1566.001",
+    "46": "T1569.002",
+    "47": "T1570",
+    "48": "T1573.001",
+    "49": "T1574.002"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "T1003.001": 0,
+    "T1005": 1,
+    "T1012": 2,
+    "T1016": 3,
+    "T1021.001": 4,
+    "T1027": 5,
+    "T1033": 6,
+    "T1036.005": 7,
+    "T1041": 8,
+    "T1047": 9,
+    "T1053.005": 10,
+    "T1055": 11,
+    "T1056.001": 12,
+    "T1057": 13,
+    "T1059.003": 14,
+    "T1068": 15,
+    "T1070.004": 16,
+    "T1071.001": 17,
+    "T1072": 18,
+    "T1074.001": 19,
+    "T1078": 20,
+    "T1082": 21,
+    "T1083": 22,
+    "T1090": 23,
+    "T1095": 24,
+    "T1105": 25,
+    "T1106": 26,
+    "T1110": 27,
+    "T1112": 28,
+    "T1113": 29,
+    "T1140": 30,
+    "T1190": 31,
+    "T1204.002": 32,
+    "T1210": 33,
+    "T1218.011": 34,
+    "T1219": 35,
+    "T1484.001": 36,
+    "T1518.001": 37,
+    "T1543.003": 38,
+    "T1547.001": 39,
+    "T1548.002": 40,
+    "T1552.001": 41,
+    "T1557.001": 42,
+    "T1562.001": 43,
+    "T1564.001": 44,
+    "T1566.001": 45,
+    "T1569.002": 46,
+    "T1570": 47,
+    "T1573.001": 48,
+    "T1574.002": 49
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-120/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4cb502270d6da305df71869cf64ed6983b3ccd4feb3543c5483f09396f74604f
+size 438106296

checkpoint-120/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:94126d351c7d66bbe377317cb216a37464dcbb8e635e7fbaf9237933e911f052
+size 876333626

checkpoint-120/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:494b7643d7945d85c2b10891c07f21bc273175bf95d2c62f8679871d1f3567f5
+size 14244

checkpoint-120/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-120/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:876801210d38ecf8e854b61b6c8fcaf3dff92f0793b73fbb68442c6b95bac0a8
+size 1064

checkpoint-120/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-120/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-120/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-120/trainer_state.json ADDED Viewed

	@@ -0,0 +1,886 @@

+{
+  "best_global_step": 120,
+  "best_metric": 0.0,
+  "best_model_checkpoint": "./cysecbert-ttp-bert-25per_ood_data/checkpoint-120",
+  "epoch": 1.0,
+  "eval_steps": 500,
+  "global_step": 120,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008333333333333333,
+      "grad_norm": 44649.65625,
+      "learning_rate": 0.0,
+      "loss": 0.688,
+      "step": 1
+    },
+    {
+      "epoch": 0.016666666666666666,
+      "grad_norm": 49860.90234375,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.6867,
+      "step": 2
+    },
+    {
+      "epoch": 0.025,
+      "grad_norm": 44687.42578125,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.6866,
+      "step": 3
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "grad_norm": 51534.46875,
+      "learning_rate": 1.5e-06,
+      "loss": 0.6857,
+      "step": 4
+    },
+    {
+      "epoch": 0.041666666666666664,
+      "grad_norm": 44336.78125,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6824,
+      "step": 5
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 46192.3984375,
+      "learning_rate": 2.5e-06,
+      "loss": 0.6799,
+      "step": 6
+    },
+    {
+      "epoch": 0.058333333333333334,
+      "grad_norm": 43591.48828125,
+      "learning_rate": 3e-06,
+      "loss": 0.6762,
+      "step": 7
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 48831.93359375,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.6767,
+      "step": 8
+    },
+    {
+      "epoch": 0.075,
+      "grad_norm": 119280.2734375,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.673,
+      "step": 9
+    },
+    {
+      "epoch": 0.08333333333333333,
+      "grad_norm": 46532.3671875,
+      "learning_rate": 4.5e-06,
+      "loss": 0.6693,
+      "step": 10
+    },
+    {
+      "epoch": 0.09166666666666666,
+      "grad_norm": 44995.81640625,
+      "learning_rate": 5e-06,
+      "loss": 0.6663,
+      "step": 11
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 45732.64453125,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.663,
+      "step": 12
+    },
+    {
+      "epoch": 0.10833333333333334,
+      "grad_norm": 45771.0234375,
+      "learning_rate": 6e-06,
+      "loss": 0.6549,
+      "step": 13
+    },
+    {
+      "epoch": 0.11666666666666667,
+      "grad_norm": 45296.47265625,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.6525,
+      "step": 14
+    },
+    {
+      "epoch": 0.125,
+      "grad_norm": 52268.5390625,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.6485,
+      "step": 15
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 50110.92578125,
+      "learning_rate": 7.5e-06,
+      "loss": 0.6391,
+      "step": 16
+    },
+    {
+      "epoch": 0.14166666666666666,
+      "grad_norm": 51549.265625,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.6349,
+      "step": 17
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 106632.3203125,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.6323,
+      "step": 18
+    },
+    {
+      "epoch": 0.15833333333333333,
+      "grad_norm": 57003.57421875,
+      "learning_rate": 9e-06,
+      "loss": 0.6226,
+      "step": 19
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 59664.578125,
+      "learning_rate": 9.5e-06,
+      "loss": 0.613,
+      "step": 20
+    },
+    {
+      "epoch": 0.175,
+      "grad_norm": 76325.9140625,
+      "learning_rate": 1e-05,
+      "loss": 0.5995,
+      "step": 21
+    },
+    {
+      "epoch": 0.18333333333333332,
+      "grad_norm": 66561.0234375,
+      "learning_rate": 1.05e-05,
+      "loss": 0.5864,
+      "step": 22
+    },
+    {
+      "epoch": 0.19166666666666668,
+      "grad_norm": 52762.265625,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.5768,
+      "step": 23
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 50716.7890625,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.5654,
+      "step": 24
+    },
+    {
+      "epoch": 0.20833333333333334,
+      "grad_norm": 53293.3046875,
+      "learning_rate": 1.2e-05,
+      "loss": 0.5525,
+      "step": 25
+    },
+    {
+      "epoch": 0.21666666666666667,
+      "grad_norm": 54021.37109375,
+      "learning_rate": 1.25e-05,
+      "loss": 0.5529,
+      "step": 26
+    },
+    {
+      "epoch": 0.225,
+      "grad_norm": 54463.3515625,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.5384,
+      "step": 27
+    },
+    {
+      "epoch": 0.23333333333333334,
+      "grad_norm": 77561.1484375,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.5316,
+      "step": 28
+    },
+    {
+      "epoch": 0.24166666666666667,
+      "grad_norm": 52105.3515625,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.5191,
+      "step": 29
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 46957.71484375,
+      "learning_rate": 1.45e-05,
+      "loss": 0.507,
+      "step": 30
+    },
+    {
+      "epoch": 0.25833333333333336,
+      "grad_norm": 46143.05078125,
+      "learning_rate": 1.5e-05,
+      "loss": 0.4961,
+      "step": 31
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 44479.36328125,
+      "learning_rate": 1.55e-05,
+      "loss": 0.4846,
+      "step": 32
+    },
+    {
+      "epoch": 0.275,
+      "grad_norm": 49707.58203125,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.4793,
+      "step": 33
+    },
+    {
+      "epoch": 0.2833333333333333,
+      "grad_norm": 46631.30078125,
+      "learning_rate": 1.65e-05,
+      "loss": 0.4686,
+      "step": 34
+    },
+    {
+      "epoch": 0.2916666666666667,
+      "grad_norm": 43869.328125,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.465,
+      "step": 35
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 42714.52734375,
+      "learning_rate": 1.75e-05,
+      "loss": 0.4569,
+      "step": 36
+    },
+    {
+      "epoch": 0.30833333333333335,
+      "grad_norm": 42391.1953125,
+      "learning_rate": 1.8e-05,
+      "loss": 0.4444,
+      "step": 37
+    },
+    {
+      "epoch": 0.31666666666666665,
+      "grad_norm": 42775.91796875,
+      "learning_rate": 1.85e-05,
+      "loss": 0.4346,
+      "step": 38
+    },
+    {
+      "epoch": 0.325,
+      "grad_norm": 45365.82421875,
+      "learning_rate": 1.9e-05,
+      "loss": 0.4334,
+      "step": 39
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 43367.6875,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.4211,
+      "step": 40
+    },
+    {
+      "epoch": 0.3416666666666667,
+      "grad_norm": 40098.22265625,
+      "learning_rate": 2e-05,
+      "loss": 0.4069,
+      "step": 41
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 39089.37109375,
+      "learning_rate": 2.05e-05,
+      "loss": 0.4048,
+      "step": 42
+    },
+    {
+      "epoch": 0.35833333333333334,
+      "grad_norm": 39849.1328125,
+      "learning_rate": 2.1e-05,
+      "loss": 0.3931,
+      "step": 43
+    },
+    {
+      "epoch": 0.36666666666666664,
+      "grad_norm": 39146.015625,
+      "learning_rate": 2.15e-05,
+      "loss": 0.3877,
+      "step": 44
+    },
+    {
+      "epoch": 0.375,
+      "grad_norm": 38992.43359375,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.3791,
+      "step": 45
+    },
+    {
+      "epoch": 0.38333333333333336,
+      "grad_norm": 37866.18359375,
+      "learning_rate": 2.25e-05,
+      "loss": 0.3726,
+      "step": 46
+    },
+    {
+      "epoch": 0.39166666666666666,
+      "grad_norm": 37756.671875,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.364,
+      "step": 47
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 37182.94921875,
+      "learning_rate": 2.35e-05,
+      "loss": 0.3605,
+      "step": 48
+    },
+    {
+      "epoch": 0.4083333333333333,
+      "grad_norm": 36981.40234375,
+      "learning_rate": 2.4e-05,
+      "loss": 0.3522,
+      "step": 49
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 36842.3984375,
+      "learning_rate": 2.45e-05,
+      "loss": 0.3421,
+      "step": 50
+    },
+    {
+      "epoch": 0.425,
+      "grad_norm": 35325.8828125,
+      "learning_rate": 2.5e-05,
+      "loss": 0.3442,
+      "step": 51
+    },
+    {
+      "epoch": 0.43333333333333335,
+      "grad_norm": 35363.078125,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.3318,
+      "step": 52
+    },
+    {
+      "epoch": 0.44166666666666665,
+      "grad_norm": 35645.59765625,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.3277,
+      "step": 53
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 34691.13671875,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 0.3171,
+      "step": 54
+    },
+    {
+      "epoch": 0.4583333333333333,
+      "grad_norm": 34211.484375,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.3084,
+      "step": 55
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "grad_norm": 33361.140625,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.3076,
+      "step": 56
+    },
+    {
+      "epoch": 0.475,
+      "grad_norm": 32967.97265625,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.298,
+      "step": 57
+    },
+    {
+      "epoch": 0.48333333333333334,
+      "grad_norm": 32798.56640625,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 0.2929,
+      "step": 58
+    },
+    {
+      "epoch": 0.49166666666666664,
+      "grad_norm": 31929.83203125,
+      "learning_rate": 2.9e-05,
+      "loss": 0.2907,
+      "step": 59
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 31776.216796875,
+      "learning_rate": 2.95e-05,
+      "loss": 0.2797,
+      "step": 60
+    },
+    {
+      "epoch": 0.5083333333333333,
+      "grad_norm": 31287.02734375,
+      "learning_rate": 3e-05,
+      "loss": 0.2724,
+      "step": 61
+    },
+    {
+      "epoch": 0.5166666666666667,
+      "grad_norm": 30368.2421875,
+      "learning_rate": 3.05e-05,
+      "loss": 0.2658,
+      "step": 62
+    },
+    {
+      "epoch": 0.525,
+      "grad_norm": 29610.740234375,
+      "learning_rate": 3.1e-05,
+      "loss": 0.2606,
+      "step": 63
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 29145.74609375,
+      "learning_rate": 3.15e-05,
+      "loss": 0.2556,
+      "step": 64
+    },
+    {
+      "epoch": 0.5416666666666666,
+      "grad_norm": 28216.568359375,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.253,
+      "step": 65
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 28172.978515625,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.2418,
+      "step": 66
+    },
+    {
+      "epoch": 0.5583333333333333,
+      "grad_norm": 26664.701171875,
+      "learning_rate": 3.3e-05,
+      "loss": 0.2427,
+      "step": 67
+    },
+    {
+      "epoch": 0.5666666666666667,
+      "grad_norm": 26883.462890625,
+      "learning_rate": 3.35e-05,
+      "loss": 0.2346,
+      "step": 68
+    },
+    {
+      "epoch": 0.575,
+      "grad_norm": 26251.072265625,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.2292,
+      "step": 69
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "grad_norm": 25158.37109375,
+      "learning_rate": 3.45e-05,
+      "loss": 0.2277,
+      "step": 70
+    },
+    {
+      "epoch": 0.5916666666666667,
+      "grad_norm": 25251.408203125,
+      "learning_rate": 3.5e-05,
+      "loss": 0.2119,
+      "step": 71
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 55416.34765625,
+      "learning_rate": 3.55e-05,
+      "loss": 0.2059,
+      "step": 72
+    },
+    {
+      "epoch": 0.6083333333333333,
+      "grad_norm": 23741.2421875,
+      "learning_rate": 3.6e-05,
+      "loss": 0.2014,
+      "step": 73
+    },
+    {
+      "epoch": 0.6166666666666667,
+      "grad_norm": 22732.470703125,
+      "learning_rate": 3.65e-05,
+      "loss": 0.2058,
+      "step": 74
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 22756.88671875,
+      "learning_rate": 3.7e-05,
+      "loss": 0.1922,
+      "step": 75
+    },
+    {
+      "epoch": 0.6333333333333333,
+      "grad_norm": 22566.482421875,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.1892,
+      "step": 76
+    },
+    {
+      "epoch": 0.6416666666666667,
+      "grad_norm": 21044.404296875,
+      "learning_rate": 3.8e-05,
+      "loss": 0.1895,
+      "step": 77
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 19801.0390625,
+      "learning_rate": 3.85e-05,
+      "loss": 0.2051,
+      "step": 78
+    },
+    {
+      "epoch": 0.6583333333333333,
+      "grad_norm": 20280.55078125,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.1739,
+      "step": 79
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 21561.10546875,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.1748,
+      "step": 80
+    },
+    {
+      "epoch": 0.675,
+      "grad_norm": 18942.365234375,
+      "learning_rate": 4e-05,
+      "loss": 0.1607,
+      "step": 81
+    },
+    {
+      "epoch": 0.6833333333333333,
+      "grad_norm": 18100.796875,
+      "learning_rate": 4.05e-05,
+      "loss": 0.1581,
+      "step": 82
+    },
+    {
+      "epoch": 0.6916666666666667,
+      "grad_norm": 17815.296875,
+      "learning_rate": 4.1e-05,
+      "loss": 0.1603,
+      "step": 83
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 17038.046875,
+      "learning_rate": 4.15e-05,
+      "loss": 0.1543,
+      "step": 84
+    },
+    {
+      "epoch": 0.7083333333333334,
+      "grad_norm": 16171.5625,
+      "learning_rate": 4.2e-05,
+      "loss": 0.1622,
+      "step": 85
+    },
+    {
+      "epoch": 0.7166666666666667,
+      "grad_norm": 15270.400390625,
+      "learning_rate": 4.25e-05,
+      "loss": 0.1621,
+      "step": 86
+    },
+    {
+      "epoch": 0.725,
+      "grad_norm": 15798.998046875,
+      "learning_rate": 4.3e-05,
+      "loss": 0.147,
+      "step": 87
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 14164.265625,
+      "learning_rate": 4.35e-05,
+      "loss": 0.1485,
+      "step": 88
+    },
+    {
+      "epoch": 0.7416666666666667,
+      "grad_norm": 15282.1884765625,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.1455,
+      "step": 89
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 14389.99609375,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.1358,
+      "step": 90
+    },
+    {
+      "epoch": 0.7583333333333333,
+      "grad_norm": 13489.986328125,
+      "learning_rate": 4.5e-05,
+      "loss": 0.1308,
+      "step": 91
+    },
+    {
+      "epoch": 0.7666666666666667,
+      "grad_norm": 12742.55078125,
+      "learning_rate": 4.55e-05,
+      "loss": 0.1409,
+      "step": 92
+    },
+    {
+      "epoch": 0.775,
+      "grad_norm": 11714.9228515625,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.1316,
+      "step": 93
+    },
+    {
+      "epoch": 0.7833333333333333,
+      "grad_norm": 11921.5185546875,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.1226,
+      "step": 94
+    },
+    {
+      "epoch": 0.7916666666666666,
+      "grad_norm": 11369.017578125,
+      "learning_rate": 4.7e-05,
+      "loss": 0.1302,
+      "step": 95
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 10840.740234375,
+      "learning_rate": 4.75e-05,
+      "loss": 0.1276,
+      "step": 96
+    },
+    {
+      "epoch": 0.8083333333333333,
+      "grad_norm": 10310.0458984375,
+      "learning_rate": 4.8e-05,
+      "loss": 0.1496,
+      "step": 97
+    },
+    {
+      "epoch": 0.8166666666666667,
+      "grad_norm": 10777.8271484375,
+      "learning_rate": 4.85e-05,
+      "loss": 0.1249,
+      "step": 98
+    },
+    {
+      "epoch": 0.825,
+      "grad_norm": 10753.0048828125,
+      "learning_rate": 4.9e-05,
+      "loss": 0.1336,
+      "step": 99
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 9117.2509765625,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.121,
+      "step": 100
+    },
+    {
+      "epoch": 0.8416666666666667,
+      "grad_norm": 10000.8408203125,
+      "learning_rate": 5e-05,
+      "loss": 0.1071,
+      "step": 101
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 9281.32421875,
+      "learning_rate": 4.995454545454546e-05,
+      "loss": 0.1183,
+      "step": 102
+    },
+    {
+      "epoch": 0.8583333333333333,
+      "grad_norm": 9341.63671875,
+      "learning_rate": 4.990909090909091e-05,
+      "loss": 0.1177,
+      "step": 103
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 8904.6572265625,
+      "learning_rate": 4.986363636363637e-05,
+      "loss": 0.1116,
+      "step": 104
+    },
+    {
+      "epoch": 0.875,
+      "grad_norm": 8144.94091796875,
+      "learning_rate": 4.981818181818182e-05,
+      "loss": 0.1083,
+      "step": 105
+    },
+    {
+      "epoch": 0.8833333333333333,
+      "grad_norm": 8514.19140625,
+      "learning_rate": 4.9772727272727275e-05,
+      "loss": 0.1208,
+      "step": 106
+    },
+    {
+      "epoch": 0.8916666666666667,
+      "grad_norm": 9342.4384765625,
+      "learning_rate": 4.9727272727272725e-05,
+      "loss": 0.108,
+      "step": 107
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 7503.6064453125,
+      "learning_rate": 4.968181818181818e-05,
+      "loss": 0.1121,
+      "step": 108
+    },
+    {
+      "epoch": 0.9083333333333333,
+      "grad_norm": 7928.822265625,
+      "learning_rate": 4.963636363636364e-05,
+      "loss": 0.1123,
+      "step": 109
+    },
+    {
+      "epoch": 0.9166666666666666,
+      "grad_norm": 7986.73388671875,
+      "learning_rate": 4.9590909090909096e-05,
+      "loss": 0.1028,
+      "step": 110
+    },
+    {
+      "epoch": 0.925,
+      "grad_norm": 7877.8583984375,
+      "learning_rate": 4.9545454545454553e-05,
+      "loss": 0.1077,
+      "step": 111
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 8335.400390625,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.1126,
+      "step": 112
+    },
+    {
+      "epoch": 0.9416666666666667,
+      "grad_norm": 7083.4833984375,
+      "learning_rate": 4.945454545454546e-05,
+      "loss": 0.1098,
+      "step": 113
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 9419.419921875,
+      "learning_rate": 4.940909090909091e-05,
+      "loss": 0.1058,
+      "step": 114
+    },
+    {
+      "epoch": 0.9583333333333334,
+      "grad_norm": 7879.18994140625,
+      "learning_rate": 4.936363636363637e-05,
+      "loss": 0.1081,
+      "step": 115
+    },
+    {
+      "epoch": 0.9666666666666667,
+      "grad_norm": 8113.90283203125,
+      "learning_rate": 4.931818181818182e-05,
+      "loss": 0.1075,
+      "step": 116
+    },
+    {
+      "epoch": 0.975,
+      "grad_norm": 7590.12744140625,
+      "learning_rate": 4.9272727272727276e-05,
+      "loss": 0.1041,
+      "step": 117
+    },
+    {
+      "epoch": 0.9833333333333333,
+      "grad_norm": 7461.189453125,
+      "learning_rate": 4.9227272727272726e-05,
+      "loss": 0.1064,
+      "step": 118
+    },
+    {
+      "epoch": 0.9916666666666667,
+      "grad_norm": 7857.06298828125,
+      "learning_rate": 4.9181818181818183e-05,
+      "loss": 0.1102,
+      "step": 119
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 34157.33203125,
+      "learning_rate": 4.913636363636364e-05,
+      "loss": 0.1032,
+      "step": 120
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.10901560634374619,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 0.8962,
+      "eval_samples_per_second": 354.843,
+      "eval_steps_per_second": 15.622,
+      "step": 120
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 752032250861568.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-120/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84b38cc83b3a41fa6c531ffc2fce557168d7eea296dc27400ca0cad58c63e8db
+size 5368

checkpoint-120/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1200/config.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "T1003.001",
+    "1": "T1005",
+    "2": "T1012",
+    "3": "T1016",
+    "4": "T1021.001",
+    "5": "T1027",
+    "6": "T1033",
+    "7": "T1036.005",
+    "8": "T1041",
+    "9": "T1047",
+    "10": "T1053.005",
+    "11": "T1055",
+    "12": "T1056.001",
+    "13": "T1057",
+    "14": "T1059.003",
+    "15": "T1068",
+    "16": "T1070.004",
+    "17": "T1071.001",
+    "18": "T1072",
+    "19": "T1074.001",
+    "20": "T1078",
+    "21": "T1082",
+    "22": "T1083",
+    "23": "T1090",
+    "24": "T1095",
+    "25": "T1105",
+    "26": "T1106",
+    "27": "T1110",
+    "28": "T1112",
+    "29": "T1113",
+    "30": "T1140",
+    "31": "T1190",
+    "32": "T1204.002",
+    "33": "T1210",
+    "34": "T1218.011",
+    "35": "T1219",
+    "36": "T1484.001",
+    "37": "T1518.001",
+    "38": "T1543.003",
+    "39": "T1547.001",
+    "40": "T1548.002",
+    "41": "T1552.001",
+    "42": "T1557.001",
+    "43": "T1562.001",
+    "44": "T1564.001",
+    "45": "T1566.001",
+    "46": "T1569.002",
+    "47": "T1570",
+    "48": "T1573.001",
+    "49": "T1574.002"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "T1003.001": 0,
+    "T1005": 1,
+    "T1012": 2,
+    "T1016": 3,
+    "T1021.001": 4,
+    "T1027": 5,
+    "T1033": 6,
+    "T1036.005": 7,
+    "T1041": 8,
+    "T1047": 9,
+    "T1053.005": 10,
+    "T1055": 11,
+    "T1056.001": 12,
+    "T1057": 13,
+    "T1059.003": 14,
+    "T1068": 15,
+    "T1070.004": 16,
+    "T1071.001": 17,
+    "T1072": 18,
+    "T1074.001": 19,
+    "T1078": 20,
+    "T1082": 21,
+    "T1083": 22,
+    "T1090": 23,
+    "T1095": 24,
+    "T1105": 25,
+    "T1106": 26,
+    "T1110": 27,
+    "T1112": 28,
+    "T1113": 29,
+    "T1140": 30,
+    "T1190": 31,
+    "T1204.002": 32,
+    "T1210": 33,
+    "T1218.011": 34,
+    "T1219": 35,
+    "T1484.001": 36,
+    "T1518.001": 37,
+    "T1543.003": 38,
+    "T1547.001": 39,
+    "T1548.002": 40,
+    "T1552.001": 41,
+    "T1557.001": 42,
+    "T1562.001": 43,
+    "T1564.001": 44,
+    "T1566.001": 45,
+    "T1569.002": 46,
+    "T1570": 47,
+    "T1573.001": 48,
+    "T1574.002": 49
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-1200/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7229b8963da97a1776c7170a00a3c184cce51d021a41d592c0055040c2d21178
+size 438106296

checkpoint-1200/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ef8ab7f0a022c79892bb5d087b213b924435cd07b4cddfc09a9a9cf8aa143dff
+size 876333626

checkpoint-1200/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:069b7fdd7340f3dd03f095241f597c2895cd7257195dd50765f9ff08b0ecc7cc
+size 14244

checkpoint-1200/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-1200/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:91e4eb7cd9d12f59e34fbe1b67158cadecdeb47748a3bd1a542758468e96c52c
+size 1064

checkpoint-1200/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-1200/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1200/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-1200/trainer_state.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-1200/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84b38cc83b3a41fa6c531ffc2fce557168d7eea296dc27400ca0cad58c63e8db
+size 5368

checkpoint-1200/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-240/config.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "T1003.001",
+    "1": "T1005",
+    "2": "T1012",
+    "3": "T1016",
+    "4": "T1021.001",
+    "5": "T1027",
+    "6": "T1033",
+    "7": "T1036.005",
+    "8": "T1041",
+    "9": "T1047",
+    "10": "T1053.005",
+    "11": "T1055",
+    "12": "T1056.001",
+    "13": "T1057",
+    "14": "T1059.003",
+    "15": "T1068",
+    "16": "T1070.004",
+    "17": "T1071.001",
+    "18": "T1072",
+    "19": "T1074.001",
+    "20": "T1078",
+    "21": "T1082",
+    "22": "T1083",
+    "23": "T1090",
+    "24": "T1095",
+    "25": "T1105",
+    "26": "T1106",
+    "27": "T1110",
+    "28": "T1112",
+    "29": "T1113",
+    "30": "T1140",
+    "31": "T1190",
+    "32": "T1204.002",
+    "33": "T1210",
+    "34": "T1218.011",
+    "35": "T1219",
+    "36": "T1484.001",
+    "37": "T1518.001",
+    "38": "T1543.003",
+    "39": "T1547.001",
+    "40": "T1548.002",
+    "41": "T1552.001",
+    "42": "T1557.001",
+    "43": "T1562.001",
+    "44": "T1564.001",
+    "45": "T1566.001",
+    "46": "T1569.002",
+    "47": "T1570",
+    "48": "T1573.001",
+    "49": "T1574.002"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "T1003.001": 0,
+    "T1005": 1,
+    "T1012": 2,
+    "T1016": 3,
+    "T1021.001": 4,
+    "T1027": 5,
+    "T1033": 6,
+    "T1036.005": 7,
+    "T1041": 8,
+    "T1047": 9,
+    "T1053.005": 10,
+    "T1055": 11,
+    "T1056.001": 12,
+    "T1057": 13,
+    "T1059.003": 14,
+    "T1068": 15,
+    "T1070.004": 16,
+    "T1071.001": 17,
+    "T1072": 18,
+    "T1074.001": 19,
+    "T1078": 20,
+    "T1082": 21,
+    "T1083": 22,
+    "T1090": 23,
+    "T1095": 24,
+    "T1105": 25,
+    "T1106": 26,
+    "T1110": 27,
+    "T1112": 28,
+    "T1113": 29,
+    "T1140": 30,
+    "T1190": 31,
+    "T1204.002": 32,
+    "T1210": 33,
+    "T1218.011": 34,
+    "T1219": 35,
+    "T1484.001": 36,
+    "T1518.001": 37,
+    "T1543.003": 38,
+    "T1547.001": 39,
+    "T1548.002": 40,
+    "T1552.001": 41,
+    "T1557.001": 42,
+    "T1562.001": 43,
+    "T1564.001": 44,
+    "T1566.001": 45,
+    "T1569.002": 46,
+    "T1570": 47,
+    "T1573.001": 48,
+    "T1574.002": 49
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-240/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:bf74ab022e235173a68d36b734861b403cf22859564320933ae58472de49041d
+size 438106296

checkpoint-240/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dc46728cc46ae60f0dceaeaeb54ff7169c8d3ed10edf9d005f35054a9fda735e
+size 876333626

checkpoint-240/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:81c4210d647a3f04240efbbbd2e120a06d6a5c91fad404654cec3a50df6b0471
+size 14244

checkpoint-240/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-240/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:55ec425a1e959fc72e5949a5e4d58589408fdf368647f2529a4265a4f313d111
+size 1064

checkpoint-240/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-240/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-240/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-240/trainer_state.json ADDED Viewed

	@@ -0,0 +1,1738 @@

+{
+  "best_global_step": 240,
+  "best_metric": 0.24436090225563908,
+  "best_model_checkpoint": "./cysecbert-ttp-bert-25per_ood_data/checkpoint-240",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 240,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.008333333333333333,
+      "grad_norm": 44649.65625,
+      "learning_rate": 0.0,
+      "loss": 0.688,
+      "step": 1
+    },
+    {
+      "epoch": 0.016666666666666666,
+      "grad_norm": 49860.90234375,
+      "learning_rate": 5.000000000000001e-07,
+      "loss": 0.6867,
+      "step": 2
+    },
+    {
+      "epoch": 0.025,
+      "grad_norm": 44687.42578125,
+      "learning_rate": 1.0000000000000002e-06,
+      "loss": 0.6866,
+      "step": 3
+    },
+    {
+      "epoch": 0.03333333333333333,
+      "grad_norm": 51534.46875,
+      "learning_rate": 1.5e-06,
+      "loss": 0.6857,
+      "step": 4
+    },
+    {
+      "epoch": 0.041666666666666664,
+      "grad_norm": 44336.78125,
+      "learning_rate": 2.0000000000000003e-06,
+      "loss": 0.6824,
+      "step": 5
+    },
+    {
+      "epoch": 0.05,
+      "grad_norm": 46192.3984375,
+      "learning_rate": 2.5e-06,
+      "loss": 0.6799,
+      "step": 6
+    },
+    {
+      "epoch": 0.058333333333333334,
+      "grad_norm": 43591.48828125,
+      "learning_rate": 3e-06,
+      "loss": 0.6762,
+      "step": 7
+    },
+    {
+      "epoch": 0.06666666666666667,
+      "grad_norm": 48831.93359375,
+      "learning_rate": 3.5000000000000004e-06,
+      "loss": 0.6767,
+      "step": 8
+    },
+    {
+      "epoch": 0.075,
+      "grad_norm": 119280.2734375,
+      "learning_rate": 4.000000000000001e-06,
+      "loss": 0.673,
+      "step": 9
+    },
+    {
+      "epoch": 0.08333333333333333,
+      "grad_norm": 46532.3671875,
+      "learning_rate": 4.5e-06,
+      "loss": 0.6693,
+      "step": 10
+    },
+    {
+      "epoch": 0.09166666666666666,
+      "grad_norm": 44995.81640625,
+      "learning_rate": 5e-06,
+      "loss": 0.6663,
+      "step": 11
+    },
+    {
+      "epoch": 0.1,
+      "grad_norm": 45732.64453125,
+      "learning_rate": 5.500000000000001e-06,
+      "loss": 0.663,
+      "step": 12
+    },
+    {
+      "epoch": 0.10833333333333334,
+      "grad_norm": 45771.0234375,
+      "learning_rate": 6e-06,
+      "loss": 0.6549,
+      "step": 13
+    },
+    {
+      "epoch": 0.11666666666666667,
+      "grad_norm": 45296.47265625,
+      "learning_rate": 6.5000000000000004e-06,
+      "loss": 0.6525,
+      "step": 14
+    },
+    {
+      "epoch": 0.125,
+      "grad_norm": 52268.5390625,
+      "learning_rate": 7.000000000000001e-06,
+      "loss": 0.6485,
+      "step": 15
+    },
+    {
+      "epoch": 0.13333333333333333,
+      "grad_norm": 50110.92578125,
+      "learning_rate": 7.5e-06,
+      "loss": 0.6391,
+      "step": 16
+    },
+    {
+      "epoch": 0.14166666666666666,
+      "grad_norm": 51549.265625,
+      "learning_rate": 8.000000000000001e-06,
+      "loss": 0.6349,
+      "step": 17
+    },
+    {
+      "epoch": 0.15,
+      "grad_norm": 106632.3203125,
+      "learning_rate": 8.500000000000002e-06,
+      "loss": 0.6323,
+      "step": 18
+    },
+    {
+      "epoch": 0.15833333333333333,
+      "grad_norm": 57003.57421875,
+      "learning_rate": 9e-06,
+      "loss": 0.6226,
+      "step": 19
+    },
+    {
+      "epoch": 0.16666666666666666,
+      "grad_norm": 59664.578125,
+      "learning_rate": 9.5e-06,
+      "loss": 0.613,
+      "step": 20
+    },
+    {
+      "epoch": 0.175,
+      "grad_norm": 76325.9140625,
+      "learning_rate": 1e-05,
+      "loss": 0.5995,
+      "step": 21
+    },
+    {
+      "epoch": 0.18333333333333332,
+      "grad_norm": 66561.0234375,
+      "learning_rate": 1.05e-05,
+      "loss": 0.5864,
+      "step": 22
+    },
+    {
+      "epoch": 0.19166666666666668,
+      "grad_norm": 52762.265625,
+      "learning_rate": 1.1000000000000001e-05,
+      "loss": 0.5768,
+      "step": 23
+    },
+    {
+      "epoch": 0.2,
+      "grad_norm": 50716.7890625,
+      "learning_rate": 1.1500000000000002e-05,
+      "loss": 0.5654,
+      "step": 24
+    },
+    {
+      "epoch": 0.20833333333333334,
+      "grad_norm": 53293.3046875,
+      "learning_rate": 1.2e-05,
+      "loss": 0.5525,
+      "step": 25
+    },
+    {
+      "epoch": 0.21666666666666667,
+      "grad_norm": 54021.37109375,
+      "learning_rate": 1.25e-05,
+      "loss": 0.5529,
+      "step": 26
+    },
+    {
+      "epoch": 0.225,
+      "grad_norm": 54463.3515625,
+      "learning_rate": 1.3000000000000001e-05,
+      "loss": 0.5384,
+      "step": 27
+    },
+    {
+      "epoch": 0.23333333333333334,
+      "grad_norm": 77561.1484375,
+      "learning_rate": 1.3500000000000001e-05,
+      "loss": 0.5316,
+      "step": 28
+    },
+    {
+      "epoch": 0.24166666666666667,
+      "grad_norm": 52105.3515625,
+      "learning_rate": 1.4000000000000001e-05,
+      "loss": 0.5191,
+      "step": 29
+    },
+    {
+      "epoch": 0.25,
+      "grad_norm": 46957.71484375,
+      "learning_rate": 1.45e-05,
+      "loss": 0.507,
+      "step": 30
+    },
+    {
+      "epoch": 0.25833333333333336,
+      "grad_norm": 46143.05078125,
+      "learning_rate": 1.5e-05,
+      "loss": 0.4961,
+      "step": 31
+    },
+    {
+      "epoch": 0.26666666666666666,
+      "grad_norm": 44479.36328125,
+      "learning_rate": 1.55e-05,
+      "loss": 0.4846,
+      "step": 32
+    },
+    {
+      "epoch": 0.275,
+      "grad_norm": 49707.58203125,
+      "learning_rate": 1.6000000000000003e-05,
+      "loss": 0.4793,
+      "step": 33
+    },
+    {
+      "epoch": 0.2833333333333333,
+      "grad_norm": 46631.30078125,
+      "learning_rate": 1.65e-05,
+      "loss": 0.4686,
+      "step": 34
+    },
+    {
+      "epoch": 0.2916666666666667,
+      "grad_norm": 43869.328125,
+      "learning_rate": 1.7000000000000003e-05,
+      "loss": 0.465,
+      "step": 35
+    },
+    {
+      "epoch": 0.3,
+      "grad_norm": 42714.52734375,
+      "learning_rate": 1.75e-05,
+      "loss": 0.4569,
+      "step": 36
+    },
+    {
+      "epoch": 0.30833333333333335,
+      "grad_norm": 42391.1953125,
+      "learning_rate": 1.8e-05,
+      "loss": 0.4444,
+      "step": 37
+    },
+    {
+      "epoch": 0.31666666666666665,
+      "grad_norm": 42775.91796875,
+      "learning_rate": 1.85e-05,
+      "loss": 0.4346,
+      "step": 38
+    },
+    {
+      "epoch": 0.325,
+      "grad_norm": 45365.82421875,
+      "learning_rate": 1.9e-05,
+      "loss": 0.4334,
+      "step": 39
+    },
+    {
+      "epoch": 0.3333333333333333,
+      "grad_norm": 43367.6875,
+      "learning_rate": 1.9500000000000003e-05,
+      "loss": 0.4211,
+      "step": 40
+    },
+    {
+      "epoch": 0.3416666666666667,
+      "grad_norm": 40098.22265625,
+      "learning_rate": 2e-05,
+      "loss": 0.4069,
+      "step": 41
+    },
+    {
+      "epoch": 0.35,
+      "grad_norm": 39089.37109375,
+      "learning_rate": 2.05e-05,
+      "loss": 0.4048,
+      "step": 42
+    },
+    {
+      "epoch": 0.35833333333333334,
+      "grad_norm": 39849.1328125,
+      "learning_rate": 2.1e-05,
+      "loss": 0.3931,
+      "step": 43
+    },
+    {
+      "epoch": 0.36666666666666664,
+      "grad_norm": 39146.015625,
+      "learning_rate": 2.15e-05,
+      "loss": 0.3877,
+      "step": 44
+    },
+    {
+      "epoch": 0.375,
+      "grad_norm": 38992.43359375,
+      "learning_rate": 2.2000000000000003e-05,
+      "loss": 0.3791,
+      "step": 45
+    },
+    {
+      "epoch": 0.38333333333333336,
+      "grad_norm": 37866.18359375,
+      "learning_rate": 2.25e-05,
+      "loss": 0.3726,
+      "step": 46
+    },
+    {
+      "epoch": 0.39166666666666666,
+      "grad_norm": 37756.671875,
+      "learning_rate": 2.3000000000000003e-05,
+      "loss": 0.364,
+      "step": 47
+    },
+    {
+      "epoch": 0.4,
+      "grad_norm": 37182.94921875,
+      "learning_rate": 2.35e-05,
+      "loss": 0.3605,
+      "step": 48
+    },
+    {
+      "epoch": 0.4083333333333333,
+      "grad_norm": 36981.40234375,
+      "learning_rate": 2.4e-05,
+      "loss": 0.3522,
+      "step": 49
+    },
+    {
+      "epoch": 0.4166666666666667,
+      "grad_norm": 36842.3984375,
+      "learning_rate": 2.45e-05,
+      "loss": 0.3421,
+      "step": 50
+    },
+    {
+      "epoch": 0.425,
+      "grad_norm": 35325.8828125,
+      "learning_rate": 2.5e-05,
+      "loss": 0.3442,
+      "step": 51
+    },
+    {
+      "epoch": 0.43333333333333335,
+      "grad_norm": 35363.078125,
+      "learning_rate": 2.5500000000000003e-05,
+      "loss": 0.3318,
+      "step": 52
+    },
+    {
+      "epoch": 0.44166666666666665,
+      "grad_norm": 35645.59765625,
+      "learning_rate": 2.6000000000000002e-05,
+      "loss": 0.3277,
+      "step": 53
+    },
+    {
+      "epoch": 0.45,
+      "grad_norm": 34691.13671875,
+      "learning_rate": 2.6500000000000004e-05,
+      "loss": 0.3171,
+      "step": 54
+    },
+    {
+      "epoch": 0.4583333333333333,
+      "grad_norm": 34211.484375,
+      "learning_rate": 2.7000000000000002e-05,
+      "loss": 0.3084,
+      "step": 55
+    },
+    {
+      "epoch": 0.4666666666666667,
+      "grad_norm": 33361.140625,
+      "learning_rate": 2.7500000000000004e-05,
+      "loss": 0.3076,
+      "step": 56
+    },
+    {
+      "epoch": 0.475,
+      "grad_norm": 32967.97265625,
+      "learning_rate": 2.8000000000000003e-05,
+      "loss": 0.298,
+      "step": 57
+    },
+    {
+      "epoch": 0.48333333333333334,
+      "grad_norm": 32798.56640625,
+      "learning_rate": 2.8499999999999998e-05,
+      "loss": 0.2929,
+      "step": 58
+    },
+    {
+      "epoch": 0.49166666666666664,
+      "grad_norm": 31929.83203125,
+      "learning_rate": 2.9e-05,
+      "loss": 0.2907,
+      "step": 59
+    },
+    {
+      "epoch": 0.5,
+      "grad_norm": 31776.216796875,
+      "learning_rate": 2.95e-05,
+      "loss": 0.2797,
+      "step": 60
+    },
+    {
+      "epoch": 0.5083333333333333,
+      "grad_norm": 31287.02734375,
+      "learning_rate": 3e-05,
+      "loss": 0.2724,
+      "step": 61
+    },
+    {
+      "epoch": 0.5166666666666667,
+      "grad_norm": 30368.2421875,
+      "learning_rate": 3.05e-05,
+      "loss": 0.2658,
+      "step": 62
+    },
+    {
+      "epoch": 0.525,
+      "grad_norm": 29610.740234375,
+      "learning_rate": 3.1e-05,
+      "loss": 0.2606,
+      "step": 63
+    },
+    {
+      "epoch": 0.5333333333333333,
+      "grad_norm": 29145.74609375,
+      "learning_rate": 3.15e-05,
+      "loss": 0.2556,
+      "step": 64
+    },
+    {
+      "epoch": 0.5416666666666666,
+      "grad_norm": 28216.568359375,
+      "learning_rate": 3.2000000000000005e-05,
+      "loss": 0.253,
+      "step": 65
+    },
+    {
+      "epoch": 0.55,
+      "grad_norm": 28172.978515625,
+      "learning_rate": 3.2500000000000004e-05,
+      "loss": 0.2418,
+      "step": 66
+    },
+    {
+      "epoch": 0.5583333333333333,
+      "grad_norm": 26664.701171875,
+      "learning_rate": 3.3e-05,
+      "loss": 0.2427,
+      "step": 67
+    },
+    {
+      "epoch": 0.5666666666666667,
+      "grad_norm": 26883.462890625,
+      "learning_rate": 3.35e-05,
+      "loss": 0.2346,
+      "step": 68
+    },
+    {
+      "epoch": 0.575,
+      "grad_norm": 26251.072265625,
+      "learning_rate": 3.4000000000000007e-05,
+      "loss": 0.2292,
+      "step": 69
+    },
+    {
+      "epoch": 0.5833333333333334,
+      "grad_norm": 25158.37109375,
+      "learning_rate": 3.45e-05,
+      "loss": 0.2277,
+      "step": 70
+    },
+    {
+      "epoch": 0.5916666666666667,
+      "grad_norm": 25251.408203125,
+      "learning_rate": 3.5e-05,
+      "loss": 0.2119,
+      "step": 71
+    },
+    {
+      "epoch": 0.6,
+      "grad_norm": 55416.34765625,
+      "learning_rate": 3.55e-05,
+      "loss": 0.2059,
+      "step": 72
+    },
+    {
+      "epoch": 0.6083333333333333,
+      "grad_norm": 23741.2421875,
+      "learning_rate": 3.6e-05,
+      "loss": 0.2014,
+      "step": 73
+    },
+    {
+      "epoch": 0.6166666666666667,
+      "grad_norm": 22732.470703125,
+      "learning_rate": 3.65e-05,
+      "loss": 0.2058,
+      "step": 74
+    },
+    {
+      "epoch": 0.625,
+      "grad_norm": 22756.88671875,
+      "learning_rate": 3.7e-05,
+      "loss": 0.1922,
+      "step": 75
+    },
+    {
+      "epoch": 0.6333333333333333,
+      "grad_norm": 22566.482421875,
+      "learning_rate": 3.7500000000000003e-05,
+      "loss": 0.1892,
+      "step": 76
+    },
+    {
+      "epoch": 0.6416666666666667,
+      "grad_norm": 21044.404296875,
+      "learning_rate": 3.8e-05,
+      "loss": 0.1895,
+      "step": 77
+    },
+    {
+      "epoch": 0.65,
+      "grad_norm": 19801.0390625,
+      "learning_rate": 3.85e-05,
+      "loss": 0.2051,
+      "step": 78
+    },
+    {
+      "epoch": 0.6583333333333333,
+      "grad_norm": 20280.55078125,
+      "learning_rate": 3.9000000000000006e-05,
+      "loss": 0.1739,
+      "step": 79
+    },
+    {
+      "epoch": 0.6666666666666666,
+      "grad_norm": 21561.10546875,
+      "learning_rate": 3.9500000000000005e-05,
+      "loss": 0.1748,
+      "step": 80
+    },
+    {
+      "epoch": 0.675,
+      "grad_norm": 18942.365234375,
+      "learning_rate": 4e-05,
+      "loss": 0.1607,
+      "step": 81
+    },
+    {
+      "epoch": 0.6833333333333333,
+      "grad_norm": 18100.796875,
+      "learning_rate": 4.05e-05,
+      "loss": 0.1581,
+      "step": 82
+    },
+    {
+      "epoch": 0.6916666666666667,
+      "grad_norm": 17815.296875,
+      "learning_rate": 4.1e-05,
+      "loss": 0.1603,
+      "step": 83
+    },
+    {
+      "epoch": 0.7,
+      "grad_norm": 17038.046875,
+      "learning_rate": 4.15e-05,
+      "loss": 0.1543,
+      "step": 84
+    },
+    {
+      "epoch": 0.7083333333333334,
+      "grad_norm": 16171.5625,
+      "learning_rate": 4.2e-05,
+      "loss": 0.1622,
+      "step": 85
+    },
+    {
+      "epoch": 0.7166666666666667,
+      "grad_norm": 15270.400390625,
+      "learning_rate": 4.25e-05,
+      "loss": 0.1621,
+      "step": 86
+    },
+    {
+      "epoch": 0.725,
+      "grad_norm": 15798.998046875,
+      "learning_rate": 4.3e-05,
+      "loss": 0.147,
+      "step": 87
+    },
+    {
+      "epoch": 0.7333333333333333,
+      "grad_norm": 14164.265625,
+      "learning_rate": 4.35e-05,
+      "loss": 0.1485,
+      "step": 88
+    },
+    {
+      "epoch": 0.7416666666666667,
+      "grad_norm": 15282.1884765625,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.1455,
+      "step": 89
+    },
+    {
+      "epoch": 0.75,
+      "grad_norm": 14389.99609375,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.1358,
+      "step": 90
+    },
+    {
+      "epoch": 0.7583333333333333,
+      "grad_norm": 13489.986328125,
+      "learning_rate": 4.5e-05,
+      "loss": 0.1308,
+      "step": 91
+    },
+    {
+      "epoch": 0.7666666666666667,
+      "grad_norm": 12742.55078125,
+      "learning_rate": 4.55e-05,
+      "loss": 0.1409,
+      "step": 92
+    },
+    {
+      "epoch": 0.775,
+      "grad_norm": 11714.9228515625,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.1316,
+      "step": 93
+    },
+    {
+      "epoch": 0.7833333333333333,
+      "grad_norm": 11921.5185546875,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.1226,
+      "step": 94
+    },
+    {
+      "epoch": 0.7916666666666666,
+      "grad_norm": 11369.017578125,
+      "learning_rate": 4.7e-05,
+      "loss": 0.1302,
+      "step": 95
+    },
+    {
+      "epoch": 0.8,
+      "grad_norm": 10840.740234375,
+      "learning_rate": 4.75e-05,
+      "loss": 0.1276,
+      "step": 96
+    },
+    {
+      "epoch": 0.8083333333333333,
+      "grad_norm": 10310.0458984375,
+      "learning_rate": 4.8e-05,
+      "loss": 0.1496,
+      "step": 97
+    },
+    {
+      "epoch": 0.8166666666666667,
+      "grad_norm": 10777.8271484375,
+      "learning_rate": 4.85e-05,
+      "loss": 0.1249,
+      "step": 98
+    },
+    {
+      "epoch": 0.825,
+      "grad_norm": 10753.0048828125,
+      "learning_rate": 4.9e-05,
+      "loss": 0.1336,
+      "step": 99
+    },
+    {
+      "epoch": 0.8333333333333334,
+      "grad_norm": 9117.2509765625,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.121,
+      "step": 100
+    },
+    {
+      "epoch": 0.8416666666666667,
+      "grad_norm": 10000.8408203125,
+      "learning_rate": 5e-05,
+      "loss": 0.1071,
+      "step": 101
+    },
+    {
+      "epoch": 0.85,
+      "grad_norm": 9281.32421875,
+      "learning_rate": 4.995454545454546e-05,
+      "loss": 0.1183,
+      "step": 102
+    },
+    {
+      "epoch": 0.8583333333333333,
+      "grad_norm": 9341.63671875,
+      "learning_rate": 4.990909090909091e-05,
+      "loss": 0.1177,
+      "step": 103
+    },
+    {
+      "epoch": 0.8666666666666667,
+      "grad_norm": 8904.6572265625,
+      "learning_rate": 4.986363636363637e-05,
+      "loss": 0.1116,
+      "step": 104
+    },
+    {
+      "epoch": 0.875,
+      "grad_norm": 8144.94091796875,
+      "learning_rate": 4.981818181818182e-05,
+      "loss": 0.1083,
+      "step": 105
+    },
+    {
+      "epoch": 0.8833333333333333,
+      "grad_norm": 8514.19140625,
+      "learning_rate": 4.9772727272727275e-05,
+      "loss": 0.1208,
+      "step": 106
+    },
+    {
+      "epoch": 0.8916666666666667,
+      "grad_norm": 9342.4384765625,
+      "learning_rate": 4.9727272727272725e-05,
+      "loss": 0.108,
+      "step": 107
+    },
+    {
+      "epoch": 0.9,
+      "grad_norm": 7503.6064453125,
+      "learning_rate": 4.968181818181818e-05,
+      "loss": 0.1121,
+      "step": 108
+    },
+    {
+      "epoch": 0.9083333333333333,
+      "grad_norm": 7928.822265625,
+      "learning_rate": 4.963636363636364e-05,
+      "loss": 0.1123,
+      "step": 109
+    },
+    {
+      "epoch": 0.9166666666666666,
+      "grad_norm": 7986.73388671875,
+      "learning_rate": 4.9590909090909096e-05,
+      "loss": 0.1028,
+      "step": 110
+    },
+    {
+      "epoch": 0.925,
+      "grad_norm": 7877.8583984375,
+      "learning_rate": 4.9545454545454553e-05,
+      "loss": 0.1077,
+      "step": 111
+    },
+    {
+      "epoch": 0.9333333333333333,
+      "grad_norm": 8335.400390625,
+      "learning_rate": 4.9500000000000004e-05,
+      "loss": 0.1126,
+      "step": 112
+    },
+    {
+      "epoch": 0.9416666666666667,
+      "grad_norm": 7083.4833984375,
+      "learning_rate": 4.945454545454546e-05,
+      "loss": 0.1098,
+      "step": 113
+    },
+    {
+      "epoch": 0.95,
+      "grad_norm": 9419.419921875,
+      "learning_rate": 4.940909090909091e-05,
+      "loss": 0.1058,
+      "step": 114
+    },
+    {
+      "epoch": 0.9583333333333334,
+      "grad_norm": 7879.18994140625,
+      "learning_rate": 4.936363636363637e-05,
+      "loss": 0.1081,
+      "step": 115
+    },
+    {
+      "epoch": 0.9666666666666667,
+      "grad_norm": 8113.90283203125,
+      "learning_rate": 4.931818181818182e-05,
+      "loss": 0.1075,
+      "step": 116
+    },
+    {
+      "epoch": 0.975,
+      "grad_norm": 7590.12744140625,
+      "learning_rate": 4.9272727272727276e-05,
+      "loss": 0.1041,
+      "step": 117
+    },
+    {
+      "epoch": 0.9833333333333333,
+      "grad_norm": 7461.189453125,
+      "learning_rate": 4.9227272727272726e-05,
+      "loss": 0.1064,
+      "step": 118
+    },
+    {
+      "epoch": 0.9916666666666667,
+      "grad_norm": 7857.06298828125,
+      "learning_rate": 4.9181818181818183e-05,
+      "loss": 0.1102,
+      "step": 119
+    },
+    {
+      "epoch": 1.0,
+      "grad_norm": 34157.33203125,
+      "learning_rate": 4.913636363636364e-05,
+      "loss": 0.1032,
+      "step": 120
+    },
+    {
+      "epoch": 1.0,
+      "eval_f1_macro": 0.0,
+      "eval_f1_micro": 0.0,
+      "eval_loss": 0.10901560634374619,
+      "eval_precision": 0.0,
+      "eval_recall": 0.0,
+      "eval_runtime": 0.8962,
+      "eval_samples_per_second": 354.843,
+      "eval_steps_per_second": 15.622,
+      "step": 120
+    },
+    {
+      "epoch": 1.0083333333333333,
+      "grad_norm": 7351.72998046875,
+      "learning_rate": 4.909090909090909e-05,
+      "loss": 0.1147,
+      "step": 121
+    },
+    {
+      "epoch": 1.0166666666666666,
+      "grad_norm": 8307.1962890625,
+      "learning_rate": 4.904545454545455e-05,
+      "loss": 0.1115,
+      "step": 122
+    },
+    {
+      "epoch": 1.025,
+      "grad_norm": 8783.328125,
+      "learning_rate": 4.9e-05,
+      "loss": 0.0979,
+      "step": 123
+    },
+    {
+      "epoch": 1.0333333333333334,
+      "grad_norm": 7471.53857421875,
+      "learning_rate": 4.8954545454545456e-05,
+      "loss": 0.1015,
+      "step": 124
+    },
+    {
+      "epoch": 1.0416666666666667,
+      "grad_norm": 8831.017578125,
+      "learning_rate": 4.890909090909091e-05,
+      "loss": 0.1177,
+      "step": 125
+    },
+    {
+      "epoch": 1.05,
+      "grad_norm": 8687.0224609375,
+      "learning_rate": 4.886363636363637e-05,
+      "loss": 0.1101,
+      "step": 126
+    },
+    {
+      "epoch": 1.0583333333333333,
+      "grad_norm": 7138.138671875,
+      "learning_rate": 4.881818181818182e-05,
+      "loss": 0.111,
+      "step": 127
+    },
+    {
+      "epoch": 1.0666666666666667,
+      "grad_norm": 7717.380859375,
+      "learning_rate": 4.877272727272728e-05,
+      "loss": 0.0995,
+      "step": 128
+    },
+    {
+      "epoch": 1.075,
+      "grad_norm": 6875.6474609375,
+      "learning_rate": 4.872727272727273e-05,
+      "loss": 0.1094,
+      "step": 129
+    },
+    {
+      "epoch": 1.0833333333333333,
+      "grad_norm": 8128.5595703125,
+      "learning_rate": 4.8681818181818185e-05,
+      "loss": 0.116,
+      "step": 130
+    },
+    {
+      "epoch": 1.0916666666666666,
+      "grad_norm": 8500.302734375,
+      "learning_rate": 4.863636363636364e-05,
+      "loss": 0.1195,
+      "step": 131
+    },
+    {
+      "epoch": 1.1,
+      "grad_norm": 6833.93701171875,
+      "learning_rate": 4.859090909090909e-05,
+      "loss": 0.1136,
+      "step": 132
+    },
+    {
+      "epoch": 1.1083333333333334,
+      "grad_norm": 8277.92578125,
+      "learning_rate": 4.854545454545455e-05,
+      "loss": 0.113,
+      "step": 133
+    },
+    {
+      "epoch": 1.1166666666666667,
+      "grad_norm": 6291.90380859375,
+      "learning_rate": 4.85e-05,
+      "loss": 0.0971,
+      "step": 134
+    },
+    {
+      "epoch": 1.125,
+      "grad_norm": 7217.54345703125,
+      "learning_rate": 4.845454545454546e-05,
+      "loss": 0.1095,
+      "step": 135
+    },
+    {
+      "epoch": 1.1333333333333333,
+      "grad_norm": 9153.27734375,
+      "learning_rate": 4.840909090909091e-05,
+      "loss": 0.1238,
+      "step": 136
+    },
+    {
+      "epoch": 1.1416666666666666,
+      "grad_norm": 7221.31884765625,
+      "learning_rate": 4.8363636363636364e-05,
+      "loss": 0.1049,
+      "step": 137
+    },
+    {
+      "epoch": 1.15,
+      "grad_norm": 7583.30126953125,
+      "learning_rate": 4.8318181818181815e-05,
+      "loss": 0.0962,
+      "step": 138
+    },
+    {
+      "epoch": 1.1583333333333332,
+      "grad_norm": 7487.25927734375,
+      "learning_rate": 4.827272727272727e-05,
+      "loss": 0.1068,
+      "step": 139
+    },
+    {
+      "epoch": 1.1666666666666667,
+      "grad_norm": 8195.296875,
+      "learning_rate": 4.822727272727273e-05,
+      "loss": 0.1065,
+      "step": 140
+    },
+    {
+      "epoch": 1.175,
+      "grad_norm": 7319.97119140625,
+      "learning_rate": 4.8181818181818186e-05,
+      "loss": 0.1163,
+      "step": 141
+    },
+    {
+      "epoch": 1.1833333333333333,
+      "grad_norm": 7353.1728515625,
+      "learning_rate": 4.813636363636364e-05,
+      "loss": 0.1033,
+      "step": 142
+    },
+    {
+      "epoch": 1.1916666666666667,
+      "grad_norm": 6305.76025390625,
+      "learning_rate": 4.8090909090909094e-05,
+      "loss": 0.107,
+      "step": 143
+    },
+    {
+      "epoch": 1.2,
+      "grad_norm": 7193.05322265625,
+      "learning_rate": 4.804545454545455e-05,
+      "loss": 0.1054,
+      "step": 144
+    },
+    {
+      "epoch": 1.2083333333333333,
+      "grad_norm": 8265.4169921875,
+      "learning_rate": 4.8e-05,
+      "loss": 0.1064,
+      "step": 145
+    },
+    {
+      "epoch": 1.2166666666666668,
+      "grad_norm": 7570.91357421875,
+      "learning_rate": 4.795454545454546e-05,
+      "loss": 0.0951,
+      "step": 146
+    },
+    {
+      "epoch": 1.225,
+      "grad_norm": 7928.24755859375,
+      "learning_rate": 4.790909090909091e-05,
+      "loss": 0.1174,
+      "step": 147
+    },
+    {
+      "epoch": 1.2333333333333334,
+      "grad_norm": 8941.95703125,
+      "learning_rate": 4.7863636363636366e-05,
+      "loss": 0.138,
+      "step": 148
+    },
+    {
+      "epoch": 1.2416666666666667,
+      "grad_norm": 8456.47265625,
+      "learning_rate": 4.781818181818182e-05,
+      "loss": 0.1046,
+      "step": 149
+    },
+    {
+      "epoch": 1.25,
+      "grad_norm": 7923.06982421875,
+      "learning_rate": 4.777272727272727e-05,
+      "loss": 0.1076,
+      "step": 150
+    },
+    {
+      "epoch": 1.2583333333333333,
+      "grad_norm": 8985.126953125,
+      "learning_rate": 4.772727272727273e-05,
+      "loss": 0.1035,
+      "step": 151
+    },
+    {
+      "epoch": 1.2666666666666666,
+      "grad_norm": 7761.240234375,
+      "learning_rate": 4.768181818181818e-05,
+      "loss": 0.1027,
+      "step": 152
+    },
+    {
+      "epoch": 1.275,
+      "grad_norm": 8492.732421875,
+      "learning_rate": 4.763636363636364e-05,
+      "loss": 0.1081,
+      "step": 153
+    },
+    {
+      "epoch": 1.2833333333333332,
+      "grad_norm": 7053.7744140625,
+      "learning_rate": 4.759090909090909e-05,
+      "loss": 0.0934,
+      "step": 154
+    },
+    {
+      "epoch": 1.2916666666666667,
+      "grad_norm": 7600.5458984375,
+      "learning_rate": 4.7545454545454545e-05,
+      "loss": 0.0971,
+      "step": 155
+    },
+    {
+      "epoch": 1.3,
+      "grad_norm": 6331.5673828125,
+      "learning_rate": 4.75e-05,
+      "loss": 0.1149,
+      "step": 156
+    },
+    {
+      "epoch": 1.3083333333333333,
+      "grad_norm": 8746.0419921875,
+      "learning_rate": 4.745454545454546e-05,
+      "loss": 0.1057,
+      "step": 157
+    },
+    {
+      "epoch": 1.3166666666666667,
+      "grad_norm": 7221.12646484375,
+      "learning_rate": 4.740909090909092e-05,
+      "loss": 0.1155,
+      "step": 158
+    },
+    {
+      "epoch": 1.325,
+      "grad_norm": 6219.18408203125,
+      "learning_rate": 4.736363636363637e-05,
+      "loss": 0.1037,
+      "step": 159
+    },
+    {
+      "epoch": 1.3333333333333333,
+      "grad_norm": 8318.43359375,
+      "learning_rate": 4.7318181818181824e-05,
+      "loss": 0.093,
+      "step": 160
+    },
+    {
+      "epoch": 1.3416666666666668,
+      "grad_norm": 6739.9990234375,
+      "learning_rate": 4.7272727272727275e-05,
+      "loss": 0.0845,
+      "step": 161
+    },
+    {
+      "epoch": 1.35,
+      "grad_norm": 6488.94482421875,
+      "learning_rate": 4.722727272727273e-05,
+      "loss": 0.0939,
+      "step": 162
+    },
+    {
+      "epoch": 1.3583333333333334,
+      "grad_norm": 7930.939453125,
+      "learning_rate": 4.718181818181818e-05,
+      "loss": 0.1202,
+      "step": 163
+    },
+    {
+      "epoch": 1.3666666666666667,
+      "grad_norm": 8253.9482421875,
+      "learning_rate": 4.713636363636364e-05,
+      "loss": 0.1138,
+      "step": 164
+    },
+    {
+      "epoch": 1.375,
+      "grad_norm": 7846.85009765625,
+      "learning_rate": 4.709090909090909e-05,
+      "loss": 0.116,
+      "step": 165
+    },
+    {
+      "epoch": 1.3833333333333333,
+      "grad_norm": 6417.66357421875,
+      "learning_rate": 4.704545454545455e-05,
+      "loss": 0.1054,
+      "step": 166
+    },
+    {
+      "epoch": 1.3916666666666666,
+      "grad_norm": 6214.9521484375,
+      "learning_rate": 4.7e-05,
+      "loss": 0.1045,
+      "step": 167
+    },
+    {
+      "epoch": 1.4,
+      "grad_norm": 6744.1416015625,
+      "learning_rate": 4.6954545454545454e-05,
+      "loss": 0.1029,
+      "step": 168
+    },
+    {
+      "epoch": 1.4083333333333332,
+      "grad_norm": 8765.5869140625,
+      "learning_rate": 4.690909090909091e-05,
+      "loss": 0.1084,
+      "step": 169
+    },
+    {
+      "epoch": 1.4166666666666667,
+      "grad_norm": 9230.552734375,
+      "learning_rate": 4.686363636363636e-05,
+      "loss": 0.1464,
+      "step": 170
+    },
+    {
+      "epoch": 1.425,
+      "grad_norm": 7388.099609375,
+      "learning_rate": 4.681818181818182e-05,
+      "loss": 0.1047,
+      "step": 171
+    },
+    {
+      "epoch": 1.4333333333333333,
+      "grad_norm": 6448.68408203125,
+      "learning_rate": 4.6772727272727276e-05,
+      "loss": 0.0948,
+      "step": 172
+    },
+    {
+      "epoch": 1.4416666666666667,
+      "grad_norm": 7005.68701171875,
+      "learning_rate": 4.672727272727273e-05,
+      "loss": 0.1133,
+      "step": 173
+    },
+    {
+      "epoch": 1.45,
+      "grad_norm": 8248.9482421875,
+      "learning_rate": 4.6681818181818184e-05,
+      "loss": 0.118,
+      "step": 174
+    },
+    {
+      "epoch": 1.4583333333333333,
+      "grad_norm": 7844.08544921875,
+      "learning_rate": 4.663636363636364e-05,
+      "loss": 0.0957,
+      "step": 175
+    },
+    {
+      "epoch": 1.4666666666666668,
+      "grad_norm": 8574.84765625,
+      "learning_rate": 4.659090909090909e-05,
+      "loss": 0.1243,
+      "step": 176
+    },
+    {
+      "epoch": 1.475,
+      "grad_norm": 8588.7138671875,
+      "learning_rate": 4.654545454545455e-05,
+      "loss": 0.1032,
+      "step": 177
+    },
+    {
+      "epoch": 1.4833333333333334,
+      "grad_norm": 8352.0380859375,
+      "learning_rate": 4.6500000000000005e-05,
+      "loss": 0.1259,
+      "step": 178
+    },
+    {
+      "epoch": 1.4916666666666667,
+      "grad_norm": 7560.94140625,
+      "learning_rate": 4.6454545454545456e-05,
+      "loss": 0.0995,
+      "step": 179
+    },
+    {
+      "epoch": 1.5,
+      "grad_norm": 8052.83984375,
+      "learning_rate": 4.640909090909091e-05,
+      "loss": 0.0995,
+      "step": 180
+    },
+    {
+      "epoch": 1.5083333333333333,
+      "grad_norm": 7812.76953125,
+      "learning_rate": 4.636363636363636e-05,
+      "loss": 0.1075,
+      "step": 181
+    },
+    {
+      "epoch": 1.5166666666666666,
+      "grad_norm": 8199.2724609375,
+      "learning_rate": 4.631818181818182e-05,
+      "loss": 0.1172,
+      "step": 182
+    },
+    {
+      "epoch": 1.525,
+      "grad_norm": 25283.591796875,
+      "learning_rate": 4.627272727272727e-05,
+      "loss": 0.1395,
+      "step": 183
+    },
+    {
+      "epoch": 1.5333333333333332,
+      "grad_norm": 7990.4560546875,
+      "learning_rate": 4.622727272727273e-05,
+      "loss": 0.0965,
+      "step": 184
+    },
+    {
+      "epoch": 1.5416666666666665,
+      "grad_norm": 8850.798828125,
+      "learning_rate": 4.618181818181818e-05,
+      "loss": 0.0971,
+      "step": 185
+    },
+    {
+      "epoch": 1.55,
+      "grad_norm": 7082.34521484375,
+      "learning_rate": 4.6136363636363635e-05,
+      "loss": 0.1097,
+      "step": 186
+    },
+    {
+      "epoch": 1.5583333333333333,
+      "grad_norm": 8550.869140625,
+      "learning_rate": 4.609090909090909e-05,
+      "loss": 0.106,
+      "step": 187
+    },
+    {
+      "epoch": 1.5666666666666667,
+      "grad_norm": 5758.966796875,
+      "learning_rate": 4.604545454545455e-05,
+      "loss": 0.0996,
+      "step": 188
+    },
+    {
+      "epoch": 1.575,
+      "grad_norm": 8699.7333984375,
+      "learning_rate": 4.600000000000001e-05,
+      "loss": 0.0974,
+      "step": 189
+    },
+    {
+      "epoch": 1.5833333333333335,
+      "grad_norm": 5898.751953125,
+      "learning_rate": 4.595454545454546e-05,
+      "loss": 0.097,
+      "step": 190
+    },
+    {
+      "epoch": 1.5916666666666668,
+      "grad_norm": 6824.419921875,
+      "learning_rate": 4.5909090909090914e-05,
+      "loss": 0.1012,
+      "step": 191
+    },
+    {
+      "epoch": 1.6,
+      "grad_norm": 8745.8408203125,
+      "learning_rate": 4.5863636363636365e-05,
+      "loss": 0.1172,
+      "step": 192
+    },
+    {
+      "epoch": 1.6083333333333334,
+      "grad_norm": 7022.79296875,
+      "learning_rate": 4.581818181818182e-05,
+      "loss": 0.0914,
+      "step": 193
+    },
+    {
+      "epoch": 1.6166666666666667,
+      "grad_norm": 8727.6943359375,
+      "learning_rate": 4.577272727272727e-05,
+      "loss": 0.1124,
+      "step": 194
+    },
+    {
+      "epoch": 1.625,
+      "grad_norm": 7952.49609375,
+      "learning_rate": 4.572727272727273e-05,
+      "loss": 0.113,
+      "step": 195
+    },
+    {
+      "epoch": 1.6333333333333333,
+      "grad_norm": 6855.783203125,
+      "learning_rate": 4.5681818181818186e-05,
+      "loss": 0.0944,
+      "step": 196
+    },
+    {
+      "epoch": 1.6416666666666666,
+      "grad_norm": 7499.74609375,
+      "learning_rate": 4.563636363636364e-05,
+      "loss": 0.1151,
+      "step": 197
+    },
+    {
+      "epoch": 1.65,
+      "grad_norm": 6449.2529296875,
+      "learning_rate": 4.5590909090909094e-05,
+      "loss": 0.0972,
+      "step": 198
+    },
+    {
+      "epoch": 1.6583333333333332,
+      "grad_norm": 7116.66748046875,
+      "learning_rate": 4.5545454545454544e-05,
+      "loss": 0.1049,
+      "step": 199
+    },
+    {
+      "epoch": 1.6666666666666665,
+      "grad_norm": 8555.966796875,
+      "learning_rate": 4.55e-05,
+      "loss": 0.1139,
+      "step": 200
+    },
+    {
+      "epoch": 1.675,
+      "grad_norm": 7615.99267578125,
+      "learning_rate": 4.545454545454546e-05,
+      "loss": 0.1016,
+      "step": 201
+    },
+    {
+      "epoch": 1.6833333333333333,
+      "grad_norm": 8245.642578125,
+      "learning_rate": 4.540909090909091e-05,
+      "loss": 0.098,
+      "step": 202
+    },
+    {
+      "epoch": 1.6916666666666667,
+      "grad_norm": 6856.2958984375,
+      "learning_rate": 4.5363636363636366e-05,
+      "loss": 0.1067,
+      "step": 203
+    },
+    {
+      "epoch": 1.7,
+      "grad_norm": 7053.49560546875,
+      "learning_rate": 4.531818181818182e-05,
+      "loss": 0.1097,
+      "step": 204
+    },
+    {
+      "epoch": 1.7083333333333335,
+      "grad_norm": 8732.923828125,
+      "learning_rate": 4.5272727272727274e-05,
+      "loss": 0.098,
+      "step": 205
+    },
+    {
+      "epoch": 1.7166666666666668,
+      "grad_norm": 8398.2392578125,
+      "learning_rate": 4.522727272727273e-05,
+      "loss": 0.1119,
+      "step": 206
+    },
+    {
+      "epoch": 1.725,
+      "grad_norm": 7186.2236328125,
+      "learning_rate": 4.518181818181819e-05,
+      "loss": 0.1104,
+      "step": 207
+    },
+    {
+      "epoch": 1.7333333333333334,
+      "grad_norm": 7283.79345703125,
+      "learning_rate": 4.513636363636364e-05,
+      "loss": 0.1042,
+      "step": 208
+    },
+    {
+      "epoch": 1.7416666666666667,
+      "grad_norm": 8617.919921875,
+      "learning_rate": 4.5090909090909095e-05,
+      "loss": 0.1182,
+      "step": 209
+    },
+    {
+      "epoch": 1.75,
+      "grad_norm": 8389.6796875,
+      "learning_rate": 4.5045454545454546e-05,
+      "loss": 0.1064,
+      "step": 210
+    },
+    {
+      "epoch": 1.7583333333333333,
+      "grad_norm": 7137.05224609375,
+      "learning_rate": 4.5e-05,
+      "loss": 0.1052,
+      "step": 211
+    },
+    {
+      "epoch": 1.7666666666666666,
+      "grad_norm": 5784.734375,
+      "learning_rate": 4.495454545454545e-05,
+      "loss": 0.0978,
+      "step": 212
+    },
+    {
+      "epoch": 1.775,
+      "grad_norm": 6999.89111328125,
+      "learning_rate": 4.490909090909091e-05,
+      "loss": 0.0943,
+      "step": 213
+    },
+    {
+      "epoch": 1.7833333333333332,
+      "grad_norm": 6968.7197265625,
+      "learning_rate": 4.486363636363636e-05,
+      "loss": 0.1101,
+      "step": 214
+    },
+    {
+      "epoch": 1.7916666666666665,
+      "grad_norm": 8037.56884765625,
+      "learning_rate": 4.481818181818182e-05,
+      "loss": 0.0989,
+      "step": 215
+    },
+    {
+      "epoch": 1.8,
+      "grad_norm": 7295.52197265625,
+      "learning_rate": 4.4772727272727275e-05,
+      "loss": 0.115,
+      "step": 216
+    },
+    {
+      "epoch": 1.8083333333333333,
+      "grad_norm": 6018.81298828125,
+      "learning_rate": 4.472727272727273e-05,
+      "loss": 0.093,
+      "step": 217
+    },
+    {
+      "epoch": 1.8166666666666667,
+      "grad_norm": 6783.51318359375,
+      "learning_rate": 4.468181818181818e-05,
+      "loss": 0.1019,
+      "step": 218
+    },
+    {
+      "epoch": 1.825,
+      "grad_norm": 7277.119140625,
+      "learning_rate": 4.463636363636364e-05,
+      "loss": 0.0984,
+      "step": 219
+    },
+    {
+      "epoch": 1.8333333333333335,
+      "grad_norm": 6515.0615234375,
+      "learning_rate": 4.45909090909091e-05,
+      "loss": 0.1009,
+      "step": 220
+    },
+    {
+      "epoch": 1.8416666666666668,
+      "grad_norm": 7060.08056640625,
+      "learning_rate": 4.454545454545455e-05,
+      "loss": 0.1068,
+      "step": 221
+    },
+    {
+      "epoch": 1.85,
+      "grad_norm": 7915.4287109375,
+      "learning_rate": 4.4500000000000004e-05,
+      "loss": 0.109,
+      "step": 222
+    },
+    {
+      "epoch": 1.8583333333333334,
+      "grad_norm": 7376.220703125,
+      "learning_rate": 4.4454545454545455e-05,
+      "loss": 0.093,
+      "step": 223
+    },
+    {
+      "epoch": 1.8666666666666667,
+      "grad_norm": 7639.013671875,
+      "learning_rate": 4.440909090909091e-05,
+      "loss": 0.106,
+      "step": 224
+    },
+    {
+      "epoch": 1.875,
+      "grad_norm": 7439.11474609375,
+      "learning_rate": 4.436363636363637e-05,
+      "loss": 0.1106,
+      "step": 225
+    },
+    {
+      "epoch": 1.8833333333333333,
+      "grad_norm": 8460.6650390625,
+      "learning_rate": 4.431818181818182e-05,
+      "loss": 0.1079,
+      "step": 226
+    },
+    {
+      "epoch": 1.8916666666666666,
+      "grad_norm": 7310.08740234375,
+      "learning_rate": 4.4272727272727276e-05,
+      "loss": 0.0968,
+      "step": 227
+    },
+    {
+      "epoch": 1.9,
+      "grad_norm": 6232.28759765625,
+      "learning_rate": 4.422727272727273e-05,
+      "loss": 0.1067,
+      "step": 228
+    },
+    {
+      "epoch": 1.9083333333333332,
+      "grad_norm": 7846.275390625,
+      "learning_rate": 4.4181818181818184e-05,
+      "loss": 0.1038,
+      "step": 229
+    },
+    {
+      "epoch": 1.9166666666666665,
+      "grad_norm": 6419.7333984375,
+      "learning_rate": 4.4136363636363634e-05,
+      "loss": 0.0999,
+      "step": 230
+    },
+    {
+      "epoch": 1.925,
+      "grad_norm": 7637.369140625,
+      "learning_rate": 4.409090909090909e-05,
+      "loss": 0.0905,
+      "step": 231
+    },
+    {
+      "epoch": 1.9333333333333333,
+      "grad_norm": 6210.56396484375,
+      "learning_rate": 4.404545454545455e-05,
+      "loss": 0.0994,
+      "step": 232
+    },
+    {
+      "epoch": 1.9416666666666667,
+      "grad_norm": 7951.947265625,
+      "learning_rate": 4.4000000000000006e-05,
+      "loss": 0.0981,
+      "step": 233
+    },
+    {
+      "epoch": 1.95,
+      "grad_norm": 6833.03466796875,
+      "learning_rate": 4.3954545454545456e-05,
+      "loss": 0.1007,
+      "step": 234
+    },
+    {
+      "epoch": 1.9583333333333335,
+      "grad_norm": 7926.4765625,
+      "learning_rate": 4.390909090909091e-05,
+      "loss": 0.0925,
+      "step": 235
+    },
+    {
+      "epoch": 1.9666666666666668,
+      "grad_norm": 7166.40087890625,
+      "learning_rate": 4.386363636363637e-05,
+      "loss": 0.1111,
+      "step": 236
+    },
+    {
+      "epoch": 1.975,
+      "grad_norm": 8137.634765625,
+      "learning_rate": 4.381818181818182e-05,
+      "loss": 0.1079,
+      "step": 237
+    },
+    {
+      "epoch": 1.9833333333333334,
+      "grad_norm": 8614.6142578125,
+      "learning_rate": 4.377272727272728e-05,
+      "loss": 0.1006,
+      "step": 238
+    },
+    {
+      "epoch": 1.9916666666666667,
+      "grad_norm": 10941.376953125,
+      "learning_rate": 4.372727272727273e-05,
+      "loss": 0.0937,
+      "step": 239
+    },
+    {
+      "epoch": 2.0,
+      "grad_norm": 34603.39453125,
+      "learning_rate": 4.3681818181818185e-05,
+      "loss": 0.0831,
+      "step": 240
+    },
+    {
+      "epoch": 2.0,
+      "eval_f1_macro": 0.025460502366217694,
+      "eval_f1_micro": 0.24436090225563908,
+      "eval_loss": 0.10331574827432632,
+      "eval_precision": 0.48507462686567165,
+      "eval_recall": 0.16331658291457288,
+      "eval_runtime": 0.8993,
+      "eval_samples_per_second": 353.616,
+      "eval_steps_per_second": 15.568,
+      "step": 240
+    }
+  ],
+  "logging_steps": 1,
+  "max_steps": 1200,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 10,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1504064501723136.0,
+  "train_batch_size": 24,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-240/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:84b38cc83b3a41fa6c531ffc2fce557168d7eea296dc27400ca0cad58c63e8db
+size 5368

checkpoint-240/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-360/config.json ADDED Viewed

	@@ -0,0 +1,130 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "T1003.001",
+    "1": "T1005",
+    "2": "T1012",
+    "3": "T1016",
+    "4": "T1021.001",
+    "5": "T1027",
+    "6": "T1033",
+    "7": "T1036.005",
+    "8": "T1041",
+    "9": "T1047",
+    "10": "T1053.005",
+    "11": "T1055",
+    "12": "T1056.001",
+    "13": "T1057",
+    "14": "T1059.003",
+    "15": "T1068",
+    "16": "T1070.004",
+    "17": "T1071.001",
+    "18": "T1072",
+    "19": "T1074.001",
+    "20": "T1078",
+    "21": "T1082",
+    "22": "T1083",
+    "23": "T1090",
+    "24": "T1095",
+    "25": "T1105",
+    "26": "T1106",
+    "27": "T1110",
+    "28": "T1112",
+    "29": "T1113",
+    "30": "T1140",
+    "31": "T1190",
+    "32": "T1204.002",
+    "33": "T1210",
+    "34": "T1218.011",
+    "35": "T1219",
+    "36": "T1484.001",
+    "37": "T1518.001",
+    "38": "T1543.003",
+    "39": "T1547.001",
+    "40": "T1548.002",
+    "41": "T1552.001",
+    "42": "T1557.001",
+    "43": "T1562.001",
+    "44": "T1564.001",
+    "45": "T1566.001",
+    "46": "T1569.002",
+    "47": "T1570",
+    "48": "T1573.001",
+    "49": "T1574.002"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "T1003.001": 0,
+    "T1005": 1,
+    "T1012": 2,
+    "T1016": 3,
+    "T1021.001": 4,
+    "T1027": 5,
+    "T1033": 6,
+    "T1036.005": 7,
+    "T1041": 8,
+    "T1047": 9,
+    "T1053.005": 10,
+    "T1055": 11,
+    "T1056.001": 12,
+    "T1057": 13,
+    "T1059.003": 14,
+    "T1068": 15,
+    "T1070.004": 16,
+    "T1071.001": 17,
+    "T1072": 18,
+    "T1074.001": 19,
+    "T1078": 20,
+    "T1082": 21,
+    "T1083": 22,
+    "T1090": 23,
+    "T1095": 24,
+    "T1105": 25,
+    "T1106": 26,
+    "T1110": 27,
+    "T1112": 28,
+    "T1113": 29,
+    "T1140": 30,
+    "T1190": 31,
+    "T1204.002": 32,
+    "T1210": 33,
+    "T1218.011": 34,
+    "T1219": 35,
+    "T1484.001": 36,
+    "T1518.001": 37,
+    "T1543.003": 38,
+    "T1547.001": 39,
+    "T1548.002": 40,
+    "T1552.001": 41,
+    "T1557.001": 42,
+    "T1562.001": 43,
+    "T1564.001": 44,
+    "T1566.001": 45,
+    "T1569.002": 46,
+    "T1570": 47,
+    "T1573.001": 48,
+    "T1574.002": 49
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "problem_type": "multi_label_classification",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-360/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ade367c852e7f7fefe67f1f0b6de558c5883b4312ae236fd4672b57b25c5a494
+size 438106296