CaffeineThief commited on Mar 24

Commit

a2f202e

verified ·

1 Parent(s): e67b090

Upload saved model files

Browse files

This view is limited to 50 files because it contains too many changes. See raw diff

Files changed (50) hide show

checkpoint-141/config.json +33 -0
checkpoint-141/model.safetensors +3 -0
checkpoint-141/optimizer.pt +3 -0
checkpoint-141/rng_state.pth +3 -0
checkpoint-141/scaler.pt +3 -0
checkpoint-141/scheduler.pt +3 -0
checkpoint-141/special_tokens_map.json +37 -0
checkpoint-141/tokenizer.json +0 -0
checkpoint-141/tokenizer_config.json +56 -0
checkpoint-141/trainer_state.json +87 -0
checkpoint-141/training_args.bin +3 -0
checkpoint-141/vocab.txt +0 -0
checkpoint-170/config.json +33 -0
checkpoint-170/model.safetensors +3 -0
checkpoint-170/optimizer.pt +3 -0
checkpoint-170/rng_state.pth +3 -0
checkpoint-170/scaler.pt +3 -0
checkpoint-170/scheduler.pt +3 -0
checkpoint-170/special_tokens_map.json +37 -0
checkpoint-170/tokenizer.json +0 -0
checkpoint-170/tokenizer_config.json +56 -0
checkpoint-170/trainer_state.json +84 -0
checkpoint-170/training_args.bin +3 -0
checkpoint-170/vocab.txt +0 -0
checkpoint-188/config.json +33 -0
checkpoint-188/model.safetensors +3 -0
checkpoint-188/optimizer.pt +3 -0
checkpoint-188/rng_state.pth +3 -0
checkpoint-188/scaler.pt +3 -0
checkpoint-188/scheduler.pt +3 -0
checkpoint-188/special_tokens_map.json +37 -0
checkpoint-188/tokenizer.json +0 -0
checkpoint-188/tokenizer_config.json +56 -0
checkpoint-188/trainer_state.json +104 -0
checkpoint-188/training_args.bin +3 -0
checkpoint-188/vocab.txt +0 -0
checkpoint-235/config.json +33 -0
checkpoint-235/model.safetensors +3 -0
checkpoint-235/optimizer.pt +3 -0
checkpoint-235/rng_state.pth +3 -0
checkpoint-235/scaler.pt +3 -0
checkpoint-235/scheduler.pt +3 -0
checkpoint-235/special_tokens_map.json +37 -0
checkpoint-235/tokenizer.json +0 -0
checkpoint-235/tokenizer_config.json +56 -0
checkpoint-235/trainer_state.json +121 -0
checkpoint-235/training_args.bin +3 -0
checkpoint-235/vocab.txt +0 -0
checkpoint-255/config.json +33 -0
checkpoint-255/model.safetensors +3 -0

checkpoint-141/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "TRAM",
+    "1": "ANNOCTR"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "ANNOCTR": 1,
+    "TRAM": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-141/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:db63af3e573bdbfe2715cf982cd9754a5353fbeedcd163802a1da4404cf99103
+size 437958648

checkpoint-141/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b824a7da942e84fd7c8603c1a30ab34d59673b4547d77a264c78e068e86f6252
+size 876038330

checkpoint-141/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:31d3c155bb3fb6994950ef7556da4ab88a9d77de972073b4673fa4ca32ceba95
+size 14244

checkpoint-141/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-141/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:4ad952416cc9c4deaf0488ff0c747c00c0816e25082ec6ed973542521c8b2d69
+size 1064

checkpoint-141/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-141/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-141/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-141/trainer_state.json ADDED Viewed

	@@ -0,0 +1,87 @@

+{
+  "best_global_step": 141,
+  "best_metric": 0.8939393939393939,
+  "best_model_checkpoint": "./cysecbert-ttp-bert-router/checkpoint-141",
+  "epoch": 3.0,
+  "eval_steps": 500,
+  "global_step": 141,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8790322580645161,
+      "eval_f1": 0.88,
+      "eval_loss": 0.23156200349330902,
+      "eval_runtime": 0.5457,
+      "eval_samples_per_second": 454.439,
+      "eval_steps_per_second": 10.994,
+      "step": 47
+    },
+    {
+      "epoch": 1.0638297872340425,
+      "grad_norm": 244324.0,
+      "learning_rate": 1.5829787234042555e-05,
+      "loss": 0.393,
+      "step": 50
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_f1": 0.889763779527559,
+      "eval_loss": 0.24126584827899933,
+      "eval_runtime": 0.5406,
+      "eval_samples_per_second": 458.709,
+      "eval_steps_per_second": 11.098,
+      "step": 94
+    },
+    {
+      "epoch": 2.127659574468085,
+      "grad_norm": 360389.59375,
+      "learning_rate": 1.1574468085106382e-05,
+      "loss": 0.2003,
+      "step": 100
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_f1": 0.8939393939393939,
+      "eval_loss": 0.2832604646682739,
+      "eval_runtime": 0.5564,
+      "eval_samples_per_second": 445.721,
+      "eval_steps_per_second": 10.784,
+      "step": 141
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 235,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1752319628697600.0,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-141/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa4f68038d34e18bca323801ebee2f977ae0e2c8a6e6a48bf186f9aaacac3db0
+size 5368

checkpoint-141/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-170/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "TRAM",
+    "1": "ANNOCTR"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "ANNOCTR": 1,
+    "TRAM": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-170/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:39e180718fb1484ebd30e7d2d1562bbf3fea53e0edcc435064f32e1dd03e0204
+size 437958648

checkpoint-170/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:1eb0901e08072ef968b5eec4bcb9fd6532eb0a912af90912064a775d1f00cad8
+size 876038330

checkpoint-170/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b4efe0f47241e6fc27a6d35b15954af11bc2804162f8a5fa82aaf9fe783c305f
+size 14244

checkpoint-170/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-170/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c9ca867b5f07a5b0020195342eac2eb6841947051fea59ed1d774eee72ba43ae
+size 1064

checkpoint-170/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-170/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-170/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-170/trainer_state.json ADDED Viewed

	@@ -0,0 +1,84 @@

+{
+  "best_global_step": 170,
+  "best_metric": 0.8,
+  "best_model_checkpoint": "./cysecbert-ttp-bert-router/checkpoint-170",
+  "epoch": 2.0,
+  "eval_steps": 500,
+  "global_step": 170,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 0.5882352941176471,
+      "grad_norm": 195774.109375,
+      "learning_rate": 1.7694117647058826e-05,
+      "loss": 0.4698,
+      "step": 50
+    },
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8463251670378619,
+      "eval_f1": 0.7661016949152543,
+      "eval_loss": 0.29931211471557617,
+      "eval_runtime": 0.9434,
+      "eval_samples_per_second": 475.961,
+      "eval_steps_per_second": 10.6,
+      "step": 85
+    },
+    {
+      "epoch": 1.1764705882352942,
+      "grad_norm": 215225.09375,
+      "learning_rate": 1.5341176470588238e-05,
+      "loss": 0.299,
+      "step": 100
+    },
+    {
+      "epoch": 1.7647058823529411,
+      "grad_norm": 529117.0625,
+      "learning_rate": 1.2988235294117649e-05,
+      "loss": 0.2068,
+      "step": 150
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8775055679287305,
+      "eval_f1": 0.8,
+      "eval_loss": 0.24925704300403595,
+      "eval_runtime": 0.926,
+      "eval_samples_per_second": 484.876,
+      "eval_steps_per_second": 10.799,
+      "step": 170
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 425,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 0
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2124358660976640.0,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-170/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2eb49e4ddefef59ed0e951ac7dbde7059171d7f9b6de6437c5177c6ce38bcc3d
+size 5368

checkpoint-170/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-188/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "TRAM",
+    "1": "ANNOCTR"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "ANNOCTR": 1,
+    "TRAM": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-188/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:52329fd83f15c93b643df934cee4acb8bf39b7474468dfd511e573ccfdab3b64
+size 437958648

checkpoint-188/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aec8f1ee5a63f04b2ef14be5995968f39d58b110e97e578bb5505bbfff2c86ac
+size 876038330

checkpoint-188/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:2364fa4dc0aceb9687fc6bcfc81d0cbcf0a4e9e920964e68971cafa1f7395554
+size 14244

checkpoint-188/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-188/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:24540af78f05e096d4d2f1a22a5efa5aa30308c905b0ca3d67079dece6935d90
+size 1064

checkpoint-188/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-188/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-188/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-188/trainer_state.json ADDED Viewed

	@@ -0,0 +1,104 @@

+{
+  "best_global_step": 141,
+  "best_metric": 0.8939393939393939,
+  "best_model_checkpoint": "./cysecbert-ttp-bert-router/checkpoint-141",
+  "epoch": 4.0,
+  "eval_steps": 500,
+  "global_step": 188,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8790322580645161,
+      "eval_f1": 0.88,
+      "eval_loss": 0.23156200349330902,
+      "eval_runtime": 0.5457,
+      "eval_samples_per_second": 454.439,
+      "eval_steps_per_second": 10.994,
+      "step": 47
+    },
+    {
+      "epoch": 1.0638297872340425,
+      "grad_norm": 244324.0,
+      "learning_rate": 1.5829787234042555e-05,
+      "loss": 0.393,
+      "step": 50
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_f1": 0.889763779527559,
+      "eval_loss": 0.24126584827899933,
+      "eval_runtime": 0.5406,
+      "eval_samples_per_second": 458.709,
+      "eval_steps_per_second": 11.098,
+      "step": 94
+    },
+    {
+      "epoch": 2.127659574468085,
+      "grad_norm": 360389.59375,
+      "learning_rate": 1.1574468085106382e-05,
+      "loss": 0.2003,
+      "step": 100
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_f1": 0.8939393939393939,
+      "eval_loss": 0.2832604646682739,
+      "eval_runtime": 0.5564,
+      "eval_samples_per_second": 445.721,
+      "eval_steps_per_second": 10.784,
+      "step": 141
+    },
+    {
+      "epoch": 3.1914893617021276,
+      "grad_norm": 309358.59375,
+      "learning_rate": 7.3191489361702125e-06,
+      "loss": 0.1351,
+      "step": 150
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8951612903225806,
+      "eval_f1": 0.8916666666666667,
+      "eval_loss": 0.2920267879962921,
+      "eval_runtime": 0.5436,
+      "eval_samples_per_second": 456.231,
+      "eval_steps_per_second": 11.038,
+      "step": 188
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 235,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 1
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2336426171596800.0,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-188/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa4f68038d34e18bca323801ebee2f977ae0e2c8a6e6a48bf186f9aaacac3db0
+size 5368

checkpoint-188/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-235/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "TRAM",
+    "1": "ANNOCTR"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "ANNOCTR": 1,
+    "TRAM": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-235/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:44d8653d3afdb0baffe9cf4b45d2b823f40e7fde26c7e595e299c80967a1a2ba
+size 437958648

checkpoint-235/optimizer.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:ad8757b126ab16096195c84c83037cce70a5e86f824cd0aebbac4474310b12e4
+size 876038330

checkpoint-235/rng_state.pth ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:77f3152f72695410ca19230d791ca8e0b8bcaa727c6000020d57ae4a51439b97
+size 14244

checkpoint-235/scaler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:b30172cf14f5dbe00280d63e36224a9f28dc7a0e8b38a74ceb5eb284e84da363
+size 988

checkpoint-235/scheduler.pt ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:83526710ecacebf5cbd106052ec21d8ce799f8bdf2ac8c540d73190260bb6224
+size 1064

checkpoint-235/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,37 @@

+{
+  "cls_token": {
+    "content": "[CLS]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "mask_token": {
+    "content": "[MASK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "pad_token": {
+    "content": "[PAD]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "sep_token": {
+    "content": "[SEP]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  },
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": false,
+    "rstrip": false,
+    "single_word": false
+  }
+}

checkpoint-235/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-235/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,56 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "100": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "101": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "102": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "103": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": true,
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 512,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "strip_accents": null,
+  "tokenize_chinese_chars": true,
+  "tokenizer_class": "BertTokenizer",
+  "unk_token": "[UNK]"
+}

checkpoint-235/trainer_state.json ADDED Viewed

	@@ -0,0 +1,121 @@

+{
+  "best_global_step": 141,
+  "best_metric": 0.8939393939393939,
+  "best_model_checkpoint": "./cysecbert-ttp-bert-router/checkpoint-141",
+  "epoch": 5.0,
+  "eval_steps": 500,
+  "global_step": 235,
+  "is_hyper_param_search": false,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.0,
+      "eval_accuracy": 0.8790322580645161,
+      "eval_f1": 0.88,
+      "eval_loss": 0.23156200349330902,
+      "eval_runtime": 0.5457,
+      "eval_samples_per_second": 454.439,
+      "eval_steps_per_second": 10.994,
+      "step": 47
+    },
+    {
+      "epoch": 1.0638297872340425,
+      "grad_norm": 244324.0,
+      "learning_rate": 1.5829787234042555e-05,
+      "loss": 0.393,
+      "step": 50
+    },
+    {
+      "epoch": 2.0,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_f1": 0.889763779527559,
+      "eval_loss": 0.24126584827899933,
+      "eval_runtime": 0.5406,
+      "eval_samples_per_second": 458.709,
+      "eval_steps_per_second": 11.098,
+      "step": 94
+    },
+    {
+      "epoch": 2.127659574468085,
+      "grad_norm": 360389.59375,
+      "learning_rate": 1.1574468085106382e-05,
+      "loss": 0.2003,
+      "step": 100
+    },
+    {
+      "epoch": 3.0,
+      "eval_accuracy": 0.8870967741935484,
+      "eval_f1": 0.8939393939393939,
+      "eval_loss": 0.2832604646682739,
+      "eval_runtime": 0.5564,
+      "eval_samples_per_second": 445.721,
+      "eval_steps_per_second": 10.784,
+      "step": 141
+    },
+    {
+      "epoch": 3.1914893617021276,
+      "grad_norm": 309358.59375,
+      "learning_rate": 7.3191489361702125e-06,
+      "loss": 0.1351,
+      "step": 150
+    },
+    {
+      "epoch": 4.0,
+      "eval_accuracy": 0.8951612903225806,
+      "eval_f1": 0.8916666666666667,
+      "eval_loss": 0.2920267879962921,
+      "eval_runtime": 0.5436,
+      "eval_samples_per_second": 456.231,
+      "eval_steps_per_second": 11.038,
+      "step": 188
+    },
+    {
+      "epoch": 4.25531914893617,
+      "grad_norm": 91590.8125,
+      "learning_rate": 3.0638297872340428e-06,
+      "loss": 0.0876,
+      "step": 200
+    },
+    {
+      "epoch": 5.0,
+      "eval_accuracy": 0.8911290322580645,
+      "eval_f1": 0.889795918367347,
+      "eval_loss": 0.3170631229877472,
+      "eval_runtime": 0.5567,
+      "eval_samples_per_second": 445.496,
+      "eval_steps_per_second": 10.778,
+      "step": 235
+    }
+  ],
+  "logging_steps": 50,
+  "max_steps": 235,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 5,
+  "save_steps": 500,
+  "stateful_callbacks": {
+    "EarlyStoppingCallback": {
+      "args": {
+        "early_stopping_patience": 2,
+        "early_stopping_threshold": 0.0
+      },
+      "attributes": {
+        "early_stopping_patience_counter": 2
+      }
+    },
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 2920532714496000.0,
+  "train_batch_size": 48,
+  "trial_name": null,
+  "trial_params": null
+}

checkpoint-235/training_args.bin ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:aa4f68038d34e18bca323801ebee2f977ae0e2c8a6e6a48bf186f9aaacac3db0
+size 5368

checkpoint-235/vocab.txt ADDED Viewed

The diff for this file is too large to render. See raw diff

checkpoint-255/config.json ADDED Viewed

	@@ -0,0 +1,33 @@

+{
+  "architectures": [
+    "BertForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "classifier_dropout": null,
+  "gradient_checkpointing": false,
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "TRAM",
+    "1": "ANNOCTR"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "ANNOCTR": 1,
+    "TRAM": 0
+  },
+  "layer_norm_eps": 1e-12,
+  "max_position_embeddings": 512,
+  "model_type": "bert",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "position_embedding_type": "absolute",
+  "torch_dtype": "float32",
+  "transformers_version": "4.55.2",
+  "type_vocab_size": 2,
+  "use_cache": true,
+  "vocab_size": 30522
+}

checkpoint-255/model.safetensors ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:7b8c1b24ecd20fdc0656aaa66a2bc6e83aefda5900ce07154dd22df8f4485a25
+size 437958648