BaltimoreCA68 commited on Nov 27, 2025

Commit

578eccc

verified ·

1 Parent(s): ec7f67f

Add files using upload-large-folder tool

Browse files

Files changed (50) hide show

final_new/final_model_deberta_macro/added_tokens.json +3 -0
final_new/final_model_deberta_macro/config.json +43 -0
final_new/final_model_deberta_macro/special_tokens_map.json +15 -0
final_new/final_model_deberta_macro/tokenizer.json +0 -0
final_new/final_model_deberta_macro/tokenizer_config.json +59 -0
final_new/results_hyper_search_DEBERTA/run-0/checkpoint-2000/config.json +43 -0
final_new/results_hyper_search_DEBERTA/run-0/checkpoint-2000/tokenizer_config.json +59 -0
final_new/results_hyper_search_DEBERTA/run-1/checkpoint-2000/added_tokens.json +3 -0
final_new/results_hyper_search_DEBERTA/run-1/checkpoint-2000/config.json +43 -0
final_new/results_hyper_search_DEBERTA/run-1/checkpoint-2000/special_tokens_map.json +15 -0
final_new/results_hyper_search_DEBERTA/run-1/checkpoint-2000/tokenizer_config.json +59 -0
final_new/results_hyper_search_DEBERTA/run-1/checkpoint-2000/trainer_state.json +79 -0
final_new/results_hyper_search_DEBERTA/run-18/checkpoint-3000/added_tokens.json +3 -0
final_new/results_hyper_search_DEBERTA/run-18/checkpoint-3000/config.json +43 -0
final_new/results_hyper_search_DEBERTA/run-18/checkpoint-3000/special_tokens_map.json +15 -0
final_new/results_hyper_search_DEBERTA/run-18/checkpoint-3000/tokenizer_config.json +59 -0
final_new/results_hyper_search_DEBERTA/run-18/checkpoint-3000/trainer_state.json +98 -0
final_new/results_hyper_search_DEBERTA/run-2/checkpoint-5000/added_tokens.json +3 -0
final_new/results_hyper_search_DEBERTA/run-2/checkpoint-5000/config.json +43 -0
final_new/results_hyper_search_DEBERTA/run-2/checkpoint-5000/special_tokens_map.json +15 -0
final_new/results_hyper_search_DEBERTA/run-2/checkpoint-5000/tokenizer_config.json +59 -0
final_new/results_hyper_search_DEBERTA/run-2/checkpoint-5000/trainer_state.json +136 -0
final_new/results_hyper_search_DEBERTA/run-3/checkpoint-2000/added_tokens.json +3 -0
final_new/results_hyper_search_DEBERTA/run-3/checkpoint-2000/config.json +43 -0
final_new/results_hyper_search_DEBERTA/run-3/checkpoint-2000/special_tokens_map.json +15 -0
final_new/results_hyper_search_DEBERTA/run-3/checkpoint-2000/tokenizer_config.json +59 -0
final_new/results_hyper_search_DEBERTA/run-3/checkpoint-2000/trainer_state.json +79 -0
final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/added_tokens.json +3 -0
final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/config.json +43 -0
final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/special_tokens_map.json +15 -0
final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/tokenizer.json +0 -0
final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/tokenizer_config.json +59 -0
final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/trainer_state.json +60 -0
final_new/results_hyper_search_DEBERTA/run-5/checkpoint-2000/added_tokens.json +3 -0
final_new/results_hyper_search_DEBERTA/run-5/checkpoint-2000/config.json +43 -0
final_new/results_hyper_search_DEBERTA/run-5/checkpoint-2000/special_tokens_map.json +15 -0
final_new/results_hyper_search_DEBERTA/run-5/checkpoint-2000/tokenizer_config.json +59 -0
final_new/results_hyper_search_DEBERTA/run-5/checkpoint-2000/trainer_state.json +79 -0
final_new/results_hyper_search_DEBERTA/run-6/checkpoint-1000/added_tokens.json +3 -0
final_new/results_hyper_search_DEBERTA/run-6/checkpoint-1000/config.json +43 -0
final_new/results_hyper_search_DEBERTA/run-6/checkpoint-1000/tokenizer_config.json +59 -0
final_new/results_hyper_search_DEBERTA/run-6/checkpoint-1000/trainer_state.json +60 -0
final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/added_tokens.json +3 -0
final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/config.json +43 -0
final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/special_tokens_map.json +15 -0
final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/tokenizer.json +0 -0
final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/tokenizer_config.json +59 -0
final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/trainer_state.json +60 -0
final_new/train.py +223 -0
test.py +0 -0

final_new/final_model_deberta_macro/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

final_new/final_model_deberta_macro/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "real",
+    "1": "fake"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "fake": 1,
+    "real": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

final_new/final_model_deberta_macro/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

final_new/final_model_deberta_macro/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

final_new/final_model_deberta_macro/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

final_new/results_hyper_search_DEBERTA/run-0/checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "real",
+    "1": "fake"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "fake": 1,
+    "real": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

final_new/results_hyper_search_DEBERTA/run-0/checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

final_new/results_hyper_search_DEBERTA/run-1/checkpoint-2000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

final_new/results_hyper_search_DEBERTA/run-1/checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "real",
+    "1": "fake"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "fake": 1,
+    "real": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

final_new/results_hyper_search_DEBERTA/run-1/checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

final_new/results_hyper_search_DEBERTA/run-1/checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

final_new/results_hyper_search_DEBERTA/run-1/checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "best_global_step": 2000,
+  "best_metric": 0.5603351693008105,
+  "best_model_checkpoint": "./results_hyper_search_DEBERTA/run-1/checkpoint-2000",
+  "epoch": 3.2,
+  "eval_steps": 1000,
+  "global_step": 2000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.6,
+      "grad_norm": 2.9890623092651367,
+      "learning_rate": 1.5929740554926833e-06,
+      "loss": 0.6285,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.5754,
+      "eval_f1_macro": 0.5120975672490654,
+      "eval_loss": 0.6258611083030701,
+      "eval_precision_macro": 0.57641307907854,
+      "eval_recall_macro": 0.6602000042936652,
+      "eval_runtime": 23.9619,
+      "eval_samples_per_second": 208.665,
+      "eval_steps_per_second": 3.297,
+      "step": 1000
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 8.2739839553833,
+      "learning_rate": 5.316988686221415e-07,
+      "loss": 0.577,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2,
+      "eval_accuracy": 0.6524,
+      "eval_f1_macro": 0.5603351693008105,
+      "eval_loss": 0.6020554304122925,
+      "eval_precision_macro": 0.5861485813010832,
+      "eval_recall_macro": 0.6739538216304121,
+      "eval_runtime": 23.7261,
+      "eval_samples_per_second": 210.738,
+      "eval_steps_per_second": 3.33,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 2500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.3678819065856e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 2.33056031036771e-06,
+    "num_train_epochs": 4,
+    "per_device_train_batch_size": 16,
+    "seed": 6,
+    "warmup_ratio": 0.12139509415842381,
+    "weight_decay": 0.2500490360742963
+  }
+}

final_new/results_hyper_search_DEBERTA/run-18/checkpoint-3000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

final_new/results_hyper_search_DEBERTA/run-18/checkpoint-3000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "real",
+    "1": "fake"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "fake": 1,
+    "real": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

final_new/results_hyper_search_DEBERTA/run-18/checkpoint-3000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

final_new/results_hyper_search_DEBERTA/run-18/checkpoint-3000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

final_new/results_hyper_search_DEBERTA/run-18/checkpoint-3000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,98 @@

+{
+  "best_global_step": 3000,
+  "best_metric": 0.6044354346853781,
+  "best_model_checkpoint": "./results_hyper_search_DEBERTA/run-18/checkpoint-3000",
+  "epoch": 4.8,
+  "eval_steps": 1000,
+  "global_step": 3000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.6,
+      "grad_norm": 2.9424350261688232,
+      "learning_rate": 9.350032740691138e-06,
+      "loss": 0.6177,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.7014,
+      "eval_f1_macro": 0.5868228537163056,
+      "eval_loss": 0.5922038555145264,
+      "eval_precision_macro": 0.5921018965323757,
+      "eval_recall_macro": 0.6720652798127962,
+      "eval_runtime": 23.9124,
+      "eval_samples_per_second": 209.097,
+      "eval_steps_per_second": 3.304,
+      "step": 1000
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 12.92706298828125,
+      "learning_rate": 7.013108786506899e-06,
+      "loss": 0.5371,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2,
+      "eval_accuracy": 0.4686,
+      "eval_f1_macro": 0.44141691149088036,
+      "eval_loss": 0.6931988000869751,
+      "eval_precision_macro": 0.5766681586483515,
+      "eval_recall_macro": 0.6479536659850473,
+      "eval_runtime": 23.7806,
+      "eval_samples_per_second": 210.256,
+      "eval_steps_per_second": 3.322,
+      "step": 2000
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 13.355767250061035,
+      "learning_rate": 4.6761848323226605e-06,
+      "loss": 0.4438,
+      "step": 3000
+    },
+    {
+      "epoch": 4.8,
+      "eval_accuracy": 0.7276,
+      "eval_f1_macro": 0.6044354346853781,
+      "eval_loss": 0.6976514458656311,
+      "eval_precision_macro": 0.601173813907625,
+      "eval_recall_macro": 0.6793853081509867,
+      "eval_runtime": 23.8882,
+      "eval_samples_per_second": 209.308,
+      "eval_steps_per_second": 3.307,
+      "step": 3000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 5.0518228598784e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.0315182333769228e-05,
+    "num_train_epochs": 8,
+    "per_device_train_batch_size": 16,
+    "seed": 22,
+    "warmup_ratio": 0.11705394279119077,
+    "weight_decay": 0.13356417654069175
+  }
+}

final_new/results_hyper_search_DEBERTA/run-2/checkpoint-5000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

final_new/results_hyper_search_DEBERTA/run-2/checkpoint-5000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "real",
+    "1": "fake"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "fake": 1,
+    "real": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

final_new/results_hyper_search_DEBERTA/run-2/checkpoint-5000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

final_new/results_hyper_search_DEBERTA/run-2/checkpoint-5000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

final_new/results_hyper_search_DEBERTA/run-2/checkpoint-5000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,136 @@

+{
+  "best_global_step": 5000,
+  "best_metric": 0.5997370106370481,
+  "best_model_checkpoint": "./results_hyper_search_DEBERTA/run-2/checkpoint-5000",
+  "epoch": 8.0,
+  "eval_steps": 1000,
+  "global_step": 5000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.8016266822814941,
+      "learning_rate": 1.2474286546321821e-05,
+      "loss": 0.6152,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.639,
+      "eval_f1_macro": 0.5549379425686003,
+      "eval_loss": 0.6044051051139832,
+      "eval_precision_macro": 0.5880839985122879,
+      "eval_recall_macro": 0.6807331165032391,
+      "eval_runtime": 23.9947,
+      "eval_samples_per_second": 208.38,
+      "eval_steps_per_second": 3.292,
+      "step": 1000
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 3.678083658218384,
+      "learning_rate": 9.3564943577885e-06,
+      "loss": 0.5344,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2,
+      "eval_accuracy": 0.7188,
+      "eval_f1_macro": 0.5978591232436511,
+      "eval_loss": 0.6491641998291016,
+      "eval_precision_macro": 0.5972849820479006,
+      "eval_recall_macro": 0.6754914904922151,
+      "eval_runtime": 23.7704,
+      "eval_samples_per_second": 210.346,
+      "eval_steps_per_second": 3.323,
+      "step": 2000
+    },
+    {
+      "epoch": 4.8,
+      "grad_norm": 5.0685858726501465,
+      "learning_rate": 6.238702169255177e-06,
+      "loss": 0.4334,
+      "step": 3000
+    },
+    {
+      "epoch": 4.8,
+      "eval_accuracy": 0.6852,
+      "eval_f1_macro": 0.5791421344499168,
+      "eval_loss": 0.7180050611495972,
+      "eval_precision_macro": 0.59082407477529,
+      "eval_recall_macro": 0.6754002501059999,
+      "eval_runtime": 23.7836,
+      "eval_samples_per_second": 210.229,
+      "eval_steps_per_second": 3.322,
+      "step": 3000
+    },
+    {
+      "epoch": 6.4,
+      "grad_norm": 8.405384063720703,
+      "learning_rate": 3.1209099807218553e-06,
+      "loss": 0.3258,
+      "step": 4000
+    },
+    {
+      "epoch": 6.4,
+      "eval_accuracy": 0.7162,
+      "eval_f1_macro": 0.5901324695324581,
+      "eval_loss": 0.9122663140296936,
+      "eval_precision_macro": 0.5900376496467702,
+      "eval_recall_macro": 0.6606401049801149,
+      "eval_runtime": 23.765,
+      "eval_samples_per_second": 210.393,
+      "eval_steps_per_second": 3.324,
+      "step": 4000
+    },
+    {
+      "epoch": 8.0,
+      "grad_norm": 4.3618855476379395,
+      "learning_rate": 3.117792188533322e-09,
+      "loss": 0.2579,
+      "step": 5000
+    },
+    {
+      "epoch": 8.0,
+      "eval_accuracy": 0.7296,
+      "eval_f1_macro": 0.5997370106370481,
+      "eval_loss": 0.9907922148704529,
+      "eval_precision_macro": 0.5957433635167557,
+      "eval_recall_macro": 0.6659904143923658,
+      "eval_runtime": 23.8201,
+      "eval_samples_per_second": 209.906,
+      "eval_steps_per_second": 3.317,
+      "step": 5000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 5000,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 8,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": true
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 8.419704766464e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.3986415757760482e-05,
+    "num_train_epochs": 8,
+    "per_device_train_batch_size": 16,
+    "seed": 11,
+    "warmup_ratio": 0.1027040959832009,
+    "weight_decay": 0.14078723455527858
+  }
+}

final_new/results_hyper_search_DEBERTA/run-3/checkpoint-2000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

final_new/results_hyper_search_DEBERTA/run-3/checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "real",
+    "1": "fake"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "fake": 1,
+    "real": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

final_new/results_hyper_search_DEBERTA/run-3/checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

final_new/results_hyper_search_DEBERTA/run-3/checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

final_new/results_hyper_search_DEBERTA/run-3/checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "best_global_step": 2000,
+  "best_metric": 0.5214696341972573,
+  "best_model_checkpoint": "./results_hyper_search_DEBERTA/run-3/checkpoint-2000",
+  "epoch": 3.2,
+  "eval_steps": 1000,
+  "global_step": 2000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.6,
+      "grad_norm": 2.5334744453430176,
+      "learning_rate": 3.3257742507708724e-06,
+      "loss": 0.6087,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.583,
+      "eval_f1_macro": 0.5200337896212106,
+      "eval_loss": 0.6109012961387634,
+      "eval_precision_macro": 0.5825661988953263,
+      "eval_recall_macro": 0.6731011265504157,
+      "eval_runtime": 23.919,
+      "eval_samples_per_second": 209.039,
+      "eval_steps_per_second": 3.303,
+      "step": 1000
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 7.089099407196045,
+      "learning_rate": 1.1100685540547683e-06,
+      "loss": 0.5543,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2,
+      "eval_accuracy": 0.5828,
+      "eval_f1_macro": 0.5214696341972573,
+      "eval_loss": 0.6113795042037964,
+      "eval_precision_macro": 0.5854079475480009,
+      "eval_recall_macro": 0.6790498655546073,
+      "eval_runtime": 23.7426,
+      "eval_samples_per_second": 210.592,
+      "eval_steps_per_second": 3.327,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 2500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.3678819065856e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 5.164809979045239e-06,
+    "num_train_epochs": 4,
+    "per_device_train_batch_size": 16,
+    "seed": 15,
+    "warmup_ratio": 0.06755599489879922,
+    "weight_decay": 0.23675131092877333
+  }
+}

final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "real",
+    "1": "fake"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "fake": 1,
+    "real": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

final_new/results_hyper_search_DEBERTA/run-4/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "best_global_step": 1000,
+  "best_metric": 0.5977399564843511,
+  "best_model_checkpoint": "./results_hyper_search_DEBERTA/run-4/checkpoint-1000",
+  "epoch": 1.6,
+  "eval_steps": 1000,
+  "global_step": 1000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.6,
+      "grad_norm": 3.9698081016540527,
+      "learning_rate": 3.010016159294345e-06,
+      "loss": 0.6006,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.7212,
+      "eval_f1_macro": 0.5977399564843511,
+      "eval_loss": 0.6234617233276367,
+      "eval_precision_macro": 0.5963182657859172,
+      "eval_recall_macro": 0.6720324064383509,
+      "eval_runtime": 24.0476,
+      "eval_samples_per_second": 207.921,
+      "eval_steps_per_second": 3.285,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 1875,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6839409532928e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 6.391130201241418e-06,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 16,
+    "seed": 14,
+    "warmup_ratio": 0.007895358563318623,
+    "weight_decay": 0.19664387232971756
+  }
+}

final_new/results_hyper_search_DEBERTA/run-5/checkpoint-2000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

final_new/results_hyper_search_DEBERTA/run-5/checkpoint-2000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "real",
+    "1": "fake"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "fake": 1,
+    "real": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

final_new/results_hyper_search_DEBERTA/run-5/checkpoint-2000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

final_new/results_hyper_search_DEBERTA/run-5/checkpoint-2000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

final_new/results_hyper_search_DEBERTA/run-5/checkpoint-2000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,79 @@

+{
+  "best_global_step": 2000,
+  "best_metric": 0.5761183261183261,
+  "best_model_checkpoint": "./results_hyper_search_DEBERTA/run-5/checkpoint-2000",
+  "epoch": 3.2,
+  "eval_steps": 1000,
+  "global_step": 2000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.6,
+      "grad_norm": 6.222267150878906,
+      "learning_rate": 1.909543747689655e-06,
+      "loss": 0.6227,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.6684,
+      "eval_f1_macro": 0.5699836334422224,
+      "eval_loss": 0.60748291015625,
+      "eval_precision_macro": 0.5887745763033124,
+      "eval_recall_macro": 0.6759611101271461,
+      "eval_runtime": 23.9742,
+      "eval_samples_per_second": 208.557,
+      "eval_steps_per_second": 3.295,
+      "step": 1000
+    },
+    {
+      "epoch": 3.2,
+      "grad_norm": 5.623478889465332,
+      "learning_rate": 1.2154166129424158e-06,
+      "loss": 0.5704,
+      "step": 2000
+    },
+    {
+      "epoch": 3.2,
+      "eval_accuracy": 0.6804,
+      "eval_f1_macro": 0.5761183261183261,
+      "eval_loss": 0.6052666902542114,
+      "eval_precision_macro": 0.5896817337700503,
+      "eval_recall_macro": 0.6744341754284273,
+      "eval_runtime": 23.7946,
+      "eval_samples_per_second": 210.132,
+      "eval_steps_per_second": 3.32,
+      "step": 2000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 3750,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 6,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 3.3678819065856e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 2.4877516509341053e-06,
+    "num_train_epochs": 6,
+    "per_device_train_batch_size": 16,
+    "seed": 18,
+    "warmup_ratio": 0.044159519908610584,
+    "weight_decay": 0.07842897475620166
+  }
+}

final_new/results_hyper_search_DEBERTA/run-6/checkpoint-1000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

final_new/results_hyper_search_DEBERTA/run-6/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "real",
+    "1": "fake"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "fake": 1,
+    "real": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

final_new/results_hyper_search_DEBERTA/run-6/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

final_new/results_hyper_search_DEBERTA/run-6/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "best_global_step": 1000,
+  "best_metric": 0.5778107857758332,
+  "best_model_checkpoint": "./results_hyper_search_DEBERTA/run-6/checkpoint-1000",
+  "epoch": 1.6,
+  "eval_steps": 1000,
+  "global_step": 1000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.6,
+      "grad_norm": 1.95713472366333,
+      "learning_rate": 1.0883753415508279e-05,
+      "loss": 0.5984,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.6786,
+      "eval_f1_macro": 0.5778107857758332,
+      "eval_loss": 0.5918202996253967,
+      "eval_precision_macro": 0.5927365941052973,
+      "eval_recall_macro": 0.6818803301828564,
+      "eval_runtime": 23.9576,
+      "eval_samples_per_second": 208.702,
+      "eval_steps_per_second": 3.297,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 2500,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 4,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6839409532928e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 1.720662681878824e-05,
+    "num_train_epochs": 4,
+    "per_device_train_batch_size": 16,
+    "seed": 38,
+    "warmup_ratio": 0.05046021852881977,
+    "weight_decay": 0.07407011018822314
+  }
+}

final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/added_tokens.json ADDED Viewed

	@@ -0,0 +1,3 @@

+{
+  "[MASK]": 128000
+}

final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/config.json ADDED Viewed

	@@ -0,0 +1,43 @@

+{
+  "architectures": [
+    "DebertaV2ForSequenceClassification"
+  ],
+  "attention_probs_dropout_prob": 0.1,
+  "dtype": "float32",
+  "hidden_act": "gelu",
+  "hidden_dropout_prob": 0.1,
+  "hidden_size": 768,
+  "id2label": {
+    "0": "real",
+    "1": "fake"
+  },
+  "initializer_range": 0.02,
+  "intermediate_size": 3072,
+  "label2id": {
+    "fake": 1,
+    "real": 0
+  },
+  "layer_norm_eps": 1e-07,
+  "legacy": true,
+  "max_position_embeddings": 512,
+  "max_relative_positions": -1,
+  "model_type": "deberta-v2",
+  "norm_rel_ebd": "layer_norm",
+  "num_attention_heads": 12,
+  "num_hidden_layers": 12,
+  "pad_token_id": 0,
+  "pooler_dropout": 0,
+  "pooler_hidden_act": "gelu",
+  "pooler_hidden_size": 768,
+  "pos_att_type": [
+    "p2c",
+    "c2p"
+  ],
+  "position_biased_input": false,
+  "position_buckets": 256,
+  "relative_attention": true,
+  "share_att_key": true,
+  "transformers_version": "4.57.1",
+  "type_vocab_size": 0,
+  "vocab_size": 128100
+}

final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/special_tokens_map.json ADDED Viewed

	@@ -0,0 +1,15 @@

+{
+  "bos_token": "[CLS]",
+  "cls_token": "[CLS]",
+  "eos_token": "[SEP]",
+  "mask_token": "[MASK]",
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "unk_token": {
+    "content": "[UNK]",
+    "lstrip": false,
+    "normalized": true,
+    "rstrip": false,
+    "single_word": false
+  }
+}

final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/tokenizer.json ADDED Viewed

The diff for this file is too large to render. See raw diff

final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/tokenizer_config.json ADDED Viewed

	@@ -0,0 +1,59 @@

+{
+  "added_tokens_decoder": {
+    "0": {
+      "content": "[PAD]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "1": {
+      "content": "[CLS]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "2": {
+      "content": "[SEP]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "3": {
+      "content": "[UNK]",
+      "lstrip": false,
+      "normalized": true,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    },
+    "128000": {
+      "content": "[MASK]",
+      "lstrip": false,
+      "normalized": false,
+      "rstrip": false,
+      "single_word": false,
+      "special": true
+    }
+  },
+  "bos_token": "[CLS]",
+  "clean_up_tokenization_spaces": false,
+  "cls_token": "[CLS]",
+  "do_lower_case": false,
+  "eos_token": "[SEP]",
+  "extra_special_tokens": {},
+  "mask_token": "[MASK]",
+  "model_max_length": 1000000000000000019884624838656,
+  "pad_token": "[PAD]",
+  "sep_token": "[SEP]",
+  "sp_model_kwargs": {},
+  "split_by_punct": false,
+  "tokenizer_class": "DebertaV2Tokenizer",
+  "unk_token": "[UNK]",
+  "vocab_type": "spm"
+}

final_new/results_hyper_search_DEBERTA/run-8/checkpoint-1000/trainer_state.json ADDED Viewed

	@@ -0,0 +1,60 @@

+{
+  "best_global_step": 1000,
+  "best_metric": 0.5841124806304239,
+  "best_model_checkpoint": "./results_hyper_search_DEBERTA/run-8/checkpoint-1000",
+  "epoch": 1.6,
+  "eval_steps": 1000,
+  "global_step": 1000,
+  "is_hyper_param_search": true,
+  "is_local_process_zero": true,
+  "is_world_process_zero": true,
+  "log_history": [
+    {
+      "epoch": 1.6,
+      "grad_norm": 2.356539249420166,
+      "learning_rate": 1.7019489204504472e-05,
+      "loss": 0.6009,
+      "step": 1000
+    },
+    {
+      "epoch": 1.6,
+      "eval_accuracy": 0.6922,
+      "eval_f1_macro": 0.5841124806304239,
+      "eval_loss": 0.6143302917480469,
+      "eval_precision_macro": 0.5932105858722077,
+      "eval_recall_macro": 0.6782494995196462,
+      "eval_runtime": 23.954,
+      "eval_samples_per_second": 208.733,
+      "eval_steps_per_second": 3.298,
+      "step": 1000
+    }
+  ],
+  "logging_steps": 1000,
+  "max_steps": 1875,
+  "num_input_tokens_seen": 0,
+  "num_train_epochs": 3,
+  "save_steps": 1000,
+  "stateful_callbacks": {
+    "TrainerControl": {
+      "args": {
+        "should_epoch_stop": false,
+        "should_evaluate": false,
+        "should_log": false,
+        "should_save": true,
+        "should_training_stop": false
+      },
+      "attributes": {}
+    }
+  },
+  "total_flos": 1.6839409532928e+16,
+  "train_batch_size": 64,
+  "trial_name": null,
+  "trial_params": {
+    "learning_rate": 3.5107553644451574e-05,
+    "num_train_epochs": 3,
+    "per_device_train_batch_size": 16,
+    "seed": 13,
+    "warmup_ratio": 0.03608456495612949,
+    "weight_decay": 0.0003410574096915697
+  }
+}

final_new/train.py ADDED Viewed

	@@ -0,0 +1,223 @@

+# ==============================================================================
+# 最终决战版-v9: 虚假评论识别
+# 核心策略: DeBERTa-v3 + 类别权重 + 自动超参数搜索 + Batch Size 32
+# ==============================================================================
+import os
+import pandas as pd
+import numpy as np
+import torch
+from torch import nn
+from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score
+from sklearn.utils.class_weight import compute_class_weight
+from datasets import Dataset
+from transformers import (
+    AutoTokenizer,
+    AutoModelForSequenceClassification,
+    TrainingArguments,
+    Trainer,
+    EvalPrediction
+)
+import optuna
+# --- 1. 网络配置 (切换回在线模式以通过镜像下载新模型) ---
+os.environ['HF_ENDPOINT'] = 'https://hf-mirror.com'
+os.environ['HF_HUB_CACHE'] = '/root/autodl-tmp/huggingface_cache'
+# 注意：这里去掉了 HF_HUB_OFFLINE=1，因为我们需要联网下载 DeBERTa
+# ！！！ 核心升级：更换最强 Base 模型 ！！！
+MODEL_NAME_OR_PATH = "microsoft/deberta-v3-base"
+# --- 2. 定义文件路径 ---
+TRAIN_FILE_PATH = "/tmp/home/wzh/file/train_data.csv"
+VALID_FILE_PATH = "/tmp/home/wzh/file/val_data.csv"
+# --- 3. 加载数据 ---
+print(f"加载训练集: {TRAIN_FILE_PATH}")
+train_df = pd.read_csv(TRAIN_FILE_PATH)
+print(f"加载验证集: {VALID_FILE_PATH}")
+eval_df = pd.read_csv(VALID_FILE_PATH)
+label_map = {"real": 0, "fake": 1}
+train_df['label'] = train_df['label'].map(label_map)
+eval_df['label'] = eval_df['label'].map(label_map)
+# --- 4. 计算类别权重 ---
+print("\n正在计算类别权重...")
+train_labels = np.array(train_df["label"])
+class_weights = compute_class_weight(class_weight='balanced', classes=np.unique(train_labels), y=train_labels)
+device = "cuda" if torch.cuda.is_available() else "cpu"
+class_weights_tensor = torch.tensor(class_weights, dtype=torch.float).to(device)
+print(f"计算出的类别权重: {class_weights}")
+# --- 5. 创建Dataset与分词 ---
+train_dataset = Dataset.from_pandas(train_df)
+eval_dataset = Dataset.from_pandas(eval_df)
+print(f"\n正在下载/加载模型: {MODEL_NAME_OR_PATH} ...")
+# DeBERTa 需要 sentencepiece，确保已安装
+tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME_OR_PATH)
+def tokenize_function(examples):
+    return tokenizer(examples["text"], padding="max_length", truncation=True, max_length=512)
+tokenized_train_dataset = train_dataset.map(tokenize_function, batched=True)
+tokenized_eval_dataset = eval_dataset.map(tokenize_function, batched=True)
+columns_to_remove = ["id", "text"]
+if "__index_level_0__" in train_df.columns:
+    columns_to_remove.append("__index_level_0__")
+tokenized_train_dataset = tokenized_train_dataset.remove_columns(columns_to_remove)
+tokenized_eval_dataset = tokenized_eval_dataset.remove_columns(columns_to_remove)
+tokenized_train_dataset = tokenized_train_dataset.rename_column("label", "labels")
+tokenized_eval_dataset = tokenized_eval_dataset.rename_column("label", "labels")
+# --- 6. 自定义Trainer (应用类别权重) ---
+class CustomTrainer(Trainer):
+    def compute_loss(self, model, inputs, return_outputs=False, **kwargs):
+        labels = inputs.pop("labels")
+        outputs = model(**inputs)
+        logits = outputs.get("logits")
+        loss_fct = nn.CrossEntropyLoss(weight=class_weights_tensor)
+        loss = loss_fct(logits.view(-1, self.model.config.num_labels), labels.view(-1))
+        return (loss, outputs) if return_outputs else loss
+# --- 7. 配置超参数搜索 ---
+id2label = {0: "real", 1: "fake"}
+label2id = {"real": 0, "fake": 1}
+def model_init(trial):
+    return AutoModelForSequenceClassification.from_pretrained(
+        MODEL_NAME_OR_PATH,
+        num_labels=2,
+        id2label=id2label,
+        label2id=label2id,
+    )
+def compute_metrics_macro(p: EvalPrediction):
+    labels = p.label_ids
+    preds = np.argmax(p.predictions, axis=1)
+    f1_macro = f1_score(labels, preds, average='macro', zero_division=0)
+    acc = accuracy_score(labels, preds)
+    precision_macro = precision_score(labels, preds, average='macro', zero_division=0)
+    recall_macro = recall_score(labels, preds, average='macro', zero_division=0)
+    return {
+        "accuracy": acc,
+        "f1_macro": f1_macro,
+        "precision_macro": precision_macro,
+        "recall_macro": recall_macro
+    }
+def compute_objective(metrics):
+    return metrics['eval_f1_macro']
+def my_hp_space(trial):
+    return {
+        # 1. 学习率：搜索范围扩大，从极小(1e-6)到标准(5e-5)，使用对数刻度
+        "learning_rate": trial.suggest_float("learning_rate", 1e-6, 5e-5, log=True),
+        # 2. 训练轮数：允许训练更久，比如 3 到 8 轮 (防止欠拟合)
+        "num_train_epochs": trial.suggest_int("num_train_epochs", 3, 8),
+        # 3. 随机种子：尝试不同的随机种子，排除运气的成分
+        "seed": trial.suggest_int("seed", 1, 40),
+        # 4. Batch Size：让它在 16 和 32 之间选择
+        # (前提是你的显存能跑得动 32，如果不行就删掉这一行，固定为16)
+        "per_device_train_batch_size": trial.suggest_categorical("per_device_train_batch_size", [16]),
+        # 5. 权重衰减：正则化系数，防止过拟合
+        "weight_decay": trial.suggest_float("weight_decay", 0.0, 0.3),
+        # 6. 预热比例：调整学习率预热的步数比例
+        "warmup_ratio": trial.suggest_float("warmup_ratio", 0.0, 0.2),
+    }
+training_args = TrainingArguments(
+    output_dir="./results_hyper_search_DEBERTA",
+    # ！！！ 激进设置：尝试 32 Batch Size ！！！
+    per_device_train_batch_size=16,
+    per_device_eval_batch_size=16,
+    weight_decay=0.01,
+    eval_strategy="steps",
+    eval_steps=1000,
+    save_strategy="steps",
+    save_steps=1000,
+    logging_strategy="steps",
+    logging_steps=1000,
+    load_best_model_at_end=True,
+    metric_for_best_model="f1_macro",
+    greater_is_better=True,
+    save_total_limit=1,
+)
+trainer = CustomTrainer(
+    model=None,
+    args=training_args,
+    model_init=model_init,
+    train_dataset=tokenized_train_dataset,
+    eval_dataset=tokenized_eval_dataset,
+    tokenizer=tokenizer,
+    compute_metrics=compute_metrics_macro,
+)
+# --- 8. 开始自动超参数搜索 ---
+print("\n" + "="*50)
+print("🚀 [DeBERTa-v3] 开始自动超参数搜索 (Target: Macro-F1)...")
+print("="*50)
+best_run = trainer.hyperparameter_search(
+    direction="maximize",
+    n_trials=20,
+    compute_objective=compute_objective,
+    backend="optuna",
+    hp_space=my_hp_space
+)
+print("\n" + "="*50)
+print("🎉 搜索完成！")
+print("="*50)
+print(f"最佳 Macro-F1: {best_run.objective:.4f}")
+print("最佳参数组合:", best_run.hyperparameters)
+# --- 9. 使用最佳参数进行最终训练 ---
+print("\n" + "="*50)
+print("🚀 [DeBERTa-v3] 使用最佳参数进行最终训练...")
+print("="*50)
+for k, v in best_run.hyperparameters.items():
+    setattr(training_args, k, v)
+training_args.output_dir = "./results_final_best_DEBERTA"
+training_args.logging_steps = 200
+trainer = CustomTrainer(
+    model_init=model_init,
+    args=training_args,
+    train_dataset=tokenized_train_dataset,
+    eval_dataset=tokenized_eval_dataset,
+    compute_metrics=compute_metrics_macro,
+)
+trainer.train()
+print("\n" + "="*50)
+print("🎉 最终训练完成！")
+print("="*50)
+# --- 10. 保存 ---
+final_model_path = "./final_model_deberta_macro"
+trainer.save_model(final_model_path)
+tokenizer.save_pretrained(final_model_path)
+print(f"\nDeBERTa 最优模型已保存至: {final_model_path}")
+print("\n--- 最终成绩单 (验证集) ---")
+final_metrics = trainer.evaluate()
+for key, value in final_metrics.items():
+    if key.startswith("eval_"):
+        key = key[5:]
+    if isinstance(value, float):
+        print(f"  - {key}: {value:.4f}")
+    else:
+        print(f"  - {key}: {value}")

test.py ADDED Viewed

File without changes