Spaces:

Sina1138
/

ReView

Paused

App Files Files Community

Sina1138 commited on Jul 2, 2025

Commit

ea770c8

1 Parent(s): 66efe3b

fix model training scripts

Browse files

Files changed (4) hide show

alternative_polarity/deberta/{deberta_v3_large_polarity.py → deberta_v3_base_polarity.py} +1 -1
alternative_polarity/deberta/{deberta_v3_large_polarity_train.py → deberta_v3_base_polarity_train.py} +23 -23
alternative_polarity/scideberta/scideberta_full_polarity_train.py +20 -9
scibert/scibert_polarity/scibert_polarity_train.py +1 -1

alternative_polarity/deberta/{deberta_v3_large_polarity.py → deberta_v3_base_polarity.py} RENAMED Viewed

@@ -16,7 +16,7 @@ from glimpse.glimpse.data_loading.Glimpse_tokenizer import glimpse_tokenizer
 # === CONFIGURATION ===
-MODEL_DIR = BASE_DIR / "alternative_polarity" / "deberta" / "deberta_v3_large_polarity_final_model"
 DATA_DIR = BASE_DIR / "glimpse" / "data" / "processed"
 OUTPUT_DIR = BASE_DIR / "data" / "polarity_scored"
 OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

 # === CONFIGURATION ===
+MODEL_DIR = BASE_DIR / "alternative_polarity" / "deberta" / "deberta_v3_base_polarity_final_model"
 DATA_DIR = BASE_DIR / "glimpse" / "data" / "processed"
 OUTPUT_DIR = BASE_DIR / "data" / "polarity_scored"
 OUTPUT_DIR.mkdir(parents=True, exist_ok=True)

alternative_polarity/deberta/{deberta_v3_large_polarity_train.py → deberta_v3_base_polarity_train.py} RENAMED Viewed

@@ -8,37 +8,20 @@ from torch.nn import functional as F
 from transformers import Trainer
-class WeightedTrainer(Trainer):
-    def compute_loss(self, model, inputs, return_outputs=False, num_items_in_batch=None):
-        labels = inputs.pop("labels")
-        outputs = model(**inputs)
-        logits = outputs.logits
-        weights = class_weights.to(logits.device)
-        loss = F.cross_entropy(logits, labels, weight=weights)
-        return (loss, outputs) if return_outputs else loss
 # Load data
 train_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity_train.csv")
 dev_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity_dev.csv")
 test_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity_test.csv")
-# Compute class weights (inverse frequency)
-neg_weight = 1.0
-pos_weight = train_df['label'].value_counts()[0] / train_df['label'].value_counts()[1]
-class_weights = torch.tensor([neg_weight, pos_weight], dtype=torch.float32)
 # Convert to HuggingFace Datasets
 train_ds = Dataset.from_pandas(train_df)
 dev_ds = Dataset.from_pandas(dev_df)
 test_ds = Dataset.from_pandas(test_df)
 # Tokenize
-model_name = "microsoft/deberta-v3-large"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
 def tokenize(batch):
     return tokenizer(batch["text"], padding="max_length", truncation=True, max_length=512)
@@ -52,13 +35,30 @@ dev_ds.set_format(type="torch", columns=["input_ids", "attention_mask", "label"]
 test_ds.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])
 # Load model
-model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
 # Metrics
 def compute_metrics(eval_pred):
     logits, labels = eval_pred
     preds = np.argmax(logits, axis=1)
-    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average="binary")
     acc = accuracy_score(labels, preds)
     return {"accuracy": acc, "f1": f1, "precision": precision, "recall": recall}
@@ -66,7 +66,7 @@ def compute_metrics(eval_pred):
 args = TrainingArguments(
     output_dir="./alternative_polarity/deberta/checkpoints",
     eval_strategy="epoch",
-    save_strategy="no",
     learning_rate=2e-5,
     per_device_train_batch_size=4,
     per_device_eval_batch_size=8,
@@ -94,5 +94,5 @@ results = trainer.evaluate(test_ds)
 print("Test results:", results)
 # Save the model and tokenizer
-model.save_pretrained("./alternative_polarity/deberta/deberta_v3_large_polarity_final_model")
-tokenizer.save_pretrained("./alternative_polarity/deberta/deberta_v3_large_polarity_final_model")

 from transformers import Trainer
 # Load data
 train_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity_train.csv")
 dev_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity_dev.csv")
 test_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity_test.csv")
 # Convert to HuggingFace Datasets
 train_ds = Dataset.from_pandas(train_df)
 dev_ds = Dataset.from_pandas(dev_df)
 test_ds = Dataset.from_pandas(test_df)
 # Tokenize
+model_name = "microsoft/deberta-v3-base"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 def tokenize(batch):
     return tokenizer(batch["text"], padding="max_length", truncation=True, max_length=512)
 test_ds.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])
 # Load model
+model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3)
+# Compute class weights
+label_counts = train_df['label'].value_counts()
+total_samples = len(train_df)
+class_weights = torch.tensor([total_samples / (len(label_counts) * count) for count in label_counts.sort_index().values])
+class_weights = class_weights.to(dtype=torch.float32)
+print("Class weights:", class_weights)
+class WeightedTrainer(Trainer):
+    def compute_loss(self, model, inputs, return_outputs=False, **kwargs):
+        labels = inputs.pop("labels")
+        outputs = model(**inputs)
+        logits = outputs.logits
+        weights = class_weights.to(logits.device)
+        loss = F.cross_entropy(logits, labels, weight=weights)
+        return (loss, outputs) if return_outputs else loss
 # Metrics
 def compute_metrics(eval_pred):
     logits, labels = eval_pred
     preds = np.argmax(logits, axis=1)
+    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average="macro")
     acc = accuracy_score(labels, preds)
     return {"accuracy": acc, "f1": f1, "precision": precision, "recall": recall}
 args = TrainingArguments(
     output_dir="./alternative_polarity/deberta/checkpoints",
     eval_strategy="epoch",
+    save_strategy="epoch",
     learning_rate=2e-5,
     per_device_train_batch_size=4,
     per_device_eval_batch_size=8,
 print("Test results:", results)
 # Save the model and tokenizer
+model.save_pretrained("./alternative_polarity/deberta/deberta_v3_base_polarity_final_model")
+tokenizer.save_pretrained("./alternative_polarity/deberta/deberta_v3_base_polarity_final_model")

alternative_polarity/scideberta/scideberta_full_polarity_train.py CHANGED Viewed

@@ -24,11 +24,6 @@ train_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity
 dev_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity_dev.csv")
 test_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity_test.csv")
-# Compute class weights (inverse frequency)
-neg_weight = 1.0
-pos_weight = train_df['label'].value_counts()[0] / train_df['label'].value_counts()[1]
-class_weights = torch.tensor([neg_weight, pos_weight], dtype=torch.float32)
 # Convert to HuggingFace Datasets
 train_ds = Dataset.from_pandas(train_df)
 dev_ds = Dataset.from_pandas(dev_df)
@@ -36,7 +31,6 @@ test_ds = Dataset.from_pandas(test_df)
 model_name = "KISTI-AI/Scideberta-full"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
-model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
 def tokenize(batch):
     return tokenizer(batch["text"], padding="max_length", truncation=True, max_length=512)
@@ -51,13 +45,30 @@ dev_ds.set_format(type="torch", columns=["input_ids", "attention_mask", "label"]
 test_ds.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])
 # Load model
-model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
 # Metrics
 def compute_metrics(eval_pred):
     logits, labels = eval_pred
     preds = np.argmax(logits, axis=1)
-    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average="binary")
     acc = accuracy_score(labels, preds)
     return {"accuracy": acc, "f1": f1, "precision": precision, "recall": recall}
@@ -65,7 +76,7 @@ def compute_metrics(eval_pred):
 args = TrainingArguments(
     output_dir="./alternative_polarity/scideberta/checkpoints",
     eval_strategy="epoch",
-    save_strategy="no",
     learning_rate=2e-5,
     per_device_train_batch_size=4,
     per_device_eval_batch_size=8,

 dev_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity_dev.csv")
 test_df = pd.read_csv("./data/DISAPERE-main/SELFExtractedData/disapere_polarity_test.csv")
 # Convert to HuggingFace Datasets
 train_ds = Dataset.from_pandas(train_df)
 dev_ds = Dataset.from_pandas(dev_df)
 model_name = "KISTI-AI/Scideberta-full"
 tokenizer = AutoTokenizer.from_pretrained(model_name)
 def tokenize(batch):
     return tokenizer(batch["text"], padding="max_length", truncation=True, max_length=512)
 test_ds.set_format(type="torch", columns=["input_ids", "attention_mask", "label"])
 # Load model
+model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=3)
+# Compute class weights
+label_counts = train_df['label'].value_counts()
+total_samples = len(train_df)
+class_weights = torch.tensor([total_samples / (len(label_counts) * count) for count in label_counts.sort_index().values])
+class_weights = class_weights.to(dtype=torch.float32)
+print("Class weights:", class_weights)
+class WeightedTrainer(Trainer):
+    def compute_loss(self, model, inputs, return_outputs=False, **kwargs):
+        labels = inputs.pop("labels")
+        outputs = model(**inputs)
+        logits = outputs.logits
+        weights = class_weights.to(logits.device)
+        loss = F.cross_entropy(logits, labels, weight=weights)
+        return (loss, outputs) if return_outputs else loss
 # Metrics
 def compute_metrics(eval_pred):
     logits, labels = eval_pred
     preds = np.argmax(logits, axis=1)
+    precision, recall, f1, _ = precision_recall_fscore_support(labels, preds, average="macro")
     acc = accuracy_score(labels, preds)
     return {"accuracy": acc, "f1": f1, "precision": precision, "recall": recall}
 args = TrainingArguments(
     output_dir="./alternative_polarity/scideberta/checkpoints",
     eval_strategy="epoch",
+    save_strategy="epoch",
     learning_rate=2e-5,
     per_device_train_batch_size=4,
     per_device_eval_batch_size=8,

scibert/scibert_polarity/scibert_polarity_train.py CHANGED Viewed

@@ -67,7 +67,7 @@ def compute_metrics(eval_pred):
 args = TrainingArguments(
     output_dir="./scibert/scibert_polarity/checkpoints",
     eval_strategy="epoch",
-    save_strategy="no",
     learning_rate=2e-5,
     per_device_train_batch_size=8,
     per_device_eval_batch_size=16,

 args = TrainingArguments(
     output_dir="./scibert/scibert_polarity/checkpoints",
     eval_strategy="epoch",
+    save_strategy="epoch",
     learning_rate=2e-5,
     per_device_train_batch_size=8,
     per_device_eval_batch_size=16,