Ulys5e
/

fduhomework02

Model card Files Files and versions

Ulys5e commited on Jan 9, 2025

Commit

f615f2f

·

verified ·

1 Parent(s): 9c9411d

Update README.md

Files changed (1) hide show

README.md +65 -3

README.md CHANGED Viewed

@@ -1,3 +1,65 @@
----
-license: apache-2.0
----

+---
+license: apache-2.0
+---
+pip install transformers datasets torch scikit-learn
+import torch
+from datasets import load_dataset
+from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer
+from sklearn.model_selection import train_test_split
+from sklearn.metrics import accuracy_score, f1_score
+def load_and_prepare_data():
+    dataset = load_dataset("emotion")
+    train_dataset = dataset["train"]
+    test_dataset = dataset["test"]
+    return train_dataset, test_dataset
+def tokenize_dataset(dataset):
+    tokenizer = AutoTokenizer.from_pretrained("distilbert-base-uncased")
+    def tokenize_function(examples):
+        return tokenizer(examples["text"], padding="max_length", truncation=True)
+    tokenized_dataset = dataset.map(tokenize_function, batched=True)
+    return tokenized_dataset
+def load_model():
+    num_labels = 6
+    model = AutoModelForSequenceClassification.from_pretrained("distilbert-base-uncased", num_labels=num_labels)
+    return model
+def define_training_arguments():
+    training_args = TrainingArguments(
+        output_dir="./results",
+        num_train_epochs=3,
+        per_device_train_batch_size=16,
+        per_device_eval_batch_size=64,
+        warmup_steps=500,
+        weight_decay=0.01,
+        logging_dir="./logs",
+        logging_steps=10,
+        evaluation_strategy="epoch",
+        save_strategy="epoch",
+        load_best_model_at_end=True,
+        metric_for_best_model="accuracy",
+        greater_is_better=True,
+    )
+    return training_args
+def compute_metrics(eval_pred):
+    logits, labels = eval_pred
+    predictions = torch.argmax(torch.tensor(logits), dim=-1)
+    accuracy = accuracy_score(labels, predictions)
+    f1 = f1_score(labels, predictions, average="weighted")
+    return {"accuracy": accuracy, "f1": f1}
+def main():
+    train_dataset, test_dataset = load_and_prepare_data()
+    tokenized_train_dataset = tokenize_dataset(train_dataset)
+    tokenized_test_dataset = tokenize_dataset(test_dataset)
+    model = load_model()
+    training_args = define_training_arguments()
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=tokenized_train_dataset,
+        eval_dataset=tokenized_test_dataset,
+        compute_metrics=compute_metrics,
+    )
+    trainer.train()
+    trainer.evaluate()
+    trainer.save_model()
+if __name__ == "__main__":
+    main()