datasetsANDmodels
/

benginVSmaliuos

Text Classification

Generated from Trainer

Model card Files Files and versions

Metrics Training metrics Community

datasetsANDmodels commited on Aug 15, 2025

Commit

61fe8b0

·

verified ·

1 Parent(s): a644084

Upload 2 files

Files changed (3) hide show

.gitattributes +1 -0
benmal.csv +3 -0
finetune_mal_ben.py +83 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+benmal.csv filter=lfs diff=lfs merge=lfs -text

benmal.csv ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80d9aeeaf97cd5a4d2541fdd29a822e53aa1c17d4dd851cb511dfc43eb0de949
+size 19933794

finetune_mal_ben.py ADDED Viewed

	@@ -0,0 +1,83 @@

+#https://huggingface.co/docs/transformers/v4.17.0/en/tasks/sequence_classification
+from transformers import Trainer, TrainingArguments
+from transformers import AutoTokenizer
+from transformers import AutoModelForSequenceClassification,BertForSequenceClassification
+from datasets import load_dataset
+import numpy as np
+import evaluate
+from huggingface_hub import HfFolder
+tokenizer = AutoTokenizer.from_pretrained("roberta-large")
+file_dict = {
+  "train" : "benmal.csv",
+  "test" :"benmal.csv"
+}
+dataset=load_dataset(
+  'csv',
+  data_files=file_dict,
+  delimiter=',',
+  column_names=['text', 'label'],
+  skiprows=1
+)
+raw_dataset=dataset.shuffle()
+def tokenize(batch):
+    return tokenizer(batch['text'], padding='max_length', truncation=True, return_tensors="pt")
+tokenized_dataset = raw_dataset.map(tokenize, batched=True,remove_columns=["text"])
+model_id = "roberta-large"
+model =  AutoModelForSequenceClassification.from_pretrained(
+     model_id, num_labels=2, ignore_mismatched_sizes=True
+)
+metric = evaluate.load("f1")
+def compute_metrics(eval_pred):
+    predictions, labels = eval_pred
+    predictions = np.argmax(predictions, axis=1)
+    return metric.compute(predictions=predictions, references=labels, average="weighted")
+from transformers import DataCollatorWithPadding
+data_collator = DataCollatorWithPadding(tokenizer=tokenizer)
+repository_id = "azadeh1972/bm"
+training_args= TrainingArguments(
+    output_dir=repository_id,
+    per_device_train_batch_size=8,
+    per_device_eval_batch_size=8,
+    learning_rate=2e-5,
+    num_train_epochs=10,
+#	torch_compile=True,
+    evaluation_strategy="epoch",
+    save_strategy="epoch",
+    save_total_limit=2,
+    load_best_model_at_end=True,
+ #   metric_for_best_model="f1",
+#    report_to="tensorboard",
+    push_to_hub=True,
+    hub_strategy="every_save",
+    hub_model_id=repository_id,
+    hub_token=HfFolder.get_token(),
+)
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_dataset["train"],
+    eval_dataset=tokenized_dataset["train"],
+ #   compute_metrics=compute_metrics,
+#	tokenizer=tokenizer,
+#   data_collator=data_collator,
+)
+import torch._dynamo
+torch._dynamo.config.suppress_errors = True
+trainer.train()
+tokenizer.save_pretrained(repository_id)
+trainer.create_model_card()
+trainer.push_to_hub()