Spaces:

yagnik12
/

AI_Text_Detecter_HanxiGuo_BiScope-Data

Running

App Files Files Community

yagnik12 commited on Sep 15

Commit

b7b9e5f

verified ·

1 Parent(s): c913035

Update train.py

Browse files

Files changed (1) hide show

train.py +11 -35

train.py CHANGED Viewed

@@ -1,61 +1,37 @@
 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
-import evaluate
-from huggingface_hub import login
-# 🔑 Login to Hugging Face (add HF_TOKEN as a secret in your Space settings)
 import os
-hf_token = os.getenv("HF_TOKEN")
-if hf_token:
-    login(hf_token)
-# 1. Load BiScope dataset
 dataset = load_dataset("HanxiGuo/BiScope_Data")
-# 2. Tokenizer
-MODEL = "microsoft/deberta-v3-small"
-tokenizer = AutoTokenizer.from_pretrained(MODEL)
-def preprocess(examples):
-    return tokenizer(examples["text"], truncation=True, padding="max_length", max_length=256)
-encoded_dataset = dataset.map(preprocess, batched=True)
-# 3. Model
-model = AutoModelForSequenceClassification.from_pretrained(MODEL, num_labels=2)
-# 4. Metrics
-accuracy = evaluate.load("accuracy")
-def compute_metrics(eval_pred):
-    logits, labels = eval_pred
-    predictions = logits.argmax(axis=-1)
-    return accuracy.compute(predictions=predictions, references=labels)
-# 5. Training args
 training_args = TrainingArguments(
     output_dir="./results",
     evaluation_strategy="epoch",
     save_strategy="epoch",
-    learning_rate=2e-5,
     per_device_train_batch_size=16,
     per_device_eval_batch_size=16,
-    num_train_epochs=2,
-    weight_decay=0.01,
     push_to_hub=True,
-    hub_model_id="yagnik12/AI_Text_Detecter_HanxiGuo_BiScope-Data"
 )
-# 6. Trainer
 trainer = Trainer(
     model=model,
     args=training_args,
-    train_dataset=encoded_dataset["train"],
-    eval_dataset=encoded_dataset["validation"],
     tokenizer=tokenizer,
-    compute_metrics=compute_metrics,
 )
-# 7. Train & Push
 trainer.train()
 trainer.push_to_hub()

 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForSequenceClassification, Trainer, TrainingArguments
 import os
 dataset = load_dataset("HanxiGuo/BiScope_Data")
+model_name = "distilbert-base-uncased"
+tokenizer = AutoTokenizer.from_pretrained(model_name)
+def tokenize(batch):
+    return tokenizer(batch["text"], truncation=True, padding="max_length", max_length=256)
+tokenized = dataset.map(tokenize, batched=True)
+model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
 training_args = TrainingArguments(
     output_dir="./results",
     evaluation_strategy="epoch",
     save_strategy="epoch",
+    num_train_epochs=1,
     per_device_train_batch_size=16,
     per_device_eval_batch_size=16,
     push_to_hub=True,
+    hub_model_id="yagnik12/AI_Text_Detecter_HanxiGuo_BiScope-Data",  # ✅ model repo, not Space
+    hub_token=os.getenv("HF_TOKEN"),
 )
 trainer = Trainer(
     model=model,
     args=training_args,
+    train_dataset=tokenized["train"],
+    eval_dataset=tokenized["test"],
     tokenizer=tokenizer,
 )
 trainer.train()
 trainer.push_to_hub()