Spaces:

student2222333051
/

summarizer_space

Sleeping

App Files Files Community

student2222333051 commited on Dec 1, 2025

Commit

fbd3dd8

verified ·

1 Parent(s): 0a5b809

Create ine_tune.py

Browse files

Files changed (1) hide show

ine_tune.py +76 -0

ine_tune.py ADDED Viewed

	@@ -0,0 +1,76 @@

+# fine_tune.py
+from datasets import load_dataset, load_metric
+from transformers import BartTokenizer, BartForConditionalGeneration, Trainer, TrainingArguments
+# 1️⃣ Деректерді жүктеу (ArXiv)
+dataset = load_dataset("scientific_papers", "arxiv")
+# Шағын subset (тест үшін)
+dataset["train"] = dataset["train"].select(range(1000))
+dataset["validation"] = dataset["validation"].select(range(200))
+# 2️⃣ Tokenizer және модель
+model_name = "facebook/bart-large-cnn"
+tokenizer = BartTokenizer.from_pretrained(model_name)
+model = BartForConditionalGeneration.from_pretrained(model_name)
+max_input_length = 1024
+max_output_length = 200
+# 3️⃣ Tokenization
+def preprocess_function(batch):
+    inputs = tokenizer(batch["article"], max_length=max_input_length, truncation=True)
+    outputs = tokenizer(batch["abstract"], max_length=max_output_length, truncation=True)
+    batch["input_ids"] = inputs["input_ids"]
+    batch["attention_mask"] = inputs["attention_mask"]
+    batch["labels"] = outputs["input_ids"]
+    return batch
+tokenized_train = dataset["train"].map(preprocess_function, batched=True)
+tokenized_val = dataset["validation"].map(preprocess_function, batched=True)
+# 4️⃣ ROUGE метрика
+rouge = load_metric("rouge")
+def compute_metrics(eval_pred):
+    predictions, labels = eval_pred
+    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
+    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
+    result = rouge.compute(predictions=decoded_preds, references=decoded_labels)
+    return {key: value.mid.fmeasure * 100 for key, value in result.items()}
+# 5️⃣ TrainingArguments
+training_args = TrainingArguments(
+    output_dir="./bart-finetuned-arxiv",
+    evaluation_strategy="steps",
+    eval_steps=500,
+    save_steps=500,
+    save_total_limit=2,
+    learning_rate=3e-5,
+    per_device_train_batch_size=2,
+    per_device_eval_batch_size=2,
+    num_train_epochs=3,
+    weight_decay=0.01,
+    fp16=True,
+    logging_dir="./logs",
+    logging_steps=100,
+)
+# 6️⃣ Trainer
+trainer = Trainer(
+    model=model,
+    args=training_args,
+    train_dataset=tokenized_train,
+    eval_dataset=tokenized_val,
+    tokenizer=tokenizer,
+    compute_metrics=compute_metrics,
+)
+# 7️⃣ Fine-tune бастау
+trainer.train()
+# 8️⃣ Модельді сақтау
+model.save_pretrained("./bart-finetuned-arxiv")
+tokenizer.save_pretrained("./bart-finetuned-arxiv")
+print("Fine-tuning аяқталды! Модель сақталды ./bart-finetuned-arxiv")