Spaces:

student2222333051
/

summarizer_space

Sleeping

App Files Files Community

student2222333051 commited on Dec 11, 2025

Commit

887395f

verified ·

1 Parent(s): 56e71ab

Update fine_tune.py

Browse files

Files changed (1) hide show

fine_tune.py +12 -31

fine_tune.py CHANGED Viewed

@@ -1,23 +1,21 @@
 # fine_tune.py
-from datasets import load_dataset, load_metric
 from transformers import BartTokenizer, BartForConditionalGeneration, Trainer, TrainingArguments
-# 1️⃣ Датасетті жүктеу (Marcov ArXiv)
 dataset = load_dataset("marcov/scientific_papers_arxiv_promptsource")
-# Шағын subset (тест үшін)
 dataset["train"] = dataset["train"].select(range(1000))
 dataset["validation"] = dataset["validation"].select(range(200))
-# 2️⃣ Tokenizer және модель
-model_name = "facebook/bart-large-cnn"
-tokenizer = BartTokenizer.from_pretrained(model_name)
-model = BartForConditionalGeneration.from_pretrained(model_name)
 max_input_length = 1024
 max_output_length = 200
-# 3️⃣ Tokenization
 def preprocess_function(batch):
     inputs = tokenizer(batch["article"], max_length=max_input_length, truncation=True)
     outputs = tokenizer(batch["summary"], max_length=max_output_length, truncation=True)
@@ -26,20 +24,9 @@ def preprocess_function(batch):
     batch["labels"] = outputs["input_ids"]
     return batch
-tokenized_train = dataset["train"].map(preprocess_function, batched=True)
-tokenized_val = dataset["validation"].map(preprocess_function, batched=True)
-# 4️⃣ ROUGE метрика
-rouge = load_metric("rouge")
-def compute_metrics(eval_pred):
-    predictions, labels = eval_pred
-    decoded_preds = tokenizer.batch_decode(predictions, skip_special_tokens=True)
-    decoded_labels = tokenizer.batch_decode(labels, skip_special_tokens=True)
-    result = rouge.compute(predictions=decoded_preds, references=decoded_labels)
-    return {key: value.mid.fmeasure * 100 for key, value in result.items()}
-# 5️⃣ TrainingArguments
 training_args = TrainingArguments(
     output_dir="./bart-finetuned-arxiv-hub",
     evaluation_strategy="steps",
@@ -51,26 +38,20 @@ training_args = TrainingArguments(
     per_device_eval_batch_size=2,
     num_train_epochs=3,
     weight_decay=0.01,
-    fp16=True,
     logging_dir="./logs",
     logging_steps=100,
-    push_to_hub=True  # Fine-tuned моделді HuggingFace Hub-қа жіберу
 )
-# 6️⃣ Trainer
 trainer = Trainer(
     model=model,
     args=training_args,
     train_dataset=tokenized_train,
     eval_dataset=tokenized_val,
     tokenizer=tokenizer,
-    compute_metrics=compute_metrics,
 )
-# 7️⃣ Fine-tune бастау
 trainer.train()
-# 8️⃣ Модельді HuggingFace Hub-қа push жасау
 trainer.push_to_hub("username/bart-finetuned-arxiv")
-print("Fine-tuning аяқталды! Модель Hub-қа жіберілді.")

 # fine_tune.py
+from datasets import load_dataset
 from transformers import BartTokenizer, BartForConditionalGeneration, Trainer, TrainingArguments
+import os
+model_name = "facebook/bart-large-cnn"
+tokenizer = BartTokenizer.from_pretrained(model_name)
+model = BartForConditionalGeneration.from_pretrained(model_name)
 dataset = load_dataset("marcov/scientific_papers_arxiv_promptsource")
+# Күнделікті тест үшін шағын subset
 dataset["train"] = dataset["train"].select(range(1000))
 dataset["validation"] = dataset["validation"].select(range(200))
 max_input_length = 1024
 max_output_length = 200
 def preprocess_function(batch):
     inputs = tokenizer(batch["article"], max_length=max_input_length, truncation=True)
     outputs = tokenizer(batch["summary"], max_length=max_output_length, truncation=True)
     batch["labels"] = outputs["input_ids"]
     return batch
+tokenized_train = dataset["train"].map(preprocess_function, batched=True, remove_columns=dataset["train"].column_names)
+tokenized_val = dataset["validation"].map(preprocess_function, batched=True, remove_columns=dataset["validation"].column_names)
 training_args = TrainingArguments(
     output_dir="./bart-finetuned-arxiv-hub",
     evaluation_strategy="steps",
     per_device_eval_batch_size=2,
     num_train_epochs=3,
     weight_decay=0.01,
+    fp16=False,  # GPU болса True қой
     logging_dir="./logs",
     logging_steps=100,
+    push_to_hub=True
 )
 trainer = Trainer(
     model=model,
     args=training_args,
     train_dataset=tokenized_train,
     eval_dataset=tokenized_val,
     tokenizer=tokenizer,
 )
 trainer.train()
 trainer.push_to_hub("username/bart-finetuned-arxiv")
+print("Fine-tuning complete.")