Spaces:

Canstralian
/

Transformers-Fine-Tuner

Paused

App Files Files Community

Canstralian commited on Feb 2, 2025

Commit

39dbdf0

verified ·

1 Parent(s): b33c880

Upload 6 files

Browse files

Files changed (6) hide show

README.md +8 -64
app.py +24 -26
fine_tuner.py +22 -0
model_selector.py +9 -0
requirements.txt +4 -7
utils.py +13 -0

README.md CHANGED Viewed

@@ -1,71 +1,15 @@
----
-title: Transformers Fine Tuner
-emoji: 🔥
-colorFrom: indigo
-colorTo: blue
-sdk: gradio
-sdk_version: 5.14.0
-app_file: app.py
-pinned: false
-license: apache-2.0
-short_description: A Gradio interface
----
-![Python Version](https://img.shields.io/badge/Python-3.10%2B-blue)
-![License](https://img.shields.io/badge/License-Apache%202.0-blue)
-![Last Commit](https://img.shields.io/github/last-commit/Canstralian/transformers-fine-tuner)
-![Issues](https://img.shields.io/github/issues/Canstralian/transformers-fine-tuner)
-![Pull Requests](https://img.shields.io/github/issues-pr/Canstralian/transformers-fine-tuner)
-![Contributors](https://img.shields.io/github/contributors/Canstralian/transformers-fine-tuner)
 # Transformers Fine Tuner
-🔥 **Transformers Fine Tuner** is a user-friendly Gradio interface that enables seamless fine-tuning of pre-trained transformer models on custom datasets. This tool facilitates efficient model adaptation for various NLP tasks, making it accessible for both beginners and experienced practitioners.
 ## Features
-- **Easy Dataset Integration**: Load datasets via URLs or direct file uploads.
-- **Model Selection**: Choose from a variety of pre-trained transformer models.
-- **Customizable Training Parameters**: Adjust epochs, batch size, and learning rate to suit your needs.
-- **Real-time Monitoring**: Track training progress and performance metrics.
-## Getting Started
-1. **Clone the Repository**:
-   ```bash
-   git clone https://huggingface.co/spaces/your-username/transformers-fine-tuner
-   cd transformers-fine-tuner
-   ```
-2. **Install Dependencies**:
-   Ensure you have Python 3.10 or higher. Install the required packages:
-   ```bash
-   pip install -r requirements.txt
-   ```
-3. **Run the Application**:
-   ```bash
-   python app.py
-   ```
-   Access the interface at `http://localhost:7860/`.
-## Usage
-- **Model Name**: Enter the name of the pre-trained model you wish to fine-tune (e.g., `bert-base-uncased`).
-- **Dataset URL**: Provide a URL to your dataset.
-- **Upload Dataset**: Alternatively, upload a dataset file directly.
-- **Number of Epochs**: Set the number of training epochs.
-- **Learning Rate**: Specify the learning rate for training.
-- **Batch Size**: Define the batch size for training.
-After configuring the parameters, click **Submit** to start the fine-tuning process. Monitor the training progress and performance metrics in real-time.
-## License
-This project is licensed under the Apache-2.0 License. See the [LICENSE](LICENSE) file for more details.
-## Acknowledgments
-- [Hugging Face Transformers](https://huggingface.co/transformers/)
-- [Gradio](https://gradio.app/)
-- [Datasets](https://huggingface.co/docs/datasets/)

 # Transformers Fine Tuner
+Transformers Fine Tuner is a user-friendly Gradio interface that enables seamless fine-tuning of pre-trained transformer models on custom datasets.
 ## Features
+- **Easy Dataset Integration:** Load datasets via URLs or direct file uploads.
+- **Model Selection:** Choose from a variety of pre-trained transformer models.
+- **Customizable Training Parameters:** Adjust epochs, batch size, and learning rate to suit your needs.
+- **Real-time Monitoring:** Track training progress and performance metrics.
+## Setup
+1. Clone the repository:

app.py CHANGED Viewed

@@ -1,31 +1,29 @@
-import os
-import sys
 import gradio as gr
-from model.model import fine_tune
-from data.preprocess import load_data, preprocess_data, save_processed_data
-def prepare_and_train(model_name, dataset_path, epochs, batch_size, learning_rate):
-    # Load and preprocess the dataset
-    data = load_data(dataset_path)
-    cleaned_data = preprocess_data(data)
-    processed_data_path = 'data/processed/processed_dataset.csv'
-    save_processed_data(cleaned_data, processed_data_path)
-    # Proceed with model fine-tuning
-    return fine_tune(model_name, dataset_url=None, file=processed_data_path, epochs=epochs, batch_size=batch_size, learning_rate=learning_rate)
-iface = gr.Interface(
-    fn=prepare_and_train,
-    inputs=[
-        gr.Textbox(label="Model Name", placeholder="e.g., bert-base-uncased"),
-        gr.File(label="Upload Dataset"),
-        gr.Number(label="Epochs", value=3),
-        gr.Number(label="Batch Size", value=8),
-        gr.Number(label="Learning Rate", value=5e-5),
-    ],
-    outputs="text",
-    live=True,
-)
 if __name__ == "__main__":
-    iface.launch()

 import gradio as gr
+from fine_tuner import fine_tune_model
+from model_selector import get_model_list
+from utils import load_dataset
+def train_model(dataset_url, model_name, epochs, batch_size, learning_rate):
+    dataset = load_dataset(dataset_url)
+    metrics = fine_tune_model(dataset, model_name, epochs, batch_size, learning_rate)
+    return metrics
+def main():
+    model_options = get_model_list()
+    interface = gr.Interface(
+        fn=train_model,
+        inputs=[
+            gr.inputs.Textbox(label="Dataset URL"),
+            gr.inputs.Dropdown(choices=model_options, label="Select Model"),
+            gr.inputs.Slider(minimum=1, maximum=10, default=3, label="Epochs"),
+            gr.inputs.Slider(minimum=1, maximum=64, default=16, label="Batch Size"),
+            gr.inputs.Slider(minimum=1e-5, maximum=1e-1, step=1e-5, default=1e-4, label="Learning Rate")
+        ],
+        outputs="json",
+        title="Transformers Fine Tuner",
+        description="Fine-tune pre-trained transformer models on custom datasets."
+    )
+    interface.launch()
 if __name__ == "__main__":
+    main()

fine_tuner.py ADDED Viewed

	@@ -0,0 +1,22 @@

+import torch
+from transformers import AutoModelForSequenceClassification, Trainer, TrainingArguments
+from datasets import load_dataset
+def fine_tune_model(dataset, model_name, epochs, batch_size, learning_rate):
+    model = AutoModelForSequenceClassification.from_pretrained(model_name, num_labels=2)
+    training_args = TrainingArguments(
+        output_dir='./results',
+        num_train_epochs=epochs,
+        per_device_train_batch_size=batch_size,
+        learning_rate=learning_rate,
+        logging_dir='./logs',
+        logging_steps=10,
+    )
+    trainer = Trainer(
+        model=model,
+        args=training_args,
+        train_dataset=dataset['train'],
+        eval_dataset=dataset['validation'],
+    )
+    trainer.train()
+    return {"status": "Training complete"}

model_selector.py ADDED Viewed

	@@ -0,0 +1,9 @@

+from transformers import HUGGINGFACE_HUB_NAME, HUGGINGFACE_HUB_MODEL
+def get_model_list():
+    return [
+        "bert-base-uncased",
+        "distilbert-base-uncased",
+        "roberta-base",
+        "gpt2"
+    ]

requirements.txt CHANGED Viewed

@@ -1,7 +1,4 @@
-transformers
-torch
-datasets
-gradio
-accelerate
-bitsandbytes
-peft

+transformers==4.30.0
+gradio==3.1.0
+torch==1.12.0
+datasets==2.2.0

utils.py ADDED Viewed

	@@ -0,0 +1,13 @@

+import requests
+import pandas as pd
+from datasets import load_dataset
+def load_dataset(dataset_url):
+    if dataset_url.startswith("http"):
+        response = requests.get(dataset_url)
+        with open("temp_dataset.csv", "wb") as f:
+            f.write(response.content)
+        dataset = load_dataset("csv", data_files="temp_dataset.csv")
+    else:
+        dataset = load_dataset("csv", data_files=dataset_url)
+    return dataset