Spaces:

ganeshkonapalli
/

berts

Sleeping

App Files Files Community

ganeshkonapalli commited on Jun 16, 2025

Commit

ccfc946

verified ·

1 Parent(s): 9bd7a84

Delete train.py

Browse files

Files changed (1) hide show

train.py +0 -81

train.py DELETED Viewed

@@ -1,81 +0,0 @@
-# app/train_api.py
-from fastapi import APIRouter, UploadFile, File
-import pandas as pd
-import torch
-from io import StringIO
-import os
-import joblib
-from app.config import (
-    DEVICE, LABEL_COLUMNS, MODEL_SAVE_DIR,
-    NUM_EPOCHS, LEARNING_RATE
-)
-from app.models import BertMultiOutputModel  # Your model class
-from app.dataset import MultiLabelDataset    # Your dataset class
-from app.train_utils import (
-    initialize_criterions, train_model,
-    evaluate_model, summarize_metrics,
-    save_model
-)
-from transformers import BertTokenizer
-from torch.utils.data import DataLoader
-from sklearn.preprocessing import LabelEncoder
-from sklearn.model_selection import train_test_split
-router = APIRouter()
-@router.post("/train")
-async def train_model_api(file: UploadFile = File(...)):
-    # Load CSV data
-    contents = await file.read()
-    df = pd.read_csv(StringIO(contents.decode("utf-8")))
-    # Split train/val
-    train_df, val_df = train_test_split(df, test_size=0.2, random_state=42)
-    # Label encode each label column
-    label_encoders = {}
-    for col in LABEL_COLUMNS:
-        le = LabelEncoder()
-        train_df[col] = le.fit_transform(train_df[col].astype(str))
-        val_df[col] = le.transform(val_df[col].astype(str))  # same encoder
-        label_encoders[col] = le
-    # Save encoders
-    os.makedirs(MODEL_SAVE_DIR, exist_ok=True)
-    joblib.dump(label_encoders, os.path.join(MODEL_SAVE_DIR, "label_encoders.pkl"))
-    # Tokenizer
-    tokenizer = BertTokenizer.from_pretrained("bert-base-uncased")
-    # Datasets and Loaders
-    train_dataset = MultiLabelDataset(train_df, tokenizer)
-    val_dataset = MultiLabelDataset(val_df, tokenizer)
-    train_loader = DataLoader(train_dataset, batch_size=16, shuffle=True)
-    val_loader = DataLoader(val_dataset, batch_size=16)
-    # Model initialization
-    num_labels = [len(le.classes_) for le in label_encoders.values()]
-    model = BertMultiOutputModel(num_labels).to(DEVICE)
-    # Optimizer and Loss
-    optimizer = torch.optim.AdamW(model.parameters(), lr=LEARNING_RATE)
-    criterions = initialize_criterions(train_df, label_encoders)
-    # Training Loop
-    for epoch in range(NUM_EPOCHS):
-        train_loss = train_model(model, train_loader, optimizer, criterions, epoch)
-        print(f"Epoch {epoch+1} Loss: {train_loss:.4f}")
-    # Evaluation
-    metrics, truths, preds = evaluate_model(model, val_loader)
-    summary_df = summarize_metrics(metrics)
-    # Save model
-    save_model(model, model_name="bert_multi_output", save_format="pth")
-    # Return summary report
-    return {
-        "message": "Training complete",
-        "metrics": summary_df.to_dict(orient="records")
-    }