Spaces:

opinder2906
/

a1

Sleeping

App Files Files Community

opinder2906 commited on Jun 27, 2025

Commit

471fbb4

verified ·

1 Parent(s): 2bace3f

Create train.py

Browse files

Files changed (1) hide show

src/train.py +73 -0

src/train.py ADDED Viewed

	@@ -0,0 +1,73 @@

+import pandas as pd
+import torch
+import numpy as np
+from sklearn.preprocessing import LabelEncoder
+from torch.utils.data import Dataset, DataLoader
+from sklearn.model_selection import train_test_split
+from model_def import EmotionTransformer
+import joblib
+# 1) Load & clean data (with your Google Drive links)
+def load_and_preprocess():
+    df = pd.read_csv(
+        "https://drive.google.com/uc?export=download&id=14D_HcvTFL63-KffCQLNFxGH-oY_knwmo",
+        delimiter=';', header=None, names=['sentence','label']
+    )
+    ts_df = pd.read_csv(
+        "https://drive.google.com/uc?export=download&id=1Vmr1Rfv4pLSlAUrlOCxAcszvlxJOSHrm",
+        delimiter=';', header=None, names=['sentence','label']
+    )
+    df = pd.concat([df, ts_df], ignore_index=True)
+    df.drop_duplicates(inplace=True)
+    df['clean'] = df['sentence'].apply(clean_text)
+    return df
+# 2) Build vocab, encode & pad
+from collections import Counter
+MAX_LEN=32
+def build_vocab(tokenized):
+    counter = Counter([t for sent in tokenized for t in sent])
+    vocab = {w:i+2 for i,(w,_) in enumerate(counter.most_common())}
+    vocab['<PAD>']=0; vocab['<UNK>']=1
+    return vocab
+# Dataset class
+def class EmotionDataset(Dataset):
+    def __init__(self, X, y):
+        self.X=torch.tensor(X,dtype=torch.long)
+        self.y=torch.tensor(y,dtype=torch.long)
+    def __len__(self): return len(self.X)
+    def __getitem__(self,idx): return self.X[idx],self.y[idx]
+# 3) Training pipeline
+def train():
+    df=load_and_preprocess()
+    tokenized = df['clean'].str.split()
+    vocab=build_vocab(tokenized)
+    X = [([vocab.get(t,vocab['<UNK>']) for t in s] + [vocab['<PAD>']]*max(0,MAX_LEN-len(s)))[:MAX_LEN]
+         for s in tokenized]
+    le=LabelEncoder(); y=le.fit_transform(df['label'])
+    joblib.dump(le,'label_encoder.pkl'); joblib.dump(vocab,'vocab.pkl')
+    X_train,X_val,y_train,y_val=train_test_split(X,y,test_size=0.2,random_state=42,stratify=y)
+    train_loader=DataLoader(EmotionDataset(X_train,y_train),batch_size=16,shuffle=True)
+    val_loader=DataLoader(EmotionDataset(X_val ,y_val),batch_size=16)
+    device=torch.device('cuda' if torch.cuda.is_available() else 'cpu')
+    model=EmotionTransformer(len(vocab),num_classes=len(le.classes_)).to(device)
+    opt=torch.optim.Adam(model.parameters(),lr=1e-3)
+    crit=torch.nn.CrossEntropyLoss()
+    for epoch in range(5):
+        model.train(); total_loss=0
+        for xb,yb in train_loader:
+            xb,yb=xb.to(device),yb.to(device)
+            opt.zero_grad(); out=model(xb)
+            loss=crit(out,yb); loss.backward(); opt.step(); total_loss+=loss.item()
+        print(f"Epoch {epoch+1} loss {total_loss/len(train_loader):.4f}")
+    torch.save(model.state_dict(),'emotion_transformer_model.pth')
+if __name__=='__main__':
+    train()