Spaces:

leygit
/

ITI110_Spam_Classification_Project

Sleeping

leygit commited on Feb 27, 2025

Commit

b3ab961

verified ·

1 Parent(s): de91cbc

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -49,6 +49,14 @@ train_size = int(0.8 * len(dataset))
 val_size = len(dataset) - train_size
 train_dataset, val_dataset = torch.utils.data.random_split(dataset, [train_size, val_size])
 # DataLoader Function (Fix Collate)
 def collate_fn(batch):
     keys = batch[0].keys()

 val_size = len(dataset) - train_size
 train_dataset, val_dataset = torch.utils.data.random_split(dataset, [train_size, val_size])
+def get_top_words(corpus, n=None):
+    vec = CountVectorizer(stop_words='english').fit(corpus)
+    bag_of_words = vec.transform(corpus)
+    sum_words = bag_of_words.sum(axis=0)
+    words_freq = [(word, sum_words[0, idx]) for word, idx in vec.vocabulary_.items()]
+    words_freq = sorted(words_freq, key=lambda x: x[1], reverse=True)
+    return words_freq[:n]
 # DataLoader Function (Fix Collate)
 def collate_fn(batch):
     keys = batch[0].keys()