Spam_SMS_Detection

Sleeping

App Files Files Community

MLDeveloper commited on Apr 22, 2025

Commit

00b4891

verified ·

1 Parent(s): 52aca74

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -37

app.py CHANGED Viewed

@@ -2,60 +2,61 @@ import streamlit as st
 import pandas as pd
 import re
 import string
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.naive_bayes import MultinomialNB
-from sklearn.model_selection import train_test_split
-# Page config
-st.set_page_config(page_title="SMS Spam Detector", layout="centered")
 st.title("📩 SMS Spam Detection App")
-st.markdown("🔍 Enter a message below to check if it's **Spam** or **Not Spam (Ham)**")
-# --- Load dataset ---
-csv_url = "https://huggingface.co/spaces/MLDeveloper/Spam_SMS_Detection/resolve/main/spam.csv"
-try:
-    df = pd.read_csv(csv_url, encoding='latin-1')[['v1', 'v2']]
     df.columns = ['label', 'message']
-    df['label'] = df['label'].map({'ham': 0, 'spam': 1})
-except Exception as e:
-    st.error(f"Failed to load CSV: {e}")
-    st.stop()
-# --- Text Cleaning Function ---
 def clean_text(text):
     text = text.lower()
-    text = re.sub(r"http\S+|www\S+|https\S+", '', text, flags=re.MULTILINE)
     text = re.sub(r'\@w+|\#','', text)
     text = re.sub(r'[^\w\s]', '', text)
     text = re.sub(r'\d+', '', text)
     text = text.translate(str.maketrans('', '', string.punctuation))
     return text.strip()
-df['cleaned'] = df['message'].apply(clean_text)
-# --- Train model ---
-X = df['cleaned']
-y = df['label']
-vectorizer = TfidfVectorizer()
-X_vec = vectorizer.fit_transform(X)
-model = MultinomialNB()
-model.fit(X_vec, y)
-# --- Prediction Function ---
-def predict_spam(message):
-    cleaned = clean_text(message)
     vector = vectorizer.transform([cleaned])
     prediction = model.predict(vector)
-    return "Spam" if prediction[0] == 1 else "Not Spam"
-# --- UI ---
 user_input = st.text_area("✉️ Enter your SMS message here:")
 if st.button("Check Message"):
     if user_input.strip() == "":
-        st.warning("⚠️ Please enter a valid message.")
     else:
         result = predict_spam(user_input)
         if result == "Spam":
@@ -63,10 +64,9 @@ if st.button("Check Message"):
         else:
             st.success("✅ This message is classified as **NOT SPAM (HAM)**.")
-# Optional: View CSV
-with st.expander("📄 View sample dataset (CSV)"):
-    st.dataframe(df[['label', 'message']].head())
 st.markdown("---")
-st.markdown("🔒 **Note**: Model is trained in real-time from CSV and not saved for reuse. Ideal for demo purposes.**")

 import pandas as pd
 import re
 import string
+from sklearn.model_selection import train_test_split
 from sklearn.feature_extraction.text import TfidfVectorizer
 from sklearn.naive_bayes import MultinomialNB
+# Title & Intro
+st.set_page_config(page_title="SMS Spam Detection", layout="centered")
 st.title("📩 SMS Spam Detection App")
+st.markdown("🔍 Enter an SMS message below to check if it's **Spam** or **Not Spam (Ham)**")
+# --- Load CSV Dataset ---
+@st.cache_data
+def load_data():
+    url = "https://huggingface.co/datasets/MLDeveloper/spam_sms_dataset/resolve/main/spam.csv"
+    df = pd.read_csv(url, encoding='latin-1')
+    df = df[['v1', 'v2']]
     df.columns = ['label', 'message']
+    return df
+df = load_data()
+# --- Preprocessing ---
+df['label'] = df['label'].map({'ham': 0, 'spam': 1})
+# --- Train Model ---
+X_train, X_test, y_train, y_test = train_test_split(df['message'], df['label'], test_size=0.2, random_state=42)
+vectorizer = TfidfVectorizer()
+X_train_tfidf = vectorizer.fit_transform(X_train)
+model = MultinomialNB()
+model.fit(X_train_tfidf, y_train)
+# --- Clean Text Function ---
 def clean_text(text):
     text = text.lower()
+    text = re.sub(r"http\S+|www\S+|https\S+", '', text)
     text = re.sub(r'\@w+|\#','', text)
     text = re.sub(r'[^\w\s]', '', text)
     text = re.sub(r'\d+', '', text)
     text = text.translate(str.maketrans('', '', string.punctuation))
     return text.strip()
+# --- Predict Function ---
+def predict_spam(text):
+    cleaned = clean_text(text)
     vector = vectorizer.transform([cleaned])
     prediction = model.predict(vector)
+    return "Spam" if prediction[0] == 1 else "Not Spam (Ham)"
+# --- Input ---
 user_input = st.text_area("✉️ Enter your SMS message here:")
 if st.button("Check Message"):
     if user_input.strip() == "":
+        st.warning("⚠️ Please enter a message.")
     else:
         result = predict_spam(user_input)
         if result == "Spam":
         else:
             st.success("✅ This message is classified as **NOT SPAM (HAM)**.")
+# --- Dataset preview ---
+with st.expander("📄 View sample dataset"):
+    st.dataframe(df.head())
 st.markdown("---")
+st.markdown("🔒 *Note: This app is for educational purposes only.*")