Spaces:

rajendradayma
/

Email-Classification-and-PII-Masking-System

Sleeping

App Files Files Community

rajendradayma commited on Apr 28, 2025

Commit

9bfe8cb

verified ·

1 Parent(s): 3fb5502

Upload 7 files

Browse files

Files changed (7) hide show

.gitattributes +1 -35
.gitignore +12 -0
README.md +1 -12
api.py +37 -0
streamlit_app.py +28 -0
train.py +8 -0
utils.py +41 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text


1	+ model/classifier.pkl filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,12 @@

+# Python cache
+__pycache__/
+*.pyc
+# Virtual environments
+venv/
+ENV/
+.env
+# OS files
+.DS_Store
+Thumbs.db

README.md CHANGED Viewed

@@ -1,12 +1 @@
----
-title: Email Classification And PII Masking System
-emoji: 🏢
-colorFrom: indigo
-colorTo: purple
-sdk: streamlit
-sdk_version: 1.44.1
-app_file: app.py
-pinned: false
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference


1	+ # Email-Classification-and-PII-Masking-System

api.py ADDED Viewed

	@@ -0,0 +1,37 @@

+# api.py
+from fastapi import FastAPI
+from pydantic import BaseModel
+from utils import mask_pii, unmask_pii
+from models import load_model
+# Create FastAPI app
+app = FastAPI()
+# Load the trained model at startup
+model = load_model("model/classifier.pkl")
+# Define request schema
+class EmailRequest(BaseModel):
+    email_body: str
+# Define the API endpoint
+@app.post("/predict")
+def classify_email(req: EmailRequest):
+    email_text = req.email_body
+    # Step 1: Mask PII
+    masked_text, entities = mask_pii(email_text)
+    # Step 2: Predict Category
+    category = model.predict([masked_text])[0]
+    # Step 3: Build the response
+    response = {
+        "input_email_body": email_text,
+        "list_of_masked_entities": entities,
+        "masked_email": masked_text,
+        "category_of_the_email": category
+    }
+    return response

streamlit_app.py ADDED Viewed

	@@ -0,0 +1,28 @@

+# streamlit_app.py
+import streamlit as st
+import requests
+st.title("📧 Email Classification and PII Masking System")
+email_input = st.text_area("Enter your email text:")
+if st.button("Classify Email"):
+    if email_input.strip() != "":
+        # Send to FastAPI
+        response = requests.post("http://127.0.0.1:8000/predict", json={"email_body": email_input})
+        if response.status_code == 200:
+            result = response.json()
+            st.subheader("🔎 Masked Email:")
+            st.write(result['masked_email'])
+            st.subheader("🔐 List of Masked Entities:")
+            st.json(result['list_of_masked_entities'])
+            st.subheader("📂 Predicted Category:")
+            st.success(result['category_of_the_email'])
+        else:
+            st.error("Error from API.")
+    else:
+        st.warning("Please enter email text!")

train.py ADDED Viewed

	@@ -0,0 +1,8 @@

+# train.py
+from models import train_and_save_model
+if __name__ == "__main__":
+    data_path = "data/combined_emails_with_natural_pii.csv"  # Correct dataset path
+    model_path = "model/classifier.pkl"  # Where model will be saved
+    train_and_save_model(data_path, model_path)

utils.py ADDED Viewed

	@@ -0,0 +1,41 @@

+# utils.py
+import re
+def mask_pii(text):
+    entities = []
+    original_text = text
+    # Define patterns
+    patterns = {
+        "full_name": r"(?:(?:Mr|Ms|Mrs|Dr)\\.?\s)?[A-Z][a-z]+(?:\s[A-Z][a-z]+)+",
+        "email": r"[\\w\\.-]+@[\\w\\.-]+",
+        "phone_number": r"(\\+91[-\\s]?)?[6-9]\\d{9}",
+        "dob": r"(\\d{2}[/-]\\d{2}[/-]\\d{4})",
+        "aadhar_num": r"\\d{4}\\s\\d{4}\\s\\d{4}",
+        "credit_debit_no": r"\\d{4}[-\\s]\\d{4}[-\\s]\\d{4}[-\\s]\\d{4}",
+        "cvv_no": r"\\b\\d{3}\\b",
+        "expiry_no": r"(0[1-9]|1[0-2])/\\d{2}"
+    }
+    masked_text = text
+    for entity, pattern in patterns.items():
+        for match in re.finditer(pattern, original_text):
+            start, end = match.span()
+            matched_text = match.group()
+            entities.append({
+                "position": [start, end],
+                "classification": entity,
+                "entity": matched_text
+            })
+            masked_text = masked_text.replace(matched_text, f"[{entity}]", 1)
+    return masked_text, entities
+def unmask_pii(masked_text, entities):
+    unmasked_text = masked_text
+    for ent in entities:
+        unmasked_text = unmasked_text.replace(f"[{ent['classification']}]", ent['entity'], 1)
+    return unmasked_text