Spaces:

harishsahadev
/

toxic-comment-detector

Sleeping

App Files Files Community

github-actions commited on Jan 30

Commit

4ff97c3

1 Parent(s): b5ce60a

Update Space

Browse files

Files changed (5) hide show

.gitattributes +0 -35
README.MD +66 -0
README.md +0 -14
app.py +46 -0
requirements.txt +4 -0

.gitattributes DELETED Viewed

@@ -1,35 +0,0 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

README.MD ADDED Viewed

	@@ -0,0 +1,66 @@

+---
+title: Toxic Comment Detector
+emoji: 🚨
+colorFrom: red
+colorTo: yellow
+sdk: gradio
+sdk_version: "4.44.0"
+python_version: "3.10"
+app_file: app.py
+pinned: false
+---
+# Toxic Comment Detection
+This Space demonstrates a **toxic comment detection system** built using
+**classical machine learning techniques** and deployed with **Gradio**.
+---
+## Overview
+Given a text comment, the model predicts whether it is:
+- Toxic
+- Non-toxic
+along with a confidence score.
+This project focuses on a **clean ML pipeline and deployment workflow** rather than large pretrained models.
+---
+## Dataset
+- Google Civil Comments Toxicity dataset
+- Continuous toxicity scores converted into binary labels
+- Subsampled for efficient training
+---
+## Model
+- TF-IDF features (word n-grams)
+- Logistic Regression (scikit-learn)
+- Class-weighted to handle imbalance
+- CPU-only inference
+---
+## Deployment
+- Gradio-based user interface
+- Hosted on Hugging Face Spaces
+- Model artifacts loaded at runtime
+- No GPU required
+---
+## Notes
+This demo is intended for **educational purposes** and should not be used as a standalone moderation system.
+---
+## License
+MIT

README.md DELETED Viewed

@@ -1,14 +0,0 @@
----
-title: Toxic Comment Detector
-emoji: 💻
-colorFrom: indigo
-colorTo: purple
-sdk: gradio
-sdk_version: 6.5.1
-app_file: app.py
-pinned: false
-license: mit
-short_description: Toxic comment detection system built using ML techniques
----
-Check out the configuration reference at https://huggingface.co/docs/hub/spaces-config-reference

app.py ADDED Viewed

	@@ -0,0 +1,46 @@

+import re
+import joblib
+import gradio as gr
+from huggingface_hub import hf_hub_download
+# Download model artifacts from HF Model Hub
+tfidf_path = hf_hub_download(
+    repo_id="harishsahadev/toxic-comment-detector-classical",
+    filename="tfidf_vectorizer.joblib"
+)
+model_path = hf_hub_download(
+    repo_id="harishsahadev/toxic-comment-detector-classical",
+    filename="toxic_classifier.joblib"
+)
+tfidf = joblib.load(tfidf_path)
+model = joblib.load(model_path)
+def clean_text(text):
+    text = text.lower()
+    text = re.sub(r"http\S+|www\S+", "", text)
+    text = re.sub(r"[^a-z\s]", " ", text)
+    return re.sub(r"\s+", " ", text).strip()
+def predict(text):
+    vec = tfidf.transform([clean_text(text)])
+    prob = model.predict_proba(vec)[0][1]
+    return {
+        "label": "Toxic" if prob >= 0.5 else "Non-Toxic",
+        "toxicity_probability": round(float(prob), 4),
+    }
+demo = gr.Interface(
+    fn=predict,
+    inputs=gr.Textbox(lines=4),
+    outputs="json",
+    title="Toxic Comment Detection",
+    cache_examples=False,
+)
+if __name__ == "__main__":
+    demo.launch(server_name="0.0.0.0", server_port=7860)

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+gradio==4.44.0
+huggingface_hub==0.20.3
+scikit-learn==1.6.1
+joblib