Spaces:

ebhon
/

text-classification-nlp

Build error

App Files Files Community

ebhon commited on Nov 4, 2024

Commit

5164d8f

verified ·

1 Parent(s): 9d79ce5

Upload 5 files

Browse files

Files changed (6) hide show

.gitattributes +1 -0
app.py +59 -0
model_improved.keras +3 -0
product_mapping.json +1 -0
requirements.txt +5 -0
vectorizer.joblib +3 -0

.gitattributes CHANGED Viewed

@@ -33,3 +33,4 @@ saved_model/**/* filter=lfs diff=lfs merge=lfs -text
 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text

 *.zip filter=lfs diff=lfs merge=lfs -text
 *.zst filter=lfs diff=lfs merge=lfs -text
 *tfevents* filter=lfs diff=lfs merge=lfs -text
+model_improved.keras filter=lfs diff=lfs merge=lfs -text

app.py ADDED Viewed

	@@ -0,0 +1,59 @@

+import streamlit as st
+import joblib
+import json
+import re
+import string
+import numpy as np
+from tensorflow.keras.models import load_model
+from nltk.corpus import stopwords
+from nltk.stem import WordNetLemmatizer
+from nltk.tokenize import word_tokenize, sent_tokenize
+from sklearn.feature_extraction.text import CountVectorizer
+model = load_model('model_improved.keras')
+vectorizer = joblib.load('vectorizer.joblib')
+with open('product_mapping.json', 'r') as file1:
+    product_mapping = json.load(file1)
+reverse_mapping = {v: k for k, v in product_mapping.items()}
+lemmatizer = WordNetLemmatizer()
+stop_words = set(stopwords.words('english'))
+def clean_text(text):
+    if text is None:
+        return ""
+    text = re.sub(r'\bx+\b', '', text)
+    text = re.sub(r'\b(\w+)( \1){2,}\b', r'\1', text)
+    sentences = sent_tokenize(text)
+    cleaned_sentences = [sentence.strip().capitalize() + '.' for sentence in sentences if sentence]
+    return ' '.join(cleaned_sentences)
+def preprocessing_text(text):
+    text = clean_text(text)
+    text = text.lower()
+    text = text.translate(str.maketrans('', '', string.punctuation))
+    words = word_tokenize(text)
+    words = [lemmatizer.lemmatize(word) for word in words if word not in stop_words]
+    words = list(dict.fromkeys(words))
+    return ' '.join(words)
+def make_prediction(input_text):
+    preprocessed_text = preprocessing_text(input_text)
+    vectorized_input = vectorizer.transform([preprocessed_text])
+    predictions = model.predict(vectorized_input)
+    predicted_class = np.argmax(predictions, axis=1)
+    predicted_label = reverse_mapping[predicted_class[0]]
+    return predicted_label
+st.title("Text Classification with NLP")
+st.write("Enter text to classify into predefined categories")
+user_input = st.text_area("Input Text", "")
+if st.button("Classify"):
+    if user_input:
+        result = make_prediction(user_input)
+        st.write(f"Predicted Category:  {result}")
+    else:
+        st.write("Please enter text to classify.")

model_improved.keras ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:c8cf1b8b6de272d5285f95c91a5fd545163792e58f8002ce6edab5977afe1567
+size 6838141

product_mapping.json ADDED Viewed

	@@ -0,0 +1 @@


1	+ {"credit_reporting": 0, "debt_collection": 1, "mortgages_and_loans": 2, "credit_card": 3, "retail_banking": 4}

requirements.txt ADDED Viewed

	@@ -0,0 +1,5 @@

+streamlit
+tensorflow
+joblib
+nltk
+scikit-learn

vectorizer.joblib ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:e51b2f37d9f6e2386789075da4c2eea2866ddab70f71b57fcf921bc1e094c7d9
+size 21015637