Spaces:

ebhon
/

text-classification-nlp

Build error

App Files Files Community

ebhon commited on Nov 4, 2024

Commit

faa09ba

verified ·

1 Parent(s): 5164d8f

Update app.py

Browse files

add extra file

Files changed (1) hide show

app.py +62 -58

app.py CHANGED Viewed

@@ -1,59 +1,63 @@
-import streamlit as st
-import joblib
-import json
-import re
-import string
-import numpy as np
-from tensorflow.keras.models import load_model
-from nltk.corpus import stopwords
-from nltk.stem import WordNetLemmatizer
-from nltk.tokenize import word_tokenize, sent_tokenize
-from sklearn.feature_extraction.text import CountVectorizer
-model = load_model('model_improved.keras')
-vectorizer = joblib.load('vectorizer.joblib')
-with open('product_mapping.json', 'r') as file1:
-    product_mapping = json.load(file1)
-reverse_mapping = {v: k for k, v in product_mapping.items()}
-lemmatizer = WordNetLemmatizer()
-stop_words = set(stopwords.words('english'))
-def clean_text(text):
-    if text is None:
-        return ""
-    text = re.sub(r'\bx+\b', '', text)
-    text = re.sub(r'\b(\w+)( \1){2,}\b', r'\1', text)
-    sentences = sent_tokenize(text)
-    cleaned_sentences = [sentence.strip().capitalize() + '.' for sentence in sentences if sentence]
-    return ' '.join(cleaned_sentences)
-def preprocessing_text(text):
-    text = clean_text(text)
-    text = text.lower()
-    text = text.translate(str.maketrans('', '', string.punctuation))
-    words = word_tokenize(text)
-    words = [lemmatizer.lemmatize(word) for word in words if word not in stop_words]
-    words = list(dict.fromkeys(words))
-    return ' '.join(words)
-def make_prediction(input_text):
-    preprocessed_text = preprocessing_text(input_text)
-    vectorized_input = vectorizer.transform([preprocessed_text])
-    predictions = model.predict(vectorized_input)
-    predicted_class = np.argmax(predictions, axis=1)
-    predicted_label = reverse_mapping[predicted_class[0]]
-    return predicted_label
-st.title("Text Classification with NLP")
-st.write("Enter text to classify into predefined categories")
-user_input = st.text_area("Input Text", "")
-if st.button("Classify"):
-    if user_input:
-        result = make_prediction(user_input)
-        st.write(f"Predicted Category:  {result}")
-    else:
         st.write("Please enter text to classify.")

+import streamlit as st
+import joblib
+import json
+import re
+import string
+import numpy as np
+import os
+from tensorflow.keras.models import load_model
+from nltk.corpus import stopwords
+from nltk.stem import WordNetLemmatizer
+from nltk.tokenize import word_tokenize, sent_tokenize
+from sklearn.feature_extraction.text import CountVectorizer
+if not os.path.exist('/root/nltk_data'):
+    os.system("python download_nltk_data.py")
+model = load_model('model_improved.keras')
+vectorizer = joblib.load('vectorizer.joblib')
+with open('product_mapping.json', 'r') as file1:
+    product_mapping = json.load(file1)
+reverse_mapping = {v: k for k, v in product_mapping.items()}
+lemmatizer = WordNetLemmatizer()
+stop_words = set(stopwords.words('english'))
+def clean_text(text):
+    if text is None:
+        return ""
+    text = re.sub(r'\bx+\b', '', text)
+    text = re.sub(r'\b(\w+)( \1){2,}\b', r'\1', text)
+    sentences = sent_tokenize(text)
+    cleaned_sentences = [sentence.strip().capitalize() + '.' for sentence in sentences if sentence]
+    return ' '.join(cleaned_sentences)
+def preprocessing_text(text):
+    text = clean_text(text)
+    text = text.lower()
+    text = text.translate(str.maketrans('', '', string.punctuation))
+    words = word_tokenize(text)
+    words = [lemmatizer.lemmatize(word) for word in words if word not in stop_words]
+    words = list(dict.fromkeys(words))
+    return ' '.join(words)
+def make_prediction(input_text):
+    preprocessed_text = preprocessing_text(input_text)
+    vectorized_input = vectorizer.transform([preprocessed_text])
+    predictions = model.predict(vectorized_input)
+    predicted_class = np.argmax(predictions, axis=1)
+    predicted_label = reverse_mapping[predicted_class[0]]
+    return predicted_label
+st.title("Text Classification with NLP")
+st.write("Enter text to classify into predefined categories")
+user_input = st.text_area("Input Text", "")
+if st.button("Classify"):
+    if user_input:
+        result = make_prediction(user_input)
+        st.write(f"Predicted Category:  {result}")
+    else:
         st.write("Please enter text to classify.")