Spaces:

Toro-Angel
/

CustomerReviewsSentimentAnalysis

Runtime error

App Files Files Community

Toro-Angel commited on Mar 7, 2024

Commit

3d37937

verified ·

1 Parent(s): 70d0f17

Update analyzer.py

Browse files

Files changed (1) hide show

analyzer.py +13 -33

analyzer.py CHANGED Viewed

@@ -2,41 +2,21 @@ from flask import Flask, request, jsonify
 import os
 import re
 import json
 from sklearn.feature_extraction.text import CountVectorizer
 from sklearn.naive_bayes import MultinomialNB
 from sklearn.pipeline import Pipeline
-from sklearn.base import BaseEstimator, TransformerMixin
-import string
 app = Flask(__name__)
-# Custom transformer for text cleaning
-class TextPreprocessor(BaseEstimator, TransformerMixin):
-    def __init__(self):
-        self.stopwords = set(open('stopwords.txt').read().splitlines())
-        self.lemmatizer = Lemmatizer()
-    def fit(self, X, y=None):
-        return self
-    def transform(self, X, y=None):
-        cleaned_texts = []
-        for text in X:
-            text = text.lower()
-            text = re.sub(r'[^\w\s]', ' ', text)
-            words = [self.lemmatizer.lemmatize(word) for word in text.split() if word not in self.stopwords]
-            cleaned_texts.append(' '.join(words))
-        return cleaned_texts
-# Custom lemmatizer
-class Lemmatizer:
-    def __init__(self):
-        # Add your lemmatization logic here
-        pass
-    def lemmatize(self, word):
-        # Add your lemmatization logic here
-        return word
 # Function to determine sentiment label based on probability
 def get_sentiment_label(prob):
@@ -66,7 +46,6 @@ def train_model(json_file_path):
     X = [entry['text'] for entry in data]
     y = [entry['label'] for entry in data]
     pipeline = Pipeline([
-        ('preprocessor', TextPreprocessor()),
         ('vectorizer', CountVectorizer()),
         ('classifier', MultinomialNB())
     ])
@@ -75,12 +54,13 @@ def train_model(json_file_path):
     return pipeline
 # Endpoint to process new reviews
-@app.route('/predict', methods=['POST'])
 def predict_sentiment():
     pipeline = load_model()
     new_reviews_json = request.json
     new_reviews = [review['CUSTOMERREVIEWS'] for review in new_reviews_json['reviewsModel']]
-    predicted_probabilities = pipeline.predict_proba(new_reviews)
     results = []
     for i, review_info in enumerate(new_reviews_json['reviewsModel']):
         original_review = review_info['CUSTOMERREVIEWS']
@@ -106,4 +86,4 @@ def predict_sentiment():
     return jsonify(results)
 if __name__ == '__main__':
-    app.run(debug=True)

 import os
 import re
 import json
+import joblib
 from sklearn.feature_extraction.text import CountVectorizer
 from sklearn.naive_bayes import MultinomialNB
 from sklearn.pipeline import Pipeline
 app = Flask(__name__)
+# Function to preprocess text data
+def clean_text(texts):
+    cleaned_texts = []
+    for text in texts:
+        text = text.lower()
+        text = re.sub(r'[^\w\s]', ' ', text)
+        cleaned_texts.append(text)
+    return cleaned_texts
 # Function to determine sentiment label based on probability
 def get_sentiment_label(prob):
     X = [entry['text'] for entry in data]
     y = [entry['label'] for entry in data]
     pipeline = Pipeline([
         ('vectorizer', CountVectorizer()),
         ('classifier', MultinomialNB())
     ])
     return pipeline
 # Endpoint to process new reviews
+@app.route('/', methods=['POST'])
 def predict_sentiment():
     pipeline = load_model()
     new_reviews_json = request.json
     new_reviews = [review['CUSTOMERREVIEWS'] for review in new_reviews_json['reviewsModel']]
+    cleaned_new_reviews = clean_text(new_reviews)
+    predicted_probabilities = pipeline.predict_proba(cleaned_new_reviews)
     results = []
     for i, review_info in enumerate(new_reviews_json['reviewsModel']):
         original_review = review_info['CUSTOMERREVIEWS']
     return jsonify(results)
 if __name__ == '__main__':
+    app.run(debug=True)