Spaces:

Harshb11
/

mca_comment_analyzer

Sleeping

App Files Files Community

Harshb11 commited on Sep 14, 2025

Commit

79a013c

verified ·

1 Parent(s): 07e0627

Update mca_comment_analyzer.py

Browse files

Files changed (1) hide show

mca_comment_analyzer.py +55 -17

mca_comment_analyzer.py CHANGED Viewed

@@ -1,4 +1,7 @@
 import pandas as pd
 from transformers import pipeline
 from wordcloud import WordCloud
 import matplotlib.pyplot as plt
@@ -10,21 +13,32 @@ from datetime import datetime, timedelta
 from langdetect import detect
 from deep_translator import GoogleTranslator
 nltk.download('stopwords', quiet=True)
-class MCACommentAnalyzerLight:
     def __init__(self):
         self.sentiment_model = pipeline(
             "sentiment-analysis",
-            model="cardiffnlp/twitter-roberta-base-sentiment",
-            device=-1
         )
         self.summarizer = pipeline(
             "summarization",
-            model="sshleifer/distilbart-cnn-6-6",
-            device=-1
         )
-        self.stop_words = set(stopwords.words('english'))
     def translate_to_english(self, text):
         try:
@@ -52,9 +66,9 @@ class MCACommentAnalyzerLight:
             return "Negative"
         label = pred['label'].upper()
-        if label in ["POSITIVE", "LABEL_2"]:
             return "Positive"
-        elif label in ["NEGATIVE", "LABEL_0"]:
             return "Negative"
         else:
             return "Neutral"
@@ -69,15 +83,11 @@ class MCACommentAnalyzerLight:
             summary_text = " ".join(translated_comment.split()[:10])
         else:
             try:
-                summary_text = self.summarizer(
-                    translated_comment,
-                    max_length=20,
-                    min_length=5,
-                    do_sample=False
-                )[0]['summary_text']
             except:
                 summary_text = translated_comment
         words = [w for w in translated_comment.lower().split() if w.isalpha() and w not in self.stop_words]
         keywords = list(Counter(words).keys())
         top_keywords = ", ".join(keywords[:3])
@@ -103,7 +113,6 @@ class MCACommentAnalyzerLight:
             "Sentiment": sentiments,
             "Top Keywords": top_keywords_list
         })
         df.sort_values(by='Timestamp', inplace=True, ascending=True)
         keyword_freq = pd.DataFrame(
@@ -115,10 +124,39 @@ class MCACommentAnalyzerLight:
     def generate_wordcloud(self, keyword_freq, filename=None):
         wc_dict = dict(zip(keyword_freq['Keyword'], keyword_freq['Frequency']))
-        wc = WordCloud(width=600, height=300, background_color="white").generate_from_frequencies(wc_dict)
-        plt.figure(figsize=(8,4))
         plt.imshow(wc, interpolation="bilinear")
         plt.axis("off")
         if filename:
             plt.savefig(filename, bbox_inches='tight')
         return plt

+import os
+import streamlit as st
 import pandas as pd
+import torch
 from transformers import pipeline
 from wordcloud import WordCloud
 import matplotlib.pyplot as plt
 from langdetect import detect
 from deep_translator import GoogleTranslator
+# ---- Config
+st.set_option('browser.gatherUsageStats', False)  # Disable usage stats
+os.environ["MPLCONFIGDIR"] = "/tmp/.matplotlib"  # Fix matplotlib cache warning
+st.set_page_config(page_title="MCA Comment Analyzer", layout="wide")
+# ---- NLTK setup
 nltk.download('stopwords', quiet=True)
+STOPWORDS = set(stopwords.words('english'))
+# ---- MCA Analyzer Class
+class MCACommentAnalyzer:
     def __init__(self):
+        device = 0 if torch.cuda.is_available() else -1
+        print("Using device:", "GPU" if device==0 else "CPU")
         self.sentiment_model = pipeline(
             "sentiment-analysis",
+            model="distilbert-base-uncased-finetuned-sst-2-english",
+            device=device
         )
         self.summarizer = pipeline(
             "summarization",
+            model="sshleifer/distilbart-cnn-12-6",
+            device=device
         )
+        self.stop_words = STOPWORDS
     def translate_to_english(self, text):
         try:
             return "Negative"
         label = pred['label'].upper()
+        if label == "POSITIVE":
             return "Positive"
+        elif label == "NEGATIVE":
             return "Negative"
         else:
             return "Neutral"
             summary_text = " ".join(translated_comment.split()[:10])
         else:
             try:
+                summary_text = self.summarizer(translated_comment, max_length=30, min_length=5, do_sample=False)[0]['summary_text']
             except:
                 summary_text = translated_comment
+        # Keywords
         words = [w for w in translated_comment.lower().split() if w.isalpha() and w not in self.stop_words]
         keywords = list(Counter(words).keys())
         top_keywords = ", ".join(keywords[:3])
             "Sentiment": sentiments,
             "Top Keywords": top_keywords_list
         })
         df.sort_values(by='Timestamp', inplace=True, ascending=True)
         keyword_freq = pd.DataFrame(
     def generate_wordcloud(self, keyword_freq, filename=None):
         wc_dict = dict(zip(keyword_freq['Keyword'], keyword_freq['Frequency']))
+        wc = WordCloud(width=800, height=400, background_color="white").generate_from_frequencies(wc_dict)
+        plt.figure(figsize=(10,5))
         plt.imshow(wc, interpolation="bilinear")
         plt.axis("off")
         if filename:
             plt.savefig(filename, bbox_inches='tight')
         return plt
+# ---- Streamlit UI
+st.title("📊 MCA eConsultation Comment Analyzer")
+st.sidebar.header("Upload or Enter Comments")
+upload_file = st.sidebar.file_uploader("Upload a text file with comments", type=["txt"])
+manual_input = st.sidebar.text_area("Or enter comments (one per line):")
+comments = []
+if upload_file:
+    comments = upload_file.read().decode("utf-8").splitlines()
+elif manual_input.strip():
+    comments = manual_input.strip().split("\n")
+if st.sidebar.button("Analyze"):
+    if comments:
+        analyzer = MCACommentAnalyzer()
+        df, keyword_freq = analyzer.process_comments(comments)
+        st.subheader("📌 Analysis Results")
+        st.dataframe(df, use_container_width=True)
+        st.subheader("📊 Sentiment Distribution")
+        st.bar_chart(df["Sentiment"].value_counts())
+        st.subheader("☁️ Word Cloud")
+        plt_obj = analyzer.generate_wordcloud(keyword_freq)
+        st.pyplot(plt_obj)
+    else:
+        st.warning("⚠️ Please provide comments to analyze.")