Spaces:

SandhyaRaghav
/

whatsapp-chat-analyzer

Sleeping

App Files Files Community

SandhyaRaghav commited on Jun 20, 2025

Commit

a80ec58

verified ·

1 Parent(s): ff4d3b7

Upload 3 files

Browse files

Files changed (2) hide show

src/helper.py +132 -0
src/preprocessor.py +48 -0

src/helper.py ADDED Viewed

	@@ -0,0 +1,132 @@

+from urlextract import URLExtract
+from wordcloud import WordCloud
+import pandas as pd
+from collections import Counter
+import emoji
+def fetch_stats(selected_user,df):
+    if selected_user != 'Overall':
+        df = df[df['user'] == selected_user]
+    # fetch the number of messages
+    num_messages = df.shape[0]
+    # fetch the total number of words
+    words = []
+    for message in df['message']:
+        words.extend(message.split())
+    # fetch number of media messages
+    num_media_messages = df[df['message'] == '<Media omitted>\n'].shape[0]
+    # fetch number of links shared
+    links = []
+    extract = URLExtract()
+    for message in df['message']:
+        links.extend(extract.find_urls(message))
+    return num_messages,len(words),num_media_messages,len(links)
+def most_busy_users(df):
+    top_users = df['user'].value_counts().head()
+    user_percent = round((df['user'].value_counts(normalize=True) * 100), 2).reset_index()
+    user_percent.columns = ['name', 'percent']
+    return top_users, user_percent
+def create_wordcloud(selected_user,df):
+    f = open('stop_hinglish.txt', 'r')
+    stop_words = f.read()
+    if selected_user != 'Overall':
+        df = df[df['user'] == selected_user]
+    temp = df[df['user'] != 'group_notification']
+    temp = temp[temp['message'] != '<Media omitted>\n']
+    def remove_stop_words(message):
+        y = []
+        for word in message.lower().split():
+            if word not in stop_words:
+                y.append(word)
+        return " ".join(y)
+    wc = WordCloud(width=500,height=500,min_font_size=10,background_color='white')
+    temp['message'] = temp['message'].apply(remove_stop_words)
+    df_wc = wc.generate(temp['message'].str.cat(sep=" "))
+    return df_wc
+def most_common_words(selected_user,df):
+    f = open('stop_hinglish.txt','r')
+    stop_words = f.read()
+    if selected_user != 'Overall':
+        df = df[df['user'] == selected_user]
+    temp = df[df['user'] != 'group_notification']
+    temp = temp[temp['message'] != '<Media omitted>\n']
+    words = []
+    for message in temp['message']:
+        for word in message.lower().split():
+            if word not in stop_words:
+                words.append(word)
+    most_common_df = pd.DataFrame(Counter(words).most_common(20))
+    return most_common_df
+def emoji_helper(selected_user,df):
+    if selected_user != 'Overall':
+        df = df[df['user'] == selected_user]
+    emojis = []
+    for message in df['message']:
+        #emojis.extend([c for c in message if c in emoji.EMOJI_DATA])
+        emojis.extend([c for c in message if emoji.is_emoji(c)])
+    emoji_df = pd.DataFrame(Counter(emojis).most_common(len(Counter(emojis))))
+    return emoji_df
+def monthly_timeline(selected_user,df):
+    if selected_user != 'Overall':
+        df = df[df['user'] == selected_user]
+    timeline = df.groupby(['year', 'month_num', 'month']).count()['message'].reset_index()
+    time = []
+    for i in range(timeline.shape[0]):
+        time.append(timeline['month'][i] + "-" + str(timeline['year'][i]))
+    timeline['time'] = time
+    return timeline
+def daily_timeline(selected_user,df):
+    if selected_user != 'Overall':
+        df = df[df['user'] == selected_user]
+    daily_timeline = df.groupby('only_date').count()['message'].reset_index()
+    return daily_timeline
+def week_activity_map(selected_user,df):
+    if selected_user != 'Overall':
+        df = df[df['user'] == selected_user]
+    return df['day_name'].value_counts()
+def month_activity_map(selected_user,df):
+    if selected_user != 'Overall':
+        df = df[df['user'] == selected_user]
+    return df['month'].value_counts()

src/preprocessor.py ADDED Viewed

	@@ -0,0 +1,48 @@

+import re
+import pandas as pd
+def preprocess(data):
+    print("Preprocess started")
+    pattern = r'\d{1,2}/\d{1,2}/\d{2,4},\s(?:1[0-2]|0?[1-9]):[0-5][0-9][\s\u202f\u00a0]?(?:AM|PM|am|pm)\s-\s'
+    messages = re.split(pattern, data)[1:]
+    date = re.findall(pattern, data)
+    print(f"Found {len(messages)} messages and {len(date)} dates")
+    dates = [d.replace('\u202f', ' ').replace('\u00a0', ' ') for d in date]
+    df = pd.DataFrame({'user_message': messages, 'message_date': dates})
+    try:
+        df['message_date'] = pd.to_datetime(df['message_date'], format='%d/%m/%y, %I:%M %p - ')
+    except Exception as e:
+        print("Date parsing error:", e)
+        return None
+    df.rename(columns={'message_date': 'date'}, inplace=True)
+    users = []
+    messages_list = []
+    for message in df['user_message']:
+        entry = re.split(r'([\w\W]+?):\s', message)
+        if entry[1:]:  # user exists
+            users.append(entry[1])
+            messages_list.append(" ".join(entry[2:]))
+        else:
+            users.append('group_notification')
+            messages_list.append(entry[0])
+    df['user'] = users
+    df['message'] = messages_list
+    df.drop(columns=['user_message'], inplace=True)
+    df['only_date'] = df['date'].dt.date
+    df['year'] = df['date'].dt.year
+    df['month_num'] = df['date'].dt.month
+    df['month'] = df['date'].dt.month_name()
+    df['day'] = df['date'].dt.day
+    df['day_name'] = df['date'].dt.day_name()
+    df['hour'] = df['date'].dt.hour
+    df['minute'] = df['date'].dt.minute
+    return df