Spaces:

Legislation
/

RAG

Runtime error

App Files Files Community

tjl8 commited on Jul 8, 2025

Commit

e587b94

verified ·

1 Parent(s): cfce783

Update app.py

Browse files

Files changed (1) hide show

app.py +170 -21

app.py CHANGED Viewed

@@ -1,3 +1,136 @@
 import streamlit as st
 import pandas as pd
 import re
@@ -7,36 +140,36 @@ from sklearn.metrics.pairwise import cosine_similarity
 from sklearn.feature_extraction.text import TfidfVectorizer
 from datetime import datetime
-# Load data
 @st.cache_data
 def load_data():
     df = pd.read_csv("Illinois_Entire_Data_Insights_Final_v2.csv")
-    df['status_date'] = pd.to_datetime(df['status_date'], format='%d-%m-%Y', errors='coerce')
-    df = df.dropna(subset=['status_date'])
-    df["llama_trend_summary"] = df["llama_trend_summary"].fillna("")
     df["llama_insight"] = df["llama_insight"].fillna("")
-    df["summary_insight"] = df["llama_trend_summary"] + "\n" + df["llama_insight"]
     return df
-# Load models
 @st.cache_resource
 def load_models():
-    embed_model = SentenceTransformer('all-MiniLM-L6-v2')
-    summarizer = pipeline("summarization", model="t5-small", tokenizer="t5-small")
     return embed_model, summarizer
-# Compute embeddings
 @st.cache_data
 def compute_embeddings(texts, _model):
     return _model.encode(texts, show_progress_bar=True)
-# Semantic search
-def semantic_search(query, embeddings, model, threshold=0.4):
     query_embedding = model.encode([query])
     sims = cosine_similarity(query_embedding, embeddings)[0]
     return [(i, s) for i, s in enumerate(sims) if s > threshold]
-# RAG summarization
 def rag_summarize(texts, summarizer, top_k=5):
     if not texts:
         return "No relevant content to summarize."
@@ -44,13 +177,13 @@ def rag_summarize(texts, summarizer, top_k=5):
     m = vect.fit_transform(texts)
     mean_vec = m.mean(axis=0).A
     scores = cosine_similarity(mean_vec, m).flatten()
-    top_indices = scores.argsort()[::-1][:top_k]
     ctx = "\n".join(texts[i] for i in top_indices)
     prompt = "summarize: " + ctx[:1024]
     out = summarizer(prompt, max_length=60, min_length=30, do_sample=False)
     return out[0]['summary_text']
-# Parse month/year
 def extract_month_year(q):
     month_map = {m: i for i, m in enumerate(
         ["january", "february", "march", "april", "may", "june",
@@ -61,7 +194,7 @@ def extract_month_year(q):
     yr = int(ym.group()) if ym else None
     return mon, yr
-# Auto-detect category
 def extract_category(q, cats):
     ql = q.lower()
     for cat in cats:
@@ -70,38 +203,52 @@ def extract_category(q, cats):
             return cat
     return None
-# Streamlit UI
 st.set_page_config(page_title="IL Trends Q&A", layout="wide")
 st.title("Illinois Legislative Trends Q&A")
 df = load_data()
 embed_model, summarizer = load_models()
-query = st.text_input("Ask a question (e.g., ‘education in May 2024’):")
 if query:
     mon, yr = extract_month_year(query)
     cats = df['category_&_subcategory_standardized'].unique()
     cat = extract_category(query, cats)
     df2 = df.copy()
     if cat:
         df2 = df2[df2['category_&_subcategory_standardized'] == cat]
         st.info(f"🔎 Filtering by category: **{cat}**")
     if yr:
         df2 = df2[df2['status_date'].dt.year == yr]
         if mon:
             df2 = df2[df2['status_date'].dt.month == mon]
-            st.info(f"🔎 Filtering by date: **{datetime(yr, mon, 1):%B %Y}**")
         else:
-            st.info(f"🔎 Filtering by year: **{yr}**")
     if df2.empty:
         st.warning("No matching records found.")
     else:
         texts = df2['summary_insight'].tolist()
         embs = compute_embeddings(texts, _model=embed_model)
-        res = semantic_search(query, embs, embed_model)
         if not res:
             st.warning("No relevant insights found.")
@@ -109,6 +256,7 @@ if query:
             st.subheader("Top Matching Insights")
             collected = []
             for idx, score in sorted(res, key=lambda x: x[1], reverse=True)[:5]:
                 row = df2.iloc[idx]
                 date = row['status_date'].date()
@@ -126,6 +274,7 @@ if query:
                 collected.append(row['summary_insight'])
-            st.subheader(" RAG-Generated Summary")
             summary = rag_summarize(collected, summarizer)
             st.success(summary)

+# import streamlit as st
+# import pandas as pd
+# import re
+# from sentence_transformers import SentenceTransformer
+# from transformers import pipeline
+# from sklearn.metrics.pairwise import cosine_similarity
+# from sklearn.feature_extraction.text import TfidfVectorizer
+# from datetime import datetime
+# # Load data
+# @st.cache_data
+# def load_data():
+#     df = pd.read_csv("Illinois_Entire_Data_Insights_Final_v2.csv")
+#     df['status_date'] = pd.to_datetime(df['status_date'], format='%d-%m-%Y', errors='coerce')
+#     df = df.dropna(subset=['status_date'])
+#     df["llama_trend_summary"] = df["llama_trend_summary"].fillna("")
+#     df["llama_insight"] = df["llama_insight"].fillna("")
+#     df["summary_insight"] = df["llama_trend_summary"] + "\n" + df["llama_insight"]
+#     return df
+# # Load models
+# @st.cache_resource
+# def load_models():
+#     embed_model = SentenceTransformer('all-MiniLM-L6-v2')
+#     summarizer = pipeline("summarization", model="t5-small", tokenizer="t5-small")
+#     return embed_model, summarizer
+# # Compute embeddings
+# @st.cache_data
+# def compute_embeddings(texts, _model):
+#     return _model.encode(texts, show_progress_bar=True)
+# # Semantic search
+# def semantic_search(query, embeddings, model, threshold=0.4):
+#     query_embedding = model.encode([query])
+#     sims = cosine_similarity(query_embedding, embeddings)[0]
+#     return [(i, s) for i, s in enumerate(sims) if s > threshold]
+# # RAG summarization
+# def rag_summarize(texts, summarizer, top_k=5):
+#     if not texts:
+#         return "No relevant content to summarize."
+#     vect = TfidfVectorizer()
+#     m = vect.fit_transform(texts)
+#     mean_vec = m.mean(axis=0).A
+#     scores = cosine_similarity(mean_vec, m).flatten()
+#     top_indices = scores.argsort()[::-1][:top_k]
+#     ctx = "\n".join(texts[i] for i in top_indices)
+#     prompt = "summarize: " + ctx[:1024]
+#     out = summarizer(prompt, max_length=60, min_length=30, do_sample=False)
+#     return out[0]['summary_text']
+# # Parse month/year
+# def extract_month_year(q):
+#     month_map = {m: i for i, m in enumerate(
+#         ["january", "february", "march", "april", "may", "june",
+#          "july", "august", "september", "october", "november", "december"], 1)}
+#     ql = q.lower()
+#     mon = next((v for k, v in month_map.items() if k in ql), None)
+#     ym = re.search(r"(19|20)\d{2}", q)
+#     yr = int(ym.group()) if ym else None
+#     return mon, yr
+# # Auto-detect category
+# def extract_category(q, cats):
+#     ql = q.lower()
+#     for cat in cats:
+#         if pd.isna(cat): continue
+#         if any(tok in ql for tok in cat.lower().split()):
+#             return cat
+#     return None
+# # Streamlit UI
+# st.set_page_config(page_title="IL Trends Q&A", layout="wide")
+# st.title("Illinois Legislative Trends Q&A")
+# df = load_data()
+# embed_model, summarizer = load_models()
+# query = st.text_input("Ask a question (e.g., ‘education in May 2024’):")
+# if query:
+#     mon, yr = extract_month_year(query)
+#     cats = df['category_&_subcategory_standardized'].unique()
+#     cat = extract_category(query, cats)
+#     df2 = df.copy()
+#     if cat:
+#         df2 = df2[df2['category_&_subcategory_standardized'] == cat]
+#         st.info(f"🔎 Filtering by category: **{cat}**")
+#     if yr:
+#         df2 = df2[df2['status_date'].dt.year == yr]
+#         if mon:
+#             df2 = df2[df2['status_date'].dt.month == mon]
+#             st.info(f"🔎 Filtering by date: **{datetime(yr, mon, 1):%B %Y}**")
+#         else:
+#             st.info(f"🔎 Filtering by year: **{yr}**")
+#     if df2.empty:
+#         st.warning("No matching records found.")
+#     else:
+#         texts = df2['summary_insight'].tolist()
+#         embs = compute_embeddings(texts, _model=embed_model)
+#         res = semantic_search(query, embs, embed_model)
+#         if not res:
+#             st.warning("No relevant insights found.")
+#         else:
+#             st.subheader("Top Matching Insights")
+#             collected = []
+#             for idx, score in sorted(res, key=lambda x: x[1], reverse=True)[:5]:
+#                 row = df2.iloc[idx]
+#                 date = row['status_date'].date()
+#                 cat_std = row['category_&_subcategory_standardized']
+#                 goal = row['legislative_goal_standardized']
+#                 intent = row['intent_standardized']
+#                 stance = row['stance_standardized']
+#                 trend_summary = row['llama_trend_summary'].strip()
+#                 st.markdown(f"- **Date:** {date} | **Score:** {score:.2f}")
+#                 st.markdown(f"  - **Category:** {cat_std}")
+#                 st.markdown(f"  - **Goal:** {goal}")
+#                 st.markdown(f"  - **Intent:** {intent} | **Stance:** {stance}")
+#                 st.markdown(f"  > **Trend Summary:** {trend_summary}")
+#                 collected.append(row['summary_insight'])
+#             st.subheader(" RAG-Generated Summary")
+#             summary = rag_summarize(collected, summarizer)
+#             st.success(summary)
 import streamlit as st
 import pandas as pd
 import re
 from sklearn.feature_extraction.text import TfidfVectorizer
 from datetime import datetime
+# Load and preprocess the dataset
 @st.cache_data
 def load_data():
     df = pd.read_csv("Illinois_Entire_Data_Insights_Final_v2.csv")
+    df['status_date'] = pd.to_datetime(df['status_date'], format='%d-%m-%Y', errors='coerce')  # Convert dates
+    df = df.dropna(subset=['status_date'])  # Remove rows with invalid dates
+    df["llama_trend_summary"] = df["llama_trend_summary"].fillna("")  # Clean nulls
     df["llama_insight"] = df["llama_insight"].fillna("")
+    df["summary_insight"] = df["llama_trend_summary"] + "\n" + df["llama_insight"]  # Combine summaries
     return df
+# Load sentence embedding model + summarization model
 @st.cache_resource
 def load_models():
+    embed_model = SentenceTransformer('all-MiniLM-L6-v2')  # For semantic search
+    summarizer = pipeline("summarization", model="t5-small", tokenizer="t5-small")  # For final summary
     return embed_model, summarizer
+# Generate embeddings from a list of texts
 @st.cache_data
 def compute_embeddings(texts, _model):
     return _model.encode(texts, show_progress_bar=True)
+# Perform semantic search using cosine similarity
+def semantic_search(query, embeddings, model, threshold=0.7):  # Adjusted threshold to 0.7
     query_embedding = model.encode([query])
     sims = cosine_similarity(query_embedding, embeddings)[0]
     return [(i, s) for i, s in enumerate(sims) if s > threshold]
+# Retrieve top matching texts and summarize them (RAG-like approach)
 def rag_summarize(texts, summarizer, top_k=5):
     if not texts:
         return "No relevant content to summarize."
     m = vect.fit_transform(texts)
     mean_vec = m.mean(axis=0).A
     scores = cosine_similarity(mean_vec, m).flatten()
+    top_indices = scores.argsort()[::-1][:top_k]  # Pick top-k similar insights
     ctx = "\n".join(texts[i] for i in top_indices)
     prompt = "summarize: " + ctx[:1024]
     out = summarizer(prompt, max_length=60, min_length=30, do_sample=False)
     return out[0]['summary_text']
+# Extract month and year from query (e.g., "May 2024")
 def extract_month_year(q):
     month_map = {m: i for i, m in enumerate(
         ["january", "february", "march", "april", "may", "june",
     yr = int(ym.group()) if ym else None
     return mon, yr
+# Try to detect a category mentioned in the query
 def extract_category(q, cats):
     ql = q.lower()
     for cat in cats:
             return cat
     return None
+# ---- Streamlit Interface ---- #
 st.set_page_config(page_title="IL Trends Q&A", layout="wide")
 st.title("Illinois Legislative Trends Q&A")
+# Load the dataset and models
 df = load_data()
 embed_model, summarizer = load_models()
+# User enters question
+query = st.text_input("Ask a question (e.g., ‘trends in higher education in May 2024’):")
 if query:
+    # Extract date or category from user question
     mon, yr = extract_month_year(query)
     cats = df['category_&_subcategory_standardized'].unique()
     cat = extract_category(query, cats)
     df2 = df.copy()
+    # Filter if query includes "opposed"
+    if "opposed" in query.lower():
+        df2 = df2[df2['stance_standardized'].str.lower() == "opposed"]
+        st.info("🔎 Filtering for bills where stance is **opposed**")
+    # Filter by detected category
     if cat:
         df2 = df2[df2['category_&_subcategory_standardized'] == cat]
         st.info(f"🔎 Filtering by category: **{cat}**")
+    # Filter by year/month if detected
     if yr:
         df2 = df2[df2['status_date'].dt.year == yr]
         if mon:
             df2 = df2[df2['status_date'].dt.month == mon]
+            st.info(f"Filtering by date: **{datetime(yr, mon, 1):%B %Y}**")
         else:
+            st.info(f" Filtering by year: **{yr}**")
+    # If no data after filtering
     if df2.empty:
         st.warning("No matching records found.")
     else:
+        # Generate semantic matches
         texts = df2['summary_insight'].tolist()
         embs = compute_embeddings(texts, _model=embed_model)
+        res = semantic_search(query, embs, embed_model)  # Uses threshold=0.7
         if not res:
             st.warning("No relevant insights found.")
             st.subheader("Top Matching Insights")
             collected = []
+            # Display top matches with metadata
             for idx, score in sorted(res, key=lambda x: x[1], reverse=True)[:5]:
                 row = df2.iloc[idx]
                 date = row['status_date'].date()
                 collected.append(row['summary_insight'])
+            # RAG-generated summary from top matching insights
+            st.subheader("RAG-Generated Summary")
             summary = rag_summarize(collected, summarizer)
             st.success(summary)