Spaces:

Legislation
/

RAG

Runtime error

App Files Files Community

tjl8 commited on Jul 8, 2025

Commit

34fa400

verified ·

1 Parent(s): 780f23d

Update app.py

Browse files

Files changed (1) hide show

app.py +42 -74

app.py CHANGED Viewed

@@ -1,5 +1,3 @@
-# app.py
 import streamlit as st
 import pandas as pd
 import re
@@ -40,6 +38,8 @@ def semantic_search(query, embeddings, model, threshold=0.4):
 # RAG summarization
 def rag_summarize(group_texts, summarizer, top_k=5):
     vectorizer = TfidfVectorizer()
     tfidf_matrix = vectorizer.fit_transform(group_texts)
     mean_vector = tfidf_matrix.mean(axis=0).A
@@ -50,92 +50,60 @@ def rag_summarize(group_texts, summarizer, top_k=5):
     result = summarizer(prompt, max_length=60, min_length=30, do_sample=False)
     return result[0]['summary_text']
-# Extract trend level and year
-def extract_query_info(query):
-    query = query.lower()
-    trend_level = None
-    if "monthly" in query:
-        trend_level = "monthly"
-    elif "quarterly" in query:
-        trend_level = "quarterly"
-    elif "yearly" in query or "annual" in query:
-        trend_level = "yearly"
-    year_match = re.search(r"(19|20)\d{2}", query)
-    year = int(year_match.group()) if year_match else None
-    return trend_level, year
-# Group and summarize
-def generate_trend_summary(df_filtered, level, summarizer):
-    if level == "monthly":
-        df_filtered['month'] = df_filtered['status_date'].dt.to_period('M').apply(lambda r: r.start_time)
-        grouped = df_filtered.groupby('month')['summary_insight'].apply(list).reset_index()
-    elif level == "quarterly":
-        df_filtered['quarter'] = df_filtered['status_date'].dt.to_period('Q').apply(lambda r: r.start_time)
-        grouped = df_filtered.groupby('quarter')['summary_insight'].apply(list).reset_index()
-    elif level == "yearly":
-        df_filtered['year'] = df_filtered['status_date'].dt.year
-        grouped = df_filtered.groupby('year')['summary_insight'].apply(list).reset_index()
-    else:
-        return None  # Should not happen
-    summaries = []
-    for i, row in grouped.iterrows():
-        summary = rag_summarize(row['summary_insight'], summarizer)
-        summaries.append((row[0], summary))
-    return summaries
-# ---------------- Streamlit UI ----------------
-st.set_page_config(page_title="Illinois Legislative Explorer", layout="wide")
-st.title("📊 Illinois Bill Trends Explorer (Monthly, Quarterly, Yearly)")
-st.markdown("Ask a question like:")
-st.markdown("- *What are the monthly trends in 2024?*")
-st.markdown("- *Give me quarterly updates for 2023*")
-st.markdown("- *Yearly trends in equity bills 2022*")
-st.markdown("- *What are the bills about clean energy?*")
-# Load
 df = load_data()
 embed_model, summarizer = load_models()
-# User query
-query = st.text_input("🔍 Ask your question:")
-if query:
-    trend_level, year = extract_query_info(query)
-    # Time-filtering logic
-    if year:
-        df_filtered = df[df['status_date'].dt.year == year]
-        if df_filtered.empty:
-            st.warning(f"No data found for the year {year}.")
-    else:
-        df_filtered = df
-    # If trend is specified
-    if trend_level in ["monthly", "quarterly", "yearly"]:
-        st.info(f"Generating **{trend_level}** trend summaries" + (f" for {year}" if year else ""))
-        trend_summaries = generate_trend_summary(df_filtered, trend_level, summarizer)
-        if trend_summaries:
-            for period, summary in trend_summaries:
-                st.subheader(f"📅 {period.strftime('%B %Y') if trend_level == 'monthly' else period.strftime('%Y Q%q') if trend_level == 'quarterly' else str(period)}")
-                st.success(summary)
-        else:
-            st.warning("No trends found for the selected timeline.")
     else:
-        # No trend level -> semantic search for individual bills
-        st.info("No trend level mentioned — showing top relevant bills from the data.")
         embeddings = compute_embeddings(df_filtered["summary_insight"].tolist(), _model=embed_model)
-        results = semantic_search(query, embeddings, embed_model)
         if not results:
-            st.warning("No relevant results found.")
         else:
             for idx, score in sorted(results, key=lambda x: x[1], reverse=True)[:5]:
                 row = df_filtered.iloc[idx]
-                st.markdown(f"**📅 Date:** {row['status_date'].date()} | **Score:** {score:.2f}")
                 st.markdown(f"```{row['summary_insight'][:500]}```")

 import streamlit as st
 import pandas as pd
 import re
 # RAG summarization
 def rag_summarize(group_texts, summarizer, top_k=5):
+    if not group_texts:
+        return "No relevant content to summarize."
     vectorizer = TfidfVectorizer()
     tfidf_matrix = vectorizer.fit_transform(group_texts)
     mean_vector = tfidf_matrix.mean(axis=0).A
     result = summarizer(prompt, max_length=60, min_length=30, do_sample=False)
     return result[0]['summary_text']
+# Streamlit UI
+st.set_page_config(page_title="Illinois Trends Q&A", layout="wide")
+st.title("📊 Illinois Trends Explorer")
+# Load data & models
 df = load_data()
 embed_model, summarizer = load_models()
+# Sidebar filters
+st.sidebar.header("📅 Filter Options")
+years = sorted(df['status_date'].dt.year.unique(), reverse=True)
+months = list(range(1, 13))
+month_names = {i: datetime(2000, i, 1).strftime('%B') for i in months}
+selected_year = st.sidebar.selectbox("Select Year", years)
+selected_month = st.sidebar.selectbox("Select Month (optional)", [None] + months, format_func=lambda x: "All" if x is None else month_names[x])
+selected_category = st.sidebar.selectbox("Select Category (optional)", ["All"] + sorted(df['category_&_subcategory_standardized'].dropna().unique()))
+# Filter data
+df_filtered = df[df['status_date'].dt.year == selected_year]
+if selected_month:
+    df_filtered = df_filtered[df_filtered['status_date'].dt.month == selected_month]
+if selected_category != "All":
+    df_filtered = df_filtered[df_filtered['category_&_subcategory_standardized'] == selected_category]
+# Summary statistics
+st.markdown(f"### 📈 Top Categories in {month_names.get(selected_month, 'All Months')} {selected_year}")
+top_cats = df_filtered['category_&_subcategory_standardized'].value_counts().head(5)
+st.bar_chart(top_cats)
+# Question input
+query = st.text_input("🔍 Ask your question about trends:")
+if query:
+    if df_filtered.empty:
+        st.warning("No data available for this filter.")
     else:
         embeddings = compute_embeddings(df_filtered["summary_insight"].tolist(), _model=embed_model)
+        results = semantic_search(query, embeddings, embed_model, threshold=0.4)
         if not results:
+            st.warning("No relevant insights found.")
         else:
+            top_texts = []
+            st.subheader("🔎 Top Matching Insights:")
             for idx, score in sorted(results, key=lambda x: x[1], reverse=True)[:5]:
                 row = df_filtered.iloc[idx]
+                st.markdown(f"**📅 Date:** {row['status_date'].date()} | **🔢 Score:** {score:.2f}")
+                st.markdown(f"**📌 Title:** {row['title']}")
+                st.markdown(f"**🏷️ Category:** {row['category_&_subcategory_standardized']} | **🎯 Goal:** {row['legislative_goal_standardized']}")
+                st.markdown(f"**🧭 Intent:** {row['intent_standardized']} | **⚖️ Stance:** {row['stance_standardized']}")
                 st.markdown(f"```{row['summary_insight'][:500]}```")
+                top_texts.append(row['summary_insight'])
+            st.subheader("🧠 RAG-Generated Summary:")
+            summary = rag_summarize(top_texts, summarizer, top_k=5)
+            st.success(summary)