Spaces:

rahideer
/

NewsFactChecker

Running

App Files Files Community

rahideer commited on Apr 16, 2025

Commit

b0efa4e

verified ·

1 Parent(s): 5b325c2

Update app.py

Browse files

Files changed (1) hide show

app.py +27 -10

app.py CHANGED Viewed

@@ -1,17 +1,28 @@
-import streamlit as st
 import pandas as pd
 import torch
 from sentence_transformers import SentenceTransformer, util
 from transformers import pipeline
 st.set_page_config(page_title="News Fact Checker", page_icon="📰")
 @st.cache_data
-def load_data():
-    df = pd.read_csv("climate/ag_news_csv/train.csv", header=None, names=["label", "title", "description"])
     df["text"] = df["title"] + ". " + df["description"]
-    return df.head(1000)  # limit for faster app
 @st.cache_resource
 def load_models():
     embedder = SentenceTransformer('all-MiniLM-L6-v2')
@@ -19,22 +30,24 @@ def load_models():
     return embedder, summarizer
 st.title("📰 News Fact Checker")
-st.markdown("Enter a news-related **claim**. We'll retrieve climate news and give you a summary to verify or refute it.")
-claim = st.text_input("🔍 Enter your claim:")
-data = load_data()
 embedder, summarizer = load_models()
 if claim:
-    with st.spinner("Retrieving relevant news..."):
         corpus = data["text"].tolist()
         corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)
         query_embedding = embedder.encode(claim, convert_to_tensor=True)
-        hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=3)[0]
         top_passages = [corpus[hit['corpus_id']] for hit in hits]
-        combined = " ".join(top_passages)
         if len(combined) > 1024:
             combined = combined[:1024]
@@ -42,3 +55,7 @@ if claim:
     st.markdown("### ✅ Fact-Checked Summary")
     st.success(summary)

+import zipfile
+import os
 import pandas as pd
 import torch
 from sentence_transformers import SentenceTransformer, util
 from transformers import pipeline
+import streamlit as st
 st.set_page_config(page_title="News Fact Checker", page_icon="📰")
+# Step 1: Unzip dataset (only once)
 @st.cache_data
+def extract_dataset():
+    zip_path = "climate.zip"
+    extract_dir = "climate"
+    if not os.path.exists(os.path.join(extract_dir, "ag_news_csv", "train.csv")):
+        with zipfile.ZipFile(zip_path, 'r') as zip_ref:
+            zip_ref.extractall(extract_dir)
+    df = pd.read_csv(os.path.join(extract_dir, "ag_news_csv", "train.csv"), header=None, names=["label", "title", "description"])
     df["text"] = df["title"] + ". " + df["description"]
+    return df.head(1000)  # Sample only top 1000 rows
+# Step 2: Load embedding model + summarizer
 @st.cache_resource
 def load_models():
     embedder = SentenceTransformer('all-MiniLM-L6-v2')
     return embedder, summarizer
 st.title("📰 News Fact Checker")
+st.markdown("Enter a news-related **claim** and get back a summary based on real climate news articles to help verify it.")
+# Step 3: UI
+claim = st.text_input("🔍 Enter your claim here:")
+data = extract_dataset()
 embedder, summarizer = load_models()
+# Step 4: Process and return result
 if claim:
+    with st.spinner("🔍 Searching relevant news..."):
         corpus = data["text"].tolist()
         corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)
         query_embedding = embedder.encode(claim, convert_to_tensor=True)
+        hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=3)[0]
         top_passages = [corpus[hit['corpus_id']] for hit in hits]
+        combined = " ".join(top_passages)
         if len(combined) > 1024:
             combined = combined[:1024]
     st.markdown("### ✅ Fact-Checked Summary")
     st.success(summary)
+    with st.expander("🔎 Top Relevant News Passages"):
+        for i, passage in enumerate(top_passages, 1):
+            st.markdown(f"**Snippet {i}:** {passage}")