Spaces:

waqasbm
/

Data_Extractor_Tool

Sleeping

App Files Files Community

waqasbm commited on May 19, 2025

Commit

1217112

verified ·

1 Parent(s): 4fa332a

Update app.py

Browse files

Files changed (1) hide show

app.py +76 -25

app.py CHANGED Viewed

@@ -3,22 +3,27 @@ import fitz  # PyMuPDF
 import requests
 import os
 from dotenv import load_dotenv
-# Load environment variables
 load_dotenv()
-GROQ_API_KEY = os.getenv("wbm1")  # Put this in your .env file or Hugging Face secrets
 GROQ_API_URL = "https://api.groq.com/openai/v1/chat/completions"
-GROQ_MODEL = "llama3-8b-8192"  # or use llama3-70b-8192 for more power
-st.set_page_config(page_title="📄 PDF Data Extractor AI", layout="centered")
-st.title("📄 Intelligent PDF Data Extractor & Summarizer")
 st.markdown("""
-Upload a PDF and extract key insights automatically using AI.
-This tool helps improve decision-making, reduce errors, and boost productivity.
 """)
-uploaded_file = st.file_uploader("Upload PDF file", type=["pdf"])
 def extract_text_from_pdf(file):
     doc = fitz.open(stream=file.read(), filetype="pdf")
@@ -27,7 +32,14 @@ def extract_text_from_pdf(file):
         text += page.get_text()
     return text
-def query_groq(text, system_prompt):
     headers = {
         "Authorization": f"Bearer {GROQ_API_KEY}",
         "Content-Type": "application/json"
@@ -35,36 +47,75 @@ def query_groq(text, system_prompt):
     payload = {
         "model": GROQ_MODEL,
         "messages": [
-            {"role": "system", "content": system_prompt},
             {"role": "user", "content": text}
         ],
-        "temperature": 0.2,
         "max_tokens": 1024
     }
     response = requests.post(GROQ_API_URL, headers=headers, json=payload)
     response.raise_for_status()
     return response.json()["choices"][0]["message"]["content"]
 if uploaded_file:
-    with st.spinner("🔍 Extracting and summarizing..."):
-        raw_text = extract_text_from_pdf(uploaded_file)
-        # Summarize using GROQ
         prompt = (
-            "You are an intelligent PDF data assistant. Read the document and extract a clear summary. "
-            "Highlight key insights, decisions, data points, and actionable information. "
-            "Return a structured summary that enhances decision-making and productivity."
         )
-        try:
-            summary = query_groq(raw_text, prompt)
-            st.subheader("🧠 Extracted Summary")
-            st.success(summary)
             st.markdown("---")
-            st.caption("✅ Powered by GROQ LLaMA and PyMuPDF. Safe and secure local processing.")
-        except Exception as e:
-            st.error(f"❌ Failed to extract summary: {e}")
 else:
-    st.info("📥 Please upload a PDF file to begin.")

 import requests
 import os
 from dotenv import load_dotenv
+from langchain.text_splitter import RecursiveCharacterTextSplitter
+from keybert import KeyBERT
+from textblob import TextBlob
+# Setup
 load_dotenv()
+GROQ_API_KEY = os.getenv("wbm1")
 GROQ_API_URL = "https://api.groq.com/openai/v1/chat/completions"
+GROQ_MODEL = "llama3-8b-8192"
+st.set_page_config(page_title="🧠 Smart PDF Extractor", layout="centered")
+st.title("📄 Smart PDF Extractor & AI Summarizer")
 st.markdown("""
+Extract summaries, insights, keywords, and sentiment from your PDFs using AI.
 """)
+uploaded_file = st.file_uploader("📁 Upload your PDF file", type=["pdf"])
+# ---------- Utilities ----------
 def extract_text_from_pdf(file):
     doc = fitz.open(stream=file.read(), filetype="pdf")
         text += page.get_text()
     return text
+def split_text_langchain(text, chunk_size=3000, chunk_overlap=200):
+    splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)
+    chunks = splitter.split_text(text)
+    return chunks
+def summarize_chunk(text, prompt):
     headers = {
         "Authorization": f"Bearer {GROQ_API_KEY}",
         "Content-Type": "application/json"
     payload = {
         "model": GROQ_MODEL,
         "messages": [
+            {"role": "system", "content": prompt},
             {"role": "user", "content": text}
         ],
+        "temperature": 0.3,
         "max_tokens": 1024
     }
     response = requests.post(GROQ_API_URL, headers=headers, json=payload)
     response.raise_for_status()
     return response.json()["choices"][0]["message"]["content"]
+def extract_keywords(text, top_n=10):
+    kw_model = KeyBERT()
+    keywords = kw_model.extract_keywords(text, top_n=top_n, stop_words='english')
+    return [kw[0] for kw in keywords]
+def get_sentiment(text):
+    blob = TextBlob(text)
+    polarity = blob.sentiment.polarity
+    if polarity > 0.2:
+        return "😊 Positive"
+    elif polarity < -0.2:
+        return "😞 Negative"
+    else:
+        return "😐 Neutral"
+def make_download_button(text, filename="summary.txt"):
+    st.download_button("💾 Download Summary", data=text, file_name=filename, mime="text/plain")
+# ---------- Main Logic ----------
 if uploaded_file:
+    with st.spinner("🧠 Reading and analyzing PDF..."):
+        pdf_text = extract_text_from_pdf(uploaded_file)
+        chunks = split_text_langchain(pdf_text)
         prompt = (
+            "Summarize the following text clearly. Focus on main ideas, insights, data points, and useful information."
         )
+        summaries = []
+        for i, chunk in enumerate(chunks):
+            st.write(f"⏳ Summarizing part {i + 1}/{len(chunks)}...")
+            try:
+                summary = summarize_chunk(chunk, prompt)
+                summaries.append(summary)
+            except Exception as e:
+                st.error(f"Error summarizing chunk {i + 1}: {e}")
+                break
+        if summaries:
+            final_summary = "\n\n".join(summaries)
+            st.subheader("✅ Final Summary")
+            st.success(final_summary)
+            make_download_button(final_summary)
             st.markdown("---")
+            st.subheader("🔑 Keywords")
+            keywords = extract_keywords(final_summary)
+            st.write(", ".join(keywords))
+            st.subheader("📊 Sentiment")
+            sentiment = get_sentiment(final_summary)
+            st.write(sentiment)
 else:
+    st.info("📥 Upload a PDF to begin.")