Spaces:

waqasbm
/

Data_Extractor_Tool

Sleeping

App Files Files Community

waqasbm commited on May 19, 2025

Commit

9ea18af

verified ·

1 Parent(s): 55c68b6

Update app.py

Browse files

Files changed (1) hide show

app.py +39 -21

app.py CHANGED Viewed

@@ -5,6 +5,7 @@ import time
 import tempfile
 import faiss
 import numpy as np
 from dotenv import load_dotenv
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.embeddings import HuggingFaceEmbeddings
@@ -12,7 +13,7 @@ from langchain.vectorstores import FAISS
 from langchain.docstore.document import Document
 from keybert import KeyBERT
 from textblob import TextBlob
-from groq import Groq
 # Load environment
 load_dotenv()
@@ -25,7 +26,7 @@ st.title("💬 Smart PDF ChatBot")
 st.markdown("""
 Upload one or more PDFs. Get summaries, insights, and interact with AI about the content using a persistent memory chat.
 """)
 uploaded_files = st.file_uploader("📁 Upload PDF files", type=["pdf"], accept_multiple_files=True)
 # Utilities
@@ -37,7 +38,7 @@ def extract_text_from_pdf(file):
     return text
 def split_text(text):
-    splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
     return splitter.split_text(text)
 def create_vector_store(chunks):
@@ -48,30 +49,47 @@ def create_vector_store(chunks):
 def summarize_chunks(chunks):
     chunk_summaries = []
     for i, chunk in enumerate(chunks):
         try:
             response = client.chat.completions.create(
                 model=GROQ_MODEL,
                 messages=[
-                    {"role": "system", "content": "You are an AI that summarizes documents."},
-                    {"role": "user", "content": f"Summarize this chunk:\n{chunk}"}
                 ]
             )
-            chunk_summaries.append(response.choices[0].message.content)
         except Exception as e:
-            chunk_summaries.append(f"[Error summarizing chunk {i}]: {str(e)}")
-    return "\n".join(chunk_summaries)
-def ask_question(vectorstore, question):
-    docs = vectorstore.similarity_search(question, k=3)
-    context = "\n".join([d.page_content for d in docs])
-    response = client.chat.completions.create(
-        model=GROQ_MODEL,
-        messages=[
-            {"role": "system", "content": "You answer questions based on document context."},
-            {"role": "user", "content": f"Context:\n{context}\n\nQuestion:\n{question}"}
-        ]
-    )
-    return response.choices[0].message.content
 def extract_keywords(text, top_n=10):
     kw_model = KeyBERT()
@@ -131,4 +149,4 @@ if uploaded_files:
         st.markdown(f"**You:** {q}")
         st.markdown(f"**AI:** {a}")
 else:
-    st.info("📥 Upload one or more PDF files to get started.")

 import tempfile
 import faiss
 import numpy as np
+import json
 from dotenv import load_dotenv
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain.docstore.document import Document
 from keybert import KeyBERT
 from textblob import TextBlob
+from groq import Groq, RateLimitError
 # Load environment
 load_dotenv()
 st.markdown("""
 Upload one or more PDFs. Get summaries, insights, and interact with AI about the content using a persistent memory chat.
 """)
 uploaded_files = st.file_uploader("📁 Upload PDF files", type=["pdf"], accept_multiple_files=True)
 # Utilities
     return text
 def split_text(text):
+    splitter = RecursiveCharacterTextSplitter(chunk_size=800, chunk_overlap=150)
     return splitter.split_text(text)
 def create_vector_store(chunks):
 def summarize_chunks(chunks):
     chunk_summaries = []
     for i, chunk in enumerate(chunks):
+        while True:
+            try:
+                response = client.chat.completions.create(
+                    model=GROQ_MODEL,
+                    messages=[
+                        {"role": "system", "content": "You are an AI that summarizes documents."},
+                        {"role": "user", "content": f"Summarize this chunk:\n{chunk}"}
+                    ]
+                )
+                chunk_summaries.append(response.choices[0].message.content)
+                break
+            except RateLimitError as e:
+                error_data = json.loads(str(e).split(" - ", 1)[-1])
+                wait_time = float(error_data["error"]["message"].split("in ")[-1].split("s")[0])
+                st.warning(f"Rate limit hit while summarizing. Retrying in {wait_time:.2f} seconds...")
+                time.sleep(wait_time)
+            except Exception as e:
+                chunk_summaries.append(f"[Error summarizing chunk {i}]: {str(e)}")
+                break
+    return "\n".join(chunk_summaries)
+def ask_question(vectorstore, question):
+    docs = vectorstore.similarity_search(question, k=3)
+    context = "\n".join([d.page_content for d in docs])
+    while True:
         try:
             response = client.chat.completions.create(
                 model=GROQ_MODEL,
                 messages=[
+                    {"role": "system", "content": "You answer questions based on document context."},
+                    {"role": "user", "content": f"Context:\n{context}\n\nQuestion:\n{question}"}
                 ]
             )
+            return response.choices[0].message.content
+        except RateLimitError as e:
+            error_data = json.loads(str(e).split(" - ", 1)[-1])
+            wait_time = float(error_data["error"]["message"].split("in ")[-1].split("s")[0])
+            st.warning(f"Rate limit hit. Retrying in {wait_time:.2f} seconds...")
+            time.sleep(wait_time)
         except Exception as e:
+            return f"[Error answering question]: {str(e)}"
 def extract_keywords(text, top_n=10):
     kw_model = KeyBERT()
         st.markdown(f"**You:** {q}")
         st.markdown(f"**AI:** {a}")
 else:
+    st.info("📥 Upload one or more PDF files to get started.")