Spaces:

TANVEERMAKHDOOM
/

Demo-Rag-based-app-doc

Sleeping

App Files Files Community

TANVEERMAKHDOOM commited on May 7, 2025

Commit

f9a9ebf

verified ·

1 Parent(s): 96abe9d

Update app.py

Browse files

Files changed (1) hide show

app.py +46 -59

app.py CHANGED Viewed

@@ -10,87 +10,74 @@ from groq import Groq
 # Initialize Groq client
 client = Groq(api_key=os.environ['GROQ_API_KEY'])
-# Download and save PDF using gdown (fuzzy handles complex links)
-def download_pdf_from_url(url, idx):
-    output_path = f"/tmp/doc_{idx}.pdf"
     try:
-        gdown.download(url=url, output=output_path, quiet=False, fuzzy=True)
         return output_path
     except Exception as e:
-        print(f"Download failed: {e}")
         return None
 # Extract text from PDF
-def extract_text_from_pdf(pdf_file_path):
-    pdf_reader = PdfReader(pdf_file_path)
     text = ""
-    for page in pdf_reader.pages:
-        page_text = page.extract_text()
-        if page_text:
-            text += page_text
     return text
 # Split text into chunks
-def chunk_text(text, chunk_size=500, chunk_overlap=50):
-    text_splitter = RecursiveCharacterTextSplitter(
-        chunk_size=chunk_size, chunk_overlap=chunk_overlap
-    )
-    return text_splitter.split_text(text)
-# Create and update FAISS vector DB
-def create_embeddings_and_store(chunks, vector_db=None):
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
-    if vector_db is None:
-        vector_db = FAISS.from_texts(chunks, embedding=embeddings)
-    else:
-        vector_db.add_texts(chunks)
-    return vector_db
-# Query the database and get response from Groq LLM
-def query_vector_db(query, vector_db):
     docs = vector_db.similarity_search(query, k=3)
     context = "\n".join([doc.page_content for doc in docs])
-    chat_completion = client.chat.completions.create(
         messages=[
             {"role": "system", "content": f"Use the following context:\n{context}"},
             {"role": "user", "content": query},
-        ],
-        model="llama3-8b-8192",
     )
-    return chat_completion.choices[0].message.content
-# Streamlit UI
-st.title("📄 RAG QA on Google Drive PDFs (Auto-Fetch)")
-# Public Google Drive PDF links
-doc_links = [
-    "https://drive.google.com/file/d/0B9Ivs2CdbN04bmJhZGl3Z0VhUHc/view?usp=sharing&resourcekey=0-VGasMdtr3imjqp-Go6TrhA",
-    "https://drive.google.com/file/d/0B9Ivs2CdbN04V3VhNUFrVk40M2M/view?usp=sharing&resourcekey=0-VIv15q5jcFFA6t6F45g13Q",
-]
-vector_db = None
-# Auto-fetch and process each PDF
-for idx, link in enumerate(doc_links):
-    st.write(f"📥 Fetching and processing PDF {idx + 1}...")
-    pdf_path = download_pdf_from_url(link, idx)
-    if pdf_path:
-        try:
-            text = extract_text_from_pdf(pdf_path)
-            chunks = chunk_text(text)
-            vector_db = create_embeddings_and_store(chunks, vector_db=vector_db)
-            st.success(f"✅ Successfully processed document {idx + 1}")
-        except Exception as e:
-            st.error(f"❌ Error processing document {idx + 1}: {e}")
-    else:
-        st.error(f"❌ Failed to download document {idx + 1}")
-# User input for query
-user_query = st.text_input("🔍 Enter your query:")
-if user_query and vector_db:
-    response = query_vector_db(user_query, vector_db)
-    st.subheader("💬 Answer:")
-    st.write(response)
-elif user_query:
-    st.warning("⚠️ No documents available to query.")

 # Initialize Groq client
 client = Groq(api_key=os.environ['GROQ_API_KEY'])
+# Download and save PDF using gdown
+def download_pdf(url):
+    output_path = "/tmp/drive_doc.pdf"
     try:
+        gdown.download(url=url, output=output_path, quiet=True, fuzzy=True)
         return output_path
     except Exception as e:
+        st.error(f"❌ Download failed: {e}")
         return None
 # Extract text from PDF
+def extract_text(pdf_path):
+    reader = PdfReader(pdf_path)
     text = ""
+    for page in reader.pages:
+        content = page.extract_text()
+        if content:
+            text += content
     return text
 # Split text into chunks
+def chunk_text(text):
+    splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=50)
+    return splitter.split_text(text)
+# Create embeddings and store in FAISS
+def build_vector_db(chunks):
     embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
+    return FAISS.from_texts(chunks, embedding=embeddings)
+# Query the vector DB and get response from Groq
+def query_groq(query, vector_db):
     docs = vector_db.similarity_search(query, k=3)
     context = "\n".join([doc.page_content for doc in docs])
+    response = client.chat.completions.create(
+        model="llama3-8b-8192",
         messages=[
             {"role": "system", "content": f"Use the following context:\n{context}"},
             {"role": "user", "content": query},
+        ]
     )
+    return response.choices[0].message.content
+# --- Streamlit App ---
+st.title("📄 RAG QA from Google Drive PDF")
+link = "https://drive.google.com/file/d/1SGXNLO841VyHnGiX81oo6x2RHIrTmP5S/view?usp=sharing"
+st.write("📥 Downloading and processing document...")
+pdf_path = download_pdf(link)
+if pdf_path:
+    try:
+        text = extract_text(pdf_path)
+        chunks = chunk_text(text)
+        vector_db = build_vector_db(chunks)
+        st.success("✅ Document processed successfully.")
+    except Exception as e:
+        st.error(f"❌ Error processing PDF: {e}")
+        vector_db = None
+else:
+    vector_db = None
+query = st.text_input("🔍 Enter your query:")
+if query and vector_db:
+    answer = query_groq(query, vector_db)
+    st.subheader("💬 Answer:")
+    st.write(answer)
+elif query:
+    st.warning("⚠️ Document not ready yet.")