Spaces:

TANVEERMAKHDOOM
/

Demo-Rag-based-app-doc

Sleeping

App Files Files Community

TANVEERMAKHDOOM commited on May 7, 2025

Commit

96abe9d

verified ·

1 Parent(s): ffa725f

Update app.py

Browse files

Files changed (1) hide show

app.py +6 -19

app.py CHANGED Viewed

@@ -1,10 +1,7 @@
 import os
 import gdown
 import streamlit as st
-import requests
 from PyPDF2 import PdfReader
-from tempfile import NamedTemporaryFile
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain.text_splitter import RecursiveCharacterTextSplitter
@@ -13,22 +10,11 @@ from groq import Groq
 # Initialize Groq client
 client = Groq(api_key=os.environ['GROQ_API_KEY'])
-# Function to extract file ID from Google Drive URL
-def extract_drive_file_id(url):
-    if "drive.google.com" in url:
-        parts = url.split("/file/d/")
-        if len(parts) > 1:
-            return parts[1].split("/")[0]
-    return None
-# Download and save PDF from Google Drive using gdown
-def download_pdf_from_url(url):
-    file_id = extract_drive_file_id(url)
-    if not file_id:
-        return None
-    output_path = f"/tmp/{file_id}.pdf"
     try:
-        gdown.download(id=file_id, output=output_path, quiet=False)
         return output_path
     except Exception as e:
         print(f"Download failed: {e}")
@@ -87,7 +73,7 @@ vector_db = None
 # Auto-fetch and process each PDF
 for idx, link in enumerate(doc_links):
     st.write(f"📥 Fetching and processing PDF {idx + 1}...")
-    pdf_path = download_pdf_from_url(link)
     if pdf_path:
         try:
             text = extract_text_from_pdf(pdf_path)
@@ -107,3 +93,4 @@ if user_query and vector_db:
     st.write(response)
 elif user_query:
     st.warning("⚠️ No documents available to query.")

 import os
 import gdown
 import streamlit as st
 from PyPDF2 import PdfReader
 from langchain_community.embeddings import HuggingFaceEmbeddings
 from langchain_community.vectorstores import FAISS
 from langchain.text_splitter import RecursiveCharacterTextSplitter
 # Initialize Groq client
 client = Groq(api_key=os.environ['GROQ_API_KEY'])
+# Download and save PDF using gdown (fuzzy handles complex links)
+def download_pdf_from_url(url, idx):
+    output_path = f"/tmp/doc_{idx}.pdf"
     try:
+        gdown.download(url=url, output=output_path, quiet=False, fuzzy=True)
         return output_path
     except Exception as e:
         print(f"Download failed: {e}")
 # Auto-fetch and process each PDF
 for idx, link in enumerate(doc_links):
     st.write(f"📥 Fetching and processing PDF {idx + 1}...")
+    pdf_path = download_pdf_from_url(link, idx)
     if pdf_path:
         try:
             text = extract_text_from_pdf(pdf_path)
     st.write(response)
 elif user_query:
     st.warning("⚠️ No documents available to query.")