Spaces:

Zubair67
/

PPRA-RULES-2004-Assistant

Build error

App Files Files Community

Zubair67 commited on Jan 13, 2025

Commit

2d86f45

verified ·

1 Parent(s): c97c196

Update app.py

Browse files

Files changed (1) hide show

app.py +48 -43

app.py CHANGED Viewed

@@ -3,9 +3,11 @@ import streamlit as st
 from groq import Groq
 from langchain.vectorstores import FAISS
 from langchain.text_splitter import CharacterTextSplitter
-from langchain.embeddings import OpenAIEmbeddings
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
 # Initialize Groq client
 client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
@@ -13,45 +15,48 @@ client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
 # Title of the application
 st.title("Public Procurement Rules Assistant")
-# Upload PDF
-uploaded_file = st.file_uploader("Upload the PPRA Rules 2004 PDF", type=["pdf"])
-if uploaded_file:
-    from PyPDF2 import PdfReader
-    # Read and extract text from PDF
-    pdf_reader = PdfReader(uploaded_file)
-    text = ""
-    for page in pdf_reader.pages:
-        text += page.extract_text()
-    # Split text into chunks for embedding
-    text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
-    chunks = text_splitter.split_text(text)
-    # Create embeddings and FAISS index
-    embeddings = OpenAIEmbeddings()
-    vectorstore = FAISS.from_texts(chunks, embeddings)
-    # Set up retrieval-based QA
-    retriever = vectorstore.as_retriever()
-    qa_chain = RetrievalQA.from_chain_type(
-        llm=lambda query: client.chat.completions.create(
-            messages=[{"role": "user", "content": query}],
-            model="llama-3.3-70b-versatile",
-        ).choices[0].message.content,
-        retriever=retriever,
-        return_source_documents=True,
-    )
-    # Input for user query
-    user_query = st.text_input("Ask a question about PPRA Rules 2004:")
-    if user_query:
-        response = qa_chain.run(user_query)
-        st.subheader("Answer:")
-        st.write(response)
-        # Optional: Display relevant source documents
-        st.subheader("Relevant Sources:")
-        for doc in response["source_documents"]:
-            st.write(doc.page_content)

 from groq import Groq
 from langchain.vectorstores import FAISS
 from langchain.text_splitter import CharacterTextSplitter
+from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
+from PyPDF2 import PdfReader
+import requests
 # Initialize Groq client
 client = Groq(api_key=os.environ.get("GROQ_API_KEY"))
 # Title of the application
 st.title("Public Procurement Rules Assistant")
+# Download the PPRA Rules file from Google Drive
+file_url = "https://drive.google.com/uc?export=download&id=1faNpSV_UIZzd3h08qtzvSRGmzDkNtmuA"
+pdf_path = "PPRA_Rules_2004.pdf"
+if not os.path.exists(pdf_path):  # Download the file only if not already downloaded
+    response = requests.get(file_url)
+    with open(pdf_path, "wb") as f:
+        f.write(response.content)
+# Read and extract text from the PDF
+pdf_reader = PdfReader(pdf_path)
+text = ""
+for page in pdf_reader.pages:
+    text += page.extract_text()
+# Split text into chunks for embedding
+text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
+chunks = text_splitter.split_text(text)
+# Use HuggingFace embeddings (Groq-compatible)
+embeddings = HuggingFaceEmbeddings()
+vectorstore = FAISS.from_texts(chunks, embeddings)
+# Set up retrieval-based QA
+retriever = vectorstore.as_retriever()
+qa_chain = RetrievalQA.from_chain_type(
+    llm=lambda query: client.chat.completions.create(
+        messages=[{"role": "user", "content": query}],
+        model="llama-3.3-70b-versatile",
+    ).choices[0].message.content,
+    retriever=retriever,
+    return_source_documents=True,
+)
+# Input for user query
+user_query = st.text_input("Ask a question about PPRA Rules 2004:")
+if user_query:
+    response = qa_chain.run(user_query)
+    st.subheader("Answer:")
+    st.write(response)
+    # Optional: Display relevant source documents
+    st.subheader("Relevant Sources:")
+    for doc in response["source_documents"]:
+        st.write(doc.page_content)