Spaces:

NHZ
/

First_Aid_Kit

Sleeping

App Files Files Community

NHZ commited on Jan 4, 2025

Commit

7eecbbb

verified ·

1 Parent(s): b8b3983

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -36

app.py CHANGED Viewed

@@ -1,11 +1,8 @@
 import os
 import requests
-import numpy as np
-import faiss
-from PyPDF2 import PdfReader
-from sentence_transformers import SentenceTransformer
-from transformers import AutoTokenizer, AutoModel
 import torch
 from langchain.vectorstores import FAISS
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
@@ -40,7 +37,7 @@ class GroqLLM(LLM):
         data = response.json()
         return data["choices"][0]["message"]["content"]
-# Initialize Groq API LLM with explicit API key
 llm = GroqLLM(api_key="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")
 # Function to extract content from a public Google Drive PDF link
@@ -60,12 +57,10 @@ def extract_pdf_content(drive_url):
         text += page.extract_text()
     return text
-# Function to create a FAISS vector store from the document content
 def create_vector_store(text):
-    # Split the text into sentences and clean it
     sentences = [sentence.strip() for sentence in text.split(". ") if sentence.strip()]
-    # Use Hugging Face transformer model for embeddings
     model_name = "sentence-transformers/all-MiniLM-L6-v2"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModel.from_pretrained(model_name)
@@ -76,37 +71,28 @@ def create_vector_store(text):
             embeddings = model(**tokens).last_hidden_state.mean(dim=1).squeeze().numpy()
         return embeddings
-    # Create a FAISS vector store with sentences and their embeddings
-    vector_store = FAISS.from_texts(
-        texts=sentences,
-        embedding_function=embed
-    )
     return vector_store, sentences
 # Streamlit app
 st.title("RAG-based Application with Focused Context")
-# Predefined Google Drive link
 drive_url = "https://drive.google.com/file/d/1XvqA1OIssRs2gbmOtKFKj-02yQ5X2yg0/view?usp=sharing"
-# Extract document content
-st.write("Extracting content from the document...")
 text = extract_pdf_content(drive_url)
 if text:
     st.write("Document extracted successfully!")
-    st.write("Creating vector store...")
     vector_store, sentences = create_vector_store(text)
-    st.write("Vector store created successfully!")
     query = st.text_input("Enter your query:")
     if query:
-        st.write("Retrieving relevant context from the document...")
         retriever = vector_store.as_retriever()
-        retriever.search_kwargs["k"] = 3  # Retrieve top 3 matches
-        # Define a prompt template to guide LLM response generation
         prompt_template = PromptTemplate(
             template="""
             Use the following context to answer the question:
@@ -118,25 +104,16 @@ if text:
             input_variables=["context", "question"]
         )
-        # Create a RetrievalQA chain
         qa_chain = RetrievalQA.from_chain_type(
             retriever=retriever,
             llm=llm,
-            chain_type="stuff",  # Use the default chain type
-            return_source_documents=True  # Optional
         )
-        # Run the query through the QA chain and get the outputs
         response = qa_chain({"query": query})
         answer = response["result"]
-        # Display the result
         st.write("Answer:", answer)
-        # Optionally display the source documents
-        if "source_documents" in response:
-            st.write("Source Documents:")
-            for doc in response["source_documents"]:
-                st.write(doc.page_content)
 else:
     st.error("Failed to extract content from the document.")

 import os
 import requests
 import torch
+from transformers import AutoTokenizer, AutoModel
+from PyPDF2 import PdfReader
 from langchain.vectorstores import FAISS
 from langchain.chains import RetrievalQA
 from langchain.prompts import PromptTemplate
         data = response.json()
         return data["choices"][0]["message"]["content"]
+# Initialize Groq API LLM
 llm = GroqLLM(api_key="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")
 # Function to extract content from a public Google Drive PDF link
         text += page.extract_text()
     return text
+# Function to create a FAISS vector store
 def create_vector_store(text):
     sentences = [sentence.strip() for sentence in text.split(". ") if sentence.strip()]
     model_name = "sentence-transformers/all-MiniLM-L6-v2"
     tokenizer = AutoTokenizer.from_pretrained(model_name)
     model = AutoModel.from_pretrained(model_name)
             embeddings = model(**tokens).last_hidden_state.mean(dim=1).squeeze().numpy()
         return embeddings
+    embeddings = [embed(sentence) for sentence in sentences]
+    text_embeddings = [(sentences[i], embeddings[i]) for i in range(len(sentences))]
+    vector_store = FAISS.from_embeddings(text_embeddings)
     return vector_store, sentences
 # Streamlit app
 st.title("RAG-based Application with Focused Context")
 drive_url = "https://drive.google.com/file/d/1XvqA1OIssRs2gbmOtKFKj-02yQ5X2yg0/view?usp=sharing"
 text = extract_pdf_content(drive_url)
 if text:
     st.write("Document extracted successfully!")
     vector_store, sentences = create_vector_store(text)
+    st.write("Vector store created!")
     query = st.text_input("Enter your query:")
     if query:
         retriever = vector_store.as_retriever()
+        retriever.search_kwargs["k"] = 3
         prompt_template = PromptTemplate(
             template="""
             Use the following context to answer the question:
             input_variables=["context", "question"]
         )
         qa_chain = RetrievalQA.from_chain_type(
             retriever=retriever,
             llm=llm,
+            chain_type="stuff",
+            return_source_documents=True
         )
         response = qa_chain({"query": query})
         answer = response["result"]
         st.write("Answer:", answer)
 else:
     st.error("Failed to extract content from the document.")