Spaces:

NHZ
/

First_Aid_Kit

Sleeping

App Files Files Community

NHZ commited on Jan 5, 2025

Commit

51163d3

verified ·

1 Parent(s): b3a469f

Update app.py

Browse files

Files changed (1) hide show

app.py +43 -37

app.py CHANGED Viewed

@@ -1,17 +1,13 @@
 import os
 import streamlit as st
 import requests
-import PyPDF2
-from sentence_transformers import SentenceTransformer
-import faiss
-import nltk
 from groq import Groq
-# Ensure the punkt tokenizer is downloaded
-try:
-    nltk.data.find('tokenizers/punkt')
-except LookupError:
-    nltk.download('punkt')
 # Initialize Groq client
 client = Groq(api_key=os.getenv("GROQ_API_KEY"))
@@ -34,41 +30,38 @@ def extract_text_from_pdf(pdf_url):
     os.remove("temp.pdf")
     return text
-# Function to chunk text
 def chunk_text(text, chunk_size=300):
-    sentences = nltk.sent_tokenize(text)
     chunks = []
     current_chunk = []
-    current_length = 0
-    for sentence in sentences:
-        current_length += len(sentence.split())
-        if current_length <= chunk_size:
-            current_chunk.append(sentence)
         else:
             chunks.append(" ".join(current_chunk))
-            current_chunk = [sentence]
-            current_length = len(sentence.split())
     if current_chunk:
         chunks.append(" ".join(current_chunk))
     return chunks
-# Function to create embeddings and store them in FAISS
 def create_faiss_index(chunks):
-    model = SentenceTransformer("all-MiniLM-L6-v2")
-    embeddings = model.encode(chunks)
-    dimension = embeddings.shape[1]
-    index = faiss.IndexFlatL2(dimension)
-    index.add(embeddings)
-    return index, embeddings
-# Function to query FAISS
-def query_faiss(index, query, chunks, model):
-    query_vector = model.encode([query])
-    distances, indices = index.search(query_vector, k=3)
-    results = [chunks[i] for i in indices[0]]
-    return results
 # Main Streamlit App
 def main():
@@ -89,10 +82,9 @@ def main():
     if 'document_text' in st.session_state and "faiss_index" not in st.session_state:
         st.write("Processing document...")
         chunks = chunk_text(st.session_state['document_text'])
-        index, embeddings = create_faiss_index(chunks)
-        st.session_state['faiss_index'] = index
         st.session_state['chunks'] = chunks
-        st.session_state['model'] = SentenceTransformer("all-MiniLM-L6-v2")
         st.success(f"Document processed into {len(chunks)} chunks!")
     # Query the Document
@@ -100,4 +92,18 @@ def main():
         st.header("Ask Questions")
         query = st.text_input("Enter your question here")
         if st.button("Query Document"):
-            results = query_faiss(st.session_state['faiss_index'],

 import os
 import streamlit as st
 import requests
 from groq import Groq
+from langchain.chains import AnalyzeDocumentChain
+from langchain.prompts import PromptTemplate
+from langchain.document_loaders import TextLoader
+from langchain.vectorstores import FAISS
+from langchain.embeddings import HuggingFaceEmbeddings
+from sentence_transformers import SentenceTransformer
 # Initialize Groq client
 client = Groq(api_key=os.getenv("GROQ_API_KEY"))
     os.remove("temp.pdf")
     return text
+# Function to chunk text manually
 def chunk_text(text, chunk_size=300):
+    # Split text by spaces and process into chunks
+    words = text.split()
     chunks = []
     current_chunk = []
+    for word in words:
+        if len(current_chunk) + len(word.split()) <= chunk_size:
+            current_chunk.append(word)
         else:
             chunks.append(" ".join(current_chunk))
+            current_chunk = [word]
     if current_chunk:
         chunks.append(" ".join(current_chunk))
     return chunks
+# Function to create embeddings and store them in FAISS using Langchain
 def create_faiss_index(chunks):
+    # Use SentenceTransformer for embeddings
+    embeddings_model = SentenceTransformer("all-MiniLM-L6-v2")
+    embeddings = HuggingFaceEmbeddings(model_name="all-MiniLM-L6-v2")
+    # Create FAISS vector store
+    doc_search = FAISS.from_texts(chunks, embeddings)
+    return doc_search
+# Function to query FAISS and retrieve relevant document chunks
+def query_faiss(doc_search, query):
+    results = doc_search.similarity_search(query, k=3)
+    return [result.page_content for result in results]
 # Main Streamlit App
 def main():
     if 'document_text' in st.session_state and "faiss_index" not in st.session_state:
         st.write("Processing document...")
         chunks = chunk_text(st.session_state['document_text'])
+        doc_search = create_faiss_index(chunks)
+        st.session_state['faiss_index'] = doc_search
         st.session_state['chunks'] = chunks
         st.success(f"Document processed into {len(chunks)} chunks!")
     # Query the Document
         st.header("Ask Questions")
         query = st.text_input("Enter your question here")
         if st.button("Query Document"):
+            results = query_faiss(st.session_state['faiss_index'], query)
+            st.write("### Results from Document:")
+            for i, result in enumerate(results):
+                st.write(f"**Result {i+1}:** {result}")
+            # Use Groq API for additional insights
+            chat_completion = client.chat.completions.create(
+                messages=[{"role": "user", "content": query}],
+                model="llama-3.3-70b-versatile",
+            )
+            st.write("### Insights from Groq-powered Model:")
+            st.write(chat_completion.choices[0].message.content)
+if __name__ == "__main__":
+    main()