Spaces:

NHZ
/

First_Aid_Kit

Sleeping

NHZ commited on Jan 4, 2025

Commit

3e73409

verified ·

1 Parent(s): 4f32679

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -5,7 +5,7 @@ import faiss
 from PyPDF2 import PdfReader
 from sentence_transformers import SentenceTransformer
 from transformers import AutoTokenizer, AutoModel
-import torch  # Import torch for tensor operations
 from langchain.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
@@ -63,7 +63,8 @@ def extract_pdf_content(drive_url):
 # Function to create a FAISS vector store from the document content
 def create_vector_store(text):
-    sentences = text.split(". ")
     # Use Hugging Face transformer model for embeddings
     model_name = "sentence-transformers/all-MiniLM-L6-v2"
@@ -72,11 +73,14 @@ def create_vector_store(text):
     def embed(sentence):
         tokens = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)
-        with torch.no_grad():  # Use torch for no_grad context
             embeddings = model(**tokens).last_hidden_state.mean(dim=1).numpy()
         return embeddings
     embeddings = [embed(sentence)[0] for sentence in sentences]
     vector_store = FAISS.from_embeddings(sentences, embeddings)
     return vector_store, sentences

 from PyPDF2 import PdfReader
 from sentence_transformers import SentenceTransformer
 from transformers import AutoTokenizer, AutoModel
+import torch
 from langchain.vectorstores import FAISS
 from langchain.embeddings import HuggingFaceEmbeddings
 from langchain.chains import RetrievalQA
 # Function to create a FAISS vector store from the document content
 def create_vector_store(text):
+    # Split the text into sentences and clean it
+    sentences = [sentence.strip() for sentence in text.split(". ") if sentence.strip()]
     # Use Hugging Face transformer model for embeddings
     model_name = "sentence-transformers/all-MiniLM-L6-v2"
     def embed(sentence):
         tokens = tokenizer(sentence, return_tensors="pt", truncation=True, padding=True)
+        with torch.no_grad():
             embeddings = model(**tokens).last_hidden_state.mean(dim=1).numpy()
         return embeddings
+    # Generate embeddings for cleaned sentences
     embeddings = [embed(sentence)[0] for sentence in sentences]
+    # Create a FAISS vector store with valid embeddings
     vector_store = FAISS.from_embeddings(sentences, embeddings)
     return vector_store, sentences