Spaces:

desolo-2918
/

Insurance-Policy-Analyst

Sleeping

desolo-2918 commited on Mar 1

Commit

702e91c

verified ·

1 Parent(s): 13cf9be

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -62,7 +62,10 @@ def initialize_policy_db():
             reader = PyPDF2.PdfReader(f)
             policy_text = "".join([page.extract_text() for page in reader.pages])
-        policy_chunks = policy_text.split("\n\n")
         ids = [f"chunk_{i}" for i in range(len(policy_chunks))]
         embeddings = embedder.encode(policy_chunks).tolist()
         collection.add(documents=policy_chunks, embeddings=embeddings, ids=ids)

             reader = PyPDF2.PdfReader(f)
             policy_text = "".join([page.extract_text() for page in reader.pages])
+        # There was an issue where the entire policy pdf was being passed in, potentially due to incorrect scraping of n/n/ so switched to characters
+        chunk_size = 1000
+        policy_chunks = [policy_text[i:i + chunk_size] for i in range(0, len(policy_text), chunk_size)]
         ids = [f"chunk_{i}" for i in range(len(policy_chunks))]
         embeddings = embedder.encode(policy_chunks).tolist()
         collection.add(documents=policy_chunks, embeddings=embeddings, ids=ids)