Spaces:

Penality
/

pdf-something

Build error

Penality commited on Feb 26, 2025

Commit

2646d8d

verified ·

1 Parent(s): 7f8ac14

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -15,6 +15,7 @@ from flask import jsonify
 load_dotenv()
 API_URL_EMBEDDINGS = f"https://e4e5-196-96-202-255.ngrok-free.app/embeddings"
 # FAISS index setup
 DIM = 768  # Adjust based on the embedding model
@@ -72,6 +73,10 @@ def store_document_data(PDF_FILE):
 def retrieve_document(query):
     print(f"Retrieving document based on:\n{query}")
     # Generate query embedding
     query_embedding = embedding_model.encode([query]).astype(np.float32)
@@ -95,7 +100,7 @@ def clean_text(text):
     print("cleaning")
     text = unicodedata.normalize("NFKC", text)  # Normalize Unicode characters
     text = re.sub(r'\s+', ' ', text).strip()  # Remove extra spaces and newlines
-    text = re.sub(r'[^a-zA-Z0-9.,!?;:\'\"()\-]', ' ', text)  # Keep basic punctuation
     text = re.sub(r'(?i)(page\s*\d+)', '', text)  # Remove page numbers
     return text

 load_dotenv()
 API_URL_EMBEDDINGS = f"https://e4e5-196-96-202-255.ngrok-free.app/embeddings"
+API_URL_METADATA = f"https://e4e5-196-96-202-255.ngrok-free.app/metadata"
 # FAISS index setup
 DIM = 768  # Adjust based on the embedding model
 def retrieve_document(query):
     print(f"Retrieving document based on:\n{query}")
+    embeddings_file = response.get(API_URL_EMBEDDINGS)
+    metadata_file = response.get(API_URL_METADATA)
+    print(embeddings_file, metadata_file)
     # Generate query embedding
     query_embedding = embedding_model.encode([query]).astype(np.float32)
     print("cleaning")
     text = unicodedata.normalize("NFKC", text)  # Normalize Unicode characters
     text = re.sub(r'\s+', ' ', text).strip()  # Remove extra spaces and newlines
+    text = re.sub(r'[^a-zA-Z0-9.,!?;:\\"()\-]', ' ', text)  # Keep basic punctuation
     text = re.sub(r'(?i)(page\s*\d+)', '', text)  # Remove page numbers
     return text