Spaces:

Writo
/

EstateSphere

Sleeping

Writo commited on Jan 6, 2024

Commit

4da0d83

1 Parent(s): d680019

Update app.py

Files changed (1) hide show

app.py CHANGED Viewed

@@ -10,8 +10,21 @@ import time
 import logging
 import pdfplumber
 import os
 import docx  # Importing docx for Word document processing
 def process_pdf(pdf):
     start_time = time.time()
     text = ""
@@ -66,7 +79,8 @@ def read_documents_from_directory(directory):
     return combined_text
-train_directory = r'C:\Users\writa\Downloads\Crypto'
 def main():
     load_dotenv()
@@ -74,7 +88,17 @@ def main():
     st.header("🏢 EstateSphere")
     # Ensure train_directory is accessible in Hugging Face Space
-    text = read_documents_from_directory(train_directory)
     # Processing text and setting up the AI model
     char_text_splitter = CharacterTextSplitter(separator="\n", chunk_size=1000,

 import logging
 import pdfplumber
 import os
+import requests
+from bs4 import BeautifulSoup
 import docx  # Importing docx for Word document processing
+def fetch_and_process_pdf(url):
+    response = requests.get(url)
+    if response.status_code == 200:
+        pdf_file = io.BytesIO(response.content)
+        text = process_pdf(pdf_file)
+        return text
+    else:
+        logging.error(f"Failed to fetch PDF from {url}. Status Code: {response.status_code}")
+        return ""
 def process_pdf(pdf):
     start_time = time.time()
     text = ""
     return combined_text
+#train_directory = r'C:\Users\writa\Downloads\Crypto'
+dataset_url = "https://huggingface.co/datasets/Writo/realestate_data/tree/main"
 def main():
     load_dotenv()
     st.header("🏢 EstateSphere")
     # Ensure train_directory is accessible in Hugging Face Space
+    #text = read_documents_from_directory(train_directory)
+    def get_pdf_links_from_dataset(url):
+    response = requests.get(url)
+    soup = BeautifulSoup(response.text, 'html.parser')
+    pdf_links = [link.get('href') for link in soup.find_all('a') if link.get('href').endswith('.pdf')]
+    return pdf_links
+dataset_url = 'https://huggingface.co/datasets/Writo/realestate_data/tree/main'
+pdf_links = get_pdf_links_from_dataset(dataset_url)
+print(pdf_links)
     # Processing text and setting up the AI model
     char_text_splitter = CharacterTextSplitter(separator="\n", chunk_size=1000,