Spaces:

RenAzum
/

documentAnalyzer

Sleeping

App Files Files Community

RenAzum commited on Nov 13, 2024

Commit

7ec8f89

1 Parent(s): 8c2b15e

upload file fix

Browse files

Files changed (1) hide show

app.py +33 -19

app.py CHANGED Viewed

@@ -3,28 +3,38 @@ import fitz  # PyMuPDF
 import docx
 from difflib import HtmlDiff, SequenceMatcher
 import os
-import re
-# Functions to extract text and metadata
-def extract_text_pdf(file):
-    doc = fitz.open(file)
     text = ""
     for page in doc:
         text += page.get_text()
     return text
-def extract_text_word(file):
-    doc = docx.Document(file)
     text = "\n".join([para.text for para in doc.paragraphs])
     return text
-def extract_metadata_pdf(file):
-    doc = fitz.open(file)
     metadata = doc.metadata
     return metadata
-def extract_metadata_word(file):
-    doc = docx.Document(file)
     core_props = doc.core_properties
     metadata = {
         "author": core_props.author,
@@ -33,7 +43,7 @@ def extract_metadata_word(file):
     }
     return metadata
-# Function to compare text using difflib and return highlighted HTML differences
 def compare_texts(text1, text2):
     differ = HtmlDiff()
     return differ.make_file(text1.splitlines(), text2.splitlines(), context=True, numlines=2)
@@ -54,6 +64,10 @@ edited_file = st.file_uploader("Upload Edited Document", type=["pdf", "docx"])
 # Process if both files are uploaded
 if original_file and edited_file:
     # Identify file types
     original_ext = os.path.splitext(original_file.name)[1]
     edited_ext = os.path.splitext(edited_file.name)[1]
@@ -64,15 +78,15 @@ if original_file and edited_file:
     else:
         # Extract text and metadata
         if original_ext == ".pdf":
-            original_text = extract_text_pdf(original_file)
-            edited_text = extract_text_pdf(edited_file)
-            original_metadata = extract_metadata_pdf(original_file)
-            edited_metadata = extract_metadata_pdf(edited_file)
         else:
-            original_text = extract_text_word(original_file)
-            edited_text = extract_text_word(edited_file)
-            original_metadata = extract_metadata_word(original_file)
-            edited_metadata = extract_metadata_word(edited_file)
         # Display Metadata
         st.subheader("Metadata Comparison")

 import docx
 from difflib import HtmlDiff, SequenceMatcher
 import os
+# Directory to save uploaded files
+UPLOAD_DIR = "uploaded_files"
+if not os.path.exists(UPLOAD_DIR):
+    os.makedirs(UPLOAD_DIR)
+# Functions to save, extract text, and metadata
+def save_uploaded_file(uploaded_file):
+    file_path = os.path.join(UPLOAD_DIR, uploaded_file.name)
+    with open(file_path, "wb") as f:
+        f.write(uploaded_file.getbuffer())
+    return file_path
+def extract_text_pdf(file_path):
+    doc = fitz.open(file_path)
     text = ""
     for page in doc:
         text += page.get_text()
     return text
+def extract_text_word(file_path):
+    doc = docx.Document(file_path)
     text = "\n".join([para.text for para in doc.paragraphs])
     return text
+def extract_metadata_pdf(file_path):
+    doc = fitz.open(file_path)
     metadata = doc.metadata
     return metadata
+def extract_metadata_word(file_path):
+    doc = docx.Document(file_path)
     core_props = doc.core_properties
     metadata = {
         "author": core_props.author,
     }
     return metadata
+# Function to compare text and return highlighted HTML differences
 def compare_texts(text1, text2):
     differ = HtmlDiff()
     return differ.make_file(text1.splitlines(), text2.splitlines(), context=True, numlines=2)
 # Process if both files are uploaded
 if original_file and edited_file:
+    # Save uploaded files
+    original_file_path = save_uploaded_file(original_file)
+    edited_file_path = save_uploaded_file(edited_file)
     # Identify file types
     original_ext = os.path.splitext(original_file.name)[1]
     edited_ext = os.path.splitext(edited_file.name)[1]
     else:
         # Extract text and metadata
         if original_ext == ".pdf":
+            original_text = extract_text_pdf(original_file_path)
+            edited_text = extract_text_pdf(edited_file_path)
+            original_metadata = extract_metadata_pdf(original_file_path)
+            edited_metadata = extract_metadata_pdf(edited_file_path)
         else:
+            original_text = extract_text_word(original_file_path)
+            edited_text = extract_text_word(edited_file_path)
+            original_metadata = extract_metadata_word(original_file_path)
+            edited_metadata = extract_metadata_word(edited_file_path)
         # Display Metadata
         st.subheader("Metadata Comparison")