Spaces:

SuriRaja
/

usecase2

Sleeping

App Files Files Community

SuriRaja commited on Nov 12, 2024

Commit

2d38d1d

verified ·

1 Parent(s): c91c330

Update app.py

Browse files

Files changed (1) hide show

app.py +13 -14

app.py CHANGED Viewed

@@ -21,7 +21,7 @@ def load_and_compare_documents(file1, file2):
     # Perform OCR-based comparison across all pages
     ocr_differences, marked_images_1, marked_images_2 = perform_ocr_and_compare(file1_content, file2_content)
-    # Generate a PDF with side-by-side comparisons and observation tables
     pdf_buffer = create_pdf_with_side_by_side(marked_images_1, marked_images_2, ocr_differences)
     # Compile an overall summary of differences
@@ -76,11 +76,11 @@ def perform_ocr_and_compare(content1, content2):
             for i, change in enumerate(diff):
                 if change.startswith("+ "):
-                    page_diffs.append(f"Added '{change[2:]}' at position {i} on page {page_num}")
                 elif change.startswith("- "):
-                    page_diffs.append(f"Deleted '{change[2:]}' at position {i} on page {page_num}")
                 elif change.startswith("? "):
-                    page_diffs.append(f"Modified '{change[2:]}' at position {i} on page {page_num}")
             ocr_differences.append({"page": page_num, "differences": page_diffs})
@@ -91,7 +91,6 @@ def perform_ocr_and_compare(content1, content2):
                     flattened_bbox = [coord for point in bbox for coord in point]
                     draw1.rectangle([flattened_bbox[0], flattened_bbox[1], flattened_bbox[2], flattened_bbox[3]], outline="blue", width=2)
                     draw2.rectangle([flattened_bbox[0], flattened_bbox[1], flattened_bbox[2], flattened_bbox[3]], outline="blue", width=2)
-                    diff_index += 1
             marked_images_1[page_num] = marked_img1
             marked_images_2[page_num] = marked_img2
@@ -137,12 +136,12 @@ def create_pdf_with_side_by_side(marked_images_1, marked_images_2, ocr_differenc
             for ocr_diff in ocr_differences:
                 if ocr_diff["page"] == page_num:
                     for diff in ocr_diff["differences"]:
-                        if "Added" in diff:
-                            data["Additions"].append(diff)
-                        elif "Deleted" in diff:
-                            data["Deletions"].append(diff)
-                        elif "Modified" in diff:
-                            data["Modifications"].append(diff)
             # Convert data to DataFrame for formatting
             df = pd.DataFrame.from_dict(data, orient="index").transpose()
@@ -164,9 +163,9 @@ def create_pdf_with_side_by_side(marked_images_1, marked_images_2, ocr_differenc
     return pdf_buffer
 def generate_overall_summary(ocr_differences):
-    total_additions = sum(len(diff["differences"]) for diff in ocr_differences if any("Added" in d for d in diff["differences"]))
-    total_deletions = sum(len(diff["differences"]) for diff in ocr_differences if any("Deleted" in d for d in diff["differences"]))
-    total_modifications = sum(len(diff["differences"]) for diff in ocr_differences if any("Modified" in d for d in diff["differences"]))
     overall_summary = {
         "total_additions": total_additions,

     # Perform OCR-based comparison across all pages
     ocr_differences, marked_images_1, marked_images_2 = perform_ocr_and_compare(file1_content, file2_content)
+    # Generate a PDF with side-by-side comparisons and detailed observation tables
     pdf_buffer = create_pdf_with_side_by_side(marked_images_1, marked_images_2, ocr_differences)
     # Compile an overall summary of differences
             for i, change in enumerate(diff):
                 if change.startswith("+ "):
+                    page_diffs.append({"type": "Added", "value": change[2:], "index": i})
                 elif change.startswith("- "):
+                    page_diffs.append({"type": "Deleted", "value": change[2:], "index": i})
                 elif change.startswith("? "):
+                    page_diffs.append({"type": "Modified", "value": change[2:], "index": i})
             ocr_differences.append({"page": page_num, "differences": page_diffs})
                     flattened_bbox = [coord for point in bbox for coord in point]
                     draw1.rectangle([flattened_bbox[0], flattened_bbox[1], flattened_bbox[2], flattened_bbox[3]], outline="blue", width=2)
                     draw2.rectangle([flattened_bbox[0], flattened_bbox[1], flattened_bbox[2], flattened_bbox[3]], outline="blue", width=2)
             marked_images_1[page_num] = marked_img1
             marked_images_2[page_num] = marked_img2
             for ocr_diff in ocr_differences:
                 if ocr_diff["page"] == page_num:
                     for diff in ocr_diff["differences"]:
+                        if diff["type"] == "Added":
+                            data["Additions"].append(f"{diff['value']} (Index: {diff['index']})")
+                        elif diff["type"] == "Deleted":
+                            data["Deletions"].append(f"{diff['value']} (Index: {diff['index']})")
+                        elif diff["type"] == "Modified":
+                            data["Modifications"].append(f"{diff['value']} (Index: {diff['index']})")
             # Convert data to DataFrame for formatting
             df = pd.DataFrame.from_dict(data, orient="index").transpose()
     return pdf_buffer
 def generate_overall_summary(ocr_differences):
+    total_additions = sum(len([d for d in diff["differences"] if d["type"] == "Added"]) for diff in ocr_differences)
+    total_deletions = sum(len([d for d in diff["differences"] if d["type"] == "Deleted"]) for diff in ocr_differences)
+    total_modifications = sum(len([d for d in diff["differences"] if d["type"] == "Modified"]) for diff in ocr_differences)
     overall_summary = {
         "total_additions": total_additions,