Spaces:

iplotnor
/

hf-api-version-2

Running

App Files Files Community

iplotnor commited on Nov 11, 2025

Commit

2d56832

verified ·

1 Parent(s): ab4918d

Update app.py

Browse files

Files changed (1) hide show

app.py +57 -13

app.py CHANGED Viewed

@@ -133,28 +133,72 @@ class FloorPlanProcessor:
             pdf.page_count = len(pdf_document)
             images = []
-            for page_num in range(len(pdf_document)):
                 page = pdf_document[page_num]
                 image_list = page.get_images(full=True)
-                if not image_list:
-                    pix = page.get_pixmap(matrix=fitz.Matrix(1, 1), alpha=False)
-                    img = Image.open(BytesIO(pix.tobytes("png")))
-                    images.append(img)
-                else:
                     for img_info in image_list:
-                        xref = img_info[0]
-                        base_image = pdf_document.extract_image(xref)
-                        img = Image.open(BytesIO(base_image["image"]))
-                        if img.width > 100 and img.height > 100:
                             images.append(img)
-            pdf.images = images
-            logger.info(f"Extracted {len(images)} images")
             return True
         except Exception as e:
-            logger.error(f"PDF error: {str(e)}")
             pdf.error = str(e)
             return False

             pdf.page_count = len(pdf_document)
             images = []
+            logger.info(f"PDF has {pdf.page_count} pages")
+            # Process only first 5 pages (optimization)
+            pages_to_process = min(5, pdf.page_count)
+            for page_num in range(pages_to_process):
                 page = pdf_document[page_num]
+                logger.info(f"Processing page {page_num + 1}/{pages_to_process}")
+                # Try to extract embedded images first (high quality)
                 image_list = page.get_images(full=True)
+                extracted_from_page = False
+                if image_list:
+                    logger.info(f"  Found {len(image_list)} embedded images")
                     for img_info in image_list:
+                        try:
+                            xref = img_info[0]
+                            base_image = pdf_document.extract_image(xref)
+                            if base_image and "image" in base_image:
+                                img = Image.open(BytesIO(base_image["image"]))
+                                if img.width > 200 and img.height > 200:
+                                    logger.info(f"    ✓ Extracted embedded image: {img.size}")
+                                    images.append(img)
+                                    extracted_from_page = True
+                        except Exception as e:
+                            logger.warning(f"    Could not extract embedded image: {e}")
+                            continue
+                # If no good embedded images, render page at high quality
+                if not extracted_from_page:
+                    try:
+                        # Use higher zoom (2.0) for better quality rendering
+                        pix = page.get_pixmap(matrix=fitz.Matrix(2, 2), alpha=False, dpi=300)
+                        img = Image.open(BytesIO(pix.tobytes("png")))
+                        if img.width > 0 and img.height > 0:
+                            logger.info(f"  ✓ Rendered page as image: {img.size}")
                             images.append(img)
+                    except Exception as e:
+                        logger.warning(f"  Could not render page {page_num + 1}: {e}")
+                        continue
+                # Stop if we have good images from first page
+                if extracted_from_page and len(images) > 0:
+                    logger.info("✓ Got good floor plan from embedded images, stopping search")
+                    break
+            if not images:
+                logger.warning("No images extracted, trying fallback rendering")
+                # Fallback: render first page at maximum quality
+                try:
+                    page = pdf_document[0]
+                    pix = page.get_pixmap(matrix=fitz.Matrix(3, 3), alpha=False)
+                    img = Image.open(BytesIO(pix.tobytes("png")))
+                    images.append(img)
+                    logger.info(f"✓ Fallback: Rendered first page at 3x zoom: {img.size}")
+                except Exception as e:
+                    logger.error(f"Fallback rendering failed: {e}")
+            pdf.images = images[:3]  # Keep max 3 images
+            logger.info(f"✓ Successfully extracted {len(pdf.images)} images from PDF")
             return True
         except Exception as e:
+            logger.error(f"PDF error: {str(e)}", exc_info=True)
             pdf.error = str(e)
             return False