Spaces:

chrisjcc
/

fraud_model_explainability_assistant

Runtime error

App Files Files Community

chrisjcc commited on Jan 12

Commit

b8c7ea0

verified ·

1 Parent(s): ad75af3

Debugging PDF Upload Error (#3)

Browse files

- Debugging PDF uploader error (7643ae067093b0094d7c74ad4d40dc5ba43a750e)

Files changed (1) hide show

app.py +45 -54

app.py CHANGED Viewed

@@ -406,19 +406,25 @@ def query_agent(question: str, files: Optional[List[FilePayload]] = None) -> str
         agent = create_enhanced_agent()
         if files:
-            # Try to use official types if available
             try:
-                from strands.types.content import ImageContent, DocumentContent
-                from strands.types.media import ImageSource, DocumentSource
-                message_content = [{"text": question}]
                 image_formats = {'png', 'jpeg', 'gif', 'webp', 'jpg'}
                 for file_obj in files:
                     try:
-                        # Remove header if present
                         base64_data = file_obj.data
                         if "," in base64_data:
                             base64_data = base64_data.split(",")[1]
@@ -427,64 +433,49 @@ def query_agent(question: str, files: Optional[List[FilePayload]] = None) -> str
                         fmt = file_obj.format.lower()
                         if fmt in image_formats:
-                            # Handle Image
                             image_block = ImageContent(
                                 format=fmt if fmt != 'jpg' else 'jpeg', # Normalize jpg
                                 source=ImageSource(bytes=file_bytes)
                             )
-                            message_content.append({"image": image_block})
                         else:
-                            # Handle Document
-                            doc_block = DocumentContent(
-                                format=fmt,
-                                name=file_obj.name,
-                                source=DocumentSource(bytes=file_bytes)
-                            )
-                            message_content.append({"document": doc_block})
                     except Exception as err:
                         logger.error(f"Failed to process file {file_obj.name}: {err}")
-            except ImportError:
-                # Fallback for older versions or missing imports
-                logger.info("Using legacy/dict construction (strands.types not found)")
-                message_content = [{"text": question}]
-                image_formats = {'png', 'jpeg', 'gif', 'webp', 'jpg'}
-                for file_obj in files:
-                    try:
-                        base64_data = file_obj.data
-                        if "," in base64_data:
-                            base64_data = base64_data.split(",")[1]
-                        file_bytes = base64.b64decode(base64_data)
-                        fmt = file_obj.format.lower()
-                        if fmt in image_formats:
-                             message_content.append({
-                                "image": {
-                                    "format": fmt if fmt != 'jpg' else 'jpeg',
-                                    "source": {"bytes": file_bytes},
-                                },
-                            })
-                        else:
-                             message_content.append({
-                                "document": {
-                                    "format": fmt,
-                                    "name": file_obj.name,
-                                    "source": {"bytes": file_bytes},
-                                },
-                            })
-                    except Exception as err:
-                        logger.error(f"Failed to process file: {err}")
-            # Call agent with list payload
-            result = agent(message_content)
-        else:
-            # Standard text-only call
-            result = agent(question)
         logger.info("Query completed successfully")
         return str(result)
@@ -1088,4 +1079,4 @@ if __name__ == "__main__":
         host="0.0.0.0",
         port=7860,
         reload=False
-    )

         agent = create_enhanced_agent()
+        # Base text content
+        combined_text = question
+        # List to hold image blocks
+        image_blocks = []
         if files:
             try:
+                # Import necessary types and libraries inside logic to avoid top-level failures if missing
+                import io
+                import pypdf
+                from strands.types.content import ImageContent
+                from strands.types.media import ImageSource
                 image_formats = {'png', 'jpeg', 'gif', 'webp', 'jpg'}
                 for file_obj in files:
                     try:
+                        # Decode base64
                         base64_data = file_obj.data
                         if "," in base64_data:
                             base64_data = base64_data.split(",")[1]
                         fmt = file_obj.format.lower()
                         if fmt in image_formats:
+                            # Handle Image - Keep as rich content
                             image_block = ImageContent(
                                 format=fmt if fmt != 'jpg' else 'jpeg', # Normalize jpg
                                 source=ImageSource(bytes=file_bytes)
                             )
+                            image_blocks.append({"image": image_block})
                         else:
+                            # Handle Document - Extract text and append to question
+                            extracted_text = ""
+                            if fmt == 'pdf':
+                                try:
+                                    pdf_reader = pypdf.PdfReader(io.BytesIO(file_bytes))
+                                    for page in pdf_reader.pages:
+                                        extracted_text += page.extract_text() + "\n"
+                                except Exception as pdf_err:
+                                    logger.error(f"PDF extraction failed for {file_obj.name}: {pdf_err}")
+                                    extracted_text = f"[Error extracting PDF text for {file_obj.name}]"
+                            else:
+                                # Try decoding as plain text (csv, txt, md, html, etc)
+                                try:
+                                    extracted_text = file_bytes.decode('utf-8', errors='replace')
+                                except Exception as dec_err:
+                                     logger.error(f"Text decoding failed for {file_obj.name}: {dec_err}")
+                                     extracted_text = f"[Error decoding text for {file_obj.name}]"
+                            # Append to combined text
+                            combined_text += f"\n\n--- Content from {file_obj.name} ---\n{extracted_text}\n-----------------------------------\n"
                     except Exception as err:
                         logger.error(f"Failed to process file {file_obj.name}: {err}")
+            except ImportError as ie:
+                logger.error(f"Missing dependency for file processing: {ie}")
+                return "Error: Server missing dependencies (pypdf or strands types) for file processing."
+        # Construct final payload
+        message_content = [{"text": combined_text}]
+        # Add any extracted images
+        message_content.extend(image_blocks)
+        # Call agent with list payload
+        result = agent(message_content)
         logger.info("Query completed successfully")
         return str(result)
         host="0.0.0.0",
         port=7860,
         reload=False
+    )