Spaces:

Mangesh223
/

DefendModel

Sleeping

App Files Files Community

Mangesh223 commited on Mar 27, 2025

Commit

94d6cfd

verified ·

1 Parent(s): 98d0df5

Update app.py

Browse files

Files changed (1) hide show

app.py +30 -10

app.py CHANGED Viewed

@@ -1,27 +1,47 @@
 import gradio as gr
 import PyPDF2
 import io
 import json
-from dotenv import load_dotenv
 from huggingface_hub import login
 # --- Configuration --- #
 load_dotenv()
 login(token=os.getenv("HF_TOKEN"))
 def extract_text_from_pdf(pdf_file):
-    """Improved PDF text extraction with error handling"""
     try:
-        if isinstance(pdf_file, bytes):
-            file_bytes = pdf_file
-        else:
-            raise ValueError("Invalid file format")
         pdf_reader = PyPDF2.PdfReader(io.BytesIO(file_bytes))
-        text = "\n".join(page.extract_text() for page in pdf_reader.pages if page.extract_text())
-        return text[:15000]  # Increased character limit
     except Exception as e:
-        raise Exception(f"PDF processing error: {str(e)}")
 def generate_ai_prompt(resume_text, job_desc=None):
     """Generates smart analysis prompt for AI"""

 import gradio as gr
 import PyPDF2
 import io
+import re
 import json
+import os  # Added missing import
+import gc
 from huggingface_hub import login
+from dotenv import load_dotenv
 # --- Configuration --- #
 load_dotenv()
 login(token=os.getenv("HF_TOKEN"))
 def extract_text_from_pdf(pdf_file):
+    """Extract text from PDF with detailed error handling"""
+    if pdf_file is None:
+        raise ValueError("No PDF file uploaded")
+    # Handle both file path and bytes input
+    if isinstance(pdf_file, str):
+        with open(pdf_file, 'rb') as f:
+            file_bytes = f.read()
+    elif isinstance(pdf_file, bytes):
+        file_bytes = pdf_file
+    else:
+        raise TypeError(f"Expected file path or bytes, got {type(pdf_file)}")
     try:
         pdf_reader = PyPDF2.PdfReader(io.BytesIO(file_bytes))
+        if len(pdf_reader.pages) == 0:
+            raise ValueError("PDF has no pages")
+        text = "\n".join(page.extract_text() for page in pdf_reader.pages)
+        if text is None or text.strip() == "":
+            raise ValueError("No text extracted from PDF (possibly image-based or empty)")
+        return text[:10000]  # Limit to first 10,000 characters
+    except PyPDF2.errors.PdfReadError as e:
+        raise Exception(f"PDF read error: {str(e)}")
     except Exception as e:
+        raise Exception(f"Extraction error: {str(e)}")
+    finally:
+        gc.collect()
 def generate_ai_prompt(resume_text, job_desc=None):
     """Generates smart analysis prompt for AI"""