presidio-de-identify

Sleeping

App Files Files Community

awacke1 commited on Apr 15

Commit

7124f43

verified ·

1 Parent(s): b90cc86

Update app.py

Browse files

Files changed (1) hide show

app.py +17 -35

app.py CHANGED Viewed

@@ -24,20 +24,15 @@ def get_timestamp_prefix() -> str:
 def nlp_engine_and_registry(model_family: str, model_path: str) -> tuple:
     """🤖 Sparks NLP models with a wink!"""
     registry = RecognizerRegistry()
     if model_family.lower() == "flair":
         from flair.models import SequenceTagger
         tagger = SequenceTagger.load(model_path)
-        registry.load_predefined_recognizers()
-        recognizer = PatternRecognizer(supported_entity="CUSTOM", supported_language="en")
-        registry.add_recognizer(recognizer)
         logger.info(f"Flair model loaded: {model_path}")
         return tagger, registry
     elif model_family.lower() == "huggingface":
         from transformers import pipeline
         nlp = pipeline("ner", model=model_path, tokenizer=model_path)
-        registry.load_predefined_recognizers()
-        recognizer = PatternRecognizer(supported_entity="CUSTOM", supported_language="en")
-        registry.add_recognizer(recognizer)
         logger.info(f"HuggingFace model loaded: {model_path}")
         return nlp, registry
     raise ValueError(f"Model family {model_family} unsupported")
@@ -84,44 +79,31 @@ def save_pdf(pdf_input) -> str:
         logger.error(f"Upload rejected: {pdf_input.name} exceeds 200MB")
         st.error("PDF exceeds 200MB limit")
         raise ValueError("PDF too big")
-    try:
-        with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf", dir="/tmp") as tmp:
-            tmp.write(pdf_input.read())
-            logger.info(f"Uploaded PDF to {tmp.name}, size: {pdf_input.size} bytes")
-            return tmp.name
-    except Exception as e:
-        logger.error(f"Upload failed: {str(e)}")
-        st.error(f"Upload error: {str(e)}")
-        raise
 # Feature Spotlight: 📄 PDF Wizardry Unleashed!
 # Uploads zip through, PHI vanishes, and out pops a safe PDF with timestamp pizzazz! ✨
 def read_pdf(pdf_path: str) -> str:
     """📖 Gobbles PDF text like candy!"""
-    try:
-        reader = PdfReader(pdf_path)
-        text = "".join(page.extract_text() or "" + "\n" for page in reader.pages)
-        logger.info(f"Extracted {len(text)} chars from {pdf_path}")
-        return text
-    except Exception as e:
-        logger.error(f"Read failed: {str(e)}")
-        raise
 def create_pdf(text: str, input_path: str, output_filename: str) -> str:
     """🖨️ Spins a new PDF with PHI-proof charm!"""
-    try:
-        reader = PdfReader(input_path)
-        writer = PdfWriter()
-        for page in reader.pages:
-            writer.add_page(page)
-        with open(output_filename, "wb") as f:
-            writer.write(f)
-        logger.info(f"Created PDF: {output_filename}")
-        return output_filename
-    except Exception as e:
-        logger.error(f"Create failed: {str(e)}")
-        raise
 # Sidebar
 st.sidebar.header("PHI De-identification with Presidio")

 def nlp_engine_and_registry(model_family: str, model_path: str) -> tuple:
     """🤖 Sparks NLP models with a wink!"""
     registry = RecognizerRegistry()
+    registry.load_predefined_recognizers()
     if model_family.lower() == "flair":
         from flair.models import SequenceTagger
         tagger = SequenceTagger.load(model_path)
         logger.info(f"Flair model loaded: {model_path}")
         return tagger, registry
     elif model_family.lower() == "huggingface":
         from transformers import pipeline
         nlp = pipeline("ner", model=model_path, tokenizer=model_path)
         logger.info(f"HuggingFace model loaded: {model_path}")
         return nlp, registry
     raise ValueError(f"Model family {model_family} unsupported")
         logger.error(f"Upload rejected: {pdf_input.name} exceeds 200MB")
         st.error("PDF exceeds 200MB limit")
         raise ValueError("PDF too big")
+    with tempfile.NamedTemporaryFile(delete=False, suffix=".pdf", dir="/tmp") as tmp:
+        tmp.write(pdf_input.read())
+        logger.info(f"Uploaded PDF to {tmp.name}, size: {pdf_input.size} bytes")
+        return tmp.name
 # Feature Spotlight: 📄 PDF Wizardry Unleashed!
 # Uploads zip through, PHI vanishes, and out pops a safe PDF with timestamp pizzazz! ✨
 def read_pdf(pdf_path: str) -> str:
     """📖 Gobbles PDF text like candy!"""
+    reader = PdfReader(pdf_path)
+    text = "".join(page.extract_text() or "" + "\n" for page in reader.pages)
+    logger.info(f"Extracted {len(text)} chars from {pdf_path}")
+    return text
 def create_pdf(text: str, input_path: str, output_filename: str) -> str:
     """🖨️ Spins a new PDF with PHI-proof charm!"""
+    reader = PdfReader(input_path)
+    writer = PdfWriter()
+    for page in reader.pages:
+        writer.add_page(page)
+    with open(output_filename, "wb") as f:
+        writer.write(f)
+    logger.info(f"Created PDF: {output_filename}")
+    return output_filename
 # Sidebar
 st.sidebar.header("PHI De-identification with Presidio")