Spaces:

19arjun89
/

AI_Recruiting_Agent

Running

App Files Files Community

19arjun89 commited on 10 days ago

Commit

8bd38c7

verified ·

1 Parent(s): 56f2260

Update app.py

Browse files

Files changed (1) hide show

app.py +144 -2

app.py CHANGED Viewed

@@ -9,6 +9,7 @@ from langchain.prompts import PromptTemplate
 from typing import List, Dict
 import os
 import tempfile
 # Initialize embeddings
 embeddings = HuggingFaceEmbeddings()
@@ -33,6 +34,82 @@ llm = ChatGroq(
     temperature = 0,seed = 42
 )
 def process_candidate_submission(resume_file, job_description: str) -> str:
     # Load and process resume
     if resume_file.name.endswith('.pdf'):
@@ -41,6 +118,7 @@ def process_candidate_submission(resume_file, job_description: str) -> str:
         loader = UnstructuredFileLoader(resume_file.name)
     resume_doc = loader.load()[0]
     # Create proper prompt template
     prompt_template = PromptTemplate(
@@ -65,7 +143,7 @@ def process_candidate_submission(resume_file, job_description: str) -> str:
     )
     response = chain.run({
-        "resume_text": resume_doc.page_content,
         "job_description": job_description
     })
@@ -106,14 +184,23 @@ def store_resumes(resume_files: List[tempfile._TemporaryFileWrapper]) -> str:
             loader = UnstructuredFileLoader(file.name)
         docs = loader.load()
         # Extract filename without extension as resume ID
         resume_id = os.path.splitext(os.path.basename(file.name))[0]
         # Add metadata to each chunk
-        splits = text_splitter.split_documents(docs)
         for split in splits:
             split.metadata["resume_id"] = resume_id
             split.metadata["source"] = "resume"
         all_docs.extend(splits)
@@ -204,6 +291,49 @@ def self_correct_recommendation(original_recommendation: str, verification_issue
         "source_docs": "\n---\n".join(source_docs)
     })
 def analyze_candidates(job_description: str) -> str:
     # First extract required skills from job description
@@ -407,6 +537,15 @@ def analyze_candidates(job_description: str) -> str:
             else:
                 revision_note = ""
             # Add verification warnings if factuality score < 0.95
             verification_notes = ""
             if culture_verification["factuality_score"] < 0.95 or skills_verification["factuality_score"] < 0.95:
@@ -434,6 +573,9 @@ def analyze_candidates(job_description: str) -> str:
             HIRING RECOMMENDATION:
             {final_recommendation}{revision_note}{verification_notes}
             ----------------------------------------
             """)

 from typing import List, Dict
 import os
 import tempfile
+import re
 # Initialize embeddings
 embeddings = HuggingFaceEmbeddings()
     temperature = 0,seed = 42
 )
+def anonymize_resume_text(text: str):
+    """
+    Heuristic redaction to remove common personal identifiers from resumes
+    (email, phone, URLs, addresses, demographic fields, and likely name header).
+    Returns: (sanitized_text, redaction_notes_list)
+    """
+    redactions = []
+    sanitized = text
+    # Email addresses
+    sanitized2 = re.sub(r'[\w\.-]+@[\w\.-]+\.\w+', '[REDACTED_EMAIL]', sanitized)
+    if sanitized2 != sanitized:
+        redactions.append("Email addresses removed")
+    sanitized = sanitized2
+    # Phone numbers (broad heuristic)
+    sanitized2 = re.sub(r'(\+?\d[\d\-\(\)\s]{7,}\d)', '[REDACTED_PHONE]', sanitized)
+    if sanitized2 != sanitized:
+        redactions.append("Phone numbers removed")
+    sanitized = sanitized2
+    # URLs
+    sanitized2 = re.sub(r'(https?://\S+|www\.\S+)', '[REDACTED_URL]', sanitized)
+    if sanitized2 != sanitized:
+        redactions.append("URLs removed")
+    sanitized = sanitized2
+    # Physical addresses (heuristic)
+    address_patterns = [
+        r'\b\d{1,6}\s+\w+(?:\s+\w+){0,4}\s+(Street|St|Avenue|Ave|Road|Rd|Boulevard|Blvd|Lane|Ln|Drive|Dr|Court|Ct|Way|Parkway|Pkwy)\b\.?',
+        r'\b(Apt|Apartment|Unit|Suite|Ste)\s*#?\s*\w+\b',
+        r'\b\d{5}(?:-\d{4})?\b'  # US ZIP
+    ]
+    for pat in address_patterns:
+        sanitized2 = re.sub(pat, '[REDACTED_ADDRESS]', sanitized, flags=re.IGNORECASE)
+        if sanitized2 != sanitized:
+            redactions.append("Address/location identifiers removed")
+        sanitized = sanitized2
+    # Explicit demographic fields
+    demographic_patterns = [
+        r'\b(gender|sex)\s*:\s*\w+\b',
+        r'\b(age)\s*:\s*\d+\b',
+        r'\b(dob|date of birth)\s*:\s*[\w\s,/-]+\b',
+        r'\b(marital status)\s*:\s*\w+\b',
+        r'\b(nationality)\s*:\s*\w+\b',
+        r'\b(citizenship)\s*:\s*[\w\s,/-]+\b',
+        r'\b(pronouns?)\s*:\s*[\w/]+\b',
+    ]
+    for pat in demographic_patterns:
+        sanitized2 = re.sub(pat, '[REDACTED_DEMOGRAPHIC]', sanitized, flags=re.IGNORECASE)
+        if sanitized2 != sanitized:
+            redactions.append("Explicit demographic fields removed")
+        sanitized = sanitized2
+    # Likely name header masking (first line)
+    lines = sanitized.splitlines()
+    if lines:
+        first_line = lines[0].strip()
+        if re.fullmatch(r"[A-Za-z]+(?:\s+[A-Za-z]+){1,3}", first_line):
+            lines[0] = "[REDACTED_NAME]"
+            sanitized = "\n".join(lines)
+            redactions.append("Likely name header removed")
+    # Cleanup
+    sanitized = re.sub(r'\n{3,}', '\n\n', sanitized).strip()
+    redactions = sorted(set(redactions))
+    return sanitized, redactions
+def join_loaded_docs_text(docs):
+    """Combine a list of LangChain Documents into a single text blob."""
+    return "\n".join([d.page_content for d in docs if getattr(d, "page_content", None)])
 def process_candidate_submission(resume_file, job_description: str) -> str:
     # Load and process resume
     if resume_file.name.endswith('.pdf'):
         loader = UnstructuredFileLoader(resume_file.name)
     resume_doc = loader.load()[0]
+    sanitized_resume_text, _ = anonymize_resume_text(resume_doc.page_content)
     # Create proper prompt template
     prompt_template = PromptTemplate(
     )
     response = chain.run({
+        "resume_text": sanitized_resume_text,
         "job_description": job_description
     })
             loader = UnstructuredFileLoader(file.name)
         docs = loader.load()
+        # Combine + anonymize before splitting
+        raw_text = join_loaded_docs_text(docs)
+        sanitized_text, redactions = anonymize_resume_text(raw_text)
+        # Create a single Document to split
+        from langchain.schema import Document
+        base_doc = Document(page_content=sanitized_text, metadata={})
         # Extract filename without extension as resume ID
         resume_id = os.path.splitext(os.path.basename(file.name))[0]
         # Add metadata to each chunk
+        splits = text_splitter.split_documents([base_doc])
         for split in splits:
             split.metadata["resume_id"] = resume_id
             split.metadata["source"] = "resume"
+            split.metadata["sanitized"] = True
         all_docs.extend(splits)
         "source_docs": "\n---\n".join(source_docs)
     })
+bias_audit_prompt = PromptTemplate(
+    input_variables=["skills_analysis", "culture_analysis", "final_recommendation", "job_desc", "culture_docs"],
+    template="""Review the following candidate evaluation for potential bias:
+SKILLS ANALYSIS:
+{skills_analysis}
+CULTURE ANALYSIS:
+{culture_analysis}
+FINAL RECOMMENDATION:
+{final_recommendation}
+REFERENCE MATERIALS (source of truth):
+Job Description:
+{job_desc}
+Culture Documents:
+{culture_docs}
+Check specifically for:
+- Over-reliance on education pedigree or past employers over actual skills
+- Penalizing nontraditional career paths
+- Use of subjective or exclusionary language in cultural fit
+- Reasoning not supported by job description or culture documents
+Output format (exactly):
+BIAS AUDIT RESULT:
+- Bias Indicators: [List any concerns or 'None Detected']
+- Transparency Note: [Short note for recruiter if concerns exist]
+"""
+)
+def run_bias_audit(skills_analysis, culture_analysis, final_recommendation, job_desc, culture_docs):
+    chain = LLMChain(llm=llm, prompt=bias_audit_prompt)
+    return chain.run({
+        "skills_analysis": skills_analysis,
+        "culture_analysis": culture_analysis,
+        "final_recommendation": final_recommendation,
+        "job_desc": job_desc,
+        "culture_docs": culture_docs
+    })
 def analyze_candidates(job_description: str) -> str:
     # First extract required skills from job description
             else:
                 revision_note = ""
+            # Bias audit (triangulates across skills, culture, and final recommendation)
+            bias_audit = run_bias_audit(
+                skills_analysis=skills_fit,
+                culture_analysis=culture_fit,
+                final_recommendation=final_recommendation,
+                job_desc=job_description,
+                culture_docs=culture_context
+            )
             # Add verification warnings if factuality score < 0.95
             verification_notes = ""
             if culture_verification["factuality_score"] < 0.95 or skills_verification["factuality_score"] < 0.95:
             HIRING RECOMMENDATION:
             {final_recommendation}{revision_note}{verification_notes}
+            BIAS AUDIT:
+            {bias_audit}
             ----------------------------------------
             """)