Spaces:

Hitika111
/

Intelliverse

Sleeping

App Files Files Community

Hitika111 commited on Mar 5

Commit

b22629f

verified ·

1 Parent(s): a9ef1b6

Update utils/ai_analyzer.py

Browse files

Files changed (1) hide show

utils/ai_analyzer.py +65 -95

utils/ai_analyzer.py CHANGED Viewed

@@ -13,63 +13,44 @@ if api_key:
     genai.configure(api_key=api_key)
-# ── Regex fallbacks ────────────────────────────────────────────────────────────
-def _regex_extract_email(text: str) -> str:
-    """Extract first email address found in text."""
     match = re.search(r'[\w.\-+]+@[\w.\-]+\.[a-zA-Z]{2,}', text)
     return match.group(0).strip() if match else ""
-def _regex_extract_phone(text: str) -> str:
-    """Extract first phone number found in text."""
-    match = re.search(
-        r'(\+?\d[\d\s\-().]{7,}\d)',
-        text
-    )
     return match.group(0).strip() if match else ""
-def _regex_extract_name(text: str) -> str:
-    """
-    Heuristic: the candidate's name is usually in the first 5 non-empty lines
-    as a short (1-4 word) line that is NOT an email/phone/URL/address.
-    """
-    skip_patterns = re.compile(
-        r'(@|http|www|linkedin|github|curriculum|resume|vitae|cv\b|'
         r'\d{6,}|\+\d|address|email|phone|mobile|tel:)',
         re.IGNORECASE
     )
     lines = [l.strip() for l in text.splitlines() if l.strip()]
     for line in lines[:15]:
         words = line.split()
-        if 1 < len(words) <= 5 and not skip_patterns.search(line):
-            # Looks like a proper name (each word title-cased or all caps)
             if all(w[0].isupper() for w in words if w.isalpha()):
                 return line
     return ""
-def _ensure_fields(result: dict, resume_text: str) -> dict:
-    """
-    If AI returned empty/Unknown name or email, try regex fallback.
-    """
     if not result.get("email"):
         result["email"] = _regex_extract_email(resume_text)
-        if result["email"]:
-            logger.info(f"[Fallback] Email extracted via regex: {result['email']}")
     if not result.get("phone"):
         result["phone"] = _regex_extract_phone(resume_text)
     name = result.get("name", "").strip()
     if not name or name.lower() in ("unknown", "n/a", ""):
-        fallback_name = _regex_extract_name(resume_text)
-        if fallback_name:
-            result["name"] = fallback_name
-            logger.info(f"[Fallback] Name extracted via heuristic: {fallback_name}")
     return result
-# ── Model selection ────────────────────────────────────────────────────────────
 def _get_model():
     preferred = [
@@ -85,17 +66,13 @@ def _get_model():
                 return p
         return available[0] if available else None
     except Exception as e:
-        logger.error(f"Model listing failed: {e}")
         return "models/gemini-1.5-flash"
-# ── Main analyzer ──────────────────────────────────────────────────────────────
-def analyze_resume_with_jd(resume_text: str, job_description: str = None, job_title: str = "") -> dict:
-    """
-    Analyze a resume against a job description using Gemini AI.
-    Returns structured JSON with candidate info, score, and skill analysis.
-    """
     if not api_key:
         logger.warning("No Gemini API key — returning mock data.")
         return _mock_analysis(resume_text)
@@ -104,80 +81,73 @@ def analyze_resume_with_jd(resume_text: str, job_description: str = None, job_ti
     if not model_name:
         return {"error": "No AI models available."}
-    prompt = f"""
-You are an expert resume parser and AI recruiter. Your FIRST priority is to accurately extract contact information from the resume.
-CRITICAL EXTRACTION RULES:
-- "name": Look at the very top of the resume. It is almost always the largest/first text — usually the first 1-4 word line. Do NOT return "Unknown".
-- "email": Scan the ENTIRE resume for any text matching pattern user@domain.com. It is always present near the top. Do NOT return empty string if you see an email anywhere.
-- "phone": Look for any number sequence that looks like a phone number (with country code, dashes, spaces).
-{'Compare the resume against the Job Description to compute a match score.' if job_description else 'Score the resume on overall quality (0-100).'}
-Return ONLY a raw JSON object — no markdown fences, no explanation, no extra text before or after:
-{{
-    "name": "<full name from top of resume — never Unknown if text exists>",
-    "email": "<email found in resume — search carefully, never leave empty if present>",
-    "phone": "<phone number or empty string>",
-    "experience_years": "<e.g. 3 years or Fresher>",
-    "current_role": "<current or most recent job title>",
-    "skills": ["<skill1>", "<skill2>"],
-    "education": "<highest degree and institution>",
-    "score": <integer 0-100>,
-    "reasoning": "<2-3 sentences explaining the score>",
-    "matching_skills": ["<skills in both resume and JD>"],
-    "missing_skills": ["<skills in JD but NOT in resume>"],
-    "verdict": "<Interview | Shortlist | Reject>",
-    "strengths": ["<strength1>", "<strength2>"],
-    "red_flags": ["<concern1>"]
-}}
-{('JOB TITLE: ' + job_title) if job_title else ''}
-{('JOB DESCRIPTION:\n' + job_description[:4000]) if job_description else ''}
-RESUME TEXT (parse this carefully):
----
-{resume_text[:8000]}
----
-"""
     try:
         model = genai.GenerativeModel(model_name)
         response = model.generate_content(prompt)
         raw = response.text.strip()
-        # Strip markdown fences if present
         clean = re.sub(r'```(?:json)?\s*|\s*```', '', raw, flags=re.MULTILINE).strip()
-        # Sometimes the model adds text before the JSON — find the first '{'
         brace_start = clean.find('{')
         brace_end = clean.rfind('}')
         if brace_start != -1 and brace_end != -1:
             clean = clean[brace_start:brace_end + 1]
         result = json.loads(clean)
-        # Always apply regex fallback to catch anything the AI missed
         result = _ensure_fields(result, resume_text)
-        logger.info(f"Analyzed: name={result.get('name')}, email={result.get('email')}, score={result.get('score')}")
         return result
     except json.JSONDecodeError as e:
-        logger.error(f"JSON parse error: {e}\nRaw response: {raw[:600]}")
-        # Return regex-extracted fields so at least name/email work
-        fallback = {
-            "error": "AI response parsing failed.",
-            "score": 0,
             "name": _regex_extract_name(resume_text) or "Unknown",
             "email": _regex_extract_email(resume_text),
             "phone": _regex_extract_phone(resume_text),
             "matching_skills": [], "missing_skills": [],
             "reasoning": "", "verdict": "Reject"
         }
-        return fallback
     except Exception as e:
-        logger.error(f"AI analysis failed: {e}")
         return {
             "error": str(e), "score": 0,
             "name": _regex_extract_name(resume_text) or "Unknown",
@@ -187,20 +157,20 @@ RESUME TEXT (parse this carefully):
             "reasoning": "", "verdict": "Reject"
         }
-def _mock_analysis(resume_text: str) -> dict:
-    """Fallback mock when no API key is set (for local dev/demo)."""
     import random
     score = random.randint(45, 95)
     return {
-        "name": "Demo Candidate",
-        "email": "demo@example.com",
-        "phone": "+91-9876543210",
         "experience_years": "3 years",
         "current_role": "Software Engineer",
         "skills": ["Python", "Flask", "SQL", "REST APIs"],
         "education": "B.Tech Computer Science",
         "score": score,
-        "reasoning": f"Candidate scored {score}/100 based on skills and experience alignment.",
         "matching_skills": ["Python", "Flask"],
         "missing_skills": ["AWS", "Docker"],
         "verdict": "Interview" if score >= 80 else "Shortlist" if score >= 60 else "Reject",

     genai.configure(api_key=api_key)
+# ── Regex fallbacks ─────────────────────────────────────────────────────────
+def _regex_extract_email(text):
     match = re.search(r'[\w.\-+]+@[\w.\-]+\.[a-zA-Z]{2,}', text)
     return match.group(0).strip() if match else ""
+def _regex_extract_phone(text):
+    match = re.search(r'(\+?\d[\d\s\-().]{7,}\d)', text)
     return match.group(0).strip() if match else ""
+def _regex_extract_name(text):
+    skip = re.compile(
+        r'(@|http|www|linkedin|github|curriculum|resume|vitae|\bcv\b|'
         r'\d{6,}|\+\d|address|email|phone|mobile|tel:)',
         re.IGNORECASE
     )
     lines = [l.strip() for l in text.splitlines() if l.strip()]
     for line in lines[:15]:
         words = line.split()
+        if 1 < len(words) <= 5 and not skip.search(line):
             if all(w[0].isupper() for w in words if w.isalpha()):
                 return line
     return ""
+def _ensure_fields(result, resume_text):
     if not result.get("email"):
         result["email"] = _regex_extract_email(resume_text)
     if not result.get("phone"):
         result["phone"] = _regex_extract_phone(resume_text)
     name = result.get("name", "").strip()
     if not name or name.lower() in ("unknown", "n/a", ""):
+        fallback = _regex_extract_name(resume_text)
+        if fallback:
+            result["name"] = fallback
     return result
+# ── Model selection ──────────────────────────────────────────────────────────
 def _get_model():
     preferred = [
                 return p
         return available[0] if available else None
     except Exception as e:
+        logger.error("Model listing failed: %s", e)
         return "models/gemini-1.5-flash"
+# ── Main analyzer ────────────────────────────────────────────────────────────
+def analyze_resume_with_jd(resume_text, job_description=None, job_title=""):
     if not api_key:
         logger.warning("No Gemini API key — returning mock data.")
         return _mock_analysis(resume_text)
     if not model_name:
         return {"error": "No AI models available."}
+    # Build prompt pieces WITHOUT backslashes inside f-string expressions
+    jd_title_line = ("JOB TITLE: " + job_title) if job_title else ""
+    jd_body_line  = ("JOB DESCRIPTION:\n" + job_description[:4000]) if job_description else ""
+    compare_line  = ("Compare the resume against the Job Description to compute a match score."
+                     if job_description else "Score the resume on overall quality (0-100).")
+    prompt = (
+        "You are an expert resume parser and AI recruiter. "
+        "Your FIRST priority is to accurately extract contact information.\n\n"
+        "CRITICAL EXTRACTION RULES:\n"
+        '- "name": First 1-4 word line at top of resume. Never return Unknown.\n'
+        '- "email": Scan entire resume for user@domain.com pattern. Never leave empty if present.\n'
+        '- "phone": Any phone-like digit sequence.\n\n'
+        + compare_line + "\n\n"
+        "Return ONLY a raw JSON object — no markdown, no extra text:\n"
+        "{\n"
+        '    "name": "<full name>",\n'
+        '    "email": "<email>",\n'
+        '    "phone": "<phone or empty>",\n'
+        '    "experience_years": "<e.g. 3 years>",\n'
+        '    "current_role": "<job title>",\n'
+        '    "skills": ["skill1", "skill2"],\n'
+        '    "education": "<degree and institution>",\n'
+        '    "score": <0-100>,\n'
+        '    "reasoning": "<2-3 sentences>",\n'
+        '    "matching_skills": ["skill"],\n'
+        '    "missing_skills": ["skill"],\n'
+        '    "verdict": "<Interview|Shortlist|Reject>",\n'
+        '    "strengths": ["strength"],\n'
+        '    "red_flags": ["concern"]\n'
+        "}\n\n"
+        + jd_title_line + "\n"
+        + jd_body_line + "\n\n"
+        "RESUME TEXT:\n---\n"
+        + resume_text[:8000]
+        + "\n---"
+    )
     try:
         model = genai.GenerativeModel(model_name)
         response = model.generate_content(prompt)
         raw = response.text.strip()
         clean = re.sub(r'```(?:json)?\s*|\s*```', '', raw, flags=re.MULTILINE).strip()
         brace_start = clean.find('{')
         brace_end = clean.rfind('}')
         if brace_start != -1 and brace_end != -1:
             clean = clean[brace_start:brace_end + 1]
         result = json.loads(clean)
         result = _ensure_fields(result, resume_text)
+        logger.info("Analyzed: name=%s email=%s score=%s",
+                    result.get('name'), result.get('email'), result.get('score'))
         return result
     except json.JSONDecodeError as e:
+        logger.error("JSON parse error: %s", e)
+        return {
+            "error": "AI response parsing failed.", "score": 0,
             "name": _regex_extract_name(resume_text) or "Unknown",
             "email": _regex_extract_email(resume_text),
             "phone": _regex_extract_phone(resume_text),
             "matching_skills": [], "missing_skills": [],
             "reasoning": "", "verdict": "Reject"
         }
     except Exception as e:
+        logger.error("AI analysis failed: %s", e)
         return {
             "error": str(e), "score": 0,
             "name": _regex_extract_name(resume_text) or "Unknown",
             "reasoning": "", "verdict": "Reject"
         }
+def _mock_analysis(resume_text):
     import random
     score = random.randint(45, 95)
     return {
+        "name": _regex_extract_name(resume_text) or "Demo Candidate",
+        "email": _regex_extract_email(resume_text) or "demo@example.com",
+        "phone": _regex_extract_phone(resume_text) or "+91-9876543210",
         "experience_years": "3 years",
         "current_role": "Software Engineer",
         "skills": ["Python", "Flask", "SQL", "REST APIs"],
         "education": "B.Tech Computer Science",
         "score": score,
+        "reasoning": "Candidate scored %d/100 based on skills and experience." % score,
         "matching_skills": ["Python", "Flask"],
         "missing_skills": ["AWS", "Docker"],
         "verdict": "Interview" if score >= 80 else "Shortlist" if score >= 60 else "Reject",