Spaces:

Niketjain2002
/

recruitment-intelligence

Sleeping

Niketjain2002 commited on 4 days ago

Commit

9baa8d5

verified ·

1 Parent(s): 1fe8464

Fix LinkedIn title parser: strip both | LinkedIn and - LinkedIn suffixes

Files changed (1) hide show

src/web_search.py CHANGED Viewed

@@ -130,13 +130,18 @@ def _parse_linkedin_title(title: str) -> dict:
     Returns dict with name, title, company (all strings, may be empty).
     """
-    # Strip the "| LinkedIn" suffix
-    cleaned = re.sub(r"\s*\|\s*LinkedIn\s*$", "", title, flags=re.IGNORECASE).strip()
     parts = [p.strip() for p in cleaned.split(" - ")]
     if len(parts) >= 3:
-        return {"name": parts[0], "title": parts[1], "company": parts[2]}
     elif len(parts) == 2:
         return {"name": parts[0], "title": parts[1], "company": ""}
     else:

     Returns dict with name, title, company (all strings, may be empty).
     """
+    # Strip "| LinkedIn" or "- LinkedIn" suffix (both patterns appear in Google results)
+    cleaned = re.sub(r"\s*[-|]\s*LinkedIn\s*$", "", title, flags=re.IGNORECASE).strip()
     parts = [p.strip() for p in cleaned.split(" - ")]
     if len(parts) >= 3:
+        # Take last non-empty part as company (skip any extra segments)
+        company = parts[2]
+        # Guard: if company is still "LinkedIn" somehow, clear it
+        if company.lower() == "linkedin":
+            company = ""
+        return {"name": parts[0], "title": parts[1], "company": company}
     elif len(parts) == 2:
         return {"name": parts[0], "title": parts[1], "company": ""}
     else: