Spaces:

Siggmoid
/

ATS-Intelligence-Engine

Running

App Files Files Community

Siggmoid Cursor commited on 10 days ago

Commit

2717aab

1 Parent(s): dfc11de

Expand skill aliases and canonicalize JD skills for fair matching

Browse files

Files changed (1) hide show

utilities/skills.py +51 -21

utilities/skills.py CHANGED Viewed

@@ -181,20 +181,40 @@ def extract_skills(text: str) -> set:
 # ---------------------------------------------------------------------------
 SKILL_ALIASES: dict[str, str] = {
     # ML / AI shorthands
-    "ml":           "machine learning",
-    "ai":           "machine learning",
-    "dl":           "deep learning",
-    "cv":           "computer vision",
     # API plurals / variants — chain: fastapi/rest apis → rest api → api
-    "apis":         "api",
-    "rest apis":    "rest api",
-    "restful apis": "restful api",
-    "rest api":     "api",
-    "restful api":  "api",
-    "api gateway":  "api",
-    "fastapi":      "api",
-    "grpc":         "api",
-    "graphql":      "api",
 }
@@ -216,11 +236,21 @@ def _expand_with_aliases(skills: set) -> set:
     return expanded
 def extract_required_skills_from_jd(jd_text: str) -> dict:
-    """Return JD skills with mention-frequency as an importance signal."""
-    skills = extract_skills(jd_text)
     cleaned = clean_text(jd_text)
-    return {skill: cleaned.count(skill) for skill in skills}
 def extract_resume_skills(resume_text: str) -> set:
@@ -228,14 +258,14 @@ def extract_resume_skills(resume_text: str) -> set:
 def find_missing_skills(resume_text: str, jd_text: str) -> list:
-    jd_skills     = set(extract_required_skills_from_jd(jd_text).keys())
-    resume_skills = extract_resume_skills(resume_text)   # already alias-expanded
-    return [s for s in jd_skills if s not in resume_skills]
 def calculate_skill_overlap(resume_text: str, jd_text: str) -> float:
-    jd_skills     = set(extract_required_skills_from_jd(jd_text).keys())
-    resume_skills = extract_resume_skills(resume_text)   # already alias-expanded
     if not jd_skills:
         return 0.0
     return round(len(jd_skills & resume_skills) / len(jd_skills) * 100, 2)

 # ---------------------------------------------------------------------------
 SKILL_ALIASES: dict[str, str] = {
     # ML / AI shorthands
+    "ml":              "machine learning",
+    "ai":              "machine learning",
+    "dl":              "deep learning",
+    "cv":              "computer vision",
+    "nlp":             "natural language processing",
+    "gen ai":          "generative ai",
+    "llm":             "large language model",
+    "sklearn":         "scikit-learn",
+    "scikit learn":    "scikit-learn",
     # API plurals / variants — chain: fastapi/rest apis → rest api → api
+    "apis":            "api",
+    "rest apis":       "rest api",
+    "restful apis":    "restful api",
+    "rest api":        "api",
+    "restful api":     "api",
+    "api gateway":     "api",
+    "fastapi":         "api",
+    "flask":           "api",
+    "grpc":            "api",
+    "graphql":         "api",
+    # Infra / data aliases
+    "k8s":             "kubernetes",
+    "postgres":        "postgresql",
+    "mongo":           "mongodb",
+    "hf":              "huggingface",
+    "hugging face":    "huggingface",
+    "aws":             "amazon web services",
+    "gcp":             "google cloud",
+    "ci cd":           "ci/cd",
+    "node":            "javascript",
+    "nodejs":          "javascript",
+    "js":              "javascript",
+    "ts":              "typescript",
+    "py":              "python",
 }
     return expanded
+def _canonicalize_jd_frequencies(freq: dict[str, int]) -> dict[str, int]:
+    """Merge JD skill counts onto alias-expanded canonical terms."""
+    canonical: dict[str, int] = {}
+    for skill, count in freq.items():
+        for term in _expand_with_aliases({skill}):
+            canonical[term] = canonical.get(term, 0) + count
+    return canonical
 def extract_required_skills_from_jd(jd_text: str) -> dict:
+    """Return JD skills (alias-expanded) with mention-frequency as importance."""
+    raw = extract_skills(jd_text)
     cleaned = clean_text(jd_text)
+    freq = {skill: cleaned.count(skill) for skill in raw}
+    return _canonicalize_jd_frequencies(freq)
 def extract_resume_skills(resume_text: str) -> set:
 def find_missing_skills(resume_text: str, jd_text: str) -> list:
+    jd_skills = set(extract_required_skills_from_jd(jd_text).keys())
+    resume_skills = extract_resume_skills(resume_text)
+    return sorted(s for s in jd_skills if s not in resume_skills)
 def calculate_skill_overlap(resume_text: str, jd_text: str) -> float:
+    jd_skills = set(extract_required_skills_from_jd(jd_text).keys())
+    resume_skills = extract_resume_skills(resume_text)
     if not jd_skills:
         return 0.0
     return round(len(jd_skills & resume_skills) / len(jd_skills) * 100, 2)