Spaces:

Danial7
/

skill_roadmap_app

Sleeping

Danial7 commited on May 15, 2025

Commit

eae3ffd

verified ·

1 Parent(s): ec9d8ec

Update extractor.py

Files changed (1) hide show

extractor.py CHANGED Viewed

@@ -1,19 +1,20 @@
-import pdfplumber
 import spacy
 nlp = spacy.load("en_core_web_sm")
 def extract_text_from_pdf(file):
     with pdfplumber.open(file) as pdf:
-        return "\n".join([page.extract_text() for page in pdf.pages if page.extract_text()])
-def extract_entities(text, skills_df):
     doc = nlp(text)
-    tokens = [token.text.strip() for token in doc if token.text.strip()]
-    skills = list(set([token for token in tokens if token in skills_df["Skill"].values]))
-    tech_keywords = {"Python", "Machine Learning", "AI", "DevOps", "Data Science", "Cloud", "Cybersecurity"}
-    background = "technical" if any(skill in tech_keywords for skill in skills) else "non-technical"
-    # Dummy logic for years of experience
     years_exp = 3
-    return skills, background, years_exp

 import spacy
 nlp = spacy.load("en_core_web_sm")
 def extract_text_from_pdf(file):
+    import pdfplumber
     with pdfplumber.open(file) as pdf:
+        return "\n".join(page.extract_text() for page in pdf.pages if page.extract_text())
+def extract_entities(text):
     doc = nlp(text)
+    # Extract skills by matching tokens to skills list externally
+    # Here we just return all nouns as a placeholder
+    skills = [token.text for token in doc if token.pos_ in ("NOUN", "PROPN")]
+    # Determine background (simplified)
+    technical_skills = {"Python", "Machine Learning", "Cloud Computing", "Cybersecurity", "AI", "DevOps"}
+    background = "technical" if any(skill in technical_skills for skill in skills) else "non-technical"
+    # Dummy experience years
     years_exp = 3
+    return list(set(skills)), background, years_exp