Spaces:

Danial7
/

Smart_CV_Analyzer

Sleeping

App Files Files Community

Danial7 commited on May 17, 2025

Commit

03c193d

verified ·

1 Parent(s): a9f4ca2

Update utils.py

Browse files

Files changed (1) hide show

utils.py +113 -73

utils.py CHANGED Viewed

@@ -1,74 +1,114 @@
 import spacy
-import re
-from keybert import KeyBERT
-from sklearn.feature_extraction.text import TfidfVectorizer
-from sklearn.metrics.pairwise import cosine_similarity
-nlp_spacy = spacy.load("en_core_web_sm")
-kw_model = KeyBERT()
-# --- CV Field Detection ---
-def detect_cv_field(text):
-    field_keywords = {
-        "software": ["python", "java", "software", "developer", "api", "backend", "frontend"],
-        "data science": ["machine learning", "data", "pandas", "statistics", "model"],
-        "engineering": ["engineering", "maintenance", "production", "plant", "electrical"],
-        "management": ["manager", "operations", "logistics", "supply chain"],
-        "marketing": ["seo", "digital marketing", "brand", "campaign", "social media"],
-        "design": ["illustrator", "photoshop", "ux", "ui", "figma", "design"]
-    }
-    text = text.lower()
-    field_scores = {field: sum(kw in text for kw in kws) for field, kws in field_keywords.items()}
-    return max(field_scores, key=field_scores.get)
-# --- Skill Suggestions ---
-def get_skills_suggestions(field):
-    mock_skills = {
-        "software": ["Python", "Git", "REST APIs", "Docker", "SQL"],
-        "data science": ["Pandas", "Scikit-learn", "Data Visualization", "TensorFlow", "SQL"],
-        "engineering": ["PLC Programming", "AutoCAD", "Industrial Safety", "SCADA", "Maintenance Planning"],
-        "management": ["Project Management", "Excel", "ERP", "Communication", "Team Leadership"],
-        "marketing": ["SEO", "Content Creation", "Google Analytics", "Email Marketing", "Brand Strategy"],
-        "design": ["Figma", "Adobe XD", "Typography", "Wireframing", "User Research"]
-    }
-    return mock_skills.get(field.lower(), [])
-# --- Certification Suggestions ---
-def get_certifications(field):
-    mock_certs = {
-        "software": ["AWS Certified Developer", "Google Associate Android Developer"],
-        "data science": ["IBM Data Science", "Google Data Analytics"],
-        "engineering": ["AutoCAD Certification", "Six Sigma Green Belt"],
-        "management": ["PMP", "Scrum Master", "Operations Management from Coursera"],
-        "marketing": ["HubSpot Inbound Marketing", "Google Ads Certification"],
-        "design": ["Adobe Certified Professional", "Google UX Design Certificate"]
-    }
-    return mock_certs.get(field.lower(), [])
-# --- Scholarships ---
-def get_scholarships(field, country="United States"):
-    return [
-        f"{field.title()} Scholars Program",
-        f"{country} International Excellence Scholarship for {field.title()}",
-        f"Global Leaders {field.title()} Fellowship"
-    ]
-# --- Education Opportunities ---
-def get_education_opportunities(field, country="Germany"):
-    return [
-        f"MSc in {field.title()} - TU Berlin",
-        f"DAAD-funded {field.title()} Master’s - RWTH Aachen",
-        f"International {field.title()} Graduate Program - University of Stuttgart"
-    ]
-# --- Visa Suggestions ---
-def get_visa_opportunities(field, country="Germany"):
-    visa_types = {
-        "software": ["EU Blue Card", "Freelancer Visa", "Job Seeker Visa"],
-        "engineering": ["EU Blue Card", "Skilled Worker Visa"],
-        "management": ["Job Seeker Visa", "Business Visa"],
-        "marketing": ["Freelancer Visa", "Creative Professional Visa"],
-        "data science": ["EU Blue Card", "Research Visa"],
-        "design": ["Artist Visa", "Freelancer Visa"]
-    }
-    return visa_types.get(field.lower(), ["General Skilled Worker Visa", "Job Seeker Visa"])

+import os
 import spacy
+import json
+import requests
+from transformers import pipeline
+from fpdf import FPDF
+from pdfminer.high_level import extract_text
+# Load spacy model
+try:
+    nlp_spacy = spacy.load("en_core_web_sm")
+except:
+    from spacy.cli import download
+    download("en_core_web_sm")
+    nlp_spacy = spacy.load("en_core_web_sm")
+# Lightweight model
+llm = pipeline("text-generation", model="mistralai/Mistral-7B-Instruct-v0.1", device_map="auto", max_new_tokens=512)
+def parse_cv(pdf_path):
+    return extract_text(pdf_path)
+def identify_field_with_llm(text):
+    prompt = f"Analyze the CV content below and identify the main professional field:\n\n{text[:2000]}\n\nField:"
+    result = llm(prompt)[0]['generated_text']
+    return result.split("Field:")[-1].strip().split("\n")[0]
+def generate_skill_score(text):
+    keywords = ["Python", "Excel", "project", "machine learning", "automation", "SQL", "cloud", "leadership", "communication"]
+    score = sum(1 for kw in keywords if kw.lower() in text.lower())
+    return int((score / len(keywords)) * 100)
+def generate_llm_suggestions(cv_text, field):
+    prompt = f"""You are a career advisor AI. Based on the following CV content and field ({field}), suggest:
+1. 5 upskilling skills
+2. 3 certifications
+3. 3 scholarships
+4. 3 education paths
+5. 3 visa-friendly countries
+CV: {cv_text[:2000]}
+Respond in JSON with keys: skills, certifications, scholarships, education, visa
+"""
+    output = llm(prompt)[0]['generated_text']
+    json_start = output.find("{")
+    try:
+        data = json.loads(output[json_start:])
+    except:
+        data = {
+            "skills": ["Problem-solving", "AI tools", "Data analysis"],
+            "certifications": ["Coursera Python", "AWS Associate", "PMP"],
+            "scholarships": ["DAAD", "Chevening", "Fulbright"],
+            "education": ["MSc in AI", "MBA in Tech", "Masters in Data Science"],
+            "visa": ["Canada", "Germany", "Australia"]
+        }
+    return data
+def get_live_jobs(field):
+    # Example using Adzuna (replace with your actual API key and app id)
+    API_ID = os.getenv("ADZUNA_APP_ID", "mock_id")
+    API_KEY = os.getenv("ADZUNA_APP_KEY", "mock_key")
+    country = "gb"
+    url = f"https://api.adzuna.com/v1/api/jobs/{country}/search/1?app_id={API_ID}&app_key={API_KEY}&results_per_page=5&what={field}"
+    try:
+        response = requests.get(url)
+        data = response.json()
+        jobs = []
+        for job in data.get("results", []):
+            jobs.append({
+                "title": job.get("title", "Job"),
+                "company": job.get("company", {}).get("display_name", "Company"),
+                "location": job.get("location", {}).get("display_name", "Location"),
+                "url": job.get("redirect_url", "#")
+            })
+        return jobs
+    except:
+        return []
+def generate_counselor_response(cv_text, field, score, suggestions):
+    prompt = f"""Act like a career counselor. Given this CV in the {field} field with a skill score of {score}, and the following suggestions:\n\n{json.dumps(suggestions)}\n\nGive friendly, motivational advice (max 200 words)."""
+    return llm(prompt)[0]['generated_text'].strip()
+def generate_pdf_report(cv_text, field, score, suggestions, jobs, counselor_msg):
+    pdf = FPDF()
+    pdf.add_page()
+    pdf.set_font("Arial", size=12)
+    pdf.cell(200, 10, txt="Smart CV Analyzer Report", ln=True, align="C")
+    pdf.ln(10)
+    pdf.multi_cell(0, 10, f"Detected Field: {field}")
+    pdf.multi_cell(0, 10, f"Skill Score: {score}/100")
+    pdf.ln(5)
+    pdf.set_font("Arial", "B", 12)
+    pdf.cell(0, 10, "AI Suggestions:", ln=True)
+    pdf.set_font("Arial", size=11)
+    for key, items in suggestions.items():
+        pdf.multi_cell(0, 10, f"{key.capitalize()}: {', '.join(items)}")
+    pdf.ln(5)
+    pdf.set_font("Arial", "B", 12)
+    pdf.cell(0, 10, "Live Jobs:", ln=True)
+    pdf.set_font("Arial", size=11)
+    for job in jobs:
+        pdf.multi_cell(0, 10, f"{job['title']} at {job['company']} ({job['location']})")
+    pdf.ln(5)
+    pdf.set_font("Arial", "B", 12)
+    pdf.cell(0, 10, "Career Counselor Advice:", ln=True)
+    pdf.set_font("Arial", size=11)
+    pdf.multi_cell(0, 10, counselor_msg)
+    return pdf.output(dest='S').encode('latin1')