Spaces:

Krepselis
/

CV_Evalutaor_Job_Suggestions

Sleeping

App Files Files Community

Krepselis commited on Jun 23, 2025

Commit

1fda076

verified ·

1 Parent(s): 1475c0d

Update app.py

Browse files

Files changed (1) hide show

app.py +111 -13

app.py CHANGED Viewed

@@ -19,6 +19,8 @@ import json
 from st_copy_to_clipboard import st_copy_to_clipboard # For copy to clipboard functionality
 from huggingface_hub import HfApi, hf_hub_download, HfFolder # For HF Datasets
 from huggingface_hub.utils import RepositoryNotFoundError, EntryNotFoundError # For HF Datasets
 # Load environment variables
 load_dotenv()
@@ -28,6 +30,31 @@ HF_FEEDBACK_DATASET_REPO_ID = os.getenv("HF_FEEDBACK_DATASET_REPO_ID", "Krepseli
 HF_FEEDBACK_FILENAME_IN_REPO = os.getenv("HF_FEEDBACK_FILENAME_IN_REPO", "feedback_log.parquet") # Default
 HF_TOKEN_FOR_DATASET = os.getenv("HF_FEEDBACK_DATASET_TOKEN") # Needs to be set for writing
 # --- Import your custom modules ---
 try:
     from cv_match import find_similar_jobs, generate_embedding_for_skills
@@ -53,12 +80,21 @@ st.set_page_config(
 # --- Constants and Normalization Data ---
 APP_DIR = os.path.dirname(os.path.abspath(__file__))
-SIMILARITY_THRESHOLD = 40.0 # Default similarity threshold
 MAX_JOBS_TO_DISPLAY_PER_PAGE = 5
-TOP_N_RESULTS_FROM_SEARCH = int(os.getenv('TOP_N_RESULTS_FOR_APP_QUERY', '20000')) # How many to fetch initially
 CANONICAL_LANGUAGES_FOR_FILTER = ["English", "Danish", "German", "Spanish", "French", "Norwegian", "Swedish"]
-# --- Helper Functions ---
 def get_job_languages_from_metadata(job_match_dict): # Now expects the whole job_match dict
     extracted_languages_set = set()
@@ -282,21 +318,38 @@ if not os.getenv("OPENAI_API_KEY"):
 # --- Main App Layout ---
 with st.sidebar:
     st.header("🚀 Get Started")
     uploaded_file = st.file_uploader("1. Upload Your CV", type=['pdf', 'docx', 'txt', 'md'],
                                     key="cv_uploader_key",
                                     help="Supports PDF, DOCX, Markdown, and TXT files.",
                                     on_change=lambda: st.session_state.update(all_job_matches_cache=None, generated_cover_letters={}, cv_text_cache=None, cv_skills=None, feedback_given_jobs={}))
     st.markdown("---")
     st.header("🔍 Filter Job Matches")
-    unique_locations_options = []; unique_categories_options = []
     if st.session_state.all_job_matches_cache:
-        unique_locations_options = sorted(list(set(job.get('area', 'N/A') for job in st.session_state.all_job_matches_cache if job.get('area'))))
         raw_categories_from_cache = [job.get('category') for job in st.session_state.all_job_matches_cache]
-        unique_categories_options = sorted(list(set(cat for cat in raw_categories_from_cache if isinstance(cat, str) and cat.strip())))
-    selected_locations = st.multiselect("Job Locations (Area)", options=unique_locations_options, placeholder="Any Location" if unique_locations_options else "Upload CV")
     selected_categories = st.multiselect("Job Categories", options=unique_categories_options, placeholder="Any Category" if unique_categories_options else "Upload CV")
     selected_languages = st.multiselect("Required Languages", options=CANONICAL_LANGUAGES_FOR_FILTER, placeholder="Any Language")
     st.markdown("---")
     st.info("Tip: Upload CV first, then apply filters.")
     st.caption(f"Displays top {MAX_JOBS_TO_DISPLAY_PER_PAGE} matches after filters from up to {TOP_N_RESULTS_FROM_SEARCH} initial results.")
@@ -344,9 +397,52 @@ if uploaded_file is not None:
 if st.session_state.all_job_matches_cache is not None:
-    current_matches_to_filter = list(st.session_state.all_job_matches_cache)
-    if selected_locations: current_matches_to_filter = [job for job in current_matches_to_filter if job.get('area') in selected_locations]
-    if selected_categories: current_matches_to_filter = [job for job in current_matches_to_filter if job.get('category') in selected_categories]
     if selected_languages: current_matches_to_filter = [job for job in current_matches_to_filter if any(lang in selected_languages for lang in get_job_languages_from_metadata(job))]
     final_display_matches = [j for j in current_matches_to_filter if isinstance(j.get('score'), (int, float)) and j.get('score', 0) >= SIMILARITY_THRESHOLD]
@@ -365,7 +461,8 @@ if st.session_state.all_job_matches_cache is not None:
                 job_title = job_match.get('title', 'N/A')
                 job_company = job_match.get('company', 'N/A')
                 job_area_display = job_match.get('area', 'N/A')
-                job_category_display = job_match.get('category', 'N/A')
                 job_status = job_match.get('status', 'unknown').capitalize()
                 job_url_primary = job_match.get('application_url', job_match.get('url', '#'))
                 job_score = job_match.get('score', 0.0)
@@ -387,9 +484,10 @@ if st.session_state.all_job_matches_cache is not None:
                                 st.markdown("**Key CV skills contributing to this match:**")
                                 for skill_text, skill_sim_score in contributing_skills:
                                     st.markdown(f"- `{skill_text}` (Contribution: {skill_sim_score:.2f})")
-                            elif not contributing_skills:
                                 st.caption("Skill contribution analysis not available or no strong contributing skills.")
                         action_cols = st.columns([1, 1])
                         with action_cols[0]:
                             if job_url_primary and job_url_primary != '#': st.link_button("Apply Now 🚀", url=job_url_primary, type="primary", use_container_width=True)

 from st_copy_to_clipboard import st_copy_to_clipboard # For copy to clipboard functionality
 from huggingface_hub import HfApi, hf_hub_download, HfFolder # For HF Datasets
 from huggingface_hub.utils import RepositoryNotFoundError, EntryNotFoundError # For HF Datasets
+from category_translation import CATEGORY_TRANSLATIONS, REVERSE_CATEGORY_TRANSLATIONS
 # Load environment variables
 load_dotenv()
 HF_FEEDBACK_FILENAME_IN_REPO = os.getenv("HF_FEEDBACK_FILENAME_IN_REPO", "feedback_log.parquet") # Default
 HF_TOKEN_FOR_DATASET = os.getenv("HF_FEEDBACK_DATASET_TOKEN") # Needs to be set for writing
+# Mapping of raw location names to standardized city names
+LOCATION_STANDARDIZATION = {
+    "kbh": "Copenhagen", "københavn": "Copenhagen", "copenhagen": "Copenhagen",
+    "århus": "Aarhus", "aarhus": "Aarhus",
+    "odense": "Odense",
+    "aalborg": "Aalborg", "alborg": "Aalborg",
+    "esbjerg": "Esbjerg",
+    "randers": "Randers",
+    "horsens": "Horsens",
+    "kolding": "Kolding",
+    "vejle": "Vejle",
+    "roskilde": "Roskilde",
+    "silkeborg": "Silkeborg",
+    "herning": "Herning",
+    "hørsholm": "Hørsholm", "horsholm": "Hørsholm",
+    "helsingør": "Helsingør", "helsingor": "Helsingør",
+    "næstved": "Næstved", "naestved": "Næstved",
+    "viborg": "Viborg",
+    "fredericia": "Fredericia",
+    "køge": "Køge", "koege": "Køge",
+    "taastrup": "Taastrup",
+    "holstebro": "Holstebro"
+}
 # --- Import your custom modules ---
 try:
     from cv_match import find_similar_jobs, generate_embedding_for_skills
 # --- Constants and Normalization Data ---
 APP_DIR = os.path.dirname(os.path.abspath(__file__))
+SIMILARITY_THRESHOLD = 20.0 # Default similarity threshold
 MAX_JOBS_TO_DISPLAY_PER_PAGE = 5
+TOP_N_RESULTS_FROM_SEARCH = int(os.getenv('TOP_N_RESULTS_FOR_APP_QUERY', '200')) # How many to fetch initially
 CANONICAL_LANGUAGES_FOR_FILTER = ["English", "Danish", "German", "Spanish", "French", "Norwegian", "Swedish"]
+def standardize_location(location_raw):
+    if not location_raw or not isinstance(location_raw, str):
+        return None
+    location_clean = location_raw.strip().lower()
+    for key, value in LOCATION_STANDARDIZATION.items():
+        if key in location_clean:
+            return value
+    return location_raw.strip()  # fallback
 def get_job_languages_from_metadata(job_match_dict): # Now expects the whole job_match dict
     extracted_languages_set = set()
 # --- Main App Layout ---
 with st.sidebar:
+# Replace this block inside your Streamlit sidebar (under `with st.sidebar:`)
     st.header("🚀 Get Started")
     uploaded_file = st.file_uploader("1. Upload Your CV", type=['pdf', 'docx', 'txt', 'md'],
                                     key="cv_uploader_key",
                                     help="Supports PDF, DOCX, Markdown, and TXT files.",
                                     on_change=lambda: st.session_state.update(all_job_matches_cache=None, generated_cover_letters={}, cv_text_cache=None, cv_skills=None, feedback_given_jobs={}))
     st.markdown("---")
     st.header("🔍 Filter Job Matches")
+    # ✅ Hardcoded top 20 cities
+    unique_locations_options = [
+        "Copenhagen", "Aarhus", "Odense", "Aalborg", "Esbjerg", "Randers", "Horsens", "Kolding",
+        "Vejle", "Roskilde", "Silkeborg", "Herning", "Hørsholm", "Helsingør", "Næstved", "Viborg",
+        "Fredericia", "Køge", "Taastrup", "Holstebro", "Rest of Denmark"
+    ]
+    # ✅ Categories are still dynamically built
+    unique_categories_options = []
     if st.session_state.all_job_matches_cache:
         raw_categories_from_cache = [job.get('category') for job in st.session_state.all_job_matches_cache]
+        unique_categories_options = sorted(
+            list({CATEGORY_TRANSLATIONS.get(cat.strip(), cat.strip()) for cat in raw_categories_from_cache if isinstance(cat, str) and cat.strip()})
+        )
+    # ✅ Multiselect widgets
+    selected_locations = st.multiselect("Job Locations (Area)", options=unique_locations_options, placeholder="Any Location")
     selected_categories = st.multiselect("Job Categories", options=unique_categories_options, placeholder="Any Category" if unique_categories_options else "Upload CV")
     selected_languages = st.multiselect("Required Languages", options=CANONICAL_LANGUAGES_FOR_FILTER, placeholder="Any Language")
     st.markdown("---")
     st.info("Tip: Upload CV first, then apply filters.")
     st.caption(f"Displays top {MAX_JOBS_TO_DISPLAY_PER_PAGE} matches after filters from up to {TOP_N_RESULTS_FROM_SEARCH} initial results.")
 if st.session_state.all_job_matches_cache is not None:
+    current_matches_to_filter = list(st.session_state.all_job_matches_cache)
+    # ✅ Location filter
+    if selected_locations:
+        def location_matches(job_area):
+            standardized = standardize_location(job_area)
+            if not standardized:
+                return False
+            # Match selected cities
+            if standardized in selected_locations:
+                return True
+            # Match Rest of Denmark
+            if "Rest of Denmark" in selected_locations and standardized not in unique_locations_options[:-1]:
+                return True
+            return False
+        current_matches_to_filter = [
+            job for job in current_matches_to_filter
+            if location_matches(job.get('area'))
+        ]
+    # ✅ Category filter
+    if selected_categories:
+        selected_categories_danish = [
+            REVERSE_CATEGORY_TRANSLATIONS.get(cat, cat) for cat in selected_categories
+        ]
+        current_matches_to_filter = [
+            job for job in current_matches_to_filter
+            if job.get('category') in selected_categories_danish
+        ]
+    # ✅ Language filter
+    if selected_languages:
+        current_matches_to_filter = [
+            job for job in current_matches_to_filter
+            if any(lang in selected_languages for lang in get_job_languages_from_metadata(job))
+        ]
     if selected_languages: current_matches_to_filter = [job for job in current_matches_to_filter if any(lang in selected_languages for lang in get_job_languages_from_metadata(job))]
     final_display_matches = [j for j in current_matches_to_filter if isinstance(j.get('score'), (int, float)) and j.get('score', 0) >= SIMILARITY_THRESHOLD]
                 job_title = job_match.get('title', 'N/A')
                 job_company = job_match.get('company', 'N/A')
                 job_area_display = job_match.get('area', 'N/A')
+                job_category_raw = job_match.get('category', 'N/A')
+                job_category_display = CATEGORY_TRANSLATIONS.get(job_category_raw, job_category_raw)
                 job_status = job_match.get('status', 'unknown').capitalize()
                 job_url_primary = job_match.get('application_url', job_match.get('url', '#'))
                 job_score = job_match.get('score', 0.0)
                                 st.markdown("**Key CV skills contributing to this match:**")
                                 for skill_text, skill_sim_score in contributing_skills:
                                     st.markdown(f"- `{skill_text}` (Contribution: {skill_sim_score:.2f})")
+                            else:
                                 st.caption("Skill contribution analysis not available or no strong contributing skills.")
                         action_cols = st.columns([1, 1])
                         with action_cols[0]:
                             if job_url_primary and job_url_primary != '#': st.link_button("Apply Now 🚀", url=job_url_primary, type="primary", use_container_width=True)