Spaces:

Krepselis
/

CV_Evalutaor_Job_Suggestions

Sleeping

App Files Files Community

Krepselis commited on Jun 23, 2025

Commit

1475c0d

verified ·

1 Parent(s): 8ae0cb4

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -110

app.py CHANGED Viewed

@@ -19,8 +19,6 @@ import json
 from st_copy_to_clipboard import st_copy_to_clipboard # For copy to clipboard functionality
 from huggingface_hub import HfApi, hf_hub_download, HfFolder # For HF Datasets
 from huggingface_hub.utils import RepositoryNotFoundError, EntryNotFoundError # For HF Datasets
-from category_translation import CATEGORY_TRANSLATIONS, REVERSE_CATEGORY_TRANSLATIONS
 # Load environment variables
 load_dotenv()
@@ -30,31 +28,6 @@ HF_FEEDBACK_DATASET_REPO_ID = os.getenv("HF_FEEDBACK_DATASET_REPO_ID", "Krepseli
 HF_FEEDBACK_FILENAME_IN_REPO = os.getenv("HF_FEEDBACK_FILENAME_IN_REPO", "feedback_log.parquet") # Default
 HF_TOKEN_FOR_DATASET = os.getenv("HF_FEEDBACK_DATASET_TOKEN") # Needs to be set for writing
-# Mapping of raw location names to standardized city names
-LOCATION_STANDARDIZATION = {
-    "kbh": "Copenhagen", "københavn": "Copenhagen", "copenhagen": "Copenhagen",
-    "århus": "Aarhus", "aarhus": "Aarhus",
-    "odense": "Odense",
-    "aalborg": "Aalborg", "alborg": "Aalborg",
-    "esbjerg": "Esbjerg",
-    "randers": "Randers",
-    "horsens": "Horsens",
-    "kolding": "Kolding",
-    "vejle": "Vejle",
-    "roskilde": "Roskilde",
-    "silkeborg": "Silkeborg",
-    "herning": "Herning",
-    "hørsholm": "Hørsholm", "horsholm": "Hørsholm",
-    "helsingør": "Helsingør", "helsingor": "Helsingør",
-    "næstved": "Næstved", "naestved": "Næstved",
-    "viborg": "Viborg",
-    "fredericia": "Fredericia",
-    "køge": "Køge", "koege": "Køge",
-    "taastrup": "Taastrup",
-    "holstebro": "Holstebro"
-}
 # --- Import your custom modules ---
 try:
     from cv_match import find_similar_jobs, generate_embedding_for_skills
@@ -80,21 +53,12 @@ st.set_page_config(
 # --- Constants and Normalization Data ---
 APP_DIR = os.path.dirname(os.path.abspath(__file__))
-SIMILARITY_THRESHOLD = 20.0 # Default similarity threshold
 MAX_JOBS_TO_DISPLAY_PER_PAGE = 5
 TOP_N_RESULTS_FROM_SEARCH = int(os.getenv('TOP_N_RESULTS_FOR_APP_QUERY', '20000')) # How many to fetch initially
 CANONICAL_LANGUAGES_FOR_FILTER = ["English", "Danish", "German", "Spanish", "French", "Norwegian", "Swedish"]
-def standardize_location(location_raw):
-    if not location_raw or not isinstance(location_raw, str):
-        return None
-    location_clean = location_raw.strip().lower()
-    for key, value in LOCATION_STANDARDIZATION.items():
-        if key in location_clean:
-            return value
-    return location_raw.strip()  # fallback
 def get_job_languages_from_metadata(job_match_dict): # Now expects the whole job_match dict
     extracted_languages_set = set()
@@ -318,38 +282,21 @@ if not os.getenv("OPENAI_API_KEY"):
 # --- Main App Layout ---
 with st.sidebar:
-# Replace this block inside your Streamlit sidebar (under `with st.sidebar:`)
     st.header("🚀 Get Started")
     uploaded_file = st.file_uploader("1. Upload Your CV", type=['pdf', 'docx', 'txt', 'md'],
                                     key="cv_uploader_key",
                                     help="Supports PDF, DOCX, Markdown, and TXT files.",
                                     on_change=lambda: st.session_state.update(all_job_matches_cache=None, generated_cover_letters={}, cv_text_cache=None, cv_skills=None, feedback_given_jobs={}))
     st.markdown("---")
     st.header("🔍 Filter Job Matches")
-    # ✅ Hardcoded top 20 cities
-    unique_locations_options = [
-        "Copenhagen", "Aarhus", "Odense", "Aalborg", "Esbjerg", "Randers", "Horsens", "Kolding",
-        "Vejle", "Roskilde", "Silkeborg", "Herning", "Hørsholm", "Helsingør", "Næstved", "Viborg",
-        "Fredericia", "Køge", "Taastrup", "Holstebro", "Rest of Denmark"
-    ]
-    # ✅ Categories are still dynamically built
-    unique_categories_options = []
     if st.session_state.all_job_matches_cache:
         raw_categories_from_cache = [job.get('category') for job in st.session_state.all_job_matches_cache]
-        unique_categories_options = sorted(
-            list({CATEGORY_TRANSLATIONS.get(cat.strip(), cat.strip()) for cat in raw_categories_from_cache if isinstance(cat, str) and cat.strip()})
-        )
-    # ✅ Multiselect widgets
-    selected_locations = st.multiselect("Job Locations (Area)", options=unique_locations_options, placeholder="Any Location")
     selected_categories = st.multiselect("Job Categories", options=unique_categories_options, placeholder="Any Category" if unique_categories_options else "Upload CV")
     selected_languages = st.multiselect("Required Languages", options=CANONICAL_LANGUAGES_FOR_FILTER, placeholder="Any Language")
     st.markdown("---")
     st.info("Tip: Upload CV first, then apply filters.")
     st.caption(f"Displays top {MAX_JOBS_TO_DISPLAY_PER_PAGE} matches after filters from up to {TOP_N_RESULTS_FROM_SEARCH} initial results.")
@@ -397,52 +344,9 @@ if uploaded_file is not None:
 if st.session_state.all_job_matches_cache is not None:
-    current_matches_to_filter = list(st.session_state.all_job_matches_cache)
-    # ✅ Location filter
-    if selected_locations:
-        def location_matches(job_area):
-            standardized = standardize_location(job_area)
-            if not standardized:
-                return False
-            # Match selected cities
-            if standardized in selected_locations:
-                return True
-            # Match Rest of Denmark
-            if "Rest of Denmark" in selected_locations and standardized not in unique_locations_options[:-1]:
-                return True
-            return False
-        current_matches_to_filter = [
-            job for job in current_matches_to_filter
-            if location_matches(job.get('area'))
-        ]
-    # ✅ Category filter
-    if selected_categories:
-        selected_categories_danish = [
-            REVERSE_CATEGORY_TRANSLATIONS.get(cat, cat) for cat in selected_categories
-        ]
-        current_matches_to_filter = [
-            job for job in current_matches_to_filter
-            if job.get('category') in selected_categories_danish
-        ]
-    # ✅ Language filter
-    if selected_languages:
-        current_matches_to_filter = [
-            job for job in current_matches_to_filter
-            if any(lang in selected_languages for lang in get_job_languages_from_metadata(job))
-        ]
     if selected_languages: current_matches_to_filter = [job for job in current_matches_to_filter if any(lang in selected_languages for lang in get_job_languages_from_metadata(job))]
     final_display_matches = [j for j in current_matches_to_filter if isinstance(j.get('score'), (int, float)) and j.get('score', 0) >= SIMILARITY_THRESHOLD]
@@ -461,8 +365,7 @@ if st.session_state.all_job_matches_cache is not None:
                 job_title = job_match.get('title', 'N/A')
                 job_company = job_match.get('company', 'N/A')
                 job_area_display = job_match.get('area', 'N/A')
-                job_category_raw = job_match.get('category', 'N/A')
-                job_category_display = CATEGORY_TRANSLATIONS.get(job_category_raw, job_category_raw)
                 job_status = job_match.get('status', 'unknown').capitalize()
                 job_url_primary = job_match.get('application_url', job_match.get('url', '#'))
                 job_score = job_match.get('score', 0.0)
@@ -484,10 +387,9 @@ if st.session_state.all_job_matches_cache is not None:
                                 st.markdown("**Key CV skills contributing to this match:**")
                                 for skill_text, skill_sim_score in contributing_skills:
                                     st.markdown(f"- `{skill_text}` (Contribution: {skill_sim_score:.2f})")
-                            else:
                                 st.caption("Skill contribution analysis not available or no strong contributing skills.")
                         action_cols = st.columns([1, 1])
                         with action_cols[0]:
                             if job_url_primary and job_url_primary != '#': st.link_button("Apply Now 🚀", url=job_url_primary, type="primary", use_container_width=True)

 from st_copy_to_clipboard import st_copy_to_clipboard # For copy to clipboard functionality
 from huggingface_hub import HfApi, hf_hub_download, HfFolder # For HF Datasets
 from huggingface_hub.utils import RepositoryNotFoundError, EntryNotFoundError # For HF Datasets
 # Load environment variables
 load_dotenv()
 HF_FEEDBACK_FILENAME_IN_REPO = os.getenv("HF_FEEDBACK_FILENAME_IN_REPO", "feedback_log.parquet") # Default
 HF_TOKEN_FOR_DATASET = os.getenv("HF_FEEDBACK_DATASET_TOKEN") # Needs to be set for writing
 # --- Import your custom modules ---
 try:
     from cv_match import find_similar_jobs, generate_embedding_for_skills
 # --- Constants and Normalization Data ---
 APP_DIR = os.path.dirname(os.path.abspath(__file__))
+SIMILARITY_THRESHOLD = 40.0 # Default similarity threshold
 MAX_JOBS_TO_DISPLAY_PER_PAGE = 5
 TOP_N_RESULTS_FROM_SEARCH = int(os.getenv('TOP_N_RESULTS_FOR_APP_QUERY', '20000')) # How many to fetch initially
 CANONICAL_LANGUAGES_FOR_FILTER = ["English", "Danish", "German", "Spanish", "French", "Norwegian", "Swedish"]
+# --- Helper Functions ---
 def get_job_languages_from_metadata(job_match_dict): # Now expects the whole job_match dict
     extracted_languages_set = set()
 # --- Main App Layout ---
 with st.sidebar:
     st.header("🚀 Get Started")
     uploaded_file = st.file_uploader("1. Upload Your CV", type=['pdf', 'docx', 'txt', 'md'],
                                     key="cv_uploader_key",
                                     help="Supports PDF, DOCX, Markdown, and TXT files.",
                                     on_change=lambda: st.session_state.update(all_job_matches_cache=None, generated_cover_letters={}, cv_text_cache=None, cv_skills=None, feedback_given_jobs={}))
     st.markdown("---")
     st.header("🔍 Filter Job Matches")
+    unique_locations_options = []; unique_categories_options = []
     if st.session_state.all_job_matches_cache:
+        unique_locations_options = sorted(list(set(job.get('area', 'N/A') for job in st.session_state.all_job_matches_cache if job.get('area'))))
         raw_categories_from_cache = [job.get('category') for job in st.session_state.all_job_matches_cache]
+        unique_categories_options = sorted(list(set(cat for cat in raw_categories_from_cache if isinstance(cat, str) and cat.strip())))
+    selected_locations = st.multiselect("Job Locations (Area)", options=unique_locations_options, placeholder="Any Location" if unique_locations_options else "Upload CV")
     selected_categories = st.multiselect("Job Categories", options=unique_categories_options, placeholder="Any Category" if unique_categories_options else "Upload CV")
     selected_languages = st.multiselect("Required Languages", options=CANONICAL_LANGUAGES_FOR_FILTER, placeholder="Any Language")
     st.markdown("---")
     st.info("Tip: Upload CV first, then apply filters.")
     st.caption(f"Displays top {MAX_JOBS_TO_DISPLAY_PER_PAGE} matches after filters from up to {TOP_N_RESULTS_FROM_SEARCH} initial results.")
 if st.session_state.all_job_matches_cache is not None:
+    current_matches_to_filter = list(st.session_state.all_job_matches_cache)
+    if selected_locations: current_matches_to_filter = [job for job in current_matches_to_filter if job.get('area') in selected_locations]
+    if selected_categories: current_matches_to_filter = [job for job in current_matches_to_filter if job.get('category') in selected_categories]
     if selected_languages: current_matches_to_filter = [job for job in current_matches_to_filter if any(lang in selected_languages for lang in get_job_languages_from_metadata(job))]
     final_display_matches = [j for j in current_matches_to_filter if isinstance(j.get('score'), (int, float)) and j.get('score', 0) >= SIMILARITY_THRESHOLD]
                 job_title = job_match.get('title', 'N/A')
                 job_company = job_match.get('company', 'N/A')
                 job_area_display = job_match.get('area', 'N/A')
+                job_category_display = job_match.get('category', 'N/A')
                 job_status = job_match.get('status', 'unknown').capitalize()
                 job_url_primary = job_match.get('application_url', job_match.get('url', '#'))
                 job_score = job_match.get('score', 0.0)
                                 st.markdown("**Key CV skills contributing to this match:**")
                                 for skill_text, skill_sim_score in contributing_skills:
                                     st.markdown(f"- `{skill_text}` (Contribution: {skill_sim_score:.2f})")
+                            elif not contributing_skills:
                                 st.caption("Skill contribution analysis not available or no strong contributing skills.")
                         action_cols = st.columns([1, 1])
                         with action_cols[0]:
                             if job_url_primary and job_url_primary != '#': st.link_button("Apply Now 🚀", url=job_url_primary, type="primary", use_container_width=True)