Spaces:

zlf18
/

test2

Sleeping

App Files Files Community

zlf18 commited on Oct 11, 2025

Commit

28dfdee

verified ·

1 Parent(s): 54b682d

Update app.py

Browse files

Files changed (1) hide show

app.py +4 -11

app.py CHANGED Viewed

@@ -11,10 +11,9 @@ from sklearn.metrics.pairwise import cosine_similarity
 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 from nltk.stem import PorterStemmer
 import gradio as gr
-import spacy # --- NEW: Import spaCy ---
-# --- CORRECTED: Download necessary NLTK data ---
-# This revised block is more direct and ensures all packages are downloaded.
 for package in ['words', 'stopwords', 'averaged_perceptron_tagger', 'punkt']:
     try:
         nltk.data.find(f'corpora/{package}' if package in ['words', 'stopwords'] else f'taggers/{package}' if package == 'averaged_perceptron_tagger' else f'tokenizers/{package}')
@@ -32,7 +31,7 @@ model = None
 combined_job_embeddings = None
 original_job_title_embeddings = None
 LLM_PIPELINE = None
-NLP_MODEL = None # --- NEW: Global variable for the spaCy model ---
 LLM_MODEL_NAME = "microsoft/phi-2"
 FINETUNED_MODEL_ID = "its-zion-18/projfinetuned"
 KNOWN_WORDS = set()
@@ -147,7 +146,6 @@ def score_jobs_by_skills(user_tokens: list[str], df_to_rank: pd.DataFrame) -> pd
     ranked_df = ranked_df.sort_values(by=['Skill Match Score', 'Similarity Score'], ascending=[False, False]).reset_index(drop=True)
     return ranked_df.set_index('Job ID', drop=False).rename_axis(None)
-# --- REPLACED: Skill extraction now uses spaCy for much better accuracy ---
 def extract_skills_from_text(text: str):
     global NLP_MODEL
     if not isinstance(text, str) or not NLP_MODEL:
@@ -179,20 +177,17 @@ def extract_skills_from_text(text: str):
             stemmed_skills[stemmed_phrase] = skill
     return sorted(list(stemmed_skills.values()))
-# --- END REPLACEMENT ---
 def initialize_data_and_model():
     global original_df, combined_df, model, combined_job_embeddings, original_job_title_embeddings, NLP_MODEL
     print("--- Initializing LLM Client ---")
     if not initialize_llm_client(): print("Warning: LLM Client failed to initialize.")
-    # --- MODIFIED: Load spaCy model ---
     print("--- Loading spaCy Model for Skill Extraction ---")
     try:
         NLP_MODEL = spacy.load("en_core_web_sm")
     except Exception as e:
         print(f"🚨 ERROR loading spaCy model: {e}. Skill extraction will be disabled.")
-    # --- END MODIFICATION ---
     print("--- Loading Datasets ---")
     ds = datasets.load_dataset("its-zion-18/Jobs-tabular-dataset")
@@ -208,10 +203,8 @@ def initialize_data_and_model():
     combined_df = pd.concat([original_df.copy(), augmented_df.copy()], ignore_index=True)
     original_df = original_df.rename(columns={'Job title': 'job_title', 'Company': 'company'})
-    # --- MODIFIED: Apply new skill extraction function ---
     print("--- Extracting Skills using spaCy (this may take a moment)... ---")
     original_df['Skills'] = original_df['qualifications'].apply(extract_skills_from_text)
-    # --- END MODIFICATION ---
     print("--- Loading Fine-Tuned Sentence Transformer Model ---")
     model = SentenceTransformer(FINETUNED_MODEL_ID)
@@ -227,7 +220,7 @@ def _course_links_for(skill: str) -> str:
     links = [("Coursera", f"https://www.coursera.org/search?query={q}"), ("edX", f"https://www.edx.org/search?q={q}"), ("Udemy", f"https://www.udemy.com/courses/search/?q={q}"), ("YouTube", f"https://www.youtube.com/results?search_query={q}+tutorial")]
     return " • ".join([f'<a href="{u}" target="_blank" style="color: #007bff;">{name}</a>' for name, u in links])
-# --- GRADIO INTERFACE FUNCTIONS (No changes needed below this line) ---
 def get_job_matches(dream_job: str, top_n: int, skills_text: str):
     status = "Searching using hybrid model..."

 from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
 from nltk.stem import PorterStemmer
 import gradio as gr
+import spacy
+# --- Download necessary NLTK data ---
 for package in ['words', 'stopwords', 'averaged_perceptron_tagger', 'punkt']:
     try:
         nltk.data.find(f'corpora/{package}' if package in ['words', 'stopwords'] else f'taggers/{package}' if package == 'averaged_perceptron_tagger' else f'tokenizers/{package}')
 combined_job_embeddings = None
 original_job_title_embeddings = None
 LLM_PIPELINE = None
+NLP_MODEL = None # Global variable for the spaCy model
 LLM_MODEL_NAME = "microsoft/phi-2"
 FINETUNED_MODEL_ID = "its-zion-18/projfinetuned"
 KNOWN_WORDS = set()
     ranked_df = ranked_df.sort_values(by=['Skill Match Score', 'Similarity Score'], ascending=[False, False]).reset_index(drop=True)
     return ranked_df.set_index('Job ID', drop=False).rename_axis(None)
 def extract_skills_from_text(text: str):
     global NLP_MODEL
     if not isinstance(text, str) or not NLP_MODEL:
             stemmed_skills[stemmed_phrase] = skill
     return sorted(list(stemmed_skills.values()))
 def initialize_data_and_model():
     global original_df, combined_df, model, combined_job_embeddings, original_job_title_embeddings, NLP_MODEL
     print("--- Initializing LLM Client ---")
     if not initialize_llm_client(): print("Warning: LLM Client failed to initialize.")
     print("--- Loading spaCy Model for Skill Extraction ---")
     try:
         NLP_MODEL = spacy.load("en_core_web_sm")
     except Exception as e:
         print(f"🚨 ERROR loading spaCy model: {e}. Skill extraction will be disabled.")
     print("--- Loading Datasets ---")
     ds = datasets.load_dataset("its-zion-18/Jobs-tabular-dataset")
     combined_df = pd.concat([original_df.copy(), augmented_df.copy()], ignore_index=True)
     original_df = original_df.rename(columns={'Job title': 'job_title', 'Company': 'company'})
     print("--- Extracting Skills using spaCy (this may take a moment)... ---")
     original_df['Skills'] = original_df['qualifications'].apply(extract_skills_from_text)
     print("--- Loading Fine-Tuned Sentence Transformer Model ---")
     model = SentenceTransformer(FINETUNED_MODEL_ID)
     links = [("Coursera", f"https://www.coursera.org/search?query={q}"), ("edX", f"https://www.edx.org/search?q={q}"), ("Udemy", f"https://www.udemy.com/courses/search/?q={q}"), ("YouTube", f"https://www.youtube.com/results?search_query={q}+tutorial")]
     return " • ".join([f'<a href="{u}" target="_blank" style="color: #007bff;">{name}</a>' for name, u in links])
+# --- GRADIO INTERFACE FUNCTIONS ---
 def get_job_matches(dream_job: str, top_n: int, skills_text: str):
     status = "Searching using hybrid model..."