Spaces:

SoS13
/

resume-analyzer

Running

App Files Files Community

resume-analyzer / train_ats_model.py

SoS13

Upload 10 files

84610b4 verified about 1 month ago

raw

history blame contribute delete

3.03 kB

	import pandas as pd
	import pickle
	import numpy as np
	from datasets import load_dataset
	from sklearn.metrics.pairwise import cosine_similarity
	from sklearn.ensemble import GradientBoostingRegressor
	from sklearn.model_selection import train_test_split
	import re
	import time

	def train_ats_scorer():
	# 1. Load Dependencies
	print("Loading TF-IDF Vectorizer (from Step 1)...")
	try:
	tfidf = pickle.load(open('tfidf.pkl', 'rb'))
	except FileNotFoundError:
	print("ERROR: 'tfidf.pkl' not found. Run 'train_model.py' first!")
	exit()

	# 2. Load ATS Dataset (0xnbk)
	print("Loading 0xnbk/resume-ats-score-v1-en...")
	try:
	ds = load_dataset("0xnbk/resume-ats-score-v1-en")
	df = pd.DataFrame(ds['train'])
	print(f"Loaded {len(df)} rows.")
	except Exception as e:
	print(f"Error loading dataset: {e}")
	exit()

	# 3. Pre-Process
	res_col = 'text'
	score_col = 'ats_score'
	cat_col = 'original_label'

	df[score_col] = pd.to_numeric(df[score_col], errors='coerce')
	df.dropna(subset=[score_col, res_col], inplace=True)

	# 4. Generate Training Prototypes
	print("Generating Training Prototypes...")
	# Group resumes by label to simulate "Job Descriptions"
	train_prototypes = df.groupby(cat_col)[res_col].apply(lambda x: ' '.join(x)).to_dict()

	# Optimization: Pre-calculate vectors
	print("Pre-calculating vectors...")
	proto_vectors = {}
	proto_tokens = {}

	for cat, text in train_prototypes.items():
	proto_vectors[cat] = tfidf.transform([text])
	proto_tokens[cat] = set(re.findall(r'\w+', text.lower()))

	# 5. Feature Engineering
	print("Calculating features...")
	cosine_sims = []
	keyword_matches = []

	for i, row in enumerate(df.itertuples()):
	text = str(getattr(row, res_col))
	cat = getattr(row, cat_col)

	if cat in proto_vectors:
	# Feature 1: Similarity
	vec = tfidf.transform([text])
	target_vec = proto_vectors[cat]
	sim = cosine_similarity(vec, target_vec)[0][0]

	# Feature 2: Keyword Match
	tokens = set(re.findall(r'\w+', text.lower()))
	target_tokens = proto_tokens[cat]
	match = len(tokens.intersection(target_tokens)) / len(target_tokens) if target_tokens else 0
	else:
	sim = 0
	match = 0

	cosine_sims.append(sim)
	keyword_matches.append(match)

	df['cosine_sim'] = cosine_sims
	df['keyword_match'] = keyword_matches

	# 6. Train Regressor
	print("Training ATS Regressor...")
	X = df[['cosine_sim', 'keyword_match']]
	y = df[score_col]

	reg = GradientBoostingRegressor()
	reg.fit(X, y)

	# 7. Save
	pickle.dump(reg, open('ats_scorer.pkl', 'wb'))
	print("SUCCESS: 'ats_scorer.pkl' saved.")

	if __name__ == "__main__":
	train_ats_scorer()