Spaces:

bt5153-books
/

README

Running

README / model.py

Yew Chong

UI update

79ebb2c almost 2 years ago

15.9 kB

	import numpy as np
	import pandas as pd
	from tqdm import tqdm
	import pickle
	import os
	from collections import defaultdict
	import random
	import warnings
	import logging

	from langchain_community.embeddings import HuggingFaceBgeEmbeddings
	from langchain_community.vectorstores import FAISS

	warnings.filterwarnings("ignore")
	random.seed(5153)
	logging.basicConfig(level=logging.DEBUG)


	class Model:
	def __init__(self):
	self.cache_path = "Data/cache.pkl"
	self.is_loaded = False
	self.dataset = None
	self.predictions = None
	self.user_details = None
	self.temp_store = None
	self.pipeline = None
	self.chosen_books_per_user = None
	self.all_books = pd.read_csv("Data/books.csv")
	logging.info("Initialized model")

	def run_predictions_on_full_test(self):
	if self.is_loaded:
	logging.info("Model is already loaded")
	return
	if self.does_cache_exist():
	logging.info("Retrieving cached full-test predictions")
	self.retrieve_cache()
	logging.info("Completed full-test")
	return
	logging.info("Generating full-test predictions")
	reviews_df = pd.read_csv("Data/final_dataset/reviews_test.csv")
	good_reviews = reviews_df[reviews_df['rating'] > 3]
	good_user_books_dict = good_reviews.groupby('user_id')['book_id'].unique().apply(list).to_dict()

	# to further minimize compute time, we only use 20 (randomly sampled) users
	num_random_users = 20
	randomly_sampled_users = random.sample(list(good_user_books_dict.keys()), num_random_users)
	sampled_good_user_books_dict = {user_id: good_user_books_dict[user_id] for user_id in randomly_sampled_users}

	# to minimize compute time, we take only 150 random (good) books per user
	# prepare it in the form of user_id -> list[book_id]
	num_rand_books_per_user = 150
	chosen_books_per_user = {
	user_id: random.sample(books, min(len(books), num_rand_books_per_user))
	for user_id, books in sampled_good_user_books_dict.items()
	}

	# save this for reference
	self.chosen_books_per_user = chosen_books_per_user

	# run predictions on all of the above users
	self.prepare_predictions(chosen_books_per_user)
	logging.info("Caching full-test predictions")
	self.cache_results()
	logging.info("Completed full-test")

	def run_prediction_on_adhoc_user(self, chosen_book_ids):
	self.prepare_predictions(
	{'current_user': chosen_book_ids}
	)

	def prepare_predictions(self, target_users_and_books):
	"""
	Given a dictionary of user_id to list[book_id], where the list of book IDs are the books favored by
	the associated user, this function returns the recommended books for each user provided in the dictionary

	:param target_users_and_books: Dictionary of user ID to favored books (as book IDs)
	:return: Dataframe of user IDs and associated recommended books, plus individual model scores
	"""
	target_user_list = list(target_users_and_books.keys())

	file_dict = {}
	for filename in ['reviews_test', 'users_test', 'reviews_sub']:
	file_dict[filename] = pd.read_csv(f'Data/final_dataset/{filename}.csv')

	file_dict['users'] = file_dict['users_test']
	file_dict['reviews'] = file_dict['reviews_test']

	file_dict['good_reviews'] = file_dict['reviews'][file_dict['reviews']['rating'] > 3]
	file_dict['books'] = pd.read_csv('Data/books.csv')

	#################################################################################
	# GENRE MODEL; DESCRIPTION MODEL; TITLE MODEL; BOOK STATS CLUSTER MODEL
	#################################################################################

	clusterbooks = pd.DataFrame(
	np.load('Data/Recommended Storage/cluster_books.npy', allow_pickle=True),
	columns=['target_book', 'recco_book_id', 'similarity_score']).astype(float) # wasn't saved as float
	genrebooks = pd.DataFrame(
	np.load('Data/Recommended Storage/genres_books.npy', allow_pickle=True),
	columns=['target_book', 'recco_book_id', 'similarity_score'])
	descbooks = pd.DataFrame(
	np.load('Data/Recommended Storage/description_books.npy', allow_pickle=True),
	columns=['target_book', 'recco_book_id', 'similarity_score'])
	revbooks = pd.DataFrame(
	np.load('Data/Recommended Storage/reviews_books_new.npy', allow_pickle=True),
	columns=['target_book', 'recco_book_id', 'similarity_score'])

	def optimized_converter(simbooks, user_id_list, name, prog_bar_description):
	user_ratings_list = pd.DataFrame(columns=['user_id', 'recco_book_id', 'similarity_score'])
	for curr_user_id in tqdm(user_id_list, desc=prog_bar_description):
	curr_user_books = pd.Series(target_users_and_books[curr_user_id])
	relevant_simbooks = simbooks[simbooks['target_book'].isin(curr_user_books)]
	summed_scores = relevant_simbooks.groupby('recco_book_id')['similarity_score'].sum().reset_index()
	summed_scores['user_id'] = curr_user_id
	if not curr_user_books.empty:
	summed_scores = summed_scores[~summed_scores['recco_book_id'].isin(curr_user_books)]
	# TODO: Think about how to adjust this for small number of books
	summed_scores['similarity_score'] /= len(curr_user_books)
	top_30 = summed_scores.nlargest(30, 'similarity_score')
	user_ratings_list = pd.concat([user_ratings_list, top_30], ignore_index=True)
	return user_ratings_list.rename(columns={'recco_book_id': 'book_id', 'similarity_score': name})

	genre_users = optimized_converter(genrebooks, target_user_list, 'gen_score', "Generating recs (genre)")
	cluster_users = optimized_converter(clusterbooks, target_user_list, 'clus_score',
	"Generating recs (book stats cluster)")
	description_users = optimized_converter(descbooks, target_user_list, 'desc_score',
	"Generating recs (description)")
	reviews_users = optimized_converter(revbooks, target_user_list, 'rev_score', "Generating recs (reviews)")

	#################################################################################
	# USER SIMILARITY CLUSTERING MODEL
	#################################################################################

	def jaccard_similarity_pandas(target_user, reviews_sub, n):
	target_user_books = target_users_and_books[target_user]
	relevant_reviews = reviews_sub[reviews_sub['book_id'].isin(target_user_books)]
	intersections = relevant_reviews.groupby('user_id').size()
	# all_books = pd.concat(
	# [df[df['user_id'] == target_user]['book_id'], reviews_sub['book_id']]).drop_duplicates()
	user_book_counts = reviews_sub.groupby('user_id')['book_id'].nunique()
	unions = len(target_user_books) + user_book_counts - intersections
	jaccard_index = intersections / unions
	top_n_users = jaccard_index.nlargest(n)
	return top_n_users.reset_index().values.tolist()

	def recommend_books(target_user_id, reviews_sub, num_books):
	# df = reviews_sub[(reviews_sub['rating'].isin([4, 5]))]
	top_n_similar_users = jaccard_similarity_pandas(target_user_id, reviews_sub, n=20)
	target_user_books = target_users_and_books[target_user_id]
	similar_users_reviews = reviews_sub[reviews_sub['user_id'].isin([user[0] for user in top_n_similar_users])]

	recommended_books = defaultdict(float)
	for curr_user_id, similarity_score in top_n_similar_users:
	user_reviews = similar_users_reviews[similar_users_reviews['user_id'] == curr_user_id]
	for _, row in user_reviews.iterrows():
	if row['book_id'] not in target_user_books:
	recommended_books[row['book_id']] += similarity_score

	# Return top recommended books sorted by score
	sorted_recommended_books = sorted(recommended_books.items(), key=lambda x: x[1], reverse=True)
	return [(target_user_id, book_id, book_score) for book_id, book_score in
	sorted_recommended_books[:num_books]]

	all_recommendations = []

	for each_user_id in tqdm(target_user_list, desc="Generating recs (users)"):
	recommendations = recommend_books(each_user_id, file_dict['reviews_sub'], 30)
	all_recommendations.extend(recommendations)
	user_users = pd.DataFrame(all_recommendations, columns=['user_id', 'book_id', 'user_score'])
	user_users.head()

	#################################################################################
	# TITLE SIMILARITY MODEL
	#################################################################################

	store = FAISS.load_local(
	"Data/faiss_store",
	HuggingFaceBgeEmbeddings(
	model_kwargs={"device": "cpu"},
	encode_kwargs={"normalize_embeddings": True}
	),
	allow_dangerous_deserialization=True
	)

	title_output = []
	for user_id, books in tqdm(target_users_and_books.items(), desc="Generating recs (title)"):
	user_book_id = target_users_and_books[user_id]
	user_books = file_dict['books'][(file_dict['books']['book_id'].isin(user_book_id))]
	titles = '\n'.join(user_books['title_without_series']) # Using titles without series for queries
	results = store.similarity_search_with_score(titles, k=80)
	for result, score in results:
	if result.metadata.get('book_id') not in user_books:
	title_output.append([user_id, result.metadata.get('book_id'), 1 - score])

	# Save formatted
	title_users = pd.DataFrame(title_output, columns=['user_id', 'book_id', 'tit_score'])

	#################################################################################
	# COMBINING MODEL OUTPUTS
	#################################################################################

	self.temp_store = {
	'cluster': cluster_users,
	'genre': genre_users,
	'desc': description_users,
	'reviews': reviews_users,
	'users': user_users,
	'title': title_users,
	}

	combined_df = pd.merge(cluster_users, genre_users, on=['user_id', 'book_id'], how='outer')
	combined_df = pd.merge(combined_df, description_users, on=['user_id', 'book_id'], how='outer')
	combined_df = pd.merge(combined_df, reviews_users, on=['user_id', 'book_id'], how='outer')
	combined_df = pd.merge(combined_df, user_users, on=['user_id', 'book_id'], how='outer')
	combined_df = pd.merge(combined_df, title_users, on=['user_id', 'book_id'], how='outer')

	combined_df.fillna(0, inplace=True)
	combined_df['book_id'] = combined_df['book_id'].astype(int)
	combined_df['tit_score'] = combined_df['tit_score'].astype(float)

	reviews_df = file_dict['reviews'][file_dict['reviews']['rating'].isin([1, 2, 3, 4, 5])]
	reviews_filtered = reviews_df[['user_id', 'book_id', 'rating']]
	combined_df = combined_df.merge(reviews_filtered, on=['user_id', 'book_id'], how='left')
	combined_df.rename(columns={'rating': 'target'}, inplace=True)
	combined_df['binary'] = np.where(combined_df['target'] >= 4, 1, 0)

	# remove books which are not recommended at all
	combined_df = combined_df[
	(combined_df[['clus_score', 'gen_score', 'desc_score', 'rev_score', 'user_score', 'tit_score']] != 0).any(
	axis=1)]

	with open("Data/final_model.pkl", 'rb') as file:
	self.pipeline = pickle.load(file)

	X_test = combined_df.drop(columns=['user_id', 'book_id', 'target', 'binary'])
	predictions_df = combined_df[
	['user_id', 'book_id', 'clus_score', 'gen_score', 'desc_score', 'rev_score', 'user_score',
	'tit_score', 'target', 'binary']].copy()
	predictions_df['final_score'] = self.pipeline.predict_proba(X_test).T[1]
	predictions_df['would_recommend'] = predictions_df['final_score'] >= 0.45 # peak f2 score at this threshold
	predictions_df = predictions_df.sort_values(['user_id', 'final_score'], ascending=[True, False])

	self.dataset = combined_df
	self.predictions = predictions_df

	def prepare_user_details(self):
	users_list = self.dataset['user_id'].unique()

	users_df = pd.read_csv("Data/final_dataset/users_test.csv")
	books_df = pd.read_csv("Data/final_dataset/books_test.csv")

	# filter to keep only relevant users
	users_df = users_df[users_df['user_id'].isin(users_list)]
	# merge to get book and review data
	full_df = users_df.merge(books_df, on="user_id")

	user_details = pd.DataFrame()
	top_books_per_user = full_df.groupby("user_id").apply(
	lambda x: x.sort_values('rating').nlargest(n=5, columns='rating')['title_without_series'].tolist())
	user_details['top_books'] = top_books_per_user

	self.user_details = user_details

	def get_user_predictions(self, chosen_user):
	logging.info(f"Generating predictions for user: {chosen_user}")
	user_predictions = self.predictions[self.predictions['user_id'] == chosen_user]
	user_predictions = user_predictions.dropna(subset=['target'])
	if len(user_predictions) == 0:
	logging.info(f"No predictions hit! Exiting early")
	return None

	# transform model scores using the pipeline (scaler + logistic regression coefficients)
	# specifically, apply scaler then apply linear layer of logistic regression
	model_score_cols = [c for c in user_predictions.columns if c.endswith('_score') and c != 'final_score']
	scaled_model_scores = self.pipeline['scaler'].transform(user_predictions[model_score_cols])
	multed_model_scores = scaled_model_scores * self.pipeline['classifier'].coef_[0]
	final_model_scores = pd.DataFrame(multed_model_scores, columns=model_score_cols)
	final_model_scores['intercept'] = self.pipeline['classifier'].intercept_[0]

	columns = ['book_id', 'target', 'final_score', 'would_recommend']
	predictions_and_score = pd.concat(
	[user_predictions[columns].reset_index(drop=True), final_model_scores],
	axis=1
	)
	return predictions_and_score.merge(self.all_books[['book_id', 'title_without_series']], on='book_id')

	def cache_results(self):
	with open(self.cache_path, 'wb+') as f:
	to_pickle = dict()
	to_pickle['dataset'] = self.dataset
	to_pickle['predictions'] = self.predictions
	to_pickle['temp_store'] = self.temp_store
	to_pickle['pipeline'] = self.pipeline
	to_pickle['chosen_books'] = self.chosen_books_per_user
	# to_pickle['user_details'] = self.user_details
	pickle.dump(to_pickle, f)
	self.is_loaded = True

	def does_cache_exist(self):
	return os.path.exists(self.cache_path)

	def retrieve_cache(self):
	with open(self.cache_path, 'rb') as f:
	unpickled = pickle.load(f)
	for key, val in unpickled.items():
	exec(f"self.{key} = val")
	self.is_loaded = True