Spaces:

prince4332
/

RecommendationSystem

Sleeping

App Files Files Community

prince4332 commited on Dec 9, 2025

Commit

e356b06

verified ·

1 Parent(s): 4c1d72f

Update app.py

Browse files

Files changed (1) hide show

app.py +19 -7

app.py CHANGED Viewed

@@ -37,7 +37,7 @@ initial_user_history = pd.DataFrame({
 synthetic_user_history = initial_user_history.copy()
 # Load the new combined sampled data
-combined_sampled_data = pd.read_csv('./sampled_movie_ratings_500.csv')
 # Extract raw_ratings_df from the combined data
 raw_ratings_df = combined_sampled_data[['userId', 'movieId', 'rating', 'timestamp']].copy()
@@ -76,9 +76,12 @@ for user_id in range(1, n_users + 1):
 # Append mock ratings to the initial ratings_df
 ratings_df = pd.concat([ratings_df, pd.DataFrame(mock_ratings)], ignore_index=True)
 # Function to rebuild recommendation models based on current history
 def rebuild_models():
-    global user_item_matrix, user_similarity_df, content_similarity
     # Merge synthetic user into the ratings dataset
     all_ratings = pd.concat([
@@ -114,6 +117,9 @@ def rebuild_models():
     tfidf_matrix = tfidf.fit_transform(movies_db['genres'])
     content_similarity = cosine_similarity(tfidf_matrix, tfidf_matrix)
 # Initialize models
 rebuild_models()
@@ -183,14 +189,20 @@ def get_top_movies(user_id, search_query=None, n=15, alpha=0.6):
         if len(user_rated_movies) > 0:
             # Find the positional index of the movie in movies_db for content_similarity
             # Ensure movie_id exists in movies_db before proceeding
-            if movie_id in movies_db['movieId'].values:
-                movie_idx = movies_db.index[movies_db['movieId'] == movie_id][0]
                 for rated_movie_id in user_rated_movies:
                     # Ensure rated_movie_id exists in movies_db before proceeding
-                    if rated_movie_id in movies_db['movieId'].values:
-                        rated_idx = movies_db.index[movies_db['movieId'] == rated_movie_id][0]
-                        content_score += content_similarity[movie_idx, rated_idx]
                 content_score = content_score / len(user_rated_movies)

 synthetic_user_history = initial_user_history.copy()
 # Load the new combined sampled data
+combined_sampled_data = pd.read_csv('./sampled_movie_ratings_for_gradio.csv')
 # Extract raw_ratings_df from the combined data
 raw_ratings_df = combined_sampled_data[['userId', 'movieId', 'rating', 'timestamp']].copy()
 # Append mock ratings to the initial ratings_df
 ratings_df = pd.concat([ratings_df, pd.DataFrame(mock_ratings)], ignore_index=True)
+# Global variable for movie_id to positional index mapping
+movie_id_to_idx = {}
 # Function to rebuild recommendation models based on current history
 def rebuild_models():
+    global user_item_matrix, user_similarity_df, content_similarity, movie_id_to_idx
     # Merge synthetic user into the ratings dataset
     all_ratings = pd.concat([
     tfidf_matrix = tfidf.fit_transform(movies_db['genres'])
     content_similarity = cosine_similarity(tfidf_matrix, tfidf_matrix)
+    # Create a mapping from movieId to its 0-based positional index in movies_db
+    movie_id_to_idx = {movie_id: idx for idx, movie_id in enumerate(movies_db['movieId'])}
 # Initialize models
 rebuild_models()
         if len(user_rated_movies) > 0:
             # Find the positional index of the movie in movies_db for content_similarity
             # Ensure movie_id exists in movies_db before proceeding
+            if movie_id in movie_id_to_idx:
+                movie_idx = movie_id_to_idx[movie_id]
                 for rated_movie_id in user_rated_movies:
                     # Ensure rated_movie_id exists in movies_db before proceeding
+                    if rated_movie_id in movie_id_to_idx:
+                        rated_idx = movie_id_to_idx[rated_movie_id]
+                        # Ensure indices are within bounds of content_similarity
+                        if rated_idx < content_similarity.shape[1] and movie_idx < content_similarity.shape[0]:
+                            content_score += content_similarity[movie_idx, rated_idx]
+                        else:
+                            # Handle cases where index might still be out of bounds due to data inconsistencies
+                            # This could happen if movies_db was somehow out of sync with content_similarity
+                            print(f"Warning: Content similarity index out of bounds for movie_id={movie_id} or rated_movie_id={rated_movie_id}")
                 content_score = content_score / len(user_rated_movies)