Spaces:

rijdev
/

movieReco

Sleeping

App Files Files Community

rijdev commited on May 16, 2025

Commit

90cb33d

verified ·

1 Parent(s): 9e9eddc

Update app.py

Browse files

Files changed (1) hide show

app.py +12 -17

app.py CHANGED Viewed

@@ -2,30 +2,25 @@ import gradio as gr
 import pandas as pd
 from datasets import load_dataset
-# 1. Load MovieLens 100K from the Hub
-ml = load_dataset("movielens", "100k")            # train + test splits
-df = pd.concat([
-    ml["train"].to_pandas(),
-    ml["test"].to_pandas()
-], ignore_index=True)
-# 2. Extract year and prepare genres
 df["year"] = pd.to_datetime(df["timestamp"], unit="s").dt.year
-# movieId → title/genres mapping is in the "movies" config
-movies = load_dataset("movielens", "100k", split="train") \
-            .to_pandas()[["movieId","title","genres"]].drop_duplicates()
-df = df.merge(movies, on="movieId", how="left")
-# 3. Deduplicate for metadata
-metadata = df[["title","genres","year"]].drop_duplicates()
 def recommend_by_genre_year(genre, year, top_k=5):
     mask_genre = metadata["genres"].str.lower().str.contains(genre.lower())
     mask_year  = metadata["year"] >= year
     candidates = metadata[mask_genre & mask_year]
     if candidates.empty:
         return f"No {genre.title()} movies found from {year} onward."
-    picks = candidates.sample(min(top_k, len(candidates)))
     return "\n".join(f"• {row.title} ({row.year})" for _, row in picks.iterrows())
 iface = gr.Interface(
@@ -38,8 +33,8 @@ iface = gr.Interface(
     outputs="text",
     title="🎬 Online MovieLens Recommender",
     description="""
-Pulls MovieLens 100K live from Hugging Face Datasets—no local files needed.
-Filters by genre substring and release year (inferred from timestamp).
 """
 )

 import pandas as pd
 from datasets import load_dataset
+# 1) Load the community MovieLens 100K (includes title, genres, timestamp)
+movies_raw = load_dataset("bstds/movielens", split="train")  # :contentReference[oaicite:1]{index=1}
+# 2) Convert to pandas and extract year
+df = movies_raw.to_pandas()
 df["year"] = pd.to_datetime(df["timestamp"], unit="s").dt.year
+# 3) Deduplicate metadata
+metadata = df[["title", "genres", "year"]].drop_duplicates()
 def recommend_by_genre_year(genre, year, top_k=5):
     mask_genre = metadata["genres"].str.lower().str.contains(genre.lower())
     mask_year  = metadata["year"] >= year
     candidates = metadata[mask_genre & mask_year]
     if candidates.empty:
         return f"No {genre.title()} movies found from {year} onward."
+    picks = candidates.sample(n=min(top_k, len(candidates)))
     return "\n".join(f"• {row.title} ({row.year})" for _, row in picks.iterrows())
 iface = gr.Interface(
     outputs="text",
     title="🎬 Online MovieLens Recommender",
     description="""
+Uses the community MovieLens-100K dataset (via `bstds/movielens`) to filter by genre
+and year (inferred from timestamp). No local files needed.
 """
 )