Upload folder using huggingface_hub

Browse files

Files changed (12) hide show

.gitattributes +4 -35
.gitignore +2 -0
README.txt +1 -0
api.py +88 -0
app.py +23 -0
embeddings.npy +3 -0
extract_tokenizer.py +34 -0
movies.json +3 -0
requirements.txt +4 -0
tf_model.keras +3 -0
tokenizer.pkl +3 -0
tokenizer_vocab.json +3 -0

.gitattributes CHANGED Viewed

@@ -1,35 +1,4 @@
-*.7z filter=lfs diff=lfs merge=lfs -text
-*.arrow filter=lfs diff=lfs merge=lfs -text
-*.bin filter=lfs diff=lfs merge=lfs -text
-*.bz2 filter=lfs diff=lfs merge=lfs -text
-*.ckpt filter=lfs diff=lfs merge=lfs -text
-*.ftz filter=lfs diff=lfs merge=lfs -text
-*.gz filter=lfs diff=lfs merge=lfs -text
-*.h5 filter=lfs diff=lfs merge=lfs -text
-*.joblib filter=lfs diff=lfs merge=lfs -text
-*.lfs.* filter=lfs diff=lfs merge=lfs -text
-*.mlmodel filter=lfs diff=lfs merge=lfs -text
-*.model filter=lfs diff=lfs merge=lfs -text
-*.msgpack filter=lfs diff=lfs merge=lfs -text
-*.npy filter=lfs diff=lfs merge=lfs -text
-*.npz filter=lfs diff=lfs merge=lfs -text
-*.onnx filter=lfs diff=lfs merge=lfs -text
-*.ot filter=lfs diff=lfs merge=lfs -text
-*.parquet filter=lfs diff=lfs merge=lfs -text
-*.pb filter=lfs diff=lfs merge=lfs -text
-*.pickle filter=lfs diff=lfs merge=lfs -text
-*.pkl filter=lfs diff=lfs merge=lfs -text
-*.pt filter=lfs diff=lfs merge=lfs -text
-*.pth filter=lfs diff=lfs merge=lfs -text
-*.rar filter=lfs diff=lfs merge=lfs -text
-*.safetensors filter=lfs diff=lfs merge=lfs -text
-saved_model/**/* filter=lfs diff=lfs merge=lfs -text
-*.tar.* filter=lfs diff=lfs merge=lfs -text
-*.tar filter=lfs diff=lfs merge=lfs -text
-*.tflite filter=lfs diff=lfs merge=lfs -text
-*.tgz filter=lfs diff=lfs merge=lfs -text
-*.wasm filter=lfs diff=lfs merge=lfs -text
-*.xz filter=lfs diff=lfs merge=lfs -text
-*.zip filter=lfs diff=lfs merge=lfs -text
-*.zst filter=lfs diff=lfs merge=lfs -text
-*tfevents* filter=lfs diff=lfs merge=lfs -text

+*.npy filter=lfs diff=lfs merge=lfs -text
+*.json filter=lfs diff=lfs merge=lfs -text
+*.keras filter=lfs diff=lfs merge=lfs -text
+*.pkl filter=lfs diff=lfs merge=lfs -text

.gitignore ADDED Viewed

	@@ -0,0 +1,2 @@


1	+ **/__pycache__/
2	+ temp/

README.txt ADDED Viewed

	@@ -0,0 +1 @@


1	+ Keras 3 Transformer Movie Recommender – max compatibility build

api.py ADDED Viewed

	@@ -0,0 +1,88 @@

+import numpy as np
+import pandas as pd
+import json
+import pickle
+import io
+from sklearn.metrics.pairwise import cosine_similarity
+class MovieRecommender:
+    def __init__(self, model_path="."):
+        self.embeddings = np.load(f"{model_path}/embeddings.npy")
+        self.embeddings = np.nan_to_num(self.embeddings)
+        # Try loading from JSON first (preferred)
+        try:
+            with open(f"{model_path}/tokenizer_vocab.json", "r") as f:
+                self.tokenizer = json.load(f)
+        except FileNotFoundError:
+            # Fallback: extract vocab from pickle file using BytesIO
+            self.tokenizer = self._extract_vocab_from_pickle(f"{model_path}/tokenizer.pkl")
+            # Save as JSON for future use
+            with open(f"{model_path}/tokenizer_vocab.json", "w") as f:
+                json.dump(self.tokenizer, f)
+        self.movies = pd.read_json(f"{model_path}/movies.json")
+    def _extract_vocab_from_pickle(self, filepath):
+        """Extract vocabulary dictionary from pickle file by analyzing its structure"""
+        with open(filepath, "rb") as f:
+            pickle_data = f.read()
+        # Try to find dict-like structures in the pickle
+        try:
+            # Use pickletools to analyze and reconstruct
+            unpickler = pickle.Unpickler(io.BytesIO(pickle_data))
+            # Disable loading of classes that don't exist
+            unpickler.find_class = lambda module, name: dict
+            try:
+                result = unpickler.load()
+                if isinstance(result, dict):
+                    return result
+            except:
+                pass
+        except:
+            pass
+        # Fallback: scan for dictionary patterns in pickle bytecode
+        try:
+            memo = {}
+            stack = []
+            # Read pickle opcodes manually
+            import pickletools
+            ops = []
+            for opcode, arg, pos in pickletools.genops(pickle_data):
+                ops.append((opcode.name, arg))
+            # Look for dictionary-like structures
+            for i, (op, arg) in enumerate(ops):
+                if op == 'EMPTY_DICT' or op == 'DICT':
+                    # Found a dict operation
+                    try:
+                        # Try to reconstruct from this point
+                        subset = pickle_data[:pos+10] # pyright: ignore[reportOptionalOperand]
+                        test_unpickler = pickle.Unpickler(io.BytesIO(subset))
+                        test_unpickler.find_class = lambda m, n: None
+                    except:
+                        pass
+        except:
+            pass
+        # Final fallback: return empty dict
+        print("Warning: Could not extract vocabulary from pickle. Using empty tokenizer.")
+        print("Recommendation quality will be limited.")
+        return {}
+    def _encode(self, prompt):
+        tokens = prompt.lower().split()[:32]
+        ids = [self.tokenizer.get(t, 0) for t in tokens]
+        ids = [i if i < len(self.embeddings) else 0 for i in ids]
+        return np.array(ids)[None,:]
+    def recommend(self, prompt, topk=10):
+        q_ids = self._encode(prompt)
+        query_vec = np.sum(self.embeddings[q_ids], axis=1)
+        sims = cosine_similarity(query_vec, self.embeddings).flatten()
+        idx = sims.argsort()[::-1][:topk]
+        return self.movies.iloc[idx][["title","release_date","vote_average","vote_count","status"]]

app.py ADDED Viewed

	@@ -0,0 +1,23 @@

+import gradio as gr
+from api import MovieRecommender
+recommender = MovieRecommender()
+def recommend_movies(prompt, topk):
+    df = recommender.recommend(prompt, topk=int(topk))
+    return df
+demo = gr.Interface(
+    fn=recommend_movies,
+    inputs=[
+        gr.Textbox(label="Movie prompt", placeholder="action thriller with robots"),
+        gr.Slider(1, 20, value=5, step=1, label="Top K")
+    ],
+    outputs=gr.Dataframe(label="Recommendations"),
+    title="🎬 Movie Nerd",
+    description="Prompt-based movie recommendations using embeddings"
+)
+if __name__ == "__main__":
+    demo.launch()

embeddings.npy ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:80d481b4fb2494b02d67e19ab6e6da0ea5a2d1529629734ca3b48b05074904ae
+size 586438272

extract_tokenizer.py ADDED Viewed

	@@ -0,0 +1,34 @@

+import pickle
+import json
+import sys
+import string
+class SimpleTokenizer:
+    def __init__(self, vocab=None):
+        self.vocab = vocab or {}
+def is_clean_token(t):
+    return isinstance(t, str) and t.isprintable() and not any(c in t for c in "\u0000\uFFFD")
+try:
+    with open("tokenizer.pkl", "rb") as f:
+        tokenizer_obj = pickle.load(f)
+    vocab = tokenizer_obj.vocab if hasattr(tokenizer_obj, "vocab") else tokenizer_obj
+    clean_vocab = {
+        k: v for k, v in vocab.items()
+        if is_clean_token(k)
+    }
+    with open("tokenizer_vocab.json", "w", encoding="utf-8") as f:
+        json.dump(clean_vocab, f, indent=2, ensure_ascii=True)
+    print("✓ Clean vocab extracted")
+    print(f"✓ Original size: {len(vocab)}")
+    print(f"✓ Clean size: {len(clean_vocab)}")
+except Exception as e:
+    print(f"✗ Error: {e}")
+    sys.exit(1)

movies.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:8cb113e2ac436edd0b2809022e4d4f087660d002f899a124191db209d5d1228a
+size 1452912008

requirements.txt ADDED Viewed

	@@ -0,0 +1,4 @@

+numpy
+pandas
+scikit-learn
+gradio

tf_model.keras ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:9d34b163498fd09e0842c58a9a0cb70825665217d25a89c8767899ee35f030bb
+size 532345057

tokenizer.pkl ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:dce99c3a78b1c97f4cd0e2202bf078c76c0bb7b08e2985dc2c55779839d36c75
+size 17203306

tokenizer_vocab.json ADDED Viewed

	@@ -0,0 +1,3 @@

+version https://git-lfs.github.com/spec/v1
+oid sha256:de33a8fc638dbf6f9916d4046150c15a06c1aa7f6cbebd6e5a10b89becb3bc31
+size 25721622