Spaces:

yigitcanozdemir
/

CineSearch-Demo-Backend

Running

App Files Files Community

yigitcanozdemir commited on Jul 5

Commit

20ce711

1 Parent(s): 58b5538

Commit fix

Browse files

Files changed (5) hide show

.gitignore +1 -2
.gradio/certificate.pem +0 -31
models/embedding_model.py +13 -0
models/pydantic_schemas.py +27 -0
models/recommendation_engine.py +120 -0

.gitignore CHANGED Viewed

@@ -107,7 +107,7 @@ ipython_config.py
 # PEP 582
 __pypackages__/
 # Celery stuff
 celerybeat-schedule
 celerybeat.pid
@@ -160,5 +160,4 @@ cython_debug/
 *.rdb
 # Exclude trained models
-/models/
 =*.0*

 # PEP 582
 __pypackages__/
+.gradio/
 # Celery stuff
 celerybeat-schedule
 celerybeat.pid
 *.rdb
 # Exclude trained models
 =*.0*

.gradio/certificate.pem DELETED Viewed

@@ -1,31 +0,0 @@
------BEGIN CERTIFICATE-----
-MIIFazCCA1OgAwIBAgIRAIIQz7DSQONZRGPgu2OCiwAwDQYJKoZIhvcNAQELBQAw
-TzELMAkGA1UEBhMCVVMxKTAnBgNVBAoTIEludGVybmV0IFNlY3VyaXR5IFJlc2Vh
-cmNoIEdyb3VwMRUwEwYDVQQDEwxJU1JHIFJvb3QgWDEwHhcNMTUwNjA0MTEwNDM4
-WhcNMzUwNjA0MTEwNDM4WjBPMQswCQYDVQQGEwJVUzEpMCcGA1UEChMgSW50ZXJu
-ZXQgU2VjdXJpdHkgUmVzZWFyY2ggR3JvdXAxFTATBgNVBAMTDElTUkcgUm9vdCBY
-MTCCAiIwDQYJKoZIhvcNAQEBBQADggIPADCCAgoCggIBAK3oJHP0FDfzm54rVygc
-h77ct984kIxuPOZXoHj3dcKi/vVqbvYATyjb3miGbESTtrFj/RQSa78f0uoxmyF+
-0TM8ukj13Xnfs7j/EvEhmkvBioZxaUpmZmyPfjxwv60pIgbz5MDmgK7iS4+3mX6U
-A5/TR5d8mUgjU+g4rk8Kb4Mu0UlXjIB0ttov0DiNewNwIRt18jA8+o+u3dpjq+sW
-T8KOEUt+zwvo/7V3LvSye0rgTBIlDHCNAymg4VMk7BPZ7hm/ELNKjD+Jo2FR3qyH
-B5T0Y3HsLuJvW5iB4YlcNHlsdu87kGJ55tukmi8mxdAQ4Q7e2RCOFvu396j3x+UC
-B5iPNgiV5+I3lg02dZ77DnKxHZu8A/lJBdiB3QW0KtZB6awBdpUKD9jf1b0SHzUv
-KBds0pjBqAlkd25HN7rOrFleaJ1/ctaJxQZBKT5ZPt0m9STJEadao0xAH0ahmbWn
-OlFuhjuefXKnEgV4We0+UXgVCwOPjdAvBbI+e0ocS3MFEvzG6uBQE3xDk3SzynTn
-jh8BCNAw1FtxNrQHusEwMFxIt4I7mKZ9YIqioymCzLq9gwQbooMDQaHWBfEbwrbw
-qHyGO0aoSCqI3Haadr8faqU9GY/rOPNk3sgrDQoo//fb4hVC1CLQJ13hef4Y53CI
-rU7m2Ys6xt0nUW7/vGT1M0NPAgMBAAGjQjBAMA4GA1UdDwEB/wQEAwIBBjAPBgNV
-HRMBAf8EBTADAQH/MB0GA1UdDgQWBBR5tFnme7bl5AFzgAiIyBpY9umbbjANBgkq
-hkiG9w0BAQsFAAOCAgEAVR9YqbyyqFDQDLHYGmkgJykIrGF1XIpu+ILlaS/V9lZL
-ubhzEFnTIZd+50xx+7LSYK05qAvqFyFWhfFQDlnrzuBZ6brJFe+GnY+EgPbk6ZGQ
-3BebYhtF8GaV0nxvwuo77x/Py9auJ/GpsMiu/X1+mvoiBOv/2X/qkSsisRcOj/KK
-NFtY2PwByVS5uCbMiogziUwthDyC3+6WVwW6LLv3xLfHTjuCvjHIInNzktHCgKQ5
-ORAzI4JMPJ+GslWYHb4phowim57iaztXOoJwTdwJx4nLCgdNbOhdjsnvzqvHu7Ur
-TkXWStAmzOVyyghqpZXjFaH3pO3JLF+l+/+sKAIuvtd7u+Nxe5AW0wdeRlN8NwdC
-jNPElpzVmbUq4JUagEiuTDkHzsxHpFKVK7q4+63SM1N95R1NbdWhscdCb+ZAJzVc
-oyi3B43njTOQ5yOf+1CceWxG1bQVs5ZufpsMljq4Ui0/1lvh+wjChP4kqKOJ2qxq
-4RgqsahDYVvTH9w7jXbyLeiNdd8XM2w9U/t7y0Ff/9yi0GE44Za4rF2LN9d11TPA
-mRGunUHBcnWEvgJBQl9nJEiU0Zsnvgc/ubhPgXRR4Xq37Z0j4r7g1SgEEzwxA57d
-emyPxgcYxn/eR44/KJ4EBs+lVDR3veyJm+kXQ99b21/+jh5Xos1AnX5iItreGCc=
------END CERTIFICATE-----

models/embedding_model.py ADDED Viewed

	@@ -0,0 +1,13 @@

+from sentence_transformers import SentenceTransformer
+from config import Config
+class EmbeddingModel:
+    def __init__(self):
+        self.config = Config()
+        self.model = SentenceTransformer(
+            self.config.EMBEDDING_MODEL, trust_remote_code=True
+        )
+    def encode(self, texts):
+        return self.model.encode(texts)

models/pydantic_schemas.py ADDED Viewed

	@@ -0,0 +1,27 @@

+from pydantic import BaseModel, Field
+from typing import Literal, Optional
+from config import GENRE_LIST
+class Features(BaseModel):
+    movie_or_series: Literal["movie", "tvSeries"] = Field(
+        description="Specify if the user wants a movie or a TV series"
+    )
+    genres: list[GENRE_LIST] = Field(
+        description="List of genres from the predefined list"
+    )
+    quality_level: str = Field(
+        description="Quality expectation: legendary, classic, popular, any"
+    )
+    themes: list[str] = Field(
+        description="Actual thematic content (not quality descriptors)"
+    )
+    date_range: list[int] = Field(description="Date range [min_year, max_year]")
+    negative_keywords: list[str] = Field(description="List of negative keywords")
+    production_region: list[str] = Field(description="Production region")
+    min_rating: Optional[float] = Field(
+        description="Minimum rating expectation", default=None
+    )
+    min_votes: Optional[int] = Field(
+        description="Minimum number of votes", default=None
+    )

models/recommendation_engine.py ADDED Viewed

	@@ -0,0 +1,120 @@

+import pandas as pd
+import time
+from openai import OpenAI
+from config import Config
+from models.pydantic_schemas import Features
+from components.similarity import SimilarityCalculator
+from components.filters import MovieFilter
+from sentence_transformers import SentenceTransformer
+class RecommendationEngine:
+    def __init__(self):
+        self.config = Config()
+        self.model = SentenceTransformer(
+            self.config.EMBEDDING_MODEL, trust_remote_code=True
+        )
+        self.client = OpenAI(api_key=self.config.OPENAI_API_KEY)
+        self.data = pd.read_parquet(self.config.DATA_FILE)
+        self.similarity_calc = SimilarityCalculator(self.model)
+        self.filter = MovieFilter()
+        print(f"✅ Recommendation engine initialized with {len(self.data)} items.")
+    def get_recommendations(self, user_query: str, top_k: int = 10):
+        if not user_query.strip():
+            return "⚠️ Please enter some text.", None
+        try:
+            features = self._parse_user_query(user_query)
+            filtered_data = self.filter.apply_filters(self.data, features)
+            search_results = self.similarity_calc.calculate_similarity(
+                user_query, filtered_data, top_k
+            )
+            formatted_results = self._format_results(search_results)
+            return formatted_results, self._create_results_dataframe(search_results)
+        except Exception as e:
+            return f"❌ Error: {str(e)}", None
+    def _parse_user_query(self, query: str) -> Features:
+        """GPT ile kullanıcı sorgusu parse et"""
+        try:
+            response = self.client.beta.chat.completions.parse(
+                model="gpt-4o-mini",
+                messages=[
+                    {
+                        "role": "system",
+                        "content": "You are an AI that converts user requests into structured movie/TV-series features. Be smart about interpreting user preferences.",
+                    },
+                    {"role": "user", "content": query},
+                ],
+                response_format=Features,
+            )
+            return response.choices[0].message.parsed
+        except Exception as e:
+            return Features(
+                movie_or_series="both",
+                genres=[],
+                quality_level="any",
+                themes=[],
+                date_range=[2000, 2025],
+                negative_keywords=[],
+                production_region=[],
+            )
+    def _format_results(self, search_results: dict) -> str:
+        if not search_results["results"]:
+            return search_results["status"]
+        output = []
+        output.append(f"🎬 {search_results['status']}")
+        output.append(
+            f"🔍 Search completed in {search_results['search_time']:.4f} seconds"
+        )
+        output.append(
+            f"📊 Found {len(search_results['results'])} results from {search_results['total_candidates']} candidates"
+        )
+        output.append("=" * 50)
+        for i, result in enumerate(search_results["results"], 1):
+            output.append(f"{i}. **{result['title']}** ({result['year']})")
+            output.append(f"   📝 Type: {result['type'].title()}")
+            output.append(
+                f"   ⭐ Rating: {result['rating']}/10 ({result['votes']:,} votes)"
+            )
+            output.append(f"   🎭 Genres: {result['genres']}")
+            output.append(f"   📊 Similarity: {result['similarity_score']:.4f}")
+            output.append(f"   🏆 Hybrid Score: {result['hybrid_score']:.4f}")
+            output.append(f"   📄 {result['overview']}")
+            output.append("")
+        return "\n".join(output)
+    def _create_results_dataframe(self, search_results: dict) -> pd.DataFrame:
+        if not search_results["results"]:
+            return pd.DataFrame()
+        df_data = []
+        for result in search_results["results"]:
+            df_data.append(
+                {
+                    "Title": result["title"],
+                    "Type": result["type"],
+                    "Year": result["year"],
+                    "Rating": result["rating"],
+                    "Votes": result["votes"],
+                    "Genres": result["genres"],
+                    "Similarity": f"{result['similarity_score']:.4f}",
+                    "Hybrid Score": f"{result['hybrid_score']:.4f}",
+                    "Overview": result["overview"],
+                }
+            )
+        return pd.DataFrame(df_data)