MoviesSemanticSearchTesting2

Paused

App Files Files Community

opex792 commited on Jan 2, 2025

Commit

414ad6b

verified ·

1 Parent(s): 94d93d6

Update app.py

Browse files

Files changed (1) hide show

app.py +37 -7

app.py CHANGED Viewed

@@ -12,6 +12,7 @@ from urllib.parse import urlparse
 import logging
 from sklearn.preprocessing import normalize
 from concurrent.futures import ThreadPoolExecutor
 # Настройка логирования
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
@@ -31,12 +32,20 @@ db_params = {
     "sslmode": "require"
 }
-# Загружаем модель
 model_name = "BAAI/bge-m3"
 logging.info(f"Загрузка модели {model_name}...")
 model = SentenceTransformer(model_name)
 logging.info("Модель загружена успешно.")
 # Имена таблиц
 embeddings_table = "movie_embeddings"
 query_cache_table = "query_cache"
@@ -207,7 +216,7 @@ def process_batch(batch):
     try:
         for movie in batch:
-            embedding_string = f"Название: {movie['name']}\nГод: {movie['year']}\nЖанры: {movie['genreslist']}\nОписание: {movie['description']}"
             string_crc32 = calculate_crc32(embedding_string)
             # Проверяем существующий эмбеддинг
@@ -289,6 +298,24 @@ def get_movie_embeddings(conn):
         logging.error(f"Ошибка при загрузке эмбеддингов фильмов: {e}")
     return movie_embeddings
 def search_movies(query, top_k=20):
     """Выполняет поиск фильмов по запросу."""
     global search_in_progress
@@ -332,23 +359,26 @@ def search_movies(query, top_k=20):
                     FROM {embeddings_table} m, query_embedding
                     ORDER BY similarity DESC
                     LIMIT %s
-                """, (query_crc32, top_k))
                 results = cur.fetchall()
-            logging.info(f"Найдено {len(results)} результатов поиска.")
         except Exception as e:
             logging.error(f"Ошибка при выполнении поискового запроса: {e}")
             results = []
         output = ""
-        for movie_id, similarity in results:
             # Находим фильм по ID
             movie = next((m for m in movies_data if m['id'] == movie_id), None)
             if movie:
                 output += f"<h3>{movie['name']} ({movie['year']})</h3>\n"
-                output += f"<p><strong>Жанры:</strong> {movie['genreslist']}</p>\n"
                 output += f"<p><strong>Описание:</strong> {movie['description']}</p>\n"
-                output += f"<p><strong>Релевантность:</strong> {similarity:.4f}</p>\n"
                 output += "<hr>\n"
         search_time = time.time() - start_time

 import logging
 from sklearn.preprocessing import normalize
 from concurrent.futures import ThreadPoolExecutor
+from transformers import AutoModelForSequenceClassification, AutoTokenizer
 # Настройка логирования
 logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
     "sslmode": "require"
 }
+# Загружаем модель эмбеддингов
 model_name = "BAAI/bge-m3"
 logging.info(f"Загрузка модели {model_name}...")
 model = SentenceTransformer(model_name)
 logging.info("Модель загружена успешно.")
+# Загружаем модель реранкера
+reranker_name = 'BAAI/bge-reranker-v2-m3'
+logging.info(f"Загрузка модели реранкера {reranker_name}...")
+reranker_tokenizer = AutoTokenizer.from_pretrained(reranker_name)
+reranker_model = AutoModelForSequenceClassification.from_pretrained(reranker_name)
+reranker_model.eval()
+logging.info("Модель реранкера загружена успешно.")
 # Имена таблиц
 embeddings_table = "movie_embeddings"
 query_cache_table = "query_cache"
     try:
         for movie in batch:
+            embedding_string = f"Название: {movie['name']}\nГод: {movie['year']}\nЖанры: {movie['genresList']}\nОписание: {movie['description']}"
             string_crc32 = calculate_crc32(embedding_string)
             # Проверяем существующий эмбеддинг
         logging.error(f"Ошибка при загрузке эмбеддингов фильмов: {e}")
     return movie_embeddings
+def rerank_results(query, results):
+    """Переранжирует результаты поиска с помощью реранкера."""
+    pairs = []
+    movie_ids = []
+    for movie_id, _ in results:
+        movie = next((m for m in movies_data if m['id'] == movie_id), None)
+        if movie:
+            movie_info = f"Название: {movie['name']}\nГод: {movie['year']}\nЖанры: {movie['genresList']}\nОписание: {movie['description']}"
+            pairs.append([query, movie_info])
+            movie_ids.append(movie_id)
+    with torch.no_grad():
+        inputs = reranker_tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
+        scores = reranker_model(**inputs, return_dict=True).logits.view(-1, ).float()
+    reranked_results = sorted(zip(movie_ids, scores.tolist()), key=lambda x: x[1], reverse=True)
+    return reranked_results
 def search_movies(query, top_k=20):
     """Выполняет поиск фильмов по запросу."""
     global search_in_progress
                     FROM {embeddings_table} m, query_embedding
                     ORDER BY similarity DESC
                     LIMIT %s
+                """, (query_crc32, top_k * 2))  # Увеличиваем лимит для последующего переранжирования
                 results = cur.fetchall()
+            logging.info(f"Найдено {len(results)} предварительных результатов поиска.")
         except Exception as e:
             logging.error(f"Ошибка при выполнении поискового запроса: {e}")
             results = []
+        # Переранжируем результаты
+        reranked_results = rerank_results(query, results)
         output = ""
+        for movie_id, score in reranked_results[:top_k]:
             # Находим фильм по ID
             movie = next((m for m in movies_data if m['id'] == movie_id), None)
             if movie:
                 output += f"<h3>{movie['name']} ({movie['year']})</h3>\n"
+                output += f"<p><strong>Жанры:</strong> {movie['genresList']}</p>\n"
                 output += f"<p><strong>Описание:</strong> {movie['description']}</p>\n"
+                output += f"<p><strong>Релевантность (reranker score):</strong> {score:.4f}</p>\n"
                 output += "<hr>\n"
         search_time = time.time() - start_time