MoviesSemanticSearchTesting

Paused

App Files Files Community

opex792 commited on Dec 29, 2024

Commit

429c3b2

verified ·

1 Parent(s): 81516d6

Update app.py

Browse files

Files changed (1) hide show

app.py +18 -10

app.py CHANGED Viewed

@@ -8,8 +8,9 @@ import queue
 import torch
 # Загружаем модель
-model_name = "HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1"
 model = SentenceTransformer(model_name)
 # Имя файла для сохранения эмбеддингов
 embeddings_file = f"movie_embeddings_{model_name.replace('/', '_')}.json"
@@ -55,11 +56,17 @@ search_in_progress = False
 movie_embeddings_lock = threading.Lock()
 # Размер пакета для обработки эмбеддингов
-batch_size = 16  # Подберите оптимальный размер
-def encode_string(text):
-    """Кодирует строку в эмбеддинг."""
-    return model.encode(text, convert_to_tensor=True)
 def process_movies():
     """
@@ -91,7 +98,7 @@ def process_movies():
         ]
         print(f"Создаются эмбеддинги для фильмов: {', '.join(titles)}...")
-        embeddings = model.encode(embedding_strings, convert_to_tensor=True, batch_size=batch_size).tolist()
         with movie_embeddings_lock:
             for title, embedding in zip(titles, embeddings):
@@ -105,7 +112,8 @@ def process_movies():
 def get_query_embedding(query):
     """
-    Возвращает эмбеддинг для запроса. Если эмбеддинг уже создан, возвращает его из словаря.
     Иначе создает эмбеддинг, сохраняет его и возвращает.
     """
     if query in query_embeddings:
@@ -113,7 +121,7 @@ def get_query_embedding(query):
         return query_embeddings[query]
     else:
         print(f"Создается эмбеддинг для запроса '{query}'...")
-        embedding = encode_string(query).tolist()
         query_embeddings[query] = embedding
         # Сохраняем эмбеддинги запросов в файл
         with open(query_embeddings_file, "w", encoding="utf-8") as f:
@@ -123,7 +131,7 @@ def get_query_embedding(query):
 def search_movies(query, top_k=10):
     """
-    Ищет наиболее похожие фильмы по запросу.
     Args:
         query: Текстовый запрос.
@@ -138,7 +146,7 @@ def search_movies(query, top_k=10):
     print(f"\n\033[1mПоиск по запросу: '{query}'\033[0m")
     print(f"Начало создания эмбеддинга для запроса: {time.strftime('%Y-%m-%d %H:%M:%S')}")
-    query_embedding_tensor = encode_string(query)
     print(f"Окончание создания эмбеддинга для запроса: {time.strftime('%Y-%m-%d %H:%M:%S')}")
     with movie_embeddings_lock:

 import torch
 # Загружаем модель
+model_name = "HIT-TMG/KaLM-embedding-multilingual-mini-instruct-v1.5"
 model = SentenceTransformer(model_name)
+# model.max_seq_length = 8192  # Убираем явное ограничение длины последовательности
 # Имя файла для сохранения эмбеддингов
 embeddings_file = f"movie_embeddings_{model_name.replace('/', '_')}.json"
 movie_embeddings_lock = threading.Lock()
 # Размер пакета для обработки эмбеддингов
+batch_size = 32  # Увеличиваем размер пакета в 2 раза
+# Инструкция для запроса
+query_prompt = "Инструкция: Найди релевантные фильмы по запросу. \n Запрос: "
+def encode_string(text, prompt=None):
+    """Кодирует строку в эмбеддинг с использованием инструкции, если она задана."""
+    if prompt:
+        return model.encode(text, prompt=prompt, convert_to_tensor=True, normalize_embeddings=True)
+    else:
+        return model.encode(text, convert_to_tensor=True, normalize_embeddings=True)
 def process_movies():
     """
         ]
         print(f"Создаются эмбеддинги для фильмов: {', '.join(titles)}...")
+        embeddings = model.encode(embedding_strings, convert_to_tensor=True, batch_size=batch_size, normalize_embeddings=True).tolist()
         with movie_embeddings_lock:
             for title, embedding in zip(titles, embeddings):
 def get_query_embedding(query):
     """
+    Возвращает эмбеддинг для запроса с инструкцией.
+    Если эмбеддинг уже создан, возвращает его из словаря.
     Иначе создает эмбеддинг, сохраняет его и возвращает.
     """
     if query in query_embeddings:
         return query_embeddings[query]
     else:
         print(f"Создается эмбеддинг для запроса '{query}'...")
+        embedding = encode_string(query, prompt=query_prompt).tolist()
         query_embeddings[query] = embedding
         # Сохраняем эмбеддинги запросов в файл
         with open(query_embeddings_file, "w", encoding="utf-8") as f:
 def search_movies(query, top_k=10):
     """
+    Ищет наиболее похожие фильмы по запросу с использованием инструкции.
     Args:
         query: Текстовый запрос.
     print(f"\n\033[1mПоиск по запросу: '{query}'\033[0m")
     print(f"Начало создания эмбеддинга для запроса: {time.strftime('%Y-%m-%d %H:%M:%S')}")
+    query_embedding_tensor = encode_string(query, prompt=query_prompt)
     print(f"Окончание создания эмбеддинга для запроса: {time.strftime('%Y-%m-%d %H:%M:%S')}")
     with movie_embeddings_lock: