Spaces:

NikitaMY
/

model-embeddng

Runtime error

App Files Files Community

NikitaMY commited on Feb 10

Commit

d75604e

verified ·

1 Parent(s): 9bccffe

Update app.py

Browse files

Files changed (1) hide show

app.py +273 -185

app.py CHANGED Viewed

@@ -5,214 +5,302 @@ import re
 import numpy as np
 from sentence_transformers import SentenceTransformer
 from typing import List, Tuple, Optional
-#Модель часть 1, конфигурация
-DEFAULT_MODEL = "sentence-transformers/all-MiniLM-L6-v2"
-model = SentenceTransformer(DEFAULT_MODEL)
-#Модель часть 2, ограничения
-MAX_TEXTS = 500 # Максимум документов в корпусе текста
-MAX_CHARS_PER_TEXT = 2000 # Максимум символов в одном документе
-MAX_QUERY_CHARS = 2000 # Максимум символов в запросе
-#Модуль А - нормализация текста
-def clean_text(s:str) -> str:
-  """
-  Приводим строку к нормальному виду
-  - Если None, то делаем пустую строку
-  - Множественные пробелы заменяем одним
-  - Обрезаем пробелы по краям
-  """
-  s = "" if s is None else str(s)
-  s = re.sub(r'\s+',' ', s).strip()
-  return s
-#Модуль B - парсинг текста при ручном вводе (каждая строка - документ)
-def parser_manual_texts(raw:str) -> List[str]:
-  raw = "" if raw is None else str(raw)
-  lines = [clean_text(x) for x in raw.splitlines()]
-  lines = [x for x in lines if x] #Оставляем только не пустые строки, if x - проверка, что строка не пустая
-  return lines[:MAX_TEXTS]
-#Модуль C - парсинг текста для файла
 def parser_file(file_obj) -> List[str]:
-  if file_obj is None:
     return []
-  path = file_obj.name
-  if path.lower().endswith(".txt"):
-    with open(path,"r",encoding="utf-8",errors="ignore") as f:
-      lines = [clean_text(x) for x in f.read().splitlines()]
-      lines = [x for x in lines if x]
-      return lines[:MAX_TEXTS]
-  if path.lower().endswith(".csv"):
-    df = pd.read_csv(path)
-    if "text" in df.columns:
-      col = "text"
-    else:
-      col = df.columns(0)
-    texts = [clean_text(x) for x in df[col].astype(str).tolist()]
-    texts = [x for x in texts if x]
-    return texts[:MAX_TEXTS]
-  return []
-#Модуль D - косинусное сходство
 def cosine_sim_matrix(query_emb: np.ndarray, docs_emb: np.ndarray) -> np.ndarray:
-  """
-  cosine_similarity = Q * D / (|Q|*|D|)
-  """
-  q = query_emb/(np.linalg.norm(query_emb)+1e-12)
-  d = docs_emb/(np.linalg.norm(docs_emb,axis=1,keepdims=True)+1e-12)
-  return d @ q
-#Модуль E - Построение индекса
-def build_index(texts:List[str]) -> Tuple[List[str], Optional[np.ndarray], str]:
-  if not texts:
-    return [], None, "База пуста, добавьте текст"
-  texts = [t[:MAX_CHARS_PER_TEXT] for t in texts] # Обрезка документа по длине
-  try:
-    emb = model.encode(texts,convert_to_numpy=True,show_progress_bar=False)
-    return texts, emb, f"Индекс построен: {len(texts)} текстов"
-  except Exception as e:
-    return [], None, f"Ошибка построения индекса: {type(e).__name__}: {e}"
-#Модуль F - Основной обработчик кнопки
 def search_similar(
     query: str,
     manual_texts: str,
     file_obj,
     top_k: int,
     state_texts,
-    state_emb
 ):
-  query = clean_text(query)[:MAX_QUERY_CHARS]
-  if not query:
-    return None, "Введите запрос", state_texts, state_emb
-  texts = parser_manual_texts(manual_texts)
-  texts_from_file = parser_file(file_obj)
-  texts.extend(texts_from_file)
-  uniq = []
-  seen = set()
-  for t in texts:
-    if t not in seen:
-      uniq.append(t)
-      seen.add(t)
-  texts = uniq[:MAX_TEXTS]
-  needs_rebuild = (state_texts is None) or (texts != state_texts) or (state_emb is None)
-  status_msgs = []
-  if needs_rebuild:
-    idx_texts, idx_emb, msg = build_index(texts)
-    status_msgs.append(msg)
-    state_texts, state_emb = idx_texts, idx_emb
-  else:
-    status_msgs.append(f"Используем готовый индекс: {len(state_texts)} текстов")
-  if state_emb is None or not state_texts:
-    return None, "\n".join(status_msgs), state_texts, state_emb
-  try:
-    q_emb = model.encode([query], convert_to_numpy=True,show_progress_bar=False)[0]
-  except Exception as e:
-    return None, f"Ошибка эмбеддинга: {type(e).__name__}: {e}", state_texts, state_emb
-  sims = cosine_sim_matrix(q_emb, state_emb)
-  top_k = int(top_k)
-  top_k = max(1,min(top_k,len(state_texts)))
-  idx = np.argsort(-sims)[:top_k] # Сортировка по возрастанию
-  rows = []
-  for rank, i in enumerate(idx, start = 1):
-    rows.append({
-        "rank": rank,
-        "similarity": float(sims[i]),
-        "text": state_texts[i]
-    })
-  df = pd.DataFrame(rows)
-  status_msgs.append(f"Топ - {top_k} найден")
-  return df, "\n".join(status_msgs), state_texts, state_emb
-#Модуль G - Интерфейс Gradio
-with gr.Blocks() as demo:
-  gr.Markdown("""
-  **Модель эмбеддингов** 'all-MiniLM-L6-v2'
-  **Идея модели** косинусное расстояние
-  """
-  )
-  with gr.Row():
-    query = gr.Textbox(
-        label = "Что ищем",
-        lines = 4,
-        placeholder = "Клиент жалуется на задержку"
     )
-    top_k = gr.Slider(
-        1,
-        20,
-        value = 5,
-        step = 1,
-        label = "top_k похожих текстов"
     )
-  with gr.Row():
-    manual_texts = gr.Textbox(
-        label = "База текстов, каждая строка отдельный документ",
-        lines = 10,
-        placeholder = "Текст 1 \n текст 2 \n текст 3"
     )
-  file_obj = gr.File(
-      label = "Загрузите файл txt, csv"
-  )
-  run_btn = gr.Button(
-      "Найти похожее"
-  )
-  out_table = gr.Dataframe(
-      label = "Результаты",
-      interactive = False
-  )
-  status = gr.Textbox(
-      label = "Статус",
-      lines = 4
-  )
-  state_texts = gr.State(None)
-  state_emb = gr.State(None)
-  run_btn.click(
-    search_similar,
-    inputs=[query, manual_texts, file_obj, top_k, state_texts, state_emb],
-    outputs = [out_table, status, state_texts, state_emb]
-  )
-  # Примеры: удобная демо-загрузка корпуса и запроса
-  gr.Examples(
-      examples=[
-          [
-              "У меня списали деньги дважды за заказ.",
-              "Деньги списались два раза за один и тот же заказ.\n"
-              "Не могу войти в личный кабинет, пишет неверный пароль.\n"
-              "Доставка задерживается уже на 5 дней, где мой заказ?\n"
-              "Хочу вернуть товар, он не подошел по размеру.\n"
-              "Поддержка не отвечает, жду ответа третий день.\n"
-              "Оплата не проходит, ошибка на этапе подтверждения."
-          ],
-          [
-              "Не могу оплатить, постоянно ошибка.",
-              "Оплата не проходит, ошибка на этапе подтверждения.\n"
-              "Платеж отклоняется банком, хотя карта рабочая.\n"
-              "Хочу отменить заказ и вернуть деньги.\n"
-              "Курьер не пришел, доставка переносится.\n"
-              "Личный кабинет не открывается."
-          ],
-      ],
-      inputs=[query, manual_texts],
-      label="Примеры"
-  )
-  demo.launch()

 import numpy as np
 from sentence_transformers import SentenceTransformer
 from typing import List, Tuple, Optional
+from functools import lru_cache
+#ЗАДАНИЕ 2: модели
+MODEL_CHOICES = {
+    "all-MiniLM-L6-v2": "sentence-transformers/all-MiniLM-L6-v2",
+    "paraphrase-multilingual-MiniLM-L12-v2": "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
+}
+DEFAULT_MODEL_NAME = "all-MiniLM-L6-v2"
+@lru_cache(maxsize=2)
+def load_model(model_key: str):
+    """Кэшируем модели в памяти"""
+    model_path = MODEL_CHOICES[model_key]
+    return SentenceTransformer(model_path)
+# Инициализация начальной модели
+model = load_model(DEFAULT_MODEL_NAME)
+# Ограничения
+MAX_TEXTS = 500
+MAX_CHARS_PER_TEXT = 2000
+MAX_QUERY_CHARS = 2000
+# Модуль А - нормализация текста
+def clean_text(s: str) -> str:
+    s = "" if s is None else str(s)
+    s = re.sub(r'\s+', ' ', s).strip()
+    return s
+# Модуль B - парсинг текста при ручном вводе
+def parser_manual_texts(raw: str) -> List[str]:
+    raw = "" if raw is None else str(raw)
+    lines = [clean_text(x) for x in raw.splitlines()]
+    lines = [x for x in lines if x]
+    return lines[:MAX_TEXTS]
+# Модуль C - парсинг текста для файла
 def parser_file(file_obj) -> List[str]:
+    if file_obj is None:
+        return []
+    path = file_obj.name
+    if path.lower().endswith(".txt"):
+        with open(path, "r", encoding="utf-8", errors="ignore") as f:
+            lines = [clean_text(x) for x in f.read().splitlines()]
+            lines = [x for x in lines if x]
+            return lines[:MAX_TEXTS]
+    if path.lower().endswith(".csv"):
+        df = pd.read_csv(path)
+        if "text" in df.columns:
+            col = "text"
+        else:
+            col = df.columns[0]
+        texts = [clean_text(x) for x in df[col].astype(str).tolist()]
+        texts = [x for x in texts if x]
+        return texts[:MAX_TEXTS]
     return []
+# Модуль D - косинусное сходство
 def cosine_sim_matrix(query_emb: np.ndarray, docs_emb: np.ndarray) -> np.ndarray:
+    q = query_emb / (np.linalg.norm(query_emb) + 1e-12)
+    d = docs_emb / (np.linalg.norm(docs_emb, axis=1, keepdims=True) + 1e-12)
+    return d @ q
+# Модуль E - Построение индекса (с учетом выбранной модели)
+def build_index(texts: List[str], model_name: str) -> Tuple[List[str], Optional[np.ndarray], str]:
+    if not texts:
+        return [], None, "База пуста, добавьте текст"
+    texts = [t[:MAX_CHARS_PER_TEXT] for t in texts]
+    try:
+        current_model = load_model(model_name)
+        emb = current_model.encode(texts, convert_to_numpy=True, show_progress_bar=False)
+        return texts, emb, f"Индекс построен: {len(texts)} текстов (модель: {model_name})"
+    except Exception as e:
+        return [], None, f"Ошибка построения индекса: {type(e).__name__}: {e}"
+# Модуль F - Основной обработчик кнопки
 def search_similar(
     query: str,
     manual_texts: str,
     file_obj,
     top_k: int,
+    min_sim: float,  # ЗАДАНИЕ A: параметр минимальной похожести
+    model_name: str,  # ЗАДАНИЕ B: выбранная модель
     state_texts,
+    state_emb,
+    state_model  # Новое состояние для хранения модели индекса
 ):
+    query = clean_text(query)[:MAX_QUERY_CHARS]
+    if not query:
+        return None, "Введите запрос", state_texts, state_emb, state_model
+    # Парсинг текстов
+    texts = parser_manual_texts(manual_texts)
+    texts_from_file = parser_file(file_obj)
+    texts.extend(texts_from_file)
+    # Удаление дубликатов
+    uniq = []
+    seen = set()
+    for t in texts:
+        if t not in seen:
+            uniq.append(t)
+            seen.add(t)
+    texts = uniq[:MAX_TEXTS]
+    status_msgs = []
+    # Проверка необходимости перестроения индекса
+    needs_rebuild = (
+        state_texts is None or
+        texts != state_texts or
+        state_emb is None or
+        state_model != model_name  # ЗАДАНИЕ B: перестраиваем если сменили модель
+    )
+    if needs_rebuild:
+        idx_texts, idx_emb, msg = build_index(texts, model_name)
+        status_msgs.append(msg)
+        state_texts, state_emb = idx_texts, idx_emb
+        state_model = model_name  # Сохраняем модель индекса
+    else:
+        status_msgs.append(f"Используем готовый индекс: {len(state_texts)} текстов")
+    if state_emb is None or not state_texts:
+        return None, "\n".join(status_msgs), state_texts, state_emb, state_model
+    try:
+        current_model = load_model(model_name)
+        q_emb = current_model.encode([query], convert_to_numpy=True, show_progress_bar=False)[0]
+    except Exception as e:
+        return None, f"Ошибка эмбеддинга: {type(e).__name__}: {e}", state_texts, state_emb, state_model
+    # Расчет сходства
+    sims = cosine_sim_matrix(q_emb, state_emb)
+    # ЗАДАНИЕ 1: фильтрация по минимальному порогу
+    above_threshold = sims >= min_sim
+    if not above_threshold.any():
+        return None, "Ничего не найдено (похожесть ниже порога)", state_texts, state_emb, state_model
+    # Получаем индексы, удовлетворяющие порогу
+    valid_indices = np.where(above_threshold)[0]
+    valid_sims = sims[valid_indices]
+    # Сортировка и выбор top_k
+    top_k = int(top_k)
+    top_k = max(1, min(top_k, len(valid_indices)))
+    # Сортируем по убыванию сходства среди отфильтрованных
+    top_indices = valid_indices[np.argsort(-valid_sims)[:top_k]]
+    # Формирование результатов
+    rows = []
+    for rank, i in enumerate(top_indices, start=1):
+        rows.append({
+            "rank": rank,
+            "similarity": float(sims[i]),
+            "text": state_texts[i]
+        })
+    df = pd.DataFrame(rows)
+    status_msgs.append(f"Найдено {len(valid_indices)} текстов с похожестью ≥ {min_sim}. Показано топ-{top_k}")
+    return df, "\n".join(status_msgs), state_texts, state_emb, state_model
+# Модуль G - Интерфейс Gradio
+with gr.Blocks(title="Поиск похожих текстов") as demo:
+    gr.Markdown("""
+    # Поиск похожих текстов с использованием эмбеддингов
+    **Инструкция:**
+    1. Введите тексты в поле или загрузите файл
+    2. Выберите модель и настройте параметры
+    3. Введите запрос и нажмите "Найти похожее"
+    """)
+    with gr.Row():
+        with gr.Column(scale=2):
+            query = gr.Textbox(
+                label="Что ищем",
+                lines=4,
+                placeholder="Клиент жалуется на задержку"
+            )
+        with gr.Column(scale=1):
+            # ЗАДАНИЕ B: выбор модели
+            model_dropdown = gr.Dropdown(
+                choices=list(MODEL_CHOICES.keys()),
+                value=DEFAULT_MODEL_NAME,
+                label="Модель эмбеддингов"
+            )
+            # ЗАДАНИЕ 1: ползунок минимальной похожести
+            min_sim = gr.Slider(
+                0.0, 1.0,
+                value=0.3,
+                step=0.01,
+                label="Минимальная похожесть",
+                info="Показывать только результаты с похожестью выше этого значения"
+            )
+            top_k = gr.Slider(
+                1, 20,
+                value=5,
+                step=1,
+                label="Количество результатов"
+            )
+    with gr.Row():
+        manual_texts = gr.Textbox(
+            label="База текстов (каждая строка - отдельный документ)",
+            lines=10,
+            placeholder="Текст 1\nТекст 2\nТекст 3"
+        )
+    file_obj = gr.File(
+        label="Или загрузите файл (txt, csv)",
+        file_types=[".txt", ".csv"]
+    )
+    run_btn = gr.Button(
+        "Найти похожее",
+        variant="primary"
+    )
+    with gr.Row():
+        out_table = gr.Dataframe(
+            label="Результаты поиска",
+            interactive=False,
+            wrap=True
+        )
+    status = gr.Textbox(
+        label="Статус выполнения",
+        lines=4
     )
+    # Состояния
+    state_texts = gr.State(None)
+    state_emb = gr.State(None)
+    state_model = gr.State(DEFAULT_MODEL_NAME)  # Новое состояние для модели
+    # Обработчик кнопки
+    run_btn.click(
+        search_similar,
+        inputs=[
+            query, manual_texts, file_obj, top_k,
+            min_sim, model_dropdown,  # Добавлены новые параметры
+            state_texts, state_emb, state_model
+        ],
+        outputs=[out_table, status, state_texts, state_emb, state_model]
     )
+    # Примеры
+    gr.Examples(
+        examples=[
+            [
+                "У меня списали деньги дважды за заказ.",
+                "Деньги списались два раза за один и тот же заказ.\n"
+                "Не могу войти в личный кабинет, пишет неверный пароль.\n"
+                "Доставка задерживается уже на 5 дней, где мой заказ?\n"
+                "Хочу вернуть товар, он не подошел по размеру.\n"
+                "Поддержка не отвечает, жду ответа третий день.\n"
+                "Оплата не проходит, ошибка на этапе подтверждения."
+            ],
+            [
+                "Не могу оплатить, постоянно ошибка.",
+                "Оплата не проходит, ошибка на этапе подтверждения.\n"
+                "Платеж отклоняется банком, хотя карта рабочая.\n"
+                "Хочу отменить заказ и вернуть деньги.\n"
+                "Курьер не пришел, доставка переносится.\n"
+                "Личный кабинет не открывается."
+            ],
+        ],
+        inputs=[query, manual_texts],
+        label="Примеры запросов"
     )
+    # Информация о моделях
+    with gr.Accordion("Информация о моделях", open=False):
+        gr.Markdown("""
+        **all-MiniLM-L6-v2:**
+        - Размер: 80 МБ
+        - Размерность эмбеддингов: 384
+        - Язык: английский
+        **paraphrase-multilingual-MiniLM-L12-v2:**
+        - Размер: 420 МБ
+        - Размерность эмбеддингов: 384
+        - Языки: мультиязычная (поддерживает русский)
+        """)
+if __name__ == "__main__":
+    demo.launch(share=False)