Spaces:

toropets
/

RAG2

Sleeping

App Files Files Community

antimoda1 commited on Feb 21

Commit

3592961

1 Parent(s): cf07b83

remove table

Browse files

Files changed (1) hide show

app.py +89 -51

app.py CHANGED Viewed

@@ -94,7 +94,7 @@ def create_heatmap(scores, chunk_ids, top_k_indices=None):
     return fig
 def perform_search(query, top_k):
-    """Этап 1: Поиск и отображение heatmap"""
     if not query:
         return None, None, [], [], "Введите вопрос для поиска"
@@ -105,16 +105,13 @@ def perform_search(query, top_k):
     # Получаем индексы чанков
     chunk_ids = list(range(len(scores)))
-    # Находим top-k индексов
     top_k = min(top_k, len(scores))
     top_k_indices = list(reversed(np.argsort(scores)[-top_k:]))
-    # Создаем heatmap
-    heatmap_fig = create_heatmap(scores, chunk_ids, top_k_indices)
-    status = f"Найдено {len(scores)} чанков. Top-{top_k} выделены в heatmap."
-    return heatmap_fig, scores, chunk_ids, top_k_indices, status
 def filter_chunks_by_documents(top_k_indices, all_scores, selected_docs):
     """Фильтрует чанки по выбранным документам"""
@@ -139,44 +136,71 @@ def filter_chunks_by_documents(top_k_indices, all_scores, selected_docs):
     return filtered_indices
-def update_display_after_filter(filtered_indices, all_scores):
-    """Обновляет отображение после применения фильтра"""
-    if len(filtered_indices)==0:
-        return []
-    # Сортируем чанки для отображения
     chunks_with_info = []
-    for idx in filtered_indices:
         if idx >= len(retrieval.docs_metadata) or idx >= len(all_scores):
             continue
         doc_id = retrieval.docs_metadata[idx]
         doc_name = retrieval.docs_names[doc_id] if doc_id < len(retrieval.docs_names) else "Неизвестный документ"
-        score = all_scores[idx]
-        chunk_text = retrieval.chunks[idx][:100] + "..."
         chunks_with_info.append({
             'index': idx,
             'doc_name': doc_name,
             'doc_id': doc_id,
-            'score': score,
-            'text': chunk_text
         })
-    # Сортируем по документу и индексу чанка
-    chunks_with_info.sort(key=lambda x: (x['doc_name'], x['index']))
-    # Форматируем для вывода в таблицу
-    formatted_chunks = []
-    for chunk in chunks_with_info:
-        formatted_chunks.append([
-            chunk['index'],
-            chunk['doc_name'],
-            f"{chunk['score']:.3f}",
-            chunk['text']
-        ])
-    return formatted_chunks
 def ask_llm(query, filtered_indices_state):
     """Этап 2: Отправка отфильтрованных чанков в LLM с потоковой выдачей"""
@@ -248,14 +272,14 @@ with gr.Blocks(title="RAG Application", theme=gr.themes.Soft()) as iface:
                 lines=1
             )
-            # Фильтр ДО поиска
             with gr.Row():
                 top_k_slider = gr.Slider(
                     minimum=1,
                     maximum=100,
                     value=30,
                     step=1,
-                    label="Top-k чанков"
                 )
             # Кнопка поиска
@@ -266,24 +290,31 @@ with gr.Blocks(title="RAG Application", theme=gr.themes.Soft()) as iface:
     with gr.Row():
         with gr.Column(scale=1):
-            # Фильтр ПОСЛЕ поиска
             docs_after = gr.CheckboxGroup(
                 choices=retrieval.docs_names,
-                label="Фильтр после поиска",
-                info="Выберите документы для отображения (если ничего не выбрано - показываются все)"
             )
-            # Список найденных чанков
-            chunks_display = gr.Dataframe(
-                headers=["Чанк", "Документ", "Score", "Превью"],
-                label="Найденные чанки",
-                interactive=False,
-                visible=True,
             )
         with gr.Column(scale=2):
-            # Heatmap
-            heatmap_output = gr.Plot(label="Heatmap релевантности")
     with gr.Row():
         with gr.Column(scale=1):
@@ -314,15 +345,15 @@ with gr.Blocks(title="RAG Application", theme=gr.themes.Soft()) as iface:
     search_btn.click(
         fn=perform_search,
         inputs=[search_query_input, top_k_slider],
-        outputs=[heatmap_output, all_scores_state, all_chunk_ids_state, top_k_indices_state, search_status]
     ).then(
         fn=filter_chunks_by_documents,
         inputs=[top_k_indices_state, all_scores_state, docs_after],
         outputs=[filtered_indices_state]
     ).then(
-        fn=update_display_after_filter,
-        inputs=[filtered_indices_state, all_scores_state],
-        outputs=[chunks_display]
     )
     # Обработчик изменения фильтра документов
@@ -331,9 +362,16 @@ with gr.Blocks(title="RAG Application", theme=gr.themes.Soft()) as iface:
         inputs=[top_k_indices_state, all_scores_state, docs_after],
         outputs=[filtered_indices_state]
     ).then(
-        fn=update_display_after_filter,
-        inputs=[filtered_indices_state, all_scores_state],
-        outputs=[chunks_display]
     )
     # Отправка в LLM с потоковой выдачей

     return fig
 def perform_search(query, top_k):
+    """Этап 1: Поиск и возврат результатов"""
     if not query:
         return None, None, [], [], "Введите вопрос для поиска"
     # Получаем индексы чанков
     chunk_ids = list(range(len(scores)))
+    # Находим top-k индексов (сортируем по релевантности)
     top_k = min(top_k, len(scores))
     top_k_indices = list(reversed(np.argsort(scores)[-top_k:]))
+    status = f"Найдено {len(scores)} чанков. Top-{top_k} выбраны."
+    return None, scores, chunk_ids, top_k_indices, status
 def filter_chunks_by_documents(top_k_indices, all_scores, selected_docs):
     """Фильтрует чанки по выбранным документам"""
     return filtered_indices
+def format_retrieval_results(filtered_indices, all_scores, top_k_results):
+    """Форматирует результаты retrieval для отображения в текстовом поле"""
+    if len(filtered_indices) == 0:
+        return "Нет результатов"
+    # Берем только top_k результатов
+    top_k_results = min(top_k_results, len(filtered_indices))
+    selected_indices = filtered_indices[:top_k_results]
+    # Сортируем по документу и индексу чанка
     chunks_with_info = []
+    for idx in selected_indices:
         if idx >= len(retrieval.docs_metadata) or idx >= len(all_scores):
             continue
         doc_id = retrieval.docs_metadata[idx]
         doc_name = retrieval.docs_names[doc_id] if doc_id < len(retrieval.docs_names) else "Неизвестный документ"
         chunks_with_info.append({
             'index': idx,
             'doc_name': doc_name,
             'doc_id': doc_id,
+            'chunk_text': retrieval.chunks[idx]
         })
+    if not chunks_with_info:
+        return "Нет валидных чанков"
+    # Группируем чанки по документам
+    docs_chunks = {}
+    for chunk_info in chunks_with_info:
+        doc_name = chunk_info['doc_name']
+        if doc_name not in docs_chunks:
+            docs_chunks[doc_name] = []
+        docs_chunks[doc_name].append(chunk_info['index'])
+    # Форматируем вывод
+    result_lines = []
+    for doc_name in sorted(docs_chunks.keys()):
+        chunk_indices = sorted(docs_chunks[doc_name])
+        # Группируем подряд идущие индексы
+        groups = []
+        current_group = [chunk_indices[0]]
+        for i in range(1, len(chunk_indices)):
+            if chunk_indices[i] == chunk_indices[i-1] + 1:
+                current_group.append(chunk_indices[i])
+            else:
+                groups.append(current_group)
+                current_group = [chunk_indices[i]]
+        groups.append(current_group)
+        # Собираем текст для каждой группы
+        group_texts = []
+        for group in groups:
+            sentences = [retrieval.chunks[idx] for idx in group]
+            group_texts.append(", ".join(sentences))
+        # Выводим документ с многоточием между группами
+        doc_output = f"Документ {doc_name}:\n" + " ... ".join(group_texts)
+        result_lines.append(doc_output)
+        result_lines.append("")  # Пустая строка между документами
+    return "\n".join(result_lines)
 def ask_llm(query, filtered_indices_state):
     """Этап 2: Отправка отфильтрованных чанков в LLM с потоковой выдачей"""
                 lines=1
             )
+            # Фильтры ДО поиска
             with gr.Row():
                 top_k_slider = gr.Slider(
                     minimum=1,
                     maximum=100,
                     value=30,
                     step=1,
+                    label="Top-k чанков для поиска"
                 )
             # Кнопка поиска
     with gr.Row():
         with gr.Column(scale=1):
+            # Фильтр ПОСЛЕ поиска для документов
             docs_after = gr.CheckboxGroup(
                 choices=retrieval.docs_names,
+                label="Фильтр по документам",
+                info="Выберите документы (если ничего не выбрано - показываются все)"
             )
+            # Слайдер для выбора числа чанков к отображению
+            display_k_slider = gr.Slider(
+                minimum=1,
+                maximum=100,
+                value=10,
+                step=1,
+                label="Число чанков к отображению"
             )
         with gr.Column(scale=2):
+            # Большое текстовое поле для результатов retrieval
+            retrieval_results = gr.Textbox(
+                label="Результаты retrieval",
+                placeholder="Результаты поиска появятся здесь",
+                lines=15,
+                max_lines=30,
+                interactive=False
+            )
     with gr.Row():
         with gr.Column(scale=1):
     search_btn.click(
         fn=perform_search,
         inputs=[search_query_input, top_k_slider],
+        outputs=[None, all_scores_state, all_chunk_ids_state, top_k_indices_state, search_status]
     ).then(
         fn=filter_chunks_by_documents,
         inputs=[top_k_indices_state, all_scores_state, docs_after],
         outputs=[filtered_indices_state]
     ).then(
+        fn=format_retrieval_results,
+        inputs=[filtered_indices_state, all_scores_state, display_k_slider],
+        outputs=[retrieval_results]
     )
     # Обработчик изменения фильтра документов
         inputs=[top_k_indices_state, all_scores_state, docs_after],
         outputs=[filtered_indices_state]
     ).then(
+        fn=format_retrieval_results,
+        inputs=[filtered_indices_state, all_scores_state, display_k_slider],
+        outputs=[retrieval_results]
+    )
+    # Обработчик изменения слайдера отображения
+    display_k_slider.change(
+        fn=format_retrieval_results,
+        inputs=[filtered_indices_state, all_scores_state, display_k_slider],
+        outputs=[retrieval_results]
     )
     # Отправка в LLM с потоковой выдачей