Spaces:

fruitpicker01
/

Course_Project

Sleeping

App Files Files Community

fruitpicker01 commited on Jul 7, 2025

Commit

1f6f899

verified ·

1 Parent(s): 8dc00e2

Update app.py

Browse files

Files changed (1) hide show

app.py +15 -4

app.py CHANGED Viewed

@@ -1,3 +1,9 @@
 import os
 import json
 import pickle
@@ -201,20 +207,20 @@ class VectorRAGSystem:
 📊 **Технические характеристики:**
 - 📦 Векторных эмбеддингов: {total_chunks}
-- 🔍 Режим поиска: {mode}
 - 🧠 Модель генерации: {self.generation_model}
 - 🎯 LLM реранкинг: {self.reranking_model}
 - 📄 Parent-page enrichment: {pdf_enrichment}
 - 📋 Структурированный вывод: {structured_output}
 🚀 **Архитектурные особенности:**
-- 🔎 **Векторный поиск** с text-embedding-3-large
 - 📄 **Parent-page enrichment** через PyMuPDF
 - 🧠 **LLM реранкинг** для повышения релевантности
 - 🤔 **Chain-of-Thought** рассуждения
 - 📋 **JSON Schema** для структурированных ответов
 - 📊 **Confidence scoring** и детальная аналитика
-- 📚 **Предобработка** PDF файла (текст и таблицы) через pdfplumber
 💡 **Готова к интеллектуальному анализу отчета ПАО Сбербанк 2023!**"""
@@ -512,10 +518,15 @@ class VectorRAGSystem:
             # Подготовка источников
             sources = []
             for chunk, score in reranked_results[:self.final_chunks_count]:
                 sources.append({
                     "page": chunk["page"],
-                    "search_score": search_results[0][1] if search_results else 0,
                     "rerank_score": score,
                     "preview": chunk["text"][:200] + "..." if len(chunk["text"]) > 200 else chunk["text"]
                 })

+#!/usr/bin/env python3
+"""
+Финальная векторная RAG система для HuggingFace Spaces
+Адаптированная версия с поддержкой векторного поиска и резервным режимом
+"""
 import os
 import json
 import pickle
 📊 **Технические характеристики:**
 - 📦 Векторных эмбеддингов: {total_chunks}
+- 🔍 Режим поиска: {mode} (только векторный)
 - 🧠 Модель генерации: {self.generation_model}
 - 🎯 LLM реранкинг: {self.reranking_model}
 - 📄 Parent-page enrichment: {pdf_enrichment}
 - 📋 Структурированный вывод: {structured_output}
 🚀 **Архитектурные особенности:**
+- 🔎 **Векторный поиск** с text-embedding-3-large (только)
 - 📄 **Parent-page enrichment** через PyMuPDF
 - 🧠 **LLM реранкинг** для повышения релевантности
 - 🤔 **Chain-of-Thought** рассуждения
 - 📋 **JSON Schema** для структурированных ответов
 - 📊 **Confidence scoring** и детальная аналитика
+- 📚 **Предобработка** с pdfplumber + таблицы
 💡 **Готова к интеллектуальному анализу отчета ПАО Сбербанк 2023!**"""
             # Подготовка источников
             sources = []
+            # Создаем словарь для быстрого поиска search_score по chunk_index
+            search_scores = {}
+            for chunk, score in search_results:
+                search_scores[chunk.get("chunk_index", -1)] = score
             for chunk, score in reranked_results[:self.final_chunks_count]:
                 sources.append({
                     "page": chunk["page"],
+                    "search_score": search_scores.get(chunk.get("chunk_index", -1), 0),
                     "rerank_score": score,
                     "preview": chunk["text"][:200] + "..." if len(chunk["text"]) > 200 else chunk["text"]
                 })