Spaces:

ekaterina-simonova
/

NK_pomogator

Runtime error

App Files Files Community

NK_pomogator / app.py

ekaterina-simonova

Update app.py

9cf07b6 verified 5 months ago

raw

history blame contribute delete

39.5 kB

	import streamlit as st
	import pandas as pd
	import json
	import os
	import logging
	import re
	from fuzzywuzzy import fuzz
	import sqlite3
	import faiss
	import numpy as np
	from sentence_transformers import SentenceTransformer
	from rank_bm25 import BM25Okapi
	import nltk
	from nltk.corpus import stopwords
	from nltk.tokenize import word_tokenize
	import openai
	import time
	from huggingface_hub import model_info
	from datetime import datetime
	import torch # Убедитесь, что этот импорт есть

	# 1. Настройка логирования
	logging.basicConfig(
	level=logging.INFO,
	format='%(asctime)s - %(levelname)s - %(message)s',
	handlers=[
	logging.FileHandler("model_loading.log"),
	logging.StreamHandler()
	]
	)
	logger = logging.getLogger()

	# Добавляем информацию о PyTorch и CUDA
	logger.info(f"PyTorch version: {torch.__version__}")
	logger.info(f"CUDA available: {torch.cuda.is_available()}")
	if torch.cuda.is_available():
	logger.info(f"CUDA device: {torch.cuda.get_device_name(0)}")


	# 2. Проверка загрузки модели
	try:
	logger.info("="*50)
	logger.info("Начало принудительной проверки модели")

	device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
	test_model = SentenceTransformer(
	"cointegrated/LaBSE-en-ru",
	cache_folder="/tmp/hf_cache_force"
	)
	# Изменяем порядок инициализации
	test_model = test_model.to('cpu') # Сначала явно переносим на CPU

	# Проверяем работоспособность
	test_text = ["тестовый текст"]
	with torch.no_grad():
	embeddings = test_model.encode(test_text)

	logger.info(f"Модель загружена. Размерность: {test_model.get_sentence_embedding_dimension()}")
	del test_model

	except Exception as e:
	logger.critical(f"Тестовая загрузка модели провалилась: {str(e)}", exc_info=True)
	st.error("""
	❌ Критическая ошибка: модель не загружается!
	Проверьте:
	1. Интернет-соединение
	2. Доступ к Hugging Face Hub
	3. Логи в файле model_loading.log
	""")
	raise


	# 3. Инициализация NLTK


	# 4. Константы
	XLSX_FILE_PATH = "Test_questions_from_diagnostpb (1).xlsx"
	SQLITE_DB_PATH = "knowledge_base_v1.db"
	LOG_FILE = "chat_logs.json"
	EMBEDDING_MODEL = "cointegrated/LaBSE-en-ru"

	# Определяем базовую директорию и пути к файлам
	BASE_DIR = os.path.dirname(os.path.abspath(__file__))
	VECTOR_DB_DIR = os.path.join(BASE_DIR, "vectorized_knowledge_base")
	VECTOR_DB_PATH = os.path.join(VECTOR_DB_DIR, "processed_knowledge_base_v1.db")
	FAISS_INDEX_PATH = os.path.join(VECTOR_DB_DIR, "faiss_index.bin")


	# Добавляем проверку прав доступа
	if os.path.exists(VECTOR_DB_PATH):
	logger.info(f"File permissions: {oct(os.stat(VECTOR_DB_PATH).st_mode)[-3:]}")
	logger.info(f"File size: {os.path.getsize(VECTOR_DB_PATH)} bytes")

	# Добавьте отладочное логирование
	logger.info(f"BASE_DIR: {BASE_DIR}")
	logger.info(f"VECTOR_DB_DIR: {VECTOR_DB_DIR}")
	logger.info(f"VECTOR_DB_PATH: {VECTOR_DB_PATH}")
	logger.info(f"Directory exists: {os.path.exists(VECTOR_DB_DIR)}")
	logger.info(f"Database file exists: {os.path.exists(VECTOR_DB_PATH)}")

	# После определения путей
	required_files = [
	(VECTOR_DB_PATH, "База данных векторов"),
	(FAISS_INDEX_PATH, "FAISS индекс"),
	(SQLITE_DB_PATH, "SQLite база знаний"),
	(XLSX_FILE_PATH, "Excel файл с вопросами")
	]

	for file_path, description in required_files:
	if not os.path.exists(file_path):
	logger.error(f"Не найден файл: {description} ({file_path})")
	st.error(f"❌ Отсутствует необходимый файл: {description}")
	st.stop()
	elif os.path.getsize(file_path) == 0:
	logger.error(f"Файл пуст: {description} ({file_path})")
	st.error(f"❌ Файл пуст: {description}")
	st.stop()

	# 5. Инициализация OpenAI
	openai_api_key = os.getenv('VSEGPT_API_KEY')
	if openai_api_key is None:
	logger.error("Переменная окружения VSEGPT_API_KEY не установена")
	st.warning("Не настроен API-ключ для OpenAI")
	raise ValueError("Переменная окружения VSEGPT_API_KEY не установена")

	openai.api_key = openai_api_key
	openai.api_base = "https://api.vsegpt.ru/v1"

	# Инициализация сессии
	if "logs" not in st.session_state:
	st.session_state.logs = []
	if "chat_history" not in st.session_state:
	st.session_state.chat_history = []
	if "user_input" not in st.session_state:
	st.session_state.user_input = ''
	if "widget" not in st.session_state:
	st.session_state.widget = ''

	def setup_nltk():
	try:
	nltk.download('punkt', quiet=True)
	nltk.download('stopwords', quiet=True)
	# Используем базовый токенизатор без специфичных для языка ресурсов
	from nltk.tokenize import word_tokenize
	test_text = "тестовый текст"
	tokens = word_tokenize(test_text) # Убираем параметр language
	logger.info(f"NLTK успешно инициализирован. Тестовая токенизация: {tokens}")
	except Exception as e:
	logger.warning(f"Ошибка инициализации NLTK: {e}")

	setup_nltk()

	def get_documents_list():
	try:
	conn = sqlite3.connect(VECTOR_DB_PATH)
	cursor = conn.cursor()
	cursor.execute("""
	SELECT DISTINCT doc_type_short, doc_number, file_name
	FROM documents
	ORDER BY doc_type_short, doc_number
	""")
	documents = cursor.fetchall()
	conn.close()

	# Форматируем список документов
	formatted_docs = []
	for doc in documents:
	doc_parts = [
	str(part) for part in doc
	if part is not None and str(part).strip()
	]
	if doc_parts:
	formatted_docs.append(" ".join(doc_parts))

	return formatted_docs

	except Exception as e:
	logger.error(f"Ошибка при получении списка документов: {e}")
	return []


	class HybridSearch:
	def __init__(self, db_path):
	self.db_path = db_path
	self.stop_words = set(stopwords.words('russian')).union({
	'', ' ', ' ', '\t', '\n', '\r', 'nbsp'
	})
	logger.info(f"Загружено стоп-слов: {len(self.stop_words)}")
	self.bm25 = None
	self.corpus = []
	self.doc_ids = []
	self._init_bm25_with_fallback()

	def _init_bm25_with_fallback(self):
	"""Инициализация с резервным вариантом при ошибках"""
	try:
	self._init_bm25()
	if not self.bm25:
	logger.warning("Основная инициализация BM25 не удалась, создаем резервный индекс")
	self._create_fallback_index()
	except Exception as e:
	logger.error(f"Ошибка при инициализации BM25: {str(e)}")
	self._create_fallback_index()

	def _init_bm25(self):
	"""Основная инициализация BM25"""
	if not os.path.exists(self.db_path):
	raise FileNotFoundError(f"Файл БД не найден: {self.db_path}")

	conn = sqlite3.connect(self.db_path)
	conn.row_factory = sqlite3.Row
	cursor = conn.cursor()

	try:
	cursor.execute("SELECT COUNT(*) FROM content")
	count = cursor.fetchone()[0]
	logger.info(f"Найдено {count} документов в таблице content")

	if count == 0:
	raise ValueError("Таблица content пуста")

	cursor.execute("SELECT id, chunk_text FROM content")
	valid_docs = 0

	for row in cursor:
	try:
	text = str(row['chunk_text']).strip()
	if not text:
	continue

	tokens = self._preprocess_text(text)
	if tokens and len(tokens) >= 2:
	self.corpus.append(tokens)
	self.doc_ids.append(row['id'])
	valid_docs += 1
	if valid_docs % 1000 == 0:
	logger.info(f"Обработано {valid_docs} документов")
	except Exception as e:
	logger.warning(f"Ошибка обработки документа ID {row['id']}: {str(e)}")

	if valid_docs == 0:
	raise ValueError("Нет пригодных документов после обработки")

	logger.info(f"Создание BM25 индекса для {valid_docs} документов")
	self.bm25 = BM25Okapi(self.corpus)
	logger.info(f"BM25 успешно инициализирован с {valid_docs} документами")

	except Exception as e:
	logger.error(f"Ошибка при инициализации BM25: {str(e)}")
	raise
	finally:
	conn.close()

	def _create_fallback_index(self):
	"""Создаем минимальный резервный индекс"""
	logger.warning("Создание резервного индекса BM25")

	if not self.corpus:
	test_docs = [
	"метрология это наука об измерениях",
	"государственный эталон единицы измерения",
	"поверка средств измерений",
	"метрологическое обеспечение",
	"измерительные приборы"
	]
	self.corpus = [self._preprocess_text(doc) for doc in test_docs]
	self.corpus = [doc for doc in self.corpus if doc]

	if not self.corpus:
	logger.error("Не удалось создать даже тестовый корпус")
	self.corpus = [["пусто"]]
	self.doc_ids = [0]
	else:
	self.doc_ids = list(range(len(self.corpus)))

	try:
	self.bm25 = BM25Okapi(self.corpus)
	logger.info(f"Резервный индекс создан с {len(self.corpus)} документами")
	except Exception as e:
	logger.error(f"Ошибка создания резервного индекса: {str(e)}")
	self.corpus = [["пусто"]]
	self.doc_ids = [0]
	self.bm25 = BM25Okapi(self.corpus)

	def _preprocess_text(self, text):
	"""Улучшенная обработка текста с запасным вариантом"""
	try:
	if not text or not isinstance(text, str):
	return []

	text = re.sub(r"[^\w\s\-']", " ", text.lower())

	try:
	tokens = word_tokenize(text, language='russian')
	except Exception as e:
	logger.warning(f"Ошибка NLTK токенизации: {str(e)}")
	tokens = text.split()

	return [
	token for token in tokens
	if token not in self.stop_words
	and len(token) > 2
	and not token.isdigit()
	]
	except Exception as e:
	logger.warning(f"Ошибка обработки текста: {str(e)}")
	return [t for t in text.lower().split() if len(t) > 2]


	def search(self, query, top_k=5):
	"""Поиск с помощью BM25"""
	if not self.bm25:
	logger.error("BM25 не инициализирован!")
	return []

	try:
	tokens = self._preprocess_text(query)
	if not tokens:
	logger.warning("Запрос не содержит значимых токенов")
	return []

	scores = self.bm25.get_scores(tokens)
	top_indices = np.argsort(scores)[-top_k:][::-1]

	results = []
	conn = sqlite3.connect(self.db_path)
	conn.row_factory = sqlite3.Row
	cursor = conn.cursor()

	for idx in top_indices:
	if scores[idx] <= 0:
	continue

	doc_id = self.doc_ids[idx]
	cursor.execute("""
	SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
	FROM content c
	JOIN documents d ON c.document_id = d.id
	WHERE c.id = ?
	""", (doc_id,))

	if row := cursor.fetchone():
	source = " ".join(filter(None, [
	str(row['doc_type_short']) if row['doc_type_short'] else None,
	str(row['doc_number']) if row['doc_number'] else None,
	str(row['file_name']) if row['file_name'] else None
	])) or "Неизвестный источник"

	results.append({
	"text": row['chunk_text'],
	"source": source,
	"score": float(scores[idx]),
	"type": "bm25"
	})

	conn.close()
	return results

	except Exception as e:
	logger.error(f"Ошибка поиска BM25: {str(e)}")
	return []

	# Подключение к SQLite базе
	def get_db_connection(db_path):
	try:
	conn = sqlite3.connect(db_path)
	conn.row_factory = sqlite3.Row
	return conn
	except Exception as e:
	logger.error(f"Ошибка подключения к базе данных: {e}")
	raise

	# Векторный поиск
	def vector_search(question, top_k=5, threshold=0.3):
	global model, faiss_index

	if model is None or faiss_index is None:
	logger.warning("Модель или FAISS индекс не загружены")
	return []

	try:
	question_embedding = model.encode([question])
	question_embedding = question_embedding.astype('float32')
	distances, indices = faiss_index.search(question_embedding, top_k)

	conn = get_db_connection(VECTOR_DB_PATH)
	cursor = conn.cursor()

	results = []
	for distance, faiss_id in zip(distances[0], indices[0]):
	similarity = 1 - distance

	if similarity < threshold:
	continue

	cursor.execute("SELECT chunk_id FROM map WHERE faiss_id = ?", (int(faiss_id),))
	map_result = cursor.fetchone()

	if not map_result:
	continue

	chunk_id = map_result['chunk_id']

	cursor.execute("""
	SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
	FROM content c
	JOIN documents d ON c.document_id = d.id
	WHERE c.id = ?
	""", (chunk_id,))
	chunk_result = cursor.fetchone()

	if chunk_result:
	chunk_text = chunk_result['chunk_text']
	source_parts = [
	str(chunk_result['doc_type_short']) if chunk_result['doc_type_short'] else None,
	str(chunk_result['doc_number']) if chunk_result['doc_number'] else None,
	str(chunk_result['file_name']) if chunk_result['file_name'] else None
	]
	source = " ".join(filter(None, source_parts)) or "Неизвестный источник"

	results.append({
	"text": chunk_text,
	"source": source,
	"score": float(similarity),
	"type": "vector"
	})

	conn.close()
	return results

	except Exception as e:
	logger.error(f"Ошибка векторного поиска: {e}")
	return []

	# Гибридный поиск
	def hybrid_search_results(question, top_k=5):
	vector_results = vector_search(question, top_k=top_k*2)
	bm25_results = hybrid_search.search(question, top_k=top_k*2) if hybrid_search else []

	# Объединяем результаты
	all_results = vector_results + bm25_results

	if not all_results:
	logger.warning("Не найдено результатов ни одним методом поиска")
	return []

	try:
	# Нормализуем оценки отдельно для каждого метода
	vector_scores = [r['score'] for r in all_results if r['type'] == 'vector']
	bm25_scores = [r['score'] for r in all_results if r['type'] == 'bm25']

	max_vector_score = max(vector_scores) if vector_scores else 1
	max_bm25_score = max(bm25_scores) if bm25_scores else 1

	# Нормализация и комбинирование оценок
	for result in all_results:
	if result['type'] == 'vector':
	result['normalized_score'] = result['score'] / max_vector_score
	result['combined_score'] = 0.7 * result['normalized_score'] # Больший вес для векторного поиска
	else:
	result['normalized_score'] = result['score'] / max_bm25_score
	result['combined_score'] = 0.3 * result['normalized_score']

	# Сортируем по комбинированной оценке
	all_results.sort(key=lambda x: x['combined_score'], reverse=True)

	# Удаляем дубликаты, сохраняя лучшие оценки
	unique_results = []
	seen_texts = set()

	for result in all_results:
	text_hash = hash(result['text'])
	if text_hash not in seen_texts:
	seen_texts.add(text_hash)
	unique_results.append(result)
	if len(unique_results) >= top_k:
	break

	logger.info(f"Найдено результатов: vector={len(vector_results)}, bm25={len(bm25_results)}")
	logger.info(f"После дедупликации: {len(unique_results)}")

	return unique_results

	except Exception as e:
	logger.error(f"Ошибка в гибридном поиске: {str(e)}")
	return all_results[:top_k] if all_results else []

	# Загрузка данных из XLSX
	@st.cache_data
	def load_data():
	try:
	return pd.read_excel(XLSX_FILE_PATH)
	except Exception as e:
	logger.error(f"Ошибка загрузки XLSX файла: {e}")
	return pd.DataFrame()

	# Загрузка моделей
	@st.cache_data
	def load_models():
	"""Загрузка моделей с расширенной проверкой"""
	try:
	logger.info("="*80)
	logger.info(f"Начало загрузки модели: {EMBEDDING_MODEL}")

	# Добавляем определение start_time
	start_time = time.time()

	model = SentenceTransformer(
	EMBEDDING_MODEL,
	cache_folder=os.path.expanduser("~/.cache/huggingface/hub")
	)
	model = model.to('cpu') # Сначала явно переносим на CPU

	# Проверяем работоспособность
	test_text = ["тестовый текст"]
	with torch.no_grad():
	embeddings = model.encode(test_text)

	logger.info(f"Модель загружена за {time.time()-start_time:.2f} сек")
	logger.info(f"Размерность эмбеддингов: {model.get_sentence_embedding_dimension()}")


	# 2. Загрузка FAISS индекса
	logger.info(f"Загрузка FAISS индекса: {FAISS_INDEX_PATH}")
	if not os.path.exists(FAISS_INDEX_PATH):
	error_msg = f"Индекс не найден: {FAISS_INDEX_PATH}"
	logger.error(error_msg)
	raise FileNotFoundError(error_msg)

	faiss_index = faiss.read_index(FAISS_INDEX_PATH)
	logger.info(f"Индекс загружен (размерность: {faiss_index.d}, векторов: {faiss_index.ntotal})")

	# 3. Инициализация гибридного поиска
	logger.info(f"Инициализация гибридного поиска: {VECTOR_DB_PATH}")

	# Проверка существования файла БД для BM25
	if not os.path.exists(VECTOR_DB_PATH):
	logger.error(f"Файл базы данных для BM25 не найден: {VECTOR_DB_PATH}")
	st.error(f"Файл базы данных для BM25 не найден: {VECTOR_DB_PATH}")
	return model, faiss_index, None

	# Проверка размера файла БД
	db_size = os.path.getsize(VECTOR_DB_PATH)
	logger.info(f"Размер файла БД: {db_size} байт")
	if db_size == 0:
	logger.error("Файл базы данных пуст!")
	st.error("Файл базы данных пуст!")
	return model, faiss_index, None

	hybrid_search = HybridSearch(VECTOR_DB_PATH)

	if hybrid_search and hybrid_search.bm25:
	logger.info(f"BM25 успешно инициализирован! Документов: {len(hybrid_search.corpus)}")


	else:
	logger.error("Не удалось инициализировать BM25!")
	st.error("Не удалось инициализировать текстовый поиск (BM25)")

	return model, faiss_index, hybrid_search

	except Exception as e:
	logger.critical(f"Фатальная ошибка при загрузке: {str(e)}", exc_info=True)
	st.error("""
	Критическая ошибка инициализации системы. Проверьте:
	1. Наличие всех файлов данных
	2. Логи в model_loading.log
	3. Доступ к интернету для загрузки моделей
	""")
	return None, None, None

	# Загружаем модели с логированием
	logger.info("="*80)
	logger.info("Начинается процесс загрузки всех моделей")
	try:
	model, faiss_index, hybrid_search = load_models()

	if model is None:
	logger.critical("Не удалось загрузить SentenceTransformer модель!")
	st.error("❌ Не удалось загрузить модель для векторного поиска")
	st.stop()
	if faiss_index is None:
	logger.critical("Не удалось загрузить FAISS индекс!")
	st.error("❌ Не удалось загрузить индекс FAISS")
	st.stop()
	if hybrid_search is None:
	logger.critical("Не удалось инициализировать гибридный поиск!")
	st.error("❌ Не удалось инициализировать гибридный поиск")
	st.stop()

	logger.info("Все модели успешно загружены")

	except Exception as e:
	logger.critical(f"Критическая ошибка при загрузке моделей: {str(e)}")
	st.error("❌ Критическая ошибка при инициализации системы")
	st.stop()

	# Генерация ответа с помощью GPT
	def generate_gpt_response(question, context_chunks):
	try:
	# Формируем контекст для модели
	context = "\n\n".join([f"Фрагмент {i+1}:\n{chunk['text']}\nИсточник: {chunk['source']}"
	for i, chunk in enumerate(context_chunks)])

	prompt = f"""
	Ты - ассистент-эксперт по неразрушающему контролю, который помогает находить ответы на вопросы в технической документации.

	ВАЖНО:
	1. Отвечай ТОЛЬКО на вопросы, касающиеся неразрушающего контроля и связанных с ним тем (метрология, измерения,
	контроль качества, техническая диагностика, стандарты и нормативные документы в этой области).

	2. Анализируй понятность вопроса:
	- Если вопрос содержит неясные сокращения или термины - попроси уточнения
	- Если вопрос слишком общий или неконкретный - попроси детализации
	- Если вопрос четкий и понятный - давай прямой ответ из документов

	3. При ответе:
	- Если в документах есть прямой ответ - используй его
	- Если информации недостаточно - укажи это
	- Не проси уточнений, если ответ очевиден из контекста

	Пользователь задал вопрос: "{question}"

	Ниже приведены релевантные фрагменты из документов:
	{context}

	Сформулируй четкий и структурированный ответ, основываясь на предоставленных фрагментах.
	Не указывай источники в конце ответа, они будут добавлены автоматически.

	Ответ:
	"""

	response = openai.ChatCompletion.create(
	model="openai/gpt-4.1-nano",
	messages=[{"role": "system", "content": prompt}],
	temperature=0.2,
	max_tokens=1000
	)

	return response.choices[0].message['content'].strip()

	except Exception as e:
	logger.error(f"Ошибка при генерации ответа GPT: {e}")
	return "Не удалось сгенерировать ответ. Пожалуйста, попробуйте другой вопрос."

	# Логирование
	def save_log(question, answer):
	log_entry = {
	"timestamp": datetime.now().strftime("%Y-%m-%d %H:%M:%S"),
	"question": question,
	"answer": answer
	}
	st.session_state.logs.append(log_entry)

	try:
	with open(LOG_FILE, "a", encoding="utf-8") as f:
	json.dump(log_entry, f, ensure_ascii=False)
	f.write("\n")
	except Exception as e:
	logger.error(f"Ошибка при сохранении лога: {e}")

	# Поиск ответа
	def get_answer(question):
	# Получаем все релевантные результаты
	results = []

	# 1. Проверка в базе данных
	if "метролог" in question.lower():
	conn = get_db_connection(SQLITE_DB_PATH)
	cursor = conn.cursor()
	cursor.execute("""
	SELECT c.chunk_text, d.doc_type_short, d.doc_number, d.file_name
	FROM content c
	JOIN documents d ON c.document_id = d.id
	WHERE c.id = 20
	""")
	result = cursor.fetchone()
	conn.close()

	if result:
	results.append({
	"text": result['chunk_text'],
	"source": f"{result['doc_type_short'] or '?'} {result['doc_number'] or ''} {result['file_name'] or ''}".strip(),
	"score": 1.0,
	"type": "exact"
	})

	# 2. Поиск в Excel
	qa_df = load_data()
	excel_responses = []
	excel_sources = []

	for _, row in qa_df.iterrows():
	table_question = str(row['Вопрос']).lower()
	if fuzz.partial_ratio(question.lower(), table_question) > 85:
	response = re.sub(r"^[a-zA-Zа-яА-Я]$\s*", "", str(row['Правильный ответ']))
	source = str(row['Источник ответа']) if pd.notna(row['Источник ответа']) else "?"
	excel_responses.append(response)
	excel_sources.append(source)

	if excel_responses:
	results.append({
	"text": ", ".join(set(excel_responses)),
	"source": ", ".join([s for s in set(excel_sources) if s != '?']),
	"score": 1.0,
	"type": "excel"
	})

	# 3. Гибридный поиск
	hybrid_results = hybrid_search_results(question)
	if hybrid_results:
	results.extend(hybrid_results)

	# Если есть результаты, генерируем ответ с помощью GPT
	if results:
	try:
	gpt_answer = generate_gpt_response(question, results)

	# Формируем полный ответ
	answer = f"🤖 Ответ:\n\n{gpt_answer}\n\n"

	# Собираем уникальные источники
	unique_sources = list(set(res['source'] for res in results))

	if unique_sources:
	answer += "📚 Использованные источники:\n"
	for source in unique_sources:
	answer += f"- {source}\n"

	save_log(question, answer)
	return answer

	except Exception as e:
	logger.error(f"Ошибка при генерации ответа GPT: {str(e)}")

	# 4. Если не удалось сгенерировать ответ через GPT, возвращаем обычный поиск
	if results:
	answer = "Найдены следующие релевантные фрагменты:\n\n"
	for idx, res in enumerate(results, 1):
	answer += f"### Фрагмент {idx}\n"
	answer += f"{res['text']}\n"
	answer += f"\n📚 Источник: {res['source']}\n\n"

	save_log(question, answer)
	return answer

	# 5. Ответ по умолчанию
	answer = "К сожалению, не удалось найти точный ответ. Попробуйте переформулировать вопрос."
	save_log(question, answer)
	return answer

	# Интерфейс Streamlit
	st.markdown(
	"""
	<style>
	.stApp {
	background-color: #f0f2f6;
	padding: 15px;
	}
	.stButton>button {
	background-color: #4CAF50 !important;
	color: white !important;
	border: none !important;
	border-radius: 12px !important;
	padding: 10px 20px !important;
	transition: all 0.3s !important;
	}
	.stButton>button:hover {
	background-color: #45a049 !important;
	transform: scale(1.02);
	}
	.stTextInput>div>div>input,
	.stTextArea>div>div>textarea {
	border: 2px solid #4CAF50 !important;
	border-radius: 12px !important;
	padding: 10px !important;
	}
	.chunk-box {
	background-color: #ffffff;
	border: 1px solid #dddddd;
	border-radius: 8px;
	padding: 15px;
	margin-bottom: 15px;
	}
	.vector-result {
	background-color: #f8f9fa;
	border-left: 4px solid #4285f4;
	}
	.bm25-result {
	background-color: #f8f9fa;
	border-left: 4px solid #34a853;
	}
	.gpt-response {
	background-color: #e8f5e9;
	border-left: 4px solid #2e7d32;
	padding: 15px;
	margin-bottom: 20px;
	border-radius: 8px;
	}
	.sidebar-content {
	background-color: #f8f9fa;
	}
	.sidebar .sidebar-content {
	padding: 1rem;
	}
	.stExpander {
	border: 1px solid #e0e0e0;
	border-radius: 8px;
	margin-bottom: 1rem;
	}
	</style>
	""",
	unsafe_allow_html=True
	)

	try:
	st.image("logo.png", width=150)
	except FileNotFoundError:
	st.warning("Файл logo.png не найден")

	st.sidebar.markdown("### Документы для поиска")
	st.sidebar.markdown("Этот помощник ответит на вопросы по следующим документам:")

	# Получаем список документов
	documents = get_documents_list()

	# Создаем expander для списка документов
	with st.sidebar.expander("Показать/скрыть список документов", expanded=False):
	if documents:
	for doc in documents:
	st.markdown(f"- {doc}")
	else:
	st.warning("Не удалось загрузить список документов")


	with st.sidebar.expander("Инструкция", expanded=False):
	st.markdown("""
	### Как использовать:
	1. Введите ваш вопрос в текстовое поле
	2. Нажмите кнопку "Найти ответ"
	3. Просмотрите найденные ответы.
	""")
	st.title("🔍 Поиск в технической документации")



	def submit():
	st.session_state.user_input = st.session_state.widget
	st.session_state.widget = ''

	st.text_area("Введите ваш вопрос:", height=100, key="widget", on_change=submit)

	if st.button("Найти ответ"):
	if not st.session_state.user_input.strip():
	st.warning("Пожалуйста, введите вопрос")
	else:
	with st.spinner("Ищем релевантные фрагменты и генерируем ответ..."):
	answer = get_answer(st.session_state.user_input)

	st.session_state.chat_history.append({
	"question": st.session_state.user_input,
	"answer": answer
	})

	st.markdown(f"### Вопрос:\n{st.session_state.user_input}")

	if "🤖 Сгенерированный ответ:" in answer:
	# Разбираем ответ на части
	gpt_part = answer.split("🤖 Сгенерированный ответ:")[1].split("🔍 Использованные фрагменты документов:")[0]
	chunks_part = answer.split("🔍 Использованные фрагменты документов:")[1]

	# Отображаем сгенерированный ответ
	st.markdown('<div class="gpt-response">' + gpt_part + '</div>', unsafe_allow_html=True)

	# Отображаем использованные фрагменты
	st.success("Использованные фрагменты документов:")
	parts = chunks_part.split("### Фрагмент")[1:]
	for part in parts:
	chunk_num, rest = part.split("\n", 1)
	chunk_text, source = rest.split("📚 Источник:", 1)

	# Определяем класс CSS в зависимости от типа поиска
	search_type = "vector" if "векторный" in answer else "bm25" if "BM25" in answer else "hybrid"
	css_class = f"{search_type}-result"

	with st.container():
	st.markdown(f"#### Фрагмент {chunk_num.strip()}")
	if "оценка:" in chunk_num:
	score = re.search(r"оценка: ([\d.]+)", chunk_num)
	if score:
	st.caption(f"Оценка: {score.group(1)}")
	st.markdown(f'<div class="chunk-box {css_class}">{chunk_text.strip()}</div>', unsafe_allow_html=True)
	st.markdown(f"Источник: {source.strip()}")
	elif "### Фрагмент" in answer:
	st.success("Найдены релевантные фрагменты!")
	parts = answer.split("### Фрагмент")[1:]
	for part in parts:
	chunk_num, rest = part.split("\n", 1)
	chunk_text, source = rest.split("📚 Источник:", 1)

	# Определяем класс CSS в зависимости от типа поиска
	search_type = "vector" if "векторный" in answer else "bm25" if "BM25" in answer else "hybrid"
	css_class = f"{search_type}-result"

	with st.container():
	st.markdown(f"#### Фрагмент {chunk_num.strip()}")
	if "оценка:" in chunk_num:
	score = re.search(r"оценка: ([\d.]+)", chunk_num)
	if score:
	st.caption(f"Оценка: {score.group(1)}")
	st.markdown(f'<div class="chunk-box {css_class}">{chunk_text.strip()}</div>', unsafe_allow_html=True)
	st.markdown(f"Источник: {source.strip()}")
	else:
	st.markdown(f"### Ответ:\n{answer}")

	st.session_state.user_input = ""

	if st.checkbox("Показать историю запросов"):
	st.subheader("История поиска")
	try:
	with open(LOG_FILE, "r", encoding="utf-8") as f:
	logs = [json.loads(line) for line in f.readlines()]
	for log in reversed(logs[-5:]):
	with st.expander(f"{log['timestamp']}: {log['question']}"):
	st.markdown(log["answer"])
	except FileNotFoundError:
	st.warning("Логи пока не созданы")
	except Exception as e:
	st.warning(f"Ошибка при загрузке логов: {e}")